[논문]Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정

배장성; 이창기

Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정
Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet 원문보기

배장성 (강원대학교) , 이창기 (강원대학교)

본 논문에서는 한국어 의미역 결정을 순차열 분류 문제(Sequence Labeling Problem)가 아닌 순차열 변환 문제(Sequence-to-Sequence Learning)로 접근하였고, 구문 분석 단계와 자질 설계가 필요 없는 End-to-end 방식으로 연구를 진행하였다. 음절 단위의 RNN Search 모델을 사용하여 음절 단위로 입력된 문장을 의미역이 달린 어절들로 변환하였다. 또한 순차열 변환 문제의 성능을 높이기 위해 연구된 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 한국어 의미역 결정에 적용하였다. 실험 결과, Korean PropBank 데이터에서 79.42%의 레이블 단위 f1-score, 71.58%의 어절 단위 f1-score를 보였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문의 취지는 기존 Sequence-to-Sequence 모델을 이용하여 한국어 의미역 결정 연구 진행의 가능성을 탐색하는데 있다. 따라서 한국어 의미역 결정 문제를 순차열 변환 문제로 보고 접근하였고, 이 문제를 해결하기 위해 Sequence-to-Sequence 모델을 한국어 의미역 결정에 맞게 설계 하였다.

가설 설정

본 논문의 출력은 어텐션의 가중치(Weight)를 통해 어절의 위치 정보를 찾을 수 있다는 가정을 전제로 하며 다음과 같이 설계하였다. 출력은 한국어 음절 및 동사태그, 동사의 의미 번호, 그리고 의미역 태그로 구성되며, 의미역 태그가 부여되지 않은(None label) 어절은 출력에서 제외한다.

제안 방법

본 논문의 취지는 기존 Sequence-to-Sequence 모델을 이용하여 한국어 의미역 결정 연구 진행의 가능성을 탐색하는데 있다. 따라서 한국어 의미역 결정 문제를 순차열 변환 문제로 보고 접근하였고, 이 문제를 해결하기 위해 Sequence-to-Sequence 모델을 한국어 의미역 결정에 맞게 설계 하였다. 또한 카피넷을 적용하여 OOV 문제와 출력 열의 고유명사 출력 확률 저하 문제를 해결하여 순차열 변환 문제에 성능 향상이 있음을 보였다.
본 논문에서 제시하고 있는 성능은 논항 인식 및 분류(AIC: Argument Identification & Classification)에 해당하며 성능 지표로는 정확도와 재현율의 조화평균인 f1-score를 사용한다. 또한 어절 단위, 레이블 단위의 성능으로 나누어 평가한다. 어절 단위 성능은 음절로 출력된 결과들이 정확히 하나의 어절과 일치하고, 의미역 태그 또한 일치할 때의 성능이며, 레이블 단위 성능은 음절의 맞고 틀림 여부에 상관없이 레이블을 맞추었을 때의 성능이다.
본 논문에서는 기존 한국어 의미역 결정 연구와[11,12,13] 달리 한국어 의미역 결정 문제를 순차열 분류 문제(Sequence Labeling Problem)가 아닌 순차열 변환 문제(Sequence-to-Sequence Learning)로 접근하였다. 이를 위해 순차열 변환에 적합한 RNN Search 모델을 한국어 의미역 결정에 적용하였고, 순차열 변환 문제에 사용되어 성능 향상이 있다고 알려진 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 적용하였다[6,7].
본 논문에서는 한국어 의미역 결정을 순차열 변환 문제로 접근하여 그림 1과 같이 입력과 출력을 설계하였다.

대상 데이터

새로 생성된 어텐션 가중치는 인코딩 된 히든레이어의 상태에서 t시간의 새로운 Local Context Vector c^t를 생성한다. 디코더는 두 개의 히든 레이어를 사용하며 첫 번째 층은 어텐션 메카니즘과 인풋-피딩을 적용한 GRU이며, 비선형변환 함수로는 Tanh를 사용하였다. 두 번째 층은 ReLU를 비선형변환 함수로 사용하는 FFNN이다.
디코딩은 디코더에서 출력한 음절 별 확률을 이용한 Beam search를 사용하였다. 본 논문에서 사용된 Beam size는 5, 10, 20 이며 그 중 성능이 가장 좋은 10을 사용하였다.
표 1은 한국어 의미역 결정 성능 평가 결과를 나타낸다. 본 논문의 입력, 출력 설계 방식에 맞는 비교 가능한 의미역 결정 연구가 없어, 동일한 데이터를 사용한 연구를 [11,12] 비교 대상으로 한다. RNN Search 모델, 인풋-피딩, 카피넷을 사용한 모델의 성능이 어절 단위 71.
사용된 데이터는 Korean PropBank 말뭉치 중 Newswire 말뭉치이며, 학습데이터에 19302문장, 평가데이터에 3778 문장을 사용하였다. 실험에 사용된 Input-feeding RNN Search with CopyNet 시스템은 Theano[17]를 이용하여 자체적으로 구현하였으며, 학습은 RMSProp를 사용하였다.
실험에 사용된 Input-feeding RNN Search with CopyNet 시스템은 Theano[17]를 이용하여 자체적으로 구현하였으며, 학습은 RMSProp를 사용하였다. 입력 및 출력 언어 모두 200차원의 워드임베딩(word embedding)을 사용하였고, 히든레이어의 유닛 수는 500을 사용하였다. 또한 과적합 문제를 해결하기 위해 Dropout[18]을 사용하였으며, 그 값은 0.

이론/모형

디코딩은 디코더에서 출력한 음절 별 확률을 이용한 Beam search를 사용하였다. 본 논문에서 사용된 Beam size는 5, 10, 20 이며 그 중 성능이 가장 좋은 10을 사용하였다.
본 논문에서 제시하고 있는 성능은 논항 인식 및 분류(AIC: Argument Identification & Classification)에 해당하며 성능 지표로는 정확도와 재현율의 조화평균인 f1-score를 사용한다.
디코더는 이로부터 P(y|x)를 최대화하는 출력 열을 생성한다. 본 논문은 인코더에 Long Term Dependency를 학습할 수 있는 순환 신경망의 일종인 Gated Recurrent Unit(GRU)[3]을 사용한다. RNN 인코더-디코더 모델은 입력 열을 길이에 상관없이 고정된 차원의 단일 벡터로 인코딩하는데, 이로 인해 입력 열이 길어질 경우 성능이 하락하는 문제점이 있다.
본 연구는 한국어 의미역 결정을 순차열 변환 문제로 접근하였고, 순차열 변환 문제를 다루는 기계번역 분야의 [5]의 연구와 이를 구문분석 분야에 적용한 [9]의 연구, 형태소 분석에 적용한 [10]의 연구를 바탕으로 하고 있다.
사용된 데이터는 Korean PropBank 말뭉치 중 Newswire 말뭉치이며, 학습데이터에 19302문장, 평가데이터에 3778 문장을 사용하였다. 실험에 사용된 Input-feeding RNN Search with CopyNet 시스템은 Theano[17]를 이용하여 자체적으로 구현하였으며, 학습은 RMSProp를 사용하였다. 입력 및 출력 언어 모두 200차원의 워드임베딩(word embedding)을 사용하였고, 히든레이어의 유닛 수는 500을 사용하였다.
본 논문에서는 기존 한국어 의미역 결정 연구와[11,12,13] 달리 한국어 의미역 결정 문제를 순차열 분류 문제(Sequence Labeling Problem)가 아닌 순차열 변환 문제(Sequence-to-Sequence Learning)로 접근하였다. 이를 위해 순차열 변환에 적합한 RNN Search 모델을 한국어 의미역 결정에 적용하였고, 순차열 변환 문제에 사용되어 성능 향상이 있다고 알려진 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 적용하였다[6,7]. 실험 결과, Korean PropBank[14] 데이터에서 79.

성능/효과

본 논문의 입력, 출력 설계 방식에 맞는 비교 가능한 의미역 결정 연구가 없어, 동일한 데이터를 사용한 연구를 [11,12] 비교 대상으로 한다. RNN Search 모델, 인풋-피딩, 카피넷을 사용한 모델의 성능이 어절 단위 71.58%, 레이블 단위 79.42%의 성능을 보였다. 어절 단위 성능에서 기존 연구보다 낮은 성능을 보였으나, 레이블 단위 성능은 더 앞선 것을 볼 수 있었다.
따라서 한국어 의미역 결정 문제를 순차열 변환 문제로 보고 접근하였고, 이 문제를 해결하기 위해 Sequence-to-Sequence 모델을 한국어 의미역 결정에 맞게 설계 하였다. 또한 카피넷을 적용하여 OOV 문제와 출력 열의 고유명사 출력 확률 저하 문제를 해결하여 순차열 변환 문제에 성능 향상이 있음을 보였다.
그림 5는 본 시스템의 출력 결과이며, 의미역 태그는 맞았으나 음절이 틀려 오류로 측정된 결과가 나타남을 알 수 있다. 또한, 카피넷을 적용한 모델이 그렇지 않은 모델보다 어절 단위 성능에서 6.29% 더 높은 성능을 보였다. 이를 통해 카피넷이 순차열 변환 문제에서 OOV문제와 고유명사의 출력 확률 저하 문제를 해결하여 성능 향상에 크게 도움이 됨을 알 수 있다.
이를 위해 순차열 변환에 적합한 RNN Search 모델을 한국어 의미역 결정에 적용하였고, 순차열 변환 문제에 사용되어 성능 향상이 있다고 알려진 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 적용하였다[6,7]. 실험 결과, Korean PropBank[14] 데이터에서 79.42%의 레이블 단위 f1-score, 71.58%의 어절 단위 fl-score를 보였다.
42%의 성능을 보였다. 어절 단위 성능에서 기존 연구보다 낮은 성능을 보였으나, 레이블 단위 성능은 더 앞선 것을 볼 수 있었다. 어절 단위의 성능은 시스템이 생성하는 의미역 태그 및 모든 음절이 고려되기 때문에, 이미 알고 있는 어절을 분류 문제로 해결한 [11,12]의 성능보다 필연적으로 낮다고 생각된다.
29% 더 높은 성능을 보였다. 이를 통해 카피넷이 순차열 변환 문제에서 OOV문제와 고유명사의 출력 확률 저하 문제를 해결하여 성능 향상에 크게 도움이 됨을 알 수 있다.

후속연구

향후 연구로는 Sequence-to-Sequence 모델을 한국어 의미역 결정에 맞게 구조 및 기능을 조정하고, 다른 자연어처리 분야에 적용하는 방법을 연구할 계획이다.

핵심어

질문

논문에서 추출한 답변

의미역 결정이란?

의미역 결정(Semantic Role Labeling)은 문장의 각 서술어의 의미와 그 논항(Argument)들의 의미역을 결정하여 “누가, 무엇을, 어떻게, 왜” 등의 의미 관계를 찾아내는 자연어처리의 한 단계이며 관계추출, 질의응답과 같은 다양한 자연어처리 응용의 성능 향상을 위한 입력으로 사용될 수 있다.

의미역 결정 연구 중 격틀사전에 기반을 둔 방법은 어떤 방법을 말하는 것인가?

의미역 결정 연구는 크게 격틀사전에 기반을 둔 방법과 말뭉치에 기반을 둔 방법으로 나눌 수 있다. 격틀사전에 기반을 둔 방법은 서술어와 논항에 대한 문법 관계를 기술한 격틀(Frame)과 논항들의 정보를 기술한 선택제약(Selectional Restriction)등을 이용하여 의미역을 결정하는 방법이다. 말뭉치에 기반을 둔 방법은 의미역이 태깅된 말뭉치를 구축하고, 구축된 말뭉치를 이용하여 기계학습 방법으로 의미역을 결정하는 방법이다.

Sequence-to-Sequence 모델은 주로 어떤 연구에 사용되고 있는가?

최근 자연어처리 연구에는 이미지처리, 음성인식 연구에서 큰 성공을 거둔 딥러닝(Deep-learning)을 자연어처리에 적용하는 연구가 많이 이루어지고 있다[1-11]. 그 중 순환 신경망(Recurrent Neural Network)을 이용한 Sequence-to-Sequence 모델은 임의 길이의 입력 순차열을 다른 종류의 순차열로 변환하는 확률모델로 기계번역 연구에 주로 사용되고 있다[2-8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정
Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정 Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정
Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper