[논문]의존 경로와 음절단위 의존 관계명 분포 기반의 Bidirectional LSTM CRFs를 이용한 한국어 의존 관계명 레이블링

안재현; 이호경; 고영중

문제 정의

본 연구에서는 의존 관계명을 부착하기 위해 이전 의존관계의 정보가 중요한 자질로 사용된다. 그러므로 본 연구에서 의존경로를 제안한다. 순차 레이블링 문제임을 입증하기 위해 다음과 같은 실험을 진행하였다.
본 논문은 한국어 의존구문 분석 이후 의존소와 지배소의 관계명을 부착하는 연구이다. 의존관계가 주어의 관계인지 목적어의 관계인지 등을 부착하여, SRL(Semantic Role Labeling)에서 분석된 의존 관계명(Dependency relation label)[6]을 사용하여 성능을 개선하는 등, 의존관계와 의존 관계명은 전반적인 자연어 처리(Natural Language Processing) 분야에서 중요한 정보로 활용되고 있다.
최적의 입력 열을 추출하기 위해 의존 경로를 추출해야 한다. 본 연구에서는 의존 구문트리에서 경로가 다른 모든 의존경로를 추출하여 모든 의존 경로에 대하여 학습을 하였다. 이와 같은 방식으로 학습을 하면 중복된 의존관계가 많이 포함되기 때문에 의존 관계명에 대한 평가 방법이 정확하다고 볼 수 없다.
그러나 기존의 연구에서 의존 관계명을 부착하는데 입력된 어절의 순서대로 넣기 때문에 이전 의존관계의 정보를 정확하게 사용하지 못하는 단점이 있었다[7]. 앞서 말한 순차적인 의존관계의 정보를 잘 활용하기 위해서 본 논문에서는 최적의 입력 열인 의존경로(Dependency Path)를 추출하여 의존 관계명을 분석하는 기법에 대해서 연구한다. 의존경로는 의존 구문트리에서 최하위 잎 노드(의존소)에서 부모노드(지배소)를 방문하여 최상위 Root까지 노드들의 입력 열을 의미한다.
앞서 제안한 의존 경로(Dependency Path)에서 의존소와 지배소의 의존 관계명을 부착하기 위해 순차 레이블링 문제와 의존 경로의 타당성을 증명하기 위한 실험이다. [7]의 경우 의존 관계명을 부착하기 위해서 세종계획 구구조 말뭉치를 의존구조 말뭉치로 변경하여 사용하였고 자질은 의존 관계에서의 의존소, 지배소의 기능어, 내용어 어휘 및 품사를 추출하여 자질로 사용하였다.

가설 설정

순차 레이블링 문제임을 입증하기 위해 다음과 같은 실험을 진행하였다. 첫 번째는 다중 클래스 분류 문제와 순차 레이블링 문제를 비교하기 위해 먼저 다중 클래스 분류로 가정하고 실험을 진행하였다. 실험을 위해 SVM(Support Vector machine)을 사용하였다.

제안 방법

음절 당 분포의 벡터는 “경지는”이라는 어절이 NP-SBJ라는 의존 관계명과 NP_OBJ라는 관계관계명이 존재했을 때 어절을 음절 단위로 나누어 “경”이라는 음절은 B-NP-SBJ, B-NP-OBJ이고 “지”는 I-NP-SBJ, B-NP-OBJ “는”은 I-NP-SBJ, I-NP-OBJ이다. B(단어의 시작)과 I(단어의 시작이 아닌)로 의존 관계명이 36개에서 총 72차원의 의존 관계명의 분포를 구하였다. 다음 표 5는 음절 당 관계명의 분포의 예이다.
그리고 의존소와 지배소의 관계를 표현하기 위해 의존 구문트리를 구축하고, 의존 구문트리에서의 의존 경로를 추출하여 최적의 입력 열로 표현하였다. bi-LSTM-CRFs의 입력 값으로 의존 경로로 표현된 어절을 사용하며 경로 상에 있는 어절의 단어표상(word embedding), 품사 출현 벡터와 음절 기반 단어벡터를 사용하였다. 품사 출현 벡터는 어절에서 출현한 모든 형태소들의 품사를 출현벡터 표현하였다.
본 논문에서는 주어, 목적어, 보어 등의 의존 관계명 부착을 위해 Bidirectional Long Short Term Memory Conditional Random Fields(bi-LSTM-CRFs)를 사용한다. 그리고 의존소와 지배소의 관계를 표현하기 위해 의존 구문트리를 구축하고, 의존 구문트리에서의 의존 경로를 추출하여 최적의 입력 열로 표현하였다. bi-LSTM-CRFs의 입력 값으로 의존 경로로 표현된 어절을 사용하며 경로 상에 있는 어절의 단어표상(word embedding), 품사 출현 벡터와 음절 기반 단어벡터를 사용하였다.
그리하여 SVM 모델의 경우 의존소와 지배소의 모든 어휘와 모든 품사를 20차원벡터로 표현하여 학습을 하였다. CRFs 모델의 경우 의존 경로를 이용하여 의존 관계명 부착을 하였다.
SVM의 입력으로 의존소와 지배소의 어휘와 품사를 사용하였고, [7]의 성능과 유사하였으나 조금 낮은 성능을 보였다. 두 번째는 순차 레이블링 문제로 가정하고 모든 의존관계를 의존 구문 트리로 표현하여 최적의 입력 열인 의존경로를 추출하였다. 의존경로에서 어절들을 CRFs로 학습한 결과 성능이 다중 클래스 분류(SVM)에서 보다 6.
본 논문에서의 음절 기반 임베딩 벡터는 사전학습(pretraining)된 어절이 bi-LSTM-CRFs의 입력으로 들어가기 전 어절을 음절 단위로 잘라 각 음절의 관계명 분포값을 LSTM(Long Short Term Memory)의 입력으로 넣어 어절을 표현한다.
음절 기반의 임베딩 벡터는 해당 음절에 대한 모든 관계명의 분포로 입력된 어절을 음절 단위로 나누어 각각의 벡터를 LSTM의 입력으로 사용하여 음절 기반 임베딩 벡터로 표현했다. 아래 표 2는 제안하는 모델에서 사용한 자질이다.
[7]의 경우 의존 관계명을 부착하기 위해서 세종계획 구구조 말뭉치를 의존구조 말뭉치로 변경하여 사용하였고 자질은 의존 관계에서의 의존소, 지배소의 기능어, 내용어 어휘 및 품사를 추출하여 자질로 사용하였다. 입력된 어절의 순서대로 CRFs의 입력으로 사용했기에 오류를 포함하고 이전의 의존 관계에 대한 정보를 사용하지 않기 때문에 의존 관계명 부착은 순차 레이블링 문제로써 타당성을 검증하는 실험을 진행하였다. 본 실험에서 SVM은 다중 클래스 분류를 위해서 사용되었고, CRFs는 순차 레이블링을 위해서 사용되었다.
입력의 형태는 어절과 품사 출현 벡터, 음절 기반 임베딩 벡터를 사용하였는데, 의존소 어절을 표현하기 위해 어절 임베딩 벡터를 사용하였다. 어절 임베딩 벡터는 대량의 말뭉치에서 어절 기준으로 Word2Vec의 CBOW[13]모델을 사용하여 구하였다.
이와 같은 방식으로 학습을 하면 중복된 의존관계가 많이 포함되기 때문에 의존 관계명에 대한 평가 방법이 정확하다고 볼 수 없다. 평가의 정확성을 위해 모든 의존 트리에서 중복된 의존 관계를 제거하여 성능을 평가 했다.

대상 데이터

입력된 어절의 순서대로 CRFs의 입력으로 사용했기에 오류를 포함하고 이전의 의존 관계에 대한 정보를 사용하지 않기 때문에 의존 관계명 부착은 순차 레이블링 문제로써 타당성을 검증하는 실험을 진행하였다. 본 실험에서 SVM은 다중 클래스 분류를 위해서 사용되었고, CRFs는 순차 레이블링을 위해서 사용되었다.
세종 구구조 말뭉치에서 의존구조로 변형된 코퍼스를 사용하였고 전체 데이터에서 23,002개의 문장을 임의로 추출하여 18,403개는 학습데이터로, 4,599개의 문장은 평가 데이터로 사용하였고, 개발 데이터로 학습 데이터에서 1,300문장을 임의로 추출하여 사용하였다.
첫 번째는 다중 클래스 분류 문제와 순차 레이블링 문제를 비교하기 위해 먼저 다중 클래스 분류로 가정하고 실험을 진행하였다. 실험을 위해 SVM(Support Vector machine)을 사용하였다. SVM의 입력으로 의존소와 지배소의 어휘와 품사를 사용하였고, [7]의 성능과 유사하였으나 조금 낮은 성능을 보였다.

이론/모형

본 논문에서는 의존 경로의 어절을 bi-LSTM-CRFs의 입력으로 사용하였다. 예시문장으로 “경지는 미소를 지으며 속으로 중얼거렸다”이며, 트리의 잎(leaf)노드의 수만큼 경로가 생성되고, 자식노드는 의존소, 부모노드는 지배소가 되어 최적의 입력 열이 되고 각 어절마다 의존 관계명을 부착한다.
본 논문에서는 주어, 목적어, 보어 등의 의존 관계명 부착을 위해 Bidirectional Long Short Term Memory Conditional Random Fields(bi-LSTM-CRFs)를 사용한다. 그리고 의존소와 지배소의 관계를 표현하기 위해 의존 구문트리를 구축하고, 의존 구문트리에서의 의존 경로를 추출하여 최적의 입력 열로 표현하였다.
입력의 형태는 어절과 품사 출현 벡터, 음절 기반 임베딩 벡터를 사용하였는데, 의존소 어절을 표현하기 위해 어절 임베딩 벡터를 사용하였다. 어절 임베딩 벡터는 대량의 말뭉치에서 어절 기준으로 Word2Vec의 CBOW[13]모델을 사용하여 구하였다. 의존소의 품사 열은 품사 출현벡터의 형태로 표현하였다.

성능/효과

모델[가], [나]와 모델[다]의 성능을 비교 하였을 때 의존 관계명은 순차 레이블링을 적용했을 때 더 높은 성능을 얻을 수 있음을 확인할 수 있었다. 결과적으로 본 논문에서 제안한 최적의 입력 열인 의존 경로를 사용하는 것이 가장 높은 성능을 나타낸다.
결과적으로 의존 구문트리에서 추출한 최적의 입력 열인 의존 경로를 사용하여 의존 관계명을 부착하는 것이 기존의 연구와 같이 어절을 입력 순서와 동일하게 학습하는 것 보다 개선된 성능을 보였고, 음절 임베딩 벡터를 활용하는 bi-LSTM-CRFs 모델이 성능 면에서 개선되었다. 그리고 어절의 단어 표상과 품사 출현 벡터만을 사용하는 방법보다 추가적으로 음절에 대한 의존 관계명의 분포를 사용한 경우가 해당 어절의 의존 관계를 잘 분석하기 위해서 좋은 자질임을 알 수 있다.
기존의 연구는 이전 의존 관계의 자질을 현재의 의존 관계명 부착에 활용하지 않는 문제가 있다. 그러나 최적의 입력 열과 CRFs를 활용하여 의존 관계명을 부착하였을 때 기존의 연구인 CRFs를 사용한 실험과 SVM을 사용한 실험의 성능보다 각각 4.1%p, 6.8%p를 향상하였다. 또한, 제안된 의존 경로와 음절 기반 임베딩 벡터를 사용하는 bi-LSTM-CRFs 모델은 최종적으로 기존의 연구보다 5.
1%p 개선되었다. 그리하여 다중 클래스 분류문제라기 보다 순차 레이블링 문제라고 보는 것이 타당하다는 결론을 맺었다.
그림 4는 [가],[라],[마]에 따른 F1 성능 비교를 나타낸다. 기존 연구[가]의 성능 보다 의존 경로와 bi-LSTM-CRFs를 사용한 [라]에서 4.6%p 향상되었고, [마]에서 의존 경로와 bi-LSTM-CRFs, 음절기반 임베딩을 사용하였을 때 5.21%p 향상된 성능을 보였다.
8%p를 향상하였다. 또한, 제안된 의존 경로와 음절 기반 임베딩 벡터를 사용하는 bi-LSTM-CRFs 모델은 최종적으로 기존의 연구보다 5.21%p 높은 성능(96.01%)을 보였다.
모델[가], [나]와 모델[다]의 성능을 비교 하였을 때 의존 관계명은 순차 레이블링을 적용했을 때 더 높은 성능을 얻을 수 있음을 확인할 수 있었다. 결과적으로 본 논문에서 제안한 최적의 입력 열인 의존 경로를 사용하는 것이 가장 높은 성능을 나타낸다.
의존경로는 의존 구문트리에서 최하위 잎 노드(의존소)에서 부모노드(지배소)를 방문하여 최상위 Root까지 노드들의 입력 열을 의미한다. 본 연구에서 제안하는 의존 경로를 CRFs으로 학습하여 기존 연구[7]에서 제안한 문장의 입력 어절 순서를 사용하는 시스템의 성능보다 4.1%p 높은 성능을 획득하였다.
음절기반 임베딩 벡터는 대량의 말뭉치에서 한 음절이 출현하는 관계명 분포를 음절 출현 분포를 구하여 활용한다. 본 연구에서는 말뭉치에서 미리 계산한 음절 당 관계명 분포를 구하고 의존 경로에서의 어절을 음절 단위로 나누어 미리 구해진 분포를 적용하여 LSTM의 입력으로 사용하여 구해진 단어벡터를 추가적인 자질로 사용하여, 어절의 단어 표상과 품사 열을 사용한 기본 bi -LSTM-CRFs모델보다 개선된 성능을 보였다.
두 번째는 순차 레이블링 문제로 가정하고 모든 의존관계를 의존 구문 트리로 표현하여 최적의 입력 열인 의존경로를 추출하였다. 의존경로에서 어절들을 CRFs로 학습한 결과 성능이 다중 클래스 분류(SVM)에서 보다 6.18%p 개선되었고 최적의 입력 열을 사용하지 않은 [7]의 연구보다 성능 면에서 4.1%p 개선되었다. 그리하여 다중 클래스 분류문제라기 보다 순차 레이블링 문제라고 보는 것이 타당하다는 결론을 맺었다.
제안된 기법은 실험을 통해서 bi-LSTM-CRFs, 어절 단어표상, 어절의 품사 출현 벡터, 음절 기반 단어벡터를 활용하여 96.01%의 의존 관계명 부착 정확도를 가지는 모델을 구축할 수 있었다.

핵심어	질문	논문에서 추출한 답변
	의존구문분석은 무엇인가?	의존구문분석(Dependency Parsing)은 문장에서 어절 간의 구조를 찾아내는 것을 말하며, 모든 어절은 지배소 혹은 의존소가 될 수 있고 어절 사이 관계를 파악하는 것을 말한다. 의존구문분석(Dependency Parsing)의 연구는 전이기반(Transition Based)[1] 방식과 그래프 기반 (Graph Based) [2]방식이 존재하며, 국내에서 적용한 연구는 전이기반 방식과 딥러닝을 활용한 연구[3]이 있고, 그래프 기반과 온라인 학습을 이용한 연구[4,5]가 있다.
	의존구문분석의 연구에는 무엇이 존재하는가?	의존구문분석(Dependency Parsing)은 문장에서 어절 간의 구조를 찾아내는 것을 말하며, 모든 어절은 지배소 혹은 의존소가 될 수 있고 어절 사이 관계를 파악하는 것을 말한다. 의존구문분석(Dependency Parsing)의 연구는 전이기반(Transition Based)[1] 방식과 그래프 기반 (Graph Based) [2]방식이 존재하며, 국내에서 적용한 연구는 전이기반 방식과 딥러닝을 활용한 연구[3]이 있고, 그래프 기반과 온라인 학습을 이용한 연구[4,5]가 있다.
	자연어에 대한 의존구조 파싱 기술 중 McDonald가 제안한 알고리즘은 어떠한가?	McDonald가 제안한 알고리즘은 일정한 자질 집합을 정의하고 각 어절의 의존관계마다 그 자질 집합을 만든다. 그 후, 생성된 모든 가능한 의존 관계를 이용하여 간선을 포함하는 그래프를 만들고 그 안에서 가장 점수가 높은 최대 신장 트리를 이용하여 파스트리를 결정하는 것이다[2,4-5]. 이러한 방식을 그래프 기반 모델이라고 불리는데 전역적 학습 모델로써 O(n2, n3)의 시간 복잡도를 가진다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper