[논문]기계학습 기법을 이용한 한국어 구문분석

이용훈; 이종혁

기계학습 기법을 이용한 한국어 구문분석
Korean Parsing using Machine Learning Techniques 원문보기

이용훈 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과) , 이종혁 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과)

최근의 구문분석 연구는 컴퓨터 성능 향상과 사용 가능한 대량의 구문분석 말뭉치 증가, 견고한 기계학습 기법 개발 등에 힘입어 통계적인 모델 연구가 꾸준히 증가하고 있다. 본 논문에서는 기존에 개발된 다양한 기계학습 기법 중 ME(Maximum Entropy) 모델과 SVM(Support vector machine) 모델을 이용한 한국어 구문분석 방법을 제안한다. 국어정보베이스(KIBS) 구문분석 말뭉치를 가지고 실험한 결과 SVM 모델을 이용한 한국어 구문분석기가 기존의 확률 기반 통계적 한국어 구문분석기의 성능보다도 최대 1.84% 높은 87.46%의 의존관계 결정 정확률을 보였다. 추후 언어지식을 반영한 다양한 자질들을 이용할 경우 성능 향상이 기대된다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다양한 기계학습 기법 중에서M E 모델과 SVM 모델을 이용한 한국어 구문분석 방법을 제안하고 그 실험결과를 제시하였다. 실험을 통해 SVM 모델을 이용한 구문분석은 최대 87.

제안 방법

2절에서 제시한 두 가지 구문분석 모델은 국어정보베이스(Korean Language Information Base) 구문분석 말뭉치를 사용하여 학습하고 평가하였다. 총 12,084 문장 중 랜덤하게 뽑은 10,876문장(90%)을 학습데이터로 사용하여 모델을 구축하였고 나머지 1,208 문장(10%)을 평가데이터로 사용하였다.
본 논문에서 사용하는 문맥자질은 가장 기본적인 어절 자체의 정보로 어절의 어휘(surface form)와 어절을 구성하는 전체 형태소들의 어휘와 품사(POS tag), 어절의 타입(내용어 및 기능어 타입), 내용어 및 기능어들의 어휘와 품사(한개 이상의 형태소로 구성될 수 있다)를 사용하였으며, 어절과 어절 간의 자질로서 어절 간의 거리, 어절 사이에 존재하는 괄호 정보, 어절 사이에 대상이 되는 좌/우 어절과 똑같은 형태의 어절이 존재하는지의 여부를 사용하였다. 또한 이 두 가지 자질 중에 2개에서 4개의 자질을 조합하여 만든 자질을 사용하였다.

대상 데이터

본 논문에서 사용하는 문맥자질은 가장 기본적인 어절 자체의 정보로 어절의 어휘(surface form)와 어절을 구성하는 전체 형태소들의 어휘와 품사(POS tag), 어절의 타입(내용어 및 기능어 타입), 내용어 및 기능어들의 어휘와 품사(한개 이상의 형태소로 구성될 수 있다)를 사용하였으며, 어절과 어절 간의 자질로서 어절 간의 거리, 어절 사이에 존재하는 괄호 정보, 어절 사이에 대상이 되는 좌/우 어절과 똑같은 형태의 어절이 존재하는지의 여부를 사용하였다. 또한 이 두 가지 자질 중에 2개에서 4개의 자질을 조합하여 만든 자질을 사용하였다. (표 1)은 본 논문에서 사용한 문맥자질들을 정리한 것이다.
본 논문에서 사용한 통계적 한국어 구문분석은 ME 모델을 이용한 구문분석과 SVM 모델을 이용한 구문분석이다. 이들 구문분석은 한국어와 같이 부분적 자유어순을 가진 언어에 적합하다고 알려진 의존문법에 사용한다.
영어나 일본어 연구에는 이러한 순수한 확률 모델 외에도 기계학습 기법에 기반한 연구들이 많다. 본 논문의 모델이 되는 연구는 ME 모델에 기반한 일본어 의존구조 분석[1]과 SVM 모델을 이용한 통계적 의존관계 분석[2, 5] 두 가지이다.
84% 높은 성능으로서 제안방법이 매우 높은 성능을 보이고 있음을 알 수 있다[7]. 실험에 사용한 ME, SVM toolkit은 각각 [8], [9]이다.
2절에서 제시한 두 가지 구문분석 모델은 국어정보베이스(Korean Language Information Base) 구문분석 말뭉치를 사용하여 학습하고 평가하였다. 총 12,084 문장 중 랜덤하게 뽑은 10,876문장(90%)을 학습데이터로 사용하여 모델을 구축하였고 나머지 1,208 문장(10%)을 평가데이터로 사용하였다. (표 2)는 ME 모델을 사용한 통계 구문분석기의 성능을 Beam의 크기를 변화해 가면서 평가한 결과이다.

이론/모형

ME 모델을 이용한 구문분석은 한국어의 머리어 후위 원칙과 N개의 구문분석 결과를 출력할 수 있는 Backward beam search 방법을 이용하였다[3]. (그림 1)은 “그는 다시 파이를 만들어 그녀에게 주었다.
실제로 ME는 형태소분석 및 태깅, 구문분석 등의 여러 NLP 분야에 사용되어 높은 성능을 보인 바 있다. 구문분석 알고리즘은 일본어의 특성 중 머리어 후위(head-final)1) 원칙을 반영한 Sekine의 Backward beam search방법[3]을 이용하였다. Yamada는 영어를 대상으로 SVM 모델을 이용한 결정적 의존관계 구문분석기를 개발하였는데, SVM 모델을 이용하여 문장을 구성하는 각각의 단어들에 대해 양쪽 문맥의 다양한 자질들을 이용하여 Shift, Right, Left 세 가지 action을 결정하는 식으로 구문분석을 수행한다.
GIS(Generalized Iterative Scaling), IIS(Improved Iterative Scaling) 등의 학습 알고리즘이 있지만 최근에는 가장 최적화된 알고리즘으로 알려진 L-BFGS(Limited-Memory Variable Metric)을 주로 사용한다. 본 연구에서는 ME 알고리즘을 따로 구현하지 않고 Zhang Le의 C++버젼 ME toolkit[9]을 사용하였다.

성능/효과

본 연구에서 제안한 SVM 모델을 이용한 한국어 구문분석 성능은 87.46% 의존관계 정확률을 보였다. 이는 비슷한 방법을 사용하여 일본어와 영어에 적용한 Kudo와 Yamada의 구문분석기의 성능보다 낮은 성능을 보였다.
본 논문에서는 다양한 기계학습 기법 중에서M E 모델과 SVM 모델을 이용한 한국어 구문분석 방법을 제안하고 그 실험결과를 제시하였다. 실험을 통해 SVM 모델을 이용한 구문분석은 최대 87.46%의 의존관계 정확률을 보였다. 이는 비록 일본어나 영어에 비해 다소 낮은 성능이지만 한국어의 기본단위인 어절이 복잡하게 구성된다는 점과 문장의 구성성분인 주어나 목적어 등의 성분이 쉽게 생략된다는점, 보조사와 같은 기능어 때문에 발생하는 중의성 등으로 인해 구문분석이 좀 더 어렵다는 점 때문에 기인한 것으로 보인다.
(표 2)는 ME 모델을 사용한 통계 구문분석기의 성능을 Beam의 크기를 변화해 가면서 평가한 결과이다. 표의 결과에서 알 수 있듯이 Beam의 크기가 1일 경우 가장 높은 성능이 나타났다. 이는 한국어의 경우, 두 어절 간의 의존관계가 뒤쪽에서 차례차례 결정적으로 판단하여 구문분석 결과를 구하는 경우나 전체 문장을 모두 고려해서 가장 확률이 높은 것을 구하는 것에 차이가 없다는 것을 의미한다.
하지만 이러한 성능은 본 논문에서와 동일한 문서집합에서 구문분석을 해 높은 성능을 얻은 Chung의 구문분석기와 비교해 최대 1.84% 높은 성능으로서 제안방법이 좀 더 우수함을 입증한다. 향후 본 논문에서 제안한 기계학습에 기반한 한국어 구문분석 방법과 기존의 사전과 규칙에 기반한 구문분석 방법론을 하나로 합친 하이브리드 방법론을 연구할 예정이다.

후속연구

이는 한국어의 어절이 일본어와 영어보다 복잡하게 구성을 가지며 중의성이 높아서 얻어진 결과이다. 실제로 구문분석 오류의 많은 부분이 보조사를 사용한 어절의 잘못된 머리어 선택³⁾이라든가, 대등접속구문을 따로 처리하지 않음으로써 잘못된 머리어를 선택하는 경우에서 빚어진 것을 보면 이에 대한 추가적인 성능 보완이 필요하다. 한국어의 특징과 중의성을 해결할 수 있는 문맥자질을 보완한다면 다른 언어와 같은 높은 성능을 얻을 수 있으리라 기대한다.
각 어절간의 의존관계 결정 시에 가장 유용하게 사용되는 자질은 기능어이다. 앞서 설명하였듯이 기능어는 그 자체만으로도 문장기능이나 어절 간의 관계를 나타내므로 문맥자질 집합을 선정할 때 이를 잘 반영함으로써 높은 구문분석 성능을 기대할 수 있을 것이다.
각각의 Beam에 대해서 앞의 과정을 반복하면 총 6개의 구문분석 결과 후보가 가능하지만 각각의 의존관계가 서로 교차하지 않는다는 의존문법의 특성을 적용하게 되면 5개의 후보만이 남게 된다. 이를 다시 확률에 따라 정렬하여 미리 설정한 Beam의 크기만큼의 결과만을 남기고 앞의 과정을 반복하게 되면 최종적으로 Beam의 크기에 해당하는 구문분석 결과를 얻게 된다. 만약 최적의 구문분석 결과만을 원한다면 확률이 제일 큰 것을 출력하면 된다.
이는 비록 일본어나 영어에 비해 다소 낮은 성능이지만 한국어의 기본단위인 어절이 복잡하게 구성된다는 점과 문장의 구성성분인 주어나 목적어 등의 성분이 쉽게 생략된다는점, 보조사와 같은 기능어 때문에 발생하는 중의성 등으로 인해 구문분석이 좀 더 어렵다는 점 때문에 기인한 것으로 보인다. 추후 추가 연구를 통해 이러한 문제점을 보완해 나갈 예정이다.
실제로 구문분석 오류의 많은 부분이 보조사를 사용한 어절의 잘못된 머리어 선택³⁾이라든가, 대등접속구문을 따로 처리하지 않음으로써 잘못된 머리어를 선택하는 경우에서 빚어진 것을 보면 이에 대한 추가적인 성능 보완이 필요하다. 한국어의 특징과 중의성을 해결할 수 있는 문맥자질을 보완한다면 다른 언어와 같은 높은 성능을 얻을 수 있으리라 기대한다.
84% 높은 성능으로서 제안방법이 좀 더 우수함을 입증한다. 향후 본 논문에서 제안한 기계학습에 기반한 한국어 구문분석 방법과 기존의 사전과 규칙에 기반한 구문분석 방법론을 하나로 합친 하이브리드 방법론을 연구할 예정이다.

핵심어

질문

논문에서 추출한 답변

한국어의 문장의 기본단위는 무엇인가?

한국어의 문장은 그 기본단위가 어절이다. 어절은 보통 하나의 내용어(content word)와 여러 개의 기능어(function word)가 접합되는데 이러한 특징 때문에 한국어는 교착어(agglutinative language)로 분류된다.

M E 모델과 SVM 모델을 이용한 한국어 구문분석 방법을 제안한 실험의 결과는 어떠한가?

본 논문에서는 다양한 기계학습 기법 중에서M E 모델과 SVM 모델을 이용한 한국어 구문분석 방법을 제안하고 그 실험결과를 제시하였다. 실험을 통해 SVM 모델을 이용한 구문분석은 최대 87.46%의 의존관계 정확률을 보였다. 이는 비록 일본어나 영어에 비해 다소 낮은 성능이지만 한국어의 기본단위인 어절이 복잡하게 구성된다는 점과 문장의 구성성분인 주어나 목적어 등의 성분이 쉽게 생략된다는점, 보조사와 같은 기능어 때문에 발생하는 중의성 등으로 인해 구문분석이 좀 더 어렵다는 점 때문에 기인한 것으로 보인다. 추후 추가 연구를 통해 이러한 문제점을 보완해 나갈 예정이다.

의존구문분석의 특징은 무엇인가?

잘 발달된 조사나 어미와 같은 기능어를 통해 문장의 시제나 문장성분, 어절과 어절 간의 관계 등이 나타나기 때문에 한국어는 비교적 자유로운 어순을 가질 수 있으며 이 때문에 영어나 불어와 같은 언어와는 달리 주로 의존문법을 사용하여 구문분석을 하게 된다. 의존구문분석의 특징 중 가장 보편적인 특징에는 각 어절의 머리어(head)가 유일해야 한다는 것(uniqueness)과 각각의 의존관계는 서로 교차하지 않는다는 특징(projectivity)이 있다. 또한 한국어의 고유한 특징으로는 머리어 후위 원칙이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

기계학습 기법을 이용한 한국어 구문분석
Korean Parsing using Machine Learning Techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

기계학습 기법을 이용한 한국어 구문분석 Korean Parsing using Machine Learning Techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

기계학습 기법을 이용한 한국어 구문분석
Korean Parsing using Machine Learning Techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper