[논문]이종의 통계정보를 이용한 품사 부착 기법

조세형

doi:10.5391/jkiis.2008.18.4.501

초록
AI-Helper

통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

Abstract ▼ AI-Helper

Statistical POS tagging is prone to error, because of the inherent limitations of statistical data, especially single source of data. Therefore it is widely agreed that the possibility of further enhancement lies in exploiting various knowledge sources. However these data sources are bound to be inc...

Statistical POS tagging is prone to error, because of the inherent limitations of statistical data, especially single source of data. Therefore it is widely agreed that the possibility of further enhancement lies in exploiting various knowledge sources. However these data sources are bound to be inconsistent to each other. This paper shows the possibility of using maximum entropy model to Korean language POS tagging. We use as the knowledge sources n-gram data and trigger pair data. We show how perplexity measure varies when two knowledge sources are combined using maximum entropy method. The experiment used a trigram model which produced 94.9% accuracy using Hidden Markov Model, and showed increase to 95.6% when combined with trigger pair data using Maximum Entropy method. This clearly shows possibility of further enhancement when various knowledge sources are developed and combined using ME method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구의 목적은 두 개 이상의 서로 다른 통계정보를 통합함으로써, 보다 예측의 정확도가 높은 확률 모델을 만드는 것이다. 본 연구에서는 21세기 세종계획에서 2001년도에 만든 말뭉치로부터 기존 방식에서 사용하던 이종의 통계 정보를 추출해 낸 다음, 이 두 가지의 상충되는 통계 정보를 이용하여 하나의 확률 모델을 생성해 냄으로써 좀 더 퍼플렉시티가 높은 모델을 생성해 내는 것을 목표로 한다. 이 이종의 확률 모델을 최대엔트로피(2)를 통해 통합함으로써, 향상된 정확도를 위한 품사부착기법을 제시한다’ 일반적으로 최대 엔트로피 모델은 여러 종류의 확률모델을 결합하기에 적합한 확률 모델로 알려져 있으며 다방면에서 활용이 된 바 있다.
또한 그 외의 트리거 쌍이나 상호정보(mutual information) 등의 통계적 정보 또한 근본적인 한계를 가지고 있다. 본 연구의 목적은 두 개 이상의 서로 다른 통계정보를 통합함으로써, 보다 예측의 정확도가 높은 확률 모델을 만드는 것이다. 본 연구에서는 21세기 세종계획에서 2001년도에 만든 말뭉치로부터 기존 방식에서 사용하던 이종의 통계 정보를 추출해 낸 다음, 이 두 가지의 상충되는 통계 정보를 이용하여 하나의 확률 모델을 생성해 냄으로써 좀 더 퍼플렉시티가 높은 모델을 생성해 내는 것을 목표로 한다.

가설 설정

여기서 N 그램은 상태 천히 확률을 구하기 위한 통계적 데이터로 사용된다. Bigram 모델의 경우 하나의 품사는 이전 품사에 의해 확률이 결정된다고 가정한다.
Trigram 모델의 경우 하나의 품사는 이전 두 개의 품사에 영향을 받아서 발생한다고 가정한다.

제안 방법

사용된다. 따라서 품사 결정 문제와 같은 품사를 다룰 경우에는 얼마나 유용한 정보를 제공할지N 그램과램과 최대 엔트로피 모델을 통해서 통합하여 실험하였다. 결과는 순수 N그램에 비해서 Perplexity가 낮게 나타났다.
이러한 perplexity의 향상이 실제로 의미가 있는지를 확인하기 위하여 실제 HMM 기반 품사 부착기를 활용하여 실험을 하였다. 표 2는 이 실험의 결과이다.

이론/모형

Perplexity 가 낮을수록 일반적으로 이 확률 모델을 기초로 만든 태거는 정확도가 증가한다고 볼 수 있다. (물론 구체적인 품사 부착 방식에 따라서 정확도는 달라질 것이다.) 여기서는 HMM 방식을 이용하되 위에서 GIS 알고리즘에 의해 구한 확률 모델을 HMM 의 state-transition 확률로 이용하였으며 Emission 확률(품사=형태소)은 훈련 말뭉치에서 채집한 통계치에 의해 계산하였다. 프로그램은 C언어로 구현되었다.
Perplexity는 전자를 잘 나타내는 수치이므로 Shannon- McMillan-Breiman 정리에 의해 근사치를 구하여 표 1에 나타내었다. 순수한 trigram일 경우 5.
최대엔트로피 모델에 필요한 파라메터를 추정하기 위해서는 잘 알려진 GIS(Generalized Iterative Scaling®]) 알고리즘을 사용하였다. 이것은 말뭉치를 통해서 얻은 자질의 기대치와 최대 엔트로피를 통해서 얻은 자질의 기대치가 근사 화 될 때까지 엔트로피를 최대로 유지하면서 원하는 확률 분포 p*를 찾는 알고리즘이다.

성능/효과

낮은 향상을 보였다. 10만 개의 형태소 트리거가 있기 때문에 세분화된 확률이 향상에 도움이 안 되는 것으로 나타났다. 현재로썬, trigram과 POS 태그 트리거를 최대 엔트로피로 통합했을 경우가 가장 좋은 개선을 보이고 있다.
기존 trigram 태거의 경우 94.93%의 정확도를 보였으며, 최대 엔트로피의 경우 95.62%의 정확도를 보였다. 이것은 0.
또한, 트리거 쌍의 트리거를 형태소를 가지고 했을 경우 생각보다 낮은 향상을 보였다. 10만 개의 형태소 트리거가 있기 때문에 세분화된 확률이 향상에 도움이 안 되는 것으로 나타났다.
만일 이력을 고려하여 같은 문단 안에 은행'이라는 단어가 있을 경우 '대출'의 출현 호}률을 P1이라고 하고 또 다른 통계 정보에 의하면 이전 단어가 "신규” 인 경우 '대출'의 확률은 P2 라고 할 때 두 가지 조건이 모두 만족되는 경우의 동 단어의 출현확률은 얼마인가라는 문제이다. 이두 가지의 정보를 가장 잘 통합하는 방법은 결과 확률이 높은 것도 아니고 낮은 것도 아니며 실제의 확률에 가까울수록 좋은 통합 방법이라고 할 수 있다.

후속연구

품사나 형태소가 이에 속한다. 물론 품사 결정 문제에서 트리거 쌍이 얼마나 많은 유용한 통계정보를 제공하게 될지는 모르나 N 그램으로 다루지 못한 문맥의 또 다른 정보로 활용이 가능할 것이다.
좀 더 나은 성능을 위해서는 신뢰성 있는 트리거쌍의 선정과 문맥정보를 좀 더 활용함으로써 가능하다. 하지만 최대 엔트로피의 가장 큰 단점으로써 자질의 수가 많아질 수록 계산 량의 부하는 급격히 증가하게 된다.

참고문헌 (11)

L.E. Baum and T. Petrie, "Statistical inference for probabilitsic functions of finite state Markov chains," Ann. Math. Sat., vol.37, pp.1554-1563
E. T. Jaynes, "Information Theory and Statistical Mechanics," Physical Review 1957
Daniel Jurafsky and James H. Martin, Speech and Language Processing, Prentice-Hall, 2000
Ronald Rosenfeld, "Adaptive Statistical Language Modeling: A Maximum Entropy Approach," Ph.D. thesis, School of Computer Science Carnegie Mellon University Pittsburgh, April 19, 1994
Ken Church and Patrich Hanks, "Word Association Norms, Mutual Information, and Lexicography," Computational Linguistics, Volume 16, number 1, pages 22-29, March 1990
Adwait Ratnaparkhi, "Maximum Entropy Models For Natural Language Ambiguity Resolution," Ph.D. thesis, University of Pennsylvania, 1998
A.Berger, S.A. Della Pietra, and V.J. Della Pietra, "A Maximum Entropy Approach to Natural Language Processing," Computation Linguistics, 22(1):39-71 1996
J. Darroch and D. Ratcliff, Generalized iterative scaling for log-linear models. Ann. Math. Statistics, 43:1470-1480, 1972
Adwait Ratnaparkhi, "A Maximum Entropy Model of Part-of-speech tagging," Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp.133-142, 1996
박성배, 장병탁, "최대 엔트로피 모델을 이용한 텍스트 단위화," 제13회 한글 및 한국어 정보처리 학술대회 논문집, pp. 130-137, 2001
Sehyeong Cho, "Improvement of language models using dual-source backoff," Lecture Notes in Artificial Intelligence, vol.3157, pp.892-900, Springer, 2004

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

이종의 통계정보를 이용한 품사 부착 기법
Part-Of-Speech Tagging using multiple sources of statistical data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

이종의 통계정보를 이용한 품사 부착 기법 Part-Of-Speech Tagging using multiple sources of statistical data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

조세형 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

이종의 통계정보를 이용한 품사 부착 기법
Part-Of-Speech Tagging using multiple sources of statistical data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper