[논문]한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소

박용민; 이재성

doi:10.5392/jkca.2012.12.06.041

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소
Word Sense Disambiguation using Korean Word Space Model 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.12 no.6, 2012년, pp.41 - 47

박용민 (충북대학교 디지털정보융합학과) , 이재성 (충북대학교 디지털정보융합학과)

초록
AI-Helper

한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

Abstract ▼ AI-Helper

Various Korean word sense disambiguation methods have been proposed using small scale of sense-tagged corpra and dictionary definitions to calculate entropy information, conditional probability, mutual information and etc. for each method. This paper proposes a method using Korean Word Space model which builds word vectors from a large scale of sense-tagged corpus and disambiguates word senses with the similarity calculation between the word vectors. Experiment with Sejong morph sense-tagged corpus showed 94% precision for 200 sentences(583 word types), which is much superior to the other known methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이는 각 단어의 의미는 그 단어와 함께 쓰인 다른 단어들(단어 또는 문맥 벡터)로 표현될 수 있다는 가정하에 만들어진 모델이며 주로 자율 학습(unsupervised learning) 방법으로 단어의 의미 차이만을 비교하기 위해 사용되었다. 본 논문에서는 교사 학습(supervised learning)으로 단어 공간 모델을 구축하고, 이를 이용하여 의미 중의성을 해소하는 모델을 제시한다. 이 모델은 비교적 큰 규모로 구축된 세종 형태의미분석 말뭉치를 이용하여 학습하며, 학습에 사용하지 않은 자료를 이용하여 그 성능을 평가한다.
한국어 단어 의미 중의성 해소는 그동안 적은 양의 의미부착 말뭉치나 사전 정의를 이용하여, 엔트로피, 조건부 확률, 상호정보 등을 계산하고 이를 이용하여 의미 중의성을 해소하였다. 본 논문에서는 비교적 많은 양의 의미부착 말뭉치를 이용하여 단어 벡터를 구축하고 이를 비교하는 단어 공간 모델 방법을 제안하였다.

제안 방법

[4]도 사전 뜻풀이 말을 이용하였지만, 이 뜻풀이 말에 의미 태그를 수작업으로 부착하고, 이를 학습데이터로 사용하여 각 단어 의미에 공기하는 단어 비율을 계산하였다. 또 이들의 성능을 높이기 위해 단어에 해당 의미가 나타나는 비율인 선험 확률(prior probability)을 단어 종류로 계산하여 성능을 높였고, 또한 공기하는 단어의 위치 정보를 활용하였다. 46개의 중의성 높은 단어를 대상으로 실험한 결과 74.
논문[6]에서는, 이 단어 벡터를 한 단계 더 처리하여, 벡터 요소에 해당되는 각 단어의 단어 벡터를 단어 공간에서 추출하여 그 벡터들의 중심을 새로운 문맥 벡터로 사용하였다. 또한, 이 문맥 벡터들을 클러스터링하여 의미 벡터를 생성하고, 이 의미 벡터를 비교하여 단어의 의미 구분에 이용하였다.
[5]은 말뭉치 및 사전의 뜻풀이 말에서 공기하여 나타나는 단어들간의 상호정보량을 계산하여 이를 이용하였다. 또한, 한국어 복합명사가 실제 문장에서 자주 공기하는 단어라는 성질을 이용하여 수작업으로 복합 명사 사전을 구축하고 의미 태깅한 후, 이를 의미 중의성 해소에 추가로 사용하였다. 이 방법들을 종합하여 200여개의 단어에 대해 실험한 결과 88.
말뭉치에서 각 단어의 단어 벡터를 추출하기 위해, 각 단어가 쓰인 문장의 좌우 n개의 단어를 벡터 요소로 추출한다. 본 논문에서 단어 벡터 요소를 명사, 동사, 형용사의 어휘로만 한정하고, 추출 범위도 대상 단어의 좌우 5개로 하였다.
말뭉치에서 각 단어의 단어 벡터를 추출하기 위해, 각 단어가 쓰인 문장의 좌우 n개의 단어를 벡터 요소로 추출한다. 본 논문에서 단어 벡터 요소를 명사, 동사, 형용사의 어휘로만 한정하고, 추출 범위도 대상 단어의 좌우 5개로 하였다. 이는 기존 연구에서 실질 형태소들이 중의성 해소에 어느 정도 효과적인 것으로 나타났기 때문이다[7].
본 논문에서 제안한 방법은 기본적인 빈도, 위치 정보를 단어 벡터에 사용하고 있다. 따라서, 앞으로 더 다양한 정보(각 단어의 중요도 등)를 단어 벡터에 포함하거나 단어 벡터를 문맥 벡터로 확장하고, 이를 정보검색의 다양한 유사도 계산식에 적용하여 성능을 평가해볼 필요가 있다.
본 논문에서는 [6]의 모델을 변형하여 한국어 단어 공간 모델을 작성한다. 이 모델은 기본적으로 정보검색의 벡터 공간 모델을 이용한 것이다.
본 논문에서는 이러한 단어 공간 개념을 이용하되 의미 태그된 말뭉치를 이용하여 교사 학습을 한다. 이 방법을 사용할 경우, 단어 벡터만 추출한 후, 클러스터링을 하지 않고 바로 의미 태그가 부착된 단어를 의미 벡터(각 의미가 구분된 단어 벡터)로 사용할 수 있다.
[2]에서는 1,000만 어절 원시 말뭉치에서 대상 용례(미리 선정한 중의성이 있는 단어의 용례)를 추출한 후, 의미 태그를 수작업으로 부착하고 이를 이용하여 학습하였다. 여기에서는 어떤 속성의 엔트로피 값이 적을수록 의미 구별 능력이 있는 것으로 판단하여 이를 이용하여 단어 의미를 분류하였다. 4개의 단어에 대해 실험한 결과, 학습데이터는 96.
본 논문에서는 교사 학습(supervised learning)으로 단어 공간 모델을 구축하고, 이를 이용하여 의미 중의성을 해소하는 모델을 제시한다. 이 모델은 비교적 큰 규모로 구축된 세종 형태의미분석 말뭉치를 이용하여 학습하며, 학습에 사용하지 않은 자료를 이용하여 그 성능을 평가한다.
평가 결과는 [표 1]과 같으며 앞장에서 제시한 방법을 조합하여 5가지 모델로 표현하였다. 여기에서 prio는 식(4)의 선험 확률 P_prio, cos는 식(5)에 #를 사용한 코사인 계산식, cos+dist는 식(5)에 #를 사용한 코사인 계산식을 각각 나타낸다.

대상 데이터

실험에는 세종계획에 의해 구축된, 총 9,524,183어절의 형태의미분석 말뭉치를 이용하였다[14]. 실험을 위해 말뭉치 중 90%를 임의 추출하여 학습데이터로 사용하였고, 나머지 10%중에서 임의로 100, 150, 200문장을 각각 추출하여 식(6)의 평가식으로 정확률을 계산하였다.

데이터처리

실험에는 세종계획에 의해 구축된, 총 9,524,183어절의 형태의미분석 말뭉치를 이용하였다[14]. 실험을 위해 말뭉치 중 90%를 임의 추출하여 학습데이터로 사용하였고, 나머지 10%중에서 임의로 100, 150, 200문장을 각각 추출하여 식(6)의 평가식으로 정확률을 계산하였다.

성능/효과

또 이들의 성능을 높이기 위해 단어에 해당 의미가 나타나는 비율인 선험 확률(prior probability)을 단어 종류로 계산하여 성능을 높였고, 또한 공기하는 단어의 위치 정보를 활용하였다. 46개의 중의성 높은 단어를 대상으로 실험한 결과 74.09%의 성능을 나타냈다.
여기에서는 어떤 속성의 엔트로피 값이 적을수록 의미 구별 능력이 있는 것으로 판단하여 이를 이용하여 단어 의미를 분류하였다. 4개의 단어에 대해 실험한 결과, 학습데이터는 96.7%, 비학습데이터는 84.6%의 성능을 보였다.
이 결과로 볼 때, 동형이의어가 대부분은 특정 의미로 편중하여 사용되고 있음을 보여준다. 따라서, 선험 확률이 고려되는 경우의 모델(모델 4, 5)이 선험 확률을 고려하지 않은 다른 모델(모델 2, 3)에 비해 더 우수한 결과를 보였다. 하지만, 코사인 유사도와 위치 정보가 모두 성능향상에 도움을 주어 이를 모두 사용한 모델5가 최상의 결과를 나타냈다.
세종 형태의미분석 말뭉치를 이용하여 실험한 결과 유사도 계산에 선험 확률, 위치값, 코사인 유사도를 모두 결합한 방법이 가장 우수했다. 또, 기존의 다른 방법들과 비교해 볼 때, 본 결과가 우수하다고 할 수 있으며, 본 논문에서 제안한 단어 공간을 이용한 방법이 유용하다고 할 수 있다.
세종 형태의미분석 말뭉치를 이용하여 실험한 결과 유사도 계산에 선험 확률, 위치값, 코사인 유사도를 모두 결합한 방법이 가장 우수했다. 또, 기존의 다른 방법들과 비교해 볼 때, 본 결과가 우수하다고 할 수 있으며, 본 논문에서 제안한 단어 공간을 이용한 방법이 유용하다고 할 수 있다.
또한, 한국어 복합명사가 실제 문장에서 자주 공기하는 단어라는 성질을 이용하여 수작업으로 복합 명사 사전을 구축하고 의미 태깅한 후, 이를 의미 중의성 해소에 추가로 사용하였다. 이 방법들을 종합하여 200여개의 단어에 대해 실험한 결과 88.82% 정확률을 보였다.
[3]은 사전 뜻풀이 말에서 동형이의어가 사용된 경우에 그 문맥 정보(명사와 용언)와 간단한 계층 정보를 추출하고, 문맥 정보와 동형이의어간의 조건부 확률을 계산하였다. 이를 이용하여 9개의 동형이의어를 평가해본 결과 학습데이터는 96.11%, 비학습데이터는 80.73%의 정확률을 보였다.
[표 3]은 본 논문의 방법과 기존의 방법들을 비교하여 정리한 것이다. 평가 데이터가 서로 다르므로 정확한 비교는 어려우나, 기존의 방법들과 비교해 볼 때, 대체적으로 매우 우수함을 알 수 있다.

후속연구

본 논문에서 제안한 방법은 기본적인 빈도, 위치 정보를 단어 벡터에 사용하고 있다. 따라서, 앞으로 더 다양한 정보(각 단어의 중요도 등)를 단어 벡터에 포함하거나 단어 벡터를 문맥 벡터로 확장하고, 이를 정보검색의 다양한 유사도 계산식에 적용하여 성능을 평가해볼 필요가 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	한국어 단어의 의미 중의성 해소 방법엔 무엇이 있는가?	한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다.
	중의성이 있는 자연언어의 예시엔 무엇이 있는가?	그러나 자연언어의 단어는 중의성이 있을 수 있으며, 이에 대한 잘못된 해석은 텍스트 의미 처리의 신뢰도를 떨어뜨릴 수 있다. 예를 들어 '배다'의 경우, '배'는 명사나 동사 등으로 해석될 수 있으며, 명사일 경우는 먹는 배, 타는 배, 신체의 일부인 배 등으로 또 다시 구분되고, 동사일 경우는 '새끼를 배다'와 같이 수태한 경우를 나타내는 뜻으로 구분된다. 만약 ‘먹는 배’를 검색할 경우, 단어 중의성을 고려하지 않고 결과를 출력한다면 여러 다른 뜻의 ‘배’가 포함되어 그 정확도를 떨어뜨릴 것이다.
	단어의 중의성은 어떻게 나눌 수 있는가?	단어의 중의성은 크게 문법적 중의성과 의미적 중의성으로 나눌 수 있다. 앞에서와 같이 ‘배다’의 경우, 동사에는 하나의 의미만 있다면 품사 구분만으로도 그 의미를 결정할 수 있으나, 명사의 경우 문맥을 파악하여 가능한 여러 의미중 하나를 선택해야 한다.

참고문헌 (14)

안광모, 한규열, 서영훈, "어휘별 중의성 제거 규칙과 통계 정보를 이용한 한국어 품사 태깅", 한국콘텐츠학회논문지, 제9권, 제2호, pp.18-26, 2009.

원문보기 상세보기
이호, 백대호, 임해창, "분류 정보를 이용한 단어 의미 중의성 해결", 정보과학회논문지(B), 제24권, 제7호, pp.779-789, 1997.

상세보기
허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미 정보에 기반한 동형이의어 중의성 해결 시스템", 정보과학회논문지 소프트웨어 및 응용, 제28권, 제9호, pp.688-698, 2001.
김준수, 최호섭, 옥철영, "가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델", 정보과학회논문지 소프트웨어 및 응용, 제30권, 제11.12호, pp.1112-1123, 2003.

원문보기 상세보기
허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소", 정보과학회논문지 소프트웨어 및 응용, 제33권, 제12호, pp.1073-1089, 2006.

원문보기 상세보기
H. Schutze, "Automatic Word Sense Discrimination," Computational Linguistics, Vol.24, No.1, 1998.

상세보기
Manning, D. Christopher and Schutze, Hinrich, Foundations of Statistical Natural Language Processing, MIT Press, pp.229-261, 1999.
W. A. Gale, W. C. Kenneth, and D. Yarowsky, "A method for disambiguating word senses in a large corpus," Computers and the Humanities, Vol.26, pp.415-439, 1992.

상세보기
P. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and R. L. Mercer, "Word-sense disambiguation using statistical methods," In Proceedings, 29th Annual Meeting of the Association for Computational Linguistics, pp.264-270, 1991.
M. Lesk, "Automatic sense disambiguation: How to tell a pine cone from an ice cream cone," In Proceedings of the 1986 SIGDOC Conference, pp.24-26, 1986.
D. E. Walker, "Knowledge resource tools for accessing large text files," In Sergei Nirenburg(ed.) Machine Translation: Theoretical and methodological issues, Cambridge: Cambridge University Press, pp.247-261, 1987.
Dagan Ido, and Alon Itai., "Word sense disambiguation using a second language monolingual corpus," Computational Linguistics, Vol.20, pp.563-596, 1994.

상세보기
Dagan Ido, Alon Itai, and Ulrike Schwall, "Two languages are more informative than one," In Proceedings, 29th Annual Meeting of the Association for Computational Linguistics, pp.130-137, 1991.
국립국어원, 21세기 세종계획 최종 성과물(2011년 12월 수정판), 2011.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증