[논문]워드넷 기반의 단어 중의성 해소 프레임워크

임초람; 조세형

doi:10.5391/jkiis.2013.23.4.325

워드넷 기반의 단어 중의성 해소 프레임워크
A Framework for WordNet-based Word Sense Disambiguation 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.23 no.4, 2013년, pp.325 - 331

초록
AI-Helper

본 연구에서는 단어의 의미 중의성을 해소하기 위한 방법을 제안하고 그 결과를 제시한다. 본 연구에서는 워드넷을 두가지 차원에서 활용하였는데, 하나는 사전으로서의 활용이며 다른 하나는 단어간의 개념 계층 구조를 가진 일종의 온톨로지로서 활용하였다. 이 중의성 해소 방식의 장점은 첫째 매우 단순하다는데 있다. 둘째로는 코퍼스를 활용하는 지식 기반/통계 기반 방식이 아니기 때문에 의미 태그 부착된 코퍼스의 부족으로 인한 문제가 발생하지 않는다는 것이다. 현재는 워드넷 온톨로지 중에서 개념 계층 구조, 즉 상위어-하위어 (hypernym-hyponym)의 관계만을 사용하였으나 향후 어렵지 않게 다른 관계들, 즉 유사어(synonym), 반의어(antonym), 부분어(meronym) 등의 관계를 활용하여 확장함으로써 성능의 향상을 기대할 수 있다.

Abstract ▼ AI-Helper

This paper a framework and method for resolving word sense disambiguation and present the results. In this work, WordNet is used for two different purposes: one as a dictionary and the other as an ontology, containing the hierarchical structure, representing hypernym-hyponym relations. The advantage of this approach is twofold. First, it provides a very simple method that is easily implemented. Second, we do not suffer from the lack of large corpus data which would have been necessary in a statistical method. In the future this can be extended to incorporate other relations, such as synonyms, meronyms, and antonyms.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 워드넷(WordNet)을[2] 활용하여 주어진 단어의 여러 가지 의미 중에서 가장 가능성이 높은 것을 고를 수 있는 단순한 기법을 제시한다. 워드넷은 1985년 프린스턴 대학에서 개발이 시작되었으며 15만 단어, 11만5천개의 동의어 집합(synset)과 20만여 단어-의미 쌍으로 구성되어있다.
본 연구에서는 단어의 의미 중의성을 해소하기 위한 방법을 제안하였다. 연구 결과는 크게 두 가지로 요약할 수 있다.
이제 워드넷을 이용하여 어떻게 중의성을 해소할 수 있는지 살펴보기로 하자.

가설 설정

관찰 2. 개념 계층도 상에 있는 두 개념은 동일한 공통점이 있다면 두 개념이 가진 정보량의 합이 클수록 유사도는 작아질 것이다.
관찰 3. 개념 계층도에서 hypernym과 그의 hyponym 간에는 최소한의 정보량의 차이가 있다.
관찰1. 개념 계층도 상에 있는 두 개념은 공통의 조상이 많으면 많을수록 유사도가 커질 것이다.
개요에서 소개한 바와 같이 우리는 대상 단어를 둘러싼 문맥을 활용하여 중의성을 해소하고자 한다. 기본적으로 우리는 중의성 해소를 하기 위한 단어에 대해서 그 단어를 둘러싼 문맥과 주어진 단어에 대해 워드넷이 제공하는 각 의미의 정의, 즉 주해(gloss)와 예문을 비교하여 가장 연관성이 많은 의미를 선택하게 될 것이다.

이론/모형

계층 구조상의 위치를 이용하는 방법으로서 가장 단순한 것은Rada[20]의 유사도 척도로서 단순히 계층 구조상에서의 거리, 즉 number of hops 를 사용하였다.
앞서 언급한 바와 같이 여러 가지 유형의 유사도가 여러 연구에서 사용된 바 있다. 우리는 유사도가 단순히 근거 없는 휴리스틱에 기반하기 보다는 어떤 원칙에 근거한 척도가 되는 것이 바람직하다고 보았으며 Lin의 정보량 개념을 도입하였다.
우리는 이 척도들을 이용하여 COCA[27] 말뭉치에서 최초 200개의 명사를 추출하여 실제 텍스트의 문맥에 있는 단어와 그 단어의 주해 및 예문에 있는 단어들 간의 연관성을 식 5'에 의해 계산하여 가장 유사도가 높은 의미를 선택하는 방식으로 실험을 하였다. 각 실험에서 신셋 간의 유사도를 정의하는 척도를 위 4가지 방법으로 각각 실행하여 본 결과는 아래의 표와 같았으며 제안된 유사도에 의한 방식이 가장 높은 정확도를 보이는 것을 확인하였다.

성능/효과

연구 결과는 크게 두 가지로 요약할 수 있다. 그 하나는 신셋 간의 유사도를 측정하는 방식으로서 계층 구조를 활용하였으며 단순 거리 방식에서 탈피하여 개념이 가지고 있는 정보량을 활용함으로써 추상적인 개념간의 거리보다 구체적인 개념 사이의 거리를 더 가깝게 계산할 수 있게 하였다. 다른 한가지의 결과는 별도의 말뭉치를 사용하지 않고 워드넷 상에 있는 주해와 예문만을 활용하여 유사도를 측정하게 하였다는 것이다.

후속연구

그러지만 대부분의 경우에는 자연스럽게 연관성 있는 단어들이 같은 문장에 출현할 가능성이 크다는 것은 매우 직관적인 일이다. 우리는 이러한 직관을 휴리스틱한 방법론으로 바꾸어 확률적으로 우수한 판단을 하는 단어 중의성 해소 알고리즘을 제시할 것이다.
여기서 워드넷을 두 가지 차원에서 활용하였는데, 하나는 사전으로서의 활용이며 다른 하나는 단어간의 개념 계층 구조를 가진 일종의 온톨로지로서 활용하였다. 현재는 워드넷 온톨로지 중에서 개념 계층 구조, 즉 상위어-하위어 (hypernym-hyponym)의 관계만을 사용하였으나 향후 어렵지 않게 다른 관계들, 즉 유사어(synonym), 반의어(antonym), 부분어(meronym) 등의 관계를 활용하여 확장함으로써 성능의 향상을 기대할 수 있을 것으로 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	지식 기반 방법론은 무엇에 의존하는가?	자율 학습은 의미 태그되어 있지 않은 말뭉치를 이용하여 학습을 하는데 이는 자료의 준비가 쉬운 반면에 정확도에 있어서 지도학습에 비해 좋은 성능을 내기가 어렵다[11][12]. 지식 기반 방법론은 사전이나 시소러스에 의존하며 말뭉치를 활용하지 않는다. 이러한 방법은 사전이라는 잘 정제된 양질의 정보를 사용한다는 장점이 있는 반면에 지도학습의 경우처럼 문맥에서 통계적인 정보를 끄집어내기는 어렵다는 단점이 있다.
	지식 기반 방식은 어떤 유형들로 나눌 수 있는가?	지식 기반 방식은 다시 세 가지 유형으로 나눌 수 있다. 첫째는 주해의 중첩(gloss overlap)을 이용하는 방법이고[13, 14], 둘째는 선택 제약 방식(selectional restriction), 셋째는 구조적인 방식이다. 선택 제약이란[15] 단어의 역할에 있어서 특정 단어는 특정한 대상을 취한다는 데에 착안한 방법이다.
	워드넷은 무엇으로 구성되어 있는가?	본 논문에서는 워드넷(WordNet)을[2] 활용하여 주어진 단어의 여러 가지 의미 중에서 가장 가능성이 높은 것을 고를 수 있는 단순한 기법을 제시한다. 워드넷은 1985년 프린스턴 대학에서 개발이 시작되었으며 15만 단어, 11만5천개의 동의어 집합(synset)과 20만여 단어-의미 쌍으로 구성되어있다.

참고문헌 (27)

Daniel Jurafsky and James H. Martin, Speech and Language Processing, 2nd edition, Pearson 2009
Christiane Fellbaum(ed.), WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. 1998
MALLERY, J. C. Thinking about foreign policy: Finding an appropriate role for artificial intelligence computers. Ph.D. dissertation. MIT Political Science Department, Cambridge, MA. 1988.
Roberto Navigli. "Word Sense Disambiguation: A Survey," ACM Computing Surveys, 41(2), 2009, pp. 1-69.
A. Novischi, M. Srikanth, and A. Bennett, "Lcc-wsd: System description for English coarse grained all words task at semeval 2007," in Proc. of the 4th International Workshop on Semantic Evaluations, pp. 223-226, Prague, Czech Republic, 2007.
M. Ciaramita and Y. Altun, "Broad-coverage sense disambiguation and information extraction with a supersense sequence tagger," in Proc. of the 2006 Conference on Empirical Methods in Natural Language Processing, Sydney, Australia, pp. 594-602, 2006.
L. M'arquez, G. Escudero, D. Martinez, and G. Rigau, "Supervised corpus-based methods for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, pp. 167-216, 2007.
R Mihalcea and E. Faruque, "Senseleamer: Minimally supervised word sense disambiguation for all words in open text," in Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain, pp. 155-158, 2004.
S. Tratz, A. Sanfilippo, M. Ggregory, A. Chappell, C. Posse, and P. Whitney, "PNNL: A supervised maximum entropy approach to word sense disambiguation," in Proc. of the 4th International Workshop on Semantic Evaluations (SemEval), Prague, Czech Republic, pp. 264-267, 2007.
M'ARQUEZ, L., ESCUDERO, G., MART'INEZ, D., AND RIGAU, G., "Supervised corpus-based methods for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 167-216. 2006.
PEDERSEN, T. "Unsupervised corpus-based methods for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 133-166. 2006.
R Mihalcea, "Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling," in Proc. Of HLT/EMNLP, Vancouver, BC, Canada, pp. 411-418, 2005.
LESK, M., "Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone," in Proceedings of the 5th SIGDOC (New York, NY). Pp.24-26. 1986.
PEDERSEN, T., PATWARDHAN, S., AND MICHELIZZI, J. "WordNet::Similarity-measuring the relatedness of concepts," in Proceedings of the 19th National Conference on Artificial Intelligence (AAAI, San Jose, CA) pp.144-152. 2004.
MCCARTHY, D. AND CARROLL, J. "Disambiguating nouns, verbs and adjectives using automatically acquired selectional preferences," Computational Linguistics 29-4, pp. 639-654. 2003.

상세보기
BANERJEE, S. AND PEDERSEN, T., "Extended gloss overlaps as a measure of semantic relatedness," in Proceedings of the 18th International Joint Conference on Artificial Intelligence. 805-810. 2003.
PEDERSEN, T., BANERJEE, S., AND PATWARDHAN, S., "Maximizing semantic relatedness to perform word sense disambiguation," Res. rep. UMSI 2005/25. University of Minnesota Supercomputing Institute, Minneapolis, MN. 2005.
NAVIGLI, R, "Consistent validation of manual and automatic sense annotations with the aid of semantic graphs," Computational Linguistics, 32- 2, pp.273-281. 2006.

상세보기
NAVIGLI, R. "Experiments on the validation of sense annotations assisted by lexical chains," in Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, 129-136. 2006.
RADA, R., MILI, H., BICKNELL, E., AND BLETTNER, M. "Development and application of a metric on semantic nets," IEEE Trans. Syst. Man Cybernet. 19, 1, 17-30. 1989.

상세보기
SUSSNA, M. "Word sense disambiguation for free-text indexing using a massive semantic network," in Proceedings of the 2nd International Conference on Information and Knowledge Base Management, 67-74., 1993
Qun Liu, Sujian Li, "Word Similarity Computing Based on How-net," Computational Linguistics and Chinese Language Processing, Vol.7, No.2, pp.59-76. , August 2002
LEACOCK, C., CHODOROW, M., AND MILLER, G., "Using corpus statistics and WordNet relations for sense identification," Computational. Linguistics, 24, 1, 147-166. 1998.

상세보기
Feng Li, Fang Li, "an new approach measuring semantic similarity in Hownet 2000," Journal of Chinese Information Processing, vol.21, No.3, May 2007.

상세보기
Dekang Lin, "An information-theoretic definition of similarity," in Proceedings of ICML, pages 296-304. 1998.
Vaclav Snael, Pavel Moravec, Jaroslav Pokorny. "WordNet Ontology Based Model for Web Retrieval," International Workshop on Challenges in Web Information Retrieval and Integration (WIRI'05), 0-7695-2414-1/05.
Brigham Young Universiy, Corpus of Contemporary American English, Available: http://www.americancorpus.org/, 2013 [Accessed August, 19, 2013]

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증