$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

워드넷 기반의 단어 중의성 해소 프레임워크
A Framework for WordNet-based Word Sense Disambiguation 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.23 no.4, 2013년, pp.325 - 331  

임초람 (명지대학교 컴퓨터공학과) ,  조세형 (명지대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 단어의 의미 중의성을 해소하기 위한 방법을 제안하고 그 결과를 제시한다. 본 연구에서는 워드넷을 두가지 차원에서 활용하였는데, 하나는 사전으로서의 활용이며 다른 하나는 단어간의 개념 계층 구조를 가진 일종의 온톨로지로서 활용하였다. 이 중의성 해소 방식의 장점은 첫째 매우 단순하다는데 있다. 둘째로는 코퍼스를 활용하는 지식 기반/통계 기반 방식이 아니기 때문에 의미 태그 부착된 코퍼스의 부족으로 인한 문제가 발생하지 않는다는 것이다. 현재는 워드넷 온톨로지 중에서 개념 계층 구조, 즉 상위어-하위어 (hypernym-hyponym)의 관계만을 사용하였으나 향후 어렵지 않게 다른 관계들, 즉 유사어(synonym), 반의어(antonym), 부분어(meronym) 등의 관계를 활용하여 확장함으로써 성능의 향상을 기대할 수 있다.

Abstract AI-Helper 아이콘AI-Helper

This paper a framework and method for resolving word sense disambiguation and present the results. In this work, WordNet is used for two different purposes: one as a dictionary and the other as an ontology, containing the hierarchical structure, representing hypernym-hyponym relations. The advantage...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 워드넷(WordNet)을[2] 활용하여 주어진 단어의 여러 가지 의미 중에서 가장 가능성이 높은 것을 고를 수 있는 단순한 기법을 제시한다. 워드넷은 1985년 프린스턴 대학에서 개발이 시작되었으며 15만 단어, 11만5천개의 동의어 집합(synset)과 20만여 단어-의미 쌍으로 구성되어있다.
  • 본 연구에서는 단어의 의미 중의성을 해소하기 위한 방법을 제안하였다. 연구 결과는 크게 두 가지로 요약할 수 있다.
  • 이제 워드넷을 이용하여 어떻게 중의성을 해소할 수 있는지 살펴보기로 하자.

가설 설정

  • 관찰 2. 개념 계층도 상에 있는 두 개념은 동일한 공통점이 있다면 두 개념이 가진 정보량의 합이 클수록 유사도는 작아질 것이다.
  • 관찰 3. 개념 계층도에서 hypernym과 그의 hyponym 간에는 최소한의 정보량의 차이가 있다.
  • 관찰1. 개념 계층도 상에 있는 두 개념은 공통의 조상이 많으면 많을수록 유사도가 커질 것이다.
  • 개요에서 소개한 바와 같이 우리는 대상 단어를 둘러싼 문맥을 활용하여 중의성을 해소하고자 한다. 기본적으로 우리는 중의성 해소를 하기 위한 단어에 대해서 그 단어를 둘러싼 문맥과 주어진 단어에 대해 워드넷이 제공하는 각 의미의 정의, 즉 주해(gloss)와 예문을 비교하여 가장 연관성이 많은 의미를 선택하게 될 것이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
지식 기반 방법론은 무엇에 의존하는가? 자율 학습은 의미 태그되어 있지 않은 말뭉치를 이용하여 학습을 하는데 이는 자료의 준비가 쉬운 반면에 정확도에 있어서 지도학습에 비해 좋은 성능을 내기가 어렵다[11][12]. 지식 기반 방법론은 사전이나 시소러스에 의존하며 말뭉치를 활용하지 않는다. 이러한 방법은 사전이라는 잘 정제된 양질의 정보를 사용한다는 장점이 있는 반면에 지도학습의 경우처럼 문맥에서 통계적인 정보를 끄집어내기는 어렵다는 단점이 있다.
지식 기반 방식은 어떤 유형들로 나눌 수 있는가? 지식 기반 방식은 다시 세 가지 유형으로 나눌 수 있다. 첫째는 주해의 중첩(gloss overlap)을 이용하는 방법이고[13, 14], 둘째는 선택 제약 방식(selectional restriction), 셋째는 구조적인 방식이다. 선택 제약이란[15] 단어의 역할에 있어서 특정 단어는 특정한 대상을 취한다는 데에 착안한 방법이다.
워드넷은 무엇으로 구성되어 있는가? 본 논문에서는 워드넷(WordNet)을[2] 활용하여 주어진 단어의 여러 가지 의미 중에서 가장 가능성이 높은 것을 고를 수 있는 단순한 기법을 제시한다. 워드넷은 1985년 프린스턴 대학에서 개발이 시작되었으며 15만 단어, 11만5천개의 동의어 집합(synset)과 20만여 단어-의미 쌍으로 구성되어있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. Daniel Jurafsky and James H. Martin, Speech and Language Processing, 2nd edition, Pearson 2009 

  2. Christiane Fellbaum(ed.), WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. 1998 

  3. MALLERY, J. C. Thinking about foreign policy: Finding an appropriate role for artificial intelligence computers. Ph.D. dissertation. MIT Political Science Department, Cambridge, MA. 1988. 

  4. Roberto Navigli. "Word Sense Disambiguation: A Survey," ACM Computing Surveys, 41(2), 2009, pp. 1-69. 

  5. A. Novischi, M. Srikanth, and A. Bennett, "Lcc-wsd: System description for English coarse grained all words task at semeval 2007," in Proc. of the 4th International Workshop on Semantic Evaluations, pp. 223-226, Prague, Czech Republic, 2007. 

  6. M. Ciaramita and Y. Altun, "Broad-coverage sense disambiguation and information extraction with a supersense sequence tagger," in Proc. of the 2006 Conference on Empirical Methods in Natural Language Processing, Sydney, Australia, pp. 594-602, 2006. 

  7. L. M'arquez, G. Escudero, D. Martinez, and G. Rigau, "Supervised corpus-based methods for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, pp. 167-216, 2007. 

  8. R Mihalcea and E. Faruque, "Senseleamer: Minimally supervised word sense disambiguation for all words in open text," in Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain, pp. 155-158, 2004. 

  9. S. Tratz, A. Sanfilippo, M. Ggregory, A. Chappell, C. Posse, and P. Whitney, "PNNL: A supervised maximum entropy approach to word sense disambiguation," in Proc. of the 4th International Workshop on Semantic Evaluations (SemEval), Prague, Czech Republic, pp. 264-267, 2007. 

  10. M'ARQUEZ, L., ESCUDERO, G., MART'INEZ, D., AND RIGAU, G., "Supervised corpus-based methods for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 167-216. 2006. 

  11. PEDERSEN, T. "Unsupervised corpus-based methods for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 133-166. 2006. 

  12. R Mihalcea, "Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling," in Proc. Of HLT/EMNLP, Vancouver, BC, Canada, pp. 411-418, 2005. 

  13. LESK, M., "Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone," in Proceedings of the 5th SIGDOC (New York, NY). Pp.24-26. 1986. 

  14. PEDERSEN, T., PATWARDHAN, S., AND MICHELIZZI, J. "WordNet::Similarity-measuring the relatedness of concepts," in Proceedings of the 19th National Conference on Artificial Intelligence (AAAI, San Jose, CA) pp.144-152. 2004. 

  15. MCCARTHY, D. AND CARROLL, J. "Disambiguating nouns, verbs and adjectives using automatically acquired selectional preferences," Computational Linguistics 29-4, pp. 639-654. 2003. 

  16. BANERJEE, S. AND PEDERSEN, T., "Extended gloss overlaps as a measure of semantic relatedness," in Proceedings of the 18th International Joint Conference on Artificial Intelligence. 805-810. 2003. 

  17. PEDERSEN, T., BANERJEE, S., AND PATWARDHAN, S., "Maximizing semantic relatedness to perform word sense disambiguation," Res. rep. UMSI 2005/25. University of Minnesota Supercomputing Institute, Minneapolis, MN. 2005. 

  18. NAVIGLI, R, "Consistent validation of manual and automatic sense annotations with the aid of semantic graphs," Computational Linguistics, 32- 2, pp.273-281. 2006. 

  19. NAVIGLI, R. "Experiments on the validation of sense annotations assisted by lexical chains," in Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, 129-136. 2006. 

  20. RADA, R., MILI, H., BICKNELL, E., AND BLETTNER, M. "Development and application of a metric on semantic nets," IEEE Trans. Syst. Man Cybernet. 19, 1, 17-30. 1989. 

  21. SUSSNA, M. "Word sense disambiguation for free-text indexing using a massive semantic network," in Proceedings of the 2nd International Conference on Information and Knowledge Base Management, 67-74., 1993 

  22. Qun Liu, Sujian Li, "Word Similarity Computing Based on How-net," Computational Linguistics and Chinese Language Processing, Vol.7, No.2, pp.59-76. , August 2002 

  23. LEACOCK, C., CHODOROW, M., AND MILLER, G., "Using corpus statistics and WordNet relations for sense identification," Computational. Linguistics, 24, 1, 147-166. 1998. 

  24. Feng Li, Fang Li, "an new approach measuring semantic similarity in Hownet 2000," Journal of Chinese Information Processing, vol.21, No.3, May 2007. 

  25. Dekang Lin, "An information-theoretic definition of similarity," in Proceedings of ICML, pages 296-304. 1998. 

  26. Vaclav Snael, Pavel Moravec, Jaroslav Pokorny. "WordNet Ontology Based Model for Web Retrieval," International Workshop on Challenges in Web Information Retrieval and Integration (WIRI'05), 0-7695-2414-1/05. 

  27. Brigham Young Universiy, Corpus of Contemporary American English, Available: http://www.americancorpus.org/, 2013 [Accessed August, 19, 2013] 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로