$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소
Word Sense Disambiguation using Korean Word Space Model 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.12 no.6, 2012년, pp.41 - 47  

박용민 (충북대학교 디지털정보융합학과) ,  이재성 (충북대학교 디지털정보융합학과)

초록
AI-Helper 아이콘AI-Helper

한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

Abstract AI-Helper 아이콘AI-Helper

Various Korean word sense disambiguation methods have been proposed using small scale of sense-tagged corpra and dictionary definitions to calculate entropy information, conditional probability, mutual information and etc. for each method. This paper proposes a method using Korean Word Space model w...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이는 각 단어의 의미는 그 단어와 함께 쓰인 다른 단어들(단어 또는 문맥 벡터)로 표현될 수 있다는 가정하에 만들어진 모델이며 주로 자율 학습(unsupervised learning) 방법으로 단어의 의미 차이만을 비교하기 위해 사용되었다. 본 논문에서는 교사 학습(supervised learning)으로 단어 공간 모델을 구축하고, 이를 이용하여 의미 중의성을 해소하는 모델을 제시한다. 이 모델은 비교적 큰 규모로 구축된 세종 형태의미분석 말뭉치를 이용하여 학습하며, 학습에 사용하지 않은 자료를 이용하여 그 성능을 평가한다.
  • 한국어 단어 의미 중의성 해소는 그동안 적은 양의 의미부착 말뭉치나 사전 정의를 이용하여, 엔트로피, 조건부 확률, 상호정보 등을 계산하고 이를 이용하여 의미 중의성을 해소하였다. 본 논문에서는 비교적 많은 양의 의미부착 말뭉치를 이용하여 단어 벡터를 구축하고 이를 비교하는 단어 공간 모델 방법을 제안하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
한국어 단어의 의미 중의성 해소 방법엔 무엇이 있는가? 한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다.
중의성이 있는 자연언어의 예시엔 무엇이 있는가? 그러나 자연언어의 단어는 중의성이 있을 수 있으며, 이에 대한 잘못된 해석은 텍스트 의미 처리의 신뢰도를 떨어뜨릴 수 있다. 예를 들어 '배다'의 경우, '배'는 명사나 동사 등으로 해석될 수 있으며, 명사일 경우는 먹는 배, 타는 배, 신체의 일부인 배 등으로 또 다시 구분되고, 동사일 경우는 '새끼를 배다'와 같이 수태한 경우를 나타내는 뜻으로 구분된다. 만약 ‘먹는 배’를 검색할 경우, 단어 중의성을 고려하지 않고 결과를 출력한다면 여러 다른 뜻의 ‘배’가 포함되어 그 정확도를 떨어뜨릴 것이다.
단어의 중의성은 어떻게 나눌 수 있는가? 단어의 중의성은 크게 문법적 중의성과 의미적 중의성으로 나눌 수 있다. 앞에서와 같이 ‘배다’의 경우, 동사에는 하나의 의미만 있다면 품사 구분만으로도 그 의미를 결정할 수 있으나, 명사의 경우 문맥을 파악하여 가능한 여러 의미중 하나를 선택해야 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. 안광모, 한규열, 서영훈, "어휘별 중의성 제거 규칙과 통계 정보를 이용한 한국어 품사 태깅", 한국콘텐츠학회논문지, 제9권, 제2호, pp.18-26, 2009. 

  2. 이호, 백대호, 임해창, "분류 정보를 이용한 단어 의미 중의성 해결", 정보과학회논문지(B), 제24권, 제7호, pp.779-789, 1997. 

  3. 허정, 옥철영, "사전의 뜻풀이말에서 추출한 의미 정보에 기반한 동형이의어 중의성 해결 시스템", 정보과학회논문지 소프트웨어 및 응용, 제28권, 제9호, pp.688-698, 2001. 

  4. 김준수, 최호섭, 옥철영, "가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델", 정보과학회논문지 소프트웨어 및 응용, 제30권, 제11.12호, pp.1112-1123, 2003. 

  5. 허정, 서희철, 장명길, "상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소", 정보과학회논문지 소프트웨어 및 응용, 제33권, 제12호, pp.1073-1089, 2006. 

  6. H. Schutze, "Automatic Word Sense Discrimination," Computational Linguistics, Vol.24, No.1, 1998. 

  7. Manning, D. Christopher and Schutze, Hinrich, Foundations of Statistical Natural Language Processing, MIT Press, pp.229-261, 1999. 

  8. W. A. Gale, W. C. Kenneth, and D. Yarowsky, "A method for disambiguating word senses in a large corpus," Computers and the Humanities, Vol.26, pp.415-439, 1992. 

  9. P. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and R. L. Mercer, "Word-sense disambiguation using statistical methods," In Proceedings, 29th Annual Meeting of the Association for Computational Linguistics, pp.264-270, 1991. 

  10. M. Lesk, "Automatic sense disambiguation: How to tell a pine cone from an ice cream cone," In Proceedings of the 1986 SIGDOC Conference, pp.24-26, 1986. 

  11. D. E. Walker, "Knowledge resource tools for accessing large text files," In Sergei Nirenburg(ed.) Machine Translation: Theoretical and methodological issues, Cambridge: Cambridge University Press, pp.247-261, 1987. 

  12. Dagan Ido, and Alon Itai., "Word sense disambiguation using a second language monolingual corpus," Computational Linguistics, Vol.20, pp.563-596, 1994. 

  13. Dagan Ido, Alon Itai, and Ulrike Schwall, "Two languages are more informative than one," In Proceedings, 29th Annual Meeting of the Association for Computational Linguistics, pp.130-137, 1991. 

  14. 국립국어원, 21세기 세종계획 최종 성과물(2011년 12월 수정판), 2011. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로