$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소
Korean Word Sense Disambiguation using Dictionary and Corpus 원문보기

지능정보연구 = Journal of intelligence and information systems, v.21 no.1, 2015년, pp.1 - 13  

정한조 (한국과학기술정보연구원 (KISTI), 첨단정보융합본부, NTIS 센터) ,  박병화 (한남대학교 경상대학 비즈니스통계학과)

초록
AI-Helper 아이콘AI-Helper

빅데이터오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

Abstract AI-Helper 아이콘AI-Helper

As opinion mining in big data applications has been highlighted, a lot of research on unstructured data has made. Lots of social media on the Internet generate unstructured or semi-structured data every second and they are often made by natural or human languages we use in daily life. Many words in ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 한국어 문장에 대한 WSD의 성능을 향상시키기 위해, 기존의 말뭉치를 이용한 방법에 추가로 표준국어대사전의 예문을 자동으로 포함시켜서 수동(Manual) 태깅으로 인한 말뭉치의 부족과 부정확성 등을 개선하여, 자동으로 말뭉치를 확장하는 방법을 제시하였다. 추가적으로 일반적으로 쓰이는 단어 벡터 공간 모델을 센스에 적용하여 센스 벡터 공간 모델을 제시하였고, 이 모델에 지도 학습 모형인 Naïve Bayes Classifier를 적용하여 센스를 구별하는 방법을 제시하였다.
  • 표준국어대사전은 국립국어원에서 한국어의 표준어 규정, 한글 맞춤법 등의 어문 규정을 준수하여 발행한 한국어 사전이며, 각 단어의 뜻과 센스 별 유의어, 정의, 속담, 용례들을 포함하고 있다. 본 논문은 말뭉치 기반의 WSD에 있어서 문제점인 말뭉치 부족을 현재 태깅된 세종말뭉치에 표준국어대사전에 정의된 속담, 용례 등 사전에 정의된 말뭉치들을 결합하여 말뭉치 부족 문제의 해결을 목적으로 하고 있다. 그리고 사전에 있는 이미 존재하는 문장들을 이용함으로써 시간과 노력이 많이 필요로 하는 매뉴얼 태깅(manual tagging)의 문제점을 보완하며 매뉴얼 태깅보다 정확하고 유용한 문장들을 단어 중의성 해소에 사용할 수 있다.
  • 본 논문은 위의 의미풀이말과 말뭉치(corpus)를 동시에 사용하여 단어의 의미를 결정하는 단어 중의성 해소 방법론을 제시하고, 표준국어대 사전에 정의된 연관 단어뿐만 아니라 예시로 정의된 예제 문장들을 세종 말뭉치에 병합하여 확장된 말뭉치를 사용함으로써 단어 중의성 해소 문제의 Precision과 Recall을 높이는 방법론을 제시한다. 본 논문은 다음과 같이 구성된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
단어 중의성 해소 문제란 무엇인가? 단어 중의성 해소(WSD: Word Sense Disambiguation) 문제는 특정한 문장에서 단어의 쓰임에 의해 활성화된 단어의 의미를 결정하는 문제라 할 수 있다 (Agirre and Edmonds, 2007). 이에, 단어 중의성 해소를 위해 문장 또는 문단에서 사용된 키워 드가 내포하고 있는 의미를 사전(dictionary), 분류체계(taxonomy), 및 언어 온톨로지(linguistic ontology)의 연관 단어들(예를 들어, domain term, hypernym, synonym 등)과 의미풀이말(gloss words) 을 비교하여 공통된 단어의 수(co-occurred terms) 에 의해 결정하는 방법과 의미 태깅된 예제 문장을 기반으로 한 지도학습(supervised learning)을 통해 결정하는 방법이 주로 이용되었다.
정보 검색 분야에서 어떤 연구들이 진행되고 있는가? 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다.
기계를 이용한 자동적인 자연어 처리 시, 완전한 자연어 이해를 어렵게 하는 자연어의 특성은 무엇인가? 특히 소셜네트워크 서비스, 블로그, 모바일 등에서 대량으로 생산되고 있는 비정형데이터를 처리하고 유용한 정보를 추출할 수 있는 빅데이터와 관련된 기술 들은 자연어 처리 기술의 진보를 가속화하고 있다 (Kim and Kim, 2014). 자연어는 한 단어가 여러 가지 의미를 가지고 있는 어휘적 중의성 (ambiguity)을 내포하고 있으며 언어의 근본적인 특성이라 할 수 있다 (Agirre and Edmonds, 2007). 따라서 기계를 이용한 자동적인 자연어 처리 시 단어의 중의성으로 인한 문제는 완전한 자연어의 이해를 어렵게 하는 걸림돌이라 할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. Agirre, E. and P. Edmonds, Word Sense Disambiguation: Algorithms and Applications, Springer, 2007. 

  2. Al-Aidaroos, K. M., A. A. Baker, and Z. Othman, "Medical Data Classification with Na?ve Bayes Approach," Information Technology Journal, Vol.11, No.9(2012), 1166-1174. 

  3. Besserve, M., L. Garnero, and J. Martinerie, "Cross-spectral Discriminant Analysis (CSDA) for the Classification of Brain Computer Interfaces," Proceedings of the 3rd International IEEE/EMBS Conference on Neural Engineering, (2007), 375-378. 

  4. Choi, Y. and J. Park, "The Need for Paradigm Shift in Semantic Similarity and Semantic Relatedness: From Cognitive Semantics Perspective," Journal of Intelligence and Information Systems, Vol.19, No.1(2013), 111-123. 

  5. Domingos, P. and M. Pazzani, "On the Optimality of the Simple Bayesian Classifier under Zero-one Loss," Machine Learning, Vol.29, No.2-3(1997), 103-130. 

  6. Hur, J. and C.-Y. Ock, "A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions," Journal of KIISE: Software and Applications, Vol.28, No.9(2001), 688-698. 

  7. Kim, N. and J. Park, "Personal Information Detection by Using Naive Bayes Methodology," Journal of Intelligence and Information Systems, Vol.18, No.1(2012), 91-107. 

  8. Kim, S. and G. Kim, "Ontology-based User Customized Search Service Considering User Intention," Journal of Intelligence and Information Systems, Vol.18, No.4(2012), 129-143. 

  9. Kim, S. and N. Kim, "A Study on the Effect of Using Sentiment Lexicon in Opinion Classification," Journal of Intelligence and Information Systems, Vol.20, No.1(2014), 133-148. 

  10. Kwon, M., "A Study on Word Sense Disambiguation Using GermaNet," Dokohak, Vol. 22(2010), 59-82. 

  11. Lesk, M., "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone," Proceedings of the ACM-SIGDOC Conference, (1986), 24-26. 

  12. Lund, K. and C. Burgess, "Producing Highdimensional Sematic Spaces from Lexical Co-occurrence," Behavior Research Methods, Instrumentation, and Computers, Vol.28, No.2(1996), 203-209. 

  13. Manning, C. D., P. Raghavan, and H. Schutze, Introduction to Information Retrieval, Cambridge University Press, New York, 2008. 

  14. Ng. H. T., B. Wang, and Y. S. Chan, "Exploiting Parallel Texts for Word Sense Disambiguation: An Empirical Study," Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, ACL, (2003), 455-462. 

  15. Ock, C.-Y., E.-J. Ock, and W.-W. Lee, "Measuring Lexical Relationship of Co-occurrence Words in Modification Phrases," Hangul, Vol.255 (2002), 129-154. 

  16. Roberto, N., "Word Sense Disambiguation: A Survey," ACM Computing Surveys, Vol.41, No.2(2009), 1-69. 

  17. Schutze, N., "Automatic Word Sense Discrimination," Computational Linguistics, Vol.24, No.1(1999), 97-123. 

  18. Yarowsky, D., "Word-sense Disambiguation Using Statistical Models of Roget's Categories Trained on Large Corpora," Proceedings of COLING-92, (1992), 454-460. 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로