$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법
Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.2 no.12, 2013년, pp.881 - 888  

곽수정 (충북대학교 정보산업공학협동과정) ,  김보겸 (충북대학교 디지털정보융합학과) ,  이재성 (충북대학교 디지털정보융합학과)

초록
AI-Helper 아이콘AI-Helper

기분석 사전형태소 분석기의 속도와 정확도를 향상시키고, 과분석을 줄이기 위해 사용된다. 하지만 기분석 사전에 저장된 어절 중에 저장된 형태소 분석 결과가 부족한 어절, 즉 불충분 분석 어절이 존재할 경우 오히려 형태소 분석기의 정확도를 떨어뜨리는 원인으로 작용할 수 있다. 본 논문에서는 세종 형태 분석 말뭉치(문어체, 2011)를 이용해 말뭉치의 크기와 어절 빈도의 변화에 따라 사전의 정답 제시율이 변화하는 양상을 측정하였다. 그리고 통계기반의 형태소 분석기인 SMA와 기분석 사전을 결합한 통합 시스템을 구성하여 기분석 사전의 충분 분석률이 99.82% 이상일 때 시스템 전체 성능이 향상되는 것을 확인하였다. 또한 160만 어절의 말뭉치를 이용할 때는 32회 이상 출현한 어절로, 630만 어절로 구성된 말뭉치를 이용할 때는 64회 이상 출현한 어절로 사전을 구성하는 것이 통합 시스템의 성능을 가장 높게 할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

A pre-analyzed dictionary is used to increase the speed and the accuracy of morphological analyzers and to decrease the over-generation. However, if the dictionary includes 'Insufficiently-analyzed word-phrases', which do not include all the possible analysis of the word-phrase, it may cause the dec...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 단순하게 생각해 봤을 때 분석 결과의 종류가 많은 어절 보다 적은 어절이 불충분 분석 어절일 확률이 높다. 따라서 말뭉치에서 n가지 이상의 분석 결과로 출현한 어절만 이용해 기분석 사전을 구성하고자 하였다. 하지만 모든 어절을 분석 결과의 종류 수를 기준으로 필터링할 경우 중의성이 없는 어절이 모두 사전에서 제거되는 문제가 발생한다.
  • 이런 경우의 어절, 즉, 모든 경우의 분석을 포함하지 않은 어절을 불충분 분석 어절이라고 하자. 본 논문에서는 기분석 사전에서 나타난 불충분 분석 어절의 특성을 파악하여, 사전에 저장된 불충분분석 어절의 수를 조절하고, 기존의 형태소 분석기와 통합하여 효율적으로 사용할 수 있는 방법에 대해서 논의한다.
  • 본 논문에서는 어절 단위 기분석 사전에 초첨을 맞춰 사전을 구성하는 말뭉치의 크기와 필터링 기준에 따른 기분석 사전의 성능을 평가하고, 형태소 분석기과 통합하여 적용해보았다.
  • 그런데 사전에 불충분 분석 어절이 존재하여 오히려 형태소 분석기의 정답 제시율을 떨어뜨리는 경우가 발생한다. 본 논문에서는 형태소 분석기의 정확도를 높이기 위한 기분석 사전 구성 방법을 제시하고 실제 형태소 분석기와 통합하여 그 성능을 측정하고 평가하였다. 그리고 통계기반 3단계 형태소 분석기인 SMA와 사전을 결합하여 통합 시스템의 성능을 최적화 하는 기분석 사전 구성 기준을 확인 하였다.
  • 이것을 근거로, 말뭉치에서 n번 이상 출현한 어절만 사전에 저장하여 사용하고자 한다. 필터링 기준이 높으면 높을수록 사전의 정답 제시율은 증가하겠지만 사전의 적중률이 떨어져 기분석 사전을 사용하는 의미가 없어진다.
  • 가장 많이 혼동 되는 문법 형태소의 품사는 예제에서 나타난 연결 어미(EC)-종결 어미(EF) 외에도 부사격 조사(JKB)-접속 조사(JC), 주격 조사(JKS)-보격 조사(JKC)가 있다. 이렇게 혼동이 빈번하게 발생하는 품사들을 확인하고 두가지 중 하나만 저장된 어절을 사전에서 제거하거나 분석 결과에 저장되지 않은 형태소의 결과를 추가하려고 하였다. 그러나 사전에 분석 결과를 임의로 추가 하는 것은 수동으로 작성한 정답만 저장하는 기분석 사전의 정의에 어긋나는 일이기 때문에 제외하였다.
  • 현재의 통합시스템에서 기분석 사전의 충분분석률이 어느정도 높아야 SMA와 같이 사용하는 것이 효과적인지를 알기위해 평가하였다. 이를 위해 평가파일에 나타난 어절 중 기분석 사전에 적중되는 어절만을 대상으로 SMA의 성능을 측정하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
기분석 사전을 일반적으로 대용량의 품사 부착 말뭉치를 이용해 구축할 경우에 얻는 장점은 무엇인가? 기분석 사전은 일반적으로 대용량의 품사 부착 말뭉치를 이용해 구축한다. 이것은 이미 정답으로 확인된 분석 결과만 출력하기 때문에 과분석을 줄일 수 있다는 장점이 있다[3]. 하지만 이와 모순되게 중의성을 가지는 어절의 분석 결과 중 일부만 말뭉치에 출현한 경우 원하는 분석 결과가 포함되지 않아 형태소 분석기 전체의 정답 제시율을 떨어뜨릴 수 있다.
형태소 분석이란? 형태소 분석이란 자연언어처리의 가장 기본적인 단계로, 어절을 의미를 가지는 가장 작은 단위인 형태소로 분리하고, 품사를 찾아내는 것이다[1]. 한국어는 교착어의 특성을 가지며, 다양한 음운 현상이 발생하기 때문에 형태소 분석 과정이 매우 복잡하다.
한국어가 형태소 분석 과정이 매우 복잡한 이유는 무엇인가? 형태소 분석이란 자연언어처리의 가장 기본적인 단계로, 어절을 의미를 가지는 가장 작은 단위인 형태소로 분리하고, 품사를 찾아내는 것이다[1]. 한국어는 교착어의 특성을 가지며, 다양한 음운 현상이 발생하기 때문에 형태소 분석 과정이 매우 복잡하다. 따라서 빠른 속도의 형태소 분석을 위해 기분석 사전을 이용한 형태소 분석이 제안되어 왔다[2, 3].
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. S. S. Kang, "Korean Morphological Analysis and Information Retrieval," Hongrung Publisher, 2002. 

  2. J. H. Kim, C. Y. Ok, "Korean Morphological Analysis using Inflected-Word-Dictionary," Proceedings of Spring Conference on KIISE, Vol.21, No.1, pp.813-816, 1994. 

  3. S. S. Kang, "Encoding of Morphological Analysis Result and Eojeol Dictionary Construction," Proceeding of the 16th Hangul and Korean Information Processing conference on KIISE, Vol.16, No.1, pp.112-117, 2004. 

  4. D. Lee, "Probabilistic Models for Korean Morphological Analysis and Part-of-Speech Tagging," Ph.D. dissertation, University of Korea at Computer Science and Engineering, Korea, 2005. 

  5. J. C. Shin, C. Y. Ock, "A Korean Morphological Analyzer using a Pre-analyzed Partial Word-phrase Dictionary," The KIISE Transactions: Software and Application, Vol.39, No.5, pp. 415-424, 2012. 

  6. S. S. Kang, "Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics," Proceeding of the 13th Hangul and Korean Information Processing conference on KIISE, pp.85-88, 2001. 

  7. S. H. Yang, Y. S. Kim, "A High-Speed Korean Morphological Analysis Method based on Pre-Analyzed Partial Words," The KIISE Transactions: Software and Applications, Vol.27, No.3, pp.290-301, 2003. 

  8. S. S. Kang, Y. T. Kim, "A Computational Analysis Model of Prefinal Endings for Korean Morphological Analyzer," The KIISE Transations, Vol.18, No.5, 1991. 

  9. J. P. Hong, J. W. Cha, "A New Korean Morphological Analyzer using Eojeol Pattern Dictionary," Proceeding of the Korea Computer Congress on KIISE, Vol.35, No.1(C), pp.279-284, 2008. 

  10. H. S. Lim, H. Lee, H. C. Rim "A Method of Analyzing Word Ambiguity in Korean Morphological Analysis," Proceeding of Spring Conference on KIISE, Vol.20, No.1, pp.779-776, 1993. 

  11. J. S. Nam, K. S. Choi, "Disambiguation Method based on a Lexicon of Typographical Units," Proceeding of the 9th Hangul and Korean Information Processing conference on KIISE, pp.75-82, 1997. 

  12. J. Y. Kee, K. Y. Lee, H. W. Kim "Disambiguation in Morphological Analysis Using Word Rules," Proceeding of autumn Conference on KIISE, Vol.24, No.2(II), pp.215-218, 1997. 

  13. The National Institute of the Korean Language, 21st Century Sejong Project Final Result - 2011.12. Revised Edition, 2011. 

  14. J. S. Lee, "Three-Step Probabilistic Model for Korean Morphological Analysis," The KIISE Transactions: Software and Application, Vol.38, No.5, pp.257-268, 2011. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로