[논문]한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법

곽수정; 김보겸; 이재성

doi:10.3745/ktsde.2013.2.12.881

한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법
Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.2 no.12, 2013년, pp.881 - 888

곽수정 (충북대학교 정보산업공학협동과정) , 김보겸 (충북대학교 디지털정보융합학과) , 이재성 (충북대학교 디지털정보융합학과)

초록
AI-Helper

기분석 사전은 형태소 분석기의 속도와 정확도를 향상시키고, 과분석을 줄이기 위해 사용된다. 하지만 기분석 사전에 저장된 어절 중에 저장된 형태소 분석 결과가 부족한 어절, 즉 불충분 분석 어절이 존재할 경우 오히려 형태소 분석기의 정확도를 떨어뜨리는 원인으로 작용할 수 있다. 본 논문에서는 세종 형태 분석 말뭉치(문어체, 2011)를 이용해 말뭉치의 크기와 어절 빈도의 변화에 따라 사전의 정답 제시율이 변화하는 양상을 측정하였다. 그리고 통계기반의 형태소 분석기인 SMA와 기분석 사전을 결합한 통합 시스템을 구성하여 기분석 사전의 충분 분석률이 99.82% 이상일 때 시스템 전체 성능이 향상되는 것을 확인하였다. 또한 160만 어절의 말뭉치를 이용할 때는 32회 이상 출현한 어절로, 630만 어절로 구성된 말뭉치를 이용할 때는 64회 이상 출현한 어절로 사전을 구성하는 것이 통합 시스템의 성능을 가장 높게 할 수 있었다.

Abstract ▼ AI-Helper

A pre-analyzed dictionary is used to increase the speed and the accuracy of morphological analyzers and to decrease the over-generation. However, if the dictionary includes 'Insufficiently-analyzed word-phrases', which do not include all the possible analysis of the word-phrase, it may cause the decrease of the analysis accuracy. In this paper, we measure the accuracy changes according to the number of word-phrase frequency and the size changes of corpus by Sejong corpus. And performance of integrate system(SMA with pre-dictionary) is highest when sufficient analysis rate of pre-dictionary is more than 99.82%. Also pre-dictionary is constructed with word-phrase that frequency more than 32(64) when size of corpus is 1,600,000(6,300,000) word-phrase.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

단순하게 생각해 봤을 때 분석 결과의 종류가 많은 어절 보다 적은 어절이 불충분 분석 어절일 확률이 높다. 따라서 말뭉치에서 n가지 이상의 분석 결과로 출현한 어절만 이용해 기분석 사전을 구성하고자 하였다. 하지만 모든 어절을 분석 결과의 종류 수를 기준으로 필터링할 경우 중의성이 없는 어절이 모두 사전에서 제거되는 문제가 발생한다.
이런 경우의 어절, 즉, 모든 경우의 분석을 포함하지 않은 어절을 불충분 분석 어절이라고 하자. 본 논문에서는 기분석 사전에서 나타난 불충분 분석 어절의 특성을 파악하여, 사전에 저장된 불충분분석 어절의 수를 조절하고, 기존의 형태소 분석기와 통합하여 효율적으로 사용할 수 있는 방법에 대해서 논의한다.
본 논문에서는 어절 단위 기분석 사전에 초첨을 맞춰 사전을 구성하는 말뭉치의 크기와 필터링 기준에 따른 기분석 사전의 성능을 평가하고, 형태소 분석기과 통합하여 적용해보았다.
그런데 사전에 불충분 분석 어절이 존재하여 오히려 형태소 분석기의 정답 제시율을 떨어뜨리는 경우가 발생한다. 본 논문에서는 형태소 분석기의 정확도를 높이기 위한 기분석 사전 구성 방법을 제시하고 실제 형태소 분석기와 통합하여 그 성능을 측정하고 평가하였다. 그리고 통계기반 3단계 형태소 분석기인 SMA와 사전을 결합하여 통합 시스템의 성능을 최적화 하는 기분석 사전 구성 기준을 확인 하였다.
이것을 근거로, 말뭉치에서 n번 이상 출현한 어절만 사전에 저장하여 사용하고자 한다. 필터링 기준이 높으면 높을수록 사전의 정답 제시율은 증가하겠지만 사전의 적중률이 떨어져 기분석 사전을 사용하는 의미가 없어진다.
가장 많이 혼동 되는 문법 형태소의 품사는 예제에서 나타난 연결 어미(EC)-종결 어미(EF) 외에도 부사격 조사(JKB)-접속 조사(JC), 주격 조사(JKS)-보격 조사(JKC)가 있다. 이렇게 혼동이 빈번하게 발생하는 품사들을 확인하고 두가지 중 하나만 저장된 어절을 사전에서 제거하거나 분석 결과에 저장되지 않은 형태소의 결과를 추가하려고 하였다. 그러나 사전에 분석 결과를 임의로 추가 하는 것은 수동으로 작성한 정답만 저장하는 기분석 사전의 정의에 어긋나는 일이기 때문에 제외하였다.
현재의 통합시스템에서 기분석 사전의 충분분석률이 어느정도 높아야 SMA와 같이 사용하는 것이 효과적인지를 알기위해 평가하였다. 이를 위해 평가파일에 나타난 어절 중 기분석 사전에 적중되는 어절만을 대상으로 SMA의 성능을 측정하였다.

제안 방법

본 논문에서는 말뭉치의 크기와 말뭉치를 필터링할 어절의 출현 빈도 기준을 다르게 하여 사전을 구성하였다. 그리고 사전의 성능을 측정하여 이것이 형태소 분석기에 미칠 영향에 대해서 추정하고, 사전 구성 시 필요한 최소한의 말뭉치 크기를 제안한다.
본 논문에서는 형태소 분석기의 정확도를 높이기 위한 기분석 사전 구성 방법을 제시하고 실제 형태소 분석기와 통합하여 그 성능을 측정하고 평가하였다. 그리고 통계기반 3단계 형태소 분석기인 SMA와 사전을 결합하여 통합 시스템의 성능을 최적화 하는 기분석 사전 구성 기준을 확인 하였다.
이 경우, 우선 입력된 어절을 기분석 사전에서 탐색하고, 그 어절이 있을 경우 미리 분석된 결과를 그대로 출력한다. 기분석 사전에 입력 어절이 없을 경우에만 형태소 분석기를 이용해 분석을 수행한다[4, 5].
또한 평가 파일 없이 혼동되는 문법 형태소를 찾아내는 것은 매우 어려운 일이고, 예외적인 경우가 많이 섞여있어 자동으로 어절을 제거하는 것이 어렵다. 따라서 동형이의 문법 형태소를 이용한 필터링 방법은 본 논문에 적용하지 않았다.
) 90개는 사전으로, 10개는 평가 파일로 사용하였으며, 사전으로 사용하는 파일과 평가용으로 사용하는 파일을 서로 다르게 하여 10-fold test와 유사한 방식으로 10번의 성능 측정을 하였다. 말뭉치의 크기는 사전으로 사용되는 90개의 파일을 하나씩 합쳐가면서 사용해 변화시켰고, 숫자 n을 필터링 기준으로 하여, n번 이상 출현한 어절만 추출해 사전으로 구성하였다.
본 논문에서는 말뭉치의 크기와 말뭉치를 필터링할 어절의 출현 빈도 기준을 다르게 하여 사전을 구성하였다. 그리고 사전의 성능을 측정하여 이것이 형태소 분석기에 미칠 영향에 대해서 추정하고, 사전 구성 시 필요한 최소한의 말뭉치 크기를 제안한다.
실제 형태소 분석기에 입력된 어절이 사전에 저장되어 있을 확률을 적중률이라 한다[2,6]. 본 논문에서는 사전구성에 사용된 파일과 겹치지 않는 10개의 평가용 파일을 실제 입력어절의 모집단으로 하여 사전의 적중률을 측정하였다.
위의 세가지 방법 이외에도 불충분 분석 어절의 길이가 충분 분석 어절의 길이보다 특별히 길거나 짧을 수 있다는 가정에 의해서 충분 분석 어절과 불충분 분석 어절의 길이를 측정해 보았다. 충분 분석 어절의 길이는 평균 3.
현재의 통합시스템에서 기분석 사전의 충분분석률이 어느정도 높아야 SMA와 같이 사용하는 것이 효과적인지를 알기위해 평가하였다. 이를 위해 평가파일에 나타난 어절 중 기분석 사전에 적중되는 어절만을 대상으로 SMA의 성능을 측정하였다. 그 결과는 Fig.
SMA는 미등록어가 있을 경우, 그 오류률이 높지만, 등록된 형태소들에 대해서는 정답 제시율이 높은 편이다. 이를 확인하기 위해 실제로 실험에 사용한 평가용 말뭉치와 사전용(학습용) 말뭉치를 이용해 이를 확인해 보았다. 그 결과는 Table 6과 같다.
따라서 말뭉치의 크기에 따라 통합 시스템을 구성할 때 가장 적절한 출현 빈도 필터링 기준을 확인할 필요가 있다. 이에 SMA와 기분석 사전을 결합한 통합 시스템의 성능을 측정하였다(Fig. 5, Table 7).
사전 구성시 사용되는 말뭉치의 크기에 따라 변화하는 사전의 성능을 측정하기 위해 말뭉치의 크기를 균등하게 분리해 사용할 필요가 있다. 이에 실제 어절 분포와 유사하게 말뭉치를 분리하기 위해 어절을 문장단위로 묶어 100개의 파일에 균등하게 분배하였다. 이때 실험에 사용한 말뭉치는 3장에서 사용한 말뭉치와 동일하다.
78%에 이르므로 이것을 사전에서 제거한다면 간단하게 기분석 사전의 성능을 향상 시킬 수 있을 것이다. 이에 품사 중의성에 의한 불충분 분석 어절 100개를 임의로 뽑아 그 특성을 직접 확인하였다(Table 1).
전체 어절 중에서 혼동되는 문법 형태소 가운데 한가지만 결과에 포함한 어절을 조사하였다. 이것은 전체의 43.

대상 데이터

불충분 분석 어절의 특징을 확인하기 위해 먼저 말뭉치를 이용해 사전을 구축하고, 불충분 분석 어절을 파악할 필요가 있다. 이에 세종 형태 분석 말뭉치(2011, 문어체)[13]에서 오류와 특수기호를 제거한 700만여 어절을 실험에 사용하였다. 말뭉치의 90%는 사전으로 10%는 평가를 위한 데이터로 하여 평가 데이터의 어절 중 사전에서 탐색되지만 올바른 형태소 분석에 실패한 어절을 불충분 분석으로 보고, 특징 파악에 사용하였다.
SMA는 말뭉치에서 자동으로 구축되는 형태소 분석기이므로 기분석 사전의 말뭉치를 공유할 수 있다. 즉, 실험에 사용한 SMA는 기분석 사전 구축에 사용한 파일 90개를 그대로 학습하여 사용하였다.

이론/모형

통합 시스템의 형태소 분석기로써 통계 기반의 3단계 형태소 분석기인 SMA[13]를 사용하였다. SMA는 말뭉치에서 자동으로 구축되는 형태소 분석기이므로 기분석 사전의 말뭉치를 공유할 수 있다.

성능/효과

3,169개의 불충분 분석 어절 중 151(4.76%)개의 어절은 원형 복원이나 분리 결과가 정답과 다른 형태 중의성에 의한 불충분 분석 어절이고, 2,972(93.78%)개의 어절은 원형 복원과 분리 결과는 같지만 부착된 품사가 정답과 다른 품사 중의성에 의한 불충분 분석 어절이다. 그리고 46(1.
이것으로, 160만 여 어절로 사전을 구성 할때는 필터링 빈도 기준을 32로 하는 것이, 630만여 어절로 사전을 구성할 때는 필터링 빈도 기준을 64로 하는것이 가장 최적임을 파악 할 수 있었다. 또한 말뭉치의 크기가 커질수록 통합 시스템의 성능이 최적이 되는 출현 빈도 필터링 기준이 높아지는 것을 확인할 수 있었다.
합쳐진 파일의 수가 1개일 때 모든 어절을 이용한 사전과 16번 이상 출현한 어절로만 구성한 사전의 적중률을 35%p 이상 차이가 나지만 합쳐진 파일 수가 90개일 때는 20%p 미만으로 그 폭이 크게 줄어들었다. 또한, 파일 수가 1개에서 23개로 증가 할 때 사전의 적중률은 20%p 이상 증가했지만 67개에서 90개로 증가할 때는 3%p 미만으로 증가하는 것을 확인할 수 있다.
이것으로, 160만 여 어절로 사전을 구성 할때는 필터링 빈도 기준을 32로 하는 것이, 630만여 어절로 사전을 구성할 때는 필터링 빈도 기준을 64로 하는것이 가장 최적임을 파악 할 수 있었다. 또한 말뭉치의 크기가 커질수록 통합 시스템의 성능이 최적이 되는 출현 빈도 필터링 기준이 높아지는 것을 확인할 수 있었다.
5%임을 보였다. 이를 통해 고빈도 어절을 저장한 기분석 사전을 형태소 분석에 활용하는 것이 효율적임을 증명하였다.
말뭉치의 90%는 사전으로 10%는 평가를 위한 데이터로 하여 평가 데이터의 어절 중 사전에서 탐색되지만 올바른 형태소 분석에 실패한 어절을 불충분 분석으로 보고, 특징 파악에 사용하였다. 평가 데이터의 192,997어절 중 139,677어절이 적중하였으며, 이중 3,169어절이 불충분 분석 어절 이었다.
합쳐진 파일의 수가 1개일 때 모든 어절을 이용한 사전과 16번 이상 출현한 어절로만 구성한 사전의 적중률을 35%p 이상 차이가 나지만 합쳐진 파일 수가 90개일 때는 20%p 미만으로 그 폭이 크게 줄어들었다. 또한, 파일 수가 1개에서 23개로 증가 할 때 사전의 적중률은 20%p 이상 증가했지만 67개에서 90개로 증가할 때는 3%p 미만으로 증가하는 것을 확인할 수 있다.

후속연구

불충분 분석 어절을 사전에서 제거할 때에 논문에서 제시한 빈도 기준의 방법 외에도 다른 방법이 존재할 수 있다. 특히 동형이의 문법 형태소를 더 조사한다면 불충분 분석 어절을 효율적으로 처리할 수 있는 방법을 찾을 수 있을 것이라 예상한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기분석 사전을 일반적으로 대용량의 품사 부착 말뭉치를 이용해 구축할 경우에 얻는 장점은 무엇인가?	기분석 사전은 일반적으로 대용량의 품사 부착 말뭉치를 이용해 구축한다. 이것은 이미 정답으로 확인된 분석 결과만 출력하기 때문에 과분석을 줄일 수 있다는 장점이 있다[3]. 하지만 이와 모순되게 중의성을 가지는 어절의 분석 결과 중 일부만 말뭉치에 출현한 경우 원하는 분석 결과가 포함되지 않아 형태소 분석기 전체의 정답 제시율을 떨어뜨릴 수 있다.
	형태소 분석이란?	형태소 분석이란 자연언어처리의 가장 기본적인 단계로, 어절을 의미를 가지는 가장 작은 단위인 형태소로 분리하고, 품사를 찾아내는 것이다[1]. 한국어는 교착어의 특성을 가지며, 다양한 음운 현상이 발생하기 때문에 형태소 분석 과정이 매우 복잡하다.
	한국어가 형태소 분석 과정이 매우 복잡한 이유는 무엇인가?	형태소 분석이란 자연언어처리의 가장 기본적인 단계로, 어절을 의미를 가지는 가장 작은 단위인 형태소로 분리하고, 품사를 찾아내는 것이다[1]. 한국어는 교착어의 특성을 가지며, 다양한 음운 현상이 발생하기 때문에 형태소 분석 과정이 매우 복잡하다. 따라서 빠른 속도의 형태소 분석을 위해 기분석 사전을 이용한 형태소 분석이 제안되어 왔다[2, 3].

참고문헌 (14)

S. S. Kang, "Korean Morphological Analysis and Information Retrieval," Hongrung Publisher, 2002.
J. H. Kim, C. Y. Ok, "Korean Morphological Analysis using Inflected-Word-Dictionary," Proceedings of Spring Conference on KIISE, Vol.21, No.1, pp.813-816, 1994.
S. S. Kang, "Encoding of Morphological Analysis Result and Eojeol Dictionary Construction," Proceeding of the 16th Hangul and Korean Information Processing conference on KIISE, Vol.16, No.1, pp.112-117, 2004.
D. Lee, "Probabilistic Models for Korean Morphological Analysis and Part-of-Speech Tagging," Ph.D. dissertation, University of Korea at Computer Science and Engineering, Korea, 2005.
J. C. Shin, C. Y. Ock, "A Korean Morphological Analyzer using a Pre-analyzed Partial Word-phrase Dictionary," The KIISE Transactions: Software and Application, Vol.39, No.5, pp. 415-424, 2012.
S. S. Kang, "Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics," Proceeding of the 13th Hangul and Korean Information Processing conference on KIISE, pp.85-88, 2001.
S. H. Yang, Y. S. Kim, "A High-Speed Korean Morphological Analysis Method based on Pre-Analyzed Partial Words," The KIISE Transactions: Software and Applications, Vol.27, No.3, pp.290-301, 2003.
S. S. Kang, Y. T. Kim, "A Computational Analysis Model of Prefinal Endings for Korean Morphological Analyzer," The KIISE Transations, Vol.18, No.5, 1991.
J. P. Hong, J. W. Cha, "A New Korean Morphological Analyzer using Eojeol Pattern Dictionary," Proceeding of the Korea Computer Congress on KIISE, Vol.35, No.1(C), pp.279-284, 2008.
H. S. Lim, H. Lee, H. C. Rim "A Method of Analyzing Word Ambiguity in Korean Morphological Analysis," Proceeding of Spring Conference on KIISE, Vol.20, No.1, pp.779-776, 1993.
J. S. Nam, K. S. Choi, "Disambiguation Method based on a Lexicon of Typographical Units," Proceeding of the 9th Hangul and Korean Information Processing conference on KIISE, pp.75-82, 1997.
J. Y. Kee, K. Y. Lee, H. W. Kim "Disambiguation in Morphological Analysis Using Word Rules," Proceeding of autumn Conference on KIISE, Vol.24, No.2(II), pp.215-218, 1997.
The National Institute of the Korean Language, 21st Century Sejong Project Final Result - 2011.12. Revised Edition, 2011.
J. S. Lee, "Three-Step Probabilistic Model for Korean Morphological Analysis," The KIISE Transactions: Software and Application, Vol.38, No.5, pp.257-268, 2011.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증