말뭉치 기반 한국어 형태소 분석 방법은 대용량의 기분석 어절사전을 사용하여 분석하고, 그 사전에 없는 어절의 경우 코드 변환, 형태소 분리, 원형 복원 동의 복잡한 분석 규칙을 통해 후보들을 생성했다. 이 복잡한 분석 규칙은 프로그램의 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 떨어뜨리고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 기분석 부분 어절 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 기분석 부분 어절 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 형태소 분석의 재현율이 99.05%였으며, 은닉 마르코프 모델을 이용한 품사 및 동형이의어 태깅 정확률은 96.76%였다.
말뭉치 기반 한국어 형태소 분석 방법은 대용량의 기분석 어절사전을 사용하여 분석하고, 그 사전에 없는 어절의 경우 코드 변환, 형태소 분리, 원형 복원 동의 복잡한 분석 규칙을 통해 후보들을 생성했다. 이 복잡한 분석 규칙은 프로그램의 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 떨어뜨리고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 기분석 부분 어절 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 기분석 부분 어절 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 형태소 분석의 재현율이 99.05%였으며, 은닉 마르코프 모델을 이용한 품사 및 동형이의어 태깅 정확률은 96.76%였다.
The Korean morphological analysis based on corpus usually uses the pre-analyzed full word-phrase dictionary(FWD) that is constructed from the corpus. If input words are not found in the FWD, the morphemes of the input words are analyzed using complicated analysis rules: code transformation, decompos...
The Korean morphological analysis based on corpus usually uses the pre-analyzed full word-phrase dictionary(FWD) that is constructed from the corpus. If input words are not found in the FWD, the morphemes of the input words are analyzed using complicated analysis rules: code transformation, decomposition of morphemes, and restoration of original form. Such complicated analysis rules are inefficient in terms of programming, maintenance, and runtime and cause to reduce its accuracy and performance. In order to solve these problems, the method using a pre-analyzed partial word-phrase dictionary(PWD) was researched. This paper proposes new method that constructs the PWD from tagged corpus and analyzes Korean morpheme using the PWD. According to the experiments on Sejong corpus, the recall of morpheme analysis is 99.05%. And the accuracy of POS with homonym tagging based on Hidden-Markov-Model is 96.76%.
The Korean morphological analysis based on corpus usually uses the pre-analyzed full word-phrase dictionary(FWD) that is constructed from the corpus. If input words are not found in the FWD, the morphemes of the input words are analyzed using complicated analysis rules: code transformation, decomposition of morphemes, and restoration of original form. Such complicated analysis rules are inefficient in terms of programming, maintenance, and runtime and cause to reduce its accuracy and performance. In order to solve these problems, the method using a pre-analyzed partial word-phrase dictionary(PWD) was researched. This paper proposes new method that constructs the PWD from tagged corpus and analyzes Korean morpheme using the PWD. According to the experiments on Sejong corpus, the recall of morpheme analysis is 99.05%. And the accuracy of POS with homonym tagging based on Hidden-Markov-Model is 96.76%.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.