한국어 형태소 분석은 일반적으로 입력된 문장의 분석 후보를 다수 생성한 후, 그 중 최적의 후보를 선택하는 과정을 거친다. 분석 후보를 많이 생성할수록 올바른 분석이 포함될 가능성이 높아지지만 동시에 모호성이 증가한다는 문제가 생긴다. 이를 해결하기 위해 본 논문은 단일 후보를 생성하는 규칙 기반 분석 모형을 제안한다. 분석 규칙은 품사 부착 말뭉치를 통해 자동으로 추출되기 때문에 규칙 구축비용을 필요로 하지 않을 뿐만 아니라 높은 분석성공률을 보인다. 분석이 성공한 경우에는 단 하나의 분석 후보만을 생성하기 때문에 최적 후보 선택 단계에서의 모호성이 효과적으로 감소되고, 계산 복잡도 역시 줄어든다. 규칙 모형으로 분석이 실패한 경우를 대비해 기존 확률 기반 모형을 결합함으로써 형태소 분석 성능을 향상시킬 수 있다.
한국어 형태소 분석은 일반적으로 입력된 문장의 분석 후보를 다수 생성한 후, 그 중 최적의 후보를 선택하는 과정을 거친다. 분석 후보를 많이 생성할수록 올바른 분석이 포함될 가능성이 높아지지만 동시에 모호성이 증가한다는 문제가 생긴다. 이를 해결하기 위해 본 논문은 단일 후보를 생성하는 규칙 기반 분석 모형을 제안한다. 분석 규칙은 품사 부착 말뭉치를 통해 자동으로 추출되기 때문에 규칙 구축비용을 필요로 하지 않을 뿐만 아니라 높은 분석성공률을 보인다. 분석이 성공한 경우에는 단 하나의 분석 후보만을 생성하기 때문에 최적 후보 선택 단계에서의 모호성이 효과적으로 감소되고, 계산 복잡도 역시 줄어든다. 규칙 모형으로 분석이 실패한 경우를 대비해 기존 확률 기반 모형을 결합함으로써 형태소 분석 성능을 향상시킬 수 있다.
Korean morphological analyzer generally generates multiple candidates, and then selects the most likely one among multiple candidates. As the number of candidates increases, the chance that the correctly analyzed candidate is included in the candidate list also grows. This process, however, increase...
Korean morphological analyzer generally generates multiple candidates, and then selects the most likely one among multiple candidates. As the number of candidates increases, the chance that the correctly analyzed candidate is included in the candidate list also grows. This process, however, increases ambiguity and then deteriorates the performance. In this paper, we propose a new rule-based model that produces one best analysis. The analysis rules are automatically extracted from large amount of Part-of-Speech tagged corpus, and the proposed model does not require any manual construction cost of analysis rules, and has shown high success rate of analysis. Futhermore, the proposed model can reduce the ambiguities and computational complexities in the candidate selection phase because the model produces one analysis when it can successfully analyze the given word. By combining the conventional probability-based model. the model can also improve the performance of analysis when it does not produce a successful analysis.
Korean morphological analyzer generally generates multiple candidates, and then selects the most likely one among multiple candidates. As the number of candidates increases, the chance that the correctly analyzed candidate is included in the candidate list also grows. This process, however, increases ambiguity and then deteriorates the performance. In this paper, we propose a new rule-based model that produces one best analysis. The analysis rules are automatically extracted from large amount of Part-of-Speech tagged corpus, and the proposed model does not require any manual construction cost of analysis rules, and has shown high success rate of analysis. Futhermore, the proposed model can reduce the ambiguities and computational complexities in the candidate selection phase because the model produces one analysis when it can successfully analyze the given word. By combining the conventional probability-based model. the model can also improve the performance of analysis when it does not produce a successful analysis.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 형태소 분석 후보 생성 단계에서 발생하는 과도한 분석 후보 생성을 방지함과 동시에 정확한 하나의 분석 후보만을 생성하는 단일 분석 후보 생성 모형을 제안한다. 하나의 후보만 생성하기 때문에 최적 후보 선택 단계에서 선택의 모호성이 해소되어 분석 속도를 향상시켰을 뿐만 아니라보다높은 분석정확률을 보였다.
본 논문은 규칙 기반과 통계 기반 접근법의 장점을 취합한 혼합 모형을 제안한다.<그림 3.
형태소 분석 단계에서는 입력문의 각 어절에 대해 올바른 분석 결과를 포함하는 복수개의 분석 후보를 생성하는 것을 목표로 한다. 이 과정에서 후보를 과다하게 생성하면 최종 분석 결과의 정확도 하락의 원인이 된다.
제안 방법
1. 어절의 왼쪽부터 부분음절열의 크기를 증가하며 해당하는 형태소 단위 규칙을 탐색한다. 규칙이 탐색 되지 않았다면 그 시점에서 증가를 중지한다.
규칙 모형이 먼저 분석을 시도하고, 규칙의 부재로 인해 분석 실패한 어절에 대해 확률 모형이 분석을 시도한다. 규칙 모형으로 인해 평균분석후보수는 L87개에서 1.
좌 문맥과 우문맥은 분석 대상의 좌우에 인접한 가변적인 길이의 음절 열이다. 본 논문에서는 가변적인 길이의 범위를 0부터 2까지 정하였다. 분석 대상은 어절 단위 규칙에서는 어절이 해당되며 형태소 단위 규칙에서는 어절의 부분음절열이 해당된다.
규칙 기반 모형은 고성능의 규칙을 구축함으로써 통계 기반 방식보다 정확한 분석이 가능하지만 다양한 언어현상을 고려하기는 힘들다. 본 논문에서는 규칙 기반 접근법과 통계 기반 접근법의 장점만을 취합한 혼합 모형을 제안하였다. 제안한 모형은 98.
정확률을 보장할 수 있어야 한다. 분석 시 모호성이 높은 어절은 규칙 기반 모형으로 분석하지 않고, 다수의 분석 후보를 생성하는 확률 기반 모형이 분석하게 구성하였다. 이를 위해 규칙 검증 단계에서 모호성이 높은 어절을 분석하는 규칙들은 제거하였다.
성능 평가는 두 단계에 나누어 수행되었다. 우선 제안하는 규칙 기반 형태소 분석 모형의 성능을 기존의 확률 기반 형태소 분석 모형의 성능과 비교한 후, 규칙 기반 모형이 확률 기반 모형과 결합한 혼합 모형의 최종 성능을 평가하였다.
규칙 검증 단계에서 분석정확률을 높이기 위해 부정확한 분석 규칙들은 제거되는데, 이에 따라 규칙의 부재로 인한 분석에 실패하는 경우 역시 증가하게 된다. 이런 문제점을 보완하기 위해 기존의 확률 기반 모형을 활용하여 규칙 기반 모형이 분석 실패한 어절에 대해 기존의 방식대로 다수의 분석 후보를 생성한다. 확률 기반 형태소 분석 모형 및 품사 부착 모형은 한국어에 높은 성능을 보였던[11]을 활용하였으며 , 다른 어떠한 종류의 분석 모형이라도 대체 가능하다.
기존의 확률 모형에서의 평균분석후보수는 어절별 L87개였지만. 제안하는 규칙 기반 모형은 분석한 모든 어절에 대해 단 하나만의 정확한 분석 후보를 생성하다.
제안하는 규칙 기반 모형은 어절 단위 규칙과 형태소 단위 규칙을 활용한다. 두 종류의 규칙 모두 품사 부착된 말뭉치에서 자동으로 추출된다.
제안하는 규칙 기반 형태소 분석 모형은 주어진 문장의 각 어절에 대해 해당하는 어절 단위 분석 규칙을 탐색하여 그에해딩하는 분석 결과를 할당함으로써 분석을 완료한다. 해당하는 분석 규칙이 다수개가 탐색된다면 문맥의 길이가 긴 순서대로 적용한다.
제안하는 모형을 분석하기 위해 분석성공률, 평균 분석 후보 수, 정답포함률, 분석정확도 등의 척도를 이용하였다. 분석 성공률은 얼마나 많은 어절이 분석 후보를 생성했는지를 나타낸다.
제안한 최종 혼합 모형은 확률 모형과 규칙 모형이 결합된모형이다. 규칙 모형이 먼저 분석을 시도하고, 규칙의 부재로 인해 분석 실패한 어절에 대해 확률 모형이 분석을 시도한다.
최적의 분석 후보를 선택하는 품사 부착 성능을 측정하기 위해 확률 기반 형태소 분석 모형과 혼합 분석 모형 각각을 은닉 마르코프 기반 품사 부착 모형과 결합하였다.<표 4.
한국어의 어절은 하나 이상의 형태소들의 조합으로 이루어지기 때문에 어절을 분석하기 위해서 어절을 형성하는 형태소 단위로 분석을 시도하며. 제안하는 형태소 단위 규칙의 분석 대상은<표 3.
기존의 형태소 단위 분석 방법론들은 형태소들이 결합되면서 발생한 음운 현상을 복원한 후 분석을 시도하지만, 제안하는 형태소 단위 규칙은 복원 과정 없이 바로 분석 가능하다는 장점도 있다. 형태소 단위 규칙도 어절 단위 규칙과 마찬가지로 다양한 가변길이 문맥의 조합에 대해 각각 규칙을 추출한다.
대상 데이터
3>의 예에 나타난 바와 같이 원시 말뭉치와 그에 해당하는 형태소 분석 정보가 부착되어 있다. 본 논문에서는 2003년 구축 분량만을 이용하였다. 이 중 90%는 학습에 이용하였고, 나머지 10%는 실험에 활용하였다.
제안하는 모형의 성능을 평가하기 위해 한국어 형태소 분석 평가에 많이 활용되는 21세기 세종계획 품사 부착 말뭉치3)를 활용하였다. 세종 말뭉치는 뉴스기사, 소설, 잡지 등의 다양한 분야에서 수년에 걸쳐 수집, 구축되었다.
이론/모형
본 논문에서는 은닉마르코프 기반 품사 부착 모형[11] 을활용하였다. 이 모형은<수식 3.
1> 은 실험에 이용된 말뭉치의 통계를 보여준다. 실험의 신뢰성을 높이기 위해 KAfold 교차검증법 (ICHfold cross validation) 을이용하였다4).
어절 단위 확률 모형에서 주어진 어절에 대해 해당하는 분석 결과의 확률 추정 시 아래파 같이 학습 말뭉치로부터 최대우도추정법(maximum likelihood estimation) 을 이용한다.
그 결고를 취합한다. 형태소 분석은 은닉마르코프 기반모형과 CYK 알고리즘을 이용하여 각 분석 후보를 생성하고, 그 확률을 같이 추정한다.
. 확률 기반 모형뿐만 아니라 다양한 종류의 형태소 분석 모형으로 대체 가능하며 , 본 논문에서는 한국어에서 높은 성능을 보였고, 재구현이 가능한[11]을 그대로 활용하였다. 이 모형은 주어진 어절 W에 대한 모든 분석 후보 R을 생성한다.
이런 문제점을 보완하기 위해 기존의 확률 기반 모형을 활용하여 규칙 기반 모형이 분석 실패한 어절에 대해 기존의 방식대로 다수의 분석 후보를 생성한다. 확률 기반 형태소 분석 모형 및 품사 부착 모형은 한국어에 높은 성능을 보였던[11]을 활용하였으며 , 다른 어떠한 종류의 분석 모형이라도 대체 가능하다. 제안하는 혼합 모형은 규칙 기반 모형의 높은 분석정확률과 확률 기반 모형의 높은 분석성공률을 동시에 가진다.
성능/효과
"그래서 나는 오늘"이라는 문맥에서 어절 "나는"에 대해 기존의 확률 기반 형태소 분석 모형은 "나/NP-는/JX", "나/W-는/ETM". "나/NNG-는 /jr, "나/VX-는/ETM' 등의 여러 분석 후보를 생성했지만, 제안하는 규칙 기반 형태소 분석 모형은 단 하나의 분석 결과 "나/NP-는UX'만을 올바르게 생성한다.
규칙 모형이 먼저 분석을 시도하고, 규칙의 부재로 인해 분석 실패한 어절에 대해 확률 모형이 분석을 시도한다. 규칙 모형으로 인해 평균분석후보수는 L87개에서 1.36개로 27%가 감소하였으며, 분석속도 역시 초당 7987 문장에서 140.25 문장으로 크게 개선되었다. 정답포함률은 규칙 기반의 단일 후보 생성 전략으로 인해 미미하게 감소하였다.
기존의 수동으로 구축 규칙 기반 모형으로 이에 해당하는 양의 분석성공률을 달성하기 위해서는 높은 규칙 구축 비용이 필요하지만, 제안하는 모형에서는 자동으로 구축되었다는 점에 의의가 있다. 또한 분석 성공한 어절은 모두 분석 후보 하나씩 생성하였고, 그 정확률은 98%( 81.
3>, <표 34>에 나타난 것과 같이 어절의 부분음절열이 된다. 기존의 형태소 단위 분석 방법론들은 형태소들이 결합되면서 발생한 음운 현상을 복원한 후 분석을 시도하지만, 제안하는 형태소 단위 규칙은 복원 과정 없이 바로 분석 가능하다는 장점도 있다. 형태소 단위 규칙도 어절 단위 규칙과 마찬가지로 다양한 가변길이 문맥의 조합에 대해 각각 규칙을 추출한다.
자동으로 구축되었다는 점에 의의가 있다. 또한 분석 성공한 어절은 모두 분석 후보 하나씩 생성하였고, 그 정확률은 98%( 81.39%/82.96%)의 높은 성능을 보였다. 이는 확률 기반 모형이 다수의 분석 후보를 생성하면서 발생하게 될 모호성을 효과적으로 방지한 것으로 분석할 수 있다.
보다 정련된 규칙 형태와 분석 알고리즘을 고안하여 분석성공률을 높일 수 있다면 더 높은 성능 향상을 이룰 수 있을 것으로 예상된다. 또한 제안하는 모형은 품사 부착 말뭉치만 주어진다면 자동으로 분석 정보를 학습할 수 있기 때문에 높은 유연성을 가진다. 구어체나 웹문서와 같은 새로운 도메인에 적용을 고려해 볼 수 있다.
3>에나타난 것과 같이 제안한 혼합 모형은 분석속도와 분석정확도 측면에서 기존의 확률 기반 모형[11]의 성능을 크게 향상시켰다. 분석정확도는 94.10%에서 95.25%로 1.22%의 성능향상을 보였다. 이는 제안하는 규칙 기반 분석 모형의 단일후보 생성이 품사 부착 모형의 탐색 공간을 줄여주었을 뿐만 아니라 잘못된 후보가 선택되는 경우를 방지하였기 때문이다.
<표 4.3>에나타난 것과 같이 제안한 혼합 모형은 분석속도와 분석정확도 측면에서 기존의 확률 기반 모형[11]의 성능을 크게 향상시켰다. 분석정확도는 94.
확률 기반 형태소 분석 모형 및 품사 부착 모형은 한국어에 높은 성능을 보였던[11]을 활용하였으며 , 다른 어떠한 종류의 분석 모형이라도 대체 가능하다. 제안하는 혼합 모형은 규칙 기반 모형의 높은 분석정확률과 확률 기반 모형의 높은 분석성공률을 동시에 가진다. 아래는 제안하는 시스템이 입력문을 분석하는 과정을 기술하는 알고리듬이다.
제안한 규칙 모형은 확률 모형에 비해 상대적으로 높은 분석정확도를 보인 반면 낮은 분석성공률을 보였다. 보다 정련된 규칙 형태와 분석 알고리즘을 고안하여 분석성공률을 높일 수 있다면 더 높은 성능 향상을 이룰 수 있을 것으로 예상된다.
본 논문에서는 규칙 기반 접근법과 통계 기반 접근법의 장점만을 취합한 혼합 모형을 제안하였다. 제안한 모형은 98.83%에 이르는 분석 성공률과 95.25%의 분석정확도를 보였으며, 이에 필요한 분석규칙을 자동으로 학습하였다. 통계 기반 모형과 결합한 혼합모형은 분석정확도를 향상시켰을 뿐만 아니라 분석속도 역시 크게 개선하였다.
제안한다. 하나의 후보만 생성하기 때문에 최적 후보 선택 단계에서 선택의 모호성이 해소되어 분석 속도를 향상시켰을 뿐만 아니라보다높은 분석정확률을 보였다.
후속연구
보인 반면 낮은 분석성공률을 보였다. 보다 정련된 규칙 형태와 분석 알고리즘을 고안하여 분석성공률을 높일 수 있다면 더 높은 성능 향상을 이룰 수 있을 것으로 예상된다. 또한 제안하는 모형은 품사 부착 말뭉치만 주어진다면 자동으로 분석 정보를 학습할 수 있기 때문에 높은 유연성을 가진다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.