[논문]형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형

이승욱; 이도길; 임해창

문제 정의

본 논문에서는 형태소 분석 후보 생성 단계에서 발생하는 과도한 분석 후보 생성을 방지함과 동시에 정확한 하나의 분석 후보만을 생성하는 단일 분석 후보 생성 모형을 제안한다. 하나의 후보만 생성하기 때문에 최적 후보 선택 단계에서 선택의 모호성이 해소되어 분석 속도를 향상시켰을 뿐만 아니라보다높은 분석정확률을 보였다.
본 논문은 규칙 기반과 통계 기반 접근법의 장점을 취합한 혼합 모형을 제안한다.<그림 3.
형태소 분석 단계에서는 입력문의 각 어절에 대해 올바른 분석 결과를 포함하는 복수개의 분석 후보를 생성하는 것을 목표로 한다. 이 과정에서 후보를 과다하게 생성하면 최종 분석 결과의 정확도 하락의 원인이 된다.

제안 방법

1. 어절의 왼쪽부터 부분음절열의 크기를 증가하며 해당하는 형태소 단위 규칙을 탐색한다. 규칙이 탐색 되지 않았다면 그 시점에서 증가를 중지한다.
규칙 모형이 먼저 분석을 시도하고, 규칙의 부재로 인해 분석 실패한 어절에 대해 확률 모형이 분석을 시도한다. 규칙 모형으로 인해 평균분석후보수는 L87개에서 1.
좌 문맥과 우문맥은 분석 대상의 좌우에 인접한 가변적인 길이의 음절 열이다. 본 논문에서는 가변적인 길이의 범위를 0부터 2까지 정하였다. 분석 대상은 어절 단위 규칙에서는 어절이 해당되며 형태소 단위 규칙에서는 어절의 부분음절열이 해당된다.
규칙 기반 모형은 고성능의 규칙을 구축함으로써 통계 기반 방식보다 정확한 분석이 가능하지만 다양한 언어현상을 고려하기는 힘들다. 본 논문에서는 규칙 기반 접근법과 통계 기반 접근법의 장점만을 취합한 혼합 모형을 제안하였다. 제안한 모형은 98.
정확률을 보장할 수 있어야 한다. 분석 시 모호성이 높은 어절은 규칙 기반 모형으로 분석하지 않고, 다수의 분석 후보를 생성하는 확률 기반 모형이 분석하게 구성하였다. 이를 위해 규칙 검증 단계에서 모호성이 높은 어절을 분석하는 규칙들은 제거하였다.
성능 평가는 두 단계에 나누어 수행되었다. 우선 제안하는 규칙 기반 형태소 분석 모형의 성능을 기존의 확률 기반 형태소 분석 모형의 성능과 비교한 후, 규칙 기반 모형이 확률 기반 모형과 결합한 혼합 모형의 최종 성능을 평가하였다.
규칙 검증 단계에서 분석정확률을 높이기 위해 부정확한 분석 규칙들은 제거되는데, 이에 따라 규칙의 부재로 인한 분석에 실패하는 경우 역시 증가하게 된다. 이런 문제점을 보완하기 위해 기존의 확률 기반 모형을 활용하여 규칙 기반 모형이 분석 실패한 어절에 대해 기존의 방식대로 다수의 분석 후보를 생성한다. 확률 기반 형태소 분석 모형 및 품사 부착 모형은 한국어에 높은 성능을 보였던[11]을 활용하였으며 , 다른 어떠한 종류의 분석 모형이라도 대체 가능하다.
기존의 확률 모형에서의 평균분석후보수는 어절별 L87개였지만. 제안하는 규칙 기반 모형은 분석한 모든 어절에 대해 단 하나만의 정확한 분석 후보를 생성하다.
제안하는 규칙 기반 모형은 어절 단위 규칙과 형태소 단위 규칙을 활용한다. 두 종류의 규칙 모두 품사 부착된 말뭉치에서 자동으로 추출된다.
제안하는 규칙 기반 형태소 분석 모형은 주어진 문장의 각 어절에 대해 해당하는 어절 단위 분석 규칙을 탐색하여 그에해딩하는 분석 결과를 할당함으로써 분석을 완료한다. 해당하는 분석 규칙이 다수개가 탐색된다면 문맥의 길이가 긴 순서대로 적용한다.
제안하는 모형을 분석하기 위해 분석성공률, 평균 분석 후보 수, 정답포함률, 분석정확도 등의 척도를 이용하였다. 분석 성공률은 얼마나 많은 어절이 분석 후보를 생성했는지를 나타낸다.
제안한 최종 혼합 모형은 확률 모형과 규칙 모형이 결합된모형이다. 규칙 모형이 먼저 분석을 시도하고, 규칙의 부재로 인해 분석 실패한 어절에 대해 확률 모형이 분석을 시도한다.
최적의 분석 후보를 선택하는 품사 부착 성능을 측정하기 위해 확률 기반 형태소 분석 모형과 혼합 분석 모형 각각을 은닉 마르코프 기반 품사 부착 모형과 결합하였다.<표 4.
한국어의 어절은 하나 이상의 형태소들의 조합으로 이루어지기 때문에 어절을 분석하기 위해서 어절을 형성하는 형태소 단위로 분석을 시도하며. 제안하는 형태소 단위 규칙의 분석 대상은<표 3.
기존의 형태소 단위 분석 방법론들은 형태소들이 결합되면서 발생한 음운 현상을 복원한 후 분석을 시도하지만, 제안하는 형태소 단위 규칙은 복원 과정 없이 바로 분석 가능하다는 장점도 있다. 형태소 단위 규칙도 어절 단위 규칙과 마찬가지로 다양한 가변길이 문맥의 조합에 대해 각각 규칙을 추출한다.

대상 데이터

3>의 예에 나타난 바와 같이 원시 말뭉치와 그에 해당하는 형태소 분석 정보가 부착되어 있다. 본 논문에서는 2003년 구축 분량만을 이용하였다. 이 중 90%는 학습에 이용하였고, 나머지 10%는 실험에 활용하였다.
제안하는 모형의 성능을 평가하기 위해 한국어 형태소 분석 평가에 많이 활용되는 21세기 세종계획 품사 부착 말뭉치3)를 활용하였다. 세종 말뭉치는 뉴스기사, 소설, 잡지 등의 다양한 분야에서 수년에 걸쳐 수집, 구축되었다.

이론/모형

본 논문에서는 은닉마르코프 기반 품사 부착 모형[11] 을활용하였다. 이 모형은<수식 3.
1> 은 실험에 이용된 말뭉치의 통계를 보여준다. 실험의 신뢰성을 높이기 위해 KAfold 교차검증법 (ICHfold cross validation) 을이용하였다4).
어절 단위 확률 모형에서 주어진 어절에 대해 해당하는 분석 결과의 확률 추정 시 아래파 같이 학습 말뭉치로부터 최대우도추정법(maximum likelihood estimation) 을 이용한다.
그 결고를 취합한다. 형태소 분석은 은닉마르코프 기반모형과 CYK 알고리즘을 이용하여 각 분석 후보를 생성하고, 그 확률을 같이 추정한다.
. 확률 기반 모형뿐만 아니라 다양한 종류의 형태소 분석 모형으로 대체 가능하며 , 본 논문에서는 한국어에서 높은 성능을 보였고, 재구현이 가능한[11]을 그대로 활용하였다. 이 모형은 주어진 어절 W에 대한 모든 분석 후보 R을 생성한다.
이런 문제점을 보완하기 위해 기존의 확률 기반 모형을 활용하여 규칙 기반 모형이 분석 실패한 어절에 대해 기존의 방식대로 다수의 분석 후보를 생성한다. 확률 기반 형태소 분석 모형 및 품사 부착 모형은 한국어에 높은 성능을 보였던[11]을 활용하였으며 , 다른 어떠한 종류의 분석 모형이라도 대체 가능하다. 제안하는 혼합 모형은 규칙 기반 모형의 높은 분석정확률과 확률 기반 모형의 높은 분석성공률을 동시에 가진다.

성능/효과

"그래서 나는 오늘"이라는 문맥에서 어절 "나는"에 대해 기존의 확률 기반 형태소 분석 모형은 "나/NP-는/JX", "나/W-는/ETM". "나/NNG-는 /jr, "나/VX-는/ETM' 등의 여러 분석 후보를 생성했지만, 제안하는 규칙 기반 형태소 분석 모형은 단 하나의 분석 결과 "나/NP-는UX'만을 올바르게 생성한다.
규칙 모형이 먼저 분석을 시도하고, 규칙의 부재로 인해 분석 실패한 어절에 대해 확률 모형이 분석을 시도한다. 규칙 모형으로 인해 평균분석후보수는 L87개에서 1.36개로 27%가 감소하였으며, 분석속도 역시 초당 7987 문장에서 140.25 문장으로 크게 개선되었다. 정답포함률은 규칙 기반의 단일 후보 생성 전략으로 인해 미미하게 감소하였다.
기존의 수동으로 구축 규칙 기반 모형으로 이에 해당하는 양의 분석성공률을 달성하기 위해서는 높은 규칙 구축 비용이 필요하지만, 제안하는 모형에서는 자동으로 구축되었다는 점에 의의가 있다. 또한 분석 성공한 어절은 모두 분석 후보 하나씩 생성하였고, 그 정확률은 98%( 81.
3>, <표 34>에 나타난 것과 같이 어절의 부분음절열이 된다. 기존의 형태소 단위 분석 방법론들은 형태소들이 결합되면서 발생한 음운 현상을 복원한 후 분석을 시도하지만, 제안하는 형태소 단위 규칙은 복원 과정 없이 바로 분석 가능하다는 장점도 있다. 형태소 단위 규칙도 어절 단위 규칙과 마찬가지로 다양한 가변길이 문맥의 조합에 대해 각각 규칙을 추출한다.
자동으로 구축되었다는 점에 의의가 있다. 또한 분석 성공한 어절은 모두 분석 후보 하나씩 생성하였고, 그 정확률은 98%( 81.39%/82.96%)의 높은 성능을 보였다. 이는 확률 기반 모형이 다수의 분석 후보를 생성하면서 발생하게 될 모호성을 효과적으로 방지한 것으로 분석할 수 있다.
보다 정련된 규칙 형태와 분석 알고리즘을 고안하여 분석성공률을 높일 수 있다면 더 높은 성능 향상을 이룰 수 있을 것으로 예상된다. 또한 제안하는 모형은 품사 부착 말뭉치만 주어진다면 자동으로 분석 정보를 학습할 수 있기 때문에 높은 유연성을 가진다. 구어체나 웹문서와 같은 새로운 도메인에 적용을 고려해 볼 수 있다.
3>에나타난 것과 같이 제안한 혼합 모형은 분석속도와 분석정확도 측면에서 기존의 확률 기반 모형[11]의 성능을 크게 향상시켰다. 분석정확도는 94.10%에서 95.25%로 1.22%의 성능향상을 보였다. 이는 제안하는 규칙 기반 분석 모형의 단일후보 생성이 품사 부착 모형의 탐색 공간을 줄여주었을 뿐만 아니라 잘못된 후보가 선택되는 경우를 방지하였기 때문이다.
<표 4.3>에나타난 것과 같이 제안한 혼합 모형은 분석속도와 분석정확도 측면에서 기존의 확률 기반 모형[11]의 성능을 크게 향상시켰다. 분석정확도는 94.
확률 기반 형태소 분석 모형 및 품사 부착 모형은 한국어에 높은 성능을 보였던[11]을 활용하였으며 , 다른 어떠한 종류의 분석 모형이라도 대체 가능하다. 제안하는 혼합 모형은 규칙 기반 모형의 높은 분석정확률과 확률 기반 모형의 높은 분석성공률을 동시에 가진다. 아래는 제안하는 시스템이 입력문을 분석하는 과정을 기술하는 알고리듬이다.
제안한 규칙 모형은 확률 모형에 비해 상대적으로 높은 분석정확도를 보인 반면 낮은 분석성공률을 보였다. 보다 정련된 규칙 형태와 분석 알고리즘을 고안하여 분석성공률을 높일 수 있다면 더 높은 성능 향상을 이룰 수 있을 것으로 예상된다.
본 논문에서는 규칙 기반 접근법과 통계 기반 접근법의 장점만을 취합한 혼합 모형을 제안하였다. 제안한 모형은 98.83%에 이르는 분석 성공률과 95.25%의 분석정확도를 보였으며, 이에 필요한 분석규칙을 자동으로 학습하였다. 통계 기반 모형과 결합한 혼합모형은 분석정확도를 향상시켰을 뿐만 아니라 분석속도 역시 크게 개선하였다.
제안한다. 하나의 후보만 생성하기 때문에 최적 후보 선택 단계에서 선택의 모호성이 해소되어 분석 속도를 향상시켰을 뿐만 아니라보다높은 분석정확률을 보였다.

후속연구

보인 반면 낮은 분석성공률을 보였다. 보다 정련된 규칙 형태와 분석 알고리즘을 고안하여 분석성공률을 높일 수 있다면 더 높은 성능 향상을 이룰 수 있을 것으로 예상된다. 또한 제안하는 모형은 품사 부착 말뭉치만 주어진다면 자동으로 분석 정보를 학습할 수 있기 때문에 높은 유연성을 가진다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형
A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형 A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

이승욱 (3) 이도길 (8) 임해창 (34)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

형태소 분석 및 품사 부착을 위한 말뭉치 기반 혼합 모형
A Corpus-based Hybrid Model for Morphological Analysis and Part-of-Speech Tagging 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper