[논문]한국어 형태소 분석을 위한 3단계 확률 모델

이재성

문제 정의

확률 기반 형태소 분석은 3단계로 이루어지므로, 앞 단계의 결과에 영향을 받는다. 따라서 각 단계가 독립적으로 어느 정도의 성능을 갖는지 평가하기 위해, 각 단계별로도 올바른 입력과 출력 정답을 주고 그 결과를 평가한 것이다.
본 논문에서는 한국어 품사 부착 말뭉치로부터 자동으로 확률 기반 형태소 분석기를 만들어 낼 수 있는 3단계 확률 모델을 제안하였다. 이 방법은 한국어 어절이 복잡하게 교착하고 굴절하는 현상을 단계적으로 처리할 수 있도록 한 것으로 형태소 복원, 형태소 분리, 형태소 태깅의 3단계로 구성된다.
본 논문에서는 형태소 분석을 원형 복원, 형태소 분리, 형태소 태깅의 3단계로 명확히 구분하는 새로운 확률 모델을 제안하고 실험한다. 이 방법은 자소 단위로 원형 복원을 하며, 형태소 분리는 어휘 연결 관계를 확률로 계산하여 처리한다.
이 방법의 대표적인 것으로는 tabular 파싱 （parsing） 방법을 사용한 연구를 들 수 있다［3,4］. 이 연구에서는 입력된 어절을 자소열（혹은 음절열）로 바꾸고, 분리 가능한 모든 경우를 검토하여 형태소를 분석해 낸다.

가설 설정

가정1： 한국어 형태소 분석은 복원, 분리, 태깅의 순서로 이루어진다.
가정2： 복원, 분리, 태깅의 각 단계는 확률적으로 서로 독립이다.
주어진 형태소 열(M = mi,n)에 대응되는 확률이 최대인 태그 열(T = 板)을 구하는 바이그램 태깅 모델은 식 (20) 과 같다. 즉, 베이스 규칙을 적용하고, 각 형태소가 서로 독립적이며 형태소는 주어진 태그에서 결정된다고 가정하여 아래와 같은 수식 전개 과정을 통해 나 타낼 수 있다. (단, 松는 어절 경계를 나타내는 태그)

제안 방법

3단계 확률 모델은 자소 단위로 처리하므로, CYK 파싱 테이블이 커질 수 있는 단점도 있고, 실제 형태소로 존재할 가능성이 적은 모음으로 시작하는 형태소에 대한 분석을 시도도 한다. 하지만, 자소 단위의 분석（예: 관형형 어미 J H, 사이시옷 등）을 하는 태깅 원칙도 지원할 수 있는 장점이 있다.
이 규칙은 이층 규칙 컴파일러에 의해 유한상태 오토마타로 구현되어 원형 복원과 형태소 분리를 동시에 수행한다. 또, 분리된 각각의 원형 형태소가 올바른 형태소인지 또한 결합 관계에 문제가 없는지는 수동 구축한 어휘 사전을 이용하여 처리한다.
표 2는 10개의 테스트 세트에 대한 평균 정답 제시율이다. 문어체와 구어체에 대해 각각 상위 5개 （5-best） 및 상위 10개 후보（10-best） 인 경우로 나누어 평가하였다. 문어체의 경우, 각 단계별 성능은 대개 98% 이상으로로 비슷한 수준이나 통합했을 경우는 성능이 떨어져, 5-best일 경우 95.
본 논문에서는 문장 정렬(align) 프로그램［23］을 글자 정렬용으로 수정하여 '복원 학습용' 자료(예: 그림 6)로부터 확률 규칙들을 자동 추출했다. 수정된 글자 정렬 프로그램에서는 활용형 어절과 원형 어절을 비교하기 위해 각 음절을 자소。로 표기한 후 이를 정렬(align)하고, 변형이 일어난 부분을 중심으로 그 생성 규칙(확률 문맥의 존 치환 규칙)을 추출한다.
젝트의 형태소 태그 부착 말뭉치 중 문어체 말뭉치와 구어체 말뭉치를 사용하였다[12]. 세종 계획 말뭉치의 파일을 차례로 일련번호를 부여한 후, 3으로 나눈 나 머지가 같은 번호의 파일들을 한 그룹으로 하여 전체 10개의 세트로 만들었고, 이를 이용하여 10배수 상호 검증 테스트(10-fold cross validation)를 하였다.
음운 복원 모델은 활용형（표층 표현）과 원형을 음절 단위로 비교하여 변화된 부분을 찾아 치환 확률로 계산하였다’ 변화된 부분은 어절 앞에서부터 비교하여 다른 부분을 찾고 또다시 어절 뒤에서부터 비교하여 다른 부분을 찾아 그 사이를 추출하는 비교적 단순한 방법을 사용했다.
어절 패턴 방법은 미등록어 처리 및 기분석 사전을 줄이기 위한 방법이다[17]. 이 방법은 형태소 분석 말뭉 치의 각 어절에서 개방어（명사와 같이 임의로 대체될 수 있는 단어）를 임의의 단어로 대체 가능하도록 패턴을 정의한 후, 이를 이용하여 패턴에 일치하는 어절은 그 패턴의 형태소 분석 결과를 출력하도록 하였다. 그러나 패턴이 정교하지 않아 잘못 일치하여 많은 과분석이 발생할 수 있으며, 이를 일부 해결하기 위해 패턴의 빈 도수를 이용하여 출력 우선순위를 조절하기도 한다.
이 방식은 본 논문에서 제안하는 방식으로 형태소 복원, 분리, 태깅을 명확히 구분하여 독립된 모듈로 처리하고 각 단계를 확률로 계산한다. 2.
［10,11］의 연구에서는 형태소 품사 부착 말뭉치로부터 통계적 방법으로 한국어 형태소 분석 규칙 및 확률을 학습하여 형태소를 분석하는 확률 모델들을 제안하였다. 즉, 어절 단위, 형태소 단위, 음절 단위 모델들을 각각 정의하였고, 각 모델들을 혼합하여 형태소 분석을 하는 방법도 제안하였다. 어절 단위 모델은 등록된 어절에 대해 빠르고 정확한 결과를 내지만, 너무 많은 어절을 사전으로 기록해야 하며, 미등록어를 처리할 수 없다.
또, 음절 단위 모델은 미등록어 처리 능력은 뛰어나나 처리해야 할 음절과 태그의 수가 많아 계산 복잡도가 높은 단점이 있다. 형태소 단위 모델（이를 본 논문에서는 편 의상 2단계 확률 모델로 부름）은 음운 복원 단계와 형 태소 분할 및 할당 단계의 2단계로 처리하고 있으며, 처리 속도나 분석 성능 면에서 다른 두 모델（어절 단위 모델과 음절 단위 모델）의 중간 정도를 나타냈다.
예를 들어 'a'와 'b'의 연결 확률을 계산하기 위해, p（a|Ts）과 p（비IS）를 먼저 구한 후, 이 둘의 연결 관계를 p（alToi）, p（Ti2lToi）, p（비TG 의 곱으로 계산하여 （0, 2）칸에 기록한다. （여기에서 Toi 및 T12는 a, b 각각에 대한 가능한 태그 집합이며, 실제 논문에서는 어절 시작 태그와 어절 끝 태그를 추가하여 사용했다.） 즉, 태그 전이 확률로 계산하여 분할된 형태 소를 확정하는 동시에 태그를 결정한다.

대상 데이터

루. 젝트의 형태소 태그 부착 말뭉치 중 문어체 말뭉치와 구어체 말뭉치를 사용하였다[12]. 세종 계획 말뭉치의 파일을 차례로 일련번호를 부여한 후, 3으로 나눈 나 머지가 같은 번호의 파일들을 한 그룹으로 하여 전체 10개의 세트로 만들었고, 이를 이용하여 10배수 상호 검증 테스트(10-fold cross validation)를 하였다.
평가는 순수 한글 어절만을 대상으로 하였다. 숫자나 영문자 등은 별도의 오토마타 처리 등을 통해 쉽게 분리 및 태깅이 가능하며 문장 기호(마침표, 쉼표, 따옴표 등)가 포함된 어절은 문장 기호를 제거하여 순수 한글 어절로 처리하였다.

데이터처리

미등록 형태소에 대한 태그 부착 확률은 아래의 식 (23) 으로 계산할 수 있다. 즉, 미등록 형태소(unknown. 는 말뭉치에 나타난 최대 빈도의 태그仕maxf冋)를 부여하고 그 확률은 '빈도+T의 역수로 계산하였다.

이론/모형

그림 7은 '했다' 어절을 원형 복원, 형태소 분리, 태깅 단계를 거쳐 분석하는 과정을 탐색 트리로 예를 들어 나타낸 것이다(단' 확률 정보는 표시하지 않음). 각 단계는 일반적으로 너무 많은 후보들을 생성할 수 있으므로, 각 모델 단계에서 상위 K개의 후보만을 다음 단계로 넘기는 일종의 빔 서치 방법을 사용하였다［21］. 즉, 두 번째 단계의 경우, 앞 단계에서 온 상위 K개에 대해 각각 다시 K개씩을 출력하여 최대 K*K개를 생성한 후, 이 중 상위 K개만을 세 번째 단계로 넘겨준다.
이러한 문제점을 해결하기 위해 3단계 방식에서는 형 태소 접속 확률을 순수한 어휘 연결 정보만으로 계산하여 계산량을 줄이고, 분리 확률이 높은 형태소 열을 추출한다. 분리된 형태소 열에 대한 품사 결정은 일반적인 바이그램 품사 태깅 모델을 이용한다. 이어 3장에서 3단 계 방식을 자세히 설명한다.
형태소 태깅 모델은 분리된 형태소에 대해 적절한 태 그를 부착한다. 주어진 단어 혹은 형태소 열에 대해 적절한 태그를 붙이는 방법은 많이 알려져 있으며, 본 논문에서는 바이그램 태깅 모델을 사용한다[6,9丄
형태소 분할 및 품사 할당 모델은 가능한 모든 경우의 형태소를 음절 단위로 분할하며, 이를 위해 tabular 파싱 방법을 사용하여 디코딩한다. 그림 3은 가상의 문 자열 'abc'를 처리한 예이다.

성능/효과

이 방식은 본 논문에서 제안하는 방식으로 형태소 복원, 분리, 태깅을 명확히 구분하여 독립된 모듈로 처리하고 각 단계를 확률로 계산한다. 2.4절의 2단계 확률 모델 （형태소 단위 확률 모델）의 경우, 형태소 분리와 태깅이 동시에 일어나며, 형태소 접속 확률을 태그 접속 확률로 계산하여 계산 복잡도가 비교적 높다. 또한, 태그의 전이 관계를 이용하므로 어휘적 연결 가능성이 없는 경우도 포함하여 처리하므로 과생성의 가능성이 있으며, 특히 태그의 정밀도에 따라 그 정확도가 매우 달라질 수 있다.
화자에 따라 다양한 변이가 나타나고 발화의 구성도 복잡하게 실현되는 구어체를 제대로 규칙화하기 위해서는 더 많은 학습 데이터가 필요하나, 문 어체 말뭉치의 약 6% 수준인 65만5천 어절이었기 때문으로 분석된다[12]. 결과적으로 구어체 통합 모델의 경우, 앞 단계의 가장 낮은 성능에 영향을 받아 5-best는 86.2%, 10-best는 86.8%를 보였다.
3단계 처리 방법은 기존의 다른 방법들에 비해 더 세분된 모듈화가 가능하여 이해하기 쉽고 덜 복잡하며, 따라서 유지 보수가 편리하다. 또한, 기존의 2단계 확률 모델에 비해, 음절 단위가 아닌 자소 단위로 형태소 복원 및 형태소 분리를 하며, 태그 전이가 아닌 어휘 전이로 형태소 분리를 할 수 있도록 하여 보다 다양한 품사 부착 기준의 말뭉치를 효과적으로 처리할 수 있다.
4%를 보여 성능 향상이 비교적 컸다. 복원 규칙 수나 형태소 수는 비교적 선형에 가깝게 증가하였으나 정답 제시율은 점진적으로 향상 폭이 줄어들었다.
본 모델을 세종 계획 형태소 부착 말뭉치를 이용하여 평가해 본 결과 10개의 최상 후보 출력 시 문어체일 경우 평균 97.2%의 정답 제시율을 보였다. 평가 데이터의 크기나 구성의 차이 및 평가 방법 등의 차이로 직접 우열을 판단할 수는 없지만, 기존의 방법들과 비교할 만하 다(표 4 참조).
그림 12는 학습 데이터 크기에 따른 10-best 성능 변화를 나타낸 것이며, 문어체 말뭉치에서 나눈 10개의 평가 데이터 그룹 중 0번 그룹을 실험 데이터로 하고 나머지 그룹을 1개씩（약 120만 어절씩） 학습 데이터에 추가하며 측정한 것이다. 이 결과에서 보듯이 1개의 그룹을 학습 데이터로 썼을 경우 95.2%의 정답 제시율을 보였고, 2개 그룹（약 240만 어절）을 썼을 경우, 96.4%를 보여 성능 향상이 비교적 컸다. 복원 규칙 수나 형태소 수는 비교적 선형에 가깝게 증가하였으나 정답 제시율은 점진적으로 향상 폭이 줄어들었다.
이 표에서 보듯이 본 논문의 세종 문어체에 대한 평가 결과는 평균 후보 생성 수를 무시한다면 비교적 좋은 편이다. 일반적으로 평균 생성 후보 수를 늘리면 성능이 증가하지만, 일정 수준에서 수렴하는 경향이 있다[10].
제안한 확률 모델은 형태소에 나타나는 현상을 명확하게 3개의 단계로 구분하여 이를 복원, 분리, 태깅 모델로 만들었으므로 각 단계별로 성능 향상을 꾀할 수 있다. 또한 현재 미등록어 처리를 일부하고 있지만, 형 태소 추정을 통한 일반적인 미등록어를 처리할 수 있는 연구가 앞으로 필요하다.
각 모델은 추출된 학습 자료를 이용하여 학습하고, 그 결과를 출력한다. 즉, 복원 모델 학습 결과, 복원 규칙들과 그 확률 및 언어 모델 확률을 출력하고, 분리 모델은 형태소 모노그램 확률 및 바이그램 확률을 출력한다. 또, 태깅 모델은 형태소-태그 확률과 태그 바이그램 확률을 출력한다.
2단계 확률 모델인 형태소 단위 모델은 본 논문의 3단계 확률 모델에 비해 다음과 같은 3가지 문제점이 있다. 첫째, 음절 단위로 복원과 분리 및 태깅을 한다는 점이다. 이 경우 다음과 같은 문제점이 발생될 수 있다.
따라서 평가 말뭉치나 조건에 따라 다를 수는 있지만 대 략적으로 다른 시스템의 성능과 경쟁할 만하다고 볼 수 있다. 특히, 본 논문 방식과 같이 말뭉치로부터 자동 학습을 통해 형태소 분석기를 구축한 2단계 확률 모델의 성능은 91.0%로 낮게 나왔으며, 이는 본 논문의 모델이 약 1,060만 어절로 학습하여 평가한 결과인 97.2%보다 낮고（표 4 참조）, 약 120만 어절로 학습한 경우의 성능인 95.2%보다도 낮았다（그림 12 참조）.

후속연구

그러나 충분히 많은 양의 품사 부착 말뭉치가 구축되는 추세이므로 이러한 문제점이 완화될 것으로 보인다. 또 이런 문제점을 해결하기 위해 본 논문에서 제안한 대로 미등록어에 대해서는 어휘 연결 확률을 낮게라도 주거나（식 （18） 및 식 （19） 참조）, 기존 사전의 어휘를 기본으로 등재하거나, 미등록어 처리 성능이 뛰어난 음절 단위 모델을 혼합하여 활용할 수도 있을 것이다[10,11]
제안한 확률 모델은 형태소에 나타나는 현상을 명확하게 3개의 단계로 구분하여 이를 복원, 분리, 태깅 모델로 만들었으므로 각 단계별로 성능 향상을 꾀할 수 있다. 또한 현재 미등록어 처리를 일부하고 있지만, 형 태소 추정을 통한 일반적인 미등록어를 처리할 수 있는 연구가 앞으로 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 형태소 분석을 위한 3단계 확률 모델
Three-Step Probabilistic Model for Korean Morphological Analysis

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어 형태소 분석을 위한 3단계 확률 모델 Three-Step Probabilistic Model for Korean Morphological Analysis

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어 형태소 분석을 위한 3단계 확률 모델
Three-Step Probabilistic Model for Korean Morphological Analysis

초록
AI-Helper

AI 본문요약
AI-Helper