[논문]CRF에 기반한 한국어 형태소 분할 및 품사 태깅

나승훈; 양성일; 김창현; 권오욱; 김영길

문제 정의

본 논문에서는 한국어 품사 태깅을 위해, CRN] 기반한 형태소 분할과 품사 태깅을 단계별로 수행하는 분류방법을 제안하였다. 본 알고리즘은 모두 통계 기반 방법및 기계학습 알고리즘에 기반하므로 언어 독립적이다.
본 논문은 한국어 형태소 분할 및 품사 태깅 전반에 대표적 구조적 분류 모델인 CRF를 활용하는 방안을 제시한다. 제안 방법은 1) 형태소 분할 2) 품사 태깅 3) 복합형태소에 대한 상세 분할 및 태깅의 세 단계로 구성된다.
그러나 기존의 연구는 오픈소스 툴인 Mecab에 기반한 방법을 제외하면, 대부분 자동 띄어쓰기 등과 같은 일부의 태스크에 분류 모델이 적용되었고, 한국어 형태소 분할 및 품사 태깅의 전반에 분류 모델이 활용되지는 못했다. 본 연구에서는, 한국어 형태소 분할 및 품사 태깅 전반을 CRF를 이용하는 방법을 제시한다.

가설 설정

제안 방법은 1) 형태소 분할 2) 품사 태깅 3) 복합형태소에 대한 상세 분할 및 태깅의 세 단계로 구성된다. 앞 두 단계에서는 분류 모델인 CRF를, 마지막 단계에서는 생성 모델인 lattice-HMM을 활용한다.

제안 방법

lattice입력을 처리하는 lattice-HMM의 학습 및 디코딩 알고리즘은 음성 인식이나 통계 기반 번역의 디코딩 알고리즘을 기초로 쉽게 유도할 수 있다. 3.3절의 lattice-HMM을 위해, trigram 태그전이 확률을 사용하였다.
태그 집합이 너무 커서 학습에 비효율적이다. 본 방법에서는 복합형태소의 시작형태소의 태그에 따라 전략을 달리한다. 즉, 용언류에서는 두 번째 방식을, 다른 품사들에 대해서는 첫 번째 방식을 사용한다.
변이형 처리를 위해음절을 자소단위로 분리하는 대신, 주어진 입력이 1개로고정되지 않은 다양한 입력이 내포되었다고 간주하였다. 이러한 관점하에, 각 음절마다 가능한 변이형을 미리 자동으로 구축해 놓고, 입력문이 주어질 때, 각 부분문자열이 다른 변이 경로를 거치도록 함으로써, 해당 입력문을 lattice로 자동 변환하였다. lattice입력을 처리하는 lattice-HMM의 학습 및 디코딩 알고리즘은 음성 인식이나 통계 기반 번역의 디코딩 알고리즘을 기초로 쉽게 유도할 수 있다.
제안 방법은, 큰 단위의 형태소를 먼저 태깅하고, 이후 이를 작은 단위의 형태소로 상세 태깅하는 과정으로 이루어지므로 2단계 계층적 분류 방식이라고 볼 수 있다. 이하 각 단계별로 상세한 설명을 기술하도록 한다.
품사 태깅 단계에서 단위 형태소 및 복합 형태소 각각에 대해 품사가 결정되면, 복합형태소만을 추가로 분석한다. 다시 말해, 이 과정은 부분 어절인 복합형태소에대해만 형태소 분할 및 품사 태깅을 추가 수행하는 과정이다.
형태소 분할을 위해, 제안 알고리즘은 자동 띄어쓰기와 유사하게, 음절 기반 구조적 분류를 시도한다. [10].

대상 데이터

제안 방법의 태깅 성능 평가를 위해, 세종 품사 부착말뭉치를 이용하였는데 이는 총 253, 884개의 문장, 1, 008, 925개의 어절로 구성된다. 성능 평가 측도로 F-measure를 활용하였으며, 각 방법의 성능 수치는 모두 5-fold cross validation에 기반하여 산출되었다.

이론/모형

베이스라인 품사 태깅 방법으로 다음과 같은 특징을 갖는 HMM기반 방식을 사용했다.
[10]. 분류 방식으로는, 자동 띄어쓰기 및 중국어 단어 분할에서 가장 많이 사용되고 있는 BI분류법을 사용한다. [10].
008, 925개의 어절로 구성된다. 성능 평가 측도로 F-measure를 활용하였으며, 각 방법의 성능 수치는 모두 5-fold cross validation에 기반하여 산출되었다.
제안 방법은 1) 형태소 분할 2) 품사 태깅 3) 복합형태소에 대한 상세 분할 및 태깅의 세 단계로 구성된다. 앞 두 단계에서는 분류 모델인 CRF를, 마지막 단계에서는 생성 모델인 lattice-HMM을 활용한다.

성능/효과

제안 CRF방법은 베이스라인 방법 대비 3%의 F-measure성능 증가를 가져왔다. 각 단계별로 살펴보면, 1)형태소 분할 단계는 98.42%(f-measure)을, 2) 태깅 단계는 98.11% (accuracy)를 성능을 보여주었다.
예를 들어, 학습 코퍼스에“행해진/VV~ETM” 에 대한 “행하/VV+아/EC+지/VX+ — /ETM” 분석이 있을 경우, 이를 기분석 사전에 추가한다. 그리고 2번째 품사 태깅 결과“행해진/VV~ETM” 로 복합형태소가 주어지면, 기분석사전을 참조하여 “행하/VV+아/EC+지/VX+ — /ETM” 의 출력을 제시한다. 여러개의 기분석 결과가 있을 경우에는, 문맥에 상관없이 학습 코퍼스 상에서 가장 높은 빈도수를 갖는 기분석 결과를 제시한다.
본 알고리즘은 모두 통계 기반 방법및 기계학습 알고리즘에 기반하므로 언어 독립적이다. 실험 결과, 한국어 언어적인 특성에 대한 지식이 없이도, 통계 기반 알고리즘 및 기계학습 알고리즘의 사용만으로 고성능의 품사 태거를 빠르게 개발할 수 있었다. 그러나, 제안 단계별 분류 방법은 앞 단계의 에러가 이후 단계에서도 그대로 누적되는 단점도 있다.
제안 CRF방법은 베이스라인 방법 대비 3%의 F-measure성능 증가를 가져왔다. 각 단계별로 살펴보면, 1)형태소 분할 단계는 98.

후속연구

이와 관련하여, 향후에는 분할 및 태깅 두 단계를 통합할 수 있는 Semi-CRF 등과 같은 분류 모델을 적용할 예정이다. 덧붙여, 제안방법의 성능 향상을 위해, [11]에서 제시된 여러가지 음운 및 형태 제약 조건을 추가 자질로 활용할 계획이다.
그러나, 제안 단계별 분류 방법은 앞 단계의 에러가 이후 단계에서도 그대로 누적되는 단점도 있다. 이와 관련하여, 향후에는 분할 및 태깅 두 단계를 통합할 수 있는 Semi-CRF 등과 같은 분류 모델을 적용할 예정이다. 덧붙여, 제안방법의 성능 향상을 위해, [11]에서 제시된 여러가지 음운 및 형태 제약 조건을 추가 자질로 활용할 계획이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

CRF에 기반한 한국어 형태소 분할 및 품사 태깅
CRFs for Korean Morpheme Segmentation and POS Tagging 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

CRF에 기반한 한국어 형태소 분할 및 품사 태깅 CRFs for Korean Morpheme Segmentation and POS Tagging 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

CRF에 기반한 한국어 형태소 분할 및 품사 태깅
CRFs for Korean Morpheme Segmentation and POS Tagging 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper