[논문]형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅

심광섭

doi:10.19066/cogsci.2011.22.3.005

형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅
Syllable-based POS Tagging without Korean Morphological Analysis 원문보기

인지과학 = Korean journal of cognitive science, v.22 no.3, 2011년, pp.327 - 345

초록
AI-Helper

본 논문에서는 형태소 분석기를 사용하지 않는 음절 단위의 한국어 품사 태깅 방법론을 제안한다. 기존 연구에서 한국어 품사 태거는 형태소 분석기가 생성한 결과 중에서 문맥에 가장 잘 맞는 형태소/품사 열을 결정하는 데 반하여, 본 논문에서 제안한 방법론에서는 품사열을 결정할 뿐만 아니라 형태소도 생성한다. 398,632 어절의 학습 데이터로 학습을 하고 33,467 어절의 평가 데이터로 성능 평가를 한 결과 어절 단위의 정확도가 96.31%인 것으로 나타났다.

Abstract ▼ AI-Helper

In this paper, a new approach to Korean POS (Part-of-Speech) tagging is proposed. In previous works, a Korean POS tagger was regarded as a post-processor of a morphological analyzer, and as such a tagger was used to determine the most likely morpheme/POS sequence from morphological analysis. In the proposed approach, however, the POS tagger is supposed to generate the most likely morpheme and POS pair sequence directly from the given sentences. 398,632 eojeol POS-tagged corpus and 33,467 eojeol test data are used for training and evaluation, respectively. The proposed approach shows 96.31% of POS tagging accuracy.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 형태소 분석기 없이 말뭉치로부터 습득한 확률 정보만으로 한국어 품사 태깅을 하는 방법을 제안한다. 제안된 방법은 기존의 형태소 분석 후 품사 태깅을 하는 것과 유사한 결과를 생성한다.
앞에서 예로 들었던 ‘새로/AJ + 운/EM’에 대하여 위 사전을 이용한 원형 복원을 해 보자.

가설 설정

(1) 복합 태그를 단순 태그로 분리한다.

제안 방법

성능 평가는 음절 정확도와 어절 정확도로 나누어 실시하였다. 음절 정확도는 평가 데이터의 전체 음절 중에서 올바르게 음절 태깅된 부분의 비율을 나타내며,어절 정확도는 평가 데이터의 전체 어절 중 올바르게 태깅된 어절이 차지하는 비율을 나타낸다.

대상 데이터

이 중간 결과에 대하여 복합 태그 분리 및 원형 복원 작업을 하여 최종적으로 형태소 단위의 품사 태깅 결과를 얻게 된다. 성능 평가를 위하여 코난 품사 태깅 말뭉치 중 학습에 사용되지 않은 나머지 부분에서 35,467 어절(99,931 음절)을 발췌하여 평가 데이터를 만들었다.

이론/모형

’와 같은 결과를 생성한다. 본 논문에서 제안하는 태깅 방법의 성능 평가를 위하여 레이블 부착 문제에 있어서 우수한 성능을 보이는 것으로 보고된 바 있는[6, 7] CRF(Conditional Random Fields) 모델을 사용한다.
여기에서는 본 논문에서 제안한 음절 단위의 품사 태깅 방법에 대한 성능 평가실험 및 결과에 대하여 설명한다. 음절 태깅은 레이블링 문제에서 뛰어난 성능을 보이는 것으로 알려진[6, 7] CRF(Conditional Random Fields) 모델 기반의 툴킷(toolkit)인 CRF++를 사용한다[13]. 음절 태깅을 위한 지식 습득을 위해 코난 품사 태깅 말뭉치의 처음 398,632 어절(1,125,402 음절)을 사용하여 그림 3과 같은 형식의 학습 데이터를 만들었다⁶⁾

성능/효과

본 논문에서는 한국어 형태소 분석기를 사용하지 않아도 품사 태깅이 가능함을 보였다. 과거에도 형태소 분석기를 사용하지 않는 품사 태깅 방법론이 제안된 바 있으나, 기존의 어절 단위 품사 태깅에서는 [3]의 실험 결과에서도 볼 수 있듯이 미등록어에 대한 대처가 어렵다⁹⁾.
학습 데이터, 평가 데이터, 품사 집합 등의 크기가 모두 다르기 때문에 품사 태거의 성능을 객관적으로 비교하기는 곤란하지만 기존 연구 결과와 비교해 보면 표 1과 같다. 비록 본 논문에서 제안한 방법이 다른 방법론에 비하여 뛰어난 성능을 보이는 것은 아니지만 형태소 분석기를 사용하지 않아도 기존 연구 결과에 필적할 만한 수준의 성능을 얻을 수 있다는 점에 상당한 의미를 부여할 수 있다. [4]에서 보듯이 통계 정보를 이용한 품사 태깅 이전에 어휘 중의성 제거 규칙을 적용함으로써 품사 태거의 전체적인 성능을 상당히 개선할 수 있는 것처럼, 본 연구에서 제안한 방법은 음절 단위의 한국어 품사 태깅에 대한 초기 연구로서 향후 여러 가지 방법으로 성능 개선을 이룰 수 있을 것으로 기대한다.
음절 정확도는 평가 데이터의 전체 음절 중에서 올바르게 음절 태깅된 부분의 비율을 나타내며,어절 정확도는 평가 데이터의 전체 어절 중 올바르게 태깅된 어절이 차지하는 비율을 나타낸다. 실험 결과에 의하면 음절 정확도는 98.12%, 어절 정확도는 96.64%로 나타났다. 여기서 말하는 어절 정확도란 그림 2의 형태소 구성 단계를 거치기 이전의 정확도를 의미한다.
그런데 형태소 구성 단계에서는 앞에서 설명한 것처럼 원형 복원 과정에서 약간의 문제가 발생할 수 있으며 이로 인해 어절 정확도에 약간의 손실이 발생한다. 실험 결과에 의하면 형태소 구성 단계를 거친 최종 어절 정확도는 96.31%로, 형태소 구성 단계에서 약 0.33%의 손실이 발생하는 것으로 나타났다.
성능 평가는 음절 정확도와 어절 정확도로 나누어 실시하였다. 음절 정확도는 평가 데이터의 전체 음절 중에서 올바르게 음절 태깅된 부분의 비율을 나타내며,어절 정확도는 평가 데이터의 전체 어절 중 올바르게 태깅된 어절이 차지하는 비율을 나타낸다. 실험 결과에 의하면 음절 정확도는 98.
이상에서 살펴 본 바와 같이 모음으로 끝나는 용언과 ‘ㄹ’로 끝나는 용언에 어미 ‘-ㄹ’이 결합한 경우 또는 ㄷ 불규칙 용언에 어미 ‘-아/-어’가 결합한 경우에는 원형 복원이 곤란해 질 수 있다는 문제가 발생한다.

후속연구

비록 본 논문에서 제안한 방법이 다른 방법론에 비하여 뛰어난 성능을 보이는 것은 아니지만 형태소 분석기를 사용하지 않아도 기존 연구 결과에 필적할 만한 수준의 성능을 얻을 수 있다는 점에 상당한 의미를 부여할 수 있다. [4]에서 보듯이 통계 정보를 이용한 품사 태깅 이전에 어휘 중의성 제거 규칙을 적용함으로써 품사 태거의 전체적인 성능을 상당히 개선할 수 있는 것처럼, 본 연구에서 제안한 방법은 음절 단위의 한국어 품사 태깅에 대한 초기 연구로서 향후 여러 가지 방법으로 성능 개선을 이룰 수 있을 것으로 기대한다.
기존의 한국어 품사 태깅에서는 어절 혹은 형태소 단위로 태깅을 하는데[5, 11, 12], 주어진 문장에 대하여 가능한 모든 형태소 분석 결과가 주어지면 이 중에서 문맥에 가장 잘 맞는 형태소 조합을 선택하는 것이 품사 태거가 하는 일이었다. 그러나 본 논문에서 제시하는 음절 단위의 한국어 품사 태깅에서는 주어진 문장을 음절 단위로 나눈 후 각 음절에 대하여 태깅을 하는 방식으로 진행되기 때문에 태깅을 위해 형태소 분석이 선행되어야 할 필요가 전혀 없다. 예를 들어, “한글은 우리의 글이다”란 문장이 주어지면 각 음절에 대하여 다음과 같이 품사 태그를 부착한다⁴⁾.

질의응답

핵심어	질문	논문에서 추출한 답변
	품사 부착 혹은 품사 태깅이란?	하나의 단어가 여러 가지 품사로 사용될 수 있지만, 문맥이 주어지면 여러 가지 가능한 품사 중에서 하나의 품사로 고정할 수 있는 경우가 보통이다. 품사 부착 혹은 품사 태깅(POS tagging)은 여러 가지 가능한 품사열 중에서 주어진 문맥에 가장 잘 맞는 것 하나를 선택하는 것을 말한다. 이는 음성 인식, 음성 합성, 자연어 처리, 정보 검색 등 여러 분야에서 응용할 수 있는 가장 기본적인 도구이다.
	한국어에서 품사 태거란?	이러한 문제가 있기 때문에 한국어에 대한 품사 태깅은 어절을 형태소 단위로 분해하고 문맥에 가장 잘 맞는 형태소 조합을 선택하는 방법으로 이루어진다. 즉, 한국어에서 품사 태거(POS tagger)란 형태소 분석기와 결합하여 사용되는 일종의 보조 시스템으로 간주된다[4, 5]. 때문에 한국어 품사 태거는 특정 형태소 분석기에 종속적이며, 다른 종류의 품사 집합을 사용하는 타 형태소 분석기와 함께 사용하기가 곤란하다.
	영어권에서와 같이 형태소 분석을 하지 않고 어절 단위로 직접 품사 태깅을 하는 경우에 심각한 자료 부족문제가 발생하는 이유는?	반면, 교착어에 속하는 한국어는 체언과 용언이 각각 조사, 어미와 자유롭게 결합되어 사용될 수 있으므로 하나의 체언이나 용언으로부터 파생될 수 있는 어절의 수가 매우 많다. 이 때문에 영어권에서와 같이 형태소 분석을 하지 않고 어절 단위로 직접 품사 태깅을 하는 경우에는 [3, 4]에서도 지적된 바와 같이 심각한 자료 부족(data sparseness) 문제가 발생한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅
Syllable-based POS Tagging without Korean Morphological Analysis 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅 Syllable-based POS Tagging without Korean Morphological Analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

심광섭 (13)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅
Syllable-based POS Tagging without Korean Morphological Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper