[논문]CRF를 이용한 한국어 자동 띄어쓰기

심광섭

doi:10.19066/cogsci.2011.22.2.007

문제 정의

본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문장을 입력받아 자동으로 띄어쓰기를 해주는 시스템을 제안한다. 본 논문에서 제안하는 시스템은 띄어쓰기가 되어 있는 말뭉치를 대상으로 CRF(Conditional Random Fields)에 기반한 학습을 하는데, CRF는 입력 데이터 열에 대하여 레이블을 부착하는 문제에 있어서 HMM(Hidden Markov Model)이나 MEMM(Maximum Entropy Markov Model)에 비하여 우수한 성능을 보이는 것으로 보고된 바 있다[10, 11].
한국어 자동 띄어쓰기 문제는 주어진 문장의 각 음절에 대하여 띄어쓰기를 할것인가 말 것인가를 나타내는 레이블을 부착하는 일종의 레이블링 문제로 볼 수 있다. 본 논문에서는 레이블링 문제 해결에 띄어난 성능을 보이는 것으로 알려진 CRF를 이용하여 한국어 자동 띄어쓰기를 시도해 보았다. 띄어쓰기가 되어 있는 원시 말뭉치로부터 약 112만 음절 규모의 학습용 데이터를 만들어 학습을 하였다.
위에서 살펴 본 바와 같이 한국어 자동 띄어쓰기는 일종의 레이블링 문제로 볼 수 있으므로, 본 논문에서는 레이블링 문제 해결에 탁월한 성능을 발휘하는 것으로 보고된 CRF를 한국어 자동 띄어쓰기에 적용해 보고자 한다. HMM은 입력 데이터 열과 레이블 열 사이의 결합 확률을 이용하는 생성 모델로, 상호 작용하는 자질들을 표현하거나 멀리 떨어진 입력 데이터 열 사이의 의존 관계를 표현하기 어렵다는 단점이 있다[11, 12, 13].

가설 설정

다음과 같이 띄어쓰기가 전혀 되어 있지 않은  개의 연속된 한국어 음절 열이 주어졌다고 하자. 이 음절 열이 몇 개의 어절로 분리되어야 하는가에 대해서는 알지 못하는 것으로 가정한다.

제안 방법

기존 연구 결과를 볼 때 어절 경계에서 멀리 떨어진 음절은 띄어쓰기 문제 해결에 별로 도움이 되지 않는 것으로 보인다. 그래서 여기에서는 어절 경계를 중심으로 전․후 두 음절의 범위에서 각 음절이 띄어쓰기 문제 해결에 어느 정도 기여를 하는가에 대한 평가를 하였으며, 결과는 표 1과 같다. 여기서 x_i는 새로운 어절이 시작되는 음절 위치를 나타내며, 나머지는 이 음절을 중심으로 한 상대적인 위치를 나타낸다.
그런데 원시 말뭉치는 구축 방법에 따라 다소간의 차이는 있겠지만 실제 문장을 그대로 모으다 보니 띄어쓰기 오류가 포함될 가능성이 상대적으로 높다. 따라서 본 논문에서는 사람이 직접 개입하여 품사를 부착하고 오류 검증을 한 코난 품사 태깅 말뭉치(tagged corpus)3)를 사용하여 학습용 데이터와 평가용 데이터를 만들었다. 평가용 데이터는 코난 품사 태깅 말뭉치의 처음 33,128 어절(93,299 음절)을 발췌하여 만들었고, 학습용 데이터는 나머지 부분에서 400,282 어절(1,127,070 음절)을 발췌하여 만들었다⁴⁾.
마지막으로 연속한 세 음절이 띄어쓰기 문제 해결에 어느 정도 기여하는가를 알아보는 실험을 하였다. 실험 결과는 표 3과 같은데 연속한 두 음절을 참조하여 띄어쓰기를 하는 것보다 오히려 좋지 않은 결과가 나왔다.
본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문장을 입력받아 자동으로 띄어쓰기를 해주는 시스템을 제안한다. 본 논문에서 제안하는 시스템은 띄어쓰기가 되어 있는 말뭉치를 대상으로 CRF(Conditional Random Fields)에 기반한 학습을 하는데, CRF는 입력 데이터 열에 대하여 레이블을 부착하는 문제에 있어서 HMM(Hidden Markov Model)이나 MEMM(Maximum Entropy Markov Model)에 비하여 우수한 성능을 보이는 것으로 보고된 바 있다[10, 11].
실제로 [7]에서는 어절 경계를 중심으로 전․후 한 음절 또는 두 음절을 참조하여 띄어쓰기를 하였고, [8]에서는 n-gram 모델을 사용하되 이 2인 경우를 기준으로 상황에 따라  값을 축소 또는 확장할 수 있도록 하였다. 여기에서는 CRF를 사용했을 때 어절 경계를 중심으로 전․후 몇 음절까지 참조하는 것이 좋은지 판단하기 위하여 CRF++를 사용하여 간단한 실험을 수행하였다⁵⁾.
자동 띄어쓰기를 위해 우리는 CRF를 이용하여 주어진 음절 열에 대하여 다음과 같이 길이가 n인 레이블 열을 결정하려고 한다. 여기서 각 레이블 y_j는 B이거나 또는 I이다.

대상 데이터

본 논문에서는 레이블링 문제 해결에 띄어난 성능을 보이는 것으로 알려진 CRF를 이용하여 한국어 자동 띄어쓰기를 시도해 보았다. 띄어쓰기가 되어 있는 원시 말뭉치로부터 약 112만 음절 규모의 학습용 데이터를 만들어 학습을 하였다.2,114 문장(약 9.
따라서 본 논문에서는 사람이 직접 개입하여 품사를 부착하고 오류 검증을 한 코난 품사 태깅 말뭉치(tagged corpus)3)를 사용하여 학습용 데이터와 평가용 데이터를 만들었다. 평가용 데이터는 코난 품사 태깅 말뭉치의 처음 33,128 어절(93,299 음절)을 발췌하여 만들었고, 학습용 데이터는 나머지 부분에서 400,282 어절(1,127,070 음절)을 발췌하여 만들었다⁴⁾.

이론/모형

는 각 자질 함수에 대한 가중치로서 레이블링(labeling)이 된 학습용 데이터로부터 구할 수 있다. 매개 변수 𝛬는 MLE(Maximum Likelihood Estimation)를 사용하여 구하는데, 다른 알고리즘보다 수렴 속도가 빠른 BFGS 알고리즘이 주로 사용된다[12, 13]

성능/효과

띄어쓰기가 되어 있는 원시 말뭉치로부터 약 112만 음절 규모의 학습용 데이터를 만들어 학습을 하였다.2,114 문장(약 9.3만 음절)의 평가용 데이터로 띄어쓰기 정확도에 대한 평가를 한 결과 음절 단위의 정확도는 98.84%, 어절 단위의 정확도는 95.99%인 것으로 나타났다. 이는 기존 연구 결과와 비교할 때 약 1.
표 4에서 주어진 자질 집합 A에서 상태 자질과 전이 자질을 모두 다 사용하는 것을 가정했을 때 이 인자 값에 따라 띄어쓰기 정확도가 어떻게 변화하는지에 대한 관찰을 하였다. 그 결과 인자 값이 1.5일 때 음절 단위의 정확도와 어절 단위의 정확도가 제일 높았으며, 인자 값이 커짐에 따라서 정확도는 대체로 감소하는 것으로 나타났다. 그림 1은 인자 값을 0.
마지막으로 연속한 세 음절이 띄어쓰기 문제 해결에 어느 정도 기여하는가를 알아보는 실험을 하였다. 실험 결과는 표 3과 같은데 연속한 두 음절을 참조하여 띄어쓰기를 하는 것보다 오히려 좋지 않은 결과가 나왔다. 연속한 세 음절을 참조하는 경우에는 자료 부족 문제(data sparseness)가 발생하기 때문에 이러한 현상이 발생한 것으로 추측된다.
문맥의 범위를 어디까지 확장하는가에 따라 성능에 차이가 발생하게 되는데, [9]에서는 문맥 범위를 72 가지로 구분하고 각각에 대한 성능 평가를 수행하고 최고의 성능을 보이는 문맥 범위를 결정하였다. 실험 결과에 따르면 이 방법론에서는 최고 98.33%의 음절 단위의 정확도와 93.06%의 어절 단위 정확도를 얻은 것으로 나타났다.
자기 조직화 바이그램 모델은 문맥의 범위를 확장해야 하는지 축소해야 하는지를 판정하는 두 가지 함수를 정의하고 이 함수의 값이 일정한 값을 초과하는 경우 문맥의 범위를 확장 또는 축소하는 방법으로 주어진 문제에 따른 최적의 문맥 범위를 찾는 방법론이다[8]. 실험 결과에 의하면 자기 조직화 바이그램 모델의 어절단위 정확도는 94.71%인 것으로 나타났다. [9]에서는 비록 문맥 범위를 확장하기는 하였으나 일반적인 HMM 모델을 전제로 하기 때문에 고정된 크기의 문맥만을 참조할 수 있는데 반하여, [8]에서는 HMM 모델에 자기 조직화 개념을 도입하여 문맥의 크기를 상황에 따라 가변적으로 조절할 수 있도록 함으로써 정확도가 향상될 수 있었던 것으로 판단된다.
앞에서 설명한 두 가지 자질 집합을 사용하여 학습한 경우 띄어쓰기 정확도가 표 6과 같이 나타났다. 표 6에서 보듯이 상태 자질만 사용하는 경우에는 어느 자질 집합을 사용하든 띄어쓰기 정확도에 거의 차이가 없으나, 전이 자질만 사용하는 경우 혹은 상태 자질과 전이 자질을 모두 다 사용하는 경우에는 자질 집합 A를 이용하여 학습한 경우에 띄어쓰기 정확도가 더 높아지는 것으로 나타났다.

후속연구

그러나 기계 학습에 의한 자동 띄어쓰기의 경우에는 예상치 못한 곳에서 오류가 발생하기 때문에 문장의 의미가 훼손되는 경우가 종종 발생한다는 문제점을 안고 있다. 따라서 기계 학습에 의한 자동 띄어쓰기 결과를 실제 응용에 적용하기 위해서는 이러한 문제점에 대한 해결 방안을 마련하여야 할 것으로 보인다.

핵심어	질문	논문에서 추출한 답변
	한국어 자동 띄어쓰기에 대한 기존 연구는 어떻게 나뉘어 질 수 있는가?	한국어 자동 띄어쓰기에 대한 기존 연구는 크게 규칙 기반의 분석적인 접근 방법과 말뭉치 기반의 통계적인 접근 방법으로 나눌 수 있다.
	HMM의 단점은 무엇인가?	HMM은 입력 데이터 열과 레이블 열 사이의 결합 확률(joint probability)을 이용하는 생성 모델(generative model)이다. 이 모델에서는 모든 가능한 입력 데이터 열을 나열해야 하며, 상호 작용하는 자질을 표현하거나 멀리 떨어진 입력 데이터 열 사이의 의존 관계를 표현하기 어렵다는 단점이 있다[11, 12, 13]. 이러한 단점을 극복하기 위하여 주어진 입력 데이터 열에 대하여 레이블 열의 확률을 이용하는 조건부 모델이 제안되었다.
	HMM은 어떤 문제 해결 방법으로 사용되어 왔는가?	입력 데이터 열을 분할하고 각각에 레이블을 부여하는 문제에 대한 해결 방법으로 HMM(Hidden Markov Model)이 사용되어 왔다. HMM은 입력 데이터 열과 레이블 열 사이의 결합 확률(joint probability)을 이용하는 생성 모델(generative model)이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

CRF를 이용한 한국어 자동 띄어쓰기
Automatic Word Spacing based on Conditional Random Fields 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

CRF를 이용한 한국어 자동 띄어쓰기 Automatic Word Spacing based on Conditional Random Fields 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

심광섭 (13)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

CRF를 이용한 한국어 자동 띄어쓰기
Automatic Word Spacing based on Conditional Random Fields 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper