[논문]마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리

권오욱

문제 정의

본 논문에서는 대어휘연속음성인식을 위하여 신문기 사 및 방송 뉴스로부터 구한 대규모의 말뭉치를 다룬다. 이러한 말뭉치에서는 고유명사 및 외국어와 같은 미등록 어가 많기 때문에 통계 기반의 접근 방식을 사용하였다.
따라서 실제적인 응용에서는 줄 바꿈에서의 오류 또는 긴 어절의 띄어쓰기 고치기에 사용된다. 여기에서는 실제의 경우에서의 띄어쓰기 성능을 조사하기 위하여 텍스트가 주어질 때 정해진 길이 이상의 어절만을 띄어쓰기 하는 경우와 줄 바꿈 위치에서만 띄어 쓰기 하는 경우의 성능을 조사하였다.

가설 설정

각 노드에서 계산된 가설들 중에서 음절 이력이 동일한 가설들은 가장 높은 누적 로그확률을 갖는 가설만 남기고 나머지는 제거한다. 각 가설에서 최대 누적 로그확률과 누적 로그 확률의 차이가 미리 주어진 빔 크기보다 큰 가설은 제거하고, 시간t에서의 모든 가설 중에서 최대 누적 로그확률을 계산한다.
음절 열로 구성된 한국어의 문장 S=(wi w2 ― 妬) 이 주어져 있을 때 그 문장이 마코프 체인[15, 16]으로부터 발생한다고 가정한다. 공백도 하나의 음절이라고 가정하며, 마코프 체인의 각 천이는 음절을 발생한다. 자신으로 의천이에서는 공백이 발생되고 다른 싱태로의 천이에서 음절이 발생한다.
띄어쓰기 알고리듬을 이용하여 복합명사를 분리하였다. 복합명사는 길이가 4 이상에 대해서만 고려하며 단위 명사는 모두 길이가 2 이상이라고 가정한다. 먼저 최소 어절 길이를2로 제한한 띄어쓰기 알고리듬으로 공백의 위치를 찾은 다음 단위명사가 사전에 존재하는지를 검사한다.
띄어쓰기 정확도는 음절 단위 또는 어절 단위로 표현한다 [5, 6].복합어 및 보조용언은 가능하면 분리됨을 원칙으로 하였다. 띄어쓰기 성능을 조사하기 위하여 텍스트에서 문장 단위로 공백을 모두 제거하고 띄어 쓰기 알고리듬을 적용하였으며 penalty =。을 사용하였다.
그림 3은 띄어쓰기 알고리듬의 설명을 위한 격자 그림이다. 상태s에서 같은 상태로 천이 할 때는 공백이 발생하고, 다른 상태s'에서 상태s로 천이 할 때에는 음절 血 s] 가 발생하며, 从 W I 納, 切2), 0( 也 2 I 納), 力(旳)는주 어져 있다고 가정한다. 각 노드에는 여러 개의 가설들이 저장될 수 있으며, 하나의 가설에는 최근 " 一 1개의 음절 정보(Xt.
음절 열로 구성된 한국어의 문장 S=(wi w2 ― 妬) 이 주어져 있을 때 그 문장이 마코프 체인[15, 16]으로부터 발생한다고 가정한다. 공백도 하나의 음절이라고 가정하며, 마코프 체인의 각 천이는 음절을 발생한다.
대규모 말뭉치에서의 띄어쓰기 오류 교정을 위한 자동 띄어쓰기 알고리듬을 제안하였다. 제안된 알고리듬에서 는 한국어 문장이 마코프 체인으로부터 발생한다고 가정하고 최대 정규 문장 확률을 갖는 경로를 찾음으로써 최적의 공백 삽입 위치를 결정하였다. 미등록 어가 많이 존재하는 신문 칼럼으로부터 추출한 254문장을 사용하여 알고리듬을 테스트하였다.
이러한 말뭉치에서는 고유명사 및 외국어와 같은 미등록 어가 많기 때문에 통계 기반의 접근 방식을 사용하였다. 제안된 알고리듬에서는 주어진 입력음절 열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백 음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정하였다. 2개 이상의 공백이 연속으로 나타날 수 없다는 제한 조건 하에서 음절 n-그램에 의한 문장 확률이 최대가 되 는 음절열을 찾음으로써 최적의 띄어쓰기 해를 찾았다.

제안 방법

제안된 알고리듬에서는 주어진 입력음절 열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백 음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정하였다. 2개 이상의 공백이 연속으로 나타날 수 없다는 제한 조건 하에서 음절 n-그램에 의한 문장 확률이 최대가 되 는 음절열을 찾음으로써 최적의 띄어쓰기 해를 찾았다. 성능 향상을 위하여 단어 길이에 대한 확률분포를 추가로 적용하였다.
다음으로는 HTML문서 처리에서 종종 나타나는 줄 바꿈 위치에서의 띄어쓰기 교정에 대한 성능을 조사하였다. 줄바꿈에서의 공백 삽입 문제는 종종 오래된 워드프로세서를 사용한 텍스트에서 나타난다.
69%의 정확도에 해당한다. 다음으로는 줄 바꿈에서의 띄어쓰기 성능을 조사하였다. 길이가 5이상인 어절에 대해서만 띄어쓰기 알고리듬을 적용한 경우에 96.
대규모 말뭉치에서의 띄어쓰기 오류 교정을 위한 자동 띄어쓰기 알고리듬을 제안하였다. 제안된 알고리듬에서 는 한국어 문장이 마코프 체인으로부터 발생한다고 가정하고 최대 정규 문장 확률을 갖는 경로를 찾음으로써 최적의 공백 삽입 위치를 결정하였다.
00%로 나타났다. 띄어쓰기 알고리듬을 사용하여 줄 바꿈 위치에서 띄어쓰 는 경우와붙여 쓰는 경우의 정규화된 어절 확률을 계산하여 확률이 높은 경우를 선택하도록 하였다. 붙여쓰기한 경우의 어절 길이가 5이상인 경우에 대하여 앞의 방법을 적용하는 경우에 가장 성능이 우수하였으며 96.
띄어쓰기 알고리듬을 이용하여 복합명사를 분리하였다. 복합명사는 길이가 4 이상에 대해서만 고려하며 단위 명사는 모두 길이가 2 이상이라고 가정한다.
마지막으로 위에서 구한 최대 누적로그 확률 및 백포인터를 이용하여 입력된 음절의 띄어쓰기 최적 패턴을 탐색한다. 먼저, s=N이고 위치 N과 위치 T 사이에 있 는 노드에 저장된 가설들 중에서 누적로그 확률을 그가 설이 속한 경로 내의 음절 개수로 나눈 후, 상태 개수 S를 곱한 정규 누적로그 확률이 최대인 가설 h 및 그때의 시간t를 구하고, 상기 가설 h로부터 백포인터를 이용하여 이전 가설h'를 탐색한 후, 상기 이전 가설h'로부터 가설 h로의 상태 변화 결과에 따라 입력음절 또는 공백을 출력 문장의 앞에 삽입한다.
복합명사는 길이가 4 이상에 대해서만 고려하며 단위 명사는 모두 길이가 2 이상이라고 가정한다. 먼저 최소 어절 길이를2로 제한한 띄어쓰기 알고리듬으로 공백의 위치를 찾은 다음 단위명사가 사전에 존재하는지를 검사한다. 단위 명사가 사전에 존재하지 않으면 인접한 단위 명사와 병합하여 사전에 존재하는지를 반복적으로 검사한다.
그런데 웹 문서 또는 과거의 텍스트 파일에서는 종종 어 절 경계가 아닌 곳에서 줄 바꿈 되어 있으며, 입력 오류 둥에 의하여 틀린 단어 또는 띄어쓰기 오류가 포함된 경우도 있다. 본 논문에서는 이러한 띄어쓰기 오류를 자동으로 교정하기 위한 띄어쓰기 알고리듬을제안하며, 이를줄 바꿈에서의 공백 처리, 긴어절의 띄어쓰기 오류 수정, 복합명사 분리에 적용한다. 복합명사분리는 최근에 인터넷 검색엔진에서의 질의어 처리에 자주 사용되고 있는데 이는 하나의 어절이 단위 명사의 조합으로만 이루어진 자동 띄어쓰기의 특수한 예라고 볼 수 있다.
2개 이상의 공백이 연속으로 나타날 수 없다는 제한 조건 하에서 음절 n-그램에 의한 문장 확률이 최대가 되 는 음절열을 찾음으로써 최적의 띄어쓰기 해를 찾았다. 성능 향상을 위하여 단어 길이에 대한 확률분포를 추가로 적용하였다. 제안방법은 어휘 지식이나 휴리스틱을 사용하지 않고 통계적인 방법을 사용하여 임의의 길이의 띄어쓰기가 잘못된 문장을 바르게 고칠 수 있으며 문장의 일부 또는 전체가 띄어쓰기 되지 않은 문장에 대해서도 동작한다.
초등학교 교과서 문장은 기본 단어로 이루어져 있으며 띄어쓰기가 정확하다. 이 말 뭉치로부터 언어 모델링 툴킷[18]을 사용하여 음절 단위 트라이그램을 구하였다. 훈련용 말뭉치에서 나타나지 않은 트라이그램 확률은 Katz백오프 방법[19]을 사용하여 구한다.
본 논문에서는 대어휘연속음성인식을 위하여 신문기 사 및 방송 뉴스로부터 구한 대규모의 말뭉치를 다룬다. 이러한 말뭉치에서는 고유명사 및 외국어와 같은 미등록 어가 많기 때문에 통계 기반의 접근 방식을 사용하였다. 제안된 알고리듬에서는 주어진 입력음절 열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백 음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정하였다.
일반적인 텍스트에서의 성능을 조사하기 위하여 고등학교 교과서에서 발췌한 256문장, 3684 어절, 24788음절로 이루어진 두 편의 한국어 수필과 번역된 외국 단편소설(알퐁스도데의 '별')에 대하여 테스트하였다. 실험 결과 트라이그램을 사용한 경우 어절단위 정확도 91.
훈련용 말뭉치로부터 어절 길이에 따른 확률분포를 계산하였다. 그림 6은 어절길이에 따른 확률분포를 나타낸다.

대상 데이터

2년간의 동아일보 신문기사와 초등학교 교과서 문장을 훈련용 말뭉치로 사용하였다. 신문 기사의 크기는 L6M문 장, 22M 어절, 174M음절이고 교과서 문장의 크기는60k문장 0.
단위 명사의 중복을 제한하지는 않았다. 400개의 외국어가 포함된 복합어(주로 외국어 회사명, 지명을 포함)를 포함하여 4음절 이상의 복합어 10376개를 사용하였다. 복합명사는 6, 238개의 단위 명사로 구성되었으며 단위 명사로 분리하였을 때의 어 절개수는 23713개이었다.
제안된 알고리듬에서 는 한국어 문장이 마코프 체인으로부터 발생한다고 가정하고 최대 정규 문장 확률을 갖는 경로를 찾음으로써 최적의 공백 삽입 위치를 결정하였다. 미등록 어가 많이 존재하는 신문 칼럼으로부터 추출한 254문장을 사용하여 알고리듬을 테스트하였다. 전혀 공백이 없는 문장의 띄어쓰기에 적용한 결과 91.
테스트를 위하여 한국일보 신문기사 경제면에서 나타나는 복합명사들을 사용하였다. 단위 명사의 중복을 제한하지는 않았다.
테스트에 사용한 문장은 조선일보 칼럼에서 선택한 문 장단위로 분할된 254문장 3622 어절 공백을 포함하여 2425矯절이었다. 그림 7은 시험에 사용한 일부 문장과 띄어쓰기 결과를 나타낸 것으로서 고유명사가 많이 포함되어 있음을 보여준다.

이론/모형

규칙 기반 접근 방법에서는 먼저 조사/어미로 사용되는 음절의 특성을 이용하여 어절 블록의 경계를 찾고 어절 블록내에서는 형태소분석을 이용한 양방향최장일치법 을 사용한다[6]. 블록 경계 오류 시에는 다음 어절에 붙여서 어절 인식을 다시 시도하는 후처리 적용한다.
이 말 뭉치로부터 언어 모델링 툴킷[18]을 사용하여 음절 단위 트라이그램을 구하였다. 훈련용 말뭉치에서 나타나지 않은 트라이그램 확률은 Katz백오프 방법[19]을 사용하여 구한다. 유니그램의 개수는 영어 알파벳을 포함하여 2406개, 바이그램은 172895개, 트라이그램은 1310468개이었다.

성능/효과

최재혁은 복합명사의 길이에 따라서 구성 패턴을 파악하고 정해진 순서에 따라 복합명사분리한다 [9]. 4 음절 89%, 6음절 83% 8음절 81% 5음절 78% 7음절 73%로 나타났다. 강승식은 규칙 기반의 방법을 사용하여 97.
22%로 나타났다. 5% 정도의 미등록어를 갖는 복합명사에 대해서도 82.0%의 성능을 얻었다.
69%를 나타내었다. 두 음절만의 정보를 사용하는 경우에 비하여 트라이그램을 사용하는 경우 성능 향상이 두드러지며 4-그램을 사용한 경우는 25 MB의 메모리 크기에 비하여 성능 향상은 크지 않음을 알 수 있다. 말뭉치에서 나타난 모든 트라이그램을 사용한 경우(컷오 프 값0)가 1번 발생하는 트라이그램은 제거한 경우(컷오 프 값 1)보다 0.
표 3은복합명사의 길이에 따른 분리 정확도(어절단위 정확도)[8]를 나타낸다. 모든 복합명사에 대한 분리 정확도는 96.22%로 나타났다. 5% 정도의 미등록어를 갖는 복합명사에 대해서도 82.
4%의 단어 정확도를 얻었다. 본 논문의 결과는 형태 소 해석기 및 어휘를 참조하지 않고 음절 트라이그램만를 사용하여 다른 영역의 테스트 문장에 대하여 약 91.5%의 어절 단위 정확도를 나타내므로 기존의 통계적 접근 방식보다 우수한 성능을 나타냄을 알 수 있다.
57%의 정확도를 얻었다. 본 연구의 경우 앞의 음절 분포를 고려하면 외국어 복합어 400개를 제외한 경우 97.01%의 정확도를 나타내어 다른 방법에 비해 우수함을 보여준다. 이 전의 연구결과와 마찬가지로 본 연구에서도 5음절의 정확도가 감소하는 현상이 나타났다.
띄어쓰기 알고리듬을 사용하여 줄 바꿈 위치에서 띄어쓰 는 경우와붙여 쓰는 경우의 정규화된 어절 확률을 계산하여 확률이 높은 경우를 선택하도록 하였다. 붙여쓰기한 경우의 어절 길이가 5이상인 경우에 대하여 앞의 방법을 적용하는 경우에 가장 성능이 우수하였으며 96.27%의 어 절단위 정확도를 나타내었다. 짧은 길이의 어절에 대해서 띄어쓰기 알고리듬을 적용하는 경우에는 오히려 성능이 저하되었다.
일반적인 텍스트에서의 성능을 조사하기 위하여 고등학교 교과서에서 발췌한 256문장, 3684 어절, 24788음절로 이루어진 두 편의 한국어 수필과 번역된 외국 단편소설(알퐁스도데의 '별')에 대하여 테스트하였다. 실험 결과 트라이그램을 사용한 경우 어절단위 정확도 91.31%, 음절단위로는 97.93%를 얻었다. 어절단위 정확도가 신문 기사보다 낮게 나타난 것은 외국 소설에서 나타나는 외국인명 및 지명에서 오류가 많았기 때문이며, 한국어 수필의 경우는 신문 기사보다 띄어쓰기 결과가 더 우수하였다.
전산학 분야의 말뭉치를 사용한 두음절간 상호 정보를 이용한 기존의 연구결과에서 형태소 분석기를 사용한 경우에 훈련 영역과 같은 영역의 테스트 문장에 대하여 93.6% (음절 단위 98.4%), 다른 영역의 경우 84.7%의 단어 정확도를 나타내었으며 평균적으로 87.2% (음절단 위 96.4%)를 나타내었다 [9]. 형태소 해석기를 사용하지 않았을 때에는 각각 같은 영역 및 다른 영역의 테스트 문장에 대하여 90.
미등록 어가 많이 존재하는 신문 칼럼으로부터 추출한 254문장을 사용하여 알고리듬을 테스트하였다. 전혀 공백이 없는 문장의 띄어쓰기에 적용한 결과 91.58% 어절 정확도를 나타냈다. 이것은 음절 단위로는 96.
27%의 어 절 정확도를 나타내었다. 제안 알고리듬을 복합명사의 분리에 적용하여 성능 테스트를 한 결과 96.22%의 정확도를 얻었다. 이 결과는 기존의 통계 기반 방식보다 우수하며 규칙 기반 접근 방식보다 우수하거나 근접하는 결과이다.
표 1은 바이그램, 트라이그램, 4-그램을 적용한 경우의 어절 단위 및 음절 단위 정확도를 나타낸다. 트라이그램을 사용하는 경우 어 절 단위 정확도는 91.58%이며 음절 단위로는 96.69%를 나타내었다. 두 음절만의 정보를 사용하는 경우에 비하여 트라이그램을 사용하는 경우 성능 향상이 두드러지며 4-그램을 사용한 경우는 25 MB의 메모리 크기에 비하여 성능 향상은 크지 않음을 알 수 있다.
4%)를 나타내었다 [9]. 형태소 해석기를 사용하지 않았을 때에는 각각 같은 영역 및 다른 영역의 테스트 문장에 대하여 90.9%와 74.4%의 단어 정확도를 얻었다. 본 논문의 결과는 형태 소 해석기 및 어휘를 참조하지 않고 음절 트라이그램만를 사용하여 다른 영역의 테스트 문장에 대하여 약 91.

후속연구

이 연구에서는 전산 관련 논문 및 여러 유형의 문장을 사용하였으나 미등록어 및 외국어의 존재 여부 등이 나타나 있지 않아 서 비교하기가 어렵다. 그러나 본 논문에서는 어휘 정보나 형태소 해석을 사용하지 않은 경우의 성능이라는 점을 고려할 때 앞으로 형태 소 해석과 결합되면 좋은 결과를 나타낼 것으로 본다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리
Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리 Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

권오욱 (41)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리
Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper