[논문]메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식

한군희; 임희석

메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식
Korean Sentence Boundary Detection Using Memory-based Machine Learning 원문보기

한군희 (천안대학교 정보통신학부) , 임희석 (한신대학교 소프트웨어학과)

본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다 문장 경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 $98.82\%$의 문장 정확률과 $99.09\%$의 문장 재현율을 보였다.

This paper proposes a Korean sentence boundary detection system which employs k-nearest neighbor algorithm. We proposed three scoring functions to classify sentence boundary and performed comparative analysis. We uses domain independent linguistic features in order to make a general and robust system. The proposed system was trained and evaluated on the two kinds of corpus; ETRI corpus and KAIST corpus. As experimental results, the proposed system shows about $98.82\%$ precision and $99.09\%$ recall rate even though it was trained on relatively small corpus.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

향후 연구로는 다양한 기계학습 기법을 적용하고, 보다 다양한 장르에서 실험 해 보고자 한다. 또한 구두점이 생략된 경우 등의 문제도 해결할 수 있는 새로운 자질들도 고려하고자 한다.
본 논문에서는 기계 학습을 이용한 범용의 한국어 문 장 경계를 인식 방법을 제안하였다. 기계학습 방법으로는 입력값과 유사한 k개의 데이터를 이용하는 kNN 알고리즘을 사용하였고, 문장 경계 인식을 위한 제안된 방법은 적용의 범위가 넓고 특정 영역에 종속적이지 않는 방법 개발을 위하여 특정 언어 또는 장르에 독립적인 자질 정보를 사용하였다.
그러나 구문 분석과 의미 분석 등 전통적인 한국어 정보처리뿐만 최근 웹로봇에 의한 정보 자동 수집, 정보검색, 문서 자동 분류, 그리고 스팸 메일 필터링과 같은 비정형화된 문서 데이터의 처리를 위해서도 한국어 문장 경계 인식에 관한 연구는 매우 필요한 실정이다. 이에 본 논문은 메모리 기반의 학습 방법을 이용한 한국어 문장 경계 인식 방법을 제 안한다.

가설 설정

각 구두점마다의 특징이 다르다는 가정에 기반한 것이다. 후보 구두점은가지이다.
전통 문법에서는 ”문장이란 비교적 완전하고 독립된 의사 전달의 한 단위다”라고 정의한다. 품사 태거나 파서와 같은 대부분의 자연어처리 관련 도구는 기본 처리 단위로서 문장을 사용하며, 문서가 이미 문장 구분이 되어 있다고 가정한다.

제안 방법

이 자질은 일반적으로 작은 음절수로 구성된 것보다 많은 음절수로 구성된 경우가 문장의 끝이 될 가능성이 많을 것이라는 가정에 기반한 것이다. 거리는 음절의 수로써 구하였다.
기계 학습 기법 중에서 메모리 기반 학습과 언어 영역과 장르에 독립적인 자질 정보를 활용하는 범용의 한국어 문장 경계 인식기를 제안한다. 메모리 기반 학습은 나태(lazy) 학습의 일종으로서 학습 시에는 단순히 데이터를 저장하고, 분류 시에 메모리에 저장된 데이터 중에서 유사한 것들을 찾아내어 이들로부터 분류를 한다.
본 논문에서는 기계 학습을 이용한 범용의 한국어 문 장 경계를 인식 방법을 제안하였다. 기계학습 방법으로는 입력값과 유사한 k개의 데이터를 이용하는 kNN 알고리즘을 사용하였고, 문장 경계 인식을 위한 제안된 방법은 적용의 범위가 넓고 특정 영역에 종속적이지 않는 방법 개발을 위하여 특정 언어 또는 장르에 독립적인 자질 정보를 사용하였다. ETRI 코퍼스와 KAIST 코퍼 스를 이용한 실험 결과 학습 코퍼스의 종류에 상관없이 높은 재현율과 정확률을 보였으며, 적절한 자질을 선택 하는 것이 중요함을 보였다.
따라서 kNN 알고리즘의 성능은 이웃의 크기인 k값 과 k개의 이웃에 어떤 가중치 값을 주는가에 좌우된다. 본 논문은 다양한 k값에 따른 실험을 통하여 가장 우수한 성능을 보이는 k값을 결정하여 사용하며 가중치 부여 방법은 다음과 같은 3가지를 사용한다. 'SW(Same Weight)'는 모든 개체들에 똑같은 가중치를 부여하는 것으로 다수결에 의해 결정되는 방법이다.
처음 실험은 ETRI 말뭉치만으로 하였다. 이 말뭉치의 특성은 대부분이 구어체로 되어있다는 것이다.

대상 데이터

본 논문에서 사용한 말뭉치는 27, 855개의 문장을 포함한 ETRI 원시 말뭉치[8]와 48, 858개의 문장을 포함한 KAIST 언어 자원 의존 구조 부착 말뭉치[9]이다. KAIST 말뭉치는 여기에서 문장만을 따로 뽑아 원시 말뭉치를 구성하여 실험하였다. 이들 말뭉치들의 학습양은 각각 32, 381개, 49, 358개였다.
본 논문에서 사용한 말뭉치는 27, 855개의 문장을 포함한 ETRI 원시 말뭉치[8]와 48, 858개의 문장을 포함한 KAIST 언어 자원 의존 구조 부착 말뭉치[9]이다. KAIST 말뭉치는 여기에서 문장만을 따로 뽑아 원시 말뭉치를 구성하여 실험하였다.
본 논문은 학습된 문장 경계 인식기가 학습 데이터로 사용된 언어 영역에 제한적이지 않도록 언어 영역과 독립적인 다음의 6가지 언어 자질을 사용하였다.
KAIST 말뭉치는 여기에서 문장만을 따로 뽑아 원시 말뭉치를 구성하여 실험하였다. 이들 말뭉치들의 학습양은 각각 32, 381개, 49, 358개였다. 문장으로 분리된 한국어 말뭉치는 부족한 실정이므로 학습 및 실험은 10-fold cross validation 방법을 사용하였다.

이론/모형

마지막으로 KAIST 말뭉치와 ETRI 말뭉치를 합쳐서 10-fold Cross Validation방법으로 실험하였으며 그 결과는 각각 표 7과 표 8과 같다.
이들 말뭉치들의 학습양은 각각 32, 381개, 49, 358개였다. 문장으로 분리된 한국어 말뭉치는 부족한 실정이므로 학습 및 실험은 10-fold cross validation 방법을 사용하였다.
평가 척도로는 문장 정확률(P), 문장 재현율(R) 그리고 정확률과 재현율을 하나의 값으로 표현할 수 있는 F-measure를 사용하였으며 각 척도의 정의는 다음과 같다.

성능/효과

기계학습 방법으로는 입력값과 유사한 k개의 데이터를 이용하는 kNN 알고리즘을 사용하였고, 문장 경계 인식을 위한 제안된 방법은 적용의 범위가 넓고 특정 영역에 종속적이지 않는 방법 개발을 위하여 특정 언어 또는 장르에 독립적인 자질 정보를 사용하였다. ETRI 코퍼스와 KAIST 코퍼 스를 이용한 실험 결과 학습 코퍼스의 종류에 상관없이 높은 재현율과 정확률을 보였으며, 적절한 자질을 선택 하는 것이 중요함을 보였다.
KAIST 코퍼스와 ETRI 코퍼스를 통합하여 학습한 결과, 표 8에서 보인바와 같이 기존의 ETRI 말뭉치만을 사용하였을 때보다 성능이 많이 향상되는 것을 확인 할 수 있었다. 자질의 가중치는 표 7과 같이 원래 ETRI 말뭉치만으로 얻은 결과와 유사하였다.
본 논문에서 사용된 자질은 사전이나 품사 정보를 사용하지 않기 때문에 언어나 장르에 독립적이므로, 다른 말뭉치에 대해서도 적용이 가능하다. 단, 한 문장 내에 후보 구두점이 많은 것보다는 적은 것에 대해 성능이 더 좋게 나타남을 알 수 있었다. 향후 연구로는 다양한 기계학습 기법을 적용하고, 보다 다양한 장르에서 실험 해 보고자 한다.
실험에 사용한 코퍼스는 ETRI와 KAIST에서 제공한 코퍼스를 원시 코퍼스로 변형하여 사용하였으며, 실험 결과 제안한 시스템은 적은 양의 학습 말뭉치만으로 도 98.82%의 문장 정확률과 99.09%의 문장 재현율을 보였다.

후속연구

본 논문에서 사용된 자질은 사전이나 품사 정보를 사용하지 않기 때문에 언어나 장르에 독립적이므로, 다른 말뭉치에 대해서도 적용이 가능하다. 단, 한 문장 내에 후보 구두점이 많은 것보다는 적은 것에 대해 성능이 더 좋게 나타남을 알 수 있었다.
단, 한 문장 내에 후보 구두점이 많은 것보다는 적은 것에 대해 성능이 더 좋게 나타남을 알 수 있었다. 향후 연구로는 다양한 기계학습 기법을 적용하고, 보다 다양한 장르에서 실험 해 보고자 한다. 또한 구두점이 생략된 경우 등의 문제도 해결할 수 있는 새로운 자질들도 고려하고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식
Korean Sentence Boundary Detection Using Memory-based Machine Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식 Korean Sentence Boundary Detection Using Memory-based Machine Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식
Korean Sentence Boundary Detection Using Memory-based Machine Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper