[논문]하이브리드 방법을 이용한 개선된 문장경계인식

이충희; 장명길; 서영훈

문제 정의

기계학습 기반 분류모델은 학습데이터에 의존적이므로 학습데이터에 없거나 잘못된 정보에 의해서 오류를 발생시킬 수 있다. 본 논문은 그런 분류모델에 의한 오류를 후처리 규칙에 의해서 보정하였고, 정확도가 향상되는 것을 알 수 있었다.
따라서 이런 비전문가가 작성한 웹 문서를 대상으로 문서검색, 질의응답, 정보 추출 등을 하기 위해서는 웹문서의 다양성을 커버할 수 있는 문장경계인식 기술이 필요하다. 본 논문은 문어체 뿐 아니라 다양한 구어체를 처리할 수 있고, 특별히 인터넷에 있는 웹 문서에서 자주 발생하는 구두점 생략이나 띄어쓰기 오류도 커버할 수 있도록 문장경계 대상이 될 수 있는 모든 음절을 대상으로 문장경계를 인식하는 기술을 제안하다.
하지만, 일반인이 작성하는 웹 문서의 다양한 문장들의 경우에는 구두점이 생략되거나 띄어쓰기 오류가 빈번히 발생하므로 기존 연구를 웹 문서에 적용하기에는 무리가 있다. 이에 본 논문은 구두점 외의 문장경계에 사용되는 모든 음절을 대상으로 문장경계 모호성을 해소할 수 있는 방법을 제안한다.

제안 방법

9개의 자질을 1개부터 9개까지 모든 경우를 고려해서 조합해서 성능을 측정하였다. 실험결과 F-measure는 모든 자질을 사용하였을 때 가장 성능이 좋았고, Precision은 자질10을 제외한 나머지를 사용했을 때 가장 높고, Recall은 자질8과 자질10 만을 사용했을 때 가장 높았다.
각각의 평가셋 자체의 난이도를 보기 위해서 모든 구두점을 문장경계로 인식하는 기준선 성능도 측정하였고, 평가셋별 결과는 아래와 같다.
기계학습 방법에서는 어떤 자질을 사용하느냐에 따라 성능에 영향을 받으므로 자질별 기여도를 다양한 방법에 의해 비교 실험하였다.
다양한 기계학습 기반 분류모델을 선정해서 동일한 자질과 학습데이터를 사용해서 학습하고, 동일한 평가셋에 대해서 비교 평가를 수행하였다. 실험 환경은 3.
마지막 실험으로, 이번에는 기계학습 기반 분류모델의 자주 발생하는 오류에 대해서 규칙에 의해 후처리하는 기능을 추가한 후 성능을 평가하였다. 사용된 규칙은 아래와 같다.
모든 구두점을 문장경계로 인식했을 때의 기준선 성능에 비해서, 자질을 1개씩 누적해서 추가함에 따른 성능 변화를 실험하였다. 실험 결과, 자질2를 제외하고는 자질을 추가할 때마다 성능 향상이 있었고, 자질3이 가장 큰 성능 향상을 가져왔다.
모든 자질을 고려한 경우와 비교해서, 특정 1개의 자질을 빼는 경우에 따른 성능 변화를 측정하였다. 실험 결과, 어떤 자질을 빼도 성능 저하가 발생하므로 모든 자질이 유용함을 알 수 있었다.
성능평가는 5가지의 말뭉치를 1개부터 5개까지 모든 조합을 사용해서 학습하였고, 평가 척도별 최고 성능의 조합 결과는 아래와 같다.
3까지의 실험을 통해 최적의 자질과 학습데이터, 그리고 분류모델을 선정하였다. 이렇게 선정된 기본 문장 경계 인식기를 사용해서 이번에는 평가셋의 차이에 따른 성능을 비교하였다. 비교를 위해 사용된 평가셋은 아래와 같다.
2까지의 실험을 통해 최적의 자질과 분류모델을 선정하였다. 이렇게 선정된 기본 문장경계 인식기를 사용해서 이번에는 학습말뭉치에 따른 성능 변화를 실험하였다.
이번 실험을 위해서 구두점만을 문장경계후보로 고려하지 않고, 학습데이터에서 문장경계에 사용됐었던 모든 음절을 대상으로 문장경계를 인식하도록 기본 모델을 수정해서 실험하였고 결과는 아래와 같다.
웹 문서에 대한 문장경계인식 성능 측정을 위해서 웹사이트 게시판 등의 웹 문서로부터 수집된 295개의 문장들로 구성된 3차 평가셋을 만들었다. 주로 구어체로 구성된 3차 평가셋의 구두점 생략 정도를 확인하기 위해서 모든 구두점을 문장경계로 인식한 기준선 성능을 측정하였고, 결과는 아래와 같다.

대상 데이터

3.3까지의 실험을 통해 최적의 자질과 학습데이터, 그리고 분류모델을 선정하였다. 이렇게 선정된 기본 문장 경계 인식기를 사용해서 이번에는 평가셋의 차이에 따른 성능을 비교하였다.
문장경계 모호성 해소를 위한 기계학습 기반 분류모델에 사용된 자질은 아래와 같이 10개 자질을 사용하였다.
실험한 결과는 아래와 같다. 알고리즘에 따른 성능 변화는 최대 1.5% 정도의 미미한 차이가 있었지만, 최고 성능을 낸 SVM_fsmo를 최종 분류 모델로 선정하였다.
웹 문서에 대한 문장경계인식 성능 측정을 위해서 웹사이트 게시판 등의 웹 문서로부터 수집된 295개의 문장들로 구성된 3차 평가셋을 만들었다. 주로 구어체로 구성된 3차 평가셋의 구두점 생략 정도를 확인하기 위해서 모든 구두점을 문장경계로 인식한 기준선 성능을 측정하였고, 결과는 아래와 같다.
앞에서의 4가지 실험을 통해서 10개의 자질은 모두 미미하더라도 성능 향상에 도움이 된다는 것을 알 수 있었고, 특히 자질3의 중요성이 확인되었다. 최종 자질로 10개 모두를 선택하였다.
학습데이터는 아래와 같이 5가지를 대상으로 실험하였다.

성능/효과

2차 실험에서는 1차 실험을 통해 최적화된 기본 문장 경계 인식기를 구두점 생략이 빈번한 웹 문서에 적용하였고, 실험 결과로부터 기본 모델을 웹 문서에 그대로 적용하기에는 무리가 있음을 알 수 있었다. 그러므로 웹문서의 특징을 반영하도록 본 논문에서 제안한 개선된 모델이 웹 문서의 문장경계 인식에 효과적이었다.
Wang and Huang[11]은 문장경계인식을 위해서 8개의 자질을 추출하였고 3개의 알고리즘(규칙기반, HMM, ME)을 이용해서 문장경계인식 성능을 비교하였다. WSJ 말뭉치를 대상으로 평가해서, 규칙기반은 76.95%, HMM은 94.46%, ME는 97.62%의 결과를 얻었다. 임희석, 한군희[12]는 후보 구두점 자체의 확률, 앞/뒤 발생하는 음절 그리고 인용부호의 개수를 자질로 이용하였으며, kNN 알고리즘으로 ETRI, KAIST 코퍼스에서 각각 96.
최종 실험 결과, 개선된 모델에 사용된 모든 튜닝작업이 성능 향상에 기여 하였고, 개선모델이 기준선에 비해서는 22%, 기본모델에 비해서는 32%가 향상되었다. 가장 크게 성능을 향상시킨 튜닝1의 경우에, 레벨2,3의 문장경계 후보의 경우에 구두점에 비해서 다른 의미로 사용되는 경우가 훨씬 많기 때문에 각 후보의 부정 자질을 추가로 학습한 것이 크게 도움이 된 것으로 분석되었다. 두 번째로 성능 향상에 도움이 된 튜닝4의 경우에는 구두점에 비해서 근접해서 많이 발생하는 레벨2,3의 문장 경계 후보를 고려해서 문장경계인식 알고리즘을 수정한 것이 성능 향상에 도움이 되었다.
각 자질을 단독으로 사용했을 때의 문장경계 인식 성능을 측정 하였고, 실험결과 자질3이 가장 성능이 좋았고 F-measure로 93.4%의 성능을 보였다. 자질별로 precision이나 recall에 각각 더 좋은 자질이 있음을 알 수 있다.
결론적으로 4장의 최종 실험으로부터 웹 문서의 경우에는 기존 문장경계인식 기술로는 성능이 크게 떨어짐을 확인하였고, 본 논문에서 제안한 방법이 성능 향상에 효과적임이 입증되었다.
규칙 기반 연구에는 Grefenstette and Tapanainen[3]가 구두점의 문장경계 여부를 판단하기 위해서 정규 표현식을 이용하여 애매성을 해소하였고, Brown 말뭉치를 대상으로 실험한 결과, 숫자표현에 대해서 93.64%, 축약어에 대해서는 99.07%의 정확률을 보였다. O'Neil[4]은 3개의 간단한 규칙으로 영어문장에 대해서 95%의 정확률을 보인다고 설명하였다.
2차 실험에서는 1차 실험을 통해 최적화된 기본 문장 경계 인식기를 구두점 생략이 빈번한 웹 문서에 적용하였고, 실험 결과로부터 기본 모델을 웹 문서에 그대로 적용하기에는 무리가 있음을 알 수 있었다. 그러므로 웹문서의 특징을 반영하도록 본 논문에서 제안한 개선된 모델이 웹 문서의 문장경계 인식에 효과적이었다.
가장 크게 성능을 향상시킨 튜닝1의 경우에, 레벨2,3의 문장경계 후보의 경우에 구두점에 비해서 다른 의미로 사용되는 경우가 훨씬 많기 때문에 각 후보의 부정 자질을 추가로 학습한 것이 크게 도움이 된 것으로 분석되었다. 두 번째로 성능 향상에 도움이 된 튜닝4의 경우에는 구두점에 비해서 근접해서 많이 발생하는 레벨2,3의 문장 경계 후보를 고려해서 문장경계인식 알고리즘을 수정한 것이 성능 향상에 도움이 되었다.
본 논문에서는 1차 실험으로 다양한 실험을 통해, 일반 문서의 구두점 대상 문장경계 모호성 해소를 위해서 최적화된 자질이 무엇인지 확인하고, 학습데이터에 따른 성능 차이가 있음을 확인하였고, 기계학습 기반 분류모델의 경우에는 모델 간 성능 차이가 크지 않음을 확인하였다.
제안한 문장경계 인식기는 기계학습 기반 분류모델에 의해서 학습되고 수행되며, 분류모델에 사용되는 자질들은 언어에 독립적인 자질들 위주로 사용되었다. 분류모델은 다양한 모델을 비교한 결과, FSMO를 사용한 structured SVM[2]이 가장 좋은 성능을 보였고 학습속도도 빨랐다. 기계학습 기반 분류모델은 학습데이터에 의존적이므로 학습데이터에 없거나 잘못된 정보에 의해서 오류를 발생시킬 수 있다.
실험 결과, 분류모델의 오류로 과생성 되던 문장들이 규칙 후처리를 통해 없어지면서 precision이 대폭 향상되었고, 그에 따라 전체 성능도 3.8% 향상되었다.
모든 자질을 고려한 경우와 비교해서, 특정 1개의 자질을 빼는 경우에 따른 성능 변화를 측정하였다. 실험 결과, 어떤 자질을 빼도 성능 저하가 발생하므로 모든 자질이 유용함을 알 수 있었다. 특히, 문장경계 후보 바로 앞 음절에 대한 자질3의 경우에 가장 큰 성능 저하가 발생하여, 앞의 1,2,3번 실험 모두에서 중요한 자질임을 알 수 있었다.
모든 구두점을 문장경계로 인식했을 때의 기준선 성능에 비해서, 자질을 1개씩 누적해서 추가함에 따른 성능 변화를 실험하였다. 실험 결과, 자질2를 제외하고는 자질을 추가할 때마다 성능 향상이 있었고, 자질3이 가장 큰 성능 향상을 가져왔다. 자질2는 처음으로 추가된 자질로 추가 시 기준선에 비해 1.
9개의 자질을 1개부터 9개까지 모든 경우를 고려해서 조합해서 성능을 측정하였다. 실험결과 F-measure는 모든 자질을 사용하였을 때 가장 성능이 좋았고, Precision은 자질10을 제외한 나머지를 사용했을 때 가장 높고, Recall은 자질8과 자질10 만을 사용했을 때 가장 높았다.
실험결과, 대부분 문어체로 구성된 평가셋2가 평가셋1보다 성능이 좋았다. 기준선 성능 평가를 통해 평가셋1이 문장경계가 모호하게 사용되는 경우가 많다는 것을 알 수 있었다.
실험결과, 모든 말뭉치를 사용하는 것보다 A2와 B2만을 사용하는 것이 F-measure가 최고 성능을 보였고, precision과 recall의 최고성능을 보이는 말뭉치도 모두 달랐다. 실험을 통해서, 기계학습 분류모델의 학습데이터 의존도를 알 수 있었고, 적용하는 대상에 따라서는 학습 데이터도 선별적으로 사용해야 한다는 것을 확인하였다.
실험결과, 모든 말뭉치를 사용하는 것보다 A2와 B2만을 사용하는 것이 F-measure가 최고 성능을 보였고, precision과 recall의 최고성능을 보이는 말뭉치도 모두 달랐다. 실험을 통해서, 기계학습 분류모델의 학습데이터 의존도를 알 수 있었고, 적용하는 대상에 따라서는 학습 데이터도 선별적으로 사용해야 한다는 것을 확인하였다.
앞에서의 4가지 실험을 통해서 10개의 자질은 모두 미미하더라도 성능 향상에 도움이 된다는 것을 알 수 있었고, 특히 자질3의 중요성이 확인되었다. 최종 자질로 10개 모두를 선택하였다.
기본 모델은 구두점만을 대상으로 분류하도록 학습이 되었기 때문에, 기준선보다도 성능이 더 낮았다. 이번 실험을 통해, 본 연구의 기본 모델을 포함해서 기존의 연구 결과를 웹 문서에 그대로 적용하기에는 무리가 있음을 알 수 있었다.
실험 결과, 자질2를 제외하고는 자질을 추가할 때마다 성능 향상이 있었고, 자질3이 가장 큰 성능 향상을 가져왔다. 자질2는 처음으로 추가된 자질로 추가 시 기준선에 비해 1.5% 성능저하가 있었지만, 기준선에 비해 Precision이 대폭 개선되었고, 추가 실험을 통해 다른 자질과 함께 사용되는 경우는 성능향상에 도움이 된다는 것을 알 수 있었다.
Liu, Stolcke, Shriberg, and Harper[13]는 음석인식 결과에 대한 문장경계인식 기술에 대한 것으로 HMM, ME, Critical Random Fields (CRF) 3개의 알고리즘을 비교하였다. 자질은 음성 자질, n-gram 단어, 품사 태깅 결과, 청킹 결과, 그리고 단어 클래스를 사용하였고, Broadcast News를 대상으로 실험해서 HMM은 96.47%, ME는 96.48%, 그리고 CRF는 96.53%의 정확률을 보였다. Pan and Shaw[14]는 서수, 이니셜, 축약어 정보에 기반 해서 주변 토큰의 확률정보와 규칙을 자동으로 확장함으로써 문장경계를 인식하는 기술을 제안하였고, 언어독립적인 자질을 사용해서 영어권의 10개 언어에 대해서 실험한 결과, 신문기사를 대상으로 평균 98.
최종 실험 결과, 개선된 모델에 사용된 모든 튜닝작업이 성능 향상에 기여 하였고, 개선모델이 기준선에 비해서는 22%, 기본모델에 비해서는 32%가 향상되었다. 가장 크게 성능을 향상시킨 튜닝1의 경우에, 레벨2,3의 문장경계 후보의 경우에 구두점에 비해서 다른 의미로 사용되는 경우가 훨씬 많기 때문에 각 후보의 부정 자질을 추가로 학습한 것이 크게 도움이 된 것으로 분석되었다.

후속연구

본 논문에서 제안하는 개선된 문장경계 인식 기술을 적용하기 전에 선행되어야 할 일은, 기계학습 기반 분류 모델을 최적화 시키는 것으로, 최적의 자질과 학습데이터를 선택하고, 최종적으로 최적의 분류 모델을 선택하는 일이다.
향후 연구로는 현재의 10개 자질 외에 더욱 효과적인 자질을 찾아보고, 문장경계 인식에 더욱 최적화된 분류 모델이 있는지 찾아보고, 웹 문서의 추가 학습데이터 구축 및 규칙 추가를 통한 성능 개선을 고려하고자 한다.

핵심어	질문	논문에서 추출한 답변
	문장경계인식을 위해 지금껏 사용된 방법에는 어떤 것들이 있는가?	문장경계인식을 위해 지금까지 사용된 방법에는 규칙에 기반한 방법과 기계학습 방법에 의한 것이 있다. 초기에는 대부분 규칙에 기반해서 인식하였고, 최근의 연구는 주로 기계학습 방법을 이용하고 있다.
	규칙 기반 연구 중 TBL을 이용해 태깅 말뭉치로부터 문장 경계 인식 규칙을 자동으로 추출하는 방법을 제안한 연구는 어떤 결과를 보고하였는가?	O'Neil[4]은 3개의 간단한 규칙으로 영어문장에 대해서 95%의 정확률을 보인다고 설명하였다. Stamatatos, Fakotakis, and Kokkinakis[5]는 Transformation based learning(TBL)을 이용해서 태깅 말뭉치로부터 문장경계인식 규칙을 자동으로 추출하는 방법을 제안했고, 7,274개의 문장으로 부터 자동 추출된 312개의 규칙을 이용해서 8,736개의 문장을 평가해서 99.4%의 정확률을 보였다.
	문장은 무엇인가?	‘문장’의 사전적인 의미는 ‘의사를 전달하는 최소의 단위’로 정의되어 있으며, 전통 문법에서는 ‘비교적 완전하고 독립된 의사전달 단위다’라고 정의하고 있다[1]. 문장은 구문분석기나 의미분석 등의 언어학적 분석 작업에서는 가장 기본이 되는 단위이며, 문장경계 인식 성능이 언어학적 분석 작업에 미치는 영향력은 매우 크다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

하이브리드 방법을 이용한 개선된 문장경계인식
Advanced detection of sentence boundaries based on hybrid method 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

하이브리드 방법을 이용한 개선된 문장경계인식 Advanced detection of sentence boundaries based on hybrid method 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

하이브리드 방법을 이용한 개선된 문장경계인식
Advanced detection of sentence boundaries based on hybrid method 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper