[논문]효율적인 기계학습 자질 선별을 통한 한국어 운율구 경계 예측 모델의 성능 향상

김민호; 권혁철

문제 정의

본 논문에서는 통계적 접근법을 이용한 운율구 경계예측에서 더 좋은 예측 결과를 도출할 수 있는 새로운 학습 자질을 제안하였다.
본 논문은 통계적 접근법을 이용한 운율구 경계 예측에서 더 좋은 예측 결과를 도출할 수 있는 새로운 학습자질을 제안한다. 2장에서 운율구 경계 예측의 국내외 여러 연구에 대해서 정리하고, 3장에서는 실제 언어생활에서의 운율구 경계 형성 특징을 반영한 학습 자질에 대해서 설명할 것이다.
그러나 2000년대 중반에 들어 그 쓰임이 점차 늘어나면서 스크린 리더나 E-Book처럼 임의의 문장에 대해서도 합성할 수 있는 기술이 시장에서 요구되고 있다. 이러한 무제한 합성 기술은 하나의 차분한 목소리로 합성음을 생성해내는 낭독체 음성합성뿐만 아니라 전달하고자 하는 메시지의 내용과 듣는 이의 감정에 따라 음색과 억양이 다르게 표현되는 대화체 음성합성을 목표로 한다. 대화체 음성합성을 위해서는 정확한 자연언어처리 기술이 뒷받침되어야 하는데, 가장 중요한 자연언어처리 기술 중 한 가지는 끊어 읽는 위치를 예측하는 운율구 경계 예측 기술이다.

가설 설정

* 독립언과 문장의 주절 사이에는 강한 운율구 경계가 발생한다.
가설 1은 형태소 电의 출현콰 형태소 明의 출현이 상호독립적이라는 것을 뜻하고, 가설 2는 啊의 출현이 叫의 출현에 종속적이라는 것욜 뜻한다. 이때.
이때. 가설 1이 가설 검정의 대상이 되는데 이 가설을 귀무가설이라고 한다. 반면 가설 2는 귀무가설이 기각되었을 때 받아들여지는 가설로써 대립가설이라고 한다.

제안 방법

따라서 본 논문에서는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다. 단, 첫 형태소와 끝 형태소가 아닌 형태소이면서 운율구 경계에 영향을 미치는 형태소를 위해 '지정사 포함 여부', '용언화접미사와 결합 여부' 등과 같은 별도의 학습 자질도 추가하였다.
그 경계의 종류와 위치가 결정된다. 따라서 본 논문에서는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다. 단, 첫 형태소와 끝 형태소가 아닌 형태소이면서 운율구 경계에 영향을 미치는 형태소를 위해 '지정사 포함 여부', '용언화접미사와 결합 여부' 등과 같은 별도의 학습 자질도 추가하였다.
본 논문에서 제안하는 새로운 학습 자질을 바탕으로 CRFs를 이용하여 운율구 경계 예측 모형을 구축하였다. CRFs는 확률적 학습 방법의 하나로 은닉 마르코프 모델 (HMM: Hidden Markov Model), 최대 엔트로피 모델(MEM: Maximum Entropy Model)과 마찬가지로 순서에 의미가 있는 데이터(sequence data)에 대해 좋은 성능을 보인다.
본 논문에서는 어절 사이를 기준으로 하여 이전 어절의 첫 형태소와 다음 어절의 끝 형태소 간 연어 형성 여부를 가설 검정 (hypothesis testing)으로 판단하였다. 이는 3丄절에서 언급하였듯이 운율구는 대부분 어절의 첫 형태소와 끝 형태소에 따라 그 경계의 종류와 위치가 결정되기 때문이다.
2)따라서, 문장 시작과 운율구 경계 모두 거리 정보의 기준점으로 정할 필요가 있다. 본 논문에서는 운율구 경계를 거리정보의 기준점으로 정하고자 운율구 경계 예측 규칙을 활용하였다.
본 논문에서는 표 1과 같이 명사를 통사적, 의미적 성격에 따라 세분화하고 부사는 어떤 성분을 수식하느냐에 따라 세분화하였다. 또한, 연결어미도 '절간 연결만 가능한 연결어미'와 '어휘 간 연결도 가능한 연결어미'로구별하였다.
다른 두 가지 모형과 비교한 결과이다. 앞의 실험과 마찬가지로 학습데이터로 학습한 모형을 평가데이터로 평가하였다. 학습 기법의 차이에서 오는 특성을 배제하고 학습 자질의 효율성만을 분석하고자 김승원[11]에서 제안한 운율구 경계 예측 CRFs 모형과 비교를 하였으며, 규칙 기반 모형과 비교하여 어떠한 차이가 있는지 분석하고자 정영임[13]에서 제안한 규칙 기반 운율구 경계 예측 모형과 비교하였다.
'새로운 품사 집합' 열은 '기존 품사 집합을 표 1의 세분화를 통해 세분화한 품사 집합을 사용한 결과이다. 어절 사이를 기준으로 품사 정보를 참조하는 앞뒤 어절의 수를 바꾸어 가면 실험을 진행하였다. 단, 어절을 이루는 모든 형태소의 품사 정보를 이용하였다.
것이다. 어절 사이를 기준으로 품사 정보를 참조하는 앞뒤 어절의 수를 바꾸어 가면서 실험을 진행하였다. 표 5의 실험 결과에서 알 수 있듯이 품사 정보를 이용할 때 어절을 이루는 전체 형태소의 품사 정보를 모두 이용하는 것보다는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하는 것이 운율구 경계 예측을 위해더 효율적이라는 것을 알 수 있다.
운율구 경계에 발생하는 휴지는 어조와 결합하여 나타나므로, 본 논문에서는 표 2와 같이 정영임[18]에서 제안한 휴지와 어조를 결합하여 6단계로 세분화한 운율구 경계 유형을 모형화에 이용한다. 표 3은 실험을 위해 사용한 학습데이터와 평가데이터에 나타난 운율구 경계유형의 분포를 보여준다.
정영임[18]에서는 다수의 주석자가 KBS 뉴스(2005 년 1월~2006년 6월)를 들으면서 해당 스크립트에 운율구 경계를 태깅하였다. 이때, 다수의 주석자가 태깅함으로써 생기는 주석자 간 운율구 경계 태깅의 불일치를 줄이고자 운율구 경계 주석 말뭉치 구축 과정을 세 단겨〕-주석자 훈련 단계, 운율구 경계 태깅 단계, 말뭉치 신뢰도 추정 단계로 나누어 수행하여 말뭉치의 신뢰도를 높였다.
결과이다. 이전의 실험들과는 달리 학습데이터를 통해 학습한 모형을 평가데이터를 이용하여 평가하였으며, 운율구 경계 유형별 예측 성능을 비교하고자 정확도 (precision)와 재현율(recall)을 평가 척도로 활용하였다. 전체적으로 나이브 베이즈가 가장 낮은 성능을 보였으며, CRFs가 가장 높은 성능을 보였다.
표 5의 실험 결과에서 알 수 있듯이 품사 정보를 이용할 때 어절을 이루는 전체 형태소의 품사 정보를 모두 이용하는 것보다는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하는 것이 운율구 경계 예측을 위해더 효율적이라는 것을 알 수 있다. 이후의 실험에서는 첫 형태소와 끝 형태소의 품사 정보만을 이용하여 실험을 진행하였다.
표 4의 실험 결과에서 알 수 있듯이 운율구 경계 예측을 위해 추가로 품사의 하위 범주화를 한 결과 정확도가 더 높은 것을 알 수 있다. 이후의 실험에서는 추가로 품사의 하위범주화를 통한 새로운 품사 집합을 이용하여 진행하였다.
정영임[13]에서 자연스러운 한국어 운율구 경계를 예측하기 위해 세분화된 문장 성분 간 의존관계를 이용하여 통사구를 추출한 다음, 추출한 통사구의 유형에 따른 운율구 경계 예측 규칙을 수작업으로 구축하였다. 이렇게 구축된 규칙은 특정 언어 자원에 대해 독립적이고 규칙의 정확도도 높다.
new'는 본 논문에서 제안한 강한 운율구 경계로부터 현재 어절까지의 거리이다. 표 7의 실험에서부터는 Ll-CRFs와 L2-CRFs를 사용하였을 때를 비교하고자 두 개의 운율구 경계 예측 모형을 구형하였다. 표 7 의 실험결과에서 알 수 있듯이 강한 운율구 경계로부터 현재 어절까지의 거리를 학습 자질로 이용하는 것이 기존의 거리 정보를 이용한 것보다 더 좋은 결과를 보였다.
품사 정보를 효율적으로 활용하고자 품사의 하위범주화를 통해 선행 연구에서 사용한 품사 집합보다 좀 더 세분화한 품사 집합을 사용하였다. 또한, 어절의 품사 정보를 이용할 때 운율구 경계 예측에 더 많이 관여하는 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다.
앞의 실험과 마찬가지로 학습데이터로 학습한 모형을 평가데이터로 평가하였다. 학습 기법의 차이에서 오는 특성을 배제하고 학습 자질의 효율성만을 분석하고자 김승원[11]에서 제안한 운율구 경계 예측 CRFs 모형과 비교를 하였으며, 규칙 기반 모형과 비교하여 어떠한 차이가 있는지 분석하고자 정영임[13]에서 제안한 규칙 기반 운율구 경계 예측 모형과 비교하였다.

대상 데이터

운율구 경계 분석 말뭉치는 주석자의 개인차가 많이 작용하기 때문에 본 논문에서는 정영임[18]에서 구축한 다수 주석자 간 태깅 일치 신뢰도를 보장한 운율구 경계 분석 말뭉치를 학습데이터와 평가데이터로 이용하였다. 정영임[18]에서는 다수의 주석자가 KBS 뉴스(2005 년 1월~2006년 6월)를 들으면서 해당 스크립트에 운율구 경계를 태깅하였다.
이를 위해 문장의 시작에서부터 현재 어절까지의 거리, 문장 끝에서부터 현재 어절까지의 거리[9], 문장 내에서 현재 어절이 차지하는 위치를 정규화한 수치[10, 11] 등을 학습 자질로 이용하였다. 그러나 2장에서 살펴본 바와 같이 문장의 시작/끝에서부터의 거리나 문장 기호로부터의 거리 정보만으로는 현재 어절 다음에 어떤 운율구 경계가 올지 정확하게 예측하기 어렵다.
품사 정보, 거리 정보, 연어 형성 정보 외에도 어절의 길이가 길면 상대적으로 운율구 경계가 발생할 가능성이 크다는 것을 반영하고자 어절 길이를 학습 자질로 선별하였다. 또한, 앞에서 언급하였듯 인간이 한 번의 호흡에 말할 수 있는 물리적인 조건에 따라 일반적으로 운율구의 길이는 1~4 사이이다[18丄 따라서, 운율구 비경 계가 연속해서 얼마나 나타났는지도 중요한 학습 자질이다.

이론/모형

CRFs는 Ll—CRFs와 L2—CRFs로 나뉘는데 Ll—CRFs 는 정규화 방법으로 라플라시안 사전 지식 (laplacian prior) 을 사용하며, L2-CRFS 는 가우시안 사전 지식 (gaussian prior)을 사용한다. 일반적으로 학습 데이터에 노이즈가 적으면 L2-CRFs가 더 좋은 성능을 보이지만, 학습 데이터에 노이즈가 많으면 Ll-CRFs가 더 좋은 성능을 보인다.
본 논문에서는 가설 검정을 위한 여러 방법 중에서 우도 비 (likelihood i■砒io)를 이용한 가설 검정 방법을 사용하였다. 우도비는 %2 통계치보다 좀 더 해석이 직관적이다, 즉, 하나의 가설이 다른 가설보다 얼마나 더 가능성이 있는지를 보여준다, 또한, 우도비를 이용한 가설 검정 온 ^"test 보다 자료 부족 문제에 더 강하다’
실험을 위해 구축한 운율구 경계 예측 모형은 L2-CRFS 를 이용하였으며, 하이퍼 파라미터 C는 1로 설정하였다. 하이퍼 파라미터의 값이 크면 클수록 학습 데이터에 과적합(overfitting) 하는 경향이 있으므로 실험을 통해 적절한 값을 취하도록 한다.

성능/효과

거리 정보를 이용할 때는 문장의 시작이나 끝에서부터 현재 어절까지의 거리보다는 강한 운율구 경계로부터 현재 어절까지의 거리가 운율구 경계 예측에서 매우 중요한 역할을 한다는 사실 역시 실험을 통해 증명하였다.
또한, 어절의 품사 정보를 이용할 때 운율구 경계 예측에 더 많이 관여하는 첫 형태소와 끝 형태소의 품사 정보만을 이용하였다. 그 결과 선행 연구에서 사용한 품사 정보를 이용하였을 때보다 운율구 경계 예측의 정확도가 더 향상되었다.
그러나 표 9와 표 10의 결과에서 운율구 경계 유형별로 봤을 때, 약한 운율구 경계 예측은 다른 경계 유형과 비교하면 예측 성능이 더 낮았으며, 규칙 기반 모형의 약한 운율구 경계 예측 정확도와 비교하였을 때도 예측성능이 더 낮았다. 이는 약한 운율구 경계가 다른 두 유형보다 화자에 따라 가변적으로 변할 가능성이 크기 때문에 의미 있는 통계 정보가 추출되지 않았기 때문이다.
표 7 의 실험결과에서 알 수 있듯이 강한 운율구 경계로부터 현재 어절까지의 거리를 학습 자질로 이용하는 것이 기존의 거리 정보를 이용한 것보다 더 좋은 결과를 보였다. 또한, L2-CRFS 보다 Ll-CRFs를 이용하였을 때의 결과가 더 좋았다. 이는 약한 운율구 경계가 다른 경계보다 수의적인 경향이 가능하기 때문에 학습 데이터에 노이즈가 많을수록 더 좋은 성능을 보이는 Ll-CRFs를이용한 운율구 경계 예측 모형이 더 높은 정확도를 나타낸 것으로 판단된다.
3의 낮은 정확도 향상을 보였다. 이상의 실험결과를 통해 본 논문에서 제안한 새로운 학습 자질들이 기존의 학습 자질보다 운율구 경계 예측에 대해 더 효율적이라는 것을 확인할 수 있었다.
표 6 에서 확인할 수 있듯이 이전 참조 어절 수가 늘어날수록 정확도가 증가하다가 이전 참조 어절 수가 3 이상일 때부터 정확도가 떨어진다. 이후 참조 어절 수 역시 너무 많은 어절을 참조하기보다는 이후 첫 어절의 품사 정보만을 이용하였을 때 정확도가 가장 높았다. 따라서, 품사 정보를 참조하는 최적의 앞뒤 어절 수는 어절 사이를 기준으로 앞 2어절과 뒤 1어절이다.
이전의 실험들과는 달리 학습데이터를 통해 학습한 모형을 평가데이터를 이용하여 평가하였으며, 운율구 경계 유형별 예측 성능을 비교하고자 정확도 (precision)와 재현율(recall)을 평가 척도로 활용하였다. 전체적으로 나이브 베이즈가 가장 낮은 성능을 보였으며, CRFs가 가장 높은 성능을 보였다. C₄.
표 10의 결과에서 알 수 있둦이 본 논문에서 제안한 새로운 학습 자질로 구축한 CRFs 모형이 기존의 학습자질로 구축한 CRFs 모형과 규칙 기반 모형보다 한국어 운율구 경계 예측에서 더 높은 정확도를 보였다. 그러나 표 9와 표 10의 결과에서 운율구 경계 유형별로 봤을 때, 약한 운율구 경계 예측은 다른 경계 유형과 비교하면 예측 성능이 더 낮았으며, 규칙 기반 모형의 약한 운율구 경계 예측 정확도와 비교하였을 때도 예측성능이 더 낮았다.
단, 어절을 이루는 모든 형태소의 품사 정보를 이용하였다. 표 4의 실험 결과에서 알 수 있듯이 운율구 경계 예측을 위해 추가로 품사의 하위 범주화를 한 결과 정확도가 더 높은 것을 알 수 있다. 이후의 실험에서는 추가로 품사의 하위범주화를 통한 새로운 품사 집합을 이용하여 진행하였다.
어절 사이를 기준으로 품사 정보를 참조하는 앞뒤 어절의 수를 바꾸어 가면서 실험을 진행하였다. 표 5의 실험 결과에서 알 수 있듯이 품사 정보를 이용할 때 어절을 이루는 전체 형태소의 품사 정보를 모두 이용하는 것보다는 어절의 첫 형태소와 끝 형태소의 품사 정보만을 이용하는 것이 운율구 경계 예측을 위해더 효율적이라는 것을 알 수 있다. 이후의 실험에서는 첫 형태소와 끝 형태소의 품사 정보만을 이용하여 실험을 진행하였다.
표 7의 실험에서부터는 Ll-CRFs와 L2-CRFs를 사용하였을 때를 비교하고자 두 개의 운율구 경계 예측 모형을 구형하였다. 표 7 의 실험결과에서 알 수 있듯이 강한 운율구 경계로부터 현재 어절까지의 거리를 학습 자질로 이용하는 것이 기존의 거리 정보를 이용한 것보다 더 좋은 결과를 보였다. 또한, L2-CRFS 보다 Ll-CRFs를 이용하였을 때의 결과가 더 좋았다.

후속연구

이는 약한 운율구 경계가 다른 두 유형보다 화자에 따라 가변적으로 변할 가능성이 크기 때문에 의미 있는 통계 정보가 추출되지 않았기 때문이다. 가변적 운율구 경계 예측을 위해 화자의 발화 특징에 대한 좀 더 다양한 분석이 이루어져야 할 것이다.
앞으로는 규칙 기반 접근법과 통계적 접근법을 결합하여 서로 간의 결점을 보완하는 방법에 대해 연구를 진행할 예정이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

효율적인 기계학습 자질 선별을 통한 한국어 운율구 경계 예측 모델의 성능 향상
Performance Improvement of a Korean Prosodic Phrase Boundary Prediction Model using Efficient Feature Selection 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

효율적인 기계학습 자질 선별을 통한 한국어 운율구 경계 예측 모델의 성능 향상 Performance Improvement of a Korean Prosodic Phrase Boundary Prediction Model using Efficient Feature Selection 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

김민호 (10) 권혁철 (42)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

효율적인 기계학습 자질 선별을 통한 한국어 운율구 경계 예측 모델의 성능 향상
Performance Improvement of a Korean Prosodic Phrase Boundary Prediction Model using Efficient Feature Selection 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper