[논문]한국어 음성합성기용 끊어읽기 추정기

이정철; 김상훈; 성굉모

문제 정의

본 연구에서는 이에 대한 대안으로서 먼저 실제 발화에서 끊어읽기가 발생하는 요인을 검토하였다. 그리고 이들 요인에 부합하여 안정되게 끊어읽기를 하는 사람이 텍스트에 끊어읽기를 표기하여 다량의 데이터를 확보하였다.
•음운환경과 사회적 관습 (표준어) 의해 기본이 결정되지만 구내 단어간 결합관계에 의해 변화된다. 본 연구에서는 의미구조, 화자의 의도 발화속도와 같은 언어 외적인 요인은 배제하고 구문구조, 단어간 품사 결합 현상 등의 요인을 문장의 끟어읽기에 영향을 미치는 것으로 국한한다. 이 경우 문장내 어절의 품사열과 률적 끊어읽기 분포도를 입력으로 한 NN학습 혹-은 HMM을 이용하여 끊어읽기 위치 및 길이의 추정이 가능함을알 수 있다[10-13].
이 경우 문장내 어절의 품사열과 률적 끊어읽기 분포도를 입력으로 한 NN학습 혹-은 HMM을 이용하여 끊어읽기 위치 및 길이의 추정이 가능함을알 수 있다[10-13]. 그러므로 여기서는 이들 요인을 기준으로 하여 문장의 끊어읽기 추정기를 작성하고, 8,693 문장의 텍스트 데이타에 수작업으로 기록한 끊어읽기 정보를 대상으로 NN학습과 HMM추정결과를 비교 검토하여 음성합성기에 활용, 합성음의 자연성을 개선하고자 한다.
또 문형, 문장의 길이, 의미구조, 구문구조, 화자의 의도 발화속도에 따라 끊어읽기가 달라지므로 실제 발화에서 나타나는 끊어읽기와 수작업 결과가 일치하지 않는단점이 있지만 이들 문제를 통계적 분석방법으로 해소하고자 한다. 표 1에 대표적 품사별 끊어읽기 종류에 따른빈도를 나타내었다.
NN을 학습하는데 있어서 그 목적은 입력된 품사열 정보를 이용하여 target 어절 뒤에 올 juncture type을 예측하는데 있다. 이 목적을 위해서 방법 1에서는 연속되는 5

가설 설정

그리고 이들 요인에 부합하여 안정되게 끊어읽기를 하는 사람이 텍스트에 끊어읽기를 표기하여 다량의 데이터를 확보하였다.이를 위해서 우리는 다음을 가정하였다. 발성자가 자신의의사를 표현하고자 할 때 먼저 의미구조를 형성하고, 이를 전달하기에 적합한 단어들을 선택하며, 단어들의 연결이 자연스러운 구문구조를 작성한 뒤, 조음기관을 이용하여 음절단위로 발성하며 조음기관의 물리적 제약을 받게된다.
•숨쉬기는 문장, 절, 분리도가 높은 구의 경계에서 일어난다.
• 자연스러운 숨쉬기는 그 의미적 경계가 뚜렷한 경우를 기준하여 일어난다.
•음운환경과 사회적 관습 (표준어) 의해 기본이 결정되지만 구내 단어간 결합관계에 의해 변화된다. 본 연구에서는 의미구조, 화자의 의도 발화속도와 같은 언어 외적인 요인은 배제하고 구문구조, 단어간 품사 결합 현상 등의 요인을 문장의 끟어읽기에 영향을 미치는 것으로 국한한다.
• 어절과 어절사이에 끊어읽기가 존재한다고 가정한다. 끊어읽기 유형은 단순하게는 NB (no break), B (break)의2가지로 둘 수 있으며, NB, SB, MB, LB의 4가지 혹은그 이상으로 둘 수 있다.

제안 방법

본 연구에서는 이에 대한 대안으로서 먼저 실제 발화에서 끊어읽기가 발생하는 요인을 검토하였다. 그리고 이들 요인에 부합하여 안정되게 끊어읽기를 하는 사람이 텍스트에 끊어읽기를 표기하여 다량의 데이터를 확보하였다.이를 위해서 우리는 다음을 가정하였다.
이상의 관찰 결과 끊어읽기 유형을 결정짓는데 있어서품사정보에 따른 규칙성이 보이지만 표충에 보이는 단일혹은 bigram를 이용하는 것은 부적절함올 알 수 있다. 이에 다수 어절에 대한 품사열 정보와 끊어읽기 유형을 지식기반으로 한 NN학습과 발생 및 천이 확률 모델을 이용한 HMM 방식의 끊어읽기 유형을 추정을 시도하였다.

대상 데이터

본 연구에서 사용한 텍스트 데이터는 58개의 품사set을 이용하여 형태소 단위로 태깅된 8,693 문장으로 구성되어 있다. 전체 단어의 수는 114,199개이며 각 단어에 대한 형태소 분리 및 품사 할당은 실에서 보유중인 품사추정기의 결과를 토대로 수작업으로 보완한 것이다.
각 어절에 대한 품사보의 입력은 58개의 입력 벡터중 해당되는 위치가 ON,그 외는 OFF되는 sparse 방법을 사용한다. 그리고 부가적입력조건으로 문장내 어절수, 문장내 위치, 어절별 음절수를 입력 데이터로 사용하였다. 출력은 NB, SB.

이론/모형

•문장 전체에 대한 끊어읽기 유형의 선정은 Viterbi 탐색 방법을 이용하여 최적 끊어읽기 type열을 선택한다.
즉 target 어절을 중심으로 선행 2어절, 후행 2어절의 품사 정보를 입력으로 한다. 각 어절에 대한 품사보의 입력은 58개의 입력 벡터중 해당되는 위치가 ON,그 외는 OFF되는 sparse 방법을 사용한다. 그리고 부가적입력조건으로 문장내 어절수, 문장내 위치, 어절별 음절수를 입력 데이터로 사용하였다.

성능/효과

표 2에 대표적인 품사 bigram에 따른 끊어읽기의 유형과 빈도수의 일예를 나타내었다. 표에서 알 수 있듯이 단일 어절의 품사정보로 끊어읽기 유형을 예측하는 것보다는 bigram을 사용하는 것이 더 좋은 결과를 얻을 수 있을 것이라는 것을 짐작할 수 있다. 그러나 여전히 판정의모호성이 해결되지 않음을 알 수 있다.
이상의 관찰 결과 끊어읽기 유형을 결정짓는데 있어서품사정보에 따른 규칙성이 보이지만 표충에 보이는 단일혹은 bigram를 이용하는 것은 부적절함올 알 수 있다. 이에 다수 어절에 대한 품사열 정보와 끊어읽기 유형을 지식기반으로 한 NN학습과 발생 및 천이 확률 모델을 이용한 HMM 방식의 끊어읽기 유형을 추정을 시도하였다.
• 상태 천이확률: 선행되는 5개의 juncture 열에서 targetstate가 NB, SB, MB 혹은 LB의 끊어읽기로 천이할 확률한국어 품사셋과 4종류의 끊어읽기 유형을 이용하여끙어읽기 유형별 tri-gram품사열을 조사한 결과 18,048 종류가 발견되었고, hexa-gram 천이확률은1,800 종류가 되었다. 이를 이용한 끊어읽기 추정 결과에 따른 confusionmatrix를 표 3에 나타내었다.
이를 이용한 끊어읽기 추정 결과에 따른 confusion matrix를 표 4에 나타내었다. 3-2방법이 어절의 끝형태소의 품사열을 이용하는 3-1 방법에 비해 추정성능이 7%~22%향상되었다. 즉 어절간 결합관계를 활용할 수 있는 구조를 사용함으로써 추정의 정확도가 향상됨을 알 수 있다.
3-2방법이 어절의 끝형태소의 품사열을 이용하는 3-1 방법에 비해 추정성능이 7%~22%향상되었다. 즉 어절간 결합관계를 활용할 수 있는 구조를 사용함으로써 추정의 정확도가 향상됨을 알 수 있다.
표 5의 결과를 보면 NB의 경우 98%의 정확도를 보이고, LB의 경우는 HMM방식과 비슷하여 회망적이지만,SB와 MB의 경우는 NB로 오판하는 경우가 많으며 성공률은 20% 내외로서 학습이 실패함올 알 수 있다. 특히LB의 경우는 대다수의 경우가 문장의 끝으로 특정한 품사열의 패턴이 형성되므로 학습의 성능이 높아지는 경향이 있다.
NN 학습방법1의 결과에 비해 성능이 3-4% 정도 향상되지만 여전히 HMM에 비해서 성능에 큰 차이를 보이고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 한국어 음성합성기용 끊어읽기 추정기
Pause Predictor for Korean Text-to-Speech conversion 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 한국어 음성합성기용 끊어읽기 추정기 Pause Predictor for Korean Text-to-Speech conversion 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

저자의 다른 논문 :

김상훈 (13) 성굉모 (67)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 한국어 음성합성기용 끊어읽기 추정기
Pause Predictor for Korean Text-to-Speech conversion 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper