[논문]HMM 기반 한국어 음성합성에서의 화자적응 방식 성능비교 및 지속시간 모델 개선

이혜민; 김형순

doi:10.13064/ksss.2012.4.3.111

문제 정의

회귀 트리는 SAT 모델 생성에 사용한 문맥정보 및 음성학적 음소분류가 포함된 결정트리를 사용하였으며, 이 때 문턱치는 melgeneralized 켑스트럼, log F0, 지속시간에 대해 각각 100, 1000, 100으로 실험하였다. 본 논문에서는 5분 정도의 적은 적응 데이터에 대해 우수한 화자적응 성능을 얻는 것을 목표로 하여 주관적 평가는 5분의 적응 데이터에 대해서만 평가를 하였으나, 객관적 평가의 경우 5분 이외에 10분 및 30분의 적응 데이터에 대해서도 참고용으로 실험결과를 제시하였다.
본 논문에서는 HMM 기반의 한국어 음성합성에서의 화자적응 성능을 비교하기 위하여 객관적 및 주관적 실험을 수행하였다. 음성 DB로는 (주)보이스웨어에서 제공한 화자 당 약 2시간 30분 정도 분량의 남성 5명과 여성 5명의 데이터 중 각각 4명은 평균음성모델의 훈련에, 그리고 나머지 1명씩을 적응 실험에 사용하였다.
본 논문에서는 HMM기반의 한국어 음성합성에서 기존의 대표적인 화자적응 방식들의 성능을 비교하였다. 그 결과 5분정도의 적은 적응 데이터로 화자적응을 할 경우 CSMAPLR+MAP 방식이 객관적 및 주관적 성능평가에서 가장 좋은 성능을 나타내었다.
본 논문에서는 잘못된 지속시간 모델로 인한 성능저하 현상을 줄이기 위하여 지속시간 교정(duration rectification(DR)) 과 지속시간 보간(duration interpolation(DI)) 방식을 제안한다.
그런데 객관적 성능평가 과정에서 켑스트럼및 F0와 달리 지속시간의 경우 화자적응을 수행해도 평균음성 모델보다도 성능이 개선되지 않는 문제가 관찰되었다. 이러한 문제를 개선하기 위해 본 논문에서는 지속시간 교정 방식과 지속시간 보간 방식을 제안하고 객관적 및 주관적 성능 평가로 검증하였다. 그 결과 지속시간 교정과 보간 방식을 함께 적용한 방식이 기존의 화자적응 방식만을 이용하는 것보다 더 좋은 성능을 나타냄을 확인하였다.

가설 설정

와 같이 표현되며, 각각 평균벡터 μi와 대각 공분산행렬 Σi, 스칼라 평균 mi와 분산 #로 정의되는 Gaussian 분포라 가정한다.

제안 방법

훈련 및 적응 과정은 HTS-2.2를 이용한 STRAIGHT 버전 적응 데모 시나리오[9]를 한국어 음소 특성에 맞추어 question set 및 label 등을 수정하여 사용하였고, 전역 분산(global variance) 은 mel-generalized 켑스트럼에 대해서만 적용하였다.
이를 위해 원음성을 화자종속 모델로 상태 정렬(state alignment) 한 결과를 사용하였다. Mel-generalized 켑스트럼 평가에서 silence와 short pause 구간은 제외시켰고, log F0는 원음성과 합성음 모두 유성음 구간에서만 계산 하였다. 지속시간 평가의 경우에도 RMSE를 이용하되, 원음성의 지속시간을 수작업으로 정확하게 구하기 어려운 점을 고려하여 화자종속 모델로부터 구한 지속시간과 비교하였으며, 역시 silence와 short pause 구간은 제외하였다.
객관적 평가에서 CSMAPLR+MAP와 MLLR 방식이 5분 길이의 적응 데이터에 대해 상대적으로 좋은 성능을 나타내었기 때문에, 이들 두 방식에 대해 주관적 평가를 수행하였다. 주관적 평가를 위해 ABX text를 수행하였으며, 객관적 성능평가에 사용한 30문장 중 10문장을 평가에 사용하였고 청취 평가자의 수는 10명이다.
객관적 평가에서 지속시간 교정과 보간(DR+DI)을 함께 적용한 방식이 가장 좋은 성능을 나타내었기 때문에 기존의 화자적응 방식 중 가장 좋은 성능을 나타낸 CSMAPLR+MAP와 CSMAPLR+MAP에 지속시간 교정과 보간을 함께 적용한 방식에 대해 주관적 성능평가를 수행하였다. 평가방식은 2.
본 논문에서 제안한 방식의 성능을 평가하기 위해서 기존의 화자적응 방식에 지속시간 교정만을 적용한 것과 지속시간 교정과 보간을 함께 적용한 것(DR+DI)에 대해 객관적 성능평가를 수행하였다. 지속시간 보간에서 α 값은 별도의 음성 DB(development set)을 통해 최적화를 해야 하나 본 연구에서는 이러한 DB를 구할 수 없어서 일단 0.
본 논문에서 제안한 지속시간 교정 및 보간 방식의 성능을 평가하기 위해서 객관적 성능평가와 주관적 성능평가를 수행하였으며 실험환경은 2.2절과 동일하다.
본 논문에서는 5분 정도의 적은 적응 데이터에 대해 한국어 HTS의 화자적응 성능을 향상시키기 위해서 먼저 기존 화자적응 방식들을 객관적 및 주관적 성능평가를 통해 비교하였다. 그리고 화자적응 과정에서 지속시간 모델 적응의 문제점을 완화시키기 위해 지속시간 교정(rectification)및 보간 (interpolation) 방식을 제안하고, 객관적 및 주관적 성능평가 결과 음소 지속시간의 화자적응 성능이 향상됨을 확인하였다.
성능평가에서 단순히 대상화자 모델과 화자적응모델 간의 지속시간 오차의 평균이 줄어드는 것도 중요하지만 지속시간 오차가 크게 나타나는 outlier들이 줄어드는 것이 더욱 중요하기 때문에 지속시간 오차의 히스토그램을 구하여 비교하였다. <그림 5>는 CSMAPLR+MAP방식에 지속시간 교정과 보간을 적용한 결과를 지속시간 오차의 히스토그램으로 나타낸 것이다.
지속시간 보간 방식에서 α 값에 따른 성능 특성을 보기 위해 α 값을 변화 시켜가며 지속시간 RMSE와 지속시간 outlier의 비율을 통해 성능을 비교해 보았다.
레이블 정보로는 강제정렬(forced alignment)를 이용한 자동음소분할 정보와 문맥정보(full-context) 20개를 사용하였다. 회귀 트리는 SAT 모델 생성에 사용한 문맥정보 및 음성학적 음소분류가 포함된 결정트리를 사용하였으며, 이 때 문턱치는 melgeneralized 켑스트럼, log F0, 지속시간에 대해 각각 100, 1000, 100으로 실험하였다. 본 논문에서는 5분 정도의 적은 적응 데이터에 대해 우수한 화자적응 성능을 얻는 것을 목표로 하여 주관적 평가는 5분의 적응 데이터에 대해서만 평가를 하였으나, 객관적 평가의 경우 5분 이외에 10분 및 30분의 적응 데이터에 대해서도 참고용으로 실험결과를 제시하였다.

대상 데이터

2를 이용한 STRAIGHT 버전 적응 데모 시나리오[9]를 한국어 음소 특성에 맞추어 question set 및 label 등을 수정하여 사용하였고, 전역 분산(global variance) 은 mel-generalized 켑스트럼에 대해서만 적용하였다. 레이블 정보로는 강제정렬(forced alignment)를 이용한 자동음소분할 정보와 문맥정보(full-context) 20개를 사용하였다. 회귀 트리는 SAT 모델 생성에 사용한 문맥정보 및 음성학적 음소분류가 포함된 결정트리를 사용하였으며, 이 때 문턱치는 melgeneralized 켑스트럼, log F0, 지속시간에 대해 각각 100, 1000, 100으로 실험하였다.
본 논문에서는 HMM 기반의 한국어 음성합성에서의 화자적응 성능을 비교하기 위하여 객관적 및 주관적 실험을 수행하였다. 음성 DB로는 (주)보이스웨어에서 제공한 화자 당 약 2시간 30분 정도 분량의 남성 5명과 여성 5명의 데이터 중 각각 4명은 평균음성모델의 훈련에, 그리고 나머지 1명씩을 적응 실험에 사용하였다. 샘플링 주파수는 16 kHz이며, log F0, 0차를 포함한 39차 mel-generalized 켑스트럼과 5대역 비주기성(aperiodicity) 및 이들의 차분값, 차분-차분값을 이용하였다.
객관적 평가에서 CSMAPLR+MAP와 MLLR 방식이 5분 길이의 적응 데이터에 대해 상대적으로 좋은 성능을 나타내었기 때문에, 이들 두 방식에 대해 주관적 평가를 수행하였다. 주관적 평가를 위해 ABX text를 수행하였으며, 객관적 성능평가에 사용한 30문장 중 10문장을 평가에 사용하였고 청취 평가자의 수는 10명이다.
지속시간 평가의 경우에도 RMSE를 이용하되, 원음성의 지속시간을 수작업으로 정확하게 구하기 어려운 점을 고려하여 화자종속 모델로부터 구한 지속시간과 비교하였으며, 역시 silence와 short pause 구간은 제외하였다. 테스트 문장으로는 훈련과 적응에 사용되지 않은 30문장을 사용하였다.
객관적 평가에서 지속시간 교정과 보간(DR+DI)을 함께 적용한 방식이 가장 좋은 성능을 나타내었기 때문에 기존의 화자적응 방식 중 가장 좋은 성능을 나타낸 CSMAPLR+MAP와 CSMAPLR+MAP에 지속시간 교정과 보간을 함께 적용한 방식에 대해 주관적 성능평가를 수행하였다. 평가방식은 2.2.1절과 마찬가지로 ABX test를 이용하였으며, 객관적 성능평가에 사용한 30문장 중 10문장을 평가에 사용하였고 청취 평가자의 수도 동일하게 10명이다.

데이터처리

객관적 평가에서 원음성과 합성음의 mel-generalized 켑스트럼과 log F0를 비교하기 위하여 평균 mel-generalized 켑스트럼 거리와 log F0의 root mean square error(RMSE)를 이용하였다. 이를 위해 원음성을 화자종속 모델로 상태 정렬(state alignment) 한 결과를 사용하였다.

이론/모형

평균음성모델 생성방법으로는 화자독립(Speaker Independent(SI)) 방식보다 화자적응훈련(Speaker Adaptive Training(SAT)) 방식[4][8]이 화자적응 시 높은 성능을 나타낸다고 알려져 있어서[4], 본 논문에서도 SAT 모델로 실험을 수행하였다. 또한 HTS에서는 상태 지속시간 정보가 중요하기 때문에 상태출력 확률과 상태 지속시간 확률을 함께 훈련하는 Hidden Semi-Markov Model (HSMM)[6]을 이용하여 모델을 생성하고 화자적응을 수행하였다. HSMM에서 상태 i에서의 출력 확률분포 b_i(o)와 지속시간 확률분포 p_i(d)는
MAP 결합 알고리즘은 먼저 선형변환을 통해 화자적응을 하고 충분한 적응 데이터가 있는 모델에 한하여 MAP를 이용하여 재추정하는 방법이다. 본 논문에서는 [4]에서와 같이 CSMAPLR 에 MAP을 결합한 방식을 사용하였다.
이 시스템은 평균음성모델 생성부분(training part), 화자적응 부분(adaptation part), 합성부분(synthesis part)의 세단계로 구성된다. 평균음성모델 생성방법으로는 화자독립(Speaker Independent(SI)) 방식보다 화자적응훈련(Speaker Adaptive Training(SAT)) 방식[4][8]이 화자적응 시 높은 성능을 나타낸다고 알려져 있어서[4], 본 논문에서도 SAT 모델로 실험을 수행하였다. 또한 HTS에서는 상태 지속시간 정보가 중요하기 때문에 상태출력 확률과 상태 지속시간 확률을 함께 훈련하는 Hidden Semi-Markov Model (HSMM)[6]을 이용하여 모델을 생성하고 화자적응을 수행하였다.

성능/효과

<그림 2>는 객관적 평가결과를 나타낸 것이다. 5분 길이의 적응 데이터에 대해 mel-generalized 켑스트럼과 log F0는 CSMAPLR+MAP 방식이 가장 좋은 성능을 나타내었고, 지속시간은 MLLR 방식에서 가장 좋은 성능을 나타내는 것을 확인할 수 있다.
<그림 3>은 주관적 성능 평가 결과를 나타낸 것이다. 객관적 성능평가 결과에서 켑스트럼 및 F0 특성에서 우수한 성능을 나타내었던 CSMAPLR+MAP 방식이 60% 이상의 결과를 얻어 MLLR 방식보다 더 높은 성능을 나타내었다.
<그림 7>은 주관적 성능 평가 결과를 나타낸 것이다. 객관적 성능평가 결과와 마찬가지로 CSMAPLR+MAP에 지속시간 교정과 보간을 함께 적용한 방식이 63%를 얻어 37%인 기존의 CSMAPLR+MAP 방식 보다 높은 성능을 나타내었다
결과를 볼 때, 적응 데이터가 많아질수록 최적의 α 값이 줄어들며 적응 데이터가 적을수록 최적의 α 값이 커지는 경향이 있음을 알 수 있다.
본 논문에서는 HMM기반의 한국어 음성합성에서 기존의 대표적인 화자적응 방식들의 성능을 비교하였다. 그 결과 5분정도의 적은 적응 데이터로 화자적응을 할 경우 CSMAPLR+MAP 방식이 객관적 및 주관적 성능평가에서 가장 좋은 성능을 나타내었다. 그런데 객관적 성능평가 과정에서 켑스트럼및 F0와 달리 지속시간의 경우 화자적응을 수행해도 평균음성 모델보다도 성능이 개선되지 않는 문제가 관찰되었다.
이러한 문제를 개선하기 위해 본 논문에서는 지속시간 교정 방식과 지속시간 보간 방식을 제안하고 객관적 및 주관적 성능 평가로 검증하였다. 그 결과 지속시간 교정과 보간 방식을 함께 적용한 방식이 기존의 화자적응 방식만을 이용하는 것보다 더 좋은 성능을 나타냄을 확인하였다.
본 논문에서는 5분 정도의 적은 적응 데이터에 대해 한국어 HTS의 화자적응 성능을 향상시키기 위해서 먼저 기존 화자적응 방식들을 객관적 및 주관적 성능평가를 통해 비교하였다. 그리고 화자적응 과정에서 지속시간 모델 적응의 문제점을 완화시키기 위해 지속시간 교정(rectification)및 보간 (interpolation) 방식을 제안하고, 객관적 및 주관적 성능평가 결과 음소 지속시간의 화자적응 성능이 향상됨을 확인하였다.
<그림 4>는 화자적응 방식 별 성능평가 결과를 나타낸 것이다. 모든 화자적응 방식에서 지속시간 교정과 보간을 함께 적용한 것(DR+DI)이 가장 좋은 성능을 나타냈다.
이 결과를 와 비교해 보면 켑스트럼과 log F0 관점에서는 화자적응을 통해 성능향상이 이루어진 반면, 지속시간에 대해서는 오히려 대부분의 화자적응 방식이 평균음성모델보다 낮은 성능을 보였으며, 적응 데이터가 늘어나더라도 성능향상이 관찰되지 않았다.
이러한 현상의 원인을 살펴보는 과정에서 양수 값만 가지는 지속시간이 화자적응 이후 간혹 음수로 나타나는 것을 발견하였다. 이는 지속시간 모델이 실수 전체범위에서 정의되는 Gaussian 모델을 사용하기 때문이며[3], 소량의 적응 데이터로 화자적응을 수행하면 회귀 트리로 구한 모델 클러스터에서의 특정 모델에 대해서는 변환행렬이 잘못 추정되기 때문이다.
지속시간 보간 (DI) 방식은 이러한 결과를 바탕으로 SAT 방식에 의한 평균 음성모델과 화자적응모델을 다음 식과 같이 가중치 α 를 이용하여 지속시간 모델을 구함으로써 지속시간 교정 방식의 부족한 부분을 보정해 줄 수 있다.

핵심어	질문	논문에서 추출한 답변
	음성합성이란?	음성합성은 문자를 음성으로 변환하는 기술로, 현재 대용량의 음성 데이터베이스(DB)를 사용하여 높은 음질의 합성음을 생성할 수 있는 코퍼스 기반의 음성합성방식이 주로 사용되고 있다. 이러한 음성합성기술은 우리 생활의 다양한 분야에 사용되고 있으며, 그에 따라 사용자가 원하는 음색의 음성합성 기에 대한 요구도 증가되고 있다.
	코퍼스 기반의 음성합성기를 구현하기 위해서는 무엇이 필요한가?	이러한 음성합성기술은 우리 생활의 다양한 분야에 사용되고 있으며, 그에 따라 사용자가 원하는 음색의 음성합성 기에 대한 요구도 증가되고 있다. 그러나 다양한 음색을 보유한 코퍼스 기반의 음성합성기를 구현하기 위해서는 각 음색에 대한 대용량 DB 작업이 필요하기 때문에, 실제 사용자가 원하는 음색의 합성기를 제공하기는 쉽지 않다.
	음성합성에 화자적응 기법을 이용하면서 어떤 장점을 가지게 되는가?	코퍼스 기반의 음성합성은 대량의 음성파 형을 적절히 가공하여 사용하는 방식이지만, HTS는 음성의 파라미터를 추출하여 이를 통계학적 모델로 변환하는 방식이기 때문에 적은 DB로도 합성기를 만들 수 있으며, 음성 파라미터를 변경함으로써 다양한 형태로 음성 변환이 가능하다는 장점을 가진다. 특히 화자적응을 이용하면 사용자가 원하는 특정 음성에 대한 적은 음성 DB만으로도 다수의 화자로부터 구한 음성 모델을 특정음성 모델로 변환할 수 있다. 이와 같은 장점 때문에 비록 HTS가 코퍼스 기반의 음성합성에 비해 상대적으로 음질이 저하됨에도 불구하고 이에 대한 요구가 늘어나고 있으며 활발한 연구가 진행되고 있다[2].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

HMM 기반 한국어 음성합성에서의 화자적응 방식 성능비교 및 지속시간 모델 개선
Performance Comparison and Duration Model Improvement of Speaker Adaptation Methods in HMM-based Korean Speech Synthesis 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

HMM 기반 한국어 음성합성에서의 화자적응 방식 성능비교 및 지속시간 모델 개선 Performance Comparison and Duration Model Improvement of Speaker Adaptation Methods in HMM-based Korean Speech Synthesis 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

김형순 (72)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

HMM 기반 한국어 음성합성에서의 화자적응 방식 성능비교 및 지속시간 모델 개선
Performance Comparison and Duration Model Improvement of Speaker Adaptation Methods in HMM-based Korean Speech Synthesis 원문보기

AI 본문요약
AI-Helper