[논문]문자-음성 합성기의 데이터 베이스를 위한 문맥 적응 음소 분할

이기승; 김정수

문제 정의

이러한 경험적인 분류 기법은 대상 언어에 대한 사전 지식이 필요하며, 음소 전이 패턴의 분류와 신경망의 학습이 독립적으로 이루어지므로 획득듼 신경망이 학습 데이터에 대해 최적의 신경망을 보장하기는 못한다고 볼 수 있다. 따라서 본 논문에서는 언어에 개한 사전 지식 없이, 최소 추정 오차 면에서 최적의 성능을 나타낼 수 있는 분류 신경망을 자동적으로 구성하는 알고리즘을 제안하였다.
이러한 경험적인 분류 기법은 대상 언어에 대한 사전 지식이 필요하며, 음소 전이 패턴의 분류와 신경망의 학습이 독립적으로 이루어지므로 획득듼 신경망이 학습 데이터에 대해 최적의 신경망을 보장하기는 못한다고 볼 수 있다. 따라서 본 논문에서는 언어에 개한 사전 지식 없이, 최소 추정 오차 면에서 최적의 성능을 나타낼 수 있는 분류 신경망을 자동적으로 구성하는 알고리즘을 제안하였다.
에러 역전파 알고리즘은 MLP를 구성하는 각 가중치를 출력단에서의 에러가 최소화되도록 반복적으로 수정하는 방법이다. 본 논문에서는 음소 경계에서 강조된 에러를 갖도록 출력단에서의 에러 가중치를 적응적으로 조정하였다. 즉 心의목표 출력이 1 (음소 경계)이고, 실제 MLP의 출력이 0.
본 논문에서는 음성합성기의 방대한 데이터 베이스 구성에 유용하게 이용될 수 있는 자동 음소 분할의한 기법을 제안하고 성능을 평가하였다. 제안된 기법은 은닉마코프 모델을 이용한 통계적인 분할 방법에 따라 1차적으로 음소 경계를 추정하고, 여기서 얻어진 음소 경계를 좌, 우로 미소하게 이동시켜 수동 레이블링에 의한 음소 경계와 더욱 가까운 음소 경계를 얻도록 하였다.
에러 역전파 알고리즘은 MLP를 구성하는 각 가중치를 출력단에서의 에러가 최소화되도록 반복적으로 수정하는 방법이다. 본 논문에서는 음소 경계에서 강조된 에러를 갖도록 출력단에서의 에러 가중치를 적응적으로 조정하였다. 즉 心의목표 출력이 1 (음소 경계)이고, 실제 MLP의 출력이 0.
본 논문에서는 음소 전이 패턴의 분류를 신경망의 학습과정에서 얻을 수 있는 새로운 신경망 학습 알고리즘을제안하였다. 제안된 방법은 사용자가 신경망의 개수만을지정하면, 음소 전이 패턴을 자동적으로 분할하고, 각각의 분류 패턴에 대해 최적의 신경망이 구성되도록 하였다.
본 논문에서는 음소 전이 패턴의 분류를 신경망의 학습과정에서 얻을 수 있는 새로운 신경망 학습 알고리즘을제안하였다. 제안된 방법은 사용자가 신경망의 개수만을지정하면, 음소 전이 패턴을 자동적으로 분할하고, 각각의 분류 패턴에 대해 최적의 신경망이 구성되도록 하였다.
위와 같은 최소화 문제를 해결하기 위해, 본 논문에서는 다음과 같은 반복 추정 알고리즘을 제안하였다. 제안된 알고리즘은 그림 4에 제시된 바와 같이, 초기 신경망 집합을 이용하여 학습 데이터를 오차가 가장 작도록 분류하며, 동일하게 분류된 학습 데이터들만으로 새롭게 신경망을 학습시킨다.
위와 같은 최소화 문제를 해결하기 위해, 본 논문에서는 다음과 같은 반복 추정 알고리즘을 제안하였다. 제안된 알고리즘은 그림 4에 제시된 바와 같이, 초기 신경망 집합을 이용하여 학습 데이터를 오차가 가장 작도록 분류하며, 동일하게 분류된 학습 데이터들만으로 새롭게 신경망을 학습시킨다.

가설 설정

같다. K : 전체 신경망의 개수 (분류 패턴의 개수).
같다. K : 전체 신경망의 개수 (분류 패턴의 개수).
음소가 전이 (transition) 되는 부분에서의 스펙트럼 특성은 전이되는음소의 패턴에 따라 다르게 나타나는 것으로 가정할 수 있다. 즉 무성 자음에서 유성 모음으로 전이되는 영역에서는 스펙트럼의 불연속성이 강하게 나타나며, 이에 따라MFCC의 변화량, SFTR같은 변수도 큰 값을 갖게 된다.
음소가 전이 (transition) 되는 부분에서의 스펙트럼 특성은 전이되는음소의 패턴에 따라 다르게 나타나는 것으로 가정할 수 있다. 즉 무성 자음에서 유성 모음으로 전이되는 영역에서는 스펙트럼의 불연속성이 강하게 나타나며, 이에 따라MFCC의 변화량, SFTR같은 변수도 큰 값을 갖게 된다.

제안 방법

HMM을 구성하는 변수인 스테이트 수, 혼합 가우 시안 모델에서 단일 가우 시안함수의 개수등은수차례의 실험을 통해 결정하였다. 몇몇 실험에 의하면, 단일 화자 (shaker)만을 대상으로 하는 음소 레이블링과 같은 응용에서는 각 스테이트의 확률 밀도 함수를 단일 가우시안함工만을 사용해도 충분하다고 보고하였으나, 본 논문에서 수행한 실험 결과에 따르면 단일 가우시안 함수를 사용한 경우가 혼합 가우 시안을 사용한 경우에 비해 성능 저하가 비교적 크게 나타나는 것이 관찰되었다.
HMM을 구성하는 변수인 스테이트 수, 혼합 가우 시안 모델에서 단일 가우 시안함수의 개수등은수차례의 실험을 통해 결정하였다. 몇몇 실험에 의하면, 단일 화자 (shaker)만을 대상으로 하는 음소 레이블링과 같은 응용에서는 각 스테이트의 확률 밀도 함수를 단일 가우시안함工만을 사용해도 충분하다고 보고하였으나, 본 논문에서 수행한 실험 결과에 따르면 단일 가우시안 함수를 사용한 경우가 혼합 가우 시안을 사용한 경우에 비해 성능 저하가 비교적 크게 나타나는 것이 관찰되었다.
MLP를 구성하는 요소로서 계층 (layer)의 개수 각 계층에서의 노드수, 노드에 대한 비선형 함수의 종류등을들 수 있는데, 이들 변수들은 수학적인 분석에 의해 최적의 값을 찾을 수 없으므로 본 논문에서는 수 차례의 실험을통해 최적의 값을 찾도록 하였다. 실험적인 결과에 의하면 계층의 수는 1개의 은닉 계층 (瓦dden layer)을 포함된 경우가 1개 이상의 은닉 계층이 포함된 경우와 비교하여 큰 차이를 나타내지 않았으며, 따라서 계산량을 절감할 수 있는 [개의 은닉 계층을 갖는 MLP가 본 논문에서사용되었다.
MLP를 구성하는 요소로서 계층 (layer)의 개수 각 계층에서의 노드수, 노드에 대한 비선형 함수의 종류등을들 수 있는데, 이들 변수들은 수학적인 분석에 의해 최적의 값을 찾을 수 없으므로 본 논문에서는 수 차례의 실험을통해 최적의 값을 찾도록 하였다. 실험적인 결과에 의하면 계층의 수는 1개의 은닉 계층 (瓦dden layer)을 포함된 경우가 1개 이상의 은닉 계층이 포함된 경우와 비교하여 큰 차이를 나타내지 않았으며, 따라서 계산량을 절감할 수 있는 [개의 은닉 계층을 갖는 MLP가 본 논문에서사용되었다.
이중 SFIRe 스펙트럼의 변화 정도를 반영하는 변수로, 음성 신호의 시간축분할 (temporal decomposition) 기법에 사용되고 있으몌12], 단 구간 영 교차율은 무성 자음과 유성 모음간의 구분을 용이하게 하는 변수라는 점을 감안하여 포함되었다. SKLD는 Klabber 등의 연구에서 음 소경 계면에서의 청각적인 이질감을 가장 잘 표현하는 변수로 알려져 있으몌 13], 따라서 청각적인 상이성에 따라 음소 경계를 구분 짓는 수동 레이블링과 근접한 결과를 얻는데 유익한 변수로 간주되어 신경망의 특징변수로 이용하였다.
이중 SFIRe 스펙트럼의 변화 정도를 반영하는 변수로, 음성 신호의 시간축분할 (temporal decomposition) 기법에 사용되고 있으몌12], 단 구간 영 교차율은 무성 자음과 유성 모음간의 구분을 용이하게 하는 변수라는 점을 감안하여 포함되었다. SKLD는 Klabber 등의 연구에서 음 소경 계면에서의 청각적인 이질감을 가장 잘 표현하는 변수로 알려져 있으몌 13], 따라서 청각적인 상이성에 따라 음소 경계를 구분 짓는 수동 레이블링과 근접한 결과를 얻는데 유익한 변수로 간주되어 신경망의 특징변수로 이용하였다.
Error; MAE)를 사용하였다. 또한, 수동 레이블과비고하여 20 msec 이내의 경계 오차를 갖는 자동 레이블링 된 음소에 대해서는 합성음의 품질이 크게 저하되지 않는다는 실험적인 경험을 바탕으로, 20 msec 이내의 경계 오차를 갖는 음소 경계가 전체 음소 경계 중 몇 %를차지하는가를 조사하였다.
HMM에 의해 얻어진 음소 경계는 다음단의 수정 알고리즘 (refinement algorithm)에 의해 수작업에 의해 얻어진 음소 경계와 더욱 가까워지도록 재조정된다. 본 논문에서는 신경망 (Neural Network)의 일종인다층 퍼셉트론 (Multi-Layer Perceptron; MLP)에 의해음소 경계를 수정하도록 하였다. 각 단계를 자세히 살펴보면 다음과 같다.
HMM에 의해 얻어진 음소 경계는 다음단의 수정 알고리즘 (refinement algorithm)에 의해 수작업에 의해 얻어진 음소 경계와 더욱 가까워지도록 재조정된다. 본 논문에서는 신경망 (Neural Network)의 일종인다층 퍼셉트론 (Multi-Layer Perceptron; MLP)에 의해음소 경계를 수정하도록 하였다. 각 단계를 자세히 살펴보면 다음과 같다.
반대로 추정 구간이 너무 작은 경우에는 수정된 음소 경계가 HMM 음소경계에 지나치게 의존적이라는 문제점이 발생한다. 본논문에서는 이와 같은 문제를 해결하기 위하여 그림 3에서와같이 HMM에 의해 1차적으로 추정된 음소 경계를 기준으로, 좌, 우 음소 길이의 1/3 되는 길이 만큼을 좌, 우이동시켜 가면서, MLP의 출력을 구하고, 이 출력값이최대가 되는 지점을 수정된 음소 경계로 간주하였다. 이와 같은 제한된 탐색 방법은 전 영역 탐색 방법에 비해계산량을 줄일 수 있으며, 앞서 언급한 바와 같이 MLP의이상 출력으로 인한 영향을 억제할 수 있는 장점을 갖는다.
반대로 추정 구간이 너무 작은 경우에는 수정된 음소 경계가 HMM 음소경계에 지나치게 의존적이라는 문제점이 발생한다. 본논문에서는 이와 같은 문제를 해결하기 위하여 그림 3에서와같이 HMM에 의해 1차적으로 추정된 음소 경계를 기준으로, 좌, 우 음소 길이의 1/3 되는 길이 만큼을 좌, 우이동시켜 가면서, MLP의 출력을 구하고, 이 출력값이최대가 되는 지점을 수정된 음소 경계로 간주하였다. 이와 같은 제한된 탐색 방법은 전 영역 탐색 방법에 비해계산량을 줄일 수 있으며, 앞서 언급한 바와 같이 MLP의이상 출력으로 인한 영향을 억제할 수 있는 장점을 갖는다.
여기서 구한 왜곡 값과 이전의 왜곡 값 간의 변화율을 구하여 이 변화율을 문턱치와 비교한다. 즉 (玖t —“.
제안된 알고리즘은 그림 4에 제시된 바와 같이, 초기 신경망 집합을 이용하여 학습 데이터를 오차가 가장 작도록 분류하며, 동일하게 분류된 학습 데이터들만으로 새롭게 신경망을 학습시킨다. 여기서 구성된 신경망 집합을 다시 분류에 사용하여 이러한 과정을 반복적으로 수행하여 최종적인 신경망 집합을 구성한다.
제안하고 성능을 평가하였다. 제안된 기법은 은닉마코프 모델을 이용한 통계적인 분할 방법에 따라 1차적으로 음소 경계를 추정하고, 여기서 얻어진 음소 경계를 좌, 우로 미소하게 이동시켜 수동 레이블링에 의한 음소 경계와 더욱 가까운 음소 경계를 얻도록 하였다. 음소 경계의 수정에는 비선형 대응 관계를 표현하는 신경 회로망이 이용되었으며, 음소전이 패턴에 따라 적응적인 신경망이 사용될 수 있는 기법이 제안되었다.
여기서 "최적”의 신경망은 추정된 음소 경계와 수작업 레이블링에 의해 얻어진 음소 경계 간의 전체 자승 오차가 최소화 되는 관점에서의 "최적”을 의미한다. 제안된기법의 성능 평가를 위해 신경망에 의해 수정된 음소 경계와 수작업 음소 경계 간의 전체적인 오차를 계산하였으며 수동 레이블링 작업의 대치 가능성을 알아보기 위해전체 음소 중 몇 개의 음소가 음질 적인 저하가 일어나지않는 범위내에서 음소 분할이 이루어지는가를 조사하였다. 본논문의 구성은 다음과 같다.
제안된 방법은 사용자가 신경망의 개수만을지정하면, 음소 전이 패턴을 자동적으로 분할하고, 각각의 분류 패턴에 대해 최적의 신경망이 구성되도록 하였다. 여기서 "최적”의 신경망은 추정된 음소 경계와 수작업 레이블링에 의해 얻어진 음소 경계 간의 전체 자승 오차가 최소화 되는 관점에서의 "최적”을 의미한다.
제안된 방법은 사용자가 신경망의 개수만을지정하면, 음소 전이 패턴을 자동적으로 분할하고, 각각의 분류 패턴에 대해 최적의 신경망이 구성되도록 하였다. 여기서 "최적”의 신경망은 추정된 음소 경계와 수작업 레이블링에 의해 얻어진 음소 경계 간의 전체 자승 오차가 최소화 되는 관점에서의 "최적”을 의미한다.
제안된 알고리즘은 그림 4에 제시된 바와 같이, 초기 신경망 집합을 이용하여 학습 데이터를 오차가 가장 작도록 분류하며, 동일하게 분류된 학습 데이터들만으로 새롭게 신경망을 학습시킨다. 여기서 구성된 신경망 집합을 다시 분류에 사용하여 이러한 과정을 반복적으로 수행하여 최종적인 신경망 집합을 구성한다.
여기서 "최적”의 신경망은 추정된 음소 경계와 수작업 레이블링에 의해 얻어진 음소 경계 간의 전체 자승 오차가 최소화 되는 관점에서의 "최적”을 의미한다. 제안된기법의 성능 평가를 위해 신경망에 의해 수정된 음소 경계와 수작업 음소 경계 간의 전체적인 오차를 계산하였으며 수동 레이블링 작업의 대치 가능성을 알아보기 위해전체 음소 중 몇 개의 음소가 음질 적인 저하가 일어나지않는 범위내에서 음소 분할이 이루어지는가를 조사하였다. 본논문의 구성은 다음과 같다.
학습 데이터에 포함되지 않은 문장에 대한 성능 평가를 위해 1,000개의 문장은 500개의 문장을 갖는 두 개의 세트로 구분되어 각 세트는 신경망의 학습, 테스트에 사용되었다. 테스트 데이터들은 다음의 4가지 방법에 의해 음소 분할한 후, 각 방법 간의 비교를 통해 제안 방법의 성능을 평가하였다.

대상 데이터

MLP의 입력 변수로는 HMM에서 사용된 13개의 MFCC 와 함께, 인접한 두 개의 프레임에서 계산된 스펙트럼 특징변수의 변화율 (Spectral Feature Transition Rate; SFTR)[12], 단구간 영 교차율 (Short-Time Zero Crossing Rate; ZCR), 대칭 컬백-라비블러 거리 (Symmetrical Kullback-Leibler Distance; SKLD)[13]가 사용되었다. 이중 SFIRe 스펙트럼의 변화 정도를 반영하는 변수로, 음성 신호의 시간축분할 (temporal decomposition) 기법에 사용되고 있으몌12], 단 구간 영 교차율은 무성 자음과 유성 모음간의 구분을 용이하게 하는 변수라는 점을 감안하여 포함되었다.
따라서 HMM의 생성을 위한 학습 데이터는 74개의 음소들로 레이블 되어 있다. 본 논문에서 사용된 HMMe 전형적인좌-우 모델 (left-to-right model)이 사용되었으며, 각 스테이트에 대한 확률 밀도 함수는 혼합 가우시안 함수를 사'号하였다.
본 논문에서 사용한 음성 합성기에서는 49개의 단음소 (monophone), 23개의 이중 음소 (diphone), 1개의 묵음 (silence)와 1개의 단묵음 (short-pause) 포함하는 총 74 개의 음소를 음성 합성의 기본 단위로 사용하였다. 따라서 HMM의 생성을 위한 학습 데이터는 74개의 음소들로 레이블 되어 있다.
본 논문에서 사용한 음성 합성기에서는 49개의 단음소 (monophone), 23개의 이중 음소 (diphone), 1개의 묵음 (silence)와 1개의 단묵음 (short-pause) 포함하는 총 74 개의 음소를 음성 합성의 기본 단위로 사용하였다. 따라서 HMM의 생성을 위한 학습 데이터는 74개의 음소들로 레이블 되어 있다.
최적의 값을 찾도록 하였다. 실험적인 결과에 의하면 계층의 수는 1개의 은닉 계층 (瓦dden layer)을 포함된 경우가 1개 이상의 은닉 계층이 포함된 경우와 비교하여 큰 차이를 나타내지 않았으며, 따라서 계산량을 절감할 수 있는 [개의 은닉 계층을 갖는 MLP가 본 논문에서사용되었다. 또한은닉 계층에서의 노드 수는 15개로 설정하였는데 이 값 또한 실험을 통해 결정하였다.
최적의 값을 찾도록 하였다. 실험적인 결과에 의하면 계층의 수는 1개의 은닉 계층 (瓦dden layer)을 포함된 경우가 1개 이상의 은닉 계층이 포함된 경우와 비교하여 큰 차이를 나타내지 않았으며, 따라서 계산량을 절감할 수 있는 [개의 은닉 계층을 갖는 MLP가 본 논문에서사용되었다. 또한은닉 계층에서의 노드 수는 15개로 설정하였는데 이 값 또한 실험을 통해 결정하였다.
이 음성 데이터는 55, 250개의 음소 경계를 포함하며, 신경망의 학습에는 총 476, 902개의 학습 데이터가 사용되었다. 학습 데이터에 포함되지 않은 문장에 대한 성능 평가를 위해 1,000개의 문장은 500개의 문장을 갖는 두 개의 세트로 구분되어 각 세트는 신경망의 학습, 테스트에 사용되었다.
제안된 기법의 검증을 위한 음성 데이터로, 사용된 음성 합성기의 데이터베이스로부터 1,000개의 문장을 사용하였다. 이 음성 데이터는 55, 250개의 음소 경계를 포함하며, 신경망의 학습에는 총 476, 902개의 학습 데이터가 사용되었다.
본 논문에서 사용된 HMMe 전형적인좌-우 모델 (left-to-right model)이 사용되었으며, 각 스테이트에 대한 확률 밀도 함수는 혼합 가우시안 함수를 사'号하였다. 즉 연속 관찰 HMM (continuous observation H珏M)이 사용되었다. 특징 변수로는 13개의 MFCC (Mel Frequency Cepstrum Coefficient)^]-13개의 차분-MFCC (delta MFCC), 13개의 차분-차분-MFCC (delta-delta MFCC)를 포함하는 총 39개의 변수가 사용되었다.
즉 연속 관찰 HMM (continuous observation H珏M)이 사용되었다. 특징 변수로는 13개의 MFCC (Mel Frequency Cepstrum Coefficient)^]-13개의 차분-MFCC (delta MFCC), 13개의 차분-차분-MFCC (delta-delta MFCC)를 포함하는 총 39개의 변수가 사용되었다. 이들 특상 변수는 25 msec의 길이를 갖는 헤밍 창함수 (hammi ig window)를 10 msec마다 이동 시켜 가며 계산된다.
즉 연속 관찰 HMM (continuous observation H珏M)이 사용되었다. 특징 변수로는 13개의 MFCC (Mel Frequency Cepstrum Coefficient)^]-13개의 차분-MFCC (delta MFCC), 13개의 차분-차분-MFCC (delta-delta MFCC)를 포함하는 총 39개의 변수가 사용되었다. 이들 특상 변수는 25 msec의 길이를 갖는 헤밍 창함수 (hammi ig window)를 10 msec마다 이동 시켜 가며 계산된다.
이 음성 데이터는 55, 250개의 음소 경계를 포함하며, 신경망의 학습에는 총 476, 902개의 학습 데이터가 사용되었다. 학습 데이터에 포함되지 않은 문장에 대한 성능 평가를 위해 1,000개의 문장은 500개의 문장을 갖는 두 개의 세트로 구분되어 각 세트는 신경망의 학습, 테스트에 사용되었다. 테스트 데이터들은 다음의 4가지 방법에 의해 음소 분할한 후, 각 방법 간의 비교를 통해 제안 방법의 성능을 평가하였다.

데이터처리

성능 평가를 위한 척도로는 본 논문의 주된 목적이 자동 레이블링 된 결과가 수동 레이블링의 결과와 되도록 유사하드록 하는 것이므로, 자동 레이블링의 음소 경계와 수동 데이블링 음소 경계 간의 제곱근 평균 자승 오차 (Root Mean Square Error; RMSE), 평균 절대 오차 (Mean Absolute Error; MAE)를 사용하였다. 또한, 수동 레이블과비고하여 20 msec 이내의 경계 오차를 갖는 자동 레이블링 된 음소에 대해서는 합성음의 품질이 크게 저하되지 않는다는 실험적인 경험을 바탕으로, 20 msec 이내의 경계 오차를 갖는 음소 경계가 전체 음소 경계 중 몇 %를차지하는가를 조사하였다.

이론/모형

MLP의 입력 변수로는 HMM에서 사용된 13개의 MFCC 와 함께, 인접한 두 개의 프레임에서 계산된 스펙트럼 특징변수의 변화율 (Spectral Feature Transition Rate; SFTR)[12], 단구간 영 교차율 (Short-Time Zero Crossing Rate; ZCR), 대칭 컬백-라비블러 거리 (Symmetrical Kullback-Leibler Distance; SKLD)[13]가 사용되었다. 이중 SFIRe 스펙트럼의 변화 정도를 반영하는 변수로, 음성 신호의 시간축분할 (temporal decomposition) 기법에 사용되고 있으몌12], 단 구간 영 교차율은 무성 자음과 유성 모음간의 구분을 용이하게 하는 변수라는 점을 감안하여 포함되었다.
각 음소에 대한 HMM의 생성, 온라인 과정에서의 음소얼라인먼트는 MS (Microsoft)사의 HTK (Hidden Markov Moiel Tool Kit)을 사용하였다.
각 음소에 대한 HMM의 생성, 온라인 과정에서의 음소얼라인먼트는 MS (Microsoft)사의 HTK (Hidden Markov Moiel Tool Kit)을 사용하였다.
따라서 HMM의 생성을 위한 학습 데이터는 74개의 음소들로 레이블 되어 있다. 본 논문에서 사용된 HMMe 전형적인좌-우 모델 (left-to-right model)이 사용되었으며, 각 스테이트에 대한 확률 밀도 함수는 혼합 가우시안 함수를 사'号하였다. 즉 연속 관찰 HMM (continuous observation H珏M)이 사용되었다.
본 논문에서 사용된 HMM은 전형적인 좌一우 모델 (left-to-right model)이 사용되었으며, 각 스테이트에 대한 확률 밀도 함수는 혼합 가우시안 함수를 사용하였다.
신경망의 학습에는 에러 역전파 알고리즘 (error-propagation algorithm) [14]°] 사용되었다.
신경망의 학습에는 에러 역전파 알고리즘 (error-propagation algorithm) [14]°] 사용되었다. 에러 역전파 알고리즘은 MLP를 구성하는 각 가중치를 출력단에서의 에러가 최소화되도록 반복적으로 수정하는 방법이다.

성능/효과

이는 신경망이 음소 경계의 검출에 유용하게사용될 수 있음을 의미흐}는 것이다. 단일 신경망의 사용과 복수 신경망을 사용하는 경우와의 비교는 복수 신경망의 사용이 더욱 향상된 결과를 얻는 것으로 관찰되었으며, 신경망의 학습 과정에서 음소 전이 패턴을분류하고 적절한 신경망을 구성하는 제안된 기법이 경험적인 방법에 의해 복수 신경망을 학습 시 키는 방법보다 근소하게 우수한 성능을 나타내고 있다. 두 기법간의 성능 비교에서 RMSE와 MAE는 근소한 차이를 보이지만, 20 msec 이내의 경계 오차를 갖는 음소의 비율에 있어서는 제안된 기 법 이 2.
단일 신경망의 사용과 복수 신경망을 사용하는 경우와의 비교는 복수 신경망의 사용이 더욱 향상된 결과를 얻는 것으로 관찰되었으며, 신경망의 학습 과정에서 음소 전이 패턴을분류하고 적절한 신경망을 구성하는 제안된 기법이 경험적인 방법에 의해 복수 신경망을 학습 시 키는 방법보다 근소하게 우수한 성능을 나타내고 있다. 두 기법간의 성능 비교에서 RMSE와 MAE는 근소한 차이를 보이지만, 20 msec 이내의 경계 오차를 갖는 음소의 비율에 있어서는 제안된 기 법 이 2.2% 높은 값을 갖음을 알 수 있다. 이를 사용된 전체 음소 갯수로 환산하면 1215개의 음소에 해당되며, 따라서 음질 적인 저하를 일으킬 수 있는음소의 빈도가 제안된 기법을 통해 상당수 감소되 었음을 의미한다.
따라서 본 논문에서 제안된 기법은 개발 시간의 지연, 비용 상승, 음소경계의 일관성 부족이라는수동레이블링의 문제점을 효과적으로 해결해줄 수 있을 것으로 판단된다.
또한 운율 예측 (prosody prediction) 에 있어서도 통계적인 모델을 이용한 데이터 구동 (data-driven) 기법이 적용되어 보다 생동감 넘치는 합성음을 얻게 되었다.
이러한 음성 합성기는 초기에 음성의 해부학적인 발생 모델을 바탕으로 하는포만트 합성 (formant synthesis) 기법이 소개되었으며 [1], 1990년대에 접어들면서 대용량 데이터 베이스를 기반으로 하는 코퍼스 기반 문 지-'음성 합성기 (corpus-based Text To Speech; TTS)[2] 가 제안되어 보다 인간의 음성에 가까운 합성음을 얻게 되었다. 또한 운율 예측 (prosody prediction) 에 있어서도 통계적인 모델을 이용한 데이터 구동 (data-driven) 기법이 적용되어 보다생동감넘치는합싱음을 얻게 되었다.
통해 결정하였다. 몇몇 실험에 의하면, 단일 화자 (shaker)만을 대상으로 하는 음소 레이블링과 같은 응용에서는 각 스테이트의 확률 밀도 함수를 단일 가우시안함工만을 사용해도 충분하다고 보고하였으나, 본 논문에서 수행한 실험 결과에 따르면 단일 가우시안 함수를 사용한 경우가 혼합 가우 시안을 사용한 경우에 비해 성능 저하가 비교적 크게 나타나는 것이 관찰되었다. 실험 결과-5■든 음소에 대해 5개의 스테이트를 갖고, 3개의 단일가우시안 함수를 사용한 경우, 계산량과 음소 레이블링의 정 밀도 면에서 우수한 결과를 나타냄을 알 수 있었다.
통해 결정하였다. 몇몇 실험에 의하면, 단일 화자 (shaker)만을 대상으로 하는 음소 레이블링과 같은 응용에서는 각 스테이트의 확률 밀도 함수를 단일 가우시안함工만을 사용해도 충분하다고 보고하였으나, 본 논문에서 수행한 실험 결과에 따르면 단일 가우시안 함수를 사용한 경우가 혼합 가우 시안을 사용한 경우에 비해 성능 저하가 비교적 크게 나타나는 것이 관찰되었다. 실험 결과-5■든 음소에 대해 5개의 스테이트를 갖고, 3개의 단일가우시안 함수를 사용한 경우, 계산량과 음소 레이블링의 정 밀도 면에서 우수한 결과를 나타냄을 알 수 있었다.
본 논문에서 제시된 방법을 통해 얻은 음소 경계의 정밀도는 20 msec 이내의 경계오차를 갖는 음소의 개수가전체 음소 중 95%를 상회하는 것으로 나타났으며, 이는데이터 베이스의 작성 시 자동 레이블링 기법이 적용되더라도 수동 레이블링시와 필적하는 결과를 얻을 수 있음을의미한다. 따라서 본 논문에서 제안된 기법은 개발 시간의 지연, 비용 상승, 음소경계의 일관성 부족이라는수동레이블링의 문제점을 효과적으로 해결해줄 수 있을 것으로 판단된다.
몇몇 실험에 의하면, 단일 화자 (shaker)만을 대상으로 하는 음소 레이블링과 같은 응용에서는 각 스테이트의 확률 밀도 함수를 단일 가우시안함工만을 사용해도 충분하다고 보고하였으나, 본 논문에서 수행한 실험 결과에 따르면 단일 가우시안 함수를 사용한 경우가 혼합 가우 시안을 사용한 경우에 비해 성능 저하가 비교적 크게 나타나는 것이 관찰되었다. 실험 결과-5■든 음소에 대해 5개의 스테이트를 갖고, 3개의 단일가우시안 함수를 사용한 경우, 계산량과 음소 레이블링의 정 밀도 면에서 우수한 결과를 나타냄을 알 수 있었다.
몇몇 실험에 의하면, 단일 화자 (shaker)만을 대상으로 하는 음소 레이블링과 같은 응용에서는 각 스테이트의 확률 밀도 함수를 단일 가우시안함工만을 사용해도 충분하다고 보고하였으나, 본 논문에서 수행한 실험 결과에 따르면 단일 가우시안 함수를 사용한 경우가 혼합 가우 시안을 사용한 경우에 비해 성능 저하가 비교적 크게 나타나는 것이 관찰되었다. 실험 결과-5■든 음소에 대해 5개의 스테이트를 갖고, 3개의 단일가우시안 함수를 사용한 경우, 계산량과 음소 레이블링의 정 밀도 면에서 우수한 결과를 나타냄을 알 수 있었다.
Toledano에 의해 제안된 기법에서는 음소를 유성 음소군 (voiced phoneme group) 과 무성 음소군 (unvoiced phoneme group)으로 구분하여 총 4개의 음소군 조합에 대해 개별 신경망을 학습시키는 방법이 사용되었다. 실험 결과에 따르면, 단일 신경망을 사용하는 경우와 거의 동일한 결과를 얻은 것으로 보고되어, 음소군에 따른 개별 신경망의 사용이 성능 향상과 직결되지는 않은 것으로 잠정적인 결론을 내렸다.
2% 높은 값을 갖음을 알 수 있다. 이를 사용된 전체 음소 갯수로 환산하면 1215개의 음소에 해당되며, 따라서 음질 적인 저하를 일으킬 수 있는음소의 빈도가 제안된 기법을 통해 상당수 감소되 었음을 의미한다.
이와 같은 객관적인 척도에 의한 결과를 고려하면 제안된 기법은 수동 레이블링 된 음소 경계와 매우 유사한 음소 경계를 추정하는 것으로 판단되며, 일정량의 학습 데이터가 확보된 상태에서 많은 시간이 소요되었던 수동레이블링 작업을 학습된 HMM과 신경망에 의해 자동화된기법으로 대치할 수 있을 것으로 생각된다.
음소 경계의 수정에는 비선형 대응 관계를 표현하는 신경 회로망이 이용되었으며, 음소전이 패턴에 따라 적응적인 신경망이 사용될 수 있는 기법이 제안되었다. 전체 음소 전이 패턴의 분류와 각 분류 패턴에 대한 최적의 신경망은 분류와 학습이 유기적으로 결합된 학습 알고리즘에 의해 구현되었으며, 이 알고리즘은 기존의 경험적인 분류에 의한 신경망의 학습기법에 비해 실험상으로 우수한 성능을 나타내었다.
이에 대한 결과를 표 1에 제시하였다. 표에서 보면 신경망을 후처리기로 사용한 모든 경우에 있어서, HMM을단독으로 사용하는 경우보다 성능 향상이 얻어짐을 알수 있다. 이는 신경망이 음소 경계의 검출에 유용하게사용될 수 있음을 의미흐}는 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

문자-음성 합성기의 데이터 베이스를 위한 문맥 적응 음소 분할
Context-adaptive Phoneme Segmentation for a TTS Database 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

문자-음성 합성기의 데이터 베이스를 위한 문맥 적응 음소 분할 Context-adaptive Phoneme Segmentation for a TTS Database 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

문자-음성 합성기의 데이터 베이스를 위한 문맥 적응 음소 분할
Context-adaptive Phoneme Segmentation for a TTS Database 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper