대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.
대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화 알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.
Large corpus-based concatenating Text-to-Speech (TTS) systems can generate natural synthetic speech without additional signal processing. To prune the redundant speech segments in a large speech segment DB, we can utilize a decision-tree based triphone clustering algorithm widely used in speech reco...
Large corpus-based concatenating Text-to-Speech (TTS) systems can generate natural synthetic speech without additional signal processing. To prune the redundant speech segments in a large speech segment DB, we can utilize a decision-tree based triphone clustering algorithm widely used in speech recognition area. But, the conventional methods have problems in representing the acoustic transitional characteristics of the phones and in applying context questions with hierarchic priority. In this paper, we propose a new clustering algorithm to downsize the speech DB. Firstly, three 13th order MFCC vectors from first, medial, and final frame of a phone are combined into a 39 dimensional vector to represent the transitional characteristics of a phone. And then the hierarchically grouped three question sets are used to construct the triphone trees. For the performance test, we used DTW algorithm to calculate the acoustic similarity between the target triphone and the triphone from the tree search result. Experimental results show that the proposed method can reduce the size of speech DB by 23% and select better phones with higher acoustic similarity. Therefore the proposed method can be applied to make a small sized TTS.
Large corpus-based concatenating Text-to-Speech (TTS) systems can generate natural synthetic speech without additional signal processing. To prune the redundant speech segments in a large speech segment DB, we can utilize a decision-tree based triphone clustering algorithm widely used in speech recognition area. But, the conventional methods have problems in representing the acoustic transitional characteristics of the phones and in applying context questions with hierarchic priority. In this paper, we propose a new clustering algorithm to downsize the speech DB. Firstly, three 13th order MFCC vectors from first, medial, and final frame of a phone are combined into a 39 dimensional vector to represent the transitional characteristics of a phone. And then the hierarchically grouped three question sets are used to construct the triphone trees. For the performance test, we used DTW algorithm to calculate the acoustic similarity between the target triphone and the triphone from the tree search result. Experimental results show that the proposed method can reduce the size of speech DB by 23% and select better phones with higher acoustic similarity. Therefore the proposed method can be applied to make a small sized TTS.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 TTS에서 사용되는 음성 DB를 소용량으로 구축하기 위한 음소단위 클러스터링 시스템을 구현하였다. 그리고 클러스터링 후 구축되는 트리의 최하위 노드에 존재하는 모델의 복수개의 음편들 중에서 최대 9개를 선정하는 알고리즘을 제안하였다.
본 논문에서는 TTS에서 사용되는 음성 DB를 소용량으로 구축하기 위한 음소단위 클러스터링 시스템을 구현하였다. 그리고 클러스터링 후 구축되는 트리의 최하위 노드에 존재하는 모델의 복수개의 음편들 중에서 최대 9개를 선정하는 알고리즘을 제안하였다.
가설 설정
[1][2]_ 코퍼스 기반 음편접합 ITS는 운율변경을 위한 신호처리를 적용하지 않고 대용량 음성 DB복수후보 중에서 최적의 음편들을 결합해 합성음을 생성하기 때문에 합성음의 자연성과 명료도가 높다.
제안 방법
TTS에서 필요한 합성 유닛 선정 시의 성능을 비교하기 위해 두 가지 클러스터링 방법에 대해 평가 트라이폰 모델과의 음향적 거리를 DTW를 이용하여 계산하였고 결과는 표 11과 같다. 평가 결과를 살펴보면 d0-o3+sl와 L3-nl+vO를 제외한 나머지 모델의 경우 본 논문에서 제안된 음소단위 클러스터링 방법이 기존 방법보다 음향적 거리가 작음을 알 수 있었다.
TTS에서 필요한 합성 유닛 선정 시의 성능을 비교하기 위해 두 가지 클러스터링 방법에 대해 평가 트라이폰 모델과의 음향적 거리를 DTW를 이용하여 계산하였고 결과는 표 11과 같다.
각 노드에 존재하는 복수 음편에서 최대 9개의 음편을 선택하기 위해서 먼저 노드내 음편들을 9개의 기본주파수 패턴별로 분류한다. 분류된 각 그룹별로 지속시간과 에너지 평균값을 구한 뒤, 각 그룹내 지속시간과 에너지가 평균값에 제일 근접하는 음편을 그룹별 대표로 선택한다.
본 논문에서는 음편 내의 천이특성과 연결성을 표현하기 위해 음소단위 클러스터링 시스템에서는 음편의 처음, 중간, 끝 3 프레임에서 13차씩 추정해 39차로 통합한 형태로 음편을 표현하는 방법을 제안하였다. 그리고 결정트리 기반 군집화 과정에서 트리의 높이에 따라 3단계의 문맥질의를 가지도록 구성하고 트리의 상위레벨에는 포괄적 인 문맥질의를, 하위레벨에는 세부적인 문맥질의를 적용하는 방법을 제안하였다.
본 논문에서는 음편 내의 천이특성과 연결성을 표현하기 위해 음소단위 클러스터링 시스템에서는 음편의 처음, 중간, 끝 3 프레임에서 13차씩 추정해 39차로 통합한 형태로 음편을 표현하는 방법을 제안하였다. 그리고 결정트리 기반 군집화 과정에서 트리의 높이에 따라 3단계의 문맥질의를 가지도록 구성하고 트리의 상위레벨에는 포괄적 인 문맥질의를, 하위레벨에는 세부적인 문맥질의를 적용하는 방법을 제안하였다.
그리고 클러스터링 후 구축되는 트리의 최하위 노드에 존재하는 모델의 복수개의 음편들 중에서 최대 9개를 선정하는 알고리즘을 제안하였다. 그리고 클러스터링 방법에 대한 성능 평가를 위해서 성능 평가 기준 트라이폰 모델의 선정 방법, 평가 기준 트라이폰 음편들을 제외한 음성데이터를 이용하여 트리를 생성하는 방법, 성능 평가 트라이폰 모델들을 탐색해서 나온 결과 모델들과 기준모델과의 음향적 유사도를 DTW를 이용하여 계산하는 방법을 제안하였다.
그리고 클러스터링 후 구축되는 트리의 최하위 노드에 존재하는 모델의 복수개의 음편들 중에서 최대 9개를 선정하는 알고리즘을 제안하였다. 그리고 클러스터링 방법에 대한 성능 평가를 위해서 성능 평가 기준 트라이폰 모델의 선정 방법, 평가 기준 트라이폰 음편들을 제외한 음성데이터를 이용하여 트리를 생성하는 방법, 성능 평가 트라이폰 모델들을 탐색해서 나온 결과 모델들과 기준모델과의 음향적 유사도를 DTW를 이용하여 계산하는 방법을 제안하였다.
본 논문에서는 TTS에서 사용되는 음성 DB를 소용량으로 구축하기 위한 음소단위 클러스터링 시스템을 구현하였다. 그리고 클러스터링 후 구축되는 트리의 최하위 노드에 존재하는 모델의 복수개의 음편들 중에서 최대 9개를 선정하는 알고리즘을 제안하였다. 그리고 클러스터링 방법에 대한 성능 평가를 위해서 성능 평가 기준 트라이폰 모델의 선정 방법, 평가 기준 트라이폰 음편들을 제외한 음성데이터를 이용하여 트리를 생성하는 방법, 성능 평가 트라이폰 모델들을 탐색해서 나온 결과 모델들과 기준모델과의 음향적 유사도를 DTW를 이용하여 계산하는 방법을 제안하였다.
그리고 트리의 노드 분할과정에서 과도한 분할을 막도록 노드내 최소 음편 개수와 분할된 그룹의 유사도 증가 문턱치를 설정하였다. 이상의 노드 분할 과정을 반복해서 최종적인 트리를 구성하게 된다.
그리고 평가 기준 모델에 해당되는 음편들과 구축된 트리에서 검색한 해당 음운환경에 가장 유사한 음편과의 음향적 거리를 계산해서 두 가지 클러스터링 방법의 성능을 비교하였다. 음향적 특징은 MFOC 13차의 벡터를 사용 하였고 각 평가 기준 모델에 해당되는 음편들과 클러스터링 트리에서 선정된 음편들과의 음향적 특징 거리는 DIW를 이용하여 계산하였다.
그리고 훈련된 음소모델을 기반으로 트라이폰 모델을 구성한 뒤, 다시 음성 DB를 사용해 트라이폰 모델을 훈련하였다.
그리고 훈련된 음소모델을 기반으로 트라이폰 모델을 구성한 뒤, 다시 음성 DB를 사용해 트라이폰 모델을 훈련하였다.
또한 음소단위 클러스터링 시스템의 결과로 생기는 트리의 최하위 노드에 존재하는 복수음편을 기본주파수, 지속시간, 에너지 파라미터를 적용하여 최대 9개의 음편으로 줄이는 방법을 제안하였다.
먼저 성능평가를 위해 음성 합성 DB에 존재하는 트라이폰 모델 중에서 좌우 음운환경과 음편의 수를 고려하여 각 음운환경별로 2개씩 12개의 평가 기준 모델을 선정한다. 선정된 기준 모델에 해당되는 트라이폰 음편들을 제외한 나머지 트라이폰 음편들을 이용하여 결정트리 기반 클러스터링과 제안된 음소단위 클러스터링을 실시 하였다.
본 논문에서는 기존 결정트리 기반 클러스터링 방법과 제안된 음소단위 클러스터링 방법의 성능비교를 위해서 참조 패턴과 입력 패턴과의 음향적 특징벡터의 거리를 DTW를 이용하여 계산하고 이를 성능 비교에 사용하였다, 그 과정은 그림 3과 같다.
본 논문에서는 기존 결정트리 기반 클러스터링 방법과 제안된 음소단위 클러스터링 방법의 성능비교를 위해서 참조 패턴과 입력 패턴과의 음향적 특징벡터의 거리를 DTW를 이용하여 계산하고 이를 성능 비교에 사용하였다, 그 과정은 그림 3과 같다.
트라이폰 클러스터링 과정으로 트리를 구축하게 되면 최하위 노드에는 음향적 특성이 비슷한 다수의 음편들이 존재한다. 본 논문에서는 음성합성 DB의 크기를 줄이기 위해서 표 6과 같이 기본주파수, 지속시간, 에너지의 음운특성에 대한 대표 패턴을 정하였고 이를 토대로 노드당 최대 9개의 대표 음편을 선정하였다.
트라이폰 클러스터링 과정으로 트리를 구축하게 되면 최하위 노드에는 음향적 특성이 비슷한 다수의 음편들이 존재한다. 본 논문에서는 음성합성 DB의 크기를 줄이기 위해서 표 6과 같이 기본주파수, 지속시간, 에너지의 음운특성에 대한 대표 패턴을 정하였고 이를 토대로 노드당 최대 9개의 대표 음편을 선정하였다.
본 논문에서는 음편 내의 천이특성과 연결성을 표현하기 위해 음소단위 클러스터링 시스템에서는 음편의 처음, 중간, 끝 3 프레임에서 13차씩 추정해 39차로 통합한 형태로 음편을 표현하는 방법을 제안하였다. 그리고 결정트리 기반 군집화 과정에서 트리의 높이에 따라 3단계의 문맥질의를 가지도록 구성하고 트리의 상위레벨에는 포괄적 인 문맥질의를, 하위레벨에는 세부적인 문맥질의를 적용하는 방법을 제안하였다.
본 논문에서는 음편들의 음향적 특징과 변이성을 반영할 수 있도록 그림 2와 같이 음소의 처음, 중간, 끝 프레임의 13차 MIPC벡터를 결합하여 트라이폰 클러스터링용음편의 음향 벡터로 표현하였다. 이렇게 표현된 음편들을 이용하여 각 중심 음소별로 트라이폰 클러스터링 과정을 거쳐 트리를 구축하였다.
본 논문에서는 음편들의 음향적 특징과 변이성을 반영할 수 있도록 그림 2와 같이 음소의 처음, 중간, 끝 프레임의 13차 MIPC벡터를 결합하여 트라이폰 클러스터링용음편의 음향 벡터로 표현하였다. 이렇게 표현된 음편들을 이용하여 각 중심 음소별로 트라이폰 클러스터링 과정을 거쳐 트리를 구축하였다.
본 논문에서는 표 1, 2, 3의 조음환경을 바탕으로 유/무성, 음운환경, 조음방법 등을 고려하여 285개의 문맥질의는 생성하였다 [12], 문맥질의 리스트에 존재하는 문맥질의들을 하나씩 가져와 Yes, No 두 그룹으로 분할하고 해당 그룹의 log likelihood를 계산해서 최고의 log likelihood를 가지는 문맥질의를 선택해 해당 노드를 분리하는 과정을 거치게 된다.
본 논문에서는 표 1, 2, 3의 조음환경을 바탕으로 유/무성, 음운환경, 조음방법 등을 고려하여 285개의 문맥질의는 생성하였다 [12], 문맥질의 리스트에 존재하는 문맥질의들을 하나씩 가져와 Yes, No 두 그룹으로 분할하고 해당 그룹의 log likelihood를 계산해서 최고의 log likelihood를 가지는 문맥질의를 선택해 해당 노드를 분리하는 과정을 거치게 된다.
각 노드에 존재하는 복수 음편에서 최대 9개의 음편을 선택하기 위해서 먼저 노드내 음편들을 9개의 기본주파수 패턴별로 분류한다. 분류된 각 그룹별로 지속시간과 에너지 평균값을 구한 뒤, 각 그룹내 지속시간과 에너지가 평균값에 제일 근접하는 음편을 그룹별 대표로 선택한다.
먼저 성능평가를 위해 음성 합성 DB에 존재하는 트라이폰 모델 중에서 좌우 음운환경과 음편의 수를 고려하여 각 음운환경별로 2개씩 12개의 평가 기준 모델을 선정한다. 선정된 기준 모델에 해당되는 트라이폰 음편들을 제외한 나머지 트라이폰 음편들을 이용하여 결정트리 기반 클러스터링과 제안된 음소단위 클러스터링을 실시 하였다.
먼저 성능평가를 위해 음성 합성 DB에 존재하는 트라이폰 모델 중에서 좌우 음운환경과 음편의 수를 고려하여 각 음운환경별로 2개씩 12개의 평가 기준 모델을 선정한다. 선정된 기준 모델에 해당되는 트라이폰 음편들을 제외한 나머지 트라이폰 음편들을 이용하여 결정트리 기반 클러스터링과 제안된 음소단위 클러스터링을 실시 하였다.
그리고 평가 기준 모델에 해당되는 음편들과 구축된 트리에서 검색한 해당 음운환경에 가장 유사한 음편과의 음향적 거리를 계산해서 두 가지 클러스터링 방법의 성능을 비교하였다. 음향적 특징은 MFOC 13차의 벡터를 사용 하였고 각 평가 기준 모델에 해당되는 음편들과 클러스터링 트리에서 선정된 음편들과의 음향적 특징 거리는 DIW를 이용하여 계산하였다.
본 논문에서는 음편들의 음향적 특징과 변이성을 반영할 수 있도록 그림 2와 같이 음소의 처음, 중간, 끝 프레임의 13차 MIPC벡터를 결합하여 트라이폰 클러스터링용음편의 음향 벡터로 표현하였다. 이렇게 표현된 음편들을 이용하여 각 중심 음소별로 트라이폰 클러스터링 과정을 거쳐 트리를 구축하였다.
본 논문에서는 음편들의 음향적 특징과 변이성을 반영할 수 있도록 그림 2와 같이 음소의 처음, 중간, 끝 프레임의 13차 MIPC벡터를 결합하여 트라이폰 클러스터링용음편의 음향 벡터로 표현하였다. 이렇게 표현된 음편들을 이용하여 각 중심 음소별로 트라이폰 클러스터링 과정을 거쳐 트리를 구축하였다.
이를 해결하기 위해 본 논문에서는 표 4와 같이 문맥질 의를 3단계로 구분해 트리의 높이에 따라 상위레벨에서는 포괄적인 문맥질의를 하위레벨에서는 세부적인 문맥질의를 적용하였으며 표 5의 예와 같다.
이를 해결하기 위해 본 논문에서는 표 4와 같이 문맥질 의를 3단계로 구분해 트리의 높이에 따라 상위레벨에서는 포괄적인 문맥질의를 하위레벨에서는 세부적인 문맥질의를 적용하였으며 표 5의 예와 같다.
따라서 TIS 합성에 필요한 트라이폰 음편이 음성 DB에 존재하지 않는 경우 음향적, 음성적으로 가장 유사한 트라이폰 모델을 찾도록 결정 트리 기반 클러스터링 방법을 사용한다. 즉 주어진 트라이폰 모델들 중에서 중심음소가 동일한 트라이폰 모델들을 묶어서 음향, 음성학적 문맥질의를 사용해 결정 트리기반 클러스터링을 수행한다 [7]
클러스터링 성능평가를 위해서 표 9와 같이 좌우 음운 환경과 음편의 수를 고려한 12개의 성능 평가 기준 트라이폰 모델을 선정하였고 평가 기준 트라이폰 음편들을 제외한 음성데이터를 이용하여 트리를 생성하였다.
클러스터링 성능평가를 위해서 표 9와 같이 좌우 음운 환경과 음편의 수를 고려한 12개의 성능 평가 기준 트라이폰 모델을 선정하였고 평가 기준 트라이폰 음편들을 제외한 음성데이터를 이용하여 트리를 생성하였다.
대상 데이터
Table 9. 12 triphone models for the performance test.
각 모델의 훈련에는 잘 정제되고 충분히 많은 데이터가 제공되는 ETRI 음성 합성용 음성DB (10,555문장, 1.87 GB)를 사용하였다 [11]. 훈련은 음향모델 λ와 주어진 훈련 데이터 D에 대해 likelihood (L(D|λ)가 최대가 되도록 전향-후향 알고리즘 (foward-backward algorithm) 이 포함되어 있는 Baum- Welch algorithm을 사용하여 새로운 모델 λ*을 찾는 과정을 반복하였다.
1. 모델생성 모듈
모델 생성 모듈에서는 5-상태를 가지는 left-right HMM기반 음소단위 음향모델을 구성하고 음성DB를 사용하여 구성된 음소모델들을 훈련한다
. 음소모델은 초성 18개, 중성 19개, 종성 7개, 묵음 1개로 구성된 45개의 음소에 대해, 초성의 경우 어절시작/어절내 정보를, 중성의 경우 어절시작/어절내/어절끝 정보를, 종성의 경우 어절내/어절끝 정보를 추가하여 총 108개로 구성하였다.
위의 과정을 거쳐 EIRI 음성 합성용 DB에 존재하는 37,808개의 트라이폰 모델을 구성하였다.
위의 과정을 거쳐 EIRI 음성 합성용 DB에 존재하는 37,808개의 트라이폰 모델을 구성하였다.
모델 생성 모듈에서는 5-상태를 가지는 left-right HMM기반 음소단위 음향모델을 구성하고 음성DB를 사용하여 구성된 음소모델들을 훈련한다. 음소모델은 초성 18개, 중성 19개, 종성 7개, 묵음 1개로 구성된 45개의 음소에 대해, 초성의 경우 어절시작/어절내 정보를, 중성의 경우 어절시작/어절내/어절끝 정보를, 종성의 경우 어절내/어절끝 정보를 추가하여 총 108개로 구성하였다.
모델 생성 모듈에서는 5-상태를 가지는 left-right HMM기반 음소단위 음향모델을 구성하고 음성DB를 사용하여 구성된 음소모델들을 훈련한다. 음소모델은 초성 18개, 중성 19개, 종성 7개, 묵음 1개로 구성된 45개의 음소에 대해, 초성의 경우 어절시작/어절내 정보를, 중성의 경우 어절시작/어절내/어절끝 정보를, 종성의 경우 어절내/어절끝 정보를 추가하여 총 108개로 구성하였다.
데이터처리
그리고 평가 기준 모델에 해당되는 음편들과 구축된 트리에서 검색한 해당 음운환경에 가장 유사한 음편과의 음향적 거리를 계산해서 두 가지 클러스터링 방법의 성능을 비교하였다. 음향적 특징은 MFOC 13차의 벡터를 사용 하였고 각 평가 기준 모델에 해당되는 음편들과 클러스터링 트리에서 선정된 음편들과의 음향적 특징 거리는 DIW를 이용하여 계산하였다.
이론/모형
훈련은 음향모델 λ와 주어진 훈련 데이터 D에 대해 likelihood (L(D|λ)가 최대가 되도록 전향-후향 알고리즘 (foward-backward algorithm) 이 포함되어 있는 Baum- Welch algorithm을 사용하여 새로운 모델 λ*을 찾는 과정을 반복하였다.
Table 10. The tree searching results for the test triphone models.
각 모델의 훈련에는 잘 정제되고 충분히 많은 데이터가 제공되는 ETOI 음성 합성용 음성DB (10, 555문장, 1.87 GB)를 사용하였다 [11], 훈련은 음향모델 入와 주어진 훈련 데이터 D에 대해 likelihood (L(D|Q)가 최대가 되도록 전향-후향 알고리즘 (foward-backward algorithm) 이 포함되어 있는 Baum- Welch algorithm을 사용하여 새로운 모델 爲*을 찾는 과정을 반복하였다.
음성 특징파라미터는 인간의 청각 특성을 반영하고 다양한 잡음환경/화자/채널 변이에 강인한 MFCC (MelFrequency Cepstral Coefficient)를 사용하였다.
음성 특징파라미터는 인간의 청각 특성을 반영하고 다양한 잡음환경/화자/채널 변이에 강인한 MFCC (MelFrequency Cepstral Coefficient)를 사용하였다.
성능/효과
생성된 두 개의 트리를 이용하여 평가 트라이폰 모델을 탐색한 결과는 표 10과 같다. 기존방법은 n0-i0+d0, i3-ol+d0, b0-i0+e0, U0-i3+bl, v0-L0+g0의 5개 모델에 대해 좌, 우 음운환경이 완전히 다른 모델을 찾았다즉, 기존방법에서는 목표 모델과 완전히 다른 모델을 선정하는 단점을 가지고 있지만, 제안된 방법을 사용하였을 경우 최소한 좌, 우 한쪽은 동일한 음소를 가지는 모델을 찾을 수 있어 목표로 하는 모델에 더 유사한 음편을 선정할 수 있었다.
생성된 두 개의 트리를 이용하여 평가 트라이폰 모델을 탐색한 결과는 표 10과 같다. 기존방법은 n0-i0+d0, i3-ol+d0, b0-i0+e0, U0-i3+bl, v0-L0+g0의 5개 모델에 대해 좌, 우 음운환경이 완전히 다른 모델을 찾았다즉, 기존방법에서는 목표 모델과 완전히 다른 모델을 선정하는 단점을 가지고 있지만, 제안된 방법을 사용하였을 경우 최소한 좌, 우 한쪽은 동일한 음소를 가지는 모델을 찾을 수 있어 목표로 하는 모델에 더 유사한 음편을 선정할 수 있었다.
따라서 제안된 음소단위 클러스터링 방법을 사용하여 TTS에 사용되는 합성유닛을 선택할 경우 기존 방법보다 목표로 하는 모델과 음향적 특징이 유사한 모델을 선정할 수 있음을 알 수 있었다.
따라서 제안된 음소단위 클러스터링 방법을 사용하여 TTS에 사용되는 합성유닛을 선택할 경우 기존 방법보다 목표로 하는 모델과 음향적 특징이 유사한 모델을 선정할 수 있음을 알 수 있었다.
대용량 복수후보 합성용 DB 감량 실험결과는 표 8과 같다. 본 논문에서 제안된 방법의 경우 436 MB로 전체 음성데이터를 23%로 축소시킬 수 있었다. 제안된 음소단위 클러스터링 방법이 전체 음성 DB를 줄일 수 있었지만 기존 결정트리 기반 클러스터링 방법에 비해서는 24 MB 약 5.
본 논문에서 제안된 방법의 경우 436 雄로 전체 음성데이터를 23%로 축소시킬 수 있었다.
실험을 통해서 제안된 음소단위 클러스터링 방식과 음편 선택 알고리즘은 음성 합성 DB의 크기를 기존의 결정트리 기반 클러스터링 방법과 비슷한 크기로 줄일 수 있었다. 그리고 음성 합성 DB에 존재하지 않는 목표 모델에 대해서 음운 환경적으로 유사한 모델을 선정 할 수 있었다.
실험을 통해서 제안된 음소단위 클러스터링 방식과 음편 선택 알고리즘은 음성 합성 DB의 크기를 기존의 결정트리 기반 클러스터링 방법과 비슷한 크기로 줄일 수 있었다. 그리고 음성 합성 DB에 존재하지 않는 목표 모델에 대해서 음운 환경적으로 유사한 모델을 선정 할 수 있었다.
이상의 실험결과를 통하여 본 논문에서 제안한 대용량 복수후보 TTS 방식에서 합성용 DB의 감량 방법은 트라이폰 기반의 음편접합 TIS에 활용할 수 있는 가능성을 보였다.
본 논문에서 제안된 방법의 경우 436 MB로 전체 음성데이터를 23%로 축소시킬 수 있었다. 제안된 음소단위 클러스터링 방법이 전체 음성 DB를 줄일 수 있었지만 기존 결정트리 기반 클러스터링 방법에 비해서는 24 MB 약 5.8%) 늘어났다.
본 논문에서 제안된 방법의 경우 436 MB로 전체 음성데이터를 23%로 축소시킬 수 있었다. 제안된 음소단위 클러스터링 방법이 전체 음성 DB를 줄일 수 있었지만 기존 결정트리 기반 클러스터링 방법에 비해서는 24 MB 약 5.8%) 늘어났다.
TTS에서 필요한 합성 유닛 선정 시의 성능을 비교하기 위해 두 가지 클러스터링 방법에 대해 평가 트라이폰 모델과의 음향적 거리를 DTW를 이용하여 계산하였고 결과는 표 11과 같다. 평가 결과를 살펴보면 d0-o3+sl와 L3-nl+vO를 제외한 나머지 모델의 경우 본 논문에서 제안된 음소단위 클러스터링 방법이 기존 방법보다 음향적 거리가 작음을 알 수 있었다.
TTS에서 필요한 합성 유닛 선정 시의 성능을 비교하기 위해 두 가지 클러스터링 방법에 대해 평가 트라이폰 모델과의 음향적 거리를 DTW를 이용하여 계산하였고 결과는 표 11과 같다. 평가 결과를 살펴보면 d0-o3+sl와 L3-nl+vO를 제외한 나머지 모델의 경우 본 논문에서 제안된 음소단위 클러스터링 방법이 기존 방법보다 음향적 거리가 작음을 알 수 있었다.
참고문헌 (12)
오영환, "음성합성기술의 현황 및 과제", 대한음성학회 2000년 3월 학술대회논문집, 1-16쪽, 2000
김재홍, "고품질 한국어 음성합성 시스템을 위한 합성단위의 선택", 한국음향학회 학술발표대회 논문집 제17권 2호, pp.269-272, 1998
최승호, 엄기완, 강상기, 김진영, "코퍼스 기반 음성합성기의 데이터베이스 축소 방법", 한국음향학회지, 제22권 8호, 703-710쪽, 2003
W. Black and P. Taylor, “Automatically clustering similar units for unit selection in speech synthesis”, in Proc. Euro-speech'97, vol. 2, pp. 601-604, Sep. 1997
A. Cronk and M. Macon, “Optimized stopping cirteria for tree-based unit selection in concatenative synthesis”, in Proc. ICSLP'98, vol. 1, pp. 680-683, Nov. 1998
N. Campbell and A. Black, "Prosody and the selection of source units for concatenative synthesis," in J. van Santen, R. Sproat, J. Olive, and J. Hirschberg, editors, Progress in Speech Synthesis, pp.279-282, Springer Verlag, 1996
S.J. Young, Kershaw D, Odell J, Ollason D, Valtchev V, Woodland P, The HTK Book, Entropic Research Labora-tories Inc, 1999
S.J. Young, "Tree-Based State Tying for High Accuracy Acoustic Modeling", in Proceedings ARPA Workshop on Human Language Technology, pp.307-312, 1994
R. Donovan and P. Woodland, "A hidden Markov model based trainable speech Synthesizer," Computer Speech and Language, pp. 223-241, 1999
※ AI-Helper는 부적절한 답변을 할 수 있습니다.