[논문]대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안

이정철

doi:10.9708/jksci.2010.15.7.091

문제 정의

본 논문에서는 결정트리를 기반으로 context 정보를 이용하여 triphone을 체계적으로 클러스터링 함으로써 합성음편 DB를 감축하고 이를 코퍼스 기반 음편접합 한국어 음성합성기에 적용하는 방법을 제안한다. 이 방법은 음소내 음향적 천이특성과 연결성 및 음운환경을 수용 가능하다.
본 논문에서는 음성합성 DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위 음편 데이터베이스 구축 방법을 제안하였다. 먼저 결정 트리 기반의 클러스터링을 수행하고 최종 노드에 대한 기본주파수, 지속시간, 에너지의 운율특성의 대표 패턴을 정하여 이를 토대로 각 노드의 패턴별 대표 음편을 선정하였다.

제안 방법

해당 음편의 패턴이 동일한 것이면, 중복된 음편이라고 판단하여 DB에서 제거하였다. 각 노드에 존재하는 복수 음편에서 대표 음편을 선택하기 위해서 먼저 노드내 음편들을 9개의 기본주파수 패턴별로 분류한다. 기본주파수 패턴 분류는 화자의 기본주파수의 평균값, 최대값, 최소값의 log 크기를 기준으로 3등분하여 고, 중, 저 레벨의 범위을 설정하였다.
각 모델의 훈련에는 잘 정제되고 충분히 많은 데이터가 제공되는 ETRI 음성 합성용 음성DB를 사용하였다. 훈련은 음향모델 λ와 주어진 훈련 데이터 D에 대해 likelihood (L(D|λ))가 최대가 되도록 전향-후향 알고리즘(foward-backward algorithm)이 포함되어 있는 BaumWelch algorithm을 사용하여 새로운 모델 λ*을 찾는 과정을 반복하였다.
본 논문에서 제안한 방법의 성능을 비교하기 위해서 표 7과 같이 트리 클러스터링 방법 CM1, CM2와 전체 DB(Full DB)와 감축된 DB(Reduced DB)의 4가지 유형으로 제작된 음편 데이터베이스를 이용하였다. 각 유형의 음편DB를 이용한 합성음을 들려주고 가장 좋으면 5점, 가장 듣기 싫은 합성음이면 1점을 주는 주관적 평가인 MOS (Mean Opinion Score) 테스트를 수행하였다.
음소단위 클러스터링 시스템에서는 음편의 처음, 중간, 끝 3 프레임에서 13차씩 추정해 39차로 통합한 형태로 음편을 표현한다. 결정 트리 기반 군집화 과정에서 트리의 상위레벨에는 포괄적인 문맥질의를, 하위레벨에는 세부적인 문맥질의를 적용하는 방법을 적용하였다. 또한 음소단위 클러스터링 시스템의 결과로 생기는 트리의 최하위 노드에 존재하는 복수음편을 기본주파수, 지속시간, 에너지 파라미터를 적용하여 최대 9개의 음편으로 줄이는 방법을 제안하였다.
효과적인 운율제어를 위해서는 한국어 문장에 대한 다양한 구문구조 특징과 의미구조의 특징을 도출할 수 있는 고성능의 문장분석 시스템이 요구된다. 그러나 본 연구에서는 품사열과 형태소를 바탕으로 대용량의 음성데이터를 분석하여 작성된 4,578개 규칙을 이용하여 운율경계 정보를 추정하였다. 운율 경계는 강세구 내, 강세구 경계, 억양구 경계 3단계로 구분하였다.
그림 2와 같이 target 음소별로 음편DB를 검색하여 가져온 복수후보의 음편정보들을 등록하고 target 음소의 좌우 음운환경, 운율경계정보를 바탕으로 NodeCost Du를 각 후보들에 부여한다. 그리고 각 후보들의 접합점에서의 스펙트럼, 피치값의 연속성, 음편의 인접성과 관련된 TransitCost Dc을 더한다. 그리고 Viterbi 알고리즘을 이용하여 복수후보들로부터 주어진 문장 전체에 최적인 음편들을 선택하여 합성음 생성 모듈에 이 정보를 전달한다 [1].
사용된 운율 처리기는 언어 처리기로부터 음소열과 어절별 품사정보를 전달 받는다. 그리고 대상 어절을 중심으로 앞뒤 각 2어절씩, 전체 5어절의 품사열 정보와 필요시 형태소 정보를 이용하여 대상 어절의 운율구경계 정보를 추정한 뒤 음편 선정기와 합성음 생성기로 전달한다.
그리고 클러스터링 방법에 대한 성능 평가를 위해서 언어 처리기, 운율 처리기, 음편 선택기, 합성음 생성기, 합성단위 음편데이터베이스, 음성신호 출력기로 구성되는 한국어 TTS 기본 시스템을 이용하여 합성음을 생성하였고 트리 클러스터링 방법 CM1, CM2와 전체 DB (Full DB)와 감축된 DB(Reduced DB)의 4가지 조합별로 제작된 음편 데이터베이스를 이용하여 각 조합에 대한 MOS 테스트를 수행하였다.
음소모델은 초성 18개, 중성 19개, 종성 7개, 묵음 1개로 구성된 45개의 음소에 대해, 초성의 경우 어절시작/어절내 정보를, 중성의 경우 어절시작/어절내/어절끝 정보를, 종성의 경우 어절내/어절끝 정보를 추가하여 총 108개로 구성하였다. 그리고 훈련된 음소모델을 기반으로 트라이폰 모델을 구성한 뒤, 다시 음성 DB를 사용해 트라이폰 모델을 훈련하였다. 음성 특징파라미터는 인간의 청각 특성을 반영하고 다양한 잡음환경/화자/채널 변이에 강인한 MFCC (Mel- Frequency Cepstral Coefficient)를 사용하였다.
먼저 결정 트리 기반의 클러스터링을 수행하고 최종 노드에 대한 기본주파수, 지속시간, 에너지의 운율특성의 대표 패턴을 정하여 이를 토대로 각 노드의 패턴별 대표 음편을 선정하였다. 대표패턴의 작성은 9개의 기본주파수 패턴과 3개의 지속시간 패턴, 3개의 에너지 패턴 분류를 이용하였고, 각 노드내 음편의 운율 패턴이 동일한 것이면 중복된 음편이라고 판단하여 DB에서 제거함으로써 전체 DB를 23%로 축소시켰다.
본 연구에서 사용한 한국어 품사세트는 보통명사, 고유명사, 의존명사, 대명사, 수사, 동사, 형용사, 보조용언, 관형사, 부사, 감탄사, 격조사, 서술격조사, 보조사, 선어말 어미, 연결어미, 전성어미, 종결어미, 접미사 등 58개로 이루어져 있다. 또, 주어진 문장에 대한 최적 품사열 찾기는 각각의 어절에 대해서 독립적으로 HMM을 적용한 후에 각각의 결과로부터 Viterbi 알고리즘을 이용하여 주어진 문장 전체에 최적인 품사열을 구하였다.
결정 트리 기반 군집화 과정에서 트리의 상위레벨에는 포괄적인 문맥질의를, 하위레벨에는 세부적인 문맥질의를 적용하는 방법을 적용하였다. 또한 음소단위 클러스터링 시스템의 결과로 생기는 트리의 최하위 노드에 존재하는 복수음편을 기본주파수, 지속시간, 에너지 파라미터를 적용하여 최대 9개의 음편으로 줄이는 방법을 제안하였다.
본 논문에서는 음성합성 DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위 음편 데이터베이스 구축 방법을 제안하였다. 먼저 결정 트리 기반의 클러스터링을 수행하고 최종 노드에 대한 기본주파수, 지속시간, 에너지의 운율특성의 대표 패턴을 정하여 이를 토대로 각 노드의 패턴별 대표 음편을 선정하였다. 대표패턴의 작성은 9개의 기본주파수 패턴과 3개의 지속시간 패턴, 3개의 에너지 패턴 분류를 이용하였고, 각 노드내 음편의 운율 패턴이 동일한 것이면 중복된 음편이라고 판단하여 DB에서 제거함으로써 전체 DB를 23%로 축소시켰다.
먼저 트라이폰 HMM 음향모델은 5-상태를 가지는 left-right HMM기반 음소단위 음향모델을 구성하고 음성 DB를 사용하여 구성된 음소모델들을 훈련한다. 음소모델은 초성 18개, 중성 19개, 종성 7개, 묵음 1개로 구성된 45개의 음소에 대해, 초성의 경우 어절시작/어절내 정보를, 중성의 경우 어절시작/어절내/어절끝 정보를, 종성의 경우 어절내/어절끝 정보를 추가하여 총 108개로 구성하였다.
평가실험은 실험실 환경에서 PC와 일반 스피커를 이용하여 1m 떨어진 청취자에게 합성음을 들려주었다. 먼저 평가에 사용될 음성데이터를 미리 작성하여 PC에 저장한 뒤 스피커를 통하여 먼저 원음을 들려준 뒤, 동일한 문장의 합성음을 들려주고 자연성과 명료도를 판단하여 점수를 기록하도록 하였다. 10명중 최상/하의 점수를 제외한 평균 MOS 테스트 결과는 표 8과 같다.
본 논문에서는 결정트리를 기반으로 context 정보를 이용하여 triphone을 체계적으로 클러스터링 함으로써 합성음편 DB를 감축하고 이를 코퍼스 기반 음편접합 한국어 음성합성기에 적용하는 방법을 사용하였다.
본 논문에서는 음성합성 DB의 크기를 줄이기 위해서 표 5와 같이 기본주파수, 지속시간, 에너지의 운율특성의 대표 패턴을 정하였고 이를 토대로 각 노드의 패턴별 대표 음편을 선정하였다. 해당 음편의 패턴이 동일한 것이면, 중복된 음편이라고 판단하여 DB에서 제거하였다.
2번째 단계에서는 화자의 지속시간과 에너지에 대한 패턴 분류는 최종노드에 군집된 모든 음편의 평균값 m과 표준편차 r을 이용하여 m-r, m+r을 분류기준으로 설정하였다. 분류된 각 그룹별로 지속시간과 에너지 평균값을 구한 뒤, 각 그룹내 지속시간과 에너지가 평균값에 제일 근접하는 음편을 그룹별 대표로 선택한다.
상기 과정으로 구한 37,808 트라이폰 음편들의 음향적 특징과 변이성을 반영할 수 있도록 그림 3과 같이 음소의 처음, 중간, 끝 프레임의 13차 MFCC벡터를 결합하여 트라이폰 클러스터링용 음편의 음향 벡터로 표현하였다. 코퍼스 기반 음편접합 TTS에서 합성DB를 감축하기 위해 그림 3과 같이 표현된 음편들을 이용하여 각 중심 음소별로 트라이폰 클러스터링 과정을 거쳐 트리를 구축하였다.
코퍼스 기반 음편접합 TTS에서 합성DB를 감축하기 위해 triphone 별 후보들의 사용빈도와 유사도를 기준으로 응집 클러스터링을 적용하는 연구가 진행되었다 [5]. 여기서 사용 빈도는 대용량 텍스트을 대상으로 합성을 수행하였을 때 각 합성단위들의 사용횟수로 평가하였고 유사도는 각 구성단위들의 피치, 켑스트럼, 세기, 길이, 운율경계 등의 정보를 이용한 거리를 사용하였다. 그러나 이 방법은 triphone의 context 정보를 이용한 체계적인 클러스터링이 미흡하고 코퍼스 기반 합성의 장점인 다양한 운율의 구현이 미흡하였다.
그러나 본 연구에서는 품사열과 형태소를 바탕으로 대용량의 음성데이터를 분석하여 작성된 4,578개 규칙을 이용하여 운율경계 정보를 추정하였다. 운율 경계는 강세구 내, 강세구 경계, 억양구 경계 3단계로 구분하였다. 특히 억양구 경계에서는 끊어읽기가 적용되며 묵음구간이 삽입된다.
이후 대용량의 문장셋을 음성합성하는데 사용된 출현 단위들만을 대상으로 K-means 군집화를 적용하는 방법이 연구되었다 [6]. 이 방법에서는 음운학적 거리와 음향학적인 거리의 가중치 합을 이용하여 군집화를 수행하였다. 이 방법 역시 triphone의 context 정보를 이용한 체계적인 클러스터링이 적용되지 않으며 음성DB에 누락된 triphone들에 대한 대책도 미흡하다.
표 1, 2는 문맥질의를 생성하는데 사용된 조음환경을 바탕으로 유/무성, 음운환경, 조음방법 분류표이다. 이를 이용하여 표 3과 같이 285개의 문맥질의를 3단계로 구분해 작성하였고, 트리의 높이에 따라 상위레벨에서는 포괄적인 문맥질의를 하위레벨에서는 세부적인 문맥질의를 적용하였으며 표 4의 예와 같다.
상기 과정으로 구한 37,808 트라이폰 음편들의 음향적 특징과 변이성을 반영할 수 있도록 그림 3과 같이 음소의 처음, 중간, 끝 프레임의 13차 MFCC벡터를 결합하여 트라이폰 클러스터링용 음편의 음향 벡터로 표현하였다. 코퍼스 기반 음편접합 TTS에서 합성DB를 감축하기 위해 그림 3과 같이 표현된 음편들을 이용하여 각 중심 음소별로 트라이폰 클러스터링 과정을 거쳐 트리를 구축하였다.
평가실험은 실험실 환경에서 PC와 일반 스피커를 이용하여 1m 떨어진 청취자에게 합성음을 들려주었다. 먼저 평가에 사용될 음성데이터를 미리 작성하여 PC에 저장한 뒤 스피커를 통하여 먼저 원음을 들려준 뒤, 동일한 문장의 합성음을 들려주고 자연성과 명료도를 판단하여 점수를 기록하도록 하였다.
품사 추정기는 16,239개의 형태소 관련 정보로 구성된 형태소 사전과 파싱 문법을 이용하여 입력 문장을 형태소 단위로 분석하고 품사를 추정한다. 한국어 품사 태깅은 형태소를 기본 단위로 하였으며 먼저 입력된 문장에서 어절별 형태소 단위로 분리한다.
합성단위 음편 데이터베이스는 무제한 텍스트를 합성할 수 있도록 다양한 음운환경과 운율환경을 수용하고 있는 ETRI 음성합성용 DB를 이용하여 구축하였다.

대상 데이터

본 논문에서 제안한 방법의 성능을 비교하기 위해서 표 7과 같이 트리 클러스터링 방법 CM1, CM2와 전체 DB(Full DB)와 감축된 DB(Reduced DB)의 4가지 유형으로 제작된 음편 데이터베이스를 이용하였다. 각 유형의 음편DB를 이용한 합성음을 들려주고 가장 좋으면 5점, 가장 듣기 싫은 합성음이면 1점을 주는 주관적 평가인 MOS (Mean Opinion Score) 테스트를 수행하였다.
한국어 품사 태깅은 형태소를 기본 단위로 하였으며 먼저 입력된 문장에서 어절별 형태소 단위로 분리한다. 본 연구에서 사용한 한국어 품사세트는 보통명사, 고유명사, 의존명사, 대명사, 수사, 동사, 형용사, 보조용언, 관형사, 부사, 감탄사, 격조사, 서술격조사, 보조사, 선어말 어미, 연결어미, 전성어미, 종결어미, 접미사 등 58개로 이루어져 있다. 또, 주어진 문장에 대한 최적 품사열 찾기는 각각의 어절에 대해서 독립적으로 HMM을 적용한 후에 각각의 결과로부터 Viterbi 알고리즘을 이용하여 주어진 문장 전체에 최적인 품사열을 구하였다.
먼저 트라이폰 HMM 음향모델은 5-상태를 가지는 left-right HMM기반 음소단위 음향모델을 구성하고 음성 DB를 사용하여 구성된 음소모델들을 훈련한다. 음소모델은 초성 18개, 중성 19개, 종성 7개, 묵음 1개로 구성된 45개의 음소에 대해, 초성의 경우 어절시작/어절내 정보를, 중성의 경우 어절시작/어절내/어절끝 정보를, 종성의 경우 어절내/어절끝 정보를 추가하여 총 108개로 구성하였다. 그리고 훈련된 음소모델을 기반으로 트라이폰 모델을 구성한 뒤, 다시 음성 DB를 사용해 트라이폰 모델을 훈련하였다.
청취평가 실험은 객관적인 평가를 위해 청취자에게 합성음에 대한 어떠한 정보도 제공하지 않았으며 합성음에 경험이 없는 울산 거주 20대 남녀 대학생 10명을 대상으로 실시하였다.
합성음 평가에 사용될 문장은 ETRI 음성합성용 DB에서 임의로 10 문장을 선정하였고 합성단위 음편 데이터베이스는 이 문장들을 제외한 음성데이터로 구축하였다. 합성음은 2장에서 언급한 한국어 TTS 기본 시스템을 이용하여 생성하였다.

이론/모형

그리고 훈련된 음소모델을 기반으로 트라이폰 모델을 구성한 뒤, 다시 음성 DB를 사용해 트라이폰 모델을 훈련하였다. 음성 특징파라미터는 인간의 청각 특성을 반영하고 다양한 잡음환경/화자/채널 변이에 강인한 MFCC (Mel- Frequency Cepstral Coefficient)를 사용하였다.
합성음 평가에 사용될 문장은 ETRI 음성합성용 DB에서 임의로 10 문장을 선정하였고 합성단위 음편 데이터베이스는 이 문장들을 제외한 음성데이터로 구축하였다. 합성음은 2장에서 언급한 한국어 TTS 기본 시스템을 이용하여 생성하였다.
훈련은 음향모델 λ와 주어진 훈련 데이터 D에 대해 likelihood (L(D|λ))가 최대가 되도록 전향-후향 알고리즘(foward-backward algorithm)이 포함되어 있는 BaumWelch algorithm을 사용하여 새로운 모델 λ*을 찾는 과정을 반복하였다.

성능/효과

8%) 크다. 그러나 제안된 방법을 사용하여 TTS에 사용되는 합성유닛을 선택할 경우 기존 방법보다 목표로 하는 모델과 음향적 특징이 유사한 모델을 선정 할 수 있음을 알 수 있었다.
실험을 통해서 제안된 음소단위 클러스터링 방식과 음편 선택 알고리즘은 음성 합성 DB의 크기를 기존의 결정트리 기반 클러스터링 방법과 비슷한 크기로 줄일 수 있었다. 그리고 합성음에 대한 청취실험 결과 본 논문에서 제안된 음소단위 클러스터링 방법을 이용하여 생성된 합성음의 MOS가 기존 결정트리 기반으로 생성된 합성음보다 높았다.
대용량 복수후보 합성용 DB의 감축 실험결과는 표 5과 같다. 본 논문에서 제안된 방법의 경우 436MB로 전체 음성데이터를 23%로 축소시킬 수 있었다. 제안된 방법이 기존 결정트리 기반 클러스터링 방법에 비해서 DB크기가 24MB (약 5.
10명중 최상/하의 점수를 제외한 평균 MOS 테스트 결과는 표 8과 같다. 실험 결과 CM2+전체 DB를 이용한 합성음의 MOS가 가장 높았으며, 감축된 DB를 사용한 경우에는 트리 구축 방법과 상관없이 합성음의 명료성, 자연성이 저하됨을 확인 할 수 있었다.
실험을 통해서 제안된 음소단위 클러스터링 방식과 음편 선택 알고리즘은 음성 합성 DB의 크기를 기존의 결정트리 기반 클러스터링 방법과 비슷한 크기로 줄일 수 있었다. 그리고 합성음에 대한 청취실험 결과 본 논문에서 제안된 음소단위 클러스터링 방법을 이용하여 생성된 합성음의 MOS가 기존 결정트리 기반으로 생성된 합성음보다 높았다.
이상의 실험결과를 통하여 본 논문에서 제안한 대용량 복수후보 TTS 방식에서 합성용 DB의 감축 방법은 트라이폰 기반의 음편접합 TTS에 활용할 수 있는 가능성을 보였다.
본 논문에서 제안된 방법의 경우 436MB로 전체 음성데이터를 23%로 축소시킬 수 있었다. 제안된 방법이 기존 결정트리 기반 클러스터링 방법에 비해서 DB크기가 24MB (약 5.8%) 크다. 그러나 제안된 방법을 사용하여 TTS에 사용되는 합성유닛을 선택할 경우 기존 방법보다 목표로 하는 모델과 음향적 특징이 유사한 모델을 선정 할 수 있음을 알 수 있었다.
합성단위 음편 DB를 제안된 방법으로 군집화한 결과를 바탕으로 각 최종 노드내 음편 수에 대한 분포를 분석한 결과를 그림 4에 나타내었다. 최종 노드수는 트라이폰 모델 수와 같으며 단 하나의 음편을 보유한 트라이폰의 수는 11,504개 (30.51%)이며, 10개 이상의 음편을 보유한 트라이폰의 수는 9,279개(24.61%)이다. 실제로 24.

핵심어	질문	논문에서 추출한 답변
	HTK의 결정트리 기반 군집화 방법의 단점은 무엇인가?	군집화의 각 단계에서 log likelihood가 최대가 되도록 문맥질의를 선정함으로써 context 정보를 이용한 체계적인 클러스터링이 가능하다. 그러나 이는 음성인식에 적합한 형태의 triphone state의 군집화방식으로서 음운, 음향특성이 고려되어야 하는 코퍼스 기반 음편접합 TTS 방식에 적용하기 어렵다. 그리고 군집화의 각 단계에서 log likelihood가 최대가 되도록 문맥질의를 선정함으로써 훈련용 음편의 양과 문맥 분포에 따라 트리의 상위 부분에서 세부적인 문맥질의, 트리의 하위부분에서 포괄적인 문맥질의가 위치할 수 있는 단점이 있다.
	코퍼스 기반 음편접합 TTS에서 합성음의 자연성과 명료도가 높은 이유는 무엇인가?	현재 코퍼스 기반 음편접합 Text-to-Speech(TTS)의 합성음은 자연성, 명료도가 매우 우수하여 상용화된 TTS시스템의 주류를 이루고 있다 [1]-[3]. 코퍼스 기반 음편접합 TTS는 운율변경을 위한 신호처리를 적용하지 않고 대용량 음성 DB복수후보 중에서 최적의 음편들을 결합해 합성음을 생성하기 때문에 합성음의 자연성과 명료도가 높다. 그러나 자연성, 개인성, 대화체, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운 환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성 DB의 크기를 감축하기 위한 연구가 필수적이다.
	음편접합 TTS의 장점은 무엇인가?	대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 그러나 자연성, 개인성, 어조, 감정구현 등에서 활용성을 높이기 위해서는 음성DB의 크기가 비례적으로 증가하게 되므로 음운환경과 음향적 특성이 유사한 다수의 음편들을 제거하여 음성DB의 크기를 감축하기 위한 연구가 필수적이다 본 논문에서는DB감축을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 이용하여 한국어 TTS용 합성단위음편 데이터베이스 구축 방법을 제안한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안
UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안 UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

이정철 (18)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

대용량 한국어 TTS의 결정트리기반 음성 DB 감축 방안
UA Tree-based Reduction of Speech DB in a Large Corpus-based Korean TTS 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper