최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.4 no.3, 2012년, pp.111 - 117
In this paper, we compare the performance of several speaker adaptation methods for a HMM-based Korean speech synthesis system with small amounts of adaptation data. According to objective and subjective evaluations, a hybrid method of constrained structural maximum a posteriori linear regression (C...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음성합성이란? | 음성합성은 문자를 음성으로 변환하는 기술로, 현재 대용량의 음성 데이터베이스(DB)를 사용하여 높은 음질의 합성음을 생성할 수 있는 코퍼스 기반의 음성합성방식이 주로 사용되고 있다. 이러한 음성합성기술은 우리 생활의 다양한 분야에 사용되고 있으며, 그에 따라 사용자가 원하는 음색의 음성합성 기에 대한 요구도 증가되고 있다. | |
코퍼스 기반의 음성합성기를 구현하기 위해서는 무엇이 필요한가? | 이러한 음성합성기술은 우리 생활의 다양한 분야에 사용되고 있으며, 그에 따라 사용자가 원하는 음색의 음성합성 기에 대한 요구도 증가되고 있다. 그러나 다양한 음색을 보유한 코퍼스 기반의 음성합성기를 구현하기 위해서는 각 음색에 대한 대용량 DB 작업이 필요하기 때문에, 실제 사용자가 원하는 음색의 합성기를 제공하기는 쉽지 않다. | |
음성합성에 화자적응 기법을 이용하면서 어떤 장점을 가지게 되는가? | 코퍼스 기반의 음성합성은 대량의 음성파 형을 적절히 가공하여 사용하는 방식이지만, HTS는 음성의 파라미터를 추출하여 이를 통계학적 모델로 변환하는 방식이기 때문에 적은 DB로도 합성기를 만들 수 있으며, 음성 파라미터를 변경함으로써 다양한 형태로 음성 변환이 가능하다는 장점을 가진다. 특히 화자적응을 이용하면 사용자가 원하는 특정 음성에 대한 적은 음성 DB만으로도 다수의 화자로부터 구한 음성 모델을 특정음성 모델로 변환할 수 있다. 이와 같은 장점 때문에 비록 HTS가 코퍼스 기반의 음성합성에 비해 상대적으로 음질이 저하됨에도 불구하고 이에 대한 요구가 늘어나고 있으며 활발한 연구가 진행되고 있다[2]. |
Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T. & Kitamura, T. (1999). Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis. Proc. of Eurospeech, 2347-2350.
http://www.synsig.org/index.php/Blizzard_Challenge_2012_Workshop.
Yamagishi, J. & Kobayashi, T. (2007). Average-voice-based speech synthesis using HSMM-based speaker adaptation and adaptive training. IEICE Trans. Inf. Syst. E90-D(2), 533-543.
Yamagishi, J., Kobayashi, T., Nakano, Y., Ogata, K. & Isogai, J. (2009). Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm. IEEE Trans. Audio, Speech, Language Process., 17(1), 66-83.
Yamagishi, J., Ogata, K., Nakano, Y., Isogai, J. & Kobayashi, T. (2006). HSMM-based model adaptation algorithms for average-voice-based speech synthesis. Proc. ICASSP, 77-80.
Zen, H., Tokuda, K., Masuko, T., Kobayashi, T. & Kitamura, T. (2004). Hidden semi-Markov model based speech synthesis. Proc. of ICSLP, 1397-1400.
Shinoda K. & Lee, C.-H. (2001). A structural Bayes approach to speaker adaptation. IEEE Trans. Speech, Audio Process., 9(3), 276-287.
Yamagishi, J. & Kobayashi, T. (2005). Adaptive training for Hidden semi-Markov model. Proc. ICASSP, 365-368.
http://hts.sp.nitech.ac.jp/archives/2.2/HTS-demo_CMU-ARCTICSLT_STRAIGHT.tar.bz2.
Lee, H. & Kim, H. S. (2012). Performance comparison of speaker adaptation methods for HMM-based Korean speech synthesis system. Proc. of Spring Conference of Korean Society of Speech Sciences, 241-242. (이혜민, 김형순 (2012). HMM 기반의 한국어 음성합성에서의 화자적응 방식 성능 비교. 한국음성학회 봄 학술대회, 241-242.)
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.