최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.9 no.1, 2017년, pp.41 - 47
유효근 (한국과학기술원 전기및전자공학부) , 김영관 (한국과학기술원) , 서영주 (한국과학기술원 전기및전자공학부) , 김회린 (한국과학기술원 전기및전자공학부)
The main advantage of the statistical parametric speech synthesis is its flexibility in changing voice characteristics. A personalized text-to-speech(TTS) system can be implemented by combining a speech synthesis system and a voice transformation system, and it is widely used in many application are...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
텍스트 음성 변환시스템은 무엇인가? | 텍스트 음성 변환(text-to-speech, TTS)시스템이란 입력으로 들어오는 텍스트 또는 일련의 문자열을 자연스러운 음성을 내는 음성 신호로 바꿔주는 기술을 말한다. 일반적인 TTS 시스템은 앞단의 텍스트 분석부와 뒷단의 음성 합성부로 구성된다 (Tokuda et al. | |
음성 합성 방법은 1960년 이후 어떤 방법으로 음성파형을 생성하였는가? | 음성 합성 방법에는 여러 가지 기술들이 활용되고 발전되어 왔다. 그 흐름을 살펴보면 1960 년대 이후에는 조음기관 합성기(articulatory synthesis)나 포먼트 합성기(formant synthesis)와 같은 규칙기반(rule-based)의 방법으로 음성 파형을 생성했다. 점차 컴퓨터 연산능력이 발전하고 다량의 음성데이터를 수집하면서 1990 년대에 들어서부터 데이터 기반(data-driven)의 접근방식이 행해졌다. | |
일반적인 TTS 시스템은 무엇으로 구성되는가? | 텍스트 음성 변환(text-to-speech, TTS)시스템이란 입력으로 들어오는 텍스트 또는 일련의 문자열을 자연스러운 음성을 내는 음성 신호로 바꿔주는 기술을 말한다. 일반적인 TTS 시스템은 앞단의 텍스트 분석부와 뒷단의 음성 합성부로 구성된다 (Tokuda et al., 2013). |
Assmann, P. F., Nearey, T. M., & Scott, J. M. (2002). Modeling the perception of frequency-shifted vowels. Proceedings of the 7th International Conference on Spoken Language Processing (pp. 425-428).
Kawahara, H. (2006). STRAIGHT, exploration of the other aspect of vocoder: Perceptually isomorphic decomposition of speech sounds. Journal of Acoustical Science and Technology, 27, 349-353.
Saheer, L., Dines, J., & Garner, P. N. (2012). Vocal tract length normalization for statistical parametric speech synthesis. IEEE Transactions on Audio, Speech, and Language Processing, 20(7), 2134-2148.
Saheer, L., Dines, J., Garner, P. N., & Liang, H. (2010). Implementation of VTLN for Statistical Speech Synthesis. Proceedings of the 7th ISCA Speech Synthesis Workshop (pp. 224-229).
Stylianou, Y. (2009). Voice transformation: A survey. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (pp. 3585-3588).
Sundermann, D., & Ney, H. (2003). VTLN-based voice conversion. Proceedings of the 3rd IEEE International Symposium on Signal Processing and Information Technology (pp. 556-559).
Tokuda, K., Masuko, T., Kobayashi, T., & Imai, S. (1994). Mel-generalized cepstral analysis - A unified approach to speech spectral estimation. Proceedings of the International Conference on Spoken Language Processing (pp. 1043-1046).
Tokuda, K., Nankaku, Y., Toda, T., Zen, H., Yamagishi, J ., & Oura, K. (2013). Speech Synthesis Based on Hidden Markov Models. Proceedings of the IEEE (pp. 1234-1252).
Zen, H., Toda, T., Nakamura, M., & Tokuda, K. (2007). Details of the Nitech HMM-based speech synthesis system for Blizzard Challenge 2005. IEICE Transactions on Information and Systems, E90-D, 325-333.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.