최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기Journal of the convergence on culture technology : JCCT = 문화기술의 융합, v.6 no.2, 2020년, pp.509 - 514
The conventional TTS system consists of several modules, including text preprocessing, parsing analysis, grapheme-to-phoneme conversion, boundary analysis, prosody control, acoustic feature generation by acoustic model, and synthesized speech generation. But TTS system with deep learning is composed...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
WaveGlow는 하나의 손실 함수를 사용하여 학습 데이터의 likelihood를 최대화 하도록 학습하는 하나의 망구조로 구성되어 있는데, 이러한 형태로 가질 수 있는 장점은? | WaveGlow는 하나의 손실 함수를 사용하여 학습 데이터의 likelihood를 최대화 하도록 학습하는 하나의 망구조로 구성되어 있다. 따라서 구현하기가 간단하고 학습 과정이 단순하며 안정화 되어 있다. 그리고 병렬로 확률분포를 예측하고 병렬로 합성음을 생성하여 처리 속도를 높인다. | |
텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 어떠한 시스템인가? | 텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 입력으로 임의의 텍스트를 받아들여 음성신호를 합성하여 출력한다. 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모 듈로 구성되어 있다. | |
기존의 TTS 시스템은 어떠한 모듈들로 구성되어 있는가? | 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. |
Robert M. Gray, "A history of realtime digital speech on packet networks: part II of linear predictive coding and the internet protocol", Foundations and Trends in Signal Processing, Vol. 3, No. 4, pp. 203-303, 2010.
D. H. Klatt and L. C. Klatt, "Analysis, synthesis and perception of voice quality variation among female and male talkers", Journal of Acoustical Society of America, Vol. 83, pp. 820-857, 1990.
Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications", IEICE Trans. on Information and Systems, Vol. 99, No. 7, pp. 1,877-1,884, 2016.
Hideki Kawahara, Ikuyo Masuda-Katsuse, Alain de Cheveigne, "Restructuring speech representations using a pitch-adaptive timefrequency smoothing and an instantaneousfrequency based F0 extraction", Speech Communication, Vol. 27, pp. 187-207, 1999.
Xin Wang, Jaime Lorenzo-Trueba, Shinji Takaki, Lauri Juvela, Junichi Yamagishi, "A comparison of recent waveform generation and acoustic modeling methods for neural network based speech synthesis", Proc. International Conference on Acoustics, Speech, and Signal Processing, pp. 4,804-4,808, 2018.
Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu, "WaveNet: A generative model for raw audio," arXiv preprint https://arxiv.org/pdf/1609.03499.pdf, 2016 Sep.
Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, Koray Kavukcuoglu. "Efficient neural audio synthesis", arXiv preprint. https://arxiv.org/pdf/1802.08435.pdf, 2018, Feb.
Ryan Prenger, Rafael Valle, Bryan Catanzaro, "WaveGlow: A flow-based generative network for speech synthesis", arXiv preprint. https://arxiv.org/pdf/1811.00002.pdf, 2018 Nov.
J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, Rif A. Saurous, Y. Agiomyrgiannakis, Y. Wu, "Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions", arXiv preprint https://arxiv.org/pdf/1712.05884.pdf, 2017 Dec.
Wei Ping, Kainan Peng, Kexin Zhao, Zhao Song, "WaveFlow: A compact flow-based model for raw audio", arXiv preprint. https://arxiv.org/pdf/1912.01219.pdf, 2019, Dec.
J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, Y. Bengio, "Attention-based models for speech recognition", Proc. Neural Information Processing Systems, pp. 577-585, 2015.
Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim, "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram", arXiv preprint. https://arxiv.org/pdf/1910.11480.pdf, 2019 Oct.
K. Kumar, R. Kumar, T. de Boissiere, L. Gestin, W. Z. Teoh, J. Sotelo, A. de Brebisson, Y. Bengio, A. Courville, "MelGAN: Generative adversarial networks for conditional waveform synthesis", Proc. Neural Information Processing Systems(NeurIPS 2019), poster, 2019 Dec.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.