음성 합성 시스템은 주어진 텍스트를 대응하는 음성으로 변환하여 출력해주는 시스템이다. 텍스트를 음성으로 변환하는 것은 음성 데이터가 텍스트에 비해 차원이 크고, 사람에 따라 다르게 인식하는 문제로 인해 개발에 어려움을 겪어 왔다. 그러나 최근 인공신경망이 발전하면서 음성 합성 분야에도 인공신경망을 기반으로 한 ...
음성 합성 시스템은 주어진 텍스트를 대응하는 음성으로 변환하여 출력해주는 시스템이다. 텍스트를 음성으로 변환하는 것은 음성 데이터가 텍스트에 비해 차원이 크고, 사람에 따라 다르게 인식하는 문제로 인해 개발에 어려움을 겪어 왔다. 그러나 최근 인공신경망이 발전하면서 음성 합성 분야에도 인공신경망을 기반으로 한 딥러닝이 적용되어, End-to-End 방식의 음성 합성 연구가 활발히 진행되고 있다. 본 연구는 딥러닝을 기반으로 한 End-to-End 방식의 음성 합성 기법 중에서도 가장 큰 주목을 받았던 Tacotron과 FastSpeech 두 개 모델에 집중하였다. 두 모델은 텍스트 데이터를 스펙트로그램으로 변환하는 역할을 수행한다. 하지만 Tacotron은 Sequence-to-sequence 모델을 기반으로 하였고, FastSpeech는 Transformer 모델을 활용하여 작성했다. 두 모델 모두 시계열 데이터를 다루는데 적합한 구조이지만, 내부 연산 및 레이어의 역할에 따른 차이를 갖는다. 본 연구는 각 모델의 이러한 구조적 특징을 살피고, 실험을 거쳐 각 모델이 갖는 장단점에 대해 비교 분석했다. 이를 통해, 해당 두 모델 이후 진행될 음성 합성 모델 연구에 기여하는 계기를 마련하고자 한다.
음성 합성 시스템은 주어진 텍스트를 대응하는 음성으로 변환하여 출력해주는 시스템이다. 텍스트를 음성으로 변환하는 것은 음성 데이터가 텍스트에 비해 차원이 크고, 사람에 따라 다르게 인식하는 문제로 인해 개발에 어려움을 겪어 왔다. 그러나 최근 인공신경망이 발전하면서 음성 합성 분야에도 인공신경망을 기반으로 한 딥러닝이 적용되어, End-to-End 방식의 음성 합성 연구가 활발히 진행되고 있다. 본 연구는 딥러닝을 기반으로 한 End-to-End 방식의 음성 합성 기법 중에서도 가장 큰 주목을 받았던 Tacotron과 FastSpeech 두 개 모델에 집중하였다. 두 모델은 텍스트 데이터를 스펙트로그램으로 변환하는 역할을 수행한다. 하지만 Tacotron은 Sequence-to-sequence 모델을 기반으로 하였고, FastSpeech는 Transformer 모델을 활용하여 작성했다. 두 모델 모두 시계열 데이터를 다루는데 적합한 구조이지만, 내부 연산 및 레이어의 역할에 따른 차이를 갖는다. 본 연구는 각 모델의 이러한 구조적 특징을 살피고, 실험을 거쳐 각 모델이 갖는 장단점에 대해 비교 분석했다. 이를 통해, 해당 두 모델 이후 진행될 음성 합성 모델 연구에 기여하는 계기를 마련하고자 한다.
Text-to-Speech System or Speech Synthesis System converts given text data into corresponding speech waveform. Since TTS is dimension-expansion problem and evaluation of speech data varies among evaluators’ personal opinion, developing well-performing TTS model was difficult. However, with the recent...
Text-to-Speech System or Speech Synthesis System converts given text data into corresponding speech waveform. Since TTS is dimension-expansion problem and evaluation of speech data varies among evaluators’ personal opinion, developing well-performing TTS model was difficult. However, with the recent advance in artificial neural network, end-to-end TTS system has been introduced and developed with much attention. ‘ This study is aimed at comparative analysis of the two end-to-end TTS system: Tacotron and FastSpeech. Both models convert text data into spectrograms and are based on the neural network suitable for computing sequential data. However, while Tacotron has its root on sequence-to-sequence model with attention mechanism, FastSpeech is based on Transformer network with self-attention. This paper sought to analyze the structure of each model, examine the performance and suggest further research on end-to-end deep learning-based TTS models.
Text-to-Speech System or Speech Synthesis System converts given text data into corresponding speech waveform. Since TTS is dimension-expansion problem and evaluation of speech data varies among evaluators’ personal opinion, developing well-performing TTS model was difficult. However, with the recent advance in artificial neural network, end-to-end TTS system has been introduced and developed with much attention. ‘ This study is aimed at comparative analysis of the two end-to-end TTS system: Tacotron and FastSpeech. Both models convert text data into spectrograms and are based on the neural network suitable for computing sequential data. However, while Tacotron has its root on sequence-to-sequence model with attention mechanism, FastSpeech is based on Transformer network with self-attention. This paper sought to analyze the structure of each model, examine the performance and suggest further research on end-to-end deep learning-based TTS models.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.