[논문]한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교

권철홍

doi:10.17703/jcct.2020.6.2.509

한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교
Performance Comparison of State-of-the-Art Vocoder Technology Based on Deep Learning in a Korean TTS System 원문보기

Journal of the convergence on culture technology : JCCT = 문화기술의 융합, v.6 no.2, 2020년, pp.509 - 514

초록
AI-Helper

기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. 본 논문에서는 최적의 한국어 TTS 시스템 구성을 위해 Tex2Mel 과정에는 Tacotron2를 적용하고, 보코더로는 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증한다. 실험 결과, WaveNet은 MOS가 가장 높으며 학습 모델 크기가 수백 MB이고 합성시간이 실시간의 50배 정도라는 결과가 나왔다. WaveRNN은 WaveNet과 유사한 MOS 성능을 보여주며 모델 크기가 수십 MB 단위이고 실시간 처리는 어렵다는 결과가 도출됐다. WaveGlow는 실시간 처리가 가능한 방법이며 모델 크기가 수 GB이고 MOS가 세 방식 중에서 가장 떨어진다는 결과를 보여주었다. 본 논문에서는 이러한 연구 결과로부터 TTS 시스템을 적용하는 분야의 하드웨어 환경에 맞춰 적합한 방식을 선정할 수 있는 참고 기준을 제시한다.

Abstract ▼ AI-Helper

The conventional TTS system consists of several modules, including text preprocessing, parsing analysis, grapheme-to-phoneme conversion, boundary analysis, prosody control, acoustic feature generation by acoustic model, and synthesized speech generation. But TTS system with deep learning is composed of Text2Mel process that generates spectrogram from text, and vocoder that synthesizes speech signals from spectrogram. In this paper, for the optimal Korean TTS system construction we apply Tacotron2 to Tex2Mel process, and as a vocoder we introduce the methods such as WaveNet, WaveRNN, and WaveGlow, and implement them to verify and compare their performance. Experimental results show that WaveNet has the highest MOS and the trained model is hundreds of megabytes in size, but the synthesis time is about 50 times the real time. WaveRNN shows MOS performance similar to that of WaveNet and the model size is several tens of megabytes, but this method also cannot be processed in real time. WaveGlow can handle real-time processing, but the model is several GB in size and MOS is the worst of the three vocoders. From the results of this study, the reference criteria for selecting the appropriate method according to the hardware environment in the field of applying the TTS system are presented in this paper.

주제어

표/그림 (3)

표 표 1. 세 가지 보코더의 합성시간 및 학습모델 크기 비교 Table 1. Comparison of synthesis time and model sizes of three vocoders
표 표 2. 세 가지 보코더의 합성음에 대한 음소인식 오류율 비교 Table 2. Comparison of phoneme recognition error rates for synthesized speech of three vocoders
표 표 3. 세 가지 보코더의 합성음에 대한 MOS 성능 비교 Table 3. MOS performance comparison of synthesized speech of three vocoders

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 최적의 한국어 TTS 시스템 설계를 위해 보코더의 최첨단 기술인 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증하였다. 텍스트에서 스펙트로그램의 생성은 최첨단 기술인 Tacotron2를 적용하고, 스펙트로그램에서 합성음의 생성은 상기 세 가지 보코더 기술을 적용하였다.

가설 설정

그리고 이 스펙트럼에서 위상 성분은 무시하고 진폭 스펙트럼만을 이용하여 켑스트럼을 구한다. 보코더가 켑스트럼에서 음성신호를 복원할 때 복소수 스펙트럼을 생성하기 위해 음성신호가 최소 위상 (minimum phase)을 갖는다고 가정한다. 소스-필터 모델 구조의 한계뿐만 아니라, 최소 위상을 갖는다는 가정으로 스펙트럼이 손실되는 단점을 갖게 된다[5].
보코더가 켑스트럼에서 음성신호를 복원할 때 복소수 스펙트럼을 생성하기 위해 음성신호가 최소 위상 (minimum phase)을 갖는다고 가정한다. 소스-필터 모델 구조의 한계뿐만 아니라, 최소 위상을 갖는다는 가정으로 스펙트럼이 손실되는 단점을 갖게 된다[5].

제안 방법

MOS 청취 평가자를 대상으로 합성음에 대해 전체적인 총평을 수집하였다. WaveNet과 WaveRNN에 대해서는 ‘사람이 발성한 수준으로 자연스럽다’가 주를 이루었다.
합성음에 대한 주관적인 청취 평가를 위해 MOS (mean opinion score) 평가를 실시하였다. MOS 평가는 20대부터 40대까지 25인이 25개 합성음에 대해 각각 2 번씩 청취하고, 각 합성음에 대해 1점에서 5점까지 점수를 부여하는 절대 평가로 실시하였다. 표 3을 보면, WaveNet, WaveRNN, WaveGlow의 MOS 평균값은 각각 4.
TTS 프레임워크에서 보코더의 성능을 비교하기 위해, 입력 텍스트에서 음향 특징을 예측하는 Tacotron2 와 음향 특징에서 음성신호를 생성하는 보코더를 결합 한다. Tacotron2에서 모델을 학습하기 위해 입력으로 텍스트 시퀀스를, 목표 음향 특징으로는 녹음된 음성 DB에서 추출한 멜-스펙트로그램을 사용한다.
TTS 프레임워크에서 보코더의 성능을 비교하기 위해, 입력 텍스트에서 음향 특징을 예측하는 Tacotron2 와 음향 특징에서 음성신호를 생성하는 보코더를 결합 한다. Tacotron2에서 모델을 학습하기 위해 입력으로 텍스트 시퀀스를, 목표 음향 특징으로는 녹음된 음성 DB에서 추출한 멜-스펙트로그램을 사용한다. 보코더는 Tacotron2를 학습하기 위해 사용한 멜-스펙트로그램을 음향 특징으로 하여 모델을 학습한다.
음성신호는 프리엠퍼시스를 거친 뒤 (-1 ~ 1) 범위로 크기를 정규화 한다. 그리고 Hanning 윈도우 크기를 1,024로 하여 프레임 단위로 나누어, 프 레임을 12.5 msec 마다 이동하여 1,024 크기의 단구간 푸리에 변환 처리를 한다. 이렇게 생성된 선형 진폭 스펙트로그램으로부터 최소와 최대 주파수를 각각 125 Hz, 7600 Hz로 하여 80 차원의 멜-스펙트로그램을 구하고, 이를 로그 값으로 변환한다.
따라서 구현하기가 간단하고 학습 과정이 단순하며 안정화 되어 있다. 그리고 병렬로 확률분포를 예측하고 병렬로 합성음을 생성하여 처리 속도를 높인다.
Tacotron2에서 모델을 학습하기 위해 입력으로 텍스트 시퀀스를, 목표 음향 특징으로는 녹음된 음성 DB에서 추출한 멜-스펙트로그램을 사용한다. 보코더는 Tacotron2를 학습하기 위해 사용한 멜-스펙트로그램을 음향 특징으로 하여 모델을 학습한다. 합성시에는, Tacotron2에서 학습된 모델을 이용하여 임의의 입력 텍스트로부터 음향 특징인 멜-스펙트로그램을 생성하고, 보코더는 이를 입력으로 음성신호를 합성한다.
본 논문에서는 딥러닝 기반 최첨단 보코더 기술인 WaveNet[6], WaveRNN[7], WaveGlow[8]를 소개하고, 텍스트에서 스펙트로그램을 생성하는 Tacotron2[9]와 결합하여 한국어 TTS 시스템을 구성하고, 세 가지 보코더 기술의 성능과 장단점을 비교한다.
본 논문에서는 이 중에서 합성음을 생성하는 보코더 기술을 다루는데, 기존에는 LPC[1], Formant[2], World[3], Straight[4] 방식 등 소스-필터 모델이 사용되어 왔다. 이 방식은 기본 주파수(F0), 발화 속도 등을 이용하여 운율을 조절할 수 있고, TTS 음성 합성에 필요한 음성 DB가 적어도 된다는 점을 갖고 있지만, 보코더 모델의 구조와 음향 특징(acoustic features)의 한계로 합성음의 품질 이 떨어지는 단점을 갖고 있다.
본 연구에서 음성 DB는 잡음이 없는 조용한 스튜디오 환경에서 전문 여성 성우가 녹음한 13,000개의 발화를 사용하고, 이 음성 DB는 샘플링 주파수 22,050 Hz, 선형 PCM 16 비트 포맷으로 저장되었다. 각 발화는 한 문장 또는 두 개 이상의 문장으로 구성되어 있고, 낭독체와 대화체 문장이 포함되어 있으며, 녹음 분량은 약 18.
이 절에서는 Google Deepmind에서 제안한 WaveNet 과 이를 TTS 시스템에 적용하기 위해 일부 수정한 버 전인 Tacotron2와, 역시 Google Deepmind에서 제안한 WaveRNN과, 그리고 Nvidia에서 제안한 WaveGlow를 소개한다.
5 msec 마다 이동하여 1,024 크기의 단구간 푸리에 변환 처리를 한다. 이렇게 생성된 선형 진폭 스펙트로그램으로부터 최소와 최대 주파수를 각각 125 Hz, 7600 Hz로 하여 80 차원의 멜-스펙트로그램을 구하고, 이를 로그 값으로 변환한다.
인코더는 입력 문자열을 은닉 특징 표현 (hidden feature representation)으로 변환한다. 입력 문자는 512 차원의 문자 임베딩을 거쳐 3개의 컨볼루션 계층을 통과하는데, 이 계층은 입력 문자열의 장구간 문맥을 모델링한다. 마지막 컨볼루션 계층의 출력은 하나의 양방향 장단기 기억 신경망(Bidirectional LongShort-Term Memory, BLSTM)으로 들어가 문자열을 인코딩하게 된다.
본 논문에서는 최적의 한국어 TTS 시스템 설계를 위해 보코더의 최첨단 기술인 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증하였다. 텍스트에서 스펙트로그램의 생성은 최첨단 기술인 Tacotron2를 적용하고, 스펙트로그램에서 합성음의 생성은 상기 세 가지 보코더 기술을 적용하였다.
보코더는 Tacotron2를 학습하기 위해 사용한 멜-스펙트로그램을 음향 특징으로 하여 모델을 학습한다. 합성시에는, Tacotron2에서 학습된 모델을 이용하여 임의의 입력 텍스트로부터 음향 특징인 멜-스펙트로그램을 생성하고, 보코더는 이를 입력으로 음성신호를 합성한다.
합성음에 대한 명료도 평가를 위하여 음성인식 시스템을 이용하여 100개 문장에 대한 음소인식률을 구하였 다. 본 연구에서 사용한 화자의 음성 DB를 이용하여 화자종속 음성인식 시스템을 훈련하여, 100개 문장에 대해 구한 음소인식 오류율이 표 2에 보인다.

대상 데이터

13,000개 발화 중에서 12,950개를 학습용 데이터로, 50개를 검증용 데이터로 사용한다. 테스트용 문장은 별도로 100개 문장의 텍스트를 작성하여 음성인식 시스템을 이용한 명료도 테스트에, 그리고 별도로 25개 문장을 작성하여 주관적인 청취 평가에 사용하였다.
합성음에 대한 명료도 평가를 위하여 음성인식 시스템을 이용하여 100개 문장에 대한 음소인식률을 구하였 다. 본 연구에서 사용한 화자의 음성 DB를 이용하여 화자종속 음성인식 시스템을 훈련하여, 100개 문장에 대해 구한 음소인식 오류율이 표 2에 보인다. WaveNet, WaveRNN, WaveGlow의 음소인식 오류율은 각각 7.
13,000개 발화 중에서 12,950개를 학습용 데이터로, 50개를 검증용 데이터로 사용한다. 테스트용 문장은 별도로 100개 문장의 텍스트를 작성하여 음성인식 시스템을 이용한 명료도 테스트에, 그리고 별도로 25개 문장을 작성하여 주관적인 청취 평가에 사용하였다. 모델 학습과 합성음 생성을 위해 사용한 컴퓨터 환경은 운영체제로 Ubuntu 16.

이론/모형

합성음에 대한 주관적인 청취 평가를 위해 MOS (mean opinion score) 평가를 실시하였다. MOS 평가는 20대부터 40대까지 25인이 25개 합성음에 대해 각각 2 번씩 청취하고, 각 합성음에 대해 1점에서 5점까지 점수를 부여하는 절대 평가로 실시하였다.

성능/효과

10 이다. WaveNet과 WaveRNN의 MOS는 비슷하고 WaveGlow가 가장 나쁜데, 음소인식 오류율에서도 WaveGlow가 가장 나쁜 결과를 보여 준다. WaveGlow는 합성음의 스펙트로그램에서 일정한 주파수 간격마다 선 잡음(line noise)이 존재하는데[10], 이것이 MOS에 나쁜 영향을 준 것으로 볼 수 있다.

후속연구

WaveGlow는 합성음의 스펙트로그램에서 일정한 주파수 간격마다 선 잡음(line noise)이 존재하는데[10], 이것이 MOS에 나쁜 영향을 준 것으로 볼 수 있다. 본 연구에서는 (음성+잡음) 구간의 스펙트럼에서 잡음 구간의 스펙트럼을 빼는 스펙트럼 차감법을 적용하여 선 잡음을 일부 제거하였으나, 이를 완전히 제거하는 방법에 대한 연구가 추가적으로 필요함을 알 수 있다.
최근에 실시간 처리가 가능하며 모델크기도 작고 MOS 성능이 적당한 알고리즘에 대한 연구가 보고되고 있다. 이에는 생성적 적대 신경망 (Generative Adversarial Networks, GAN)을 음성 합성에 적용한 Parallel WaveGAN[12]과 MelGAN[13] 등이 제안되어 있는데, 이 방식들에 대한 구현과 성능 검증에 대해 추후 연구를 진행할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	WaveGlow는 하나의 손실 함수를 사용하여 학습 데이터의 likelihood를 최대화 하도록 학습하는 하나의 망구조로 구성되어 있는데, 이러한 형태로 가질 수 있는 장점은?	WaveGlow는 하나의 손실 함수를 사용하여 학습 데이터의 likelihood를 최대화 하도록 학습하는 하나의 망구조로 구성되어 있다. 따라서 구현하기가 간단하고 학습 과정이 단순하며 안정화 되어 있다. 그리고 병렬로 확률분포를 예측하고 병렬로 합성음을 생성하여 처리 속도를 높인다.
	텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 어떠한 시스템인가?	텍스트-음성 변환(Text-to-Speech, TTS) 시스템은 입력으로 임의의 텍스트를 받아들여 음성신호를 합성하여 출력한다. 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모 듈로 구성되어 있다.
	기존의 TTS 시스템은 어떠한 모듈들로 구성되어 있는가?	기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다.

참고문헌 (13)

Robert M. Gray, "A history of realtime digital speech on packet networks: part II of linear predictive coding and the internet protocol", Foundations and Trends in Signal Processing, Vol. 3, No. 4, pp. 203-303, 2010.
D. H. Klatt and L. C. Klatt, "Analysis, synthesis and perception of voice quality variation among female and male talkers", Journal of Acoustical Society of America, Vol. 83, pp. 820-857, 1990.
Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications", IEICE Trans. on Information and Systems, Vol. 99, No. 7, pp. 1,877-1,884, 2016.
Hideki Kawahara, Ikuyo Masuda-Katsuse, Alain de Cheveigne, "Restructuring speech representations using a pitch-adaptive timefrequency smoothing and an instantaneousfrequency based F0 extraction", Speech Communication, Vol. 27, pp. 187-207, 1999.

상세보기
Xin Wang, Jaime Lorenzo-Trueba, Shinji Takaki, Lauri Juvela, Junichi Yamagishi, "A comparison of recent waveform generation and acoustic modeling methods for neural network based speech synthesis", Proc. International Conference on Acoustics, Speech, and Signal Processing, pp. 4,804-4,808, 2018.
Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu, "WaveNet: A generative model for raw audio," arXiv preprint https://arxiv.org/pdf/1609.03499.pdf, 2016 Sep.
Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, Koray Kavukcuoglu. "Efficient neural audio synthesis", arXiv preprint. https://arxiv.org/pdf/1802.08435.pdf, 2018, Feb.
Ryan Prenger, Rafael Valle, Bryan Catanzaro, "WaveGlow: A flow-based generative network for speech synthesis", arXiv preprint. https://arxiv.org/pdf/1811.00002.pdf, 2018 Nov.
J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, Rif A. Saurous, Y. Agiomyrgiannakis, Y. Wu, "Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions", arXiv preprint https://arxiv.org/pdf/1712.05884.pdf, 2017 Dec.
Wei Ping, Kainan Peng, Kexin Zhao, Zhao Song, "WaveFlow: A compact flow-based model for raw audio", arXiv preprint. https://arxiv.org/pdf/1912.01219.pdf, 2019, Dec.
J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, Y. Bengio, "Attention-based models for speech recognition", Proc. Neural Information Processing Systems, pp. 577-585, 2015.
Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim, "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram", arXiv preprint. https://arxiv.org/pdf/1910.11480.pdf, 2019 Oct.
K. Kumar, R. Kumar, T. de Boissiere, L. Gestin, W. Z. Teoh, J. Sotelo, A. de Brebisson, Y. Bengio, A. Courville, "MelGAN: Generative adversarial networks for conditional waveform synthesis", Proc. Neural Information Processing Systems(NeurIPS 2019), poster, 2019 Dec.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증