[논문]자연음 TTS(Text-To-Speech) 엔진 구현

조정호; 김태은; 임재환

자연음 TTS(Text-To-Speech) 엔진 구현
Implementation of TTS Engine for Natural Voice 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.4 no.2, 2003년, pp.233 - 242

조정호 (남서울대학교 멀티미디어학과) , 김태은 (남서울대학교 멀티미디어학과) , 임재환 (남서울대학교 멀티미디어학과)

초록
AI-Helper

TTS(Text-To-Speech) 시스템은 텍스트 문장을 자연스러운 음성으로 출력하는 시스템이다. 자연스러운 음성을 출력하기 위해서 언어에 대한 전문적 지식을 비롯하여 많은 시간과 노력이 요구된다. 또한 영어의 음운 변환은 음소에 따라 형태소에 따라 의미에 따라 다양한 변환을 가진다. 이를 일괄적으로 처리하기란 매우 힘든 일이다. 이러한 문제들을 해결하기 위하여 모음과 자음의 변화의 규칙을 적용한 시스템을 구현한다. 이 시스템은 문장의 분석을 통해 분류하고 음소 규칙 데이터를 통해 자연스러운 음성을 출력하게 되는 이전 과정을 통해 특수문자나 숫자 등을 정규화하여 처리한다. 이렇게 처리된 문자 데이터를 운율규칙을 통해 최종 출력한다. 그 결과, 40개의 음소 규칙 데이터를 통해 보다. 정확한 음성을 출력할 수 있었으며, 시스템의 효율성도 높였다. 본 논문에서 제시한 시스템은 각종 통신장비와 자동화기기에 적용하여 다양한 분야에 활용될 수 있을 것이다.

Abstract ▼ AI-Helper

A TTS(Text-To-Speech) System is a computer-based system that should be able to read any text aloud. To output a natural voice, we need a general knowledge of language, a lot of time, and effort. Furthermore, the sound pattern of english has a variable pattern, which consists of phonemic and morphological analysis. It is very difficult to maintain consistency of pattern. To handle these problems, we present a system based on phonemic analysis for vowel and consonant. By analyzing phonological variations frequently found in spoken english, we have derived about phonemic contexts that would trigger the multilevel application of the corresponding phonological process, which consists of phonemic and allophonic rules. In conclusion, we have a rule data which consists of phoneme, and a engine which economize in system. The proposed system can use not only communication system, but also utilize office automation and so on.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

즉, 명료성이 향상되면 자연성이 떨어지고, 자연성이 향상되면 명료성이 떨어지게 된다. 그러므로 이러한 두 성질을 최대한 절충해서 사람과 같이 자연스럽고 명료한 합성음을 갖는 대화체 음성 합성 기술의 개발을 그 목적으로 한다.

제안 방법

환경에서 C+ + 로 구현하였다. 실험에 대한 자연발음 생성에 대한 평가를 위해 "Spectrogram version 7"와 "Goldwave version 4.26"를 사용하여 실제 원어 대화체 음성과 구현된 엔진에 의한 음성데이터를 분석하였다. 실험 데이터는 아인 쉬타인의 상대성 이론에 관한 강연의 내용으로 44개의 문장과 1.
측정하였다. 그리고 wave 파형에 대한 분석을 하였다. 실험 데이터에 음소변환규칙의 적용을 통해 1, 295어절 중 1, 042 어절에 대해 정확성을 나타내 81%의 정확성을 얻었다.
본 논문의 시스템은 입력 텍스트를 전처리 과정과 Contextual 분석기을 통해 영어와 함께 쓰이는 특수문자와 기호들을 정규화한다. 특히 Letter-to-Speech 모듈에서 기존의 Dictionarybased 방식이 아닌 Rule-based 방식을 채택하여 효율성 높였으며, 음소에 대한 규정된 데이터를 통한 처리하여 불규칙한 음운 변화의 발음열을 얻어낸다.
본 시스템은 영어의 대표적인 음소변동 규칙〔표 1〕과〔표2〕에 나타난 자질의 존재를 나타내는 +값과 부재를 나타내는 -값을 통해 40개의 규칙〔표3〕 을 추출하여 이를 채택하여 음소문맥에 적용한다.
실험에 대한 분석은 Spectrogram을 통해 음향을 측정하였다. 그리고 wave 파형에 대한 분석을 하였다.
실험 데이터에 음소변환규칙의 적용을 통해 1, 295어절 중 1, 042 어절에 대해 정확성을 나타내 81%의 정확성을 얻었다. 이에 대한 실험은 각 음소의 음향과 wave 파형을 상호 비교분석하였다. 예를 들어 숫자 “1905 32-34dB를 나타내었다.
모든 단어들에 대한 음성 정보를 사전(Data base) 에서찾을 수는 없다. 이에 대해 사전 정보를 기반으로 새로운 단어에 대한 정보를 추출해내는 처리를 한다.
특히 Letter-to-Speech 모듈에서 기존의 Dictionarybased 방식이 아닌 Rule-based 방식을 채택하여 효율성 높였으며, 음소에 대한 규정된 데이터를 통한 처리하여 불규칙한 음운 변화의 발음열을 얻어낸다.

대상 데이터

TTS엔진을 통하지 않은 분석 데이터는 실제 원어민의 음성을 녹음하여 사용하였다.
26"를 사용하여 실제 원어 대화체 음성과 구현된 엔진에 의한 음성데이터를 분석하였다. 실험 데이터는 아인 쉬타인의 상대성 이론에 관한 강연의 내용으로 44개의 문장과 1.259어절을 실제 한 문장씩 입력하여 수동으로 실험 분석하였다.

데이터처리

측정 데이터에 대해 음소 변화 규칙에 적용에 따른 정확성을 분석하기 위해 Spectrogram을 통해 dB에 대한 분석표〔표 4〕와 대조하여 실험 결과를 나타내었다. 음소에 대한 평균 오차는 ±l.

성능/효과

그리고 wave 파형에 대한 분석을 하였다. 실험 데이터에 음소변환규칙의 적용을 통해 1, 295어절 중 1, 042 어절에 대해 정확성을 나타내 81%의 정확성을 얻었다. 이에 대한 실험은 각 음소의 음향과 wave 파형을 상호 비교분석하였다.
실험 분석 결과, 이 논문에서 제안한 시스템은 음운론적인 분석을 통해 모음과 자음에 규칙이 적용되어 성능을 개선하였고 효율적인 메모리 사용을 제시하고 있다.
나타내었다. 음소에 대한 평균 오차는 ±l.ldB 가 나왔으며, wave를 통한 Hz에 대한 분석표〔표 5〕와 대조한 결과 평균 오차는 0.02Hz가 나왔다. 이러한 오차는 실제 음원에 대한 녹음 환경에 따른 오차로 각 대조군에 대한 결과는 매우 근소하다는 결론을 얻을 수 있다.

후속연구

그리고 음절 길이에 대한 오류를 보완하기 위한 방안을 모색하여 보다 정확한 TTS 엔진 구현을 위한 노력을 해야 할 것이다.
향후 연구로는 본 논문의 시스템을 각종 장치에 적용하여 응용 범위를 넓히는 시도를 하여야 하겠다. 그리고 음절 길이에 대한 오류를 보완하기 위한 방안을 모색하여 보다 정확한 TTS 엔진 구현을 위한 노력을 해야 할 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

자연음 TTS(Text-To-Speech) 엔진 구현
Implementation of TTS Engine for Natural Voice 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

자연음 TTS(Text-To-Speech) 엔진 구현 Implementation of TTS Engine for Natural Voice 원문보기

초록 AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

김태은 (44) 임재환 (4)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

자연음 TTS(Text-To-Speech) 엔진 구현
Implementation of TTS Engine for Natural Voice 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper