본 논문에서는 K-ToBI(Korean Tone and Break Indexes)를 사용하는, 높은 성능을 가지는 한국어 TTS(Text-to-Speech) 시스템을 개발하기 위해 해결해야 하는 두가지 문제, 즉, 발음변환과 운율생성에 관한 해결방법을 제안하고 그 성능을 보인다. 발음변환과 운율생성은 깊은 관계가 있으며, 따라서 통합된 시스템을 논하기 위해서는 함께 다루어야 하는 문제이다. K-ToBI는 음성에 대해 언어적 지식을 기술하기 위한 다층의 표현방법이다. 발음변환에 대해 사전기반 방법과 규칙기반 방법은 나름대로의 장점과 단점을 가진다. 이 논문에서는 한국어의 발음변환을 위해 발음패턴사전과 CGV(자음 자음 모음)자소-발음 변환규칙을 사용하는 하이브리드 방법을 제안한다. 발음패턴사전은 사전기반방법의 변형이며, 형태소의 패턴과 그것의 발음패턴으로 이루어진다. 그 패턴은 형태소의 왼쪽과 오른쪽 끝의 발음에 대한 후보발음들을 나타낸다. CCV 자소-발음 변환규칙은 규칙기반 방법을 의미하며, 형태소내의 발음변환을 담당한다. 입력된 문장의 ...
본 논문에서는 K-ToBI(Korean Tone and Break Indexes)를 사용하는, 높은 성능을 가지는 한국어 TTS(Text-to-Speech) 시스템을 개발하기 위해 해결해야 하는 두가지 문제, 즉, 발음변환과 운율생성에 관한 해결방법을 제안하고 그 성능을 보인다. 발음변환과 운율생성은 깊은 관계가 있으며, 따라서 통합된 시스템을 논하기 위해서는 함께 다루어야 하는 문제이다. K-ToBI는 음성에 대해 언어적 지식을 기술하기 위한 다층의 표현방법이다. 발음변환에 대해 사전기반 방법과 규칙기반 방법은 나름대로의 장점과 단점을 가진다. 이 논문에서는 한국어의 발음변환을 위해 발음패턴사전과 CGV(자음 자음 모음)자소-발음 변환규칙을 사용하는 하이브리드 방법을 제안한다. 발음패턴사전은 사전기반방법의 변형이며, 형태소의 패턴과 그것의 발음패턴으로 이루어진다. 그 패턴은 형태소의 왼쪽과 오른쪽 끝의 발음에 대한 후보발음들을 나타낸다. CCV 자소-발음 변환규칙은 규칙기반 방법을 의미하며, 형태소내의 발음변환을 담당한다. 입력된 문장의 형태소분석 결과에 대해, 각 형태소들은 발음패턴사전을 이용해 여러개의 후보 발음 패턴으로 변환된다. 이 후보발음 패턴내의 자소들은 CCV형태로 묶여지고,CCV자소-발음 변환규칙에 의해 각 발음으로 변환된다. 마지막으로 형태-발음 연결테이블에 의해 인접한 형태소들의 발음의 연결 가능성을 검사하게 된다. 운율생성에 대해 본 논문은 K-ToBI에 기반한 피치와 휴지생성 방법을 제안한다. ToBI를 운율의 중간표현단계로 사용하면, 직접적인 운율생성방법에 비해, 높은 유연성과 도메인 이식성이 뛰어나다고 알려져 있다. 하지만 실용적인 성능을 위해서는 corpus를 준비하기 위해 많은 비용이 요구된다. 본 논문에서는 자동화된 K-ToBI 레이블링 방법을 소개하고, lexicosyntactic 특징을 decision tree에 이용한 운율생성 방법을 제안한다. 실험결과, 자동으로 레이블링된 corpus로부터 얻어진 운율의 성능이, 직접적인 방법으로 운율을 생성하는 시스템중 현재 최상의 성능을 가지는 시스템의 성능에 필적하는 것을 확인하였다.
본 논문에서는 K-ToBI(Korean Tone and Break Indexes)를 사용하는, 높은 성능을 가지는 한국어 TTS(Text-to-Speech) 시스템을 개발하기 위해 해결해야 하는 두가지 문제, 즉, 발음변환과 운율생성에 관한 해결방법을 제안하고 그 성능을 보인다. 발음변환과 운율생성은 깊은 관계가 있으며, 따라서 통합된 시스템을 논하기 위해서는 함께 다루어야 하는 문제이다. K-ToBI는 음성에 대해 언어적 지식을 기술하기 위한 다층의 표현방법이다. 발음변환에 대해 사전기반 방법과 규칙기반 방법은 나름대로의 장점과 단점을 가진다. 이 논문에서는 한국어의 발음변환을 위해 발음패턴사전과 CGV(자음 자음 모음)자소-발음 변환규칙을 사용하는 하이브리드 방법을 제안한다. 발음패턴사전은 사전기반방법의 변형이며, 형태소의 패턴과 그것의 발음패턴으로 이루어진다. 그 패턴은 형태소의 왼쪽과 오른쪽 끝의 발음에 대한 후보발음들을 나타낸다. CCV 자소-발음 변환규칙은 규칙기반 방법을 의미하며, 형태소내의 발음변환을 담당한다. 입력된 문장의 형태소분석 결과에 대해, 각 형태소들은 발음패턴사전을 이용해 여러개의 후보 발음 패턴으로 변환된다. 이 후보발음 패턴내의 자소들은 CCV형태로 묶여지고,CCV자소-발음 변환규칙에 의해 각 발음으로 변환된다. 마지막으로 형태-발음 연결테이블에 의해 인접한 형태소들의 발음의 연결 가능성을 검사하게 된다. 운율생성에 대해 본 논문은 K-ToBI에 기반한 피치와 휴지생성 방법을 제안한다. ToBI를 운율의 중간표현단계로 사용하면, 직접적인 운율생성방법에 비해, 높은 유연성과 도메인 이식성이 뛰어나다고 알려져 있다. 하지만 실용적인 성능을 위해서는 corpus를 준비하기 위해 많은 비용이 요구된다. 본 논문에서는 자동화된 K-ToBI 레이블링 방법을 소개하고, lexicosyntactic 특징을 decision tree에 이용한 운율생성 방법을 제안한다. 실험결과, 자동으로 레이블링된 corpus로부터 얻어진 운율의 성능이, 직접적인 방법으로 운율을 생성하는 시스템중 현재 최상의 성능을 가지는 시스템의 성능에 필적하는 것을 확인하였다.
Our efforts on developing high performance Korean TTS (Text-to-Speech) system with K-ToBI (Korean Tone and Break Index) are mainly focused on two important sub problems of Korean TTS, i.e., graphemeto-phoneme conversion and prosody (especially, phrase break and pitch) generation. The sub problems (g...
Our efforts on developing high performance Korean TTS (Text-to-Speech) system with K-ToBI (Korean Tone and Break Index) are mainly focused on two important sub problems of Korean TTS, i.e., graphemeto-phoneme conversion and prosody (especially, phrase break and pitch) generation. The sub problems (grapheme-to-phoenem conversion and prosody generation) are closely interrelated and therefore should be treated together for better integration. ToBI is a multi-tier representation system based on linguistic knowledge to transcribe events in an utterance. As for the grapheme-to-phoneme conversion problem, both dictionary-based and rule-based methods have had their own advantages and limitations. For example, a large sized phonetic dictionary and complex morphophonemic rules are required for the dictionary-based method, whereas the LTS (letter to sound) rule-based method itself cannot model the complete morphophonemic constraints. This thesis describes a new grapheme-to-phoneme conversion method for Korean using a hybrid method with a phonetic pattern dictionary and CCV (consonant consonant vowel) LTS (letter to sound) rules. The phonetic pattern dictionary, standing for the dictionary-based method, contains entries in the form of a morpheme pattern and its phonetic pattern. The patterns represent candidate phonological changes in left and right boundaries of morphemes. Obviously, the CCV LTS rules stand for the rule-based method. The rules are in charge of graphemeto-phoneme conversion within morphemes. The conversion method consists of mainly two steps including graphemeto-phoneme conversion and morphophonemic connectivity check, and two preprocessing steps including phrase break prediction and morpheme normalization. Morpheme normalization is to replace non-Korean symbols with their corresponding standard Korean graphemes. In the morpheme phoneticizing module, each morpheme in the phrase is converted into phonetic patterns by looking it up in the phonetic pattern dictionary. Graphemes within a morpheme are grouped into CCV units and converted into phonemes by the CCV LTS rules. The morphophonemic connectivity table supports grammaticality checking of the two adjacent phonetic morphemes. As for the prosody generation problem, we present a pitch and phrase-break generation architecture based on K-ToBI (Korean Tone and Break Index) representation. The TTS (Text-To-Speech) system which adopts ToBI as an intermediate representation is known to exhibit higher flexibility, modularity and domain/task portability compared with the direct prosody generation TTS systems. However, the cost of corpus preparation is very expensive for practical-level performance because the ToBI labeled corpus has been manually constructed by many prosody experts and normally requires large amount of data for statistical prosody modeling. Contrary to previous ToBI-based systems, this thesis proposes a new method which transcribes the K-ToBI labels completely automatically in Korean speech. We develop automatic corpus-based K-ToBI labeling tools and prediction methods based on several lexico-syntactic linguistic features for decision-tree induction. We demonstrated the performance of F0 generation from automatically predicted K-ToBI labels, and confirmed that the performance is reasonably comparable with state-of-the-art direct prosody generation methods and previous ToBI-based methods.
Our efforts on developing high performance Korean TTS (Text-to-Speech) system with K-ToBI (Korean Tone and Break Index) are mainly focused on two important sub problems of Korean TTS, i.e., graphemeto-phoneme conversion and prosody (especially, phrase break and pitch) generation. The sub problems (grapheme-to-phoenem conversion and prosody generation) are closely interrelated and therefore should be treated together for better integration. ToBI is a multi-tier representation system based on linguistic knowledge to transcribe events in an utterance. As for the grapheme-to-phoneme conversion problem, both dictionary-based and rule-based methods have had their own advantages and limitations. For example, a large sized phonetic dictionary and complex morphophonemic rules are required for the dictionary-based method, whereas the LTS (letter to sound) rule-based method itself cannot model the complete morphophonemic constraints. This thesis describes a new grapheme-to-phoneme conversion method for Korean using a hybrid method with a phonetic pattern dictionary and CCV (consonant consonant vowel) LTS (letter to sound) rules. The phonetic pattern dictionary, standing for the dictionary-based method, contains entries in the form of a morpheme pattern and its phonetic pattern. The patterns represent candidate phonological changes in left and right boundaries of morphemes. Obviously, the CCV LTS rules stand for the rule-based method. The rules are in charge of graphemeto-phoneme conversion within morphemes. The conversion method consists of mainly two steps including graphemeto-phoneme conversion and morphophonemic connectivity check, and two preprocessing steps including phrase break prediction and morpheme normalization. Morpheme normalization is to replace non-Korean symbols with their corresponding standard Korean graphemes. In the morpheme phoneticizing module, each morpheme in the phrase is converted into phonetic patterns by looking it up in the phonetic pattern dictionary. Graphemes within a morpheme are grouped into CCV units and converted into phonemes by the CCV LTS rules. The morphophonemic connectivity table supports grammaticality checking of the two adjacent phonetic morphemes. As for the prosody generation problem, we present a pitch and phrase-break generation architecture based on K-ToBI (Korean Tone and Break Index) representation. The TTS (Text-To-Speech) system which adopts ToBI as an intermediate representation is known to exhibit higher flexibility, modularity and domain/task portability compared with the direct prosody generation TTS systems. However, the cost of corpus preparation is very expensive for practical-level performance because the ToBI labeled corpus has been manually constructed by many prosody experts and normally requires large amount of data for statistical prosody modeling. Contrary to previous ToBI-based systems, this thesis proposes a new method which transcribes the K-ToBI labels completely automatically in Korean speech. We develop automatic corpus-based K-ToBI labeling tools and prediction methods based on several lexico-syntactic linguistic features for decision-tree induction. We demonstrated the performance of F0 generation from automatically predicted K-ToBI labels, and confirmed that the performance is reasonably comparable with state-of-the-art direct prosody generation methods and previous ToBI-based methods.
주제어
#PROSODY PHONEME GENERATION KOREAN 한국어 TTS TEXTTOSPEECH 발음 운율 자연언어 한국어처리 자연언어처리
학위논문 정보
저자
김병창
학위수여기관
Pohang Univ. of Science and Technology
학위구분
국내박사
학과
전자.컴퓨터공학부 컴퓨터공학 자연언어처리전공
발행연도
2002
총페이지
72 leaves
키워드
PROSODY PHONEME GENERATION KOREAN 한국어 TTS TEXTTOSPEECH 발음 운율 자연언어 한국어처리 자연언어처리
※ AI-Helper는 부적절한 답변을 할 수 있습니다.