TTS(Text-To-Speech) 시스템은 텍스트 문장을 자연스러운 음성으로 출력하는 시스템이다. 자연스러운 음성을 출력하기 위해서 언어에 대한 전문적 지식을 비롯하여 많은 시간과 노력이 요구된다. 또한 영어의 음운 변환은 음소에 따라 형태소에 따라 의미에 따라 다양한 변환을 가진다. 이를 일괄적으로 처리하기란 매우 힘든 일이다. 이러한 문제들을 해결하기 위하여 모음과 자음의 변화의 규칙을 적용한 시스템을 구현한다. 이 시스템은 문장의 분석을 통해 분류하고 음소 규칙 데이터를 통해 자연스러운 음성을 출력하게 되는 이전 과정을 통해 특수문자나 숫자 등을 정규화하여 처리한다. 이렇게 처리된 문자 데이터를 운율규칙을 통해 최종 출력한다. 그 결과, 40개의 음소 규칙 데이터를 통해 보다. 정확한 음성을 출력할 수 있었으며, 시스템의 효율성도 높였다. 본 논문에서 제시한 시스템은 각종 통신장비와 자동화기기에 적용하여 다양한 분야에 활용될 수 있을 것이다.
TTS(Text-To-Speech) 시스템은 텍스트 문장을 자연스러운 음성으로 출력하는 시스템이다. 자연스러운 음성을 출력하기 위해서 언어에 대한 전문적 지식을 비롯하여 많은 시간과 노력이 요구된다. 또한 영어의 음운 변환은 음소에 따라 형태소에 따라 의미에 따라 다양한 변환을 가진다. 이를 일괄적으로 처리하기란 매우 힘든 일이다. 이러한 문제들을 해결하기 위하여 모음과 자음의 변화의 규칙을 적용한 시스템을 구현한다. 이 시스템은 문장의 분석을 통해 분류하고 음소 규칙 데이터를 통해 자연스러운 음성을 출력하게 되는 이전 과정을 통해 특수문자나 숫자 등을 정규화하여 처리한다. 이렇게 처리된 문자 데이터를 운율규칙을 통해 최종 출력한다. 그 결과, 40개의 음소 규칙 데이터를 통해 보다. 정확한 음성을 출력할 수 있었으며, 시스템의 효율성도 높였다. 본 논문에서 제시한 시스템은 각종 통신장비와 자동화기기에 적용하여 다양한 분야에 활용될 수 있을 것이다.
A TTS(Text-To-Speech) System is a computer-based system that should be able to read any text aloud. To output a natural voice, we need a general knowledge of language, a lot of time, and effort. Furthermore, the sound pattern of english has a variable pattern, which consists of phonemic and morpholo...
A TTS(Text-To-Speech) System is a computer-based system that should be able to read any text aloud. To output a natural voice, we need a general knowledge of language, a lot of time, and effort. Furthermore, the sound pattern of english has a variable pattern, which consists of phonemic and morphological analysis. It is very difficult to maintain consistency of pattern. To handle these problems, we present a system based on phonemic analysis for vowel and consonant. By analyzing phonological variations frequently found in spoken english, we have derived about phonemic contexts that would trigger the multilevel application of the corresponding phonological process, which consists of phonemic and allophonic rules. In conclusion, we have a rule data which consists of phoneme, and a engine which economize in system. The proposed system can use not only communication system, but also utilize office automation and so on.
A TTS(Text-To-Speech) System is a computer-based system that should be able to read any text aloud. To output a natural voice, we need a general knowledge of language, a lot of time, and effort. Furthermore, the sound pattern of english has a variable pattern, which consists of phonemic and morphological analysis. It is very difficult to maintain consistency of pattern. To handle these problems, we present a system based on phonemic analysis for vowel and consonant. By analyzing phonological variations frequently found in spoken english, we have derived about phonemic contexts that would trigger the multilevel application of the corresponding phonological process, which consists of phonemic and allophonic rules. In conclusion, we have a rule data which consists of phoneme, and a engine which economize in system. The proposed system can use not only communication system, but also utilize office automation and so on.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
즉, 명료성이 향상되면 자연성이 떨어지고, 자연성이 향상되면 명료성이 떨어지게 된다. 그러므로 이러한 두 성질을 최대한 절충해서 사람과 같이 자연스럽고 명료한 합성음을 갖는 대화체 음성 합성 기술의 개발을 그 목적으로 한다.
제안 방법
환경에서 C+ + 로 구현하였다. 실험에 대한 자연발음 생성에 대한 평가를 위해 "Spectrogram version 7"와 "Goldwave version 4.26"를 사용하여 실제 원어 대화체 음성과 구현된 엔진에 의한 음성데이터를 분석하였다. 실험 데이터는 아인 쉬타인의 상대성 이론에 관한 강연의 내용으로 44개의 문장과 1.
측정하였다. 그리고 wave 파형에 대한 분석을 하였다. 실험 데이터에 음소변환규칙의 적용을 통해 1, 295어절 중 1, 042 어절에 대해 정확성을 나타내 81%의 정확성을 얻었다.
본 논문의 시스템은 입력 텍스트를 전처리 과정과 Contextual 분석기을 통해 영어와 함께 쓰이는 특수문자와 기호들을 정규화한다. 특히 Letter-to-Speech 모듈에서 기존의 Dictionarybased 방식이 아닌 Rule-based 방식을 채택하여 효율성 높였으며, 음소에 대한 규정된 데이터를 통한 처리하여 불규칙한 음운 변화의 발음열을 얻어낸다.
본 시스템은 영어의 대표적인 음소변동 규칙〔표 1〕과〔표2〕에 나타난 자질의 존재를 나타내는 +값과 부재를 나타내는 -값을 통해 40개의 규칙〔표3〕 을 추출하여 이를 채택하여 음소문맥에 적용한다.
실험에 대한 분석은 Spectrogram을 통해 음향을 측정하였다. 그리고 wave 파형에 대한 분석을 하였다.
실험 데이터에 음소변환규칙의 적용을 통해 1, 295어절 중 1, 042 어절에 대해 정확성을 나타내 81%의 정확성을 얻었다. 이에 대한 실험은 각 음소의 음향과 wave 파형을 상호 비교분석하였다. 예를 들어 숫자 “1905 32-34dB를 나타내었다.
모든 단어들에 대한 음성 정보를 사전(Data base) 에서찾을 수는 없다. 이에 대해 사전 정보를 기반으로 새로운 단어에 대한 정보를 추출해내는 처리를 한다.
특히 Letter-to-Speech 모듈에서 기존의 Dictionarybased 방식이 아닌 Rule-based 방식을 채택하여 효율성 높였으며, 음소에 대한 규정된 데이터를 통한 처리하여 불규칙한 음운 변화의 발음열을 얻어낸다.
대상 데이터
TTS엔진을 통하지 않은 분석 데이터는 실제 원어민의 음성을 녹음하여 사용하였다.
26"를 사용하여 실제 원어 대화체 음성과 구현된 엔진에 의한 음성데이터를 분석하였다. 실험 데이터는 아인 쉬타인의 상대성 이론에 관한 강연의 내용으로 44개의 문장과 1.259어절을 실제 한 문장씩 입력하여 수동으로 실험 분석하였다.
데이터처리
측정 데이터에 대해 음소 변화 규칙에 적용에 따른 정확성을 분석하기 위해 Spectrogram을 통해 dB에 대한 분석표〔표 4〕와 대조하여 실험 결과를 나타내었다. 음소에 대한 평균 오차는 ±l.
성능/효과
그리고 wave 파형에 대한 분석을 하였다. 실험 데이터에 음소변환규칙의 적용을 통해 1, 295어절 중 1, 042 어절에 대해 정확성을 나타내 81%의 정확성을 얻었다. 이에 대한 실험은 각 음소의 음향과 wave 파형을 상호 비교분석하였다.
실험 분석 결과, 이 논문에서 제안한 시스템은 음운론적인 분석을 통해 모음과 자음에 규칙이 적용되어 성능을 개선하였고 효율적인 메모리 사용을 제시하고 있다.
나타내었다. 음소에 대한 평균 오차는 ±l.ldB 가 나왔으며, wave를 통한 Hz에 대한 분석표〔표 5〕와 대조한 결과 평균 오차는 0.02Hz가 나왔다. 이러한 오차는 실제 음원에 대한 녹음 환경에 따른 오차로 각 대조군에 대한 결과는 매우 근소하다는 결론을 얻을 수 있다.
후속연구
그리고 음절 길이에 대한 오류를 보완하기 위한 방안을 모색하여 보다 정확한 TTS 엔진 구현을 위한 노력을 해야 할 것이다.
향후 연구로는 본 논문의 시스템을 각종 장치에 적용하여 응용 범위를 넓히는 시도를 하여야 하겠다. 그리고 음절 길이에 대한 오류를 보완하기 위한 방안을 모색하여 보다 정확한 TTS 엔진 구현을 위한 노력을 해야 할 것이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.