$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

HMM 기반 감정 음성 합성기 개발을 위한 감정 음성 데이터의 음색 유사도 분석
Analysis of Voice Color Similarity for the development of HMM Based Emotional Text to Speech Synthesis 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.15 no.9, 2014년, pp.5763 - 5768  

민소연 (서일대학교 정보통신과) ,  나덕수 ((주)보이스웨어 부설연구소)

초록
AI-Helper 아이콘AI-Helper

하나의 합성기에서 감정이 표현되지 않는 기본 음성과 여러 감정 음성을 함께 합성하는 경우 음색을 유지하는 것이 중요해 진다. 감정이 과도하게 표현된 녹음 음성을 사용하여 합성기를 구현하는 경우 음색이 유지되지 못해 각 합성음이 서로 다른 화자의 음성처럼 들릴 수 있다. 본 논문에서는 감정 레벨을 조절하는 HMM 기반 음성 합성기를 구현하기 위해 구축한 음성데이터의 음색 변화를 분석하였다. 음성 합성기를 구현하기 위해서는 음성을 녹음하여 데이터베이스를 구축하게 되는데, 감정 음성 합성기를 구현하기 위해서는 특히 녹음 과정이 매우 중요하다. 감정을 정의하고 레벨을 유지하는 것은 매우 어렵기 때문에 모니터링이 잘 이루어져야 한다. 음성 데이터베이스는 일반 음성과 기쁨(Happiness), 슬픔(Sadness), 화남(Anger)의 감정 음성으로 구성하였고, 각 감정은 High/Low의 2가지 레벨로 구별하여 녹음하였다. 기본음성과 감정 음성의 음색 유사도 측정을 위해 대표 모음들의 각각의 스펙트럼을 누적하여 평균 스펙트럼을 구하고, 평균 스펙트럼에서 F1(제 1포만트)을 측정하였다. 감정 음성과 일반 음성의 음색 유사도는 Low-level의 감정 데이터가 High-level의 데이터 보다 우수하였고, 제안한 방법이 이러한 감정 음성의 음색 변화를 모니터링 할 수 있는 방법이 될 수 있음을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

Maintaining a voice color is important when compounding both the normal voice because an emotion is not expressed with various emotional voices in a single synthesizer. When a synthesizer is developed using the recording data of too many expressed emotions, a voice color cannot be maintained and eac...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 감정 음성의 녹음 시 표현 강도에 따른 합성음에서의 음색 변화를 살펴보고 적절한 감정의 강도를 설정함에 있어 시행착오를 줄이는 것이 목적이다. 감정 음성 녹음 데이터에서 음색의 변화를 유추할 수 있는 파라미터를 추출하고 이것을 효율적으로 보여줌으로써 적절한 감정의 표현 강도를 전체 녹음과정에 유지할 수 있도록 도와 줄 수 있는 방법을 제안하는 것이다. 또한 앞으로는 감정의 강도 및 음색 변화를 수치로 표현하는 방법을 연구해야 할 계획이다.
  • 식 (1)은 포만트 스펙트럼을 누적하여 평균 포만트 스펙트럼을 구한 것이고, 식 (2)는 평균 포만트 스펙트럼의 정규화 식이다. 감정 음성과 일반음성의 음색변화를 관찰하기 위해 스펙트럼의 크기를 정규화 하였는데, 이것은 포락선의 모양 변화를 통해 음색 변화를 유추하기 위한 것이다. Fig.
  • 본 논문은 HMM 기반 음성 합성기를 이용하여 감정 합성기를 구현하는 경우 발생할 수 있는 음색 변화에 대한 연구이다. 감정 음성의 녹음 시 표현 강도에 따른 합성음에서의 음색 변화를 살펴보고 적절한 감정의 강도를 설정함에 있어 시행착오를 줄이는 것이 목적이다. 감정 음성 녹음 데이터에서 음색의 변화를 유추할 수 있는 파라미터를 추출하고 이것을 효율적으로 보여줌으로써 적절한 감정의 표현 강도를 전체 녹음과정에 유지할 수 있도록 도와 줄 수 있는 방법을 제안하는 것이다.
  • 본 논문에서는 HMM 기반 음성 합성기를 이용하여 감정합성기를 구현하고, 감정 음성 데이터의 감정 레벨에 따른 음색 변화를 분석하였다. HMM 기반 음성 합성기는 기본적으로 운율이 평탄화 되는데, 이것은 운율뿐만 아니라 음색에도 영향을 미치게 된다.
  • 따라서 녹음 음성의 음색을 미리 분석하고 감정을 모니터링하면서 녹음을 진행하는 방법이 필요하게 된다. 본 논문에서는 대표 모음의 평균 스펙트럼과 F1(제 1포만트)을 이용하여 감정 음성 합성기 구현 및 평가에 필요한 기본 음성과 감정 음성의 음색을 비교할 수 있는 방법을 제안한다.
  • 본 논문에서는 모음의 포만트 변화를 동일한 감정에 적용하여 음색의 변화를 관찰 할 수 있는지 테스트 하였다. 음색은 감정 음성과 일반 음성을 동시에 합성하는 합성기 측면에서는 합성음의 품질을 결정하는 중요한 요소가 될 수 있다.
  • 본 논문은 HMM 기반 음성 합성기를 이용하여 감정 합성기를 구현하는 경우 발생할 수 있는 음색 변화에 대한 연구이다. 감정 음성의 녹음 시 표현 강도에 따른 합성음에서의 음색 변화를 살펴보고 적절한 감정의 강도를 설정함에 있어 시행착오를 줄이는 것이 목적이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
HMM 기반 음성 합성기의 특징은? HMM 기반 음성합성기도 이전에는 학교나 연구소에서 주로 연구용 합성기로 많이 사용되었지만 최근에는 음질의 향상으로 상용 합성기형태로 점차 보급이 늘어나는 추세이다. HMM 기반 음성 합성기는 대용량 코퍼스를 이용한 음성파형 접속형 합성기에 비해 적은 녹음 음성으로도 합성기 구현이 가능하고, 화자 적응 기술을 이용한 음색 변환이 가능하여 다양한 언어와 여러 화자의 합성기를 함께 사용하기를 원하는 분야에 접목되고 있다.
음성에서 감정은 매우 주관적인 요소이기 때문에 중요한 것은? 음성에서 감정은 매우 주관적인 요소이기 때문에 합성기에 필요한 감정 표현의 강도를 정하는 것이 어렵고, 정해진 강도를 유지하면서 장시간 녹음을 진행하는 것 또한 쉽지 않다. 따라서 초기의 테스트 녹음과 정확한 모니터링이 중요하다. 따라서 감정 표현의 강도를 시각화할 수 있는 방법이 동원된다면 감정 음성 녹음의 시행착오 및 품질 유지에 도움이 될 수 있을 것이다.
감정 음성을 녹음하는데 있어 중요한 것은? 감정 음성을 녹음하는데 있어 중요한 것이 화자의 음색을 유지하는 것이다. 감정을 과도하게 표현한 음성에서는 종종 화자의 음색이 유지되지 않는 특징이 있는데, 이러한 데이터로 합성기를 구현하면 합성음이 원하는 화자의 음색을 나타내지 못하는 결과를 얻을 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (8)

  1. T. Toda and K. Tokuda, "A speech parameter generation algorithm considering global variance for HMM-based speech synthesis," IEICE Transactions, vol. E90-D, no.5, 816-824(2007) DOI: http://dx.doi.org/10.1093/ietisy/e90-d.5.816 

  2. Z-.H. Ling, Y. Hu, and L. Dai, "Global variance modeling on the log power spectrum of LSPs for HMM-based speech synthesis," Proc. INTERSPEECH, 825-828(2010) 

  3. Z. Yan, Q. Yao, S.K. Frank, "Rich Context Modeling for High Quality HMM-Based TTS," INTERSPEECH 2009, 1755-1758(2009) 

  4. J. Yamagishi, K. Onishi, T. Masuko, T. Kobayashi, "Acoustic modeling of speaking styles and emotional expressions in HMM-based speech synthesis," IEICE Trans. on Inf. & Syst., vol.E88-D, no.3, 503-509(2005) DOI: http://dx.doi.org/10.1093/ietisy/e88-d.3.502 

  5. M. Isogai et al., "Recording script design for corpus-based TTS system based on coverage of various phonetic elements," Proc. ICASSP, vol. I, 301-304(2005) 

  6. Seo-Bae Lee, "An Analysis of Formants Extracted from Emotional Speech and Acoustical Implications for the Emotion Recognition System and Speech Recognition System," Journal of the Korean society of speech sciences , No.3 Vol1, 45-50( 2011) 

  7. D. S. Na and M. J. Bae, "A Variable Break Prediction Method using CART in a Japanese Text-to-Speech System," IEICE Trans. Inf. & Syst., Vol. E92-D, No.2, 349-352(2009) 

  8. http://voicetext.jp/news/archives/2570 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로