$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

HMM 기반 한국어 음성합성에서의 화자적응 방식 성능비교 및 지속시간 모델 개선
Performance Comparison and Duration Model Improvement of Speaker Adaptation Methods in HMM-based Korean Speech Synthesis 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.4 no.3, 2012년, pp.111 - 117  

이혜민 (부산대학교) ,  김형순 (부산대학교)

Abstract AI-Helper 아이콘AI-Helper

In this paper, we compare the performance of several speaker adaptation methods for a HMM-based Korean speech synthesis system with small amounts of adaptation data. According to objective and subjective evaluations, a hybrid method of constrained structural maximum a posteriori linear regression (C...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 회귀 트리는 SAT 모델 생성에 사용한 문맥정보 및 음성학적 음소분류가 포함된 결정트리를 사용하였으며, 이 때 문턱치는 melgeneralized 켑스트럼, log F0, 지속시간에 대해 각각 100, 1000, 100으로 실험하였다. 본 논문에서는 5분 정도의 적은 적응 데이터에 대해 우수한 화자적응 성능을 얻는 것을 목표로 하여 주관적 평가는 5분의 적응 데이터에 대해서만 평가를 하였으나, 객관적 평가의 경우 5분 이외에 10분 및 30분의 적응 데이터에 대해서도 참고용으로 실험결과를 제시하였다.
  • 본 논문에서는 HMM 기반의 한국어 음성합성에서의 화자적응 성능을 비교하기 위하여 객관적 및 주관적 실험을 수행하였다. 음성 DB로는 (주)보이스웨어에서 제공한 화자 당 약 2시간 30분 정도 분량의 남성 5명과 여성 5명의 데이터 중 각각 4명은 평균음성모델의 훈련에, 그리고 나머지 1명씩을 적응 실험에 사용하였다.
  • 본 논문에서는 HMM기반의 한국어 음성합성에서 기존의 대표적인 화자적응 방식들의 성능을 비교하였다. 그 결과 5분정도의 적은 적응 데이터로 화자적응을 할 경우 CSMAPLR+MAP 방식이 객관적 및 주관적 성능평가에서 가장 좋은 성능을 나타내었다.
  • 본 논문에서는 잘못된 지속시간 모델로 인한 성능저하 현상을 줄이기 위하여 지속시간 교정(duration rectification(DR)) 과 지속시간 보간(duration interpolation(DI)) 방식을 제안한다.
  • 그런데 객관적 성능평가 과정에서 켑스트럼및 F0와 달리 지속시간의 경우 화자적응을 수행해도 평균음성 모델보다도 성능이 개선되지 않는 문제가 관찰되었다. 이러한 문제를 개선하기 위해 본 논문에서는 지속시간 교정 방식과 지속시간 보간 방식을 제안하고 객관적 및 주관적 성능 평가로 검증하였다. 그 결과 지속시간 교정과 보간 방식을 함께 적용한 방식이 기존의 화자적응 방식만을 이용하는 것보다 더 좋은 성능을 나타냄을 확인하였다.

가설 설정

  • 와 같이 표현되며, 각각 평균벡터 μi와 대각 공분산행렬 Σi, 스칼라 평균 mi와 분산 #로 정의되는 Gaussian 분포라 가정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성합성이란? 음성합성은 문자를 음성으로 변환하는 기술로, 현재 대용량의 음성 데이터베이스(DB)를 사용하여 높은 음질의 합성음을 생성할 수 있는 코퍼스 기반의 음성합성방식이 주로 사용되고 있다. 이러한 음성합성기술은 우리 생활의 다양한 분야에 사용되고 있으며, 그에 따라 사용자가 원하는 음색의 음성합성 기에 대한 요구도 증가되고 있다.
코퍼스 기반의 음성합성기를 구현하기 위해서는 무엇이 필요한가? 이러한 음성합성기술은 우리 생활의 다양한 분야에 사용되고 있으며, 그에 따라 사용자가 원하는 음색의 음성합성 기에 대한 요구도 증가되고 있다. 그러나 다양한 음색을 보유한 코퍼스 기반의 음성합성기를 구현하기 위해서는 각 음색에 대한 대용량 DB 작업이 필요하기 때문에, 실제 사용자가 원하는 음색의 합성기를 제공하기는 쉽지 않다.
음성합성에 화자적응 기법을 이용하면서 어떤 장점을 가지게 되는가? 코퍼스 기반의 음성합성은 대량의 음성파 형을 적절히 가공하여 사용하는 방식이지만, HTS는 음성의 파라미터를 추출하여 이를 통계학적 모델로 변환하는 방식이기 때문에 적은 DB로도 합성기를 만들 수 있으며, 음성 파라미터를 변경함으로써 다양한 형태로 음성 변환이 가능하다는 장점을 가진다. 특히 화자적응을 이용하면 사용자가 원하는 특정 음성에 대한 적은 음성 DB만으로도 다수의 화자로부터 구한 음성 모델을 특정음성 모델로 변환할 수 있다. 이와 같은 장점 때문에 비록 HTS가 코퍼스 기반의 음성합성에 비해 상대적으로 음질이 저하됨에도 불구하고 이에 대한 요구가 늘어나고 있으며 활발한 연구가 진행되고 있다[2].
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T. & Kitamura, T. (1999). Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis. Proc. of Eurospeech, 2347-2350. 

  2. http://www.synsig.org/index.php/Blizzard_Challenge_2012_Workshop. 

  3. Yamagishi, J. & Kobayashi, T. (2007). Average-voice-based speech synthesis using HSMM-based speaker adaptation and adaptive training. IEICE Trans. Inf. Syst. E90-D(2), 533-543. 

  4. Yamagishi, J., Kobayashi, T., Nakano, Y., Ogata, K. & Isogai, J. (2009). Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm. IEEE Trans. Audio, Speech, Language Process., 17(1), 66-83. 

  5. Yamagishi, J., Ogata, K., Nakano, Y., Isogai, J. & Kobayashi, T. (2006). HSMM-based model adaptation algorithms for average-voice-based speech synthesis. Proc. ICASSP, 77-80. 

  6. Zen, H., Tokuda, K., Masuko, T., Kobayashi, T. & Kitamura, T. (2004). Hidden semi-Markov model based speech synthesis. Proc. of ICSLP, 1397-1400. 

  7. Shinoda K. & Lee, C.-H. (2001). A structural Bayes approach to speaker adaptation. IEEE Trans. Speech, Audio Process., 9(3), 276-287. 

  8. Yamagishi, J. & Kobayashi, T. (2005). Adaptive training for Hidden semi-Markov model. Proc. ICASSP, 365-368. 

  9. http://hts.sp.nitech.ac.jp/archives/2.2/HTS-demo_CMU-ARCTICSLT_STRAIGHT.tar.bz2. 

  10. Lee, H. & Kim, H. S. (2012). Performance comparison of speaker adaptation methods for HMM-based Korean speech synthesis system. Proc. of Spring Conference of Korean Society of Speech Sciences, 241-242. (이혜민, 김형순 (2012). HMM 기반의 한국어 음성합성에서의 화자적응 방식 성능 비교. 한국음성학회 봄 학술대회, 241-242.) 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로