$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

잡음음성 음향모델 적응에 기반한 잡음에 강인한 음성인식
Noise Robust Speech Recognition Based on Noisy Speech Acoustic Model Adaptation 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.6 no.2, 2014년, pp.29 - 34  

정용주 (계명대학교)

Abstract AI-Helper 아이콘AI-Helper

In the Vector Taylor Series (VTS)-based noisy speech recognition methods, Hidden Markov Models (HMM) are usually trained with clean speech. However, better performance is expected by training the HMM with noisy speech. In a previous study, we could find that Minimum Mean Square Error (MMSE) estimati...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다. 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다. 제안된 방식은 Aurora 2 데이터베이스 [4]를 이용한 인식실험을 통하여 평가되었으며 기존의 방식과의 성능비교를 통해서 제안된 방식의 우수성을 보이고자 한다.
  • 본 논문에서는 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하였다. HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로서 인식성능의 향상을 이루었다.
  • 이번 절에서는 VTS 축약을 통하여 잡음음성 HMM의 평균 벡터와 공분산 행렬에 대한 적응식을 유도하고자한다. 깨끗한 음성 HMM을 사용하는 기존의 VTS 방식과는 다르게 MTR 방식에 의해서 훈련된 잡음음성 HMM이 제안된 모델 적응 방식에서 사용된다.
  • 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다. 제안된 방식은 Aurora 2 데이터베이스 [4]를 이용한 인식실험을 통하여 평가되었으며 기존의 방식과의 성능비교를 통해서 제안된 방식의 우수성을 보이고자 한다.

가설 설정

  • 켑스트럼(cepstrum) 영역에서 훈련잡음음성과 테스트 잡음음성간의 수학적 관계식이 먼저 유도되며, 비선형적인 이 관계식은 VTS에 의하여 축약된다. 또한 부가잡 음과 채널잡음이 알려졌다고 가정함으로서 VTS 전개식으로부터 테스트 잡음음성에 대한 HMM의 평균벡터와 공분산 행렬이 추정된다. 잡음 파라미터에 대한 재추정을 위하여 반복적인 EM(Expectation Maximization) 알고리듬이 적용되며 이러한 반복적인 추정과정을 통해서 충분히 적응된 HMM 파라미터 값들을 이용하여 최종 인식시에 활용한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
HMM 파라미터들과 테스트 잡음음성간의 불일치를 줄이기 위한 방법은 무엇들로 나뉘는가? 잡음환경에서의 음성인식은 많은 기술적인 발전에도 불구 하여 여전히 어려운 문제로 남아 있다. HMM 파라미터들과 테스트 잡음음성간의 불일치를 줄이기 위한 방법은 크게 잡음에 강인한 특징추출, 음질향상 그리고 특징보상 및 모델 파라 미터 적응 등으로 나누어진다[1]-[3].
MTR 방식에서는 어떻게 잡음에 강한 모델을 구축할 수 있었는가? 최근에는 기존의 연구들과는 다른 관점에서 미리 잡음음성을 이용하여 HMM을 훈련하는 방법이 잡음음성 인식성능 향상을 위한 유용한 방법으로 간주되어 왔다. MTR 방식에서는 다양한 잡음환경의 잡음음성들을 모아서 HMM을 훈련함으로서 보다 잡음에 강인한 인식모델을 훈련과정 중에 구축할 수 있었다[4]. MMSR(Multi-Model based Speech Recognition) 방식 에서는 잡음종류나 신호대잡음비(SNR: Signal to Noise Ratio) 에 따라서 각각의 HMM을 훈련과정을 통해서 구성함으로서 테스트 잡음음성에 최적화한 인식모델을 사용할 수 있게 하였다[5].
훈련잡음음성과 테스트 잡음음성 간의 관계를 로그-스펙트럼(log-spectrum) 영역에서 수학적으로 정립하였을때의 도출된 관계식에는 어떤 단점이 있는가? 이 관계식을 VTS를 이용하여 간소화 한 후, 테스트 잡음음성을 이용하여 훈련잡음음성을 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다. 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. Gales, M. (1995). Model based techniques for noise- robust speech recognition. Ph.D. Dissertation, University of Cambridge, United Kingdom. 

  2. Ball, S. F. (1979). Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust., Speech, Signal Process. Vol. 27, No. 2, 113-122. 

  3. Moreno, P. J. (1996). Speech recognition in noisy environments. Ph.D. Dissertation, Carnegie Mellon University, United States of America. 

  4. Hirsch, H. G. & Pearce, D. (2000). The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions, in Proc. ICSLP. 18-20. 

  5. Xu, H., Tan, Z. -H., Dalsgaard, P. & Lindberg, B. (2007). Noise condition-dependent training based on noise classification and SNR estimation. IEEE Trans. Audio, Speech and Language Process. Vol. 15, No. 8, 2431-2443. 

  6. Kalinli, O., Seltzer, M. L., Droppo, J., & Acero, A. (2010). Noise adaptive training for robust automatic speech recognition. IEEE Trans. Audio, Speech and Language Process. Vol. 18, No. 8, 1889-1901. 

  7. Chung, Y. & Hansen, J.H.L. (2013). Compensation of SNR and noise type mismatch using an environmental sniffing based speech recognition solution. EURASIP Journal on Audio, Speech, and Music Processing, 2013:12, 1-14. 

  8. Gopinath, R. A., Gales, M., Gopalakrishnan, P. S., Balakrishnan-Aiyer, S. & Pocheny M. A. (1995). Robust speech recognition in Noise : Performance of the IBM continuous speech recognizer on the ARPA noise spoke task. in Proc. ARPA Spoken Language System Technology. 127-130. 

  9. ETSI draft standard doc., Speech processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm. ETSI Standard ES 202 050, 2002. 

  10. Young, S. (1993). HTK: Hidden Markov Model Toolkit V3.4.1. Cambridge University, Engineering Department, Speech Group. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로