$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.9, 2016년, pp.17 - 23  

조지원 (서강대학교) ,  박형민 (서강대학교)

초록
AI-Helper 아이콘AI-Helper

실세계 환경의 원거리에서 녹음된 음성은 가산 잡음이나 반향 성분으로 왜곡되기 때문에 음성인식 성능이 현저히 떨어진다. 따라서 음성 전처리 과정은 실세계 환경에서 강인한 음성인식을 위한 필수과정이다. 모델 기반 특징 향상 방법은 전처리 방법 중 하나로 특징 영역 데이터의 적절한 동적 범위(dynamic range)와 차원 수로 인하여 실시간 처리가 가능하고 깨끗한 음성의 선험적 정보를 모델링하기에 용이하다. 또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다. 이글에서는 특징 향상 방법을 소개하고 개선된 방법의 음성인식 강인성을 알아보고자 한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 또, <그림 3>을 보면 반향 환경에서 실제 반향 필터는 각 주파수마다 감쇄하는 정도가 다르지만 [8]의 방법으로 추정한 반향 필터는 이런 특성을 얻을 수 없다[11]. 따라서 가산 잡음이나 반향 필터 파라미터를 정밀하게 추정하여 특징 강화 성능을 높이고자 한다.
  • 이 글에서는 강인한 원거리 음성인식을 위한 전처리 기법으로서 향상된 특징 추출을 위해 개선된 은닉 마르코프 모델 기반 특징 향상 방법들을 설명하였다. 개선된 방법은 기존 방법에 비해 잡음이나 반향 채널 파라미터를 좀 더 세밀하게 추정하여 사용자 음성 향상 성능을 높였고 결과적으로 원거리 환경에서 인식성능을 강인하게 하였다.
  • 이 글에서는 최근 위와 같은 기존의 모델 기반 특징 향상 방법의 문제점을 개선하기 위해 가산 잡음 혹은 반향 환경에 적합한 특징 향상 방법을 서술하려 한다. 독립벡터분석을 적용한 은닉 마르코프 모델 (hidden Markov model; HMM) 기반 특징 향상 방법[12]은 비정상적 가산 잡음 환경에서 신뢰성 있는 잡음추정과 1차적인 신호 향상을 위해 독립벡터분석을 기존 특징 향상에 도입하였다.

가설 설정

  • 기존 연구에 의하면 가산 잡음이 정상적이라는 가정하에 특징영역에서 발성 이전의 몇 프레임을 이용하여 평균과 분산을 취해 단일 정규분포로 모델링한다[9][10]. 반향 채널 파라미터 역시 시간축으로 지수함수 형태로 감쇄하는 특성을 이용해 모델링하고 복잡한 특징 영역 변환 식과 통계적 가정으로 평균 에너지 값을 추정한다[8]. 그러나 이런 대략적인 추정은 실제와 관찰모델의 불일치를 발생시켜 최종 강화된 음성특징의 성능을 떨어뜨린다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
모델 기반 특징 향상 방법의 단점은 무엇인가? 또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다.
BSSA 방법에서 성능이 저하되는 문제가 발생하는 이유는 무엇 때문인가? 따라서, 이 방법을 이용해 적은 수의 분리 필터 탭과 마이크 로폰의 수로 잡음 추정을 하여 음성을 향상시킬 수 있다. 그러 나, BSSA 방법은 여전히 비결정 상황에서 관찰 신호 중 사용자 음성 성분과 잡음 성분의 크기를 정확히 추정할 수 없기 때문에 성능이 저하되는 문제점이 있다.
BSSA 방법에서는 어떻게 잡음을 추정하는가? 앞서 설명한 바와 같이 기존 특징 향상 방법에서 가산 잡음 파라미터를 정확히 추정하는 것은 어려운 일이다. 한편, BSSA 방법[4]은 독립성분분석으로 사용자의 음성신호를 제거한 다수의 출력을 만든 뒤, 이 출력에 역투사(projection back; PB)를 적용해 지연합(delay and sum; DS) 신호에 함유된 잡음을 추정한다. 특히, 이 방법은 지연합에 의해 향상된 신호와 추정된 잡음을 단순 차감하여 비결정 상황에서도 효율적으로 음성을 향상시킬 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. T. Virtanen et al. Techniques for Noise Robustness in Automatic Speech Recognition (John Wiley & Sons, 2012) 

  2. J. Huang et al. Improved modulation spectrum enhancement methods for robust speech recognition. Signal Process 92, 2791-2814 (2012) 

  3. I. Mporas et al. Context-adaptive pre-processing scheme for robust speech recognition in fast-varying noise environment. Signal Process 91, 2101-2111 (2011) 

  4. Y. Takahashi, et al. Blind spatial subtraction array for speech enhancement in noisy environment. IEEE Transactions on Audio Speech, Language Processing 17, 650-664 (2009) 

  5. F. Nesta & M. Matassoni. Robust automatic speech recognition through on-line semi blind source extraction. in Proc. 1st Int. Workshop on Machine Listening in Multisource Environments (CHiME), 18-23 (2011) 

  6. M. Wu & DeLiang Wang, A two-stage algorithm for one-microphone reverberant speech enhancement. Audio, Speech, and Language Processing, IEEE Transactions on 14, 774-784 (2006) 

  7. K. Lebart et al. A new method based on spectral subtraction for speech dereverberation. Acta Acustica United with Acustica 87, 359-366 (2001) 

  8. EA. Krueger & R. Haeb-Umbach. Model-based feature enhancement for reverberant speech recognition. IEEE Transcations on Audio, Speech and Language Processing 18, 1692-1707 (2010) 

  9. A. Krueger, et al. Bayesian feature enhancement for ASR of noisy reverberant real-world data. in Proc. Interspeech, Portland, USA (2012) 

  10. C. Han et al. Reverberation and Noise Robust Feature Compensation Based on IMM. Audio, Speech, and Language Processing, IEEE Transactions on 21, 1598-1611 (2013) 

  11. H. Bass, H. Bauer & L. Evans, Atmospheric absorption of sound: Analytical expressions. J. Acoust. Soc. Am. 52, 821-825, (1972) 

  12. Ji-Won Cho & Hyung-Min Park. Independent Vector Analysis Followed by HMM-Based Feature Enhancement for Robust Speech recognition. Signal Processing 120, 200-208 (2015) 

  13. Ji-Won Cho & Hyung-Min Park. An efficient HMMbased feature enhancement method with filter estimation for reverberant speech recognition. IEEE Signal Processing Letters 20, 1199-1202 (2013) 

  14. H. Hirsch & D. Pearce. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions. in ASR2000-Automatic Speech Recognition: Challenges for the New Millenium ISCA Tutorial and Research Workshop (ITRW), (2000) 

  15. S. Young et al. The HTK Book (Entropic Cambridge Research Laboratory Cambridge, 1997) 

  16. S. Nakaumra K. HIyane, F. Asano, T. Nishiura and T. Yama da, Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition, in LREC (2000) 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로