[논문]가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법

조지원; 박형민

[국내논문] 가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.9, 2016년, pp.17 - 23

초록
AI-Helper

실세계 환경의 원거리에서 녹음된 음성은 가산 잡음이나 반향 성분으로 왜곡되기 때문에 음성인식 성능이 현저히 떨어진다. 따라서 음성 전처리 과정은 실세계 환경에서 강인한 음성인식을 위한 필수과정이다. 모델 기반 특징 향상 방법은 전처리 방법 중 하나로 특징 영역 데이터의 적절한 동적 범위(dynamic range)와 차원 수로 인하여 실시간 처리가 가능하고 깨끗한 음성의 선험적 정보를 모델링하기에 용이하다. 또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다. 이글에서는 특징 향상 방법을 소개하고 개선된 방법의 음성인식 강인성을 알아보고자 한다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

또, <그림 3>을 보면 반향 환경에서 실제 반향 필터는 각 주파수마다 감쇄하는 정도가 다르지만 [8]의 방법으로 추정한 반향 필터는 이런 특성을 얻을 수 없다[11]. 따라서 가산 잡음이나 반향 필터 파라미터를 정밀하게 추정하여 특징 강화 성능을 높이고자 한다.
이 글에서는 강인한 원거리 음성인식을 위한 전처리 기법으로서 향상된 특징 추출을 위해 개선된 은닉 마르코프 모델 기반 특징 향상 방법들을 설명하였다. 개선된 방법은 기존 방법에 비해 잡음이나 반향 채널 파라미터를 좀 더 세밀하게 추정하여 사용자 음성 향상 성능을 높였고 결과적으로 원거리 환경에서 인식성능을 강인하게 하였다.
이 글에서는 최근 위와 같은 기존의 모델 기반 특징 향상 방법의 문제점을 개선하기 위해 가산 잡음 혹은 반향 환경에 적합한 특징 향상 방법을 서술하려 한다. 독립벡터분석을 적용한 은닉 마르코프 모델 (hidden Markov model; HMM) 기반 특징 향상 방법[12]은 비정상적 가산 잡음 환경에서 신뢰성 있는 잡음추정과 1차적인 신호 향상을 위해 독립벡터분석을 기존 특징 향상에 도입하였다.

가설 설정

기존 연구에 의하면 가산 잡음이 정상적이라는 가정하에 특징영역에서 발성 이전의 몇 프레임을 이용하여 평균과 분산을 취해 단일 정규분포로 모델링한다[9][10]. 반향 채널 파라미터 역시 시간축으로 지수함수 형태로 감쇄하는 특성을 이용해 모델링하고 복잡한 특징 영역 변환 식과 통계적 가정으로 평균 에너지 값을 추정한다[8]. 그러나 이런 대략적인 추정은 실제와 관찰모델의 불일치를 발생시켜 최종 강화된 음성특징의 성능을 떨어뜨린다.

제안 방법

이를 극복하기 위해 blind spatial subtraction array (BSSA) 방법이 연구되었다[4]. BSSA방법은 음성인식 환경에서 사용자가 잡음원보다 마이크로폰에 상대적으로 가까이 위치하였다는 것을 가정하고 사용자 음성이 제거된 신호를 가산 잡음 추정에 활용하였다. 따라서, 이 방법을 이용해 적은 수의 분리 필터 탭과 마이크로폰의 수로 잡음 추정을 하여 음성을 향상시킬 수 있다.
먼저, 기존 은닉 마르코프 모델 기반 특징 향상 방법을 설명한다. 그 뒤, 독립벡터분석을 적용한 은닉 마르코프 모델 기반 특징 향상 방법[12]과 반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법[13]에 대해서 서술하고 정성적인 스펙트럼 그림 결과와 정량적인 음성인식 결과를 보며 분석한다. 마지막으로 결론을 맺는다.
독립벡터분석을 적용한 은닉 마르코프 모델 (hidden Markov model; HMM) 기반 특징 향상 방법[12]은 비정상적 가산 잡음 환경에서 신뢰성 있는 잡음추정과 1차적인 신호 향상을 위해 독립벡터분석을 기존 특징 향상에 도입하였다. 단순히 추정된 잡음을 차감하는 BSSA방법에 비해 추정된 잡음과 향상된 음성으로 관찰 모델을 만들고 은닉 마르코브 모델로 학습된 선험적 음성 모델을 이용해 사후확률 분포를 추정한 후 최소평균제곱 추정 방법을 취해 향상된 음성 특징을 추정하였다. 반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법[13]에서는 반향 채널 파라미터를 관찰 모델 변수로 도입하여 깨끗한 음성 특징뿐 아니라 반향 채널 파라미터도 추정하였다.
일반적으로 음성인식 시스템을 사용할 때, 사용자가 마이크로폰 배열에 상대적으로 가까이 있고 사용자의 위치는 상대적으로 쉽게 추정이 가능하다고 가정하고, 추정된 분리 필터 W_l의 각 행은 음원의 위치와 관계되어 있으므로 사용자의 위치에 대응하는 적절한 출력을 선택하여 향상된 사용자의 음성을 얻을 수 있다[4][12]. 또, 왜곡된 추정 잡음을 야기하는 역투사 과정을 생략하고 사용자 향상 음성의 앞 몇 프레임을 이용해 사용자 음성이 제거된 출력과 크기를 조정한다.
또, 주파수간 상관성 및 순서(permutation)을 고려했을 때 독립벡터분석 기반 사용자 음성 향상 출력을 지연합 출력에 대체하였다.

대상 데이터

독립벡터분석을 적용한 은닉 마르코프 모델 기반 특징 향상 방법의 음성인식 성능을 평가하기 위해 AURORA2[14] 데이터와 HTK[15]를 이용하였다. 이 때, 비결정 상황을 고려하기 위하여 마이크로폰은 2개로 고정하고 최대 3개의 배블 잡음원을 임의의 다른 위치에 배치해 두었다.
반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법의 음성인식 성능을 평가하기 위해 가산 잡음 환경과 마찬가지로 AURORA2 데이터와 HTK를 사용하였다. 이 때, 여러 가지 반향 환경을 고려하기 위해서 Real World Computing Partnership (RWCP) [16] 데이터에서 제공되는 약 0.

성능/효과

이 글에서는 강인한 원거리 음성인식을 위한 전처리 기법으로서 향상된 특징 추출을 위해 개선된 은닉 마르코프 모델 기반 특징 향상 방법들을 설명하였다. 개선된 방법은 기존 방법에 비해 잡음이나 반향 채널 파라미터를 좀 더 세밀하게 추정하여 사용자 음성 향상 성능을 높였고 결과적으로 원거리 환경에서 인식성능을 강인하게 하였다. 특히, 가산 잡음 환경에서 개선된 특징 향상 방법은 비결정 상황이나 비정상적 잡음 환경에서의 성능을 크게 개선하였다.
따라서 파라미터를 좀 더 정교하게 추정할 필요가 있다. <그림 2>는 각각 왜곡이 없는 음성 특징, 가산 잡음에 의해 왜곡이 발생한 음성 특징, 기존 방법에 의해 향상된 음성 특징을 나타낸 것인데 대략적인 잡음 추정으로 인해 50 혹은 150 번째 시간 프레임에서 왜곡이 생기는 것을 확인할 수 있다. 또, <그림 3>을 보면 반향 환경에서 실제 반향 필터는 각 주파수마다 감쇄하는 정도가 다르지만 [8]의 방법으로 추정한 반향 필터는 이런 특성을 얻을 수 없다[11].
이 때, 마이크로폰에 입력된 신호는 <그림 2>와 같다. 독립벡터분석을 적용한 은닉 마르코프 모델 기반 특징 향상 방법의 결과 신호는 기존 은닉 마르코프 모델 기반 특징 향상 방법보다 왜곡이 적고 독립성분분석, BSSA 보다 더 많이 잡음을 없애는 것을 확인할 수 있다.
BSSA방법은 음성인식 환경에서 사용자가 잡음원보다 마이크로폰에 상대적으로 가까이 위치하였다는 것을 가정하고 사용자 음성이 제거된 신호를 가산 잡음 추정에 활용하였다. 따라서, 이 방법을 이용해 적은 수의 분리 필터 탭과 마이크로폰의 수로 잡음 추정을 하여 음성을 향상시킬 수 있다. 그러나, BSSA 방법은 여전히 비결정 상황에서 관찰 신호 중 사용자 음성 성분과 잡음 성분의 크기를 정확히 추정할 수 없기 때문에 성능이 저하되는 문제점이 있다.
특히, 가산 잡음 환경에서 개선된 특징 향상 방법은 비결정 상황이나 비정상적 잡음 환경에서의 성능을 크게 개선하였다. 또, 반향 환경에서 개선된 방법은 음성 특징뿐만 아니라 반향 채널 파라미터를 변수로 도입하여 두 변수를 반복적으로 갱신함으로써 최종 인식 성능을 높였다. 비록 개선된 특징 향상 방법의 목적은 음성인식을 위한 전처리이지만 음질 개선이나 음성 데이터 외 다른 신호 전처리로 활용이 가능할 것이다.
35초, 입력 신호 대 잡음 비 0 ~ 15 dB일 때 기존 방법들과 독립벡터분석을 적용한 은닉 마르코프 모델 기반 특징 향상 방법의 단어 오인식율(word error rate; WER)을 나타낸다. 모든 입력 신호 대잡음 비에서 독립벡터분석을 적용한 은닉 마르코프 모델 기반 특징 향상 방법이 단어 오인식률이 가장 낮음을 확인할 수 있다.
<그림 8>은 각각 깨끗한 신호, 반향 필터에 의해 왜곡된 신호, 기존 은닉 마르코프 모델 기반 특징 향상 방법, 반향 파라 미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법 결과를 도시한 것이다. 여기서 기존 은닉 마르코프 모델 기반 특징 향상 방법와 반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법의 향상된 음성 특징 모두 반향에 의해 왜곡된 부분이 많이 감쇄하였음을 알 수 있다. 특히, <그림 9>에 표시한 반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법으로 추정된 반향 필터를 보면 <그림 3>의 실제 반향 필터와 매우 가까운 것을 확인할 수 있다.
7 초 정도의 반향 시간에 해당하는 측정된 방 충격 응답 필터로 깨끗한 음성 신호에 왜곡을 주어 관찰 신호를 생성한다. <그림 10>을 보면 모든 환경에서 반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법의 인식성능이 기존 방법에 비해 더 적은 단어 오인식률을 나타냄을 확인할 수 있다.
특히, 에 표시한 반향 파라미터 재추정을 이용한 은닉 마르코프 모델 기반 특징 향상 방법으로 추정된 반향 필터를 보면 의 실제 반향 필터와 매우 가까운 것을 확인할 수 있다.

후속연구

또, 반향 환경에서 개선된 방법은 음성 특징뿐만 아니라 반향 채널 파라미터를 변수로 도입하여 두 변수를 반복적으로 갱신함으로써 최종 인식 성능을 높였다. 비록 개선된 특징 향상 방법의 목적은 음성인식을 위한 전처리이지만 음질 개선이나 음성 데이터 외 다른 신호 전처리로 활용이 가능할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	모델 기반 특징 향상 방법의 단점은 무엇인가?	또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다.
	BSSA 방법에서 성능이 저하되는 문제가 발생하는 이유는 무엇 때문인가?	따라서, 이 방법을 이용해 적은 수의 분리 필터 탭과 마이크 로폰의 수로 잡음 추정을 하여 음성을 향상시킬 수 있다. 그러 나, BSSA 방법은 여전히 비결정 상황에서 관찰 신호 중 사용자 음성 성분과 잡음 성분의 크기를 정확히 추정할 수 없기 때문에 성능이 저하되는 문제점이 있다.
	BSSA 방법에서는 어떻게 잡음을 추정하는가?	앞서 설명한 바와 같이 기존 특징 향상 방법에서 가산 잡음 파라미터를 정확히 추정하는 것은 어려운 일이다. 한편, BSSA 방법[4]은 독립성분분석으로 사용자의 음성신호를 제거한 다수의 출력을 만든 뒤, 이 출력에 역투사(projection back; PB)를 적용해 지연합(delay and sum; DS) 신호에 함유된 잡음을 추정한다. 특히, 이 방법은 지연합에 의해 향상된 신호와 추정된 잡음을 단순 차감하여 비결정 상황에서도 효율적으로 음성을 향상시킬 수 있다.

참고문헌 (16)

T. Virtanen et al. Techniques for Noise Robustness in Automatic Speech Recognition (John Wiley & Sons, 2012)
J. Huang et al. Improved modulation spectrum enhancement methods for robust speech recognition. Signal Process 92, 2791-2814 (2012)

상세보기
I. Mporas et al. Context-adaptive pre-processing scheme for robust speech recognition in fast-varying noise environment. Signal Process 91, 2101-2111 (2011)

상세보기
Y. Takahashi, et al. Blind spatial subtraction array for speech enhancement in noisy environment. IEEE Transactions on Audio Speech, Language Processing 17, 650-664 (2009)

상세보기
F. Nesta & M. Matassoni. Robust automatic speech recognition through on-line semi blind source extraction. in Proc. 1st Int. Workshop on Machine Listening in Multisource Environments (CHiME), 18-23 (2011)
M. Wu & DeLiang Wang, A two-stage algorithm for one-microphone reverberant speech enhancement. Audio, Speech, and Language Processing, IEEE Transactions on 14, 774-784 (2006)

상세보기
K. Lebart et al. A new method based on spectral subtraction for speech dereverberation. Acta Acustica United with Acustica 87, 359-366 (2001)

상세보기
EA. Krueger & R. Haeb-Umbach. Model-based feature enhancement for reverberant speech recognition. IEEE Transcations on Audio, Speech and Language Processing 18, 1692-1707 (2010)

상세보기
A. Krueger, et al. Bayesian feature enhancement for ASR of noisy reverberant real-world data. in Proc. Interspeech, Portland, USA (2012)
C. Han et al. Reverberation and Noise Robust Feature Compensation Based on IMM. Audio, Speech, and Language Processing, IEEE Transactions on 21, 1598-1611 (2013)

상세보기
H. Bass, H. Bauer & L. Evans, Atmospheric absorption of sound: Analytical expressions. J. Acoust. Soc. Am. 52, 821-825, (1972)

상세보기
Ji-Won Cho & Hyung-Min Park. Independent Vector Analysis Followed by HMM-Based Feature Enhancement for Robust Speech recognition. Signal Processing 120, 200-208 (2015)
Ji-Won Cho & Hyung-Min Park. An efficient HMMbased feature enhancement method with filter estimation for reverberant speech recognition. IEEE Signal Processing Letters 20, 1199-1202 (2013)

상세보기
H. Hirsch & D. Pearce. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions. in ASR2000-Automatic Speech Recognition: Challenges for the New Millenium ISCA Tutorial and Research Workshop (ITRW), (2000)
S. Young et al. The HTK Book (Entropic Cambridge Research Laboratory Cambridge, 1997)
S. Nakaumra K. HIyane, F. Asano, T. Nishiura and T. Yama da, Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition, in LREC (2000)

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증