[논문]잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법

배아라; 김우일

doi:10.7776/ask.2019.38.1.051

초록
AI-Helper

본 논문에서는 잡음 환경에 강인한 음성 인식 성능을 위해 특징 보상 이득을 이용한 음성 향상 기법을 제안한다. 본 논문에서는 변분모델 생성 기법을 채용한 병렬 결합된 가우스 혼합 모델(Parallel Combined Gaussian Mixture Model, PCGMM) 기반의 특징 보상 기법으로부터 계산할 수 있는 특징 보상 이득을 이용하는 음성 향상 기술을 제안한다. 불일치 환경 음성 인식 시스템 적용 환경에서 본 논문에서 제안하는 기법이 실험 결과에서 기존의 전처리 기법 및 이전 연구에서 제안된 특징 보상 기반의 음성 향상 기법에 비해 다양한 잡음 및 SNR(Signal to Noise Ratio) 조건에서 월등한 인식 성능을 나타내는 것을 확인한다. 또한 잡음 모델 선택 기법을 적용함으로써 음성 인식 성능을 유사한 수준으로 유지하면서 계산량을 대폭적으로 감축할 수 있다.

Abstract ▼ AI-Helper

This paper proposes a speech enhancement method utilizing the feature compensation gain for robust speech recognition performances in noisy environments. In this paper we propose a speech enhancement method utilizing the feature compensation gain which is obtained from the PCGMM (Parallel Combined G...

This paper proposes a speech enhancement method utilizing the feature compensation gain for robust speech recognition performances in noisy environments. In this paper we propose a speech enhancement method utilizing the feature compensation gain which is obtained from the PCGMM (Parallel Combined Gaussian Mixture Model)-based feature compensation method employing variational model composition. The experimental results show that the proposed method significantly outperforms the conventional front-end algorithms and our previous research over various background noise types and SNR (Signal to Noise Ratio) conditions in mismatched ASR (Automatic Speech Recognition) system condition. The computation complexity is significantly reduced by employing the noise model selection technique with maintaining the speech recognition performance at a similar level.

주제어

표/그림 (5)

그림 Fig. 1. Block diagram of the VMC-PCGMM-based feature compensation scheme.^[5]
그림 Fig. 2. Block diagram of the proposed speech enhance-ment scheme employing the VMC-PCGMM-basedfeature compensation method.
표 Table 1. Speech recognition performance with the matched ASR system condition (WER, %).
그림 Fig. 3. Recognition performance for music noise in 5 dB SNR as change of the number of selected noise models (WER, %).
표 Table 2. Speech recognition performance with the mis-matched ASR system condition (WER, %).

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 잡음 환경에 강인한 음성 인식 성능을 위해 특징 보상 이득을 이용한 음성 향상 기법을 제안하였다. 본 논문에서는 변분 모델 생성 기법을 채용한 PCGMM 기반의 특징 보상 기법으로부터 계산할 수 있는 특징 보상 이득을 이용하는 음성 향상 기술을 제안하였다.
본 논문에서는 특징 보상 기법의 결과로 얻어지는 특징 보상 이득을 이용한 음성 향상 기술을 제안한다. 특징 보상 기술로는 변분 모델 생성(Variational Model Composition, VMC) 기법을 채용한 병렬 결합된 가우스 혼합 모델(Parallel Combined Gaussian Mixture Model, PCGMM) 기반의 특징 보상 기법을 사용한다.

가설 설정

본 연구에서는 음성 인식 시스템과 동일한 특징 추출 기법을 적용할 수 있는 경우를 일치 환경 음성 인식 시스템이라 가정하였다. 일치 환경시스템 조건에서는 ASR 시스템의 음향 모델(즉, HMM) 훈련에 사용된 것과 동일한 음성 데이터베이스를 사용할 수 있다고 가정하여, VTS, PCGMM, VMC-PCGMM과 같이 음향 모델을 사용하는 특징 보상 기법에서 음향 모델 훈련에 동일한 음성 데이터를 사용하는 것이 가능한 것을 가정하였다.

제안 방법

개의 잡음 모델이 생성되고, 이를 깨끗한 음성 GMM 모델과 결합할 경우 상당한 계산량을 필요로 한다. 이에 따라 본 논문에서는 VMC 기법을 통해 생성된 잡음 모델 중에 음성 향상 성능에 기여할 수 있는 잡음 모델만을 선택함으로써 대폭적으로 계산량을 감축하고자 한다. 제안하는 모델 선택 기법에서는 Eq.
제안하는 음성 향상 기법에서는 II장에서 설명한 VMC-PCGMM 기반의 특징 보상 기법의 결과로 얻어지는 음성 특징 보상의 이득(gain)을 이용한다. VMC-PCGMM 기반의 특징 보상 기법은 켑스트럼 도메인에서 이루어지므로, 입력 음성 파형 도메인으로의 변환이 이루어져야 한다.

대상 데이터

0의 SetA에 포함되어 있는 지하철, 자동차, 웅성거림(speech babble) 외에 배경 음악을 잡음 환경으로 사용하였다. 배경 음악은 빠르기와 비트가 다양한 유명 한국 가요 10곡의 전주 부분에서 샘플링 하였다.
0에서 제공하는 평가 방식을 사용하여 객관적인 성능 평가를 진행하였다.^[9]본 논문에서는 시간에 따라 변하는 잡음 환경을 반영하기 위해 Aurora2.0의 SetA에 포함되어 있는 지하철, 자동차, 웅성거림(speech babble) 외에 배경 음악을 잡음 환경으로 사용하였다. 배경 음악은 빠르기와 비트가 다양한 유명 한국 가요 10곡의 전주 부분에서 샘플링 하였다.

이론/모형

대표적인 전처리 알고리즘인 주파수 차감법(Spectral Subtraction, SS), 켑스트럼 정규화(Cepstral Mean Normalization, CMN) 기법, VTS(Vector Taylor Series) 기반 알고리즘을 이용하여 성능 비교를 수행하였다.^[4] 또한 ETSI에서 개발한 AFE(Advanced Front-End) 알고리즘도 평가하였다.^[11] 본 논문에서는 단어 오인식율(Word Error Rate, WER)을 음성 인식 성능의 지표로 사용하였다.
본 논문에서는 특징 보상 기법의 결과로 얻어지는 특징 보상 이득을 이용한 음성 향상 기술을 제안한다. 특징 보상 기술로는 변분 모델 생성(Variational Model Composition, VMC) 기법을 채용한 병렬 결합된 가우스 혼합 모델(Parallel Combined Gaussian Mixture Model, PCGMM) 기반의 특징 보상 기법을 사용한다.^[5] 성능 평가를 위해 Aurora 2.0 평가 프레임워크와 데이터베이스를 사용하였다.

성능/효과

불일치 환경 음성 인식 시스템 적용 환경에서 본 논문에서 제안하는 기법이 실험 결과에서 기존의 전처리 기법 및 이전 연구에서 제안된 특징 보상 기반의 음성 향상 기법에 비해 다양한 잡음 및 SNR 조건에서 월등한 인식 성능을 나타내는 것을 확인하였다. 또한 잡음 모델 선택 기법을 적용함으로써 음성 인식 성능을 유사한 수준으로 유지하면서 계산량을 대폭적으로 감축할 수 있었다.
본 논문에서는 변분 모델 생성 기법을 채용한 PCGMM 기반의 특징 보상 기법으로부터 계산할 수 있는 특징 보상 이득을 이용하는 음성 향상 기술을 제안하였다. 불일치 환경 음성 인식 시스템 적용 환경에서 본 논문에서 제안하는 기법이 실험 결과에서 기존의 전처리 기법 및 이전 연구에서 제안된 특징 보상 기반의 음성 향상 기법에 비해 다양한 잡음 및 SNR 조건에서 월등한 인식 성능을 나타내는 것을 확인하였다. 또한 잡음 모델 선택 기법을 적용함으로써 음성 인식 성능을 유사한 수준으로 유지하면서 계산량을 대폭적으로 감축할 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	VMC 기법은 무엇인가?	VMC 기법은 입력된 음성의 지속 기간 동안 변화하는 시변 잡음을 효과적으로 모델링하기 위해 제안된 기법으로 오염된 입력 음성으로부터 잡음 모델을 예측하고 이를 기저모델로 사용하여 다중의 유사 잡음 모델을 생성하는 방식이다.[5] 예측된 기저 잡음모델의 분산 요소 중 크기가 큰 것을 변분 요소로 결정하고 교란 인자 fp를 변분 요소의 평균 파라미터에 다음 식과 같이 적용함으로써 다중의 모델을 생성한다.
	음성 인식 시스템에서 사용되는 대표적인 전처리 알고리즘에는 무엇이 있는가?	대표적인 전처리 알고리즘인 주파수 차감법(Spectral Subtraction, SS), 켑스트럼 정규화(Cepstral Mean Normalization, CMN) 기법, VTS(Vector Taylor Series) 기반 알고리즘을 이용하여 성능 비교를 수행하였다.[4] 또한ETSI에서 개발한 AFE(Advanced Front-End) 알고리즘도평가하였다.
	음성 향상 기법(SE-PCGMM)과 비교하여 음성 향상 기법(SE-VMC)은 어떤 결과를 얻을 수 있는가?	Table 2의 결과에서 알 수 있듯이 기존의 전처리 기법과 이전 연구에서 제안한 음성 향상 기법(SE-PCGMM)이 일치 환경 ASR 조건과 비교하여 대폭적인성능 하락을 보이는 것에 비하여, 본 논문에서 제안하는 VMC-PCGMM 기반의 음성 향상 기법(SE-VMC)은 성능 하락이 상대적으로 매우 작은 것을 확인할 수 있다. 불일치 환경 ASR 조건에서 가장 우수한 인식 성능인 11.14 %의 오인식률을 나타내고, 해당 성능은 일치 환경 ASR 조건과 비교하여 0.27 %의 매우 낮은 성능 하락을 보인다. 모델 선택 기법을 채용한 경우에는 모든 모델을 사용한 경우와 매우 유사한 성능을 보이며 (11.

참고문헌 (12)

S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," Proc. IEEE Trans. on Acoustics, Speech and Signal, 27, 113-120 (1979).

상세보기
P. J. Moreno, B. Raj, and R. M. Stern, "Data-driven environmental compensation for speech recognition: a unified approach," Speech Communication, 24, 267-285 (1998).

상세보기
W. Kim and J. H. L. Hansen, "Variational noise model composition through model perturbation for robust speech recognition with time-varying background noise," Speech Communication, 53, 451-464 (2011).

상세보기
J. L. Gauvain and C. H. Lee, "Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains," Proc. IEEE Trans. on Speech and Audio, 2, 291-298 (1994).

상세보기
C. J. Leggetter and P. C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density HMMs," Computer Speech and Language, 9, 171-185 (1995).

상세보기
M. J. F. Gales and S. J. Young, "Robust continuous speech recognition using parallel model combination," Proc. IEEE Trans. on Speech and Audio, 4, 352-359 (1996).

상세보기
J. Du, L.-R. Dai, and Q. Huo, "Synthesized stereo mapping via deep neural networks for noisy speech recognition," ICASSP 2014, 1764-1768 (2014).
K. Han, Y. He, D. Bangchi, E. F. -Lussifer, and D. L. Wang, "Deep neural network based spectral feature mapping for robust speech recognition," Interspeech 2015, 2484-2488 (2015).
H. G. Hirsch and D. Pearce, "The AURORA experimental framework for the performance evaluations of speech recognition systems under noisy conditions," ISCA ITRW ASR2000 (2000).
W. Kim, "Speech enhancement based on feature compensation for independently applying to different types of speech recognition systems" (in Korean), J. Korea Institute of Information and Communication Engineering, 18, 2367-2374 (2014).

원문보기 상세보기
ETSI ES 201 108, ETSI Standard Document, v1.1.2 (2000-04), 2000.
http://htk.eng.cam.ac.uk

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법
Speech enhancement method based on feature compensation gain for effective speech recognition in noisy environments 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (5)

표/그림 (5)

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법 Speech enhancement method based on feature compensation gain for effective speech recognition in noisy environments 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (5) 모든 표/그림 보기

표/그림 (5) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

김우일 (23)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잡음 환경에 효과적인 음성인식을 위한 특징 보상 이득 기반의 음성 향상 기법
Speech enhancement method based on feature compensation gain for effective speech recognition in noisy environments 원문보기

초록
AI-Helper

표/그림 (5)

표/그림 (5)

AI 본문요약
AI-Helper