[논문]잡음음성 음향모델 적응에 기반한 잡음에 강인한 음성인식

정용주

doi:10.13064/ksss.2014.6.2.029

잡음음성 음향모델 적응에 기반한 잡음에 강인한 음성인식
Noise Robust Speech Recognition Based on Noisy Speech Acoustic Model Adaptation 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.6 no.2, 2014년, pp.29 - 34

Abstract ▼ AI-Helper

In the Vector Taylor Series (VTS)-based noisy speech recognition methods, Hidden Markov Models (HMM) are usually trained with clean speech. However, better performance is expected by training the HMM with noisy speech. In a previous study, we could find that Minimum Mean Square Error (MMSE) estimation of the training noisy speech in the log-spectrum domain produce improved recognition results, but since the proposed algorithm was done in the log-spectrum domain, it could not be used for the HMM adaptation. In this paper, we modify the previous algorithm to derive a novel mathematical relation between test and training noisy speech in the cepstrum domain and the mean and covariance of the Multi-condition TRaining (MTR) trained noisy speech HMM are adapted. In the noisy speech recognition experiments on the Aurora 2 database, the proposed method produced 10.6% of relative improvement in Word Error Rates (WERs) over the MTR method while the previous MMSE estimation of the training noisy speech produced 4.3% of relative improvement, which shows the superiority of the proposed method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다. 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다. 제안된 방식은 Aurora 2 데이터베이스 [4]를 이용한 인식실험을 통하여 평가되었으며 기존의 방식과의 성능비교를 통해서 제안된 방식의 우수성을 보이고자 한다.
본 논문에서는 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하였다. HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로서 인식성능의 향상을 이루었다.
이번 절에서는 VTS 축약을 통하여 잡음음성 HMM의 평균 벡터와 공분산 행렬에 대한 적응식을 유도하고자한다. 깨끗한 음성 HMM을 사용하는 기존의 VTS 방식과는 다르게 MTR 방식에 의해서 훈련된 잡음음성 HMM이 제안된 모델 적응 방식에서 사용된다.
따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다. 제안된 방식은 Aurora 2 데이터베이스 [4]를 이용한 인식실험을 통하여 평가되었으며 기존의 방식과의 성능비교를 통해서 제안된 방식의 우수성을 보이고자 한다.

가설 설정

켑스트럼(cepstrum) 영역에서 훈련잡음음성과 테스트 잡음음성간의 수학적 관계식이 먼저 유도되며, 비선형적인 이 관계식은 VTS에 의하여 축약된다. 또한 부가잡 음과 채널잡음이 알려졌다고 가정함으로서 VTS 전개식으로부터 테스트 잡음음성에 대한 HMM의 평균벡터와 공분산 행렬이 추정된다. 잡음 파라미터에 대한 재추정을 위하여 반복적인 EM(Expectation Maximization) 알고리듬이 적용되며 이러한 반복적인 추정과정을 통해서 충분히 적응된 HMM 파라미터 값들을 이용하여 최종 인식시에 활용한다.

제안 방법

음성특징 추출을 위해서는 음성개선 알고리듬이 적용된 ETSI AFE를 사용하였다[9]. 0차의 cepstral 계수를 포함한 13차의 MFCC(Mel-frequency Cepstral Coefficient) 특징벡터를 추출하고 이들의 차분과 차차분 계수를 추가하여 전체 39차의 특징벡터를 사용하였다.
3. 부가잡음의 평균과 분산에 대한 초기값은 테스트 잡음음성의 처음과 끝부분의 묵음구간을 이용하여 구한다.
HMM의 모델링 복잡도에 따라서 인식알고리듬의 성능이 변하는 현상은 자주 일어난다. 따라서 제안된 알고리듬의 성능의 강인성을 확인하기 위해서 SBE 스크립트 보다 HMM의 상태의 혼합성분의 수가 훨씬 많이 설정된 CBE 스크립트에 대해서도 제안된 알고리듬의 성능분석을 실시하였다.
반복적인 EM 과정을 통하여 잡음파라미터 h와 μn에 대한 재추정을 실시하였다.
또한 여러 번의 디코딩 (multi-pass decoding)과정을 거치고 싶다면 5 와 7 사이를 반복적으로 수행할 수 도 있다. 본 연구에서는 EM과정은 주어진 테스트 잡음음성에 대한 로그 유사도가 수렴할 때까지 반복적으로 수행하였으나 multi-pass decoding 과정은 1회로 한정하였다.

대상 데이터

본 연구에서는 잡음음성인식 실험을 위하여 Aurora 2 데이터베이스를 사용하였다. Aurora 2 데이터베이스는 깨끗한 연속 숫자음 음성신호에 인공적으로 부가잡음을 더해주고 채널 왜곡을 인가하여 만들어진 잡음음성으로 구성되어 있으며 국제적으로 공인되어 가장 많이 사용되는 음성데이터 중의 하나 이다[4].
음향모델들은 Aurora 2 데이터베이스에서 제공된 숫자음에 대한 Simple Back End (SBE) 스크립트와 Complex Back End (CBE) 스크립트를 함께 사용하였다 [4]. SBE 스크립트의 경우 에는 음향모델을 위해서 각 숫자에 대한 HMM은 3개의 Gaussian 성분을 가지는 16개의 상태들로 이루어지나 묵음에 관한 HMM은 6개의 Gaussian 성분을 가지는 3개의 상태로 구성된다.

데이터처리

8. 7에서 구한 HMM 파라미터 값을 이용하여 주어진 테스트 잡음음성에 대해서 최종인식실험을 수행한다.
<표 1>에는 SBE 스크립트를 사용한 경우에 제안된 모델적응 알고리듬의 성능을 기존의 연구결과와 비교 하였다. MTR 훈련방식을 사용하여 잡음음성 HMM을 구성하였으며 Baseline은 깨끗한 음성으로 훈련된 HMM을 사용하는 것을 의미한다.

이론/모형

이번 절에서는 VTS 축약을 통하여 잡음음성 HMM의 평균 벡터와 공분산 행렬에 대한 적응식을 유도하고자한다. 깨끗한 음성 HMM을 사용하는 기존의 VTS 방식과는 다르게 MTR 방식에 의해서 훈련된 잡음음성 HMM이 제안된 모델 적응 방식에서 사용된다. 켑스트럼(cepstrum) 영역에서 훈련잡음음성과 테스트 잡음음성간의 수학적 관계식이 먼저 유도되며, 비선형적인 이 관계식은 VTS에 의하여 축약된다.
반면에 CBE 스크립트의 경우에는 각 상태의 혼합성분의 개수가 숫자음에 대해서는 20개로 증가하고 묵음에 대해 서는 36개로 증가하게 된다. 또한 음향모델의 훈련과 인식을 위해서는 HTK(Hidden Markov Toolkit)를 사용하였다[10].
음성특징 추출을 위해서는 음성개선 알고리듬이 적용된 ETSI AFE를 사용하였다[9]. 0차의 cepstral 계수를 포함한 13차의 MFCC(Mel-frequency Cepstral Coefficient) 특징벡터를 추출하고 이들의 차분과 차차분 계수를 추가하여 전체 39차의 특징벡터를 사용하였다.
또한 부가잡 음과 채널잡음이 알려졌다고 가정함으로서 VTS 전개식으로부터 테스트 잡음음성에 대한 HMM의 평균벡터와 공분산 행렬이 추정된다. 잡음 파라미터에 대한 재추정을 위하여 반복적인 EM(Expectation Maximization) 알고리듬이 적용되며 이러한 반복적인 추정과정을 통해서 충분히 적응된 HMM 파라미터 값들을 이용하여 최종 인식시에 활용한다.

성능/효과

본 논문에서는 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하였다. HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로서 인식성능의 향상을 이루었다. 테스트 잡음음성과 훈련잡음음성간의 새로운 관계식이 켑스트럼 영역에서 도출되었으며, VTS 기반의 축약을 이용하여 MTR 방식에 의해서 훈련된 HMM의 파라미터들이 적응되 도록 하였다.
과 의 결과를 비교해보면 제안된 모델 적응방식은 HMM의 복잡성과 관계없이 유사한 성능향상을 보임을 알 수 있으며, 이는 제안된 알고리듬의 강인성을 보여 준다.
이 관계식을 VTS를 이용하여 간소화 한 후, 테스트 잡음음성을 이용하여 훈련잡음음성을 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다. 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다.
에 대한 재추정을 실시하였다. 부가잡음의 평균과 공분산은 테스트 잡음음성의 묵음구간의 샘플을 이용하여 초기화되었으며 채널 잡음 h은 0으로 초기화 되었다.
<그림 1>에서 보다시피 제안된 모델적응방식은 기존의 특징보상방식에[7] 비해서 MTR 방식대비 성능에서 우수한 결과를 나타냄을 알 수 있다. 특히, Set C에서 특징보상방식은 MTR 방식에 비해서 약 5% 정도의 상대적 단어오인식율 향상 을 보였으나 모델적응방식은 MTR에 비해서 약 18% 정도의 상대적 단어오인식율 향상을 보여서 제안된 모델적응 방식이 채널잡음의 영향을 줄이는데 크게 기여하는 것으로 나타났다.
<그림 2>에는 CBE 스크립트를 사용한 경우 제안된 모델적응방식과 기존의 특징보상방식이 MTR 방식에 비해서 성취한 상대적 오인식 향상률을 보여준다. <그림 1>에서 보여준 SBE 경우와 비슷하게 제안된 모델적응 방식은 Set C에서 가장 큰상대적 오인식율 향상을 보여주며 Set A에 대해서도 MTR 방식에 비해서 더 나은 성능을 보임을 알 수 있다. 반면 Set B에서는 특징보상 방식과 큰 차이가 나지 않는 것을 알 수 있었다.
<표 1>의 결과를 통해서 보면 제안된 모델적응 방식은 기존의 특징보상 방식에 비해서 상당한 인식성능의 향상을 보임을 알 수 있다. 특징보상의 경우에는 Set A의 경우에는 MTR 에 비해서도 성능이 오히려 저조하였으나 모델적응을 적용함 으로서 Set A에 대해서도 성능이 향상됨을 알 수 있다.
<표 2>의 결과를 통해서 제안된 모델적응 방식이 CBE 스크립트를 사용한 경우에도 SBE 스크립트를 사용한 경우와 마찬가지로 기존의 특징보상 방식에 비해서 우수한 성능을 보임을 알 수 있다.
우리는 기존의 연구에서, 훈련잡음음성과 테스트 잡음음성 간의 관계를 로그-스펙트럼(log-spectrum) 영역에서 수학적으로 정립하였다[7]. 이 관계식을 VTS를 이용하여 간소화 한 후, 테스트 잡음음성을 이용하여 훈련잡음음성을 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다.
또한 잡음과 채널잡음의 파라미터들에 대한 재추정이 반복적인 EM 알고리듬을 통하여 일어난다. 제안된 방식은 기존의 특징보상 방식에 비해서 뛰어난 성능을 보임을 Aurora 2 데이터베이스를 이용한 인식실험 결과 확인할 수 있었다.
HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로서 인식성능의 향상을 이루었다. 테스트 잡음음성과 훈련잡음음성간의 새로운 관계식이 켑스트럼 영역에서 도출되었으며, VTS 기반의 축약을 이용하여 MTR 방식에 의해서 훈련된 HMM의 파라미터들이 적응되 도록 하였다. 또한 잡음과 채널잡음의 파라미터들에 대한 재추정이 반복적인 EM 알고리듬을 통하여 일어난다.
<표 1>의 결과를 통해서 보면 제안된 모델적응 방식은 기존의 특징보상 방식에 비해서 상당한 인식성능의 향상을 보임을 알 수 있다. 특징보상의 경우에는 Set A의 경우에는 MTR 에 비해서도 성능이 오히려 저조하였으나 모델적응을 적용함 으로서 Set A에 대해서도 성능이 향상됨을 알 수 있다.
<그림 1>에서 보다시피 제안된 모델적응방식은 기존의 특징보상방식에[7] 비해서 MTR 방식대비 성능에서 우수한 결과를 나타냄을 알 수 있다. 특히, Set C에서 특징보상방식은 MTR 방식에 비해서 약 5% 정도의 상대적 단어오인식율 향상 을 보였으나 모델적응방식은 MTR에 비해서 약 18% 정도의 상대적 단어오인식율 향상을 보여서 제안된 모델적응 방식이 채널잡음의 영향을 줄이는데 크게 기여하는 것으로 나타났다. Set A에서는 특징보상방식이 성능향상을 보이지 못한데 비해서 모델적응방식은 5% 정도의 상대적 단어오인식율 향상을 보임을 알 수 있으며 Set B에서는 특징보상과 모델적응방식의 차이가 가장 크지 않은 것으로 나타난다.

질의응답

핵심어	질문	논문에서 추출한 답변
	HMM 파라미터들과 테스트 잡음음성간의 불일치를 줄이기 위한 방법은 무엇들로 나뉘는가?	잡음환경에서의 음성인식은 많은 기술적인 발전에도 불구 하여 여전히 어려운 문제로 남아 있다. HMM 파라미터들과 테스트 잡음음성간의 불일치를 줄이기 위한 방법은 크게 잡음에 강인한 특징추출, 음질향상 그리고 특징보상 및 모델 파라 미터 적응 등으로 나누어진다[1]-[3].
	MTR 방식에서는 어떻게 잡음에 강한 모델을 구축할 수 있었는가?	최근에는 기존의 연구들과는 다른 관점에서 미리 잡음음성을 이용하여 HMM을 훈련하는 방법이 잡음음성 인식성능 향상을 위한 유용한 방법으로 간주되어 왔다. MTR 방식에서는 다양한 잡음환경의 잡음음성들을 모아서 HMM을 훈련함으로서 보다 잡음에 강인한 인식모델을 훈련과정 중에 구축할 수 있었다[4]. MMSR(Multi-Model based Speech Recognition) 방식 에서는 잡음종류나 신호대잡음비(SNR: Signal to Noise Ratio) 에 따라서 각각의 HMM을 훈련과정을 통해서 구성함으로서 테스트 잡음음성에 최적화한 인식모델을 사용할 수 있게 하였다[5].
	훈련잡음음성과 테스트 잡음음성 간의 관계를 로그-스펙트럼(log-spectrum) 영역에서 수학적으로 정립하였을때의 도출된 관계식에는 어떤 단점이 있는가?	이 관계식을 VTS를 이용하여 간소화 한 후, 테스트 잡음음성을 이용하여 훈련잡음음성을 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다. 따라서 본 논문에서는 기존의 알고리듬을 수정하여 이를 잡음음성 HMM의 파라미터 적응에 이용될 수 있도록 하였다.

참고문헌 (10)

Gales, M. (1995). Model based techniques for noise- robust speech recognition. Ph.D. Dissertation, University of Cambridge, United Kingdom.
Ball, S. F. (1979). Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust., Speech, Signal Process. Vol. 27, No. 2, 113-122.

상세보기
Moreno, P. J. (1996). Speech recognition in noisy environments. Ph.D. Dissertation, Carnegie Mellon University, United States of America.
Hirsch, H. G. & Pearce, D. (2000). The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions, in Proc. ICSLP. 18-20.
Xu, H., Tan, Z. -H., Dalsgaard, P. & Lindberg, B. (2007). Noise condition-dependent training based on noise classification and SNR estimation. IEEE Trans. Audio, Speech and Language Process. Vol. 15, No. 8, 2431-2443.

상세보기
Kalinli, O., Seltzer, M. L., Droppo, J., & Acero, A. (2010). Noise adaptive training for robust automatic speech recognition. IEEE Trans. Audio, Speech and Language Process. Vol. 18, No. 8, 1889-1901.

상세보기
Chung, Y. & Hansen, J.H.L. (2013). Compensation of SNR and noise type mismatch using an environmental sniffing based speech recognition solution. EURASIP Journal on Audio, Speech, and Music Processing, 2013:12, 1-14.
Gopinath, R. A., Gales, M., Gopalakrishnan, P. S., Balakrishnan-Aiyer, S. & Pocheny M. A. (1995). Robust speech recognition in Noise : Performance of the IBM continuous speech recognizer on the ARPA noise spoke task. in Proc. ARPA Spoken Language System Technology. 127-130.
ETSI draft standard doc., Speech processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm. ETSI Standard ES 202 050, 2002.
Young, S. (1993). HTK: Hidden Markov Model Toolkit V3.4.1. Cambridge University, Engineering Department, Speech Group.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증