주파수 변이를 이용한 Parallel Model Combination 모델 적응에 기반한 잡음에 강한 음성인식 Noise Robust Speech Recognition Based on Parallel Model Combination Adaptation Using Frequency-Variant원문보기
일반적인 음성인식 시스템은 조용한 인식 환경에서는 높은 인식성능을 나타내지만 잡음이 존재하는 실제 환경에서는 그 성능이 급격히 저하한다. 본 논문에서는 다양한 잡음환경에서도 강인한 음성인식기를 구현하기 위하여, 주파수의 변이도를 이용하여 음성인식을 위한 환경 정보를 얻고 이를 음성 인식을 위한 모델 개선에 적용하여 성능향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (Parallel Model Combination adaptation using frequency-variant based on environment - awareness : FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정하고 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행한다. 제안한 FV-PMC 방법을 이용하여 잡음을 분류 하였을 경우 평균 분류 정확도는 56%를 보였고 이를 이용해 음성인식 실험을 실시한 결과 Set A의 평균인식률은 79.05%, Set B의 평균인식률은 79.43%, Set C의 평균인식률은 83.37%로 나타났다. 전체 평균인식률 80.62%로 기존의 깨끗한 모델을 이용한 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.
일반적인 음성인식 시스템은 조용한 인식 환경에서는 높은 인식성능을 나타내지만 잡음이 존재하는 실제 환경에서는 그 성능이 급격히 저하한다. 본 논문에서는 다양한 잡음환경에서도 강인한 음성인식기를 구현하기 위하여, 주파수의 변이도를 이용하여 음성인식을 위한 환경 정보를 얻고 이를 음성 인식을 위한 모델 개선에 적용하여 성능향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (Parallel Model Combination adaptation using frequency-variant based on environment - awareness : FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정하고 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행한다. 제안한 FV-PMC 방법을 이용하여 잡음을 분류 하였을 경우 평균 분류 정확도는 56%를 보였고 이를 이용해 음성인식 실험을 실시한 결과 Set A의 평균인식률은 79.05%, Set B의 평균인식률은 79.43%, Set C의 평균인식률은 83.37%로 나타났다. 전체 평균인식률 80.62%로 기존의 깨끗한 모델을 이용한 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.
The common speech recognition system displays higher recognition performance in a quiet environment, while its performance declines sharply in a real environment where there are noises. To implement a speech recognizer that is robust in different speech settings, this study suggests the method of Pa...
The common speech recognition system displays higher recognition performance in a quiet environment, while its performance declines sharply in a real environment where there are noises. To implement a speech recognizer that is robust in different speech settings, this study suggests the method of Parallel Model Combination adaptation using frequency-variant based on environment-awareness (FV-PMC), which uses variants in frequency; acquires the environmental data for speech recognition; applies it to upgrading the speech recognition model; and promotes its performance enhancement. This FV-PMC performs the speech recognition with the recognition model which is generated as followings: i) calculating the average frequency variant in advance among the readily-classified noise groups and setting it as a threshold value; ii) recalculating the frequency variant among noise groups when speech with unknown noises are input; iii) regarding the speech higher than the threshold value of the relevant group as the speech including the noise of its group; and iv) using the speech that includes this noise group. When noises were classified with the proposed FV-PMC, the average accuracy of classification was 56%, and the results from the speech recognition experiments showed the average recognition rate of Set A was 79.05%, the rate of Set B 79.43%m, and the rate of Set C 83.37% respectively. The grand mean of recognition rate was 80.62%, which demonstrates 5.69% more improved effects than the recognition rate of 74.93% of the existing Parallel Model Combination with a clear model, meaning that the proposed method is effective.
The common speech recognition system displays higher recognition performance in a quiet environment, while its performance declines sharply in a real environment where there are noises. To implement a speech recognizer that is robust in different speech settings, this study suggests the method of Parallel Model Combination adaptation using frequency-variant based on environment-awareness (FV-PMC), which uses variants in frequency; acquires the environmental data for speech recognition; applies it to upgrading the speech recognition model; and promotes its performance enhancement. This FV-PMC performs the speech recognition with the recognition model which is generated as followings: i) calculating the average frequency variant in advance among the readily-classified noise groups and setting it as a threshold value; ii) recalculating the frequency variant among noise groups when speech with unknown noises are input; iii) regarding the speech higher than the threshold value of the relevant group as the speech including the noise of its group; and iv) using the speech that includes this noise group. When noises were classified with the proposed FV-PMC, the average accuracy of classification was 56%, and the results from the speech recognition experiments showed the average recognition rate of Set A was 79.05%, the rate of Set B 79.43%m, and the rate of Set C 83.37% respectively. The grand mean of recognition rate was 80.62%, which demonstrates 5.69% more improved effects than the recognition rate of 74.93% of the existing Parallel Model Combination with a clear model, meaning that the proposed method is effective.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 다양한 잡음환경 하에서 강인한 음성인식 시스템을 구현하기 위하여 FV-PMC 방법을 제안하였다. 이 방법은 혼입이 예상되는 잡음들을 주파수 변이의 평균값을 이용하여 임계치를 정한 후이를 이용하여 잡음을 수종의 잡음군으로 분류한 후 잡음 군 별 잡음음성 인식모델을 작성하여 음성 인식을 수행하는 방법이다.
제안 방법
따라서 본 논문에서는 주파수 변이 방법을 이용하여 잡음을 분류한 후 이를 음성인식에 적용하기로 한다.
따라서, 본 논문에서는 음성인식 시 혼입이 예상되는 잡음들을 몇 가지 군으로 분류한 다음, 입력음성에 포함된 잡음과 비교하여 주파수의 변이도를 이용하여 잡음음성인식을 위한 환경 정보를 얻는다. 이를 음성 인식을 위한 모델 개선에 적용하여 성능 향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (FV-PMC) 방법을 제안한다.
본 논문에서는 먼저 잡음의 분류를 위해서 사전실험으로 각 잡음군 간의 평균 변이도를 미리 계산하여 정한 임계치를 설정하였다. 이 후 입력음성과 10개의 잡음환경의 음성과 주파수 변이도를 각각 계산하여 특정 임계치보다 높은 경우 비교한 잡음군의 잡음이 포함된 음성으로 처리한다.
잡음환경은 총 10 종류의 잡음으로 분류되어 있으며, 3개의 Set 즉, Set A(subway, babble, car, exhibition)와 Set B(restaurant, street, airport, station) 그리고 Set A와 Set B에 나타난 2가지 잡음 (subway, street)에 훈련환경과 다른 채널특성을 포함한 Set C로 구성되어 있으며 잡음 레벨을 7가지(Clean, 20 dB, 15 dB, 10 dB, 5 dB, 0 dB, -5 dB)로 구분되어 있다. 성능 평가에서는 Set A, B, C 의 각 잡음의 종류에 대해서 20 dB에서 0 dB까지의 5 가지 레벨의 평균 단어 인식률(word accuracy)을 비교한다.
유사성을 가진 여러 집단의 분류를 위해서는 여러 가지 거리척도가 이용될 수 있으나 본 논문에서는 일반적으로 많이 이용되고 있는 Weighted Spectral Slope와 Cepstral Distance를 이용하기로 한다. 이하 이에 대해 간략한다.
본 논문에서는 먼저 잡음의 분류를 위해서 사전실험으로 각 잡음군 간의 평균 변이도를 미리 계산하여 정한 임계치를 설정하였다. 이 후 입력음성과 10개의 잡음환경의 음성과 주파수 변이도를 각각 계산하여 특정 임계치보다 높은 경우 비교한 잡음군의 잡음이 포함된 음성으로 처리한다. 예를 들면 잡음이 확인되지 않은 음성이 입력되어 10개의 잡음음성과의 주파수 변이도를 각각 계산한 후 subway 잡음음성과의 주파수 변이도가 4.
따라서, 본 논문에서는 음성인식 시 혼입이 예상되는 잡음들을 몇 가지 군으로 분류한 다음, 입력음성에 포함된 잡음과 비교하여 주파수의 변이도를 이용하여 잡음음성인식을 위한 환경 정보를 얻는다. 이를 음성 인식을 위한 모델 개선에 적용하여 성능 향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군 간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정한 다음, 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행하는 방법이다.
인식시 혼입이 예상되는 여러 종류의 잡음을 GMM을 이용하여 평균과 분산 파라미터를 추출한 후 PMC 알고리즘에 부가한 후 개선된 잡음 모델을 생성한다.
성능/효과
Basic parallel model combination.[10]
1) 음성과 배경 잡음은 상호 독립적이다.
2) 음성과 배경 잡음은 시간 영역에서 가산적이다.
3) 단독 다변량 가우스 모델(single multivariate Gaussian model)로 음성과 배경 잡음 정보를 충분히 알 수 있다.
4) 잡음 첨가 후에도 프레임 및 HMM 모델의 상태 배열은 유지된다.
Table 3 으로부터 알 수 있는 바와 같이 WSS, CEP의 경우는 각각 전체 평균 34.05%, 31.65%, 본 논문에서 도입한 평균 주파수 변이도를 이용한 경우에는 56%로 나타나 주파수 변이 방법은 다른 두 방법에 비해 현저히 높은 분류 정확도를 보임을 알 수 있다.
37%로 나타났다. 그 결과 전체 평균인식률은 80.62%로 기존의 PMC 방법의 74.93%보다 5.69% 향상된 결과를 얻어 제안한 방법의 유효성을 확인할 수 있었다. 그러나 특정 잡음 예를 들면 babble, exhibition 등에서는 오히려 평균 인식률이 기존 PMC 방법 보다 다소 떨어지는 결과를 보였는데 이는 잡음분류 시스템의 정확도가 54%, 52%로 다른 잡음에 비해 낮음으로 인해 인식률이 떨어지는 결과를 보이는 것으로 분석된다.
69% 향상된 결과를 보여 제안한 방법의 인식에 대한 유효성을 확인할 수 있다. 그러나 Fig. 4 에 나타낸 각 잡음별 FV-PMC의 인식률을 살펴보면, babble, exhibition 잡음과 같은 특정 잡음에서는 71.02%, 73.07%로 오히려 평균 인식률이 기존 PMC방법 보다 다소 떨어지는 결과를 보였는데 이는 잡음분류 정확도가 54%, 52%로 다른 잡음에 비해 낮음으로 인해 인식률이 떨어지는 결과를 보이는 것으로 분석된다.
69% 향상된 결과를 얻어 제안한 방법의 유효성을 확인할 수 있었다. 그러나 특정 잡음 예를 들면 babble, exhibition 등에서는 오히려 평균 인식률이 기존 PMC 방법 보다 다소 떨어지는 결과를 보였는데 이는 잡음분류 시스템의 정확도가 54%, 52%로 다른 잡음에 비해 낮음으로 인해 인식률이 떨어지는 결과를 보이는 것으로 분석된다. 향후, 잡음분류의 정확도를 좀 더 향상시킬 수 있는 새로운 방법에 연구가 진행될 예정이다.
실험결과 잡음군별 분류 정확도는 평균 56%를 보였으며 잡음군별로 분류된 잡음음성 인식모델을 이용하여 음성인식을 수행한 결과 set A에 대해서는 79.05%, set B에 대해서는 79.43%, set C에 대해서는 83.37%로 나타났다. 그 결과 전체 평균인식률은 80.
37%로 나타났다. 전체 평균인식률 80.62%로 기존의 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 인식에 대한 유효성을 확인할 수 있다. 그러나 Fig.
후속연구
본 논문에서는 인식환경에서 발생할 수 있는 다양한 잡음들을 몇 가지 잡음 군으로 분류하여 각 군별 잡음을 이용하여 인식모델을 훈련한 후, 분류된 잡음 군에 속하는 잡음 환경 하에서 발성된 음성이 입력될 때 이 신호에 포함되는 잡음의 종류를 추정하고 추정된 잡음 군으로 훈련된 인식 모델을 이용할 경우 보다 개선된 음성인식 성능을 달성할 수 있을 것으로 기대할 수 있다.
[14] 주파수 변이도는 음성개선 알고리즘의 평가를 하는 데 주로 쓰이는 방법으로, 잡음이 포함되지 않은 원 음성신호와 잡음이 포함된 음성신호의 잡음이 개선된 음성신호들의 각 프레임 간 가중스펙 트럼 기울기(weighted spectral distance)를 계산하여 음성의 개선정도를 평가하는 방법이다. 이 방법을 이용하면 유사성분의 많이 포함되어 있는 각 잡음 군을 분류하는 데 유용할 것으로 생각된다.
그러나 특정 잡음 예를 들면 babble, exhibition 등에서는 오히려 평균 인식률이 기존 PMC 방법 보다 다소 떨어지는 결과를 보였는데 이는 잡음분류 시스템의 정확도가 54%, 52%로 다른 잡음에 비해 낮음으로 인해 인식률이 떨어지는 결과를 보이는 것으로 분석된다. 향후, 잡음분류의 정확도를 좀 더 향상시킬 수 있는 새로운 방법에 연구가 진행될 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
잡음에 강인한 음성 인식시스템를 구현하기 위해서는 다양한 잡음으로 인해 야기된 훈련 조건과 인식 조건 사이의 불일치를 보상할 필요가 있는데 이를 보상하기 위한 방법에는 무엇이 있는가?
[1] 따라서 잡음에 강인한 음성 인식시스템의 구현을 위해서는 이러한 다양한 잡음으로 인해 야기된 훈련 조건과 인식 조건 사이의 불일치를 보상할 필요가 있다. 이를 보상하기 위한 방법은 음성강화(speech enhancement), 잡음에 강한 특징추출 (robust feature extraction), 잡음에 강한 거리측도 (robust distance measure)를 이용한 방법, 모델에 기반을 둔 보상방법(model-based compensation) 등이 있다.[2]
음성강화는 무엇인가?
음성강화란 배경잡음으로 오염된 음성에서 부가 잡음을 제거하고 음성의 질이나 명료도(intelligibility)를 향상시키는 방법을 말한다. 음성강화 알고리즘에는 스펙트럼 크기의 예측에 의한 방법으로 Spectral Subtraction, MMSE(Minimum Mean Square Error), Wiener filtering 등이 있다.
음성개선 알고리즘의 평가를 하는 데 주로 쓰이는 방법인 주파수 변이도는 어떤 방법인가?
한편 유사한 특성을 가진 파라미터를 분류하는 척도로서는 주파수 변이도를 이용한 방법이 많이 이용 된다.[14] 주파수 변이도는 음성개선 알고리즘의 평가를 하는 데 주로 쓰이는 방법으로, 잡음이 포함되지 않은 원 음성신호와 잡음이 포함된 음성신호의 잡음이 개선된 음성신호들의 각 프레임 간 가중스펙 트럼 기울기(weighted spectral distance)를 계산하여 음성의 개선정도를 평가하는 방법이다. 이 방법을 이용하면 유사성분의 많이 포함되어 있는 각 잡음 군을 분류하는 데 유용할 것으로 생각된다.
참고문헌 (21)
Yao, E. Visser, O. W. Kwon and T. W. Lee, "A seech processing front-end with eigenspace normalization for robust speech recognition in noisy automobile environments," Proc. Eurospeech, 9-12 ( 2003).
Seon-Mi Gang, "Study on speech recognition under noisy environments" (in Korean), J. Inst. Ind. Tech. 3, 301-318 (1997).
J. S. Lim, A. V. Oppenheim, "Enhancement and bandwidth compression of noisy speech," Proceedings IEEE, 67, 1586-1604 (1979).
Y. Ephraim and D. Malah, and B. H. Juang, "On the application of hidden markov models for enhancing noisy speech," Proc. ICASSP, 533-536 (1992).
J. C. Junqua and J. P. Haton, Robustness in Automatic Speech Recognition: Fundamentals and Applications, (Kluwer Academic Publishers, 1996).
Y. H. Suk, S. H. Choi, and H. S. Lee, "Cepstrum PDF normalization method for Speech recognition in noise environment"(in Korean), J. Acoust. Soc. Kr. 4(s) 24, 224-229 (2005).
Hanson, B. A., and Wakita, H., "Spectral slope distance measure with linear prediction analysis for word recognition in noise," IEEE Trans. on ASSP, ASSP-35, 7, 968-973 ( 1987).
Juang, B. H., Rabiner, L., and Wilpon, J., "On the use og bandpass liftering in speech recognition," ICASSP, 765-768 (1986).
A. Nadas, D. Nahamoo and M. Picheny, "Speech recognition using noise adaptive prototypes," Proc. ICASSP, 517-520 (1988).
Gue-Jun Jung, Hoon-Young Cho, and Yung-Hwan Oh, "Improved compensation of dynamic parameter in PMC for robust speech recognition"(in Korean), J. Acoust. Soc. Kr. 1(s) 20, 183-186 (2001).
K. C. SIM, M.T. LUONG, "A trajectory-based parallel model combination with a unified static and dynamic parameter compensation for noisy speech recognition," ASRU, 107-112 ( 2011).
G.H. Shen, H.Y. Jung, and H. Y. Chung, "A noise robust speech recognition method using model compensation based on speech enhancement"(in Korean), J. Acoust. Soc. Kr. 4(s) 27, 191-199 (2008).
Hadi Veisi, Hossein Sameti, "Cepstral-domain hmm - based speech enhancement using vector taylor series and parallel model combination," ISSPA, 298-303(2012).
Philipos C .Loizou, Speech Enhancement -Theory and Practice, (CRC Press, Florida, 2007).
Varga A. and Moore R.,"Hidden markov model decomposition of speech and noise," ICASSP, 845-848 (1990).
Nakamura, S. Qiang Hou, Shikano, K., "Model adaptation based on hmm decomposition for reverberant speech recognition," ICASSP, 21-24 (1997).
G. J. Jung, "Improved on-line model compensation for robust speech recognition"(in Korean), Master's thesis (2002).
Gales,M. and Young S.,"HMM recognition in noise using parallel model combination," EUROSPEECH, 837-840 (1993).
M. J. F. Gales, S. Young, "Robust continuous speech recognition using parallel model combination," IEEE TSAP, 4, 352-359 (1996).
Rabiner, lr, and Juang, bh, Fundamentals of Speech Recognition,( Prentice-Hall, New Jersey,1993).
H.-G Hirsch, D. Pearce, "The AURORA experimental framework for the performance evaluation of speech recognition systems under noisy conditions," ISCA ITRW ASR (2000).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.