특징 정규화는 음성 특징 파라미터들의 통계적인 특성의 정규화를 통해 훈련 및 테스트 조건 사이의 환경 불일치의 영향을 감소시키는 방법으로서 기존의 Gaussian mixture model-hidden Markov model(GMM-HMM) 기반의 음성인식 시스템에서 우수한 성능개선을 입증한 바 있다. 하지만 심층신경망(deep neural network, DNN) 기반의 음성인식 시스템에서는 환경 불일치의 영향을 최소화 하는 것이 반드시 최고의 성능 개선으로 연결되지는 않는다. 본 논문에서는 이러한 현상의 원인을 과도한 특징 정규화로 인한 정보손실 때문이라 보고, 음향모델을 훈련 하는데 유용한 정보는 보존하면서 환경 불일치의 영향은 적절히 감소시켜 음성인식 성능을 최대화 하는 특징 정규화 방식이 있는 지 검토해보고자 한다. 이를 위해 평균 정규화(mean normalization, MN)와 평균 및 분산 정규화(mean and variance normalization, MVN)의 절충 방식인 평균 및 지수적 분산 정규화(mean and exponentiated variance normalization, MEVN)를 도입하여, 잡음 및 잔향 환경에서 분산에 대한 정규화의 정도에 따른 DNN 기반의 음성인식 시스템의 성능을 비교한다. 실험 결과, 성능 개선의 폭이 크지는 않으나 분산 정규화의 정도에 따라 MEVN이 MN과 MVN보다 성능이 우수함을 보여준다.
특징 정규화는 음성 특징 파라미터들의 통계적인 특성의 정규화를 통해 훈련 및 테스트 조건 사이의 환경 불일치의 영향을 감소시키는 방법으로서 기존의 Gaussian mixture model-hidden Markov model(GMM-HMM) 기반의 음성인식 시스템에서 우수한 성능개선을 입증한 바 있다. 하지만 심층신경망(deep neural network, DNN) 기반의 음성인식 시스템에서는 환경 불일치의 영향을 최소화 하는 것이 반드시 최고의 성능 개선으로 연결되지는 않는다. 본 논문에서는 이러한 현상의 원인을 과도한 특징 정규화로 인한 정보손실 때문이라 보고, 음향모델을 훈련 하는데 유용한 정보는 보존하면서 환경 불일치의 영향은 적절히 감소시켜 음성인식 성능을 최대화 하는 특징 정규화 방식이 있는 지 검토해보고자 한다. 이를 위해 평균 정규화(mean normalization, MN)와 평균 및 분산 정규화(mean and variance normalization, MVN)의 절충 방식인 평균 및 지수적 분산 정규화(mean and exponentiated variance normalization, MEVN)를 도입하여, 잡음 및 잔향 환경에서 분산에 대한 정규화의 정도에 따른 DNN 기반의 음성인식 시스템의 성능을 비교한다. 실험 결과, 성능 개선의 폭이 크지는 않으나 분산 정규화의 정도에 따라 MEVN이 MN과 MVN보다 성능이 우수함을 보여준다.
Feature normalization is a method to reduce the effect of environmental mismatch between the training and test conditions through the normalization of statistical characteristics of acoustic feature parameters. It demonstrates excellent performance improvement in the traditional Gaussian mixture mod...
Feature normalization is a method to reduce the effect of environmental mismatch between the training and test conditions through the normalization of statistical characteristics of acoustic feature parameters. It demonstrates excellent performance improvement in the traditional Gaussian mixture model-hidden Markov model (GMM-HMM)-based speech recognition system. However, in a deep neural network (DNN)-based speech recognition system, minimizing the effects of environmental mismatch does not necessarily lead to the best performance improvement. In this paper, we attribute the cause of this phenomenon to information loss due to excessive feature normalization. We investigate whether there is a feature normalization method that maximizes the speech recognition performance by properly reducing the impact of environmental mismatch, while preserving useful information for training acoustic models. To this end, we introduce the mean and exponentiated variance normalization (MEVN), which is a compromise between the mean normalization (MN) and the mean and variance normalization (MVN), and compare the performance of DNN-based speech recognition system in noisy and reverberant environments according to the degree of variance normalization. Experimental results reveal that a slight performance improvement is obtained with the MEVN over the MN and the MVN, depending on the degree of variance normalization.
Feature normalization is a method to reduce the effect of environmental mismatch between the training and test conditions through the normalization of statistical characteristics of acoustic feature parameters. It demonstrates excellent performance improvement in the traditional Gaussian mixture model-hidden Markov model (GMM-HMM)-based speech recognition system. However, in a deep neural network (DNN)-based speech recognition system, minimizing the effects of environmental mismatch does not necessarily lead to the best performance improvement. In this paper, we attribute the cause of this phenomenon to information loss due to excessive feature normalization. We investigate whether there is a feature normalization method that maximizes the speech recognition performance by properly reducing the impact of environmental mismatch, while preserving useful information for training acoustic models. To this end, we introduce the mean and exponentiated variance normalization (MEVN), which is a compromise between the mean normalization (MN) and the mean and variance normalization (MVN), and compare the performance of DNN-based speech recognition system in noisy and reverberant environments according to the degree of variance normalization. Experimental results reveal that a slight performance improvement is obtained with the MEVN over the MN and the MVN, depending on the degree of variance normalization.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
GMM 기반의 음성인식 시스템에서는 특징 정규화를 통해 환경 불일치의 영향을 감소시킬수록 성능이 더 개선되는 반면, 로그 멜 필터뱅크 에너지(log Mel-filterbank energy, LMFE)를 입력 특징으로 사용하는 DNN 기반의 음성인식 시스템에서는 환경 불일치의 영향을 최소화 하는 것이 반드시 최고의 성능 개선으로 연결되지는 않는다는 것이 본 논문의 관심사이다. 대표적으로 평균 정규화(mean normalization, MN) (Atal, 1974)와 평균 및 분산 정규화(mean and variance normalization, MVN) (Viikki et al.
이를 통해, 과도한 특징 정규화는 오히려 DNN 기반의 음향모델을 훈련하는 데 유용한 정보의 손실을 유발할 수 있다고 생각해 볼 수 있다. 따라서 본 논문에서는 MN과 MVN을 기준으로 하여 그 사이에 음향모델을 훈련 하는데 유용한 정보는 보존하면서 환경 불일치의 영향은 적절히 감소시켜 음성인식 성능을 최대화 하는 절충점이 있을 것이라 보고, 분산에 대한 정규화의 정도에 따라 음성인식 성능을 비교해 보았다.
따라서 본 논문에서는 평균에 대한 정규화는 MN과 동일하게 적용하되 분산에 대한 정규화는 그 정도를 조절할 수 있는 새로운 특징 정규화 방법인 평균 및 지수적 분산 정규화(mean and exponentiated variance normalization, MEVN)를 도입하여, 음성인식 성능 측면에서 MN과 MVN의 절충을 통한 성능개선 가능성을 검토하고자 한다.
제안 방법
Aurora-4 DB는 5,000단어급 영어 연속음성인식 DB인 Wall Street Journal(WSJ) DB에 여러 가지 잡음 및 채널특성을 부가한 것으로서, 평가 데이터는 clean 환경인 set A, 잡음 환경인 set B, 채널 불일치 환경인 set C, 그리고 잡음 및 채널 불일치 환경인 set D로 구성된다. 다만, Aurora-4 DB의 경우 다중 조건(multi-condition) 훈련 데이터에 부가된 잡음과 평가 데이터에 부가된 잡음의 종류가 동일하기 때문에, 훈련 환경에 존재하지 않는 잡음 환경에 대한 추가적인 음성인식 성능평가를 위해 Aurora-4 DB의 clean 환경 평가 데이터인 set A 데이터에 Noisex-92 DB로부터 획득한 잡음 1종(type 1)과 DEMAND(diverse environments multichannel acoustic noise database)로부터 획득한 잡음 3종(type 2, 3, 4)을 각각 부가하여 추가적인 평가 데이터를 생성하였다.
Reverb 2014 DB의 경우 잡음이 부가되기는 하나, 잔향의 영향에 비해 잡음의 영향은 미미하여 잔향만 존재하는 환경으로 보아도 무방하다. 따라서 잔향과 잡음의 영향이 공존하는 환경에 대한 음성인식 성능평가를 위해 Reverb 2014 DB에 Aurora-4 DB의 잡음을 부가하여 음성인식 성능 평가에 사용하였다. 표 4는 잔향과 잡음의 영향이 공존하는 환경에서 특징 정규화를 적용하지 않은 기본 방식과 α값에 따른 MEVN을 적용한 방식의 인식성능을 나타낸다.
본 논문에서는 DNN 기반의 음성인식 시스템으로 Kaldi 음성 인식 toolkit(Povey, 2011)의 chain 모델을 사용하였다. 시간 지연 신경망(Time delay neural network, TDNN) 구조의 음향모델에 기반한 chain 모델의 음성인식 시스템에 대해 40차원 LMFE를 입력특징으로 발화 단위의 특징 정규화 방식을 적용하여 잡음 및 잔향 환경에서의 인식성능을 평가하였다. 통상적으로 음성인식에 사용되는 음향특징은 LMFE 이외에도 여러 가지 존재하지만 DNN 기반 음성인식 시스템에서는 LMFE 특징을 사용하였을 때 성능이 가장 우수한 것으로 보고되고 있으며(Deng et al.
시간 지연 신경망(Time delay neural network, TDNN) 구조의 음향모델에 기반한 chain 모델의 음성인식 시스템에 대해 40차원 LMFE를 입력특징으로 발화 단위의 특징 정규화 방식을 적용하여 잡음 및 잔향 환경에서의 인식성능을 평가하였다. 통상적으로 음성인식에 사용되는 음향특징은 LMFE 이외에도 여러 가지 존재하지만 DNN 기반 음성인식 시스템에서는 LMFE 특징을 사용하였을 때 성능이 가장 우수한 것으로 보고되고 있으며(Deng et al., 2013), 본 논문에서 수행한 실험들에서도 LMFE가 가장 우수하였기 때문에 LMFE를 입력특징으로 특징 정규화 방식에 따른 인식 성능을 평가하였다.
대상 데이터
, 2013)를 사용하였다. Reverb 2014 DB의 평가데이터는 clean 음성 데이터에 3종류의 방에서 수집한 room impulse response(RIR)와 가산잡음을 인공적으로 부가하여 생성된 합성 데이터(SimData)와 실제 방에서 MC-WSJ-AV DB를 재생하여 녹음한 실제 데이터(RealData)로 구성된다. 표 3은 Reverb 2014 DB의 다중 조건 훈련 환경에서 특징 정규화를 적용하지 않은 기본 방식과 α값에 따른 MEVN을 적용한 방식의 인식성능을 나타낸다.
이론/모형
본 논문에서는 DNN 기반의 음성인식 시스템으로 Kaldi 음성 인식 toolkit(Povey, 2011)의 chain 모델을 사용하였다. 시간 지연 신경망(Time delay neural network, TDNN) 구조의 음향모델에 기반한 chain 모델의 음성인식 시스템에 대해 40차원 LMFE를 입력특징으로 발화 단위의 특징 정규화 방식을 적용하여 잡음 및 잔향 환경에서의 인식성능을 평가하였다.
잔향 환경에서의 음성인식 성능평가를 위해서는 Reverb 2014 DB(Kinoshita et al., 2013)를 사용하였다. Reverb 2014 DB의 평가데이터는 clean 음성 데이터에 3종류의 방에서 수집한 room impulse response(RIR)와 가산잡음을 인공적으로 부가하여 생성된 합성 데이터(SimData)와 실제 방에서 MC-WSJ-AV DB를 재생하여 녹음한 실제 데이터(RealData)로 구성된다.
잡음 환경에서의 음성인식 성능평가를 위해 Aurora-4 DB(Pearce & Picone, 2002)를 사용하였다.
성능/효과
α값에 따른 MEVN의 성능을 비교해보면 성능개선 폭이 크지는 않았지만 SimData는 α = 0.2일 때, RealData는 α = 0.6일 때 가장 우수한 성능을 얻을 수 있었다.
여기서 실험 1은 일치 잡음 조건에서 전체 평가 데이터의 단어 오류율, 실험 2는 미관측 잡음 조건에서 전체 평가 데이터의 단어 오류율, 실험 3은 잔향 환경에서 RealData의 단어 오류율 그리고 실험 4는 잔향 및 잡음 환경에서 RealData의 단어 오류율을 의미한다. 각 실험에 대해 특징 정규화 방식에 따른 인식성능을 비교하여 순위를 매겨보면 MN은 실험 3과 실험 4에서 최하위, MVN은 실험 1과 실험 2에서 최하위인 것에 반해 MEVN은 최하위인 경우가 없고 실험 1을 제외하면 모두 최상위인 것을 확인할 수 있다.
또한 다양한 환경에 대한 실험을 통해 MN과 MVN의 절충 방식인 MEVN 방식이 분산 정규화의 정도에 따라, 비록 성능 개선 폭이 크지는 않으나, 많은 경우 상대적으로 더 우수한 성능을 얻을 수 있음을 확인하였다. 결론적으로, 특징 정규화를 위해 MN 또는 MVN 중 하나의 방식을 선택하여 적용하는 부담을 가지는 것보다는, 둘 사이의 절충 방식인 MEVN을 적용하는 것이 다양한 환경에 대한 음성인식 성능을 개선하는 데에는 도움이 될 수 있다.
, 2013). 그 결과로 DNN 기반의 음성인식 시스템은 시끄러운 장소나 화자의 거리가 멀 때와 같이 열악한 환경에서도 기존의 음성인식 방식들보다 훨씬 개선된 성능을 보여주고 있다. 그러나 훈련 환경과 테스트 환경의 불일치로 인한 성능 저하 문제가 충분히 해결된 것은 아니어서 이 문제를 극복하기 위한 많은 시도들이 여전히 진행되고 있다.
그리고 표 1의 일치 잡음 조건에서는 MN과 MVN의 절충방식인 MEVN보다도 MN의 성능이 평균적으로 더 우수한 반면, 일치 잡음 조건보다 현실적으로 더 실제적인 상황인 표 2의 미관측 잡음 조건에서는 성능 차이가 크지는 않으나 α = 0.4일 때의 MEVN 성능이 평균적으로 가장 우수하였다.
그 차이는 SimData에 비해 RealData에서 두드러지는데 이는 RealData의 다중 조건 훈련 데이터와의 환경 불일치 정도가 SimData에 비해 더 심하기 때문으로 추정된다. 또한 RealData의 경우 표 1과 2의 잡음 환경에서와 달리 MN보다 MVN의 성능이 더 우수함을 확인할 수 있다. 추가적으로, α값에 따른 MEVN의 성능을 비교해보면 성능개선 폭이 크지는 않았지만 SimData는 α = 0.
환경 불일치에 의한 영향을 감소시키는 측면에서는 평균만을 정규화하는 MN보다 평균과 분산 모두 정규화 하는 MVN이 더 효과적이지만, 실제 음성인식 실험을 통해 일치 잡음 조건 및 미관측 잡음 조건의 잡음 환경에서는 MN을 적용하였을 때에 MVN을 적용하였을 때보다 인식 성능이 더 우수하였다. 또한 다양한 환경에 대한 실험을 통해 MN과 MVN의 절충 방식인 MEVN 방식이 분산 정규화의 정도에 따라, 비록 성능 개선 폭이 크지는 않으나, 많은 경우 상대적으로 더 우수한 성능을 얻을 수 있음을 확인하였다. 결론적으로, 특징 정규화를 위해 MN 또는 MVN 중 하나의 방식을 선택하여 적용하는 부담을 가지는 것보다는, 둘 사이의 절충 방식인 MEVN을 적용하는 것이 다양한 환경에 대한 음성인식 성능을 개선하는 데에는 도움이 될 수 있다.
잔향만 존재하는 환경의 경우와 마찬가지로 SimData와 RealData 모두 특징 정규화를 적용하지 않은 기본 방식보다 MEVN을 적용한 방식의 성능이 우수함을 확인할 수 있다. 또한, 잔향만 존재하는 환경에서처럼 RealData의 경우 MN보다 MVN의 성능이 더 우수하였다. α값에 따른 MEVN의 성능을 비교해보면 성능개선 폭이 크지는 않았지만 SimData는 α = 0.
표 3은 Reverb 2014 DB의 다중 조건 훈련 환경에서 특징 정규화를 적용하지 않은 기본 방식과 α값에 따른 MEVN을 적용한 방식의 인식성능을 나타낸다. 먼저 SimData와 RealData 모두 특징 정규 화를 적용하지 않은 기본 방식보다 MEVN을 적용한 방식의 성능이 우수함을 확인할 수 있다. 그 차이는 SimData에 비해 RealData에서 두드러지는데 이는 RealData의 다중 조건 훈련 데이터와의 환경 불일치 정도가 SimData에 비해 더 심하기 때문으로 추정된다.
본 논문에서는 LMFE 특징을 이용한 DNN 기반 음성인식 시스템에서 특징 정규화 과정을 통해 환경 불일치의 영향을 최소화하는 것이 반드시 음성인식 성능 개선으로 연결되지 않음을 확인하였다. 환경 불일치에 의한 영향을 감소시키는 측면에서는 평균만을 정규화하는 MN보다 평균과 분산 모두 정규화 하는 MVN이 더 효과적이지만, 실제 음성인식 실험을 통해 일치 잡음 조건 및 미관측 잡음 조건의 잡음 환경에서는 MN을 적용하였을 때에 MVN을 적용하였을 때보다 인식 성능이 더 우수하였다.
표 1과 2는 Aurora-4 DB의 다중 조건 훈련 환경에서 기존 Aurora-4 DB의 평가 데이터에 해당하는 일치 잡음 조건(matched noise condition)과 추가로 새로 생성한 미관측 잡음 조건(unseen noise condition)에 대해 특징 정규화 방식에 따른 인식 성능을 나타낸다. 앞서 언급한 바와 같이 두 경우 모두 MN을 적용하였을 때가 MVN을 적용하였을 때 보다 성능 면에서 우수함을 확인할 수 있다. 그리고 표 1의 일치 잡음 조건에서는 MN과 MVN의 절충방식인 MEVN보다도 MN의 성능이 평균적으로 더 우수한 반면, 일치 잡음 조건보다 현실적으로 더 실제적인 상황인 표 2의 미관측 잡음 조건에서는 성능 차이가 크지는 않으나 α = 0.
이상의 실험들을 통해 LMFE 특징을 이용한 DNN 기반의 음성인식 시스템에서는 특징 정규화 방식으로서 MN과 MVN의 어느 한 쪽이 성능 면에서 일관성 있게 우수하지 않음을 확인하였고, MN과 MVN의 절충방식인 MEVN에서 α값을 잘 선택하면 많은 경우 이들 두 방식보다 개선된 성능을 얻을 수 있음도 살펴보았다.
표 4는 잔향과 잡음의 영향이 공존하는 환경에서 특징 정규화를 적용하지 않은 기본 방식과 α값에 따른 MEVN을 적용한 방식의 인식성능을 나타낸다. 잔향만 존재하는 환경의 경우와 마찬가지로 SimData와 RealData 모두 특징 정규화를 적용하지 않은 기본 방식보다 MEVN을 적용한 방식의 성능이 우수함을 확인할 수 있다. 또한, 잔향만 존재하는 환경에서처럼 RealData의 경우 MN보다 MVN의 성능이 더 우수하였다.
추가적으로, α값에 따른 MEVN의 성능을 비교해보면 성능개선 폭이 크지는 않았지만 SimData는 α = 0.3일 때, RealData는 α = 0.5일 때 가장 우수한 성능을 얻을 수 있었다.
본 논문에서는 LMFE 특징을 이용한 DNN 기반 음성인식 시스템에서 특징 정규화 과정을 통해 환경 불일치의 영향을 최소화하는 것이 반드시 음성인식 성능 개선으로 연결되지 않음을 확인하였다. 환경 불일치에 의한 영향을 감소시키는 측면에서는 평균만을 정규화하는 MN보다 평균과 분산 모두 정규화 하는 MVN이 더 효과적이지만, 실제 음성인식 실험을 통해 일치 잡음 조건 및 미관측 잡음 조건의 잡음 환경에서는 MN을 적용하였을 때에 MVN을 적용하였을 때보다 인식 성능이 더 우수하였다. 또한 다양한 환경에 대한 실험을 통해 MN과 MVN의 절충 방식인 MEVN 방식이 분산 정규화의 정도에 따라, 비록 성능 개선 폭이 크지는 않으나, 많은 경우 상대적으로 더 우수한 성능을 얻을 수 있음을 확인하였다.
참고문헌 (11)
Atal, B. S. (1974). Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification. The Journal of the Acoustical Society of America, 55(6), 1304-1312.
De La Torre, A., Peinado, A. M., Segura, J. C., Perez-Cordoba, J. L., Benitez, M. C., & Rubio, A. J. (2005). Histogram equalization of speech representation for robust speech recognition. IEEE Transactions on Speech and Audio Processing, 13(3), 355-366.
Deng, L., Li, J., Huang, J. T., Yao, K., Yu, D., Seide, F., Seltzer, M., Zweig, G., ... Gong, Y. (2013, May). Recent advances in deep learning for speech research at Microsoft. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 8604-8608). Vancouver, BC.
Ioffe, S., & Szegedy, C. (2015, July). Batch normalization: Accelerating deep network training by reducing internal covariate shift. Proceedings of 32nd International Conference on Machine Learning (Vol. 37, pp. 448-456). Lille, France.
Kinoshita, K., Delcroix, M., Yoshioka, T., Nakatani, T., Habets, E., Haeb-Umbach, R., Leutnant, V., ... & Gannot, S. (2013, October). The REVERB challenge: A common evaluation framework for dereverberation and recognition of reverberant speech. In 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (pp. 1-4). New Paltz, NY.
Li, J., Deng, L., Gong, Y., & Haeb-Umbach, R. (2014). An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(4), 745-777.
Molau, S., Hilger, F., & Ney, H. (2003, April). Feature space normalization in adverse acoustic conditions. In 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing 2003 Proceedings (ICASSP'03) (Vol. 1, pp. I-I). Hong Kong.
Pearce, D., & Picone, J. (2002). Aurora working group: DSR front end LVCSR evaluation AU/384/02 (Technical report). Mississippi State, MS; Institute for Signal and Information Processing at Mississippi State University.
Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., ... Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). Hawaii, HI.
Viikki, O., Bye, D., & Laurila, K. (1998, May). A recursive feature vector normalization approach for robust speech recognition in noise. Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP'98 (Vol. 2, pp. 733-736). Seattle, WA.
Yu, D., Seltzer, M. L., Li, J., Huang, J. T., & Seide, F. (2013, March). Feature learning in deep neural networks - studies on speech recognition tasks. Proceedings of International Conference on Learning Representations(ICLR). Scottsdale, AZ.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.