[논문]환경인식 기반의 향상된 Minimum Statistics 잡음전력 추정기법

손영호; 최재훈; 장준혁

doi:10.7776/ask.2011.30.3.123

[국내논문] 환경인식 기반의 향상된 Minimum Statistics 잡음전력 추정기법
Improved Minimum Statistics Based on Environment-Awareness for Noise Power Estimation 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.30 no.3, 2011년, pp.123 - 128

손영호 (인하대학교 전자공학부) , 최재훈 (인하대학교 전자공학부) , 장준혁 (한양대학교 융합전자공학부)

초록
AI-Helper

본 논문에서는 다양한 잡음 환경에서 음성향상을 위한 Minimum Statistics (MS) 잡음전력 추정 기법을 제시한다. 기존의 방법에서는 최소값 추적을 위해서 유한한 서치 (search)윈도우를 사용하여 최적으로 신호의 파워 스펙트럼을 수무딩하고 최소 확률을 적용하는 것을 기본으로 한다. 본 논문에서 제안된 알고리즘은 기존의 최소값 서치 윈도우가 다양한 잡음 환경에 상관없이 고정된 사이즈를 사용하는 것에 환경인식 정보를 적용하여 서치 윈도우 사이즈가 Gaussian mixture model(GMM)기반의 잡음 분류 알고리즘을 이용한 결과 값의 비교로 잡음 환경에 따라 변화 하도록 한다. 제안된 음성 향상 기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)를 이용하여 평가하였고 기존의 MS방법보다 향상된 결과를 보였다.

Abstract ▼ AI-Helper

In this paper, we propose the improved noise power estimation in speech enhancement under various noise environments. The previous MS algorithm tracking the minimum value of finite search window uses the optimal power spectrum of signal for smoothing and adopts minimum probability. From the investigation of the previous MS-based methods it can be seen that a fixed size of the minimum search window is assumed regardless of the various environment. To achieve the different search window size, we use the noise classification algorithm based on the Gaussian mixture model (GMM). Performance of the proposed enhancement algorithm is evaluated by ITU-T P.862 perceptual evaluation of speech quality (PESQ) under various noise environments. Based on this, we show that the proposed algorithm yields better result compared to the conventional MS method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기존의 MS에 환경인식 정보를 적용하여 최소 잡음전력을 더욱 정확하게 추정하는 새로운 알고리즘을 제안하였다. 기존의 방법은 최소 잡음전력을 추정하기 위하여 고정된 서치 윈도우 사이즈를 사용하기 때문에 다양하게 변화하는 잡음 환경에서 정확도가 떨어진다는 단점을 가지고 있었다.

제안 방법

본 논문에서 제안된 음성향상 알고리즘의 성능을 평가 하기 위해 널리 적용되고 있는 ITU-T P.862 PESQ 테스트를 통하여 객관적인 성능 평가를 하였다. 표 2의 PESQ 테스트를 위해 남성, 여성화자 각각이 48개의 문장을 발음하도록 한 총 96개의 음성 데이터를 한 프레임의 크기를 10 ms에서 8 kHz로 샘플링 하여 세 가지 형태의 잡음이 부가된 오염된 음성을 사용하였고 잡음은 NOISEX92 데이터베이스의 babble noise, vehicle noise, f16 noise, office noise, white gaussian noise (WGN)를 사용 하였으며 SNR을 5, 10, 15 dB 세 가지로 나누어 테스트 하였다.
최소값 서치 윈도우사이즈 D를 다양한 잡음환경별의 최적화된 값을 찾기 위해서 40에서 140까지 1단위로 변화시켜가며 테스트를 진행하였다. 각 잡음별로 가장 음질이 우수한 D를 결정하기 위해 객관적인 음질평가로 공인된 ITU-T 862 perceptual evaluation of speech quality (PESQ)평가 방법을 사용하였으며, 가장 PESQ점수가 높은 D를 해당 잡음의 최적화된 D로 설정하였다. 이때 사용한 음성데이터를 한 프레임의 크기를 10 ms에서 8 kHz 로 샘플링 하여 8초길이로, 남성, 여성 모두 96개의 문장이 발음된 음성에 표 1에 언급된 NOISEX-92의 총 5개의 잡음 (babble, white, vehicle, office, F16)을 5, 10, 15 dB SNR을 인가하여 테스트를 진행하였다.
기존의 MS 알고리즘의 서치 윈도우 사이즈 D를 96으로 설정 하여 실험하였으며 제안된 알고리즘의 경우 환경인식 인식 결과 정보에 따른 서치 윈도우 사이즈 \(\widehat{D}\)g를 잡음 환경 에 따라 선택 하도록 하였다.
99의 값을 갖는다. 또한 GMM패턴 인식기를 사용하는데 있어서 음성이 섞인 구간에서의 잡음정보 분류를 할 경우 다른 잡음으로 인식 하기 때문에 이 같은 오류를 막기 위하여 speech absence probability (SAP)를 이용하여 잡음으로 인식된 구간에서만 GMM패턴 인식기를 사용하였다 [14]. 그림 1, 2는 환경인식 정보를 통해 얻어진 가변 하는 서치 윈도우 사이즈와 기존의 고정된 서치 윈도우 사이즈를 적용 하였을때 얻은 잡음전력 추정 값을 보여 주고 있다.
본 논문에서는 다양한 잡음 환경에서 동일한 서치 윈도우 사이즈를 사용하는 기존의 MS방법대신에 환경인식 정보를 잡음 종류에 따라 서치 윈도우 사이즈가 가변 할 수 있도록 적용한 새로운 알고리즘을 제안하며 잡음의 종류를 구별하기 위해서 Gaussian mixture model (GMM)을 사용한다 [12-13]. 그 결과 잡음 전력 추정을 향상시켜 우수한 음성 향상 기법을 도출하였으며, 객관적 음질 평가 방법인 perceptual evaluation of speech quality (PESQ)테스트 결과 기존의 MS보다 향상된 결과를 나타내었다.
여기서, 훈련부는 식 (12)와 같은 파라미터를 가지고 Expectation Maximization (EM)알고리즘 기반의 학습을 통하여 잡음에 대한 혼합 가우시안 모델 λ를 추정하고 인식부는 훈련부에 만들어진 λ를 이용해서 입력된 음성신호에 대한 사후 확률을 구하여 가장 큰 확률을 갖는 모델을 찾는다. 실제로 구성된 모델에 실시간으로 입력 받는 데이터의 특징벡터를 입력을 받으며 사용된 특징 벡터로는 자기 상관함수 (Autocorrelation Function)와 반사계수 (Reflection Coefficients)를 사용한 LevinsonDurbin 알고리즘을 사용하여 구한 Linear Prediction Coding (LPC) 계수 10차, LPC 분석에서의 에러 성분에 대한 잔류 에너지 1차, 잔류에너지의 이동평균1차, 최소값 10을 가진 프레임의 에너지 1차, 프레임 에너지의 이동 평균 1차를 사용 총14차의 특징벡터를 사용하였으며 최종적으로 다음과 같이 추정된 구간별 최적모델에 따른 우도 (likelihood)값을 비교하여 가장 큰 우도를 갖는 것으로 분류한다.
각 잡음별로 가장 음질이 우수한 D를 결정하기 위해 객관적인 음질평가로 공인된 ITU-T 862 perceptual evaluation of speech quality (PESQ)평가 방법을 사용하였으며, 가장 PESQ점수가 높은 D를 해당 잡음의 최적화된 D로 설정하였다. 이때 사용한 음성데이터를 한 프레임의 크기를 10 ms에서 8 kHz 로 샘플링 하여 8초길이로, 남성, 여성 모두 96개의 문장이 발음된 음성에 표 1에 언급된 NOISEX-92의 총 5개의 잡음 (babble, white, vehicle, office, F16)을 5, 10, 15 dB SNR을 인가하여 테스트를 진행하였다.
기존의 방법은 최소 잡음전력을 추정하기 위하여 고정된 서치 윈도우 사이즈를 사용하기 때문에 다양하게 변화하는 잡음 환경에서 정확도가 떨어진다는 단점을 가지고 있었다. 이러한 단점을 보완하기 위하여 환경인식 정보를 이용하여 잡음 환경에 따라 서치 윈도우 사이즈를 선택하도록 새로운 알고리즘을 제안 하였다. 그 결과, 음성 향상에 있어서 실험에 사용된 모든 잡음 환경과 신호 대 잡음 비 환경에서 기존의 MS방법보다 우수한 성능을 보였다.
최소값 서치 윈도우사이즈 D를 다양한 잡음환경별의 최적화된 값을 찾기 위해서 40에서 140까지 1단위로 변화시켜가며 테스트를 진행하였다. 각 잡음별로 가장 음질이 우수한 D를 결정하기 위해 객관적인 음질평가로 공인된 ITU-T 862 perceptual evaluation of speech quality (PESQ)평가 방법을 사용하였으며, 가장 PESQ점수가 높은 D를 해당 잡음의 최적화된 D로 설정하였다.
862 PESQ 테스트를 통하여 객관적인 성능 평가를 하였다. 표 2의 PESQ 테스트를 위해 남성, 여성화자 각각이 48개의 문장을 발음하도록 한 총 96개의 음성 데이터를 한 프레임의 크기를 10 ms에서 8 kHz로 샘플링 하여 세 가지 형태의 잡음이 부가된 오염된 음성을 사용하였고 잡음은 NOISEX92 데이터베이스의 babble noise, vehicle noise, f16 noise, office noise, white gaussian noise (WGN)를 사용 하였으며 SNR을 5, 10, 15 dB 세 가지로 나누어 테스트 하였다. PESQ값은 이들 샘플에 대한 평균 수치로 나타냈다.

이론/모형

Table 2. PESQ score of the original method made by Martin and proposed algorithm.

성능/효과

본 논문에서는 다양한 잡음 환경에서 동일한 서치 윈도우 사이즈를 사용하는 기존의 MS방법대신에 환경인식 정보를 잡음 종류에 따라 서치 윈도우 사이즈가 가변 할 수 있도록 적용한 새로운 알고리즘을 제안하며 잡음의 종류를 구별하기 위해서 Gaussian mixture model (GMM)을 사용한다 [12-13]. 그 결과 잡음 전력 추정을 향상시켜 우수한 음성 향상 기법을 도출하였으며, 객관적 음질 평가 방법인 perceptual evaluation of speech quality (PESQ)테스트 결과 기존의 MS보다 향상된 결과를 나타내었다.
이러한 단점을 보완하기 위하여 환경인식 정보를 이용하여 잡음 환경에 따라 서치 윈도우 사이즈를 선택하도록 새로운 알고리즘을 제안 하였다. 그 결과, 음성 향상에 있어서 실험에 사용된 모든 잡음 환경과 신호 대 잡음 비 환경에서 기존의 MS방법보다 우수한 성능을 보였다.
GMM은 주어진 표본 데이터 집합의 분포 밀도를단 하나의 확률 밀도 함수로 모델링하는 방법을 개선한 밀도 추정 방법으로 복수 개의 가우시안 확률 밀도 함수로 데이터의 분포를 모델링 하는 방법이다. 따라서 GMM 으로 데이터의 분포를 모델링할 경우에 혼합 성분 개수가 충분히 주어지고, 적절한 파라미터 값들만 주어진다면, 이론적으로는 어떠한 연속적인 분포도 거의 완벽하게 추정하여 모델링 할 수 있다. GMM패턴 인식기는 훈련부와 인식부로 구성되어 있으며, 훈련부에서는 각 잡음의 모델을 만들고 인식부에서는 이 모델을 이용하여 잡음을 인식한다.
기타 다른 잡음에서는 원래의 MS기반 알고리즘과 유사한 성능을 보였다. 이는 제안된 알고리즘에서 잡음전력 추정을 위해 잡음 환경에 따라서치 윈도우 사이즈가 환경인식 결과를 적용하여 가변하도록 하는 것이 고정된 서치 윈도우 사이즈를 사용하는 것보다 잡음전력 추정에 있어서 성능의 향상이 있음을 PESQ수치로 보여주고 있다.
기존의 MS 에서 고정된 서치 윈도우 사이즈는 다양한 잡음 환경을 고려하지 않았기 때문에 잡음 추정 구간이 일정하여 잡음 전력 추정에 지연이 발생하는 것을 그림 1 (c), 2 (c)에서볼 수 있다. 제안된 가변 하는 서치 윈도우 사이즈는 환경 인식 결과를 통해 비정상상태 (non-stationary)잡음의경우 잡음전력 추정 구간이 짧게 정상상태 (stationary)잡음의 경우 잡음전력 추정 기간이 길게 선택되어 잡음전력을 추정하며 기존의 고정 값을 사용하던 MS보다 향상된 것을 볼 수 있다.
기존의 MS 알고리즘의 서치 윈도우 사이즈 D를 96으로 설정 하여 실험하였으며 제안된 알고리즘의 경우 환경인식 인식 결과 정보에 따른 서치 윈도우 사이즈 \(\widehat{D}\)_g를 잡음 환경 에 따라 선택 하도록 하였다. 환경인식 정보기반의 잡음전력 추정방법이 기존의 MS 잡음전력 추정방법보다 PESQ수치로 babble, white, vehicle, f16, office noise에서 각각 평균 0.01, 0.05, 0.03, 0.01, 0.03정도 향상된 수치를 보여다. 기타 다른 잡음에서는 원래의 MS기반 알고리즘과 유사한 성능을 보였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	잡음 신호의 추정은 음성 향상 시스템에 미치는 영향이 크기 때문에 무엇이 발생하는가?	실제적인 음 성향상 시스템에서 잡음을 정확하게 추정하는 것이 가장 중요하며, 특히 비정상잡음 신호를 처리 할 수 있어야 한다. 잡음 신호의 추정은 음성 향상 시스템에 미치는 영향이 크기 때문에 추정된 잡음신호가 너무 작을 경우 자연 스럽지 못한 잔류 잡음이 생기며, 너무 클 경우 음성 신호가 둔탁하게 들려 명료도가 떨어진다. 이러한 음성향상 기술의 성능에 주요 영향을 미치는 세부 기술로는 음성/ 잡음신호에 대한 통계적 모델 추정 [1-2], 스펙트럼 이득 수정 [3-6] 및 잡음신호의 추정 [7-9] 등으로 정리를 할 수 있는데, 대표적인 잡음전력 추정 방법으로 Minimum Statistics (MS) 기반의 잡음전력 추정법이 우수한 성능을 보인다고 알려져 있다 [7].
	GMM은 무엇인가?	제안된 잡음 분류에 사용되어지는 GMM은 화자 인식과 음악 인식에서 뛰어난 성능을 보이는 패턴 인식기이다[12-13]. GMM은 주어진 표본 데이터 집합의 분포 밀도를단 하나의 확률 밀도 함수로 모델링하는 방법을 개선한 밀도 추정 방법으로 복수 개의 가우시안 확률 밀도 함수로 데이터의 분포를 모델링 하는 방법이다. 따라서 GMM 으로 데이터의 분포를 모델링할 경우에 혼합 성분 개수가 충분히 주어지고, 적절한 파라미터 값들만 주어진다면, 이론적으로는 어떠한 연속적인 분포도 거의 완벽하게 추정하여 모델링 할 수 있다.
	최소 잡음전력을 추정하기 위하여 고정된 서치 윈도우 사이즈를 사용하기 때문에 다양하게 변화하는 잡음 환경에서 정확도가 떨어진다는 단점을 보완하기 위해 무엇을 제안하였는가?	기존의 방법은 최소 잡음전력을 추정하기 위하여 고정된 서치 윈도우 사이즈를 사용하기 때문에 다양하게 변화하는 잡음 환경에서 정확도가 떨어진다는 단점을 가지고 있었다. 이러한 단점을 보완하기 위하여 환경인식 정보를 이용하여 잡음 환경에 따라 서치 윈도우 사이즈를 선택하도록 새로운 알고리즘을 제안 하였다. 그 결과, 음성 향상에 있어서 실험에 사용된 모든 잡음 환경과 신호 대 잡음 비 환경에서 기존의 MS방법보다 우수한 성능을 보였다.

참고문헌 (14)

J. W. Shin, J.-H. Chang, and N. S. Kim, "Statistical modeling of speech signals based on generalized gamma distribution," IEEE Signal Processing Letters, vol. 12, no. 3, pp. 258-261, Mar. 2005.

상세보기
J.-H. Chang and N. S. Kim, "Voice activity detection based on complex Laplacian. model," IEE Electronics Letters, vol. 39, no. 7, pp. 632-634, Apr. 2003.

상세보기
S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-27, no. 2, pp. 113-120, Apr. 1979.
Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. ASSP, vol. 33, no. 2, pp 443-445, Apr. 1985.

상세보기
B. L. Sim, Y. C. Tong, J. S. Chang, and C. T. Tan, "A parametric formulation of the generalized spectral subtraction method," IEEE Trans. on Speech and Audio Processing, vol. 6, no. 4, pp. 328-336, July 1998.

상세보기
R. J. McAualy and M. L. Malpass, "Speech enhancement using a soft-decision noise suppression filter," IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-28, pp. 137-145, Apr. 1980.
R. Martin, "Spectral subtraction based on minimum statistics," in Proc. Eur. Signal Processing Conf., pp. 1182-1185, 1994.
J. Sohn, W. Sung, "A voice activity detector employing soft decision based noise spectrum adaptation," in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, pp. 365-368, 1998.
I. Cohen and B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement," IEEE Signal Processing Letters, vol. 9, no. 1, pp. 12-15, Jan. 2002.

상세보기
G. Doblinger, "Computationally efficient speech enhancement by spectral minima tracking in subbands," in Proc. EUROSPEECH, vol. 2, pp. 1513-1516, 1995.
R. Martin, "Noise Power Spectral Density Estimation Based. on Optimal Smoothing and Minimum Statistics," IEEE. Trans. on Speech and Audio Processing, vol. 9, no. 5, pp. 504-512, Jul. 2001.

상세보기
G. Xuan, W.Zhang, and P. Chai, "EM algorithm of gaussian mixture model and hidden Markov model," in Proc. IEEE International Conference on Image Processing, vol. 1, pp. 145-148, Oct. 2001.
D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, "Speaker verification using adapted Gaussian mixture models," Digital Signal Processing, vol. 10, pp. 19-41, Jan. 2000.

상세보기
N. S. Kim and J.-H. Chang, "Spectral enhancement based on global soft decision," IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증