[논문]음성존재확률을 이용한 최적 변형 다채널 위너 필터

정상배; 김영일

doi:10.30693/smj.2018.7.3.9

[국내논문] 음성존재확률을 이용한 최적 변형 다채널 위너 필터
An Optimally-Modified Multichannel Wiener Filter Using Speech Presence Probability 원문보기

스마트미디어저널 = Smart media journal, v.7 no.3, 2018년, pp.9 - 15

초록
AI-Helper

본 논문에서는 음성존재확률을 이용하여 다채널 위너필터의 이득을 최적으로 변형하는 방법을 제안한다. 기존의 음성존재확률을 이용한 다채널 위너필터의 변형은 다소 경험적인 방법을 사용하기 때문에 잔여잡음의 양을 줄이면 음성왜곡이 증가하는 문제가 있다. 하지만, 제안된 최적 변형 다채널 위너필터는 음성존재확률을 최적 필터를 도출하기 위한 비용함수에 적용하여 비제한적 최소화 문제의 해를 이용하여 잔여잡음의 양과 음성왜곡을 동시에 줄일 수 있는 결과를 보였다. 잡음제거된 파형과 스펙트로그램의 평가를 통해서 제안된 최적 변형 다채널 위너필터가 종래의 다채널 위너필터와 비교하여 향상된 SNR과 음성왜곡을 나타냄을 확인할 수 있었다.

Abstract ▼ AI-Helper

This paper proposes an optimal gain modification method of the Multichannel Wiener filter (MWF) using speech presence probabilities. Conventional gain modification methods of MWFs have the problem of the increase of speech distortions while reducing residual noises with its relative heuristic approach. However, the proposed optimal gain modification method, derived by solving the unconstrained minimization problem of the probability-involved cost function, reduces amounts of residual noises and signal distortions simultaneously. Through an evaluation of the filtered waveforms and spectrograms, it is verified that the proposed method results in an improved SNR with less signal distortions compared to the conventional MWF.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서, 본 논문에서는 음성존재확률을 이용하여 매개변수 내장형 위너필터의 이득을 최적으로 변형하는 방법을 제안하였다. 제안된 최적변형 다채널 위너필터는 확률 기반의 비용 함수를 비제한적 최적화 문제(unconstrained optimization problem)를 풀어서 유도할 수 있다.
본 논문은 음성존재확률을 이용하여 매개변수 내장형 위너필터의 이득을 최적으로 변형시키는 방법에 대해서 제안하였다. 제안한 방법을 분석한 결과 매개변수 내장형 위너필터의 매개변수를 음성존재확률에 따라 자동으로 조절할 수 있는 장점이 있었고, 모의실험을 통해 제안한 방법이 기존 방법 대비 babble 잡음의 경우 SDI가 약 0.
앞서 언급한 음성 존재 확률을 이용한 매개변수 내장형 위너필터의 경험적 이득 조정은 최적이 아니기 때문에 트레이드오프 관계에 있는 음성왜곡과 잔여잡음을 동시에 향상시킬 수가 없다[8]. 위 문제를 해결하기 위해서 본 논문에서는 확률 기반의 비용함수를 제안하고 이 비용함수를 비제한적 최소화 문제로 풀어서 매개변수 내장형 위너필터의 이득을 최적으로 조정하는 방법을 제안한다. 위에서 언급한 비제한적 최적화 문제는 수식 (7)과 같이 표현될 수 있다.

제안 방법

81 dB의 SINR(SIR: 5, 15 dB, SNR: 10 dB)을 갖도록 인위적으로 합성하였다. 기존 방법 및 제안한 최적 변형 다채널 위너필터를 구현하기 위해, 프래임 길이는 무반향환경에서 32 ms를, 반향 환경에서 64 ms로 각각 설정하였고, 50 % 의 분석 프래임 중첩(overlap)과 해밍 (Hamming) 윈도우를 사용하였다. 선형 필터들에서 발생할 수 있는 원형 합성곱 효과 (circular convolution effect)[14]을 방지하기 위해서 추정된 음성신호의 복원을 위해서 뒤쪽 절반의 신호를 이용하였다.
먼저, 구현된 다채널 기반 MCRA의 잡음 추정과 추적 성능을 검증하기 위해 그림 2와 그림 3과 같이 무반향환경 데이터베이스 중 1 kHz에서의 음성의 전력스펙트럼 밀도, 추정된 다채널 기반 음성존재확률, 출력 SINR을 각각 도시하였다. 그림 2는 방향성 잡음이 “babble”인 경우, 그림 3은 “F-16” 인 경우를 나타낸다.
기존 방법 및 제안한 최적 변형 다채널 위너필터를 구현하기 위해, 프래임 길이는 무반향환경에서 32 ms를, 반향 환경에서 64 ms로 각각 설정하였고, 50 % 의 분석 프래임 중첩(overlap)과 해밍 (Hamming) 윈도우를 사용하였다. 선형 필터들에서 발생할 수 있는 원형 합성곱 효과 (circular convolution effect)[14]을 방지하기 위해서 추정된 음성신호의 복원을 위해서 뒤쪽 절반의 신호를 이용하였다. 선형필터의 비 인과성 (non-causality)을 보장하기 위해서, 세 가지 절차를 수행하였다: 필터를 시간영역으로 변환하고, 중간의 절반길이의 샘플 값을 취하여 다시 필터를 주파수 영역으로 변환하였다[5,15,16].
선형 필터들에서 발생할 수 있는 원형 합성곱 효과 (circular convolution effect)[14]을 방지하기 위해서 추정된 음성신호의 복원을 위해서 뒤쪽 절반의 신호를 이용하였다. 선형필터의 비 인과성 (non-causality)을 보장하기 위해서, 세 가지 절차를 수행하였다: 필터를 시간영역으로 변환하고, 중간의 절반길이의 샘플 값을 취하여 다시 필터를 주파수 영역으로 변환하였다[5,15,16]. 선형 필터링 후, 단구간 프래임은 오버랩-애드(overlap-add) 방식을 이용하여 복원하였다.
잡음 데이터베이스로는 NOISEX[11]의 “babble”과 “F-16”을 방향성 간섭 신호로 컴퓨터에서 생성된 가우시안 잡음을 주변잡음으로 추가하였다.
원거리 음성과 방향성 잡음을 생성하기 위해서 각각의 음원과 마이크로폰 간의 충격 응답(impulse response) 을 모의하기 위해서 이미지 기법(image method)을 사용하였고[12,13], 각각의 음원은 해당되는 임펄스 응답과 합성곱(convolution)하여 잡음 섞인 입력신호를 생성하였다. 잡음 섞인 다채널 입력신호 데이터베이스를 구축하기 위해서 깨끗한 음성, 방향성 잡음, 가산성 가우시안 잡음은 약 3.80과 8.81 dB의 SINR(SIR: 5, 15 dB, SNR: 10 dB)을 갖도록 인위적으로 합성하였다. 기존 방법 및 제안한 최적 변형 다채널 위너필터를 구현하기 위해, 프래임 길이는 무반향환경에서 32 ms를, 반향 환경에서 64 ms로 각각 설정하였고, 50 % 의 분석 프래임 중첩(overlap)과 해밍 (Hamming) 윈도우를 사용하였다.
그 이유는 음성존재확률을 매개변수 내장형 위너필터의 제어 매개변수로 활용할 수 있었기 때문이다. 제안한 방법의 철학은 해당 주파수 빈에서 음성존재확률이 낮으면 큰 매개변수를 할당하여 잡음제거도를 높이고 반면에 음성존재확률이 높으면 작은 매개변수를 할당하여 잡음제거도를 낮추어 음성왜곡을 줄이는 것이다. 전체 프로세스는 다채널 기반 음성존재확률 값에 따라 자동적으로 제어되는 것이 장점이다.
파형 결과에서도 알 수 있듯이 제안한 방법의 음성구간은 MVDR의 결과와 비슷하고 잡음구간은 다채널 위너필터의 결과와 비슷하다. 추가적으로, 객관적 성능평가를 위해, 기존 방법과 제안한 방법으로 잡음제거 된 음성샘플들의 출력 SINR(oSINR), 잡음제거도 (noise reduction factor, NRF), 음성왜곡도 (signal distortion index, SDI)를 측정하였다 [4-8, 17]. 10세트의 음성샘플 측정값을 평균하여 표 1과 2에 각각 정리하였다.

대상 데이터

모의된 공간(simulated chamber)의 크기는 3.048 m × 4.572 m × 3.810 m 였고, 음성과 방향성 간섭신호의 위치는 각각 (0.274 m,3.181 m, 1.016 m) 와 (2.774 m, 3.181 m, 1.016 m) 였다.
하나의 깨끗한 음성 세트는 6개의 IEEE 문장들 [10]을 이어 붙여서 구성하였고, 총 10 세트의 깨끗한 음성 데이터베이스를 구축하였다. 총 60개의 IEEE 문장이 깨끗한 음성 데이터베이스로 사용되었다. 잡음 데이터베이스로는 NOISEX[11]의 “babble”과 “F-16”을 방향성 간섭 신호로 컴퓨터에서 생성된 가우시안 잡음을 주변잡음으로 추가하였다.
반향시간 (T₆₀)이 0 ms 인 무반향(anechoic) 환경과 T₆₀이 210 ms 인 반향 환경을 고려하였다[8]. 하나의 깨끗한 음성 세트는 6개의 IEEE 문장들 [10]을 이어 붙여서 구성하였고, 총 10 세트의 깨끗한 음성 데이터베이스를 구축하였다. 총 60개의 IEEE 문장이 깨끗한 음성 데이터베이스로 사용되었다.

이론/모형

선형필터의 비 인과성 (non-causality)을 보장하기 위해서, 세 가지 절차를 수행하였다: 필터를 시간영역으로 변환하고, 중간의 절반길이의 샘플 값을 취하여 다시 필터를 주파수 영역으로 변환하였다[5,15,16]. 선형 필터링 후, 단구간 프래임은 오버랩-애드(overlap-add) 방식을 이용하여 복원하였다. 잡음의 추정 및 추적을 위해서 다채널 기반 minima controlled recursive averaging (MCRA) [8] 기법을 사용 하였고, 잡음 추정에 사용된 변수는 [8]의 값과 같게 설정하였다.
따라서, 신호 대 총 잡음 비(signal-to-interference-and-noise-ratio)는 #로 정의할 수 있으며, 비슷한 형태로, 신호대 방향성 잡음비(signal-to-interference ratio)는 #로 신호대 주변 잡음비 (signal-to-ambient noise ratio)는 SNR = E[x (t)]/E[w (t)]로 각각 정의할 수 있다. 원거리 음성과 방향성 잡음을 생성하기 위해서 각각의 음원과 마이크로폰 간의 충격 응답(impulse response) 을 모의하기 위해서 이미지 기법(image method)을 사용하였고[12,13], 각각의 음원은 해당되는 임펄스 응답과 합성곱(convolution)하여 잡음 섞인 입력신호를 생성하였다. 잡음 섞인 다채널 입력신호 데이터베이스를 구축하기 위해서 깨끗한 음성, 방향성 잡음, 가산성 가우시안 잡음은 약 3.
선형 필터링 후, 단구간 프래임은 오버랩-애드(overlap-add) 방식을 이용하여 복원하였다. 잡음의 추정 및 추적을 위해서 다채널 기반 minima controlled recursive averaging (MCRA) [8] 기법을 사용 하였고, 잡음 추정에 사용된 변수는 [8]의 값과 같게 설정하였다.

성능/효과

6 dB 낮다. MWF 결과 잔여잡음의 양은 줄었지만 음성왜곡도가 높아진 결과로 음성강화에서 흔히 발생하는 트레이드오프 관계에 있음을 알 수 있다. 반면에 OM-MWF는 MWF대비 NRF가 약 0.
정리하면, 그림 4와 5를 통해서 MVDR은 적은 음성왜곡이 있지만 잔여잡음이 많았고, 다채널 위너필터는 잔여잡음을 줄였으나 음성왜곡이 커졌다. 그러나 제안한 최적 변형 다채널 위너필터의 경우 다채널 위너필터 보다 낮은 음성 왜곡을 만족하면서도 잡음을 더 많이 제거할 수 있었다. 그 이유는 음성존재확률을 매개변수 내장형 위너필터의 제어 매개변수로 활용할 수 있었기 때문이다.
그림 4와 5의 (c)와 (d)는 각각 MVDR (매개변수 내장형 위너필터에서 매개변수(β)가 0인 경우)과 다채널 위너 필터 (매개변수 내장형 위너필터에서 매개변수(β)가 1인 경우)의 잡음제거 결과를 나타낸다. 다채널 위너필터가 MVDR 대비 잡음을 많이 제거 하지만 음성도 많이 제거하는 것을 확인할 수 있다. 이러한 경향은 그림 5에서 더욱 뚜렷한데 그 이유는 “babble” 이 “F-16” 보다 비정상성이 크기 때문으로 생각된다.
두 경우 모두 음성 전력스펙트럼 밀도와 비교해보았을 때 밀도가 큰 부분에서 다채널 기반 음성존재확률이 1에 가깝고 밀도가 작은 부분에서 다채널 기반 음성 존재 확률이 낮은 것을 확인할 수 있다. 또한, 이론적인 출력 SINR(모의신호를 통해 실험하였기 때문에 섞은 잡음을 알 수 있고 이를 통해 이론적인 출력 SINR을 구할 수 있다)과 비교해 보았을 때 추정된 출력 SINR이 상당히 정확하게 추정되는 것을 확인할 수 있다. 이론과 추정된 출력 SINR의 약간의 차이는 음성과 잡음이 합께 존재하는 상황에서 잡음의 악영향에서 비롯된 것으로 보인다.
제안된 최적변형 다채널 위너필터는 확률 기반의 비용 함수를 비제한적 최적화 문제(unconstrained optimization problem)를 풀어서 유도할 수 있다. 실험 결과를 분석한 결과, 제안한 최적변형 다채널 위너필터는 확률에 따라 자동으로 이득이 조절되는 매개변수 내장형 위너필터이며 잔여 잡음과 음성왜곡을 동시에 줄이는 결과를 보였다.
이러한 경향은 그림 5에서 더욱 뚜렷한데 그 이유는 “babble” 이 “F-16” 보다 비정상성이 크기 때문으로 생각된다. 정리하면, 그림 4와 5를 통해서 MVDR은 적은 음성왜곡이 있지만 잔여잡음이 많았고, 다채널 위너필터는 잔여잡음을 줄였으나 음성왜곡이 커졌다. 그러나 제안한 최적 변형 다채널 위너필터의 경우 다채널 위너필터 보다 낮은 음성 왜곡을 만족하면서도 잡음을 더 많이 제거할 수 있었다.
본 논문은 음성존재확률을 이용하여 매개변수 내장형 위너필터의 이득을 최적으로 변형시키는 방법에 대해서 제안하였다. 제안한 방법을 분석한 결과 매개변수 내장형 위너필터의 매개변수를 음성존재확률에 따라 자동으로 조절할 수 있는 장점이 있었고, 모의실험을 통해 제안한 방법이 기존 방법 대비 babble 잡음의 경우 SDI가 약 0.1 dB 감소하면서 NRF가 약 0.2 dB향상시켰고, F-16의 경우 SDI를 약 0.1dB 줄이면서 NRF를 약 0.5 dB 향상시키는 결과 통해 음성강화에서 필연적으로 발생하는 음성왜곡도와 잔여잡음의 양 간에 존재하는 트레이드오프에서 벗어나 두 가지 동시에 향상 시킬 수 있음을 증명하였다.
10세트의 음성샘플 측정값을 평균하여 표 1과 2에 각각 정리하였다. 표 1에서 잡음이 babble일 때, MWF를 기준으로 MVDR의 결과를 비교해 보면, MVDR은 NRF가 MWF보다 약 1.5dB 낮지만 음성왜곡도는 약 0.6 dB 낮다. MWF 결과 잔여잡음의 양은 줄었지만 음성왜곡도가 높아진 결과로 음성강화에서 흔히 발생하는 트레이드오프 관계에 있음을 알 수 있다.
5 dB 향상시켰다. 표 2의 경우도 표1과 비슷한 성능향상 경향을 보였고, 그림 4와 5의 결과와 일관되게, 잡음의 종류와 반향시간과 무관하게 모든 경우에서 제안한 방법이 낮은 음성왜곡도를 만족하면서 높은 출력 SINR과 잡음제거도를 보여주었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	위너필터란 무엇인가?	이에, 음성을 열화 시키는 잡음의 제거 기술에도 관심이 높아지고 있다. 그 중, 위너필터 (Wiener filter)는 추정된 신호와 원신호간의 차이, 즉 추정 오차를 최소화하는 최적 필터로서 정상성(staitonary) 잡음을 제거하는데 뛰어난 성능을 보인다[3]. 그러나 비정상성(nonstationary) 잡음을 제거하는데 취약하기 때문에 다채널 마이크로폰 배열 신호처리를 위해 다채널로 확장된 위너필터가 제안되었고, 다채널 위너필터(multichannel Wiener filter)는 방향성 잡음과 주변 잡음이 함께 존재하는 열악한 환경에서 기존 단채널 위너필터 보다 향상된 성능을 보인다[4].
	음성존재확률을 이용하여 매개변수 내장형 위너필터의 이득을 최적으로 변형시키는 방법의 장점은 무엇인가?	본 논문은 음성존재확률을 이용하여 매개변수 내장형 위너필터의 이득을 최적으로 변형시키는 방법에 대해서 제안하였다. 제안한 방법을 분석한 결과 매개변수 내장형 위너필터의 매개변수를 음성존재확률에 따라 자동으로 조절할 수 있는 장점이 있었고, 모의실험을 통해 제안한 방법이 기존 방법 대비 babble 잡음의 경우 SDI가 약 0.1 dB 감소하면서 NRF가 약 0.2 dB향상시켰고, F-16의 경우 SDI를 약 0.1dB 줄이면서 NRF를 약 0.5 dB 향상시키는 결과 통해 음성강화에서 필연적으로 발생하는 음성왜곡도와 잔여잡음의 양 간에 존재하는 트레이드오프에서 벗어나 두 가지 동시에 향상 시킬 수 있음을 증명하였다.
	다채널 위너필터를 일반화 시킨 매개변수 내장형 다채널 위너필터의 장점은 무엇인가?	그러나 비정상성(nonstationary) 잡음을 제거하는데 취약하기 때문에 다채널 마이크로폰 배열 신호처리를 위해 다채널로 확장된 위너필터가 제안되었고, 다채널 위너필터(multichannel Wiener filter)는 방향성 잡음과 주변 잡음이 함께 존재하는 열악한 환경에서 기존 단채널 위너필터 보다 향상된 성능을 보인다[4]. 최근에, 다채널 위너필터를 일반화 시킨 매개변수 내장형 다채널 위너필터(parameterized multichannel Wiener filter)가 음성강화를 위해 제안되었고, 이 방법은 주파수 영역 음성강화 기법으로 잡음제거 성능을 측정하는 중요한 두 가지 기준인 음성 왜곡과 잔여 잡음 간의 트레이드오프 관계를 조절할 수 있는 장점이 있다[4,5]. 매개변수 내장형 위너필터는 음성신호와 잡음의 전력스펙트럼 밀도(power spectral density)와 같은 2차 통계치를 추정하여 구할 수 있으며, 잘 알려진 minimum variance distortionless response (MVDR)도 매개변수 내장형 위너필터의 한 가지 특별한 경우라는 사실이 증명되었다[5].

참고문헌 (17)

G. Deepak, J.W. Lee, "Comparison of Two Methods for Stationary Incident Detection Based on Background Image," 스마트미디어저널, 제1권, 제3호, 48-55쪽, 2012년 9월

원문보기 상세보기
이유라, 김수형, 김영철, 나인섭, "심층 학습 모델을 이용한 EPS 동작 신호의 인식," 스마트미디어저널, 제5권, 제3호, 35-41쪽, 2016년 9월

원문보기 상세보기
P.C. Loizou, Speech Enhancement: Theory and Practice. Boca Raton, FL: CRC, pp. 291-394, 2007.
J. Benety, Microphone Array Signal Processing. Heidelberg, Berlin: Springer-Verlag, pp. 127-214, 2007.
M. Souden, "On optimal frequency-domain multichannel linear filtering for noise reduction," IEEE Trans. Audio, Speech, Language Process., vol. 18, no. 2, pp. 260-276, 2010.

상세보기
N.S. Kim, J.H. Chang, "Spectral enhancement based on global soft decision," IEEE Signal Process. Lett., vol. 7, no. 6, pp. 108-110, 2000.

상세보기
I. Cohen, "Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator," IEEE Signal Process. Lett., vol. 9, no. 4, pp. 113-116, 2002.

상세보기
M. Souden, "An integrated solution for online multichannel noise tracking and reduction," IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 7, pp. 2159-2169, 2011.

상세보기
M. Souden, "Gaussian model-based multichannel speech presence probability," IEEE Trans. Audio, Speech, Language Process., vol. 18, no. 5, pp. 1072-1077, 2010.

상세보기
IEEE Subcommittee, "IEEE recommended practice for speech quality measurements," IEEE Trans. Audio Electroacoust., vol. AE-17, no. 3, pp. 225-246, 1969.
A.P. Varga, "The Noisex-92 study on the effect of additive noise on automatic speech recognition," Tech. Rep. DRA Speech Research Unit, 1992.
J. Allen, "Image method for efficiently simulating small-room acoustics," J . Acoust. Soc. Amer., vol. 65, pp. 943-950, 1979.

상세보기
E. Lehmann, "Prediction of energy decay in room impulse responses simulated with an image-source model," J . Acoust. Soc. Amer., vol. 123, pp. 269-277, 2008.
J.J. Shynk, "Frequency-domain and multirate adaptive filtering," IEEE Signal Process. Mag., vol. 9, no.1, pp. 15-37, 1992.
S. Gannot, "Signal enhancement using beamforming and nonstationarity with application to speech," IEEE Trans. Signal Process., vol. 49, no. 8, pp. 1614-1626, 2001.

상세보기
S. Affes, "A signal subspace tracking algorithm for microphone array processing of speech," IEEE Trans. Speech, Audio Process., vol. 5, pp. 425-437, 1997.

상세보기
J. Chen, "New insights into the noise reduction Wiener filter," IEEE Trans. Audio, Speech, Language Process., vol. 14, no. 4, pp. 1218-1234, 2006.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증