[논문]음성 향상에서 강인한 새로운 선행 SNR 추정 기법에 관한 연구

박윤식; 장준혁

doi:10.7776/ask.2006.25.8.383

음성 향상에서 강인한 새로운 선행 SNR 추정 기법에 관한 연구
A Novel Approach to a Robust A Priori SNR Estimator in Speech Enhancement 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.25 no.8, 2006년, pp.383 - 388

박윤식 (인하대학교 전자전기공학부) , 장준혁 (인하대학교 전자전기공학부)

초록
AI-Helper

본 논문에서는 잡음 환경에서 단일 마이크로폰의 음성 향상에 대한 새로운 기법을 제시했다. 일반적으로 널리 알려진 스펙트럼 차감법에 근거한 음성 향상 기술은 신호 대 잡음비에 따른 스펙트럼 이득으로 표현된다. 대표적인 Ephraim과 Malah의 decision-directed (DD) 추정치는 잡음 구간에서 효율적으로 뮤지컬 잡음을 제거하지만 음성 구간에서는 이전 프레임의 음성 스펙트럼 성분에 더 큰 비중을 두기 때문에 a priori SNR의 프레임 지연이 발생한다. 따라서 DD에 의해 추정된 a priori SNR이 적용된 잡음 제거 이득은 현재 프레임보다 이전 프레임에 영향을 받으므로 음성 전이 구간에서 잡음 제거 성능을 저하시킨다. 본 논문은 DD의 가중치 파라미터에 Sigmoid Type의 함수를 적용하여 계산적으로는 간단하지만 효과적인 음성 향상 알고리즘을 제안한다. 제안된 접근 방식은 DD의 주요 파라미터인 a priori SNR 지연의 문제점을 해결하면서 뮤지컬 잡음 제거에 우수한 DD의 이점은 유지한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에서 ITU-T P.862 Perceptual Evaluation of Speech Quality (PESQ) 와 Mean Opinion Score (MOS). 그리고 음성 스펙트로그램 (Spectrogram)에 의해 평가했고 기존의 DD의 고정된 가중치 파라미터를 사용했을 때 보다 향상된 결과를 나타내었다.

Abstract ▼ AI-Helper

This Paper presents a novel approach to single channel microphone speech enhancement in noisy environments. Widely used noise reduction techniques based on the spectral subtraction are generally expressed as a spectral gam depending on the signal-to-noise ratio (SNR). The well-known decision-directed(DD) estimator of Ephraim and Malah efficiently reduces musical noise under the background noise conditions, but generates the delay of the a prioiri SNR because the DD weights the speech spectrum component of the Previous frame in the speech signal. Therefore, the noise suppression gain which is affected by the delay of the a priori SNR, which is estimated by the DD matches the previous frame rather than the current one, so after noise suppression. this degrades the noise reduction performance during speech transient periods. We propose a computationally simple but effective speech enhancement technique based on the sigmoid type function for the weight Parameter of the DD. The proposed approach solves the delay problem about the main parameter, the a priori SNR of the DD while maintaining the benefits of the DD. Performances of the proposed enhancement algorithm are evaluated by ITU-T p.862 Perceptual Evaluation of Speech duality (PESQ). the Mean Opinion Score (MOS) and the speech spectrogram under various noise environments and yields better results compared with the fixed weight parameter of the DD.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 Sigmoid Type의 함수를 기존 DD의 고정 가중치 파라미터에 적용하는 새로운 알고리즘을 제안 하였다. 기존의 방법은 이전 프레임에 큰 가중치를 주어 잡음 구간에서의 뮤지컬 잡음 제거에는 탁월한 성능을 보였지만 음성 전이 구간에서는 주요 파라미터인 a pHM SNR의 지연이 생기게 된다.
본 논문에서는 Sigmoid Type의 함수를 기존 DD의 고정 가중치 파라미터에 적용하는 새로운 알고리즘을 제안 하였다. 기존의 방법은 이전 프레임에 큰 가중치를 주어 잡음 구간에서의 뮤지컬 잡음 제거에는 탁월한 성능을 보였지만 음성 전이 구간에서는 주요 파라미터인 a pHM SNR의 지연이 생기게 된다.
본 논문에서는 기존 DD 알고리즘에서 발생되는 음성 전이 구간에서 a priori SNR 파라미터의 지연에 의한 잡음 제거 이득의 왜곡을 감소시킴으로써 개선된 음성 향상을 유도 하였다 [10][11]. 제안된 음성 향상 알고리즘의 음질 평가를 위해 널리 적용되고 있는 ITU-T P.
본 논문에서는 기존 DD 알고리즘에서 발생되는 음성 전이 구간에서 a priori SNR 파라미터의 지연에 의한 잡음 제거 이득의 왜곡을 감소시킴으로써 개선된 음성 향상을 유도 하였다 [10][11]. 제안된 음성 향상 알고리즘의 음질 평가를 위해 널리 적용되고 있는 ITU-T P.
이것은 Capped 연구 결과에 기반을 둔 것으로 실제로는 DD에 의한 추정 방법은 잡음 구간에서 뮤지컬 잡음 제거와 음성 전이 구간에서 음성 왜곡 사이에 trade off가 발생된다는 사실이 보고되었다. 본 논문에서는 프레임 간의 a posteriori SNR의 변이에 따라 아래식의 Sigmoid Type 함수의 값을 DD의 가중치 파라미터 a에 적용하는 알고리즘을 제안했다.
이것은 Capped 연구 결과에 기반을 둔 것으로 실제로는 DD에 의한 추정 방법은 잡음 구간에서 뮤지컬 잡음 제거와 음성 전이 구간에서 음성 왜곡 사이에 trade off가 발생된다는 사실이 보고되었다. 본 논문에서는 프레임 간의 a posteriori SNR의 변이에 따라 아래식의 Sigmoid Type 함수의 값을 DD의 가중치 파라미터 a에 적용하는 알고리즘을 제안했다.

제안 방법

제안된 음성 향상 알고리즘의 음질 평가를 위해 널리 적용되고 있는 ITU-T P.862 PESQ 와 MOS, 그리고 음성 스펙트로그램을 수행하였으며 표 1과 표 2, 그림 3은 각각 추출된 PESQ 수치와 MOS, 그리고 음성 스펙트로그램을 보여주고 있다.
잡음은 NOISE-X92 데이터베이스의 white gaussian noise (WGN), babble noise, vehicle noise를 사용 하였으며 SNR을 5, 10, 15, 20 dB로 달리하여 조사하였다. PESQ값은 이들 샘플에 대한 평균 수치로 나타냈고, 기존 Dig] 의한 PESQ를 위해 가중치 파라미터 a= 0.99로 설정하여 PESQ 수치를 추출하였다. 표 1은 기존의 DD 방법보다 논문에서 제안한 Sigmoid Type DD방법이 PESQ 수치로 white gaussian, babble, vehicle noise에서 각각 평균 0.
잡음은 NOISE-X92 데이터베이스의 white gaussian noise (WGN), babble noise, vehicle noise를 사용 하였으며 SNR을 5, 10, 15, 20 dB로 달리하여 조사하였다. PESQ값은 이들 샘플에 대한 평균 수치로 나타냈고, 기존 Dig] 의한 PESQ를 위해 가중치 파라미터 a= 0.99로 설정하여 PESQ 수치를 추출하였다. 표 1은 기존의 DD 방법보다 논문에서 제안한 Sigmoid Type DD방법이 PESQ 수치로 white gaussian, babble, vehicle noise에서 각각 평균 0.
본 논문에서 제시하는 방법은 Sigmoid Type 함수 값이 a posteriori SNR의 변이에 따라 가변적으로 DD의가중치 파라미터에 적용되므로 음성 전이 구간에서의 음성 왜곡을 줄이고 잡음 구간에서 뮤지컬 잡음 제거의 이점은 유지 하였다. 따라서 실험에 사용된 모든 잡음과 신호대 잡음 비 환경에서 기존의 DD보다 음성 향상에서 우수한 성능을 보였다.
하지만, 최근 Capp6는 DD 추정 방법에 대한 분석을 통해 a priori SNR이 잡음 구간에서는 a posteriori SNR의 스무딩 (smoothing) 된 형태로 뮤지컬 잡음을 제거하는데 탁월한 성능을 보이지만 음성 구간에서는 모양이 지연되어 따라가는 것을 밝혀냈다 [4], 즉, MMSE (Minimum Mean Square Error) 잡음 제거 이득은 주로, a priori SNR에 좌우되기 때문에 이러한 지연된 파라미터가 적용된 이득은 현재 프레임과 상응되는 값이 아니므로 특히 음성 전이 구간에서 왜곡된 잡음 제거 이득의 적용으로 음성 향상의 성능을 크게 저하 시킨다[4]. 본 논문은 이러한 문제점을 해결하기 위해 고정 가중치 파라미터가 적용된 기존의 DD와는 다르게 a posteriori SNR의 변이에 따라 Sigmoid Type 함수의 값이 가중치 파라미터에 적용되도록 하였다. 계산적으로 간단하면서도 실험 결과는 다양한 잡음과 신호 대 잡음비 환경에서 ITU-T P.
잡음 구간에서 음성 구간으로 바뀌는 음성 전이 구간에서 lAyl가 상대적으로 급격히 커지는 특성을 이용해 log(l/l△끼)값을 Sigmoid epe 함수의 변수로 적용하여 I△시가 매우 커지는 구간에서는 이전 프레임에 대한 가중치를 작게 갖도록 하였다.
잡음 구간에서 음성 구간으로 바뀌는 음성 전이 구간에서 l△γ(k)l가 상대적으로 급격히 커지는 특성을 이용해 log(l/l△γ(k)l)값을 Sigmoid ^pe 함수의 변수로 적용하여 l△γl가 매우 커지는 구간에서는 이전 프레임에 대한 가중치를 작게 갖도록 하였다.
표 1의 PESQ 테스트를 위해 샘플은 남성, 여성화자 각각이 100개의 문장을 발음하도록 한 음성을 한 프레임의 크기가 10ms에서 8kHz로 샘플링 한 데이터에 세가지형태의 잡음이 부가 되었다. 잡음은 NOISE-X92 데이터베이스의 white gaussian noise (WGN), babble noise, vehicle noise를 사용 하였으며 SNR을 5, 10, 15, 20 dB로 달리하여 조사하였다. PESQ값은 이들 샘플에 대한 평균 수치로 나타냈고, 기존 Dig] 의한 PESQ를 위해 가중치 파라미터 a= 0.
잡음은 NOISE-X92 데이터베이스의 white gaussian noise (WGN), babble noise, vehicle noise를 사용 흐]였으며 SNR을 5, 10, 15, 20 dB로 달리하여 조사하였다.
잡음 구간에서 음성 구간으로 바뀌는 음성 전이 구간에서 l△γ(k)l가 상대적으로 급격히 커지는 특성을 이용해 log(l/l△γ(k)l)값을 Sigmoid ^pe 함수의 변수로 적용하여 l△γl가 매우 커지는 구간에서는 이전 프레임에 대한 가중치를 작게 갖도록 하였다. 즉 음성 전이 구간에서는 DD의 가중치 파라미터 비중을 현재 프레임의 a posteriori SNR에 더 크게 주어 a priori SNR의 추정치 값에 a posteriori SNR의 값이 더 반영 되도록 하였다. 따라서 음성 전이 구간에서 a priori SNR 파라미터의 지연에 의한 잡음 제거 이득의 왜곡을 감소시켰다.
표 2의 MOS는 남성, 여성 화자 각각이 10개의 문장을 발음하도록 한 음성에 white gaussian, babble, vehicle noise가 SNR이 5, 10, 15 dB로 포함된 오염된 음성을 대상으로 10명의 청취자에 의하여 결정하였다. 표 2는 세 가지 잡음 환경과 신호 대 잡음비에 대하여 향상된 MOS를 보여주고 있다.

성능/효과

최근 Cappé는 MMSE 잡음 제거 이득이 a posteriori SNR 보다 a priori SNR에 의해서 좌우 된다는 것을 보였다 [4], 또한 이전 프레임에 더 큰 가중치를 주는 DD 추정법에 의해서 주요 파라미터로 작용하는 a priori SNR이 노이즈 구간에는 a posteriori SNR 보다 매우 작은 분산 값을 가지게 된다. 따라서 a priori SNR에 영향을 많이 받는 이득 또한 잡음 구간에서 작은 분산 값을 가지게 되므로 a priori SNR을 위해 DD 추정 법을 사용하는 MMSE 잡음 제거 이득이 뮤지컬 잡음 제거에 우수한 성능을 보이게 되는 이유를 밝혀냈다. 하지만 잡음에서 음성으로 바뀌는, 즉 a posteriori SNR이 급격히 변하는 음성 전이 구간에서는 DD추정법이 이전 프레임에 더 큰 가중치를 주기 때문에 a priori SN压이 프레임 지연을 가지고 a posteriori SNR의 모양을 따라가게 된다.
최근 Cappé는 MMSE 잡음 제거 이득이 a posteriori SNR 보다 a priori SNR에 의해서 좌우 된다는 것을 보였다 [4], 또한 이전 프레임에 더 큰 가중치를 주는 DD 추정법에 의해서 주요 파라미터로 작용하는 a priori SNR이 노이즈 구간에는 a posteriori SNR 보다 매우 작은 분산 값을 가지게 된다. 따라서 a priori SNR에 영향을 많이 받는 이득 또한 잡음 구간에서 작은 분산 값을 가지게 되므로 a priori SNR을 위해 DD 추정 법을 사용하는 MMSE 잡음 제거 이득이 뮤지컬 잡음 제거에 우수한 성능을 보이게 되는 이유를 밝혀냈다. 하지만 잡음에서 음성으로 바뀌는, 즉 a posteriori SNR이 급격히 변하는 음성 전이 구간에서는 DD추정법이 이전 프레임에 더 큰 가중치를 주기 때문에 a priori SN压이 프레임 지연을 가지고 a posteriori SNR의 모양을 따라가게 된다.
따라서 실험에 사용된 모든 잡음 환경에서 기존의 DD보다 제안된 방법의 PESQ 수치가 향상된 것을 보여주고 있다.
본 논문에서 제시하는 방법은 Sigmoid Type 함수 값이 a posteriori SNR의 변이에 따라 가변적으로 DD의가중치 파라미터에 적용되므로 음성 전이 구간에서의 음성 왜곡을 줄이고 잡음 구간에서 뮤지컬 잡음 제거의 이점은 유지 하였다. 따라서 실험에 사용된 모든 잡음과 신호대 잡음 비 환경에서 기존의 DD보다 음성 향상에서 우수한 성능을 보였다.
기존 DD에 의해 잡음이 제거된 그림 (b)보다 제안된 DD 에 의해 잡음이 제거된 그림 (c)가 음성구간에서의 음성 스펙트럼 성분이 더 선명한 것을 볼 수 있다. 따라서 표 1과 표 2, 그림 3은 기존의 고정 가중치 파라미터를 사용하는 DD 방법보다 본 논문에서 제안한 Sigmoid Type의 가중치 파라미터를 갖는 DD 방법이 음성 향상에 우수한 성능을 가지고 있음을 보여주고 있다.
기존 DD에 의해 잡음이 제거된 그림 (b)보다 제안된 DD 에 의해 잡음이 제거된 그림 (c)가 음성구간에서의 음성 스펙트럼 성분이 더 선명한 것을 볼 수 있다. 따라서 표 1과 표 2, 그림 3은 기존의 고정 가중치 파라미터를 사용하는 DD 방법보다 본 논문에서 제안한 Sigmoid Type의 가중치 파라미터를 갖는 DD 방법이 음성 향상에 우수한 성능을 가지고 있음을 보여주고 있다.
본 논문에서 제시하는 방법은 Sigmoid Type 함수 값이 a posteriori SNR의 변이에 따라 가변적으로 DD의가중치 파라미터에 적용되므로 음성 전이 구간에서의 음성 왜곡을 줄이고 잡음 구간에서 뮤지컬 잡음 제거의 이점은 유지 하였다. 따라서 실험에 사용된 모든 잡음과 신호대 잡음 비 환경에서 기존의 DD보다 음성 향상에서 우수한 성능을 보였다.

참고문헌 (11)

Y. Ephraim and D. Malah, 'Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,' IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-32, 6 1109--1121, Dec. 1984
S. F. Boll, 'Suppression of acoustic noise in speech using spectral subtraction,' IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-27, 2 113-120, Apr. 1979
R. J. McAualy and M. L. Malpass, 'Speech enhancement using a soft-decision noise suppression filter,' IEEE Trans Acoust., Speech, Signal Processing, vol. ASSP-28, 137-145, Apr. 1980

상세보기
O. Cappe, 'Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor,' IEEE Trans Speech Audio Process., 2(2) 345-349, Apr. 1994

상세보기
N. Ma, M. Bouchard and R. Goubran, 'Perceptual Kalman filtering for speech enhancement in colored noise,' in Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, 1 717-720, Montreal, May 2004
C. You, S. N. Koh, and S. Rahardja 'Signal subspace speech enhancement for audible noise reduction', in Proc IEEE Int. Conf. Acoustics, Speech, and Signal Processing, 1 145-148, Mar. 2005
N. Virag, 'Single channel speech enhancement based on masking properties of the human auditory system,' IEEE Trans. Speech and Audio Processing, 7(2) 126-137, Mar. 1999

상세보기
N. S. Kim, J.-H. Chang, 'Spectral enhancement based on global soft decision,' IEEE Signal Processing Letters, 7(5) May 2000, 108-110

상세보기
J. Sohn, N. S. Kim, W. Sung, 'A statistical model-based voice activity detection,' IEEE Signal Processing Letters, 6(1) 1-3, Jan. 1999

상세보기
C. Plapous, C. Marro, P. Scalart, and L. Mauuary, 'A two-step noise reduction technique, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Montreal, QC, Canada, May 2004, 1 289--292
I. Cohen, 'Speech enhancement using a noncausal a priori SNR estimator,' IEEE Signal Processing Letters, 11 (9) Sept. 2004. 725-728

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증