[논문]마이크로폰 배열에서 독립벡터분석 기법을 이용한 잡음음성의 음질 개선

왕씽양; 전성일; 배건성

doi:10.13064/ksss.2012.4.4.087

마이크로폰 배열에서 독립벡터분석 기법을 이용한 잡음음성의 음질 개선
Microphone Array Based Speech Enhancement Using Independent Vector Analysis 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.4 no.4, 2012년, pp.87 - 92

Abstract ▼ AI-Helper

Speech enhancement aims to improve speech quality by removing background noise from noisy speech. Independent vector analysis is a type of frequency-domain independent component analysis method that is known to be free from the frequency bin permutation problem in the process of blind source separation from multi-channel inputs. This paper proposed a new method of microphone array based speech enhancement that combines independent vector analysis and beamforming techniques. Independent vector analysis is used to separate speech and noise components from multi-channel noisy speech, and delay-sum beamforming is used to determine the enhanced speech among the separated signals. To verify the effectiveness of the proposed method, experiments for computer simulated multi-channel noisy speech with various signal-to-noise ratios were carried out, and both PESQ and output signal-to-noise ratio were obtained as objective speech quality measures. Experimental results have shown that the proposed method is superior to the conventional microphone array based noise removal approach like GSC beamforming in the speech enhancement.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 IVA를 이용한 마이크로폰 배열 기반의 음성 개선 방법을 제안하였다. 입력되는 다채널 잡음음성 신호에서 처음 1~2초 길이의 데이터로 IVA의 분리행렬을 구하고, 구해진 분리행렬을 이용하여 다채널 잡음음성에서 음성신호를 비롯하여 잡음신호들을 분리해 낸다.
본 연구에서는 IVA 기법을 마이크로폰 배열에서 얻어지는 다채널 잡음음성 신호에 적용하여 잡음성분이 제거되고 향상된 음질의 음성신호를 얻는 음성개선 방법을 제안하였다. 제안한 방법에서는 먼저 다채널 잡음음성에 IVA 기법을 이용하여 잡음성분과 음성신호를 비롯한 음원신호로 분리하고, 마이크로폰 배열의 DSB(Delay-Sum Beamforming) 출력신호와 IVA로 분리된 출력신호 사이의 상관관계를 이용하여 IVA 출력신호 중에서 개선된 음성신호를 출력한다.

가설 설정

제안한 방법의 음질개선 성능을 평가하기 위하여 와 같은 마이크로폰 사이의 간격이 5cm인 4-채널 마이크로폰 배열을 가정하고, 음성신호는 마이크로폰 배열의 수직방향을 기준으로 0º 방향에서, 잡음신호는 40º 방향에서 입력되는 잡음음성을 생성하였다.

제안 방법

앞에서 설명한 방법에 따라 남/녀 각각 3명씩의 6개 깨끗한 음성신호[8]에 대해 SNR이 -10dB, -5dB, 0dB, 5dB, 10dB가 되도록 가우시안 백색잡음을 섞은 잡음음성 30개와 배블잡음[9]을 섞은 잡음음성 30개를 4개의 각 채널에 대해 생성하였으며, 이때 신호의 샘플링주파수는 16kHz로 하였다. IVA 수행 시에 STFT(Short-Time Fourier Transform)의 프레임 길이는 256 샘플로, 64 샘플씩 이동시키면서 분석/합성 하였다.
IVA의 분리행렬을 구하는 훈련과정에서 요구되는 적절한 데이터 길이를 조사하기 위하여 입력음성 신호의 시작 부분에서 훈련과정에 사용되는 프레임 수에 따라 잡음이 제거된 출력신호의 SNR을 조사하여 에 나타내었다.
이 구간에서는 DSB의 출력신호가 시스템의 출력신호가 된다. 둘째는, 구해진 분리행렬을 이용하여 IVA를 수행하면 다채널의 출력신호를 얻게 되는데, 잡음이 제거된 음성신호 이외에는 모두 잡음성분에 해당되므로 주요 신호 2개를 추출하여 DSB 출력신호와 IVA 출력신호와의 상관계수를 구하여 상관도가 높은 신호를 시스템의 출력신호로 한다. IVA에서 분리행렬을 구하는 과정과 이를 이용하여 출력신호를 얻는 독립성분분석 알고리즘의 자세한 과정은 [6]에 주어져 있다.
성능비교를 위한 마이크로폰 배열 기반의 GSC 구현 시에 위와 동일한 조건에서 최적의 결과를 얻을 수 있도록 예비실험을 통해 NLMS 알고리즘을 이용한 적응필터계수 갱신 과정에서의 step size 값을 설정하였다. <그림 5>는 가우시안 백색잡음 및 배블잡음에 대해 GSC의 step size를 0.
앞에서 설명한 방법에 따라 남/녀 각각 3명씩의 6개 깨끗한 음성신호[8]에 대해 SNR이 -10dB, -5dB, 0dB, 5dB, 10dB가 되도록 가우시안 백색잡음을 섞은 잡음음성 30개와 배블잡음[9]을 섞은 잡음음성 30개를 4개의 각 채널에 대해 생성하였으며, 이때 신호의 샘플링주파수는 16kHz로 하였다. IVA 수행 시에 STFT(Short-Time Fourier Transform)의 프레임 길이는 256 샘플로, 64 샘플씩 이동시키면서 분석/합성 하였다.
<그림 5(a)>의 백색잡음의 경우에는 대체로 step size 변화가 출력 SNR에 큰 영향을 보이지 않았지만, <그림 5(b)>의 배블잡음에서는 상대적으로 step size의 영향이 컸었다. 이러한 결과를 고려하여 본 연구에서는 step size 값을 0.01로 설정하여 GSC 관련 실험을 수행하였다.
제안한 방법에서 입력 잡음음성의 SNR이 높을 경우에 출력 SNR의 개선 효과가 줄어드는 이유를 분석하기 위하여 출력신호의 스펙트로그램을 조사하였다. <그림 7>은 SNR이 10dB인 가우시안 백색잡음이 포함된 잡음음성과 제안한 방법으로 분리한 음성신호 및 잡음신호의 스펙트로그램을 보인 것이다.
본 연구에서는 IVA 기법을 마이크로폰 배열에서 얻어지는 다채널 잡음음성 신호에 적용하여 잡음성분이 제거되고 향상된 음질의 음성신호를 얻는 음성개선 방법을 제안하였다. 제안한 방법에서는 먼저 다채널 잡음음성에 IVA 기법을 이용하여 잡음성분과 음성신호를 비롯한 음원신호로 분리하고, 마이크로폰 배열의 DSB(Delay-Sum Beamforming) 출력신호와 IVA로 분리된 출력신호 사이의 상관관계를 이용하여 IVA 출력신호 중에서 개선된 음성신호를 출력한다. 제안한 IVA 기반의 마이크로폰 배열 방식과 잡음제거 성능이 우수한 GSC 기법의 마이크로폰 배열 방식에 대해 컴퓨터 모의실험을 통해 음질개선 성능을 비교하였다.
출력신호의 모호성 문제란 에 보인 ICA를 이용한 혼합신호의 분리 과정에서 얻어진 출력신호 S1, S2 중에서 어느 것이 Source 1에 해당하는지를 알 수 없는 것을 의미하며, 본 연구에서는 Source 1 이외의 신호는 잡음에 해당되므로 마이크로폰 배열의 DSB 출력신호와 IVA를 이용하여 분리된 출력신호와의 상관관계를 조사하여 이러한 모호성 문제를 해결한다.

대상 데이터

<그림 6(a)>는 가우시안 백색잡음이 포함된 잡음음성에 대한 결과이며, <그림 6(b)>는 배블잡음에 대한 결과이다. <그림 6>에서 보면 훈련과정에 사용되는 데이터의 길이가 60 프레임 이상이면 큰 변화를 보이지 않음을 볼 수 있는데, 이를 고려하여 본 실험에서는 약 1.28초 길이에 해당하는 80프레임을 분리행렬을 구하기 위한 훈련과정의 데이터로 사용하였다.

데이터처리

기존의 마이크로폰 배열 기반의 GSC 방법과 IVA를 이용한 제안한 방법의 잡음제거 성능을 6명 화자에 대한 평균 PESQ 값으로 비교하여 에 나타내었다.
제안한 방법에서는 먼저 다채널 잡음음성에 IVA 기법을 이용하여 잡음성분과 음성신호를 비롯한 음원신호로 분리하고, 마이크로폰 배열의 DSB(Delay-Sum Beamforming) 출력신호와 IVA로 분리된 출력신호 사이의 상관관계를 이용하여 IVA 출력신호 중에서 개선된 음성신호를 출력한다. 제안한 IVA 기반의 마이크로폰 배열 방식과 잡음제거 성능이 우수한 GSC 기법의 마이크로폰 배열 방식에 대해 컴퓨터 모의실험을 통해 음질개선 성능을 비교하였다. 실험결과 제안한 방법이 백색잡음(white noise) 및 배블잡음(babble noise)에 대해 객관적인 음질 비교 척도인 PESQ (Perceptual Evaluation of Speech Quality)[7]값에서 월등히 우수함을 보였다.

이론/모형

GSC는 특정 방향의 잡음원에 의한 배경잡음 제거 성능을 향상시키기 위해 잡음신호를 추정하는 적응필터를 DSB에 적용한 것으로, 본 연구에서 적응필터의 차수는 32차, 필터계수의 갱신을 위한 알고리즘으로는 NLMS(Normalized Least Mean Square)을 이용하였다.
음질개선의 성능평가를 위한 척도로는 일반적으로 많이 사용하는 객관적인 음질평가 척도인 PESQ와 신호대잡음비(SNR: Signal-to-Noise Ratio)를 사용하였다. PESQ는 ITU-T P.

성능/효과

기존의 마이크로폰 배열 기반의 GSC 방법과 IVA를 이용한 제안한 방법의 잡음제거 성능을 6명 화자에 대한 평균 PESQ 값으로 비교하여 <표 1>에 나타내었다. IVA를 이용한 제안한 음질개선 방법에서는 잡음음성에 포함된 잡음성분을 추정하여 차감하는 방식이 아니고 암묵적신호분리 기법으로 잡음성분과 음성신호 성분을 분리하는 방법이므로 사람이 청취시의 주관적인 음질평가에 가까운 PESQ 값에서 GSC에 비해 월등히 높은 값을 보임을 볼 수 있다. 특히 입력 잡음음성의 SNR이 낮을수록, 즉, 잡음이 더 많을수록 기존의 잡음제거 기법에 비해 더 좋은 성능을 보임을 볼 수 있다.
따라서 이 경우에 에서와 같이 제안한 방법이 SNR 값에서는 GSC 방법보다 낮아지게 되지만 에서 보듯이 음성신호 대부분의 에너지가 저주파 쪽 대역에 포함되어 있으므로 청취시의 음질 특성을 나타내는 PRSQ 값은 에서 보듯이 제안한 방법이 월씬 높은 값을 보이고 있다고 생각된다.
제안한 IVA 기반의 마이크로폰 배열 방식과 잡음제거 성능이 우수한 GSC 기법의 마이크로폰 배열 방식에 대해 컴퓨터 모의실험을 통해 음질개선 성능을 비교하였다. 실험결과 제안한 방법이 백색잡음(white noise) 및 배블잡음(babble noise)에 대해 객관적인 음질 비교 척도인 PESQ (Perceptual Evaluation of Speech Quality)[7]값에서 월등히 우수함을 보였다.
<표 2>는 GSC와 제안한 방법에 대해 6명 화자에 대한 출력신호의 평균 SNR을 보인 것이다. <표 1>에서와 마찬가지로 전체적으로 제안한 방법이 GSC 방법에 비해 출력 SNR이 월등히 개선된 것을 볼 수 있다. 그런데 가우시안 백색 잡음의 경우 입력 잡음음성의 SNR이 상대적으로 높을 경우에는 제안한 방법이 PESQ 값이 훨씬 높음에도 불구하고 출력 SNR 값에서는 GSC에 비해 낮은 값이 얻어짐을 볼 수 있다.
입력 잡음음성의 SNR이 상대적으로 높은 경우에는 백색잡음의 경우 IVA로 분리된 신호의 고주파 쪽 대역이 서로 뒤섞이는 현상이 일부 관찰되었지만, 음성신호의 에너지 대부분이 저주파 대역에 존재하므로 이 경우에도 PESQ로 측정되는 음질 면에서는 GSC 보다 우수한 결과를 보였었다. 하지만 추후 고주파 대역에서 발생하는 스펙트럼 빈의 뒤섞임 문제에 대한 연구 및 해결이 요구된다.
IVA의 출력신호의 모호성 문제, 즉, 분리된 신호 중에서 잡음이 제거된 음성신호를 찾아내는 문제는 마이크로폰 배열의 DSB 출력과 IVA 출력신호와의 상관함수를 이용하여 해결하였다. 컴퓨터 모의실험을 통하여 IVA를 이용한 제안한 방법이 기존의 마이크로폰 배열 기반의 GSC 방법에 비해 음질개선 면에서 월등히 우수함을 보였다.
IVA를 이용한 제안한 음질개선 방법에서는 잡음음성에 포함된 잡음성분을 추정하여 차감하는 방식이 아니고 암묵적신호분리 기법으로 잡음성분과 음성신호 성분을 분리하는 방법이므로 사람이 청취시의 주관적인 음질평가에 가까운 PESQ 값에서 GSC에 비해 월등히 높은 값을 보임을 볼 수 있다. 특히 입력 잡음음성의 SNR이 낮을수록, 즉, 잡음이 더 많을수록 기존의 잡음제거 기법에 비해 더 좋은 성능을 보임을 볼 수 있다.

후속연구

입력 잡음음성의 SNR이 상대적으로 높은 경우에는 백색잡음의 경우 IVA로 분리된 신호의 고주파 쪽 대역이 서로 뒤섞이는 현상이 일부 관찰되었지만, 음성신호의 에너지 대부분이 저주파 대역에 존재하므로 이 경우에도 PESQ로 측정되는 음질 면에서는 GSC 보다 우수한 결과를 보였었다. 하지만 추후 고주파 대역에서 발생하는 스펙트럼 빈의 뒤섞임 문제에 대한 연구 및 해결이 요구된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음성개선이란 무엇인가?	다양한 형태의 배경잡음이 포함된 잡음음성에서 잡음성분을 제거하여 음질(speech quality)을 개선하는 기술을 음성개선(speech enhancement)이라고 하는데, 음성통신에서 음성의 명료도를 높이고 잡음으로 인한 청취자의 피로를 덜어주거나, 음성인식시스템의 인식성능을 향상시키기 위해 전처리 과정 등에서 사용되고 있는 기술로서 꾸준히 연구되고 있는 분야이다. 음성개선 방법으로는 크게 스펙트럽 차감법, MMSE-STSA 등과 같이 단일 채널 음성신호를 이용하는 방법[1]과 GSC(Generalized Sidelobe Canceller), DSB(Delay-Sum Beamforming) 등과 같이 마이크로폰 배열 기반의 다채널 음성 신호를 이용하는 방법[2]으로 나눌 수 있다.
	음성개선 방법에는 무엇이 있는가?	다양한 형태의 배경잡음이 포함된 잡음음성에서 잡음성분을 제거하여 음질(speech quality)을 개선하는 기술을 음성개선(speech enhancement)이라고 하는데, 음성통신에서 음성의 명료도를 높이고 잡음으로 인한 청취자의 피로를 덜어주거나, 음성인식시스템의 인식성능을 향상시키기 위해 전처리 과정 등에서 사용되고 있는 기술로서 꾸준히 연구되고 있는 분야이다. 음성개선 방법으로는 크게 스펙트럽 차감법, MMSE-STSA 등과 같이 단일 채널 음성신호를 이용하는 방법[1]과 GSC(Generalized Sidelobe Canceller), DSB(Delay-Sum Beamforming) 등과 같이 마이크로폰 배열 기반의 다채널 음성 신호를 이용하는 방법[2]으로 나눌 수 있다.
	IVA를 실시간으로 동작하는 마이크로폰 배열에 적용하기 위해서는 어떤 과정이 수행되는가?	IVA를 실시간으로 동작하는 마이크로폰 배열에 적용하기 위해서 다음의 2가지 과정이 수행된다. 첫째는, 다채널 입력 잡음음성으로부터 음원이 분리된 출력신호를 얻기 위한 IVA 과정에서 분리행렬(unmixing matrix)을 구해야 하는데, 이 과정은 음성의 시작부분에서 1~2초 구간의 음성을 이용하여 수행하게 되며 그림 2에서 훈련/분리 과정으로 표시되어 있다. 이 구간에서는 DSB의 출력신호가 시스템의 출력신호가 된다. 둘째는, 구해진 분리행렬을 이용하여 IVA를 수행하면 다채널의 출력신호를 얻게 되는데, 잡음이 제거된 음성신호 이외에는 모두 잡음성분에 해당되므로 주요 신호 2개를 추출하여 DSB 출력신호와 IVA 출력신호와의 상관계수를 구하여 상관도가 높은 신호를 시스템의 출력신호로 한다. IVA에서 분리행렬을 구하는 과정과 이를 이용하여 출력신호를 얻는 독립성분분석 알고리즘의 자세한 과정은 [6]에 주어져 있다.

참고문헌 (9)

Ephraim, Y. & Malah, D. (1984). Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, Acoustics, Speech and Signal Processing, IEEE Transactions on. vol. 32, 1109-1121.

상세보기
Benesty, J. et al. (2008). Microphone array signal processing. Berlin: Springer Verlag.
Hyvarinen, A., Karhunen, J. & Oja, E. (2001). Independent component analysis. New Youk: Wiley.
Haykin, S. (2009). Neural networks and learning machines. New Jersey: Pearson Prentice Hall.
Asano, F., Ikeda, S., Ogawa, M., Asoh, H. & Kitawaki, N. (2001). A combined approach of array processing and independent component analysis for blind separation of acoustic signals, in Proc.IEEE Int. Conf. Acoust., Speech Signal Process., 2729-2732.
Kim, T., Attias, H., Lee, S. & Lee, T. (2007). Blind source separation exploiting higher-order frequency dependencies, Audio, Speech, and Language Processing, IEEE Transactions on, vol. 15, 70-79.

상세보기
PESQ, http://www.itu.int/rec/T-REC-P.862/en
Donohue, K. D. Systems Array Processing Toolbox. http://www.engr.uky.edu/-donohue/.
NoiseX-92, http://www.speech.cs.cmu.edu/comp.speech/ Section1/ Data/noisex.html

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증