$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

다채널 위너 필터의 주성분 부공간 벡터 보정을 통한 잡음 제거 성능 개선
Improved speech enhancement of multi-channel Wiener filter using adjustment of principal subspace vector 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.39 no.5, 2020년, pp.490 - 496  

김기백 (숭실대학교 전기공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 잡음 환경에서 다채널 위너 필터의 성능을 향상시키기 위한 방법을 제안한다. 부공간(subspace) 기반의 다채널 위너 필터를 설계하는 경우, 목적 신호가 단일 음원인 경우는 음성 상관 행렬의 주성분 부공간에서 음성 성분을 추정할 수 있다. 이 때, 음성 상관 행렬은 음성과 간섭 잡음의 교차 상관도가 음성 상관 행렬에 비해 무시할만한 수준이라는 가정하에 신호 상관 행렬에서 간섭 잡음의 상관 행렬을 차감하여 추정하게 된다. 그러나 간섭 잡음 수준이 높아지게 되면 이러한 가정이 더 이상 유효하지 않게 되며 이에 따라 주성분 부공간 추정 오차도 증가하게 된다. 본 연구에서는 음성 존재 확률과 목적 신호의 방향 벡터를 이용하여 주성분 부공간을 보정하는 방법을 제안한다. 주성분 부공간에서 다채널 음성 존재 확률을 유도하고 주성분 부공간 벡터를 보정하는데 적용하였다. 실험을 통해 제안하는 방법이 잡음 환경에서 다채널 위너 필터의 성능을 향상시키는 것을 확인할 수 있다.

Abstract AI-Helper 아이콘AI-Helper

We present a method to improve the performance of the multi-channel Wiener filter in noisy environment. To build subspace-based multi-channel Wiener filter, in the case of single target source, the target speech component can be effectively estimated in the principal subspace of speech correlation m...

주제어

표/그림 (2)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 하지만 신호 대 간섭 잡음 비는 정규화된 수치가 아니라 보정량을 결정하기 어려운 문제가 있다. 따라서 본 논문에서는 신호 대 간섭 잡음 비를 사용하는 대신 음성 존재 확률을 이용하여 주성분 벡터를 보정하는 정도를 결정하는 방법을 제안하고자 한다. 음성 존재 확률은 신호 대 간섭 잡음 비와 밀접한 관계를 가지며, 확률값이므로 0과 1사이 값을 나타내므로 추가적인 정규화 과정없이 보정량을 결정하는데 사용할 수 있다.
  • 본 논문에서는 다채널 신호의 음성 존재 확률을 이용하여 다채널 위너 필터를 보정하는 방법을 제안하고자 한다. 부공간(subspace)에서 필터를 구할 때, 하나의 음원으로부터 음성이 여러 마이크에 도달하는 경우는 음성 상관 행렬의 랭크(rank)는 1이 되고 음성 상관 행렬의 주성분 벡터만을 이용하여 다채널 위너 필터의 성능을 향상시킬 수 있다.
  • 이러한 보정 방법은 다채널 위너 필터의 성능을 개선하기는 하나, 주성분 벡터가 왜곡되는 원인에 따라 보정하는 정도를 조절하는 것이 아니라 주성분 벡터가 왜곡된 결과에 따라 보정 정도를 조절하는 방법이다. 본 연구에서는 이러한 방법과 달리 주성분 벡터를 왜곡시키는 원인인 신호 대 간섭 잡음 비와 밀접한 음성 존재 확률을 이용하여 주성분 벡터를 보정하는 정도를 조절하는 방법을 제안하고자 한다. 음성 상관 행렬의 랭크가 1이라는 가정 하에서의 부공간 분해를 통한 다채널 음성 존재 확률을 유도한 후 이를 이용하여 주성분 벡터를 보정하는 방법을 제안한다.
  • 이러한 문제를 해결하고자 음원의 방향을 알고 있을 때, 음원의 방향 벡터를 이용하여 주성분 벡터를 보정하는 방법을 제안하고자 한다. 방향 벡터는 여러 개의 마이크로 신호를 취득하는 경우, 기준이 되는 마이크(예를 들어, 첫 번째 마이크)에 대한 다른 마이크 신호들의 위상 차이를 나타내는 벡터로서 신호의 공간 정보를 나타내는 벡터이다.
  • 다채널 위너 필터는 신호의 부공간 분해를 통해 구현할 수 있는데 주성분 부공간에서 음성 신호를 추정하여 효과적으로 잡음을 제거할 수 있다. 이론상으로 음성 주성분 벡터는 음향 전달 함수와 같은 위상을 나타내야 하지만 SINR이 낮은 시간-주파수 영역에서는 오차로 인한 성능 저하가 발생하며 이를 해결하기 위해 음성의 방향 벡터와 음성 존재 확률을 이용하여 음성 주성분 벡터를 보정하고자 하였다. 제안하는 방법을 적용하여 실험한 결과 SINR gain, MFCC거리 측면에서 잡음 제거 성능을 향상시킬 수 있음을 확인하였다.

가설 설정

  • Eq. (7)에서 음성 상관 행렬을 추정할 때 음성과 간섭 잡음 간에는 상관 관계가 무시할만하다고 가정하였다. 이러한 가정은 음성 신호의 세기가 간섭 잡음 신호보다 월등히 클 경우는 유효하나 간섭 잡음 신호의 세기가 커질 경우는 더 이상 유효하지 않게 되고 이로 인해 음성 상관 행렬 추정 오차가 증가하게 된다.
  • Eq. (7)에서 음성과 잡음의 교차 상관 행렬인 Rxn는 음성 상관 행렬에 비해 무시할만한 수준이라고 가정하였다.
  • H1(l,k) : y(l,k) = x(l,k) +n(l,k).       (18)
  • [13] 5.66 cm의 등간격을 이루는 7개의 선형 어레이 마이크의 정면에서 2 m 떨어진 곳에 음성 음원이 배치되어 있고 간섭 잡음은 음성의 방향과 40°를 이루는 방향에서 음성과 마찬가지로 2 m 떨어져서 입사하는 상황을 가정하였다.
  • 음성 존재 확률은 음성이 존재한다는 가설(hypothesis) H1과 음성이 존재하지 않는다는 가설 H0에 대해 다음 식과 같이 쓸 수 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
다채널 신호의 잡음 제거를 효과적으로 수행할 수 있는 이유는 무엇인가? 단일 채널 신호에 비해 다채널 신호에는 신호의 공간 정보가 포함되어 있어 음성 왜곡을 최소화하면서 잡음 제거를 효과적으로 수행할 수 있다. 다채널 잡음 제거에 관한 초기 연구에서는 전통적인 빔포밍 기법을 활용하는 연구가 주로 수행되었고, 이후에는 음성 신호와 출력 신호 간의 자승 오차를 통계적 평균 관점에서 최소화하는 필터인 다채널 위너 필터(Multi-channel Wiener Filter, MWF)에 관한 연구가 활발히 진행되었다.
잡음 제거 기술은 무엇인가? 잡음 제거 기술은 음성 신호 처리 분야의 주요 기술 중 하나로서 잡음이 존재하는 실생활 환경에서 자동 음성 인식, 음성 통신의 성능 보장을 위해 요구되는 기술이다. 하드웨어의 발전에 따라 두 개 이상의 마이크를 이용하는 기기들이 증가하고 있으며, 이에 따라 다채널 잡음 제거 기술에 관한 연구도 확대되어 왔다.
음성 음원의 방향 벡터(steering vector)를 이용하는 방법은 무엇을 조절하는 방법인가? Reference [1]에서는 주성분 부공간 벡터를 보정하기 위해서 음성 음원의 방향 벡터(steering vector)를 이용하는 방법이 제안되었는데, 주성분 벡터와 방향 벡터가 이루는 각도를 계산하고, 각도가 클수록 주성분 벡터를 방향 벡터 쪽으로 보정하는 정도를 크게 하였다. 이러한 보정 방법은 다채널 위너 필터의 성능을 개선하기는 하나, 주성분 벡터가 왜곡되는 원인에 따라 보정하는 정도를 조절하는 것이 아니라 주성분 벡터가 왜곡된 결과에 따라 보정 정도를 조절하는 방법이다. 본 연구에서는 이러한 방법과 달리 주성분 벡터를 왜곡시키는 원인인 신호 대 간섭 잡음 비와 밀접한 음성 존재 확률을 이용하여 주성분 벡터를 보정하는 정도를 조절하는 방법을 제안하고자 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. G. Kim, "Interference suppression using principal subspace modification in multichannel Wiener filter and its application to speech recognition," ETRI J. 32, 921-931 (2010). 

  2. K. Ngo, A. Spriet, M. Moonen, J. Wouter, and S. H. Jensen, "Incorporating the conditional speech presence probability in multi-channel Wiener filter based noise reduction in hearing aids," Eurasip J. Advances in Signal Processing, 2009, 1-11 (2009). 

  3. K. Ngo, M. Moonen, S. H. Jensen, and J. Wouters, "A flexible speech distortion weighted multi-channel Wiener filter for noise reduction in hearing aids," ICASSP. 2528-2531 (2011). 

  4. T. C. Lawin-Ore, S. Stenzel, J. Freudenberger, and S. Doclo, "Generalized multichannel wiener filter for spatially distributed microphones," Speech Communication;. 11. ITG Symposium, 1-4 (2014). 

  5. R. Serizel, M. Moonen, B. Van Dijk, and J. Wouters, "Low-rank approximation based multichannel Wiener filter algorithms for noise reduction with application in cochlear implants," IEEE/ACM Trans. Audio, Speech, and Lang. Process. 22, 785-798 (2014). 

  6. Z. Wang, E. Vincent, R. Serizel, and Y. Yan, "Rank-1 constrained multichannel Wiener filter for speech recognition in noisy environments," Computer Speech & Language, 49, 37-51 (2018). 

  7. S. Bagheri and D. Giacobello, "Exploiting multichaannel speech presence probability in parametric multi-channel Wiener filter," Interspeech, 101-105 (2019). 

  8. M. Souden, J. Chen, J. Benesty, and S. Affes, "Gaussian model-based multichannel speech presence probability," IEEE Trans. Audio, Speech, Lang. Process. 18, 1072-1077 (2010). 

  9. Y. G. Jin, J. W. Shin, and N. S. Kim, "Decisiondirected speech power spectral density matrix estimation for multichannel speech enhancement," J. Acoust. Soc. Am. 141, EL234 (2017). 

  10. S. Jeong and Y. Kim, "An optimally-modified multichannel Wiener filter using speech presence probability" (in Korean), Smart Media J. 7, 9-15 (2018). 

  11. G. H. Golub and C. F. Van Loan, Matrix Computations, 3rd ed. (Johns Hopkins University Press, Baltimore, 1996), Chap. 8. 

  12. H. Van Trees, Optimum Array Processing: Part IV of Detection, Estimation and Modulation Theory (Wiley, Hoboken, 2002), Chap. 2. 

  13. S. Nakamura, K. Hiyane, F. Asano, T. Nishiura, and T. Yamada "Acoustical sound database in real environments for sound scene understanding and hands-free speech recognition," Proc. the 2nd Int. Conf. LREC. 965-968 (2000). 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로