$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

양이형 음성 음질개선 시스템을 위한 온라인 잡음 상관도 추정 알고리즘
On-line noise coherence estimation algorithm for binaural speech enhancement system 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.35 no.3, 2016년, pp.234 - 242  

지유나 (연세대학교 컴퓨터정보통신공학부) ,  백용현 (연세대학교 컴퓨터정보통신공학부) ,  박영철 (연세대학교 컴퓨터정보통신공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 양이형 음성 음질개선 시스템에 적용 가능한 잡음 상관도 온라인 추정 알고리즘을 제안한다. 양이형 시스템에서 공간 상관도(spatial coherence) 정보를 이용해 잡음의 파워 스펙트럼을 추정하거나 음질 개선 이득을 형성하는 기술들이 다수 연구되어 왔다. 이때 잡음 상관도는 통상적으로 수학적으로 모델링된 실수의 고정 값을 사용하여왔다. 하지만 실생활에서 접하게 되는 잡음의 상관도는 음향 환경에 따라 변화하는 특성을 가지게 되며 이때 발생하는 오차는 음질 개선 알고리즘의 정확도를 떨어뜨리는 원인이 된다. 따라서 본 논문에서는 변화하는 잡음의 상관도를 온라인으로 업데이트하여 정확한 잡음 상관도를 추정함으로써 양이형 음질 개선 알고리즘의 성능을 향상 시키고자 하였다. 잡음의 상관도는 음성 부재 구간에서 업데이트 될 수 있으며 실험 결과 제안 알고리즘이 기존의 수학적 모델에 비해 음질 개선 알고리즘의 성능을 향상시킴을 볼 수 있다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, an on-line noise coherence estimation algorithm for binaural speech enhancement system is proposed. A number of noise Power Spectral Density (PSD) estimation algorithms based on the noise coherence between two microphones have been proposed to improve the speech enhancement performanc...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • [11] 이 기술의 경우 인과성을 만족시키기 위한 임의의 딜레이를 고려하지 않아도 목표 음성의 방향에 관계없이 잡음의 파워 스펙트럼을 추정 할 수 있다는 장점이 있으므로 본 논문에서는 고유치 기반의 알고리즘을 이용하여 잡음의 파워 스펙트럼을 추정하고자 한다. 기존 논문에[11] 제안된 알고리즘을 간단히 정리하면 다음과 같다.
  • 이때 composite parameters와 PESQ는 8 kHz로 다운 샘플링 후 측정 되었다. segmental SNR과 PESQ의 경우 입력과 출력 신호 각각의 측정치의 차이 값을 구해 입력 신호 대비 출력 신호의 품질 향상을 쉽게 확인하고자 하였다. 이때 Fig.
  • 정교하지 못한 잡음 상관도 모델에 의한 오차는 잡음 파워 스펙트럼 추정의 정확도를 떨어뜨려 최종 출력 신호에서 잔여잡음과 음성의 왜곡을 발생시킨다. 따라서 본 논문에서는 음질개선의 성능 향상을 위해 음향 환경의 변화에 따라 온라인으로 잡음의 상관도를 업데이트하는 기술을 제안한다. 이를 위해 잡음의 상관도를 음성이 존재하지 않는 구간, 즉 잡음만 존재하는 구간에서 1차 재귀 평균을 이용하여 다음과 같이 추정한다.
  • 본 논문에서는 실제 환경에서 변화하는 잡음의 상관도를 추적하여 고정된 모델 보다 정확한 상관도를 구하고 이를 이용해 잡음 파워 스펙트럼 추정 알고리즘의 정확도를 높일 수 있는 방법을 제안한다. 잡음의 상관도는 음성이 존재하지 않는 구간에서 1차 재귀 평균을 이용해 업데이트되며 추정된 상관도 모델을 이용하여 정교한 잡음 파워 스펙트럼을 추정할 수 있다.
  • 본 논문에서는 양이형 음질개선 알고리즘을 위한 잡음 상관도 온라인 추정 방법을 제안하였다. 제안 알고리즘은 음향 환경에 따라 변화하는 잡음 상관도를 음성 부재 구간에서 업데이트함으로써 변화하는 상관도 값을 온라인으로 추정하고자 하였다.
  • 본 논문은 II장에서 잡음 상관도를 이용한 잡음 파워 스펙트럼 추정 알고리즘과 기존에 사용되었던 잡음 상관도의 수학적 모델에 대해 소개한다. 이어서 III장에서 본 논문에서 제안하는 잡음 상관도 온라인 추정 알고리즘을 소개하고 IV장에서 실험을 통해 제안 알고리즘의 성능을 평가한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음질 개선 시스템에서 알고리즘의 성능을 결정하는 중요한 부분은? 음질 개선 시스템에서 잡음의 파워 스펙트럼 밀도(Power Spectral Density, PSD) 추정 부분은 알고리즘의 성능을 결정하는 중요한 부분이기 때문에 정확도를 향상시키기 위해 많은 연구들이 진행되고 있다.
정확하지 않은 잡음 스펙트럼 추정 결과는 어떤 원인이 되는가? 정확하지 않은 잡음 스펙트럼 추정 결과는 음성의왜곡 또는 듣기에 불편한 잔여 잡음을 발생시키는 원인이 된다. 초기 음질 개선 알고리즘들은 단일 마이크를 이용한 알고 리즘들로 입력 신호의 최소 파워는 잡음의 파워와 같다는 가정을 이용해 잡음의 파워를 추정하거나[1,2] 음성의 존재유무에 따라 잡음의 파워를 갱신하여 입력 신호의 신호대 잡음비(Signal to Noise Ratio, SNR)를 높이는 알고리즘들이 주를 이루었다.
기존의 잡음 상관도 모델을 사용할 경우 음질향상 알고리즘의 성능이 저하 될 수 있는 이유는? 그러나 실제 환경에서 잡음의 상관도는 잡음의 특성, 음원의 이동 그리고 음향 환경 등에 영향을 받으며, 그 특성 또한 시간에 따라 변화한다.[13] 따라서 기존의 잡음 상관도 모델을 사용할 경우 음질향상 알고리즘의 성능이 저하 될 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. R. Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics," IEEE Trans. Speech Audio Process. 9, 504-512 (2001). 

  2. Y. H. Son, J. H. Choi and J. H. Chang, "Improved minimum statistics based on environment -awareness for noise power estimation" (in Korean), J. Acoust. Soc. Kr. 30, 123-128 (2011). 

  3. S. J. Lee and S. H. Kim, "Adaptive Threshold for Speech Enhancement in Nonstationary Noisy Environments" (in Korean), J. Acoust. Soc. Kr. 27, 386-393 (2008). 

  4. S. Rangachari and P. C. Loizou, "A noise-estimation algorithm for highly non-stationary environments," Speech communication, 48, 220-231 (2006). 

  5. L. Wang, T. Gerkmann and S. Doclo. "Noise power spectral density estimation using MaxNSR blocking matrix," IEEE/ACM Trans. Audio, Speech, Lang. Process. 23, 1493-1508 (2015). 

  6. H. Abutalebi, H. Sheikhzadeh and L. Brennan, "A hybrid subband adaptive system for speech enhancement in diffuse noise fields," IEEE Signal Process. Lett. 11, 44-47, (2004). 

  7. B. N. Laska, M. Bolic and R. A. Goubran, "Coherence-assisted Wiener filter binaural speech enhancement," IEEE, Instrumentation and Measurement Technology Conference, 876-881, (2010). 

  8. I. A. McCowan and H. Bourlard, "Microphone array post-filter based on noise field coherence," IEEE Trans. on. Speech, Audio Process. 11, 709-716 (2003). 

  9. A. H. Kamkar-Parsi and M. Bouchard, "Improved noise power spectrum density estimation for binaural hearing aids operating in a diffuse noise field environment," IEEE Trans. on Audio, Speech, and Lang. Process. 17, 521-533 (2009). 

  10. M. Jeub, C. Nelke, H. Kruger, C. Beaugeant and P. Vary, "Robust dual-channel noise power spectral density estimation," Signal Processing Conference, 2011 19th European. IEEE, 2304-2308 (2011). 

  11. Y. Ji, Y. C. Park, D. W. Kim, and J. Shon, "Robust noise PSD estimation for binaural hearing aids in time-varying diffuse noise field," in IEEE ICASSP, 7264-7268 (2013). 

  12. I. Lindevald and A. Benade, "Two-ear correlation in the statistical sound fields of rooms," J. Acoust. Soc. Am. 80, 661-664 (1986). 

  13. M. Jeub and P. Vary, "Binaural dereverberation based on a dual-channel Wiener filter with optimized noise field coherence." in IEEE ICASSP, 4710-4713 (2010). 

  14. A. V. Ralph, A. Carlos and D. Richard O, "Elevation localization and head-related transfer function analysis at low frequencies," J. Acoust. Soc. Am. 109, 1110-1122 (2001). 

  15. I. Cohen, "Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator," IEEE Signal Processing Letters. 9, 113-116 (2002). 

  16. W. G. Gardner and K. Martin, HRTF measurements of a KEMAR dummy-head microphone (Technical Report 280, MIT Media Lab Perceptual Computing, 1994). 

  17. Y. Hu and P. C. Loizou, "Evaluation of objective quality measures for speech enhancement," IEEE Trans. Audio Speech and Lang. Process. 16, 229-238 (2008). 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로