$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

주파수 특성 기저벡터 학습을 통한 특정화자 음성 복원
Target Speaker Speech Restoration via Spectral bases Learning 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.36 no.3, 2009년, pp.179 - 186  

박선호 (포항공과대학교 컴퓨터공학과) ,  유지호 (포항공과대학교 컴퓨터공학과) ,  최승진 (포항공과대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a target speech extraction which restores speech signal of a target speaker form noisy convolutive mixture of speech and an interference source. We assume that the target speaker is known and his/her utterances are available in the training time. Incorporating the additional info...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • CBSS를통해 얻은 출력신호들은 특정화 자의 음성과 방해 음원 및 잡음이 완벽히 분리가 안 되어 섞어 있기 때문에, (6)와 같은 음원 변수에 대한 확률 모델을 세움으로써 이를 확률적으로 기술하고, 이를 통해 채널선택의 판단기준을 마련하고자 한다.
  • 改는 백색잡음이다. 본 논문에서는 잡음과 반향 환경에서 특정화자와 방해 음원을 스테레오 마이크로폰으료 입력받아(즉, n = m = 2), 최종적으로 특정화 자만의 깨끗한 음성을 복원하는 것을 목표로 한다.
  • 본 논문은 잡음과 반향이 있는 실 환경에서의 특정 화자음성을 복원하는 시스템을 제안하였다. NMF 방법 중 하나인 probabilistic latent variable model를 주어진 특정화 자의 발화음성에 적용하여 주파수 특성을 잘 표현하는 기저벡터들을 학습하였다.
  • 즉, 식 (2)에서 0의 각 열은 시간의 변화에 불변한 주파수 영역의 기저벡터이므로 0를 학습함으로써 특정화자의 음성이 가지는 주파수 특성 정보를 쉽게 추출할 수 있다. 연구진은 기본 NMF 방법[9] 외에도 다른 제한 조건들이 추가된 다양한 NMF 방법들을 고려해 보았다. 확률적인 해석이 가능한 probabilistic latent variable model 기법들[13, 18, 2이, 모델 (2)에 직교제한조건(orthogonality) 을 추가한 orthogonal NMF[14]f 희소성 제한조건(sparsity)을 추가한 sparse NMF[10], convou- lutive NMFE11] 등을 고려하였으며, 각 방법론에 따라서로 다른 성질의 기저 벡터들이 학습된다.
  • 본 제안 방법에서 중요한 요소 중 하나는 학습 가능한 특정화자의 발화음성을 통해 특정화 자의 음성이 가지는 고유한 주파수 특성 정보를 추출하는 것이다. 이를 위해 아term Fourier transfgnation(STFT)를 통한 시간-주파수 표현을 고려한다.
  • 본 제안방법은 암묵적 속성을 지니는 CBSS에 효율적으로 특정음원의 사전 정보를 적용시키는 방법을 제시하였다. 또한 잡음 및 반향 환경에서의 실험을 통하여 본제 안 방법이 특정화자의 음성에 가까운 음성 신호를 복원함을 확인할 수 있었다.
  • 다만 CBSS의 암묵적 성질 (blindness)에 의해, 음원에 대햔 사전정보(prior information)를 음원분리에 활용하지 못하므로 논문의 최종목표언 특정화자 음성복원에 바로 적용하기 어렵다. 이에 본 논문은 CBSS와 학습 가능한 특정화자의 음성으로부터 얻은 사전정보를 결합하여 특정화자의 음성만을 복원하는 시스템을 제시하고자 한다.
  • 그러므로 CBSS 만으로는 특정화자의 정보를 미리 가지고 있는 상황에서 이 추가적인 정보를 활용하여 CBSS의 분리성능을향상시킬 수 없다. 이에, 본 논문에서는 CBSS의 후처리 단계를 제안함으로써 기존 CBSS의 성능을 향상시킴과동시에 최종적으로 특정화 자의 음성을 복원하고자 한다. 다음 5.

가설 설정

  • 특정화자가 si에 위치하게 되는데 ①~③의 위치로 자리를 바꾸어가면서 녹음을 흥 H, 다양한 위치에서의 제안방법의 성능평가를 하게 된다. 본 실험에서는 특정화자 sie 여성화자 또는 남성화 자의 음성이고, 방해 음원 s2는 프린터 출력 소리 또는 트럼펫 연주 소리로 가정한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (28)

  1. L. C. Parra, C. Spence, 'Convolutive blind source separation of non-stationary sources,' IEEE Trans. Speech and Audio Processing 320-327, 2000 

  2. D. Pham, C. Serviere, H. Boumaraf, 'Blind separation of convolutive audio mixtures using nonstationarity,' in: Proceedings of the International Conference on Independent Component Analysis and Blind Signal Separation, pp. 107-110, 2003 

  3. K. Torkkola, 'Blind separation of convolved sources based on information maximization,' in: Proceedings of the IEEE Workshop on Neural Networks for Signal Processing, pp. 423-432, 1996 

  4. S. Amari, S. C. Douglas, A. Cichocki, H. H. Yang, 'Multichannel blind deconvolution and equalization using the natural gradient,' in: Proceedings of the IEEE International Conference on Signal Processing Advances in Wireless Communications, Paris, France, pp. 101-104, 1997 

  5. P. Smaragdis, 'Information-theoretic approaches to source separation,' Master's thesis, Massachusetts Institute of Technology, 1997 

  6. extraction from interferences in real environment using bank of lters and blind source separation, in:Proceedings Third AustralianWorkshop on Signal Processing and Applications, 2000 

  7. H. Sawada, S. Araki, R. Mukai, S. Makino, 'Blind extraction of a dominant source from mixtures of many sources using ica and time-frequency masking,' 

  8. S. Y. Low, R. Togneri, S. Nordholm, 'Spatiotemporal processing for distant speech recognition,' in: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004 

  9. D. D. Lee, H. S. Seung, 'Algorithms for nonnegative matrix factorization,' in: Advances in Neural Information Processing Systems, Vol. 13, MIT Press, 2001 

  10. P. O. Hoyer, 'Non-negative matrix factorization with sparseness constraints,' Journal of Machine Learning Research 5, 1457-1469, 2004 

  11. P. D. O. Grady, B. A. Pearlmutter, 'Convolutive non-negative matrix factorisation with sparseness constraint,' in: Proceedings of the IEEE International Workshop on Machine Learning for Signal Processing, 2006 

  12. T. Hofmann, 'Probablistic latent semantic indexing,' in: Proceedings of the ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999 

  13. B. Raj, P. Smaragdis, 'Latent variable decomposition of spectrograms for single channel speaker separation,' in: IEEE Workshop of Applications of Signal Processing to Audio and Acoustics, pp.17-20, 2005 

  14. Jiho Yoo and Seungjin Choi (2008), 'Orthogonal nonnegative matrix factorization: Multiplicative updates on Stiefel manifolds,' in Proceedings of the 9th International Conference on Intelligent Data Engineering and Automated Learning, IDEAL-2008 

  15. E. Visser, M. Otsuka, Lee, 'A spatiotemporal speech enhancement scheme for robust speech recognition in noisy environments,' Speech Communication 41(15), 393-407, 2003 

  16. C. Choi, G. Jang, Y. Lee, S. R. Kim, 'Adaptive cross-channel interference cancellation on blind source separation outputs,' in: Proceedings of International Conference on Independent Component Analysis and Blind Signal Separation, 2004 

  17. J. Kocinski, 'Speech intelligibility improvement using convolutive blind source separation assisted by denoising algorithms,' Speech Communication 50, 29-37, 2008 

  18. M. V. S. Shashanka, P. Smaragdis, 'Sparse overcomplete decomposition for single channel speaker separation,' in: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 641-644, 2007 

  19. P. Smaragdis, B. Raj, M. Shashanka, 'Supervised and semi-supervised separation of sounds from single-channel mixtures,' in: Proceedings of International Conference on Independent Component Analysis and Signal Separation, 2007 

  20. M. V. S. Shashanka, 'Latent variable framework for modeling and separating single channel acoustic sources,' Ph.D. thesis, Department of Cognitive and Neural Systems, Boston University, 2007 

  21. M. Brand, 'Structure learning in conditional probability models via an entropic prior and parameter extinction, Neural Computation,' 11(5), 1155-1182, 1999 

  22. J. F. Cardoso, A. 'Souloumiac, Blind beamforming for non Gaussian signals,' IEE Proceedings-F 140(6), 362-370, 1993. 

  23. A. Belouchrani, K. Abed-Merain, J. F. Cardoso, E. Moulines, 'A blind source separation technique using second order statistics,' IEEE Trans. Signal Processing 45, 434-444, 1997 

  24. S. Choi, A. Cichocki, A. Belouchrani, 'Blind separation of second-order nonstationary and temporally colored sources,' in: Proceedings of IEEE Workshop on Statistical Signal Processing, Singapore, pp. 444-447, 2001 

  25. A. Ziehe, P. Laskov, G. Nolte, K. R. Muller, 'A fast algorithm for joint diagonalization with nonorthogonal transformations and its application to blind source separation,' Journal of Machine Learning Research 5, 777-800, 2004 

  26. D. T. Pham, 'Joint approximate diagonalization of positive denite matrices,' 22(4), 1163-1152, 2001. 

  27. D. R. Campbell, K. J. Palomaki, G. J. Brown, A 'matlab simulation of shoebox room acoustics for use in research and teaching,' Computing and Information Systems Journal 9(3), 1352-1404, 2005 

  28. E. Vincent, C. Fevotte, R. Gribonval, 'Performance measurement in blind audio source separation,' IEEE Trans. on Audio, Speech and Language Processing 14(4), 1462-1469, 2006 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로