$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

기계학습을 이용한 음성 신호처리 연구동향 원문보기

電子工學會誌 = The journal of Korea Institute of Electronics Engineers, v.43 no.5 = no.384, 2016년, pp.35 - 40  

김태수 (한국퀄컴 연구소)

초록이 없습니다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논고에서는 기계학습이 음성 신호처리에 쓰이고 있는 연구동향을 살펴보았다. 기계학습 분야에서 최근 가장 각광 받고 있는 딥러닝을 이용한 많은 연구들이 음성 인식과 음성향상에 이용되어 기존에 오랜 기간 동안 이루지 못한 성능향상을 이루어낸 사례들을 살펴보았다.
  • 신호처리를 위한 기계학습 (Machine Learning for Signal Processing) 학회는 올해로 26년째 개최되고 있으며, 신호처리 분야의 최대 학회인 ICASSP에서는 매년 기계학습 관련 논문이 늘어나고 있다. 본 논고에서는 이 중 음성 신호처리의 대표적인 분야인 음성인식(speech recognition)과 음성향상(speech enhancement)에서 기계학습이 쓰이고 있는 동향을 살펴보고자 한다.

가설 설정

  • 스펙트럼 감산 방법은 입력 스펙트럼에서 잡음을 추정하고 추정된 잡음의 스펙트럼을 빼서 잡음이 제거된 스펙트럼을 얻은 후 이를 다시 시간영역 신호로 복원하는 것이다. 음성신호는 음성이 없는 묵음 구간이 많이 존재하므로 잡음이 정상(stationary) 신호라고 가정하고 이 구간에서 잡음의 스펙트럼을 추정한다. 위너 필터 방법은 예측된 잡음의 스펙트럼과 이를 통해 예측된 음성신호의 스펙트럼을 이용하여 위너 이득(Wiener gain)을 계산하여 입력 스펙트럼에 이 이득을 곱해서 잡음제거된 스펙트럼을 얻는다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
신경망을 이용한 잡음 제거 방법 중 CASA는 무엇인가? 신경망을 이용해서 잡음을 제거하는 다른 방법으로는 CASA(Computational Auditory Scene Analysis)의 접근법이 있다. 이는 잡음 제거된 음성의 스펙트럼을 직접 추정하기보다는 스펙트럼 상에서 음성에 해당하는 부분과 잡음에 해당하는 부분을 구분하는 마스커(masker)를 추정하는 방법이다[15]. 이를 추정하기 위하여 예전에는 음성의 피치 정보를 찾거나 하는 다양한 방법이 시도되었으나 최근에는 신경망을 통해서 마스커를 학습하는 방식이 주로 연구되고 있다[16].
비교사 기계학습의 일종인 독립 요소 분석을 이용해 암묵 신호 분리를 했을 때 어떤 문제점이 있는가? 이 때 비교사(unsupervised) 기계학 습의 일종인 독립 요소 분석(Independent Component Analysis)[11]을 이용한 방법이 널리 적용되었다. 그러나 이 방법은 특정 조건에서 아주 잘 동작하였지만 마이크의 갯수보다 음원의 숫자가 많을 때나 잡음이 특정위치에서 나지 않고 분산되어 있을 경우 어려움이 있었다. 그리고 분리된 음원이 많을 경우 학습을 통해 분리된 음원중 원하는 음원을 특정하기 힘든 문제, 실시간 시스템에서 학습이 빠르고 안정적으로 수렴하기 힘든 문제 등으로 인해서 현재는 제한적인 용도로만 사용되고 있는 실정이다.
초창기 음성인식기는 어떤 기술이 사용되었는가? 이 후 많은 민간 및 정부 연구소들에서 연구를 진행하여 1980년대에는 인식할 수 있는 단어수가 1,000단어에서 1만 단어까지 늘어났으며, 1990년대에 이르러 음성인식이 상용화 될 수 있었다. 초창기 음성인식기에는 동적시간 정합(Dynamic Time Warping) 기술과 같이 입력된 음성 신호를 정해진 패턴과 매칭하는 방식인 템플릿 매칭기반의 알고리즘들이 사용되었으나 이 후 기계학습의 일종인 신경망(Neural Networks)이 사용되기도 하였다. 하지만, 데이터를 통한 학습이 오래 걸리고, 주어진 데이터에만 과도하게 잘 맞춰지고 실제 환경에서는 성능이 떨어지는 이른바 과적응 (overfitting) 문제등으로 인해 연구자들의 관심에서 멀어졌다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. 김기응, 알파고 충격에서 무엇을 배워야 할 것인가, 중앙일보시론, 2016년 3월 15일, http://news.joins.com/article/19723142 

  2. Mastering the game of Go with deep neural networks and tree search, Nature 529, 2016년 

  3. G. Hinton, Y. Bengio, Y. LeCun, NIPS tutorial: Deep Learning, 2015년 

  4. A. Mohamed, D. Yu, L. Deng, Investiation of full-sequence training of deep belief networks for speech recognition, Interspeech, 2010년 

  5. G. Dahl, D. Yu, L. Deng, A. Acero, Large vocabulary continuous speech recognition with context-dependent DBNHMMS, ICASSP, 2011년 

  6. H. Sak, A. Senior, K Rao, A. Graves, F. Beaufays, J Schalkwyk, Learning acoustic frame labeling for speech recognition with recurrent neural networks, ICASSP 2015년 

  7. D. Amodei et al, Deep Speech 2: End-to-end speech recognition in English and Mandarin, arXiv:1512.02595, 2015년 

  8. G. Saon, H.-K Kuo, S. Rennie, M. Picheny, The IBM 2015 English conversational telephone speech recognition system, ICASSP 2015 

  9. T. Sainath, R. J. Weiss, K. W. Wilson, A. Narayanan, M. Bacchiani, Factored spatial and spectral multichannel raw waveform CLDNNS, ICASSP 2016년 

  10. J. F. Cardoso, Blind signal separation: statistical principles, Proceedings of the IEEE, 1998년 

  11. A. Hyvarinen, E. Oja, Independent component analysis: algorithms and applications, Neural Networks, 2000년 

  12. D. Lee, H. Seung, Learning the parts of objects by nonnegative matrix factorization, Nature, 1999년 

  13. P. Smaragdis, Probabilistic decompositions of spectra for sound separation, Blind speech separation, 2007년 

  14. X. Lu, Y. Tsao, S. Matsuda, C. Hori, Speech enhancement based on deep denoising autoencoder, Interspeech, 2013년 

  15. G. Hu, D. Wang, Monaural speech segregation based on pitch tracking and amplitude modulation, IEEE Transactions on Neural Networks, 2004년 

  16. Y. Wang, A. Narayanan, D. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014년 

  17. D. Williamson, Y. Wang, D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016년 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로