[논문]기계학습을 이용한 음성 신호처리 연구동향

김태수

기계학습을 이용한 음성 신호처리 연구동향 원문보기

電子工學會誌 = The journal of Korea Institute of Electronics Engineers, v.43 no.5 = no.384, 2016년, pp.35 - 40

김태수 (한국퀄컴 연구소)

초록이 없습니다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논고에서는 기계학습이 음성 신호처리에 쓰이고 있는 연구동향을 살펴보았다. 기계학습 분야에서 최근 가장 각광 받고 있는 딥러닝을 이용한 많은 연구들이 음성 인식과 음성향상에 이용되어 기존에 오랜 기간 동안 이루지 못한 성능향상을 이루어낸 사례들을 살펴보았다.
신호처리를 위한 기계학습 (Machine Learning for Signal Processing) 학회는 올해로 26년째 개최되고 있으며, 신호처리 분야의 최대 학회인 ICASSP에서는 매년 기계학습 관련 논문이 늘어나고 있다. 본 논고에서는 이 중 음성 신호처리의 대표적인 분야인 음성인식(speech recognition)과 음성향상(speech enhancement)에서 기계학습이 쓰이고 있는 동향을 살펴보고자 한다.

가설 설정

스펙트럼 감산 방법은 입력 스펙트럼에서 잡음을 추정하고 추정된 잡음의 스펙트럼을 빼서 잡음이 제거된 스펙트럼을 얻은 후 이를 다시 시간영역 신호로 복원하는 것이다. 음성신호는 음성이 없는 묵음 구간이 많이 존재하므로 잡음이 정상(stationary) 신호라고 가정하고 이 구간에서 잡음의 스펙트럼을 추정한다. 위너 필터 방법은 예측된 잡음의 스펙트럼과 이를 통해 예측된 음성신호의 스펙트럼을 이용하여 위너 이득(Wiener gain)을 계산하여 입력 스펙트럼에 이 이득을 곱해서 잡음제거된 스펙트럼을 얻는다.

제안 방법

알파고는 기존 대국의 기보 데이터를 통해서 바둑의 판세를 읽고 어떤 수를 놓는 것이 유리한지 알고리즘이 스스로 학습하였다. 그리고 학습된 알고리즘끼리 서로 대국하여 더 많은 데이터를 확보하고 이를 통해 알고리즘의 성능을 더욱 향상시키는 방법을 사용하였다^[2].
이는 문제에 대한 구체적인 지식을 통해서 사람이 직접 알고리즘을 고안해내 문제를 해결하는 것이 아니라 많은 데이터를 통해서 알고리즘이 그 문제에 가장 적절한 해결책을 찾아내도록 하는 것이다. 알파고는 기존 대국의 기보 데이터를 통해서 바둑의 판세를 읽고 어떤 수를 놓는 것이 유리한지 알고리즘이 스스로 학습하였다. 그리고 학습된 알고리즘끼리 서로 대국하여 더 많은 데이터를 확보하고 이를 통해 알고리즘의 성능을 더욱 향상시키는 방법을 사용하였다^[2].

성능/효과

둘째, NMF를 이용한 방법보다 신경망을 이용한 방법의 성능이 더 좋다는 점이다. 그리고 마지막으로 마스커의 종류에 따라 차이는 있지만, 스펙트럼을 직접 추정하는 방법보다 마스커를 추정하는 방법의 성능이 더 낫다는 점이다.
이에 반해 기계학습에 의한 방법들은 음성의 명료도를 향상시킨다는 것을 알 수 있다. 둘째, NMF를 이용한 방법보다 신경망을 이용한 방법의 성능이 더 좋다는 점이다. 그리고 마지막으로 마스커의 종류에 따라 차이는 있지만, 스펙트럼을 직접 추정하는 방법보다 마스커를 추정하는 방법의 성능이 더 낫다는 점이다.
그리고 나머지는 각각 다른 종류의 마스커를 추정하는 방법을 표시한다. 여기서 주목할 점은 첫째, 전통적인 잡음제거 방법은 음질은 어느정도 향상시키 지만 음성의 명료도는 거의 개선이 없다는 점이다. 이에 반해 기계학습에 의한 방법들은 음성의 명료도를 향상시킨다는 것을 알 수 있다.
이를 잡음제거 오토 인코더(denoising auto-encoder)라고 부른다^[14]. 이 방법을 통해서 전통적인 잡음제거 방법에 비해 월등히 높은 PESQ(Perceptual Evaluation of Speech Quality) 점수를 얻을 수 있었다.

후속연구

최신 연구들의 동향으로 볼 때, 음성 신호처리 분야에서 기계학습이 이용되면서 연구자들이 기존에 가지고 있던 신호처리 지식으로 직접 설계한 알고리즘들이 신경망의 구조만 주어지고 그 신경망의 동작은 데이터를 통해서 스스로 학습되어지는 알고리즘에 의해 대체되고 있다. 향후 많은 연구자들이 기존의 신호 처리 지식을 기계학습 분야에 잘 접목하여 새로운 신경망 구조와 그에 필요한 효과적인 학습 방법을 개발하여 더 많은 응용분야에서 획기적인 연구성과를 보여줄 수 있을 것이라 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	신경망을 이용한 잡음 제거 방법 중 CASA는 무엇인가?	신경망을 이용해서 잡음을 제거하는 다른 방법으로는 CASA(Computational Auditory Scene Analysis)의 접근법이 있다. 이는 잡음 제거된 음성의 스펙트럼을 직접 추정하기보다는 스펙트럼 상에서 음성에 해당하는 부분과 잡음에 해당하는 부분을 구분하는 마스커(masker)를 추정하는 방법이다[15]. 이를 추정하기 위하여 예전에는 음성의 피치 정보를 찾거나 하는 다양한 방법이 시도되었으나 최근에는 신경망을 통해서 마스커를 학습하는 방식이 주로 연구되고 있다[16].
	비교사 기계학습의 일종인 독립 요소 분석을 이용해 암묵 신호 분리를 했을 때 어떤 문제점이 있는가?	이 때 비교사(unsupervised) 기계학 습의 일종인 독립 요소 분석(Independent Component Analysis)[11]을 이용한 방법이 널리 적용되었다. 그러나 이 방법은 특정 조건에서 아주 잘 동작하였지만 마이크의 갯수보다 음원의 숫자가 많을 때나 잡음이 특정위치에서 나지 않고 분산되어 있을 경우 어려움이 있었다. 그리고 분리된 음원이 많을 경우 학습을 통해 분리된 음원중 원하는 음원을 특정하기 힘든 문제, 실시간 시스템에서 학습이 빠르고 안정적으로 수렴하기 힘든 문제 등으로 인해서 현재는 제한적인 용도로만 사용되고 있는 실정이다.
	초창기 음성인식기는 어떤 기술이 사용되었는가?	이 후 많은 민간 및 정부 연구소들에서 연구를 진행하여 1980년대에는 인식할 수 있는 단어수가 1,000단어에서 1만 단어까지 늘어났으며, 1990년대에 이르러 음성인식이 상용화 될 수 있었다. 초창기 음성인식기에는 동적시간 정합(Dynamic Time Warping) 기술과 같이 입력된 음성 신호를 정해진 패턴과 매칭하는 방식인 템플릿 매칭기반의 알고리즘들이 사용되었으나 이 후 기계학습의 일종인 신경망(Neural Networks)이 사용되기도 하였다. 하지만, 데이터를 통한 학습이 오래 걸리고, 주어진 데이터에만 과도하게 잘 맞춰지고 실제 환경에서는 성능이 떨어지는 이른바 과적응 (overfitting) 문제등으로 인해 연구자들의 관심에서 멀어졌다.

참고문헌 (17)

김기응, 알파고 충격에서 무엇을 배워야 할 것인가, 중앙일보시론, 2016년 3월 15일, http://news.joins.com/article/19723142
Mastering the game of Go with deep neural networks and tree search, Nature 529, 2016년
G. Hinton, Y. Bengio, Y. LeCun, NIPS tutorial: Deep Learning, 2015년
A. Mohamed, D. Yu, L. Deng, Investiation of full-sequence training of deep belief networks for speech recognition, Interspeech, 2010년
G. Dahl, D. Yu, L. Deng, A. Acero, Large vocabulary continuous speech recognition with context-dependent DBNHMMS, ICASSP, 2011년
H. Sak, A. Senior, K Rao, A. Graves, F. Beaufays, J Schalkwyk, Learning acoustic frame labeling for speech recognition with recurrent neural networks, ICASSP 2015년
D. Amodei et al, Deep Speech 2: End-to-end speech recognition in English and Mandarin, arXiv:1512.02595, 2015년
G. Saon, H.-K Kuo, S. Rennie, M. Picheny, The IBM 2015 English conversational telephone speech recognition system, ICASSP 2015
T. Sainath, R. J. Weiss, K. W. Wilson, A. Narayanan, M. Bacchiani, Factored spatial and spectral multichannel raw waveform CLDNNS, ICASSP 2016년
J. F. Cardoso, Blind signal separation: statistical principles, Proceedings of the IEEE, 1998년
A. Hyvarinen, E. Oja, Independent component analysis: algorithms and applications, Neural Networks, 2000년
D. Lee, H. Seung, Learning the parts of objects by nonnegative matrix factorization, Nature, 1999년
P. Smaragdis, Probabilistic decompositions of spectra for sound separation, Blind speech separation, 2007년
X. Lu, Y. Tsao, S. Matsuda, C. Hori, Speech enhancement based on deep denoising autoencoder, Interspeech, 2013년
G. Hu, D. Wang, Monaural speech segregation based on pitch tracking and amplitude modulation, IEEE Transactions on Neural Networks, 2004년
Y. Wang, A. Narayanan, D. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014년
D. Williamson, Y. Wang, D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016년

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

기계학습을 이용한 음성 신호처리 연구동향 원문보기

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

기계학습을 이용한 음성 신호처리 연구동향 원문보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

질의응답

참고문헌 (17)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper