최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기電子工學會誌 = The journal of Korea Institute of Electronics Engineers, v.43 no.5 = no.384, 2016년, pp.35 - 40
김태수 (한국퀄컴 연구소)
초록이 없습니다.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
신경망을 이용한 잡음 제거 방법 중 CASA는 무엇인가? | 신경망을 이용해서 잡음을 제거하는 다른 방법으로는 CASA(Computational Auditory Scene Analysis)의 접근법이 있다. 이는 잡음 제거된 음성의 스펙트럼을 직접 추정하기보다는 스펙트럼 상에서 음성에 해당하는 부분과 잡음에 해당하는 부분을 구분하는 마스커(masker)를 추정하는 방법이다[15]. 이를 추정하기 위하여 예전에는 음성의 피치 정보를 찾거나 하는 다양한 방법이 시도되었으나 최근에는 신경망을 통해서 마스커를 학습하는 방식이 주로 연구되고 있다[16]. | |
비교사 기계학습의 일종인 독립 요소 분석을 이용해 암묵 신호 분리를 했을 때 어떤 문제점이 있는가? | 이 때 비교사(unsupervised) 기계학 습의 일종인 독립 요소 분석(Independent Component Analysis)[11]을 이용한 방법이 널리 적용되었다. 그러나 이 방법은 특정 조건에서 아주 잘 동작하였지만 마이크의 갯수보다 음원의 숫자가 많을 때나 잡음이 특정위치에서 나지 않고 분산되어 있을 경우 어려움이 있었다. 그리고 분리된 음원이 많을 경우 학습을 통해 분리된 음원중 원하는 음원을 특정하기 힘든 문제, 실시간 시스템에서 학습이 빠르고 안정적으로 수렴하기 힘든 문제 등으로 인해서 현재는 제한적인 용도로만 사용되고 있는 실정이다. | |
초창기 음성인식기는 어떤 기술이 사용되었는가? | 이 후 많은 민간 및 정부 연구소들에서 연구를 진행하여 1980년대에는 인식할 수 있는 단어수가 1,000단어에서 1만 단어까지 늘어났으며, 1990년대에 이르러 음성인식이 상용화 될 수 있었다. 초창기 음성인식기에는 동적시간 정합(Dynamic Time Warping) 기술과 같이 입력된 음성 신호를 정해진 패턴과 매칭하는 방식인 템플릿 매칭기반의 알고리즘들이 사용되었으나 이 후 기계학습의 일종인 신경망(Neural Networks)이 사용되기도 하였다. 하지만, 데이터를 통한 학습이 오래 걸리고, 주어진 데이터에만 과도하게 잘 맞춰지고 실제 환경에서는 성능이 떨어지는 이른바 과적응 (overfitting) 문제등으로 인해 연구자들의 관심에서 멀어졌다. |
김기응, 알파고 충격에서 무엇을 배워야 할 것인가, 중앙일보시론, 2016년 3월 15일, http://news.joins.com/article/19723142
Mastering the game of Go with deep neural networks and tree search, Nature 529, 2016년
G. Hinton, Y. Bengio, Y. LeCun, NIPS tutorial: Deep Learning, 2015년
A. Mohamed, D. Yu, L. Deng, Investiation of full-sequence training of deep belief networks for speech recognition, Interspeech, 2010년
G. Dahl, D. Yu, L. Deng, A. Acero, Large vocabulary continuous speech recognition with context-dependent DBNHMMS, ICASSP, 2011년
H. Sak, A. Senior, K Rao, A. Graves, F. Beaufays, J Schalkwyk, Learning acoustic frame labeling for speech recognition with recurrent neural networks, ICASSP 2015년
D. Amodei et al, Deep Speech 2: End-to-end speech recognition in English and Mandarin, arXiv:1512.02595, 2015년
G. Saon, H.-K Kuo, S. Rennie, M. Picheny, The IBM 2015 English conversational telephone speech recognition system, ICASSP 2015
T. Sainath, R. J. Weiss, K. W. Wilson, A. Narayanan, M. Bacchiani, Factored spatial and spectral multichannel raw waveform CLDNNS, ICASSP 2016년
J. F. Cardoso, Blind signal separation: statistical principles, Proceedings of the IEEE, 1998년
A. Hyvarinen, E. Oja, Independent component analysis: algorithms and applications, Neural Networks, 2000년
D. Lee, H. Seung, Learning the parts of objects by nonnegative matrix factorization, Nature, 1999년
P. Smaragdis, Probabilistic decompositions of spectra for sound separation, Blind speech separation, 2007년
X. Lu, Y. Tsao, S. Matsuda, C. Hori, Speech enhancement based on deep denoising autoencoder, Interspeech, 2013년
G. Hu, D. Wang, Monaural speech segregation based on pitch tracking and amplitude modulation, IEEE Transactions on Neural Networks, 2004년
Y. Wang, A. Narayanan, D. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014년
D. Williamson, Y. Wang, D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016년
※ AI-Helper는 부적절한 답변을 할 수 있습니다.