최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.9, 2016년, pp.3 - 7
양준영 (한양대학교) , 장준혁 (한양대학교)
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
딥러닝 기반 모델의 가장 큰 강점은 무엇인가? | 빅데이터 시대의 도래, 컴퓨팅 파워의 발전 및 깊은 신경망 (deep neural network; DNN)의 학습을 가능하게 하는 학습 알고리즘의 개발과 함께 등장한 딥러닝은 음성인식[1], 영상인식[2], 자연어 처리[3], 문자열 예측[4] 등 다양한 분야에서 뛰어난 성능을 나타내고 있다. 딥러닝 기반 모델의 가장 큰 강점은 입력데이터에 가해지는 연속한 비선형변환을 통한 특징벡터 추출 및 합성으로 기존의 얕은 모델로는 표현할 수 없는 복잡한 특징공간에 대한 강력한 모델링 커패시티일 것이다. 그러나, 테스트 환경에서 학습시에 관측되지 않은 데이터 분포가 입력될 경우 딥러닝 모델은 일반화 능력의 부족으로 인해 성능이 하락하는 경우가 발생할 수 있다. | |
VTLN이란 무엇인가? | VTLN은 화자의 연령대와 성별에 따라 다른 성도(vocal tract)의 모양과 길이로 인해 다양한 음향학적 특성을 보이는 음성신호를 노말라이즈하여 서로 다른 화자의 음성신호로부터 추출한 특징벡터들이 가지는 다양한 화자 특성에 기인한 다양성을 줄이는 방법이다. VTLN은 음성신호로부터 특징벡터를 추출하기 전 음성신호의 주파수 도메인 표현에서의 frequency warping을 통해 이루어지며, 서로 다른 화자별 warping factor를 추정하는 방법으로써 기존의 GMM-HMM 기반 음향모델을 warped domain에서 추출한 특징벡터들의 우도를 최대화하도록 학습하는 과정을 필요로 한다. | |
딥러닝 기반 모델은 테스트 환경에서 어떤 문제가 발생할 수 있는가? | 딥러닝 기반 모델의 가장 큰 강점은 입력데이터에 가해지는 연속한 비선형변환을 통한 특징벡터 추출 및 합성으로 기존의 얕은 모델로는 표현할 수 없는 복잡한 특징공간에 대한 강력한 모델링 커패시티일 것이다. 그러나, 테스트 환경에서 학습시에 관측되지 않은 데이터 분포가 입력될 경우 딥러닝 모델은 일반화 능력의 부족으로 인해 성능이 하락하는 경우가 발생할 수 있다. 딥러닝 모델의 adaptation은 이처럼 테스트 환경에서 관측되는 특정 데이터 분포에 대한 모델의 성능을 향상시키기 위해 일부 데이터를 이용하여 모델을 적응적으로 추가 학습시키는 방법이다. |
Dahl, George E., et al. "Context-dependent pretrained deep neural networks for large-vocabulary speech recognition." IEEE Transactions on Audio, Speech, and Language Processing 20.1 (2012): 30-42.
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
Mikolov, T. and J. Dean. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems (2013).
Graves, Alex. "Generating sequences with recurrent neural networks." arXiv preprint arXiv:1308.0850 (2013).
Rabiner, Lawrence R. "A tutorial on hidden Markov models and selected applications in speech recognition." Proceedings of the IEEE 77.2 (1989): 257-286.
Serizel, Romain, and Diego Giuliani. "Vocal tract length normalisation approaches to DNN-based children's and adults' speech recognition." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014.
Leggetter, Christopher J., and Philip C. Woodland. "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models." Computer Speech & Language, 9.2 (1995): 171-185.
Parthasarathi, Sree Hari Krishnan, et al. "fMLLR based feature-space speaker adaptation of DNN acoustic models." Sixteenth Annual Conference of the International Speech Communication Association. 2015.
Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.
Miao, Yajie, Hao Zhang, and Florian Metze. "Speaker adaptive training of deep neural network acoustic models using i-vectors." IEEE/ACM Transactions on Audio, Speech, and Language Processing 23.11 (2015): 1938-1949.
Yao, Kaisheng, et al. "Adaptation of contextdependent deep neural networks for automatic speech recognition." Spoken Language Technology Workshop (SLT), 2012 IEEE. IEEE, 2012.
Swietojanski, Pawel, and Steve Renals. "Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014.
Price, Ryan, Ken-ichi Iso, and Koichi Shinoda. "Speaker adaptation of deep neural networks using a hierarchy of output layers." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014.
Yu, Dong, et al. "KL-divergence regularized deep neural network adaptation for improved large vocabulary speech recognition." 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013.
Albesano, Dario, et al. "Adaptation of artificial neural networks avoiding catastrophic forgetting." The 2006 IEEE International Joint Conference on Neural Network Proceedings. IEEE, 2006.
Bell, Peter, and Steve Renals. "Regularization of context-dependent deep neural networks with context-independent multi-task training." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015.
Huang, Zhen, et al. "Rapid adaptation for deep neural networks through multi-task learning." Proc. Interspeech. 2015.
Xue, Jian, et al. "Singular value decomposition based low-footprint speaker adaptation and personalization for deep neural network." 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.
Zhang, C., and P. C. Woodland. "DNN speaker adaptation using parameterised sigmoid and ReLU hidden activation functions." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.
Miao, Yajie, and Florian Metze. "On speaker adaptation of long short-term memory recurrent neural networks." Sixteenth Annual Conference of the International Speech Communication Association (INTERSPEECH)(To Appear). ISCA. 2015.
Graves, Alex, and Navdeep Jaitly. "Towards End-To-End Speech Recognition with Recurrent Neural Networks." ICML. Vol. 14. 2014.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.