$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

딥러닝 모델 adaptation 기술의 연구 동향 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.9, 2016년, pp.3 - 7  

양준영 (한양대학교) ,  장준혁 (한양대학교)

초록
AI-Helper 아이콘AI-Helper

딥러닝 기술은 수많은 입력 데이터에 내재하고 있는 특징을 추출 및 합성함으로써 복잡한 특징공간을 모델링할 수 있는 강점을 가지지만, 테스트 환경에서 나타날 수 있는 특정 데이터 분포에 대하여 일반화가 잘 되지 않을 경우에는 해당 데이터를 이용하여 주어진 환경에 모델을 적응시킬 수 있는 기술을 필요로 한다. 이 글에서는 DNN 모델의 adaptation 기술 연구가 가장 활발하게 진행되고 있는 음향모델링에서의 다양한 adaptation 기술을 통해 연구 동향을 알아본다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 음향모델의 adaptation은 모델을 어떤 환경에 적응시킬지에 따라 크게 두 종류로 나눌 수 있는데, 서로 다른 화자간의 발음이나 억양 등의 발성특성을 고려하여 특정 화자에 대해 모델을 적응시키는 것을 화자적응(speaker adaptation), 잔향이나 잡음, 채널 환경 등에 기인한 특정 음향환경에 대해 모델을 적응시키는 것을 환경적응(environment adaptation)이라고 할 수 있다. 음향모델의 adaptation 기술은 주로 화자적응 기술을 중심으로 개발되어왔고, 환경적응 기술은 화자적응과 동일한 방법을 사용하거나, 적응데이터의 특성상 다양한 음성∙음향학적 전처리(pre-processing) 기법들과 결합되어 사용되는 경우가 많기 때문에 이 글에서는 DNN 음향모델의 화자적응 기술에 대해 다룸으로써 딥러닝 모델의 adaptation 기술 연구 동향에 대해 설명할 것이다.
  • 이 글에서는 딥러닝 모델의 adaptation 기술 연구 동향을 음향모델링에서의 DNN 모델에 적용할 수 있는 다양한 화자적응 기술들을 통해 설명하였다. 기존에 사용되던 GMM-HMM 기반의 음향모델을 보조적인 모델로 사용한 방법들은 주로 GMM을 이용하여 DNN의 학습에 추가적인 정보를 제공할 수 있는 특징벡터를 추출하는 기술로 구성되어 있었으며, 이외에 분류모델로써의 DNN의 학습 과정, 구조적인 특성 및 가중치행렬과 바이어스 파라미터를 이용한 adaptation 기술들을 알아보았다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
딥러닝 기반 모델의 가장 큰 강점은 무엇인가? 빅데이터 시대의 도래, 컴퓨팅 파워의 발전 및 깊은 신경망 (deep neural network; DNN)의 학습을 가능하게 하는 학습 알고리즘의 개발과 함께 등장한 딥러닝은 음성인식[1], 영상인식[2], 자연어 처리[3], 문자열 예측[4] 등 다양한 분야에서 뛰어난 성능을 나타내고 있다. 딥러닝 기반 모델의 가장 큰 강점은 입력데이터에 가해지는 연속한 비선형변환을 통한 특징벡터 추출 및 합성으로 기존의 얕은 모델로는 표현할 수 없는 복잡한 특징공간에 대한 강력한 모델링 커패시티일 것이다. 그러나, 테스트 환경에서 학습시에 관측되지 않은 데이터 분포가 입력될 경우 딥러닝 모델은 일반화 능력의 부족으로 인해 성능이 하락하는 경우가 발생할 수 있다.
VTLN이란 무엇인가? VTLN은 화자의 연령대와 성별에 따라 다른 성도(vocal tract)의 모양과 길이로 인해 다양한 음향학적 특성을 보이는 음성신호를 노말라이즈하여 서로 다른 화자의 음성신호로부터 추출한 특징벡터들이 가지는 다양한 화자 특성에 기인한 다양성을 줄이는 방법이다. VTLN은 음성신호로부터 특징벡터를 추출하기 전 음성신호의 주파수 도메인 표현에서의 frequency warping을 통해 이루어지며, 서로 다른 화자별 warping factor를 추정하는 방법으로써 기존의 GMM-HMM 기반 음향모델을 warped domain에서 추출한 특징벡터들의 우도를 최대화하도록 학습하는 과정을 필요로 한다.
딥러닝 기반 모델은 테스트 환경에서 어떤 문제가 발생할 수 있는가? 딥러닝 기반 모델의 가장 큰 강점은 입력데이터에 가해지는 연속한 비선형변환을 통한 특징벡터 추출 및 합성으로 기존의 얕은 모델로는 표현할 수 없는 복잡한 특징공간에 대한 강력한 모델링 커패시티일 것이다. 그러나, 테스트 환경에서 학습시에 관측되지 않은 데이터 분포가 입력될 경우 딥러닝 모델은 일반화 능력의 부족으로 인해 성능이 하락하는 경우가 발생할 수 있다. 딥러닝 모델의 adaptation은 이처럼 테스트 환경에서 관측되는 특정 데이터 분포에 대한 모델의 성능을 향상시키기 위해 일부 데이터를 이용하여 모델을 적응적으로 추가 학습시키는 방법이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. Dahl, George E., et al. "Context-dependent pretrained deep neural networks for large-vocabulary speech recognition." IEEE Transactions on Audio, Speech, and Language Processing 20.1 (2012): 30-42. 

  2. Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012. 

  3. Mikolov, T. and J. Dean. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems (2013). 

  4. Graves, Alex. "Generating sequences with recurrent neural networks." arXiv preprint arXiv:1308.0850 (2013). 

  5. Rabiner, Lawrence R. "A tutorial on hidden Markov models and selected applications in speech recognition." Proceedings of the IEEE 77.2 (1989): 257-286. 

  6. Serizel, Romain, and Diego Giuliani. "Vocal tract length normalisation approaches to DNN-based children's and adults' speech recognition." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014. 

  7. Leggetter, Christopher J., and Philip C. Woodland. "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models." Computer Speech & Language, 9.2 (1995): 171-185. 

  8. Parthasarathi, Sree Hari Krishnan, et al. "fMLLR based feature-space speaker adaptation of DNN acoustic models." Sixteenth Annual Conference of the International Speech Communication Association. 2015. 

  9. Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798. 

  10. Miao, Yajie, Hao Zhang, and Florian Metze. "Speaker adaptive training of deep neural network acoustic models using i-vectors." IEEE/ACM Transactions on Audio, Speech, and Language Processing 23.11 (2015): 1938-1949. 

  11. Yao, Kaisheng, et al. "Adaptation of contextdependent deep neural networks for automatic speech recognition." Spoken Language Technology Workshop (SLT), 2012 IEEE. IEEE, 2012. 

  12. Swietojanski, Pawel, and Steve Renals. "Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014. 

  13. Price, Ryan, Ken-ichi Iso, and Koichi Shinoda. "Speaker adaptation of deep neural networks using a hierarchy of output layers." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014. 

  14. Yu, Dong, et al. "KL-divergence regularized deep neural network adaptation for improved large vocabulary speech recognition." 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. 

  15. Albesano, Dario, et al. "Adaptation of artificial neural networks avoiding catastrophic forgetting." The 2006 IEEE International Joint Conference on Neural Network Proceedings. IEEE, 2006. 

  16. Bell, Peter, and Steve Renals. "Regularization of context-dependent deep neural networks with context-independent multi-task training." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015. 

  17. Huang, Zhen, et al. "Rapid adaptation for deep neural networks through multi-task learning." Proc. Interspeech. 2015. 

  18. Xue, Jian, et al. "Singular value decomposition based low-footprint speaker adaptation and personalization for deep neural network." 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014. 

  19. Zhang, C., and P. C. Woodland. "DNN speaker adaptation using parameterised sigmoid and ReLU hidden activation functions." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016. 

  20. Miao, Yajie, and Florian Metze. "On speaker adaptation of long short-term memory recurrent neural networks." Sixteenth Annual Conference of the International Speech Communication Association (INTERSPEECH)(To Appear). ISCA. 2015. 

  21. Graves, Alex, and Navdeep Jaitly. "Towards End-To-End Speech Recognition with Recurrent Neural Networks." ICML. Vol. 14. 2014. 

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로