[논문]딥러닝 모델 adaptation 기술의 연구 동향

양준영; 장준혁

딥러닝 모델 adaptation 기술의 연구 동향 원문보기

정보와 통신 : 한국통신학회지 = Information & communications magazine, v.33 no.9, 2016년, pp.3 - 7

양준영 (한양대학교) , 장준혁 (한양대학교)

초록
AI-Helper

딥러닝 기술은 수많은 입력 데이터에 내재하고 있는 특징을 추출 및 합성함으로써 복잡한 특징공간을 모델링할 수 있는 강점을 가지지만, 테스트 환경에서 나타날 수 있는 특정 데이터 분포에 대하여 일반화가 잘 되지 않을 경우에는 해당 데이터를 이용하여 주어진 환경에 모델을 적응시킬 수 있는 기술을 필요로 한다. 이 글에서는 DNN 모델의 adaptation 기술 연구가 가장 활발하게 진행되고 있는 음향모델링에서의 다양한 adaptation 기술을 통해 연구 동향을 알아본다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

음향모델의 adaptation은 모델을 어떤 환경에 적응시킬지에 따라 크게 두 종류로 나눌 수 있는데, 서로 다른 화자간의 발음이나 억양 등의 발성특성을 고려하여 특정 화자에 대해 모델을 적응시키는 것을 화자적응(speaker adaptation), 잔향이나 잡음, 채널 환경 등에 기인한 특정 음향환경에 대해 모델을 적응시키는 것을 환경적응(environment adaptation)이라고 할 수 있다. 음향모델의 adaptation 기술은 주로 화자적응 기술을 중심으로 개발되어왔고, 환경적응 기술은 화자적응과 동일한 방법을 사용하거나, 적응데이터의 특성상 다양한 음성∙음향학적 전처리(pre-processing) 기법들과 결합되어 사용되는 경우가 많기 때문에 이 글에서는 DNN 음향모델의 화자적응 기술에 대해 다룸으로써 딥러닝 모델의 adaptation 기술 연구 동향에 대해 설명할 것이다.
이 글에서는 딥러닝 모델의 adaptation 기술 연구 동향을 음향모델링에서의 DNN 모델에 적용할 수 있는 다양한 화자적응 기술들을 통해 설명하였다. 기존에 사용되던 GMM-HMM 기반의 음향모델을 보조적인 모델로 사용한 방법들은 주로 GMM을 이용하여 DNN의 학습에 추가적인 정보를 제공할 수 있는 특징벡터를 추출하는 기술로 구성되어 있었으며, 이외에 분류모델로써의 DNN의 학습 과정, 구조적인 특성 및 가중치행렬과 바이어스 파라미터를 이용한 adaptation 기술들을 알아보았다.

제안 방법

이 글에서는 딥러닝 모델의 adaptation 기술 연구 동향을 음향모델링에서의 DNN 모델에 적용할 수 있는 다양한 화자적응 기술들을 통해 설명하였다. 기존에 사용되던 GMM-HMM 기반의 음향모델을 보조적인 모델로 사용한 방법들은 주로 GMM을 이용하여 DNN의 학습에 추가적인 정보를 제공할 수 있는 특징벡터를 추출하는 기술로 구성되어 있었으며, 이외에 분류모델로써의 DNN의 학습 과정, 구조적인 특성 및 가중치행렬과 바이어스 파라미터를 이용한 adaptation 기술들을 알아보았다. DNN 기반의 음향모델링은 성능을 고도화하기 위하여 특징공간 적응과 모델 파라미터공간 적응 기술들을 함께 사용하는 추세이며, 이 글에서 다루지 않은 convolutional neural network (CNN)[10]나 recurrent neural network (RNN)[20] 기반의 음향모델 또는 end-to-end 프레임워크[21]에서의 adaptation 기술에 대한 연구도 활발하게 진행될 것을 기대해 볼 수 있을 것이다.
이 글에서는 DNN 기반 음향모델의 화자적응 기술을 크게 두 종류로 나누어 보았다. 보조 GMM (auxiliary GMM)을 통해 추출한 특징벡터를 이용하는 방법과, DNN의 학습 과정 및 구조적인 특성을 이용한 방법이다.
[6]을 통해 VTLN을 DNN-HMM 기반 음향모델에 적용한 예를 살펴볼 수 있다. 해당 연구에서는 GMM-HMM 기반 음향모델을 이용하여 추정한 화자별 warping factor를 DNN의 타겟으로 하여 학습함으로써 warping factor를 추정하는 DNN 모델을 구성하고, 해당 모델의 출력값인 warping factor의 사후확률을 DNN-HMM 기반 음향모델의 입력 특징벡터에 덧붙여 사용함으로써 화자적응을 수행하였다.

후속연구

기존에 사용되던 GMM-HMM 기반의 음향모델을 보조적인 모델로 사용한 방법들은 주로 GMM을 이용하여 DNN의 학습에 추가적인 정보를 제공할 수 있는 특징벡터를 추출하는 기술로 구성되어 있었으며, 이외에 분류모델로써의 DNN의 학습 과정, 구조적인 특성 및 가중치행렬과 바이어스 파라미터를 이용한 adaptation 기술들을 알아보았다. DNN 기반의 음향모델링은 성능을 고도화하기 위하여 특징공간 적응과 모델 파라미터공간 적응 기술들을 함께 사용하는 추세이며, 이 글에서 다루지 않은 convolutional neural network (CNN)[10]나 recurrent neural network (RNN)[20] 기반의 음향모델 또는 end-to-end 프레임워크[21]에서의 adaptation 기술에 대한 연구도 활발하게 진행될 것을 기대해 볼 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	딥러닝 기반 모델의 가장 큰 강점은 무엇인가?	빅데이터 시대의 도래, 컴퓨팅 파워의 발전 및 깊은 신경망 (deep neural network; DNN)의 학습을 가능하게 하는 학습 알고리즘의 개발과 함께 등장한 딥러닝은 음성인식[1], 영상인식[2], 자연어 처리[3], 문자열 예측[4] 등 다양한 분야에서 뛰어난 성능을 나타내고 있다. 딥러닝 기반 모델의 가장 큰 강점은 입력데이터에 가해지는 연속한 비선형변환을 통한 특징벡터 추출 및 합성으로 기존의 얕은 모델로는 표현할 수 없는 복잡한 특징공간에 대한 강력한 모델링 커패시티일 것이다. 그러나, 테스트 환경에서 학습시에 관측되지 않은 데이터 분포가 입력될 경우 딥러닝 모델은 일반화 능력의 부족으로 인해 성능이 하락하는 경우가 발생할 수 있다.
	VTLN이란 무엇인가?	VTLN은 화자의 연령대와 성별에 따라 다른 성도(vocal tract)의 모양과 길이로 인해 다양한 음향학적 특성을 보이는 음성신호를 노말라이즈하여 서로 다른 화자의 음성신호로부터 추출한 특징벡터들이 가지는 다양한 화자 특성에 기인한 다양성을 줄이는 방법이다. VTLN은 음성신호로부터 특징벡터를 추출하기 전 음성신호의 주파수 도메인 표현에서의 frequency warping을 통해 이루어지며, 서로 다른 화자별 warping factor를 추정하는 방법으로써 기존의 GMM-HMM 기반 음향모델을 warped domain에서 추출한 특징벡터들의 우도를 최대화하도록 학습하는 과정을 필요로 한다.
	딥러닝 기반 모델은 테스트 환경에서 어떤 문제가 발생할 수 있는가?	딥러닝 기반 모델의 가장 큰 강점은 입력데이터에 가해지는 연속한 비선형변환을 통한 특징벡터 추출 및 합성으로 기존의 얕은 모델로는 표현할 수 없는 복잡한 특징공간에 대한 강력한 모델링 커패시티일 것이다. 그러나, 테스트 환경에서 학습시에 관측되지 않은 데이터 분포가 입력될 경우 딥러닝 모델은 일반화 능력의 부족으로 인해 성능이 하락하는 경우가 발생할 수 있다. 딥러닝 모델의 adaptation은 이처럼 테스트 환경에서 관측되는 특정 데이터 분포에 대한 모델의 성능을 향상시키기 위해 일부 데이터를 이용하여 모델을 적응적으로 추가 학습시키는 방법이다.

참고문헌 (21)

Dahl, George E., et al. "Context-dependent pretrained deep neural networks for large-vocabulary speech recognition." IEEE Transactions on Audio, Speech, and Language Processing 20.1 (2012): 30-42.

상세보기
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
Mikolov, T. and J. Dean. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems (2013).
Graves, Alex. "Generating sequences with recurrent neural networks." arXiv preprint arXiv:1308.0850 (2013).
Rabiner, Lawrence R. "A tutorial on hidden Markov models and selected applications in speech recognition." Proceedings of the IEEE 77.2 (1989): 257-286.

상세보기
Serizel, Romain, and Diego Giuliani. "Vocal tract length normalisation approaches to DNN-based children's and adults' speech recognition." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014.
Leggetter, Christopher J., and Philip C. Woodland. "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models." Computer Speech & Language, 9.2 (1995): 171-185.

상세보기
Parthasarathi, Sree Hari Krishnan, et al. "fMLLR based feature-space speaker adaptation of DNN acoustic models." Sixteenth Annual Conference of the International Speech Communication Association. 2015.
Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.

상세보기
Miao, Yajie, Hao Zhang, and Florian Metze. "Speaker adaptive training of deep neural network acoustic models using i-vectors." IEEE/ACM Transactions on Audio, Speech, and Language Processing 23.11 (2015): 1938-1949.

상세보기
Yao, Kaisheng, et al. "Adaptation of contextdependent deep neural networks for automatic speech recognition." Spoken Language Technology Workshop (SLT), 2012 IEEE. IEEE, 2012.
Swietojanski, Pawel, and Steve Renals. "Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014.
Price, Ryan, Ken-ichi Iso, and Koichi Shinoda. "Speaker adaptation of deep neural networks using a hierarchy of output layers." Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, 2014.
Yu, Dong, et al. "KL-divergence regularized deep neural network adaptation for improved large vocabulary speech recognition." 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013.
Albesano, Dario, et al. "Adaptation of artificial neural networks avoiding catastrophic forgetting." The 2006 IEEE International Joint Conference on Neural Network Proceedings. IEEE, 2006.
Bell, Peter, and Steve Renals. "Regularization of context-dependent deep neural networks with context-independent multi-task training." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015.
Huang, Zhen, et al. "Rapid adaptation for deep neural networks through multi-task learning." Proc. Interspeech. 2015.
Xue, Jian, et al. "Singular value decomposition based low-footprint speaker adaptation and personalization for deep neural network." 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.
Zhang, C., and P. C. Woodland. "DNN speaker adaptation using parameterised sigmoid and ReLU hidden activation functions." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.
Miao, Yajie, and Florian Metze. "On speaker adaptation of long short-term memory recurrent neural networks." Sixteenth Annual Conference of the International Speech Communication Association (INTERSPEECH)(To Appear). ISCA. 2015.
Graves, Alex, and Navdeep Jaitly. "Towards End-To-End Speech Recognition with Recurrent Neural Networks." ICML. Vol. 14. 2014.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증