[논문]깊은 신경망 기반의 전이학습을 이용한 사운드 이벤트 분류

임형준; 김명종; 김회린

doi:10.7776/ask.2016.35.2.143

깊은 신경망 기반의 전이학습을 이용한 사운드 이벤트 분류
Sound event classification using deep neural network based transfer learning 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.35 no.2, 2016년, pp.143 - 148

임형준 (한국과학기술원 전기및전자공학부) , 김명종 (한국과학기술원 전기및전자공학부) , 김회린 (한국과학기술원 전기및전자공학부)

초록
AI-Helper

깊은 신경망은 데이터의 특성을 효과적으로 나타낼 수 있는 방법으로 최근 많은 응용 분야에서 활용되고 있다. 하지만, 제한적인 양의 데이터베이스는 깊은 신경망을 훈련하는 과정에서 과적합 문제를 야기할 수 있다. 본 논문에서는 풍부한 양의 음성 혹은 음악 데이터를 이용한 전이학습을 통해 제한적인 양의 사운드 이벤트에 대한 깊은 신경망을 효과적으로 훈련하는 방법을 제안한다. 일련의 실험을 통해 제안하는 방법이 적은 양의 사운드 이벤트 데이터만으로 훈련된 깊은 신경망에 비해 현저한 성능 향상이 있음을 확인하였다.

Abstract ▼ AI-Helper

Deep neural network that effectively capture the characteristics of data has been widely used in various applications. However, the amount of sound database is often insufficient for learning the deep neural network properly, so resulting in overfitting problems. In this paper, we propose a transfer learning framework that can effectively train the deep neural network even with insufficient sound event data by employing rich speech or music data. A series of experimental results verify that proposed method performs significantly better than the baseline deep neural network that was trained only with small sound event data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 적은 양의 사운드 이벤트의 음향 모델 훈련을 위한 방법으로 음성을 이용한 깊은 신경망 기반의 전이학습을 제안하였다. 음성과 사운드의 유사점을 바탕으로 음성으로부터 훈련된 깊은 신경망을 초기 모델로 하여 사운드 이벤트에 대한 음향모델을 훈련하였다.

가설 설정

이와 같은 결과는 전이학습에 사용된 소스 데이터와 타겟 데이터 사이의 유사도에서 그 이유를 찾을 수 있다. 음성 및 음악과 사운드 사이의 유사도는 교차-언어 전이학습에서 사용되는 서로 다른 나라의 음성들 사이의 유사도에 비해 낮다. 그렇기 때문에 음성 및 음악으로부터 훈련된 모델을 전이하는 과정에서 하위 계층들도 함께 훈련하여 사운드의 특성을 좀 더 반영할 때 보다 좋은 성능을 나타낸 것으로 해석된다.

제안 방법

본 논문에서는 적은 양의 사운드 이벤트의 음향 모델 훈련을 위한 방법으로 음성을 이용한 깊은 신경망 기반의 전이학습을 제안하였다. 음성과 사운드의 유사점을 바탕으로 음성으로부터 훈련된 깊은 신경망을 초기 모델로 하여 사운드 이벤트에 대한 음향모델을 훈련하였다. 제안하는 방법에 대한 성능 평가를 위해 사운드 이벤트 분류 실험에서의 오류율을 측정하였으며, 제안하는 방법은 기준 실험인 사운드 이벤트 데이터만으로 훈련된 깊은 신경망에 비해 20 % 이상의 상대적인 오류율 감소를 보였다.
전이학습에 대한 성능을 평가하기 위해, 3.1절에서 언급했던 음성 및 음악 데이터베이스로 훈련된 DBN을이용하여 사운드 이벤트에 대한 깊은 신경망을 훈련하였다. 모든 실험에서는 6개의 은닉 계층을 갖는 깊은 신경망을 사용했으며, 은닉 노드의 수는 512개에서 부터 2,048개 까지 증가시켰다.
전이학습의 효과를 비교하기 위한 기준 실험으로 RWCP 데이터베이스만을 이용하여 훈련된 깊은 신경망의 사운드 이벤트 분류 성능을 측정하였다.
1에서와 같은 음성 및 음악으로부터 사운드로의 전이학습 방법을 제안한다. 제안하는 방법은 레이블 정보가 없는 음성 및 음악 데이터를 이용하여 훈련된 초기 깊은 신경망 모델을 사운드 이벤트 데이터를 이용하여 훈련하는 과정으로 이루어진다. 제안하는 방법에 대한 효과성을 입증하기 위해 사운드 이벤트 분류 실험을 수행하였으며, 음성 및 음악으로부터의 전이학습으로 훈련된 사운드 이벤트에 대한 음향 모델과 사운드 이벤트 데이터만으로 훈련된 음향 모델 사이의 성능을 비교하였다.

대상 데이터

총 100개의 사운드 이벤트 클래스로 구성된 이 데이터베이스는 두 물체 사이의 충돌, 기체의 분사, 종이 찢는 소리, 악기 소리, 전화벨 소리 등과 같은 다양한 종류의 사운드 소스와 그들 사이의 상호 작용으로 구성되어 있으며, 본 논문에서는 이들 중 50개의 사운드 이벤트를 사용하였다. 각 클래스는 100개의 사운드 클립으로 구성되었으며, 실험에서는 훈련과 테스트에 각각 70개와 30개의 사운드 클립을 사용하였다. 총 1시간 정도의 분량을 갖는 데이터베이스의 사운드들은 평균 1 s 정도의 짧은 길이로 이루어져 있다.
의 SItraining 데이터베이스를 사용하였다. 또한 음악 데이터베이스로는 블루스, 클래식, 컨츄리, 디스코, 힙합, 재즈, 메탈, 팝, 레게, 락의 총 10개 장르로 구성된 GTZAN^[14]데이터베이스를 사용하였으며, Table 1에는 앞서 언급한 세 종류의 데이터베이스의 구성을 정리하였다.
1절에서 언급했던 음성 및 음악 데이터베이스로 훈련된 DBN을이용하여 사운드 이벤트에 대한 깊은 신경망을 훈련하였다. 모든 실험에서는 6개의 은닉 계층을 갖는 깊은 신경망을 사용했으며, 은닉 노드의 수는 512개에서 부터 2,048개 까지 증가시켰다.
본 논문에서 제안하는 깊은 신경망 기반의 전이학습의 성능 평가를 위해 RWCP(Real World Computing Partnership)^[12]사운드 이벤트 데이터베이스를 사용하였다. 총 100개의 사운드 이벤트 클래스로 구성된 이 데이터베이스는 두 물체 사이의 충돌, 기체의 분사, 종이 찢는 소리, 악기 소리, 전화벨 소리 등과 같은 다양한 종류의 사운드 소스와 그들 사이의 상호 작용으로 구성되어 있으며, 본 논문에서는 이들 중 50개의 사운드 이벤트를 사용하였다.
전이학습을 위한 음성 데이터베이스로는 영어 낭독체로 구성된 DARPA(Defense Advanced Research Projects Agency) RM(Resource Management)^[13]의 SItraining 데이터베이스를 사용하였다. 또한 음악 데이터베이스로는 블루스, 클래식, 컨츄리, 디스코, 힙합, 재즈, 메탈, 팝, 레게, 락의 총 10개 장르로 구성된 GTZAN^[14]데이터베이스를 사용하였으며, Table 1에는 앞서 언급한 세 종류의 데이터베이스의 구성을 정리하였다.
사운드 이벤트 데이터베이스를 사용하였다. 총 100개의 사운드 이벤트 클래스로 구성된 이 데이터베이스는 두 물체 사이의 충돌, 기체의 분사, 종이 찢는 소리, 악기 소리, 전화벨 소리 등과 같은 다양한 종류의 사운드 소스와 그들 사이의 상호 작용으로 구성되어 있으며, 본 논문에서는 이들 중 50개의 사운드 이벤트를 사용하였다. 각 클래스는 100개의 사운드 클립으로 구성되었으며, 실험에서는 훈련과 테스트에 각각 70개와 30개의 사운드 클립을 사용하였다.

데이터처리

제안하는 방법은 레이블 정보가 없는 음성 및 음악 데이터를 이용하여 훈련된 초기 깊은 신경망 모델을 사운드 이벤트 데이터를 이용하여 훈련하는 과정으로 이루어진다. 제안하는 방법에 대한 효과성을 입증하기 위해 사운드 이벤트 분류 실험을 수행하였으며, 음성 및 음악으로부터의 전이학습으로 훈련된 사운드 이벤트에 대한 음향 모델과 사운드 이벤트 데이터만으로 훈련된 음향 모델 사이의 성능을 비교하였다.

이론/모형

먼저 계층 단위의 RBM(Restricted Boltzmann Machine) 을 훈련하여 깊은 신경망에 대한 초기 모델인 DBN (Deep Belief Network)을 생성하였다. DBN의 첫번째 계층은 실수 값의 입력을 위해 일반적으로 사용되는 GBRBM(Gaussian-Bernoulli RBM)을 사용하였으며, 나머지 계층은 BBRBM(Bernoulli-Bernoulli RBM)을 사용하였다. 입력으로는 13개의 연속적인 프레임에 대한 520차의 Mel-filterbank 로그 에너지를 사용하였으며 (프레임당 40차), 10 ms의 프레임 크기(50 % overlap) 를 사용하였다.
먼저 계층 단위의 RBM(Restricted Boltzmann Machine) 을 훈련하여 깊은 신경망에 대한 초기 모델인 DBN (Deep Belief Network)을 생성하였다. DBN의 첫번째 계층은 실수 값의 입력을 위해 일반적으로 사용되는 GBRBM(Gaussian-Bernoulli RBM)을 사용하였으며, 나머지 계층은 BBRBM(Bernoulli-Bernoulli RBM)을 사용하였다.
입력으로는 13개의 연속적인 프레임에 대한 520차의 Mel-filterbank 로그 에너지를 사용하였으며 (프레임당 40차), 10 ms의 프레임 크기(50 % overlap) 를 사용하였다. 이렇게 훈련된 DBN의 최상위 계층에 소프트맥스 계층을 덧붙인 다음 오류 역전사 방법을 이용하여 미세조정을 수행하였다. 실험에 사용된 학습율 미니배치의 크기와 같은 모수(parameter)는^[15]에서 사용한 기본 값을 사용하였다.

성능/효과

3에는 frozen 계층의 수에 따른 전이학습의 성능을 나타내었는데, 여기서 frozen 계층의 수가 0개라는 것은 통상적인 깊은 신경망에서와 같이 모든 은닉 계층을 미세조정 과정에서 훈련한 것을 의미한다. 결과에서 보듯이 frozen 계층의 수를 감소 시킬수록 분류 오류율이 감소하는 모습을 보였으며, 2개 혹은 3개의 frozen 계층을 사용하였을 때 가장 좋은 성능을 보였다. 즉, 미세조정 과정에서 보다 많은 은닉 계층을 같이 훈련할수록 좋은 성능을 보이고있는데, 이는 전이학습과 관련된 기존의 연구들^[9,17]과는 반대되는 경향성을 나타낸다.
81 %의 오류율에 비해 21 % 정도의 성능 향상을 보였다. 결과적으로 많은 양의 음성 또는 음악을 이용한 전이학습은 데이터의 양이 부족한 사운드 이벤트를 위한 깊은 신경망을 훈련할 수 있도록 하며, 이를 통해 사운드 이벤트의 특성을 잘 표현할 수 있는 음향 모델을 얻을 수 있다.
RM의 경우 은닉 노드의 수를 증가시켰을 때 성능이 향상되는 모습을 보였으나, GTZAN의 경우에는 반대의 양상을 보였다. 대부분의 경우 기준 실험에 비해 향상된 성능을 보였으며, GTZAN을 사용한 실험에서 512개의 은닉 노드로 구성된 깊은 신경망이 3.01 %의 가장 낮은 오류율을 보였다. 또한, 기준 실험에서의 가장 좋은 성능인 3.
4는 음성과 음악을 함께 이용하여 사전훈련 했을 때의 실험 결과를 나타낸다. 전체적인 경향성은 앞선 실험에서와 마찬가지로 미세조정 과정에서 소프트맥스 계층만을 훈련하는 것보다 하위의 은닉 계층을 함께 훈련하는 것이 더 좋은 성능을 보였지만, 기대와는 다르게 성능은 오히려 감소하는 모습을 보였다. 이러한 결과는 유사도가 높지 않은 음성과 음악 데이터를 함께 이용했기 때문이라고 생각할 수 있으며, 데이터베이스를 함께 사용하여 훈련을 할 때에는^[8,9]의 경우와 같이 유사도가 높은 데이터를 선정하는 것이 중요하다는 사실을 의미한다.
음성과 사운드의 유사점을 바탕으로 음성으로부터 훈련된 깊은 신경망을 초기 모델로 하여 사운드 이벤트에 대한 음향모델을 훈련하였다. 제안하는 방법에 대한 성능 평가를 위해 사운드 이벤트 분류 실험에서의 오류율을 측정하였으며, 제안하는 방법은 기준 실험인 사운드 이벤트 데이터만으로 훈련된 깊은 신경망에 비해 20 % 이상의 상대적인 오류율 감소를 보였다. 본 연구는 오디오를 이용한 보안 감시와 같이 제한적인 양의 데이터베이스를 이용한 분야에서 효과적으로 활용될 수 있을 것으로 기대된다.

후속연구

제안하는 방법에 대한 성능 평가를 위해 사운드 이벤트 분류 실험에서의 오류율을 측정하였으며, 제안하는 방법은 기준 실험인 사운드 이벤트 데이터만으로 훈련된 깊은 신경망에 비해 20 % 이상의 상대적인 오류율 감소를 보였다. 본 연구는 오디오를 이용한 보안 감시와 같이 제한적인 양의 데이터베이스를 이용한 분야에서 효과적으로 활용될 수 있을 것으로 기대된다.
음성과 음악을 결합한 데이터베이스를 이용하여 사전훈련을 수행할 때 데이터베이스의 크기와 훈련 데이터의 다양성의 증가로 추가적인 성능 향상을 기대할 수 있다. Fig.

질의응답

핵심어	질문	논문에서 추출한 답변
	깊은 신경망에서 나타나는 문제점은 무엇인가?	깊은 신경망은 딥러닝 분야의 대표적인 모델로써, 많은 양의 데이터를 바탕으로 훈련된 깊은 신경망을 이용한 모델링 방법은 데이터의 특성을 효과적으로 표현할 수 있는 방법으로 주목받고 있다. 하지만, 깊은 신경망을 훈련하기 위해서는 충분한 양의 데이터가 필요하기 때문에, 많은 양의 데이터가 확보되지 않는 상황에서는 과적합문제가 발생할 수 있다. 전이학습(transfer learning)[6,7]은 위와 같은 문제를 해결하기 위한 방법으로, 데이터의 양이 충분한 도메인으로부터 훈련된 모델을 이용하여 데이터가 적은 도메인에 대한 모델을 훈련한다.
	깊은 신경망이란 무엇인가?	깊은 신경망은 입력 계층과 출력 계층, 그리고 두개 이상의 은닉 계층들로 이루어진 다층퍼셉트론이다. 일반적으로 출력 계층은 데이터의 클래스 수에 맞게 설정된다.
	깊은 신경망의 훈련은 어떻게 이루어지는가?	일반적으로 깊은 신경망의 훈련은 두 단계로 이루어진다. 먼저, 계층 단위의 비교사 사전훈련을 통해 초기 모델을 생성하고, 오류역전사 방식을 통한 교사 미세조정을 수행한다. 사전훈련 과정을 통해 훈련된 깊은 신경망은 랜덤하게 초기화된 깊은 신경망에 비해 더 나은 초기 값을 제공하며, 효과적인 미세 조정을 가능하게 한다.

참고문헌 (16)

G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Process. Mag. 29, 82-97 (2012).
G. E. Dahl, D. Yu, L. Deng, and A. Acero, "Context-dependent pre-trained deep neural networks for large vocabulary speech recognition," IEEE Trans. Audio, Speech, and Lang. Process. 20, 33-42 (2012).
C. Weng, D. Yu, S. Watanabe, and B. H. F. Juang, "Recurrent deep neural networks for robust speech recognition," in Proc. IEEE ICASSP, 5532-5536 (2014).
Y. Lei, N. Scheffer, L. Ferrer, and M. McLaren, "A novel scheme for speaker recognition using a phonetically-aware deep neural network," in Proc. IEEE ICASSP, 1695-1699 (2014).
D. G. Romero and A. McCree, "Insight into deep neural networks for speaker recognition," in Proc. Interspeech, 1141-1145 (2015).
S. J. Pan and Q. Yang, "A survey on transfer learning," IEEE Trans. Knowl. Data Eng. 22, 1345-1359 (2010).

상세보기
L. Deng and X. Li, "Machine learning paradigms for speech recognition: An overview," IEEE Trans. Audio, Speech, Lang. Process. 21, 1060-1089 (2013).

상세보기
A. Das and M. Hasegawa-Johnson, "Cross-lingual transfer learning during supervised training in low resource scenarios," in Proc. Interspeech, 3531-3535 (2015).
J. T. Huang, J. Li, D. Yu, L. Deng, and Y. Gong, "Crosslanguage knowledge transfer using multilingual deep neural network with shared hidden layers," in Proc. IEEE ICASSP, 7304-7308 (2013).
O. Gencoglu, T. Virtanen, and H. Huttunen, "Recognition of acoustic events using deep neural networks," in Proc. IEEE European Signal Process. Conf, 506-510 (2014).
M. Espi, M. Fujimoto, K. Kinoshita, and T. Nakatani, "Feature extraction strategies in deep learning based acoustic event detection," in Proc. Interspeech, 2922-2926 (2015).
S. Nakamura, K. Hiyane, F. Asano, T. Yamada, and T. Endo, "Data collection in real acoustical environments for sound scene understanding and hands-free speech recognition," in Proc. Eurospeech, 2255-2258 (1999).
P. Price, W. M. Fisher, J. Bernstein, and D. S. Pallett, "The DARPA 1000-word resource management database for continuous speech recognition," in Proc. IEEE ICASSP, 651-654 (1988).
G. Tzanetakis and P. Cook, "Musical genre classification of audio signals," IEEE Trans. Audio, Speech and Lang. Process. 10, 293-302 (2002).

상세보기
Y. Miao, "Kaldi+PDNN: building DNN-based ASR systems with Kaldi and PDNN," arXiv:1401.6984, (2014).
J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, "How transferable are features in deep neural networks?" in Proc. Neural Inform. Process. Syst., 3320-3328 (2014).

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증