[논문]효과적인 2차 최적화 적용을 위한 Minibatch 단위 DNN 훈련 관점에서의 CNN 구현

송화전; 정호영; 박전규

doi:10.13064/ksss.2016.8.2.023

효과적인 2차 최적화 적용을 위한 Minibatch 단위 DNN 훈련 관점에서의 CNN 구현
Implementation of CNN in the view of mini-batch DNN training for efficient second order optimization 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.8 no.2, 2016년, pp.23 - 30

송화전 (한국전자통신연구원) , 정호영 (한국전자통신연구원 음성처리연구실) , 박전규 (한국전자통신연구원 음성처리연구실)

Abstract ▼ AI-Helper

This paper describes some implementation schemes of CNN in view of mini-batch DNN training for efficient second order optimization. This uses same procedure updating parameters of DNN to train parameters of CNN by simply arranging an input image as a sequence of local patches, which is actually equivalent with mini-batch DNN training. Through this conversion, second order optimization providing higher performance can be simply conducted to train the parameters of CNN. In both results of image recognition on MNIST DB and syllable automatic speech recognition, our proposed scheme for CNN implementation shows better performance than one based on DNN.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 컨벌루션 층에서 EBP 알고리즘을 수행할 때 컨벌루션 과정을 수행해야 하므로 계산적인 측면에서는 식(1)보다 훨씬 비효율적이며 이로 인해 훈련시간이 DNN보다 상당히 길어지게 된다. 따라서 본 논문에서는 이러한 CNN에서 컨벌루션의 비효율성을 극복하기 위해 DNN을 활용하여 보다 쉽게 CNN을 구현하고 이를 더 심도 깊게 활용하고자 하였다.
그러나 CNN의 경우는 특징추출의 관점에서는 LSTM-RNN보다는 좀 더 직관적인 해석을 제공하며 음성신호에 대해서도 CNN을 통해 훈련된 모델 파라미터에 대한 분석이 어느 정도 가능하다. 따라서 본 논문에서도 기 개발된 DNN 기반 음성인식기의 하위층(Layer)에 보다 다양한 특징 추출 능력을 부여하기 위해 CNN 모듈을 개발하여 적용하고자 하였다.
또한 CNN에서 사용되는 maxpooling 구조도 3차원 형태에서 2차원 maxout 구조로 변경이 가능하여 계산 효율성을 높일 수 있다. 본 논문에서는 CNN과 관련된 수식을 사용해 상세하게 서술하는 대신 그림을 사용하여 CNN과 DNN 사이에 변환 관계를 도식적으로 설명하고자 한다.

제안 방법

사용한 음절수는 한국어에 나타날 수 있는 음절 중 화자가 실제로 구별해서 발성할 수 있는 것으로 제한하여 총 1756의 단음절로 구성되도록 하였다. DNN-HMM을 훈련하기 위해 먼저 총 1136 개의 공유 상태(tied state)를 가지는 triphone 기반 GMM-HMM을 베이스라인 시스템으로 구성하였다. GMM 훈련에는 39차 MFCC를 사용하였다.
또한 풀링 크기는 2 × 1을 사용하였다. DNN과 CNN 파라미터 훈련은 총 10 개의 서버를 사용하여 분산 처리를 수행하였으며, 모두 NG 방법을 적용하였다. 사용한 GPU는 GTX 980계열이며 한번 epoch을 수행하는 데 소요된 시간은 DNN의 경우는 대략 13분 정도이고 CNN의 경우는 대략 20분 정도이다.
DNN과 CNN을 훈련하기 위해 총 40차의 필터 뱅크(Filterbank) 출력값을 특징으로 사용하였고, 문맥 창(context window) 크기는 15 프레임(frame)을사용하여 총 600차의 입력데이터를 구성하였다. DNN은 4개의 은닉 층과 하나의 출력 층으로 구성하였고, CNN은 하나의 컨벌 루션 및 풀링 층과 총 2개의 은닉층, 1개의 출력층으로 구성하였다. 모든 은닉층의 노드 수는 1024개를 사용하였고 출력 노드 수는 공유 상태수와 동일한 1136개이다.
구성된 GMM-HMM을 사용하여 강제 정렬을 통해 DNN을 훈련을 위한 상태 레이블(label) 정보를 얻었다. DNN과 CNN을 훈련하기 위해 총 40차의 필터 뱅크(Filterbank) 출력값을 특징으로 사용하였고, 문맥 창(context window) 크기는 15 프레임(frame)을사용하여 총 600차의 입력데이터를 구성하였다.
본 논문에서 설명한 MIM 관점 CNN은 기개발한 ESTkDNN Toolkit[11]에 포함되었으며, 기존의 DNN 훈련 및 인식을 위해 구현한 모듈을 그대로 사용하고 단지 에서 설명한 몇몇 데이터 구조 변경 함수만을 추가하여 본 논문에서 수행한 모든 훈련과 평가를 수행하였다.
또한 최근 Google에서 배포된 Tensorflow[13]에서 MNIST DB에 대한 CNN 기본 예제를 제공하고 있어 쉽게 성능을 평가할수 있다. 본 논문에서도 Tensorflow에서 제공한 CNN 구조와 동일한 형태를 사용하여 MNIST DB에 대한 평가를 수행하였으며, 총 epoch 수는 20번으로 제한하였다.
본 논문에서도 개발한 CNN에 대해 대용량 데이터 기반 분산 훈련방법을 사용하였으며, MIM 관점을 통해 CNN이 DNN과 동일한 형태로 변환이 되므로 minibatch 단위로 NG 최적화 방법을 적용하여 보다 빠른 수렴과 성능 향상 및 효과적인 CNN 분산 훈련이 가능하도록 하였다.
훈련된 DNN 및 CNN의 파라미터 형상을 비교하기 위해 먼저 DNN의 첫 번째 은닉층 파라미터의 일부를 에 나타내 었다.

대상 데이터

구성된 GMM-HMM을 사용하여 강제 정렬을 통해 DNN을 훈련을 위한 상태 레이블(label) 정보를 얻었다. DNN과 CNN을 훈련하기 위해 총 40차의 필터 뱅크(Filterbank) 출력값을 특징으로 사용하였고, 문맥 창(context window) 크기는 15 프레임(frame)을사용하여 총 600차의 입력데이터를 구성하였다. DNN은 4개의 은닉 층과 하나의 출력 층으로 구성하였고, CNN은 하나의 컨벌 루션 및 풀링 층과 총 2개의 은닉층, 1개의 출력층으로 구성하였다.
DNN-HMM을 훈련하기 위해 먼저 총 1136 개의 공유 상태(tied state)를 가지는 triphone 기반 GMM-HMM을 베이스라인 시스템으로 구성하였다. GMM 훈련에는 39차 MFCC를 사용하였다. 평가를 위해서는 훈련에 참여하지 않은 10명의 화자가 발성한 총 1713개 발성을 사용하였다.
DNN은 4개의 은닉 층과 하나의 출력 층으로 구성하였고, CNN은 하나의 컨벌 루션 및 풀링 층과 총 2개의 은닉층, 1개의 출력층으로 구성하였다. 모든 은닉층의 노드 수는 1024개를 사용하였고 출력 노드 수는 공유 상태수와 동일한 1136개이다. 컨벌루션 층의 필터 개수는 총 300개를 사용하였고, 필터의 크기는 15 × 5 를 사용하였다.
DNN과 CNN 파라미터 훈련은 총 10 개의 서버를 사용하여 분산 처리를 수행하였으며, 모두 NG 방법을 적용하였다. 사용한 GPU는 GTX 980계열이며 한번 epoch을 수행하는 데 소요된 시간은 DNN의 경우는 대략 13분 정도이고 CNN의 경우는 대략 20분 정도이다. 여기서 음절 평가환경에 대한 총 epoch 횟수도 MNIST DB와 마찬가지로 20번으로 제한하였다.
음절 DB는 총 120여 시간 정도의 양이며 500명의 화자가 발성한 349,996 발화로 이루어져 있다. 사용한 음절수는 한국어에 나타날 수 있는 음절 중 화자가 실제로 구별해서 발성할 수 있는 것으로 제한하여 총 1756의 단음절로 구성되도록 하였다. DNN-HMM을 훈련하기 위해 먼저 총 1136 개의 공유 상태(tied state)를 가지는 triphone 기반 GMM-HMM을 베이스라인 시스템으로 구성하였다.
컨벌루션 층의 필터 개수는 총 300개를 사용하였고, 필터의 크기는 15 × 5 를 사용하였다.
GMM 훈련에는 39차 MFCC를 사용하였다. 평가를 위해서는 훈련에 참여하지 않은 10명의 화자가 발성한 총 1713개 발성을 사용하였다. 평가에 사용한 1713개 발성은 훈련시 나타난 1756 음절 중 다시 발성하기 힘든 음절은 제외한 것이고 또한 훈련용 DB와 다른 채널특성을 가지는 환경에서 수집되었다.
평가를 위해서는 훈련에 참여하지 않은 10명의 화자가 발성한 총 1713개 발성을 사용하였다. 평가에 사용한 1713개 발성은 훈련시 나타난 1756 음절 중 다시 발성하기 힘든 음절은 제외한 것이고 또한 훈련용 DB와 다른 채널특성을 가지는 환경에서 수집되었다.

이론/모형

CNN 파라미터 훈련은 DNN에서 사용되는 EBP 알고리즘을 그대로 사용한다. 그러나 컨벌루션 층에서 EBP 알고리즘을 수행할 때 컨벌루션 과정을 수행해야 하므로 계산적인 측면에서는 식(1)보다 훨씬 비효율적이며 이로 인해 훈련시간이 DNN보다 상당히 길어지게 된다.
DNN 파라미터의 기본 학습 방법은 SGD 기반 EBP 알고리즘을 사용한다. SGD를 사용할 때 최적의 학습률(learning rate)을 추정하는 것이 중요한데 1차 최적화 방법보다는 2차 최적화 방법이더 좋은 성능 및 훨씬 더 빠른 수렴 속도를 제공한다.
먼저 본 논문에서 MIM 관점으로 구현한 CNN 코드를 검증하기 위해 공개 평가환경인 MNIST DB를 사용하였다. 이는 CNN 의 기본 문헌인 [8]에서 사용한 평가 환경이다.
CNN은 다양한 특징을 추출하는 컨벌루션 층(convolutional layer; CL)과 shift-invariant 특징 추출을 위한 풀링층(pooling layer; PL)으로 이루어져 있다. 풀링 방법은 maxpooling 방법이 효과적이라 알려져 있으며 본 논문에서도 이를 사용하였다.

성능/효과

2.3절에서 설명한 것과 반대로 DNN을 MIM 관점에서 CNN 구조로 변경을 수행할 수 있다. 즉, 패치 크기가 입력데이터 차원과 동일하고(패치 개수 T=1), 은닉층의 노드 수가 필터 개수(N)가되는 CNN과 완전히 동일하다.
<표 1>에 본 논문에서 개발한 CNN에 대한 성능을 나타내었다. NG 방법을 통해 CNN 파라미터를 훈련한 경우는 Tensorflow 보다 더 높은 성능을 보였으며, 또한 [12]에 정리된 평가결과 중 입력데이터에 왜곡을 사용하지 않은 경우에 대해서만 비교한다면 거의 최상위권의 순위를 보였다. 평가에 사용된 CNN 환경은 아무런 조정을 거치지 않았고 전체 epoch 횟수도 20번 이하로 제한을 시켰으므로 기존보다 훨씬 효율적으로 훈련을 수행했음을 알 수 있다.
그러나 본 논문에서는 MIM의 해석방법을 통해 CNN과 DNN 사이에서의 차이는 단순한 입력데이터 형태의 차이만 있을 뿐 실제 구현하는 측면에서는 완전히 동일하다는 것을 명확하게 서술하였다.
이를 통해 GPU 기반 구현 시 효과적인 행렬의 곱 형태로 CNN 표현이 가능해져 계산시간을 상당히 단축시킬 수 있다. 또한 CNN에서 사용되는 maxpooling 구조도 3차원 형태에서 2차원 maxout 구조로 변경이 가능하여 계산 효율성을 높일 수 있다. 본 논문에서는 CNN과 관련된 수식을 사용해 상세하게 서술하는 대신 그림을 사용하여 CNN과 DNN 사이에 변환 관계를 도식적으로 설명하고자 한다.
본 논문은 CNN을 효과적으로 구현하기 위해 MIM 이라는 관점의 새로운 해석 방법을 사용하였으며 이를 통해 DNN과 CNN은서로 상이한 방식이 아니라 데이터 구조 변경을 통해 서로 동일한 형태로 구성될 수 있음을 보였다. 또한 이러한 해석방식을 통해 DNN 성능을 향상시키기 위한 개발된 다양한 방법과 알고리즘들을 아무런 수정 없이 CNN에 적용 가능하며, 몇몇 예제에서 성공적인 결과를 보여주었다.
본 논문은 CNN을 효과적으로 구현하기 위해 MIM 이라는 관점의 새로운 해석 방법을 사용하였으며 이를 통해 DNN과 CNN은서로 상이한 방식이 아니라 데이터 구조 변경을 통해 서로 동일한 형태로 구성될 수 있음을 보였다. 또한 이러한 해석방식을 통해 DNN 성능을 향상시키기 위한 개발된 다양한 방법과 알고리즘들을 아무런 수정 없이 CNN에 적용 가능하며, 몇몇 예제에서 성공적인 결과를 보여주었다.
본 논문에서도 개발한 CNN에 대해 대용량 데이터 기반 분산 훈련방법을 사용하였으며, MIM 관점을 통해 CNN이 DNN과 동일한 형태로 변환이 되므로 minibatch 단위로 NG 최적화 방법을 적용하여 보다 빠른 수렴과 성능 향상 및 효과적인 CNN 분산 훈련이 가능하도록 하였다. 즉, 본 논문에서 새롭게 해석한 MIM 관점 CNN은 일반 DNN과 동일하기 때문에 minibatch 단위로 DNN에서 사용 가능한 모든 훈련 알고리즘들을 쉽게 적용할수 있다.
NG 방법을 통해 CNN 파라미터를 훈련한 경우는 Tensorflow 보다 더 높은 성능을 보였으며, 또한 [12]에 정리된 평가결과 중 입력데이터에 왜곡을 사용하지 않은 경우에 대해서만 비교한다면 거의 최상위권의 순위를 보였다. 평가에 사용된 CNN 환경은 아무런 조정을 거치지 않았고 전체 epoch 횟수도 20번 이하로 제한을 시켰으므로 기존보다 훨씬 효율적으로 훈련을 수행했음을 알 수 있다.

후속연구

그러나 현재 DNN이나 CNN 구조를 아주 다양하게 구성하는데 유연하지 못한 부분이 있어 향후 그래프 구조에 기반을 두어 쉽게 DNN이나 CNN 구조를 변경시킬 수 있도록 개발된 시스템을 확대 적용할 예정이다.
요약하자면, CNN은 일반적인 DNN과 동일한 구조로 변경될 수 있으며, DNN 훈련을 위해 구현하였던 SGD(Stochastic Gradient Descent) 기반의 오류 역전파 알고리즘(Error Back-Propagation; EBP)을 수정 없이 그대로 사용하여 CNN과 관련된 파라미터를 훈련할 수 있어 본 논문에서 새롭게 접근한 해석방법을 통해 CNN을 위해 컨벌루션 연산 및 max-pooling 과정 등의 별다른 개발을 하지 않아도 된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	2차 최적화 방법으로 Natural Gradient에 기반한 방법의 장점은?	널리 사용되는 2차 최적화 방법으로 Natural Gradient(NG) 에기반한 방법[9]이 있고 이에 대한 다양한 해석과 응용이 제안되었다. 특히 [10]에서 대용량 음성 데이터를 여러 서버로 분산하여 훈련할 때 보다 효과적인 훈련을 수행하기 위해 minibatch 단위로 근사적인 NG 방법을 적용하였으며, 분산 훈련에서도 상당한 안정적인 성능 향상을 보여 주었다.
	DNN 기반 인식기의 성능을 향상시키기 위한 방법으로는?	심층 신경망(Deep Neural Network; DNN)을 이용한 음향 모델이 거의 모든 음성인식기에 기본으로 사용되는 상황에서 DNN 기반 인식기의 성능을 향상시키기 위해 CNN (Convolutional Neural Network) 및 LSTM-RNN(Long Short-Term Memory-Recurrent Neural Network) 등의 적용이 활발하게 진행되고 있다[1][2].
	CNN의 구조의 특성은?	본 논문에서 독자적으로 구현한 CNN 구현에 대한 기본 방향은 수식적인 측면에서는 [3]의 방식과 동일하지만 해석하고자 하는 측면은 완전히 다른 관점에서 접근한다. 즉, 컨벌루션 과정과 가중치 공유(weight sharing) 특성을 가지는 CNN의 구조가 일반적으로 minibatch 단위로 훈련을 수행하는 DNN과 동일하며, 이러한 접근법을 통해 기존에 개발한 DNN 학습 및 인식관련 모듈을 수정 없이 CNN을 훈련하고 인식하는데 사용하도록 하였다. 특히 CNN 모델 파라미터를 좀 더 효과적으로 추정하기 위한 2차 최적화 방법(second order optimization)도 minibatch 단위로 DNN 훈련을 위해 이미 개발한 것을 수정 없이 적용하도록 하였다.

참고문헌 (13)

Abdel-Hamid, O., Mohamed, A., Jiang, H., Deng, L., Penn, G., & Yu, D. (2014). Convolutional neural networks for speech recognition. IEEE/ACM Transactions on Audio, Speech, And Language Processing, 22(10), 1533-1545.

상세보기
Sak, H., Senior, A., & Beaufays, F. (2014). Long short-term recurrent neural network architectures for large scale acoustic modeling. Interspeech 2014 (pp. 338-342).
Chellapilla, K., Puri, S., & Simard, P. (2006). High performance convolutional neural networks for document processing. Proceedings of International Workshop on Frontiers in Handwriting Recognition.
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., & Darrell, T. (2014). Caffe: convolutional architecture for fast feature embedding. Proceedings of the 22nd ACM International Conference on Multimedia (pp. 675-678).
Chetlur, S., Woolley, C., Vandermersch, P., Cohen, J., & Tran, J. (2014). cuDNN: efficient primitives for deep learning. Retrieved from http://arxiv.org/abs/1410.0759 [Computing Research Repository] on April 15, 2016.
Ren, J. & Xu, L. (2015). On vectorization of deep convolutional neural networks for vision tasks, Proceedings of the 29th AAAI Conference on Artificial Intelligence (pp. 1840-1846).
Song, H. J., Jung, H. Y., & Park, J. G. (2015). A study of CNN training based on various filter structures and feature normalization methods. Proceedings 2015 International Conference on Speech Sciences (pp. 243-244).
Lecun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.

상세보기
Amari, S. (1998). Natural gradient works efficiently in learning. Neural Computation, 10, 251-276.

상세보기
Povey, D., Zhang, X., & Khudanpur, S. (2015). Parallel training of DNNs with natural gradient and parameter averaging. Proceedings of International Conference on Learning Representations 2015.
Song, H. J., Jung, H. Y., & Park, J. G. (2015). A study of DNN training based on various pretraining approaches. Proceedings of the 2015 Spring Conference of the Korean Society of Speech Sciences (pp. 169-170). (송화전.정호영.박전규 (2015). 다양한 Pretraining 방법에 따른 DNN 훈련 방법에 대한 고찰. 한국음성학회 2015 봄학술대회 논문집, 169-170.)
Rodrigo Benenson. (2013-2016). MNIST. Retrieved from http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html on Apil 15, 2016.
Google. (2015). Tensorflow. Retrieved from https://www.tensorflow.org/ on April 15, 2016.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증