[논문]하이브리드 드롭아웃

박종선; 이명규

doi:10.5351/kjas.2019.32.6.899

[국내논문] 하이브리드 드롭아웃
Hybrid dropout 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.6, 2019년, pp.899 - 908

초록
AI-Helper

수 많은 모수들을 가지고 있는 방대한 심층신경망은 매우 강력한 기계학습 방법이지만 모형의 과도한 융통성으로 인하여 과적합문제를 내포하고 있다. 드롭아웃 방법은 크기가 큰 신경망의 과적합 문제를 해결하는 다양한 방법들 중 하나이며 매우 효과적인 방법으로 알려져 있다. 드롭아웃 방법은 훈련과정에서 각각의 표본에 다른 모형을 적용하는데 이들 모형은 입력과 은닉층의 노드들을 무작위로 제거한 모형들 중에 임의로 선택된다. 본 연구에서는 임의로 선택된 모형에 둘 이상의 표본을 적용하여 모형의 가중치들에 대한 추정치의 안정성을 높이는 하이브리드 드롭아웃 방법을 제시하였다. 실제 자료를 이용한 시뮬레이션 결과 노드의 선택확률과 모형의 적합에 사용되는 표본의 수를 적절하게 선택하여 기존의 방법에 비하여 추정치의 변동성이 감소시킬 수 있었으며 동시에 검증자료에 대한 최저오차도 줄일 수 있음을 보였다.

Abstract ▼ AI-Helper

Massive in-depth neural networks with numerous parameters are powerful machine learning methods, but they have overfitting problems due to the excessive flexibility of the models. Dropout is one methods to overcome the problem of oversized neural networks. It is also an effective method that randomly drops input and hidden nodes from the neural network during training. Every sample is fed to a thinned network from an exponential number of different networks. In this study, instead of feeding one sample for each thinned network, two or more samples are used in fitting for one thinned network known as a Hybrid Dropout. Simulation results using real data show that the new method improves the stability of estimates and reduces the minimum error for the verification data.

Keyword

표/그림 (8)

그림 Figure 2.1. Small example of neural network with and without dropout when k = 1 and k = 3.
그림 Figure 3.1. Dropout eﬀect for MNIST with fully-connected network.
그림 Figure 3.2. Test error of MNIST for k = 1 (dropout) and hybrid dropout with k = 3 and k = 6.
그림 Figure 3.3. Training error (left plot) and Test error (right plot) of CIFAR-10 for fully-connected networks without dropout (full), with dropout (k = 1), hibrid dropout of k = 3 and k = 6.
표 Table 3.1. Minimum, average, and standard deviation (STDEV) of test errors between epoch 100 and 300 for fully-connected network and models for k = (1, 3, 6) with MNIST dataset
표 Table 3.2. Minimum, average, and standard deviation (STDEV) of test errors between epoch 100 and 300 for fully-connected network and models for k = (1, 3, 6) with CIFAR-10 dataset
표 Table 3.3. Test errors for combinations of p = (0.3, 0.5, 0.7) and k = (Full, 1, 3, 10, 20)
그림 Figure 3.4. Plots of test errors for combinations of p = (0.3, 0.5, 0.7) and k = (1, 3, 10, 20).

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

1 참고). 본 연구에서는 모형이 수렴한 상태에서도 계속되는 오차의 변동성을 완화시키기 위하여 하나의 표본에 하나의 모형을 적합시키는 대신 하나의 모형에 둘 이상의 표본을 적합하여 모수 추정치들의 안정성을 높이는 방안을 고려하였다. 잘 알려진 MNIST와 CIFAR-10자료에 대하여 적용한 결과 새로운 방법을 적용하는 경우 오차의 변동성을 완화시킬 뿐만 아니라 모형에 대한 검증오차도 더 작게 나타나는 결과를 가져왔다.
본 논문에서는 심층신경망모형에서 발생할 수 있는 과적합 현상을 방지하는 드롭아웃 방법을 사용하는 경우 모형의 모수 추정치들의 변동성이 크고 수렴과정에서 변동이 줄어들지 못하는 단점을 해결하는 방안으로 훈련과정에서 각각의 모형 적합에 둘 이상의 표본을 사용하는 방법을 제안하고 이를 하이브리드 드롭아웃이라고 하였다.

제안 방법

모의실험에서는 잘 알려진 두 종류의 이미지 자료인 MNIST자료와 CIFAR-10자료를 이용하여 기존의 드롭아웃 방법과 새롭게 제시한 하이브리드 드롭아웃 방법을 비교하였다. 드롭아웃은 다중퍼셉트론(multi-layer perceptron)구조의 완전연결신경망 뿐만 아니라 컨볼루셔널 신경망(convolutional neu-ral network)과 long short-term memory (LSTM)이나 gated recurrent unit (GRU) 등의 순환신경망(recurrent neural network) 등에도 적용이 가능하다.
드롭아웃은 다중퍼셉트론(multi-layer perceptron)구조의 완전연결신경망 뿐만 아니라 컨볼루셔널 신경망(convolutional neu-ral network)과 long short-term memory (LSTM)이나 gated recurrent unit (GRU) 등의 순환신경망(recurrent neural network) 등에도 적용이 가능하다. 모의실험에 사용한 자료들이 모두 이미지 자료들 이므로 일반적인 완전연결신경망 보다는 컨볼루셔널 신경망이 더욱 적합하나 이들을 사용하는 경우에는 검증자료에 대한 오차가 매우 작아 방법간의 차이비교가 어려워지므로 오차가 상대적으로 큰 완전연결신경망을 이용하였다.
비교를 위하여 드롭아웃을 적용하지 않은 경우와 드롭아웃을 적용한 경우 그리고 드롭아웃 방법에서 각각의 모형이 훈련에 사용하는 표본의 수를 둘 이상으로 두는 경우 검증오차의 변화를 살펴보았다. 그리고 CIFAR-10자료를 이용하여 드롭아웃에서 입력값들과 각 노드의 선택확률 p와 각각의 모형이 훈련에 사용하는 표본의 수 k값의 여러 조합에 대한 검증오차를 통하여 조율 파라미터 p와 k의 영향을 살펴보았다.
비교를 위하여 드롭아웃을 적용하지 않은 경우와 드롭아웃을 적용한 경우 그리고 드롭아웃 방법에서 각각의 모형이 훈련에 사용하는 표본의 수를 둘 이상으로 두는 경우 검증오차의 변화를 살펴보았다. 그리고 CIFAR-10자료를 이용하여 드롭아웃에서 입력값들과 각 노드의 선택확률 p와 각각의 모형이 훈련에 사용하는 표본의 수 k값의 여러 조합에 대한 검증오차를 통하여 조율 파라미터 p와 k의 영향을 살펴보았다.
MNIST와 CIFAR-10자료에 대한 결과들을 통하여 하나의 모형이 훈련과정에서 고려하는 표본의 수k가 둘 이상인 경우 검증오차가 줄어드는 효과가 있었으나 단조증가하지 않는 것으로 나타났다. 본 절에서는 CIFAR-10자료를 이용하여 검증오차에 미치는 p값과 k값의 효과를 알아보기 위하여 p =(0.3, 0.5, 0.7)의 세가지 경우와 k = (1, 3, 10, 20)의 네가지 경우의 조합들에 대하여 간단한 시뮬레이션을 수행하였다. 사용된 신경망 구조와 기타 조율 파라미터들의 값은 앞 절의 CIFAR-10의 예제와 동일하게 두었다.
잘 알려진 MNIST와 CIFAR-10 이미지 자료를 일반적인 완전신경망모형을 사용하여 새로운 방법과 기존의 드롭아웃 방법을 적용한 결과 새로운 방법을 적용하면 기존의 드롭아웃 방법의 단점인 추정치의 변동성과 수렴과정에서 변동이 감소하지 못하는 단점을 완화시키고 더 나아가 검증자료에 대한 예측력도 높아지는 것을 확인하였다. CIFAR-10자료를 이용하여 각각의 모형 적합에 사용되는 표본수 k와 입력 및 은닉층의 노드 선택확률 p의 조합이 모형의 적합 특히 예측오차에 미치는 영향을 살펴보았다. 우선 k의 경우 모든 선택확률에서 예측오차가 k값에 따라 단조증가하지 않아 격자 탐색(grid search) 등을 통하여 적절할 값을 선택할 필요가 있음을 알았다.

대상 데이터

1에 모의실험에서 사용한 MNIST자료에 드롭아웃을 사용하지 않은 모형과 사용한 모형을 적용한 결과 훈련자료와 검증자료의 오차그림이 포함되어 있다. 사용된 모형은 완전연결신경망 모형이며 2개의 은닉층과 각각의 은닉층에 2,048개의 노드를 포함하고 있다. 드롭아웃을 적용하지 않은 경우 훈련자료에 대한 오차는 에포크 100에서 0의 값으로 학습이 더 이상 진행되지 못하여 검증자료의 오차 또한 1.
자료의 적합에는 은닉층이 2개 또는 3개이고 각각의 은닉층에 2,048개씩의 노드들을 포함하는 완전연결신경망 모형에 은닉층의 활성함수는 정류선형유닛을 사용하였다. 기타 조율 파라미터들의 값으로 학습률(learning rate)은 0.
두 번째로 고려한 CIFAR-10 자료는 10개의 서로 다른 객체들로 구성되어 있는 32×32×3 차원의 색상 이미지 자료로 훈련을 위한 50,000개의 훈련자료와 10,000개의 검증자료로 이루어져 있다.

이론/모형

모든 분석은 구글에서 제공하는 Colab환경에서 텐서플로우(Tensorflow; https://tensorflow.org)패키지를 사용하여 수행하였다.
자료의 적합에는 은닉층이 2개 또는 3개이고 각각의 은닉층에 2,048개씩의 노드들을 포함하는 완전연결신경망 모형에 은닉층의 활성함수는 정류선형유닛을 사용하였다. 기타 조율 파라미터들의 값으로 학습률(learning rate)은 0.001로 두었고 초기값은 Xavier 초기값 (Glorot과 Bengio, 2010)을, 손실함수(loss function)는 교차-엔트로피(cross-entropy)를 사용하였다. 또한, 모든 드롭아웃 과정에서의 선택비율 p는 일반적인 경우 최적값으로 알려진 0.
색상 이미지 자료는 RGB (red, green, blue) 3개의 채널(자료의 세 번째 차원)로 구성되어 있으며 사용된 모형의 입력에 적합하도록 Luma 코딩 방법(luma = 0.2126 × R + 0.7153 × G + 0.0722 × B)을 적용하여 회색 조(grayscale)로 변환한 후 벡터화하여 사용하였다.

성능/효과

본 연구에서는 모형이 수렴한 상태에서도 계속되는 오차의 변동성을 완화시키기 위하여 하나의 표본에 하나의 모형을 적합시키는 대신 하나의 모형에 둘 이상의 표본을 적합하여 모수 추정치들의 안정성을 높이는 방안을 고려하였다. 잘 알려진 MNIST와 CIFAR-10자료에 대하여 적용한 결과 새로운 방법을 적용하는 경우 오차의 변동성을 완화시킬 뿐만 아니라 모형에 대한 검증오차도 더 작게 나타나는 결과를 가져왔다.
이러한 단점을 완화시키는 방법으로 하나의 모형에 하나의 표본을 적합하는 대신 둘 이상의 표본을 적합하도록 하여 추정치의 변동성을 줄이는 방법을 생각할 수 있다. 이를 통하여 가중치들의 추정치에 대한 변동성을 줄임과 동시에 모형의 안정성을 높혀 궁극적으로 수렴속도에 개선을 가져올 수 있으며 모의실험에서 사용한 자료들의 경우에는 검증자료에 대한 오차도 줄어드는 결과를 가져왔다.
1에는 에포크 100에서 300사이의 검증오차들의 최소값과 평균값, 그리고 표준편차값이 포함되어 있다. 그래프와 표의 결과에서 드롭아웃 방법이나 하이브리드 방법을 적용하는 경우 완전연결신경망에 비하여 검증오차가 더 작았으며 오차의 변동은 k = 3인 하이브리드 모형에서 가장 작았다. 특히 k값이 3인 경우 검증오차의 최소값과 평균, 그리고 변동이 가장 작아 배치의 크기 등에 따라 k 값을 적절히 조절하면 검증오차에 대한 최적의 결과를 얻을 수 있을 것으로 판단된다.
기본적으로 모형의 검증오차가 앞의 MNIST와 달리 매우 크기 때문에 완전연결신경망모형과 기타 드롭아웃 방법들 간의 훈련오차에 큰 차이가 나타났다. 기본적인 드롭아웃 방법에 비하여 하이브리드 방법의 훈련오차가 모든 구간에서 작게 나타났으나 k = 3인 경우 에포크 50 이상에서 대부분의 경우 제일 작았으며 에포크가 진행될수록 k = 6인 경우도 k = 3인 경우와 비슷한 값으로 수렴하는 결과를 보였다. 같은 그림 오른쪽에 포함된 검증오차들의 그래프에서도 드롭아웃이나 하이브리드 방법들에서는 훈련자료에 대한 오차의 그래프와 비슷한 양상을 보였으며 k = 3인 경우 오차의 크기가 가장 작으면서 동시에 변동도 일반적인 드롭아웃 및 다른 k값들의 경우보다 작았다.
같은 그림 오른쪽에 포함된 검증오차들의 그래프에서도 드롭아웃이나 하이브리드 방법들에서는 훈련자료에 대한 오차의 그래프와 비슷한 양상을 보였으며 k = 3인 경우 오차의 크기가 가장 작으면서 동시에 변동도 일반적인 드롭아웃 및 다른 k값들의 경우보다 작았다. 검증오차의 최소값은 k = 3인 경우 52.8% 였으나기존의 드롭아웃 방법의 최소값 54.49%에 비하여 감소폭이 크지 않아 평균적인 검증오차의 크기와 관계없이 효과는 한정되게 나타나는 것으로 보인다. Table 3.
2에는 앞의 MNIST 자료에서와 같이 에포크 100에서 300사이의 검증오차들의 최소값과 평균값, 그리고 표준편차값이 포함되어 있다. 이 자료에서도 드롭아웃 방법이나 하이브리드 방법을 적용하는 경우 완전연결신경망에 비하여 검증오차가 더 작았으며 오차의 변동 또한 k = 3인 하이브리드 모형에서 가장 작았으나 상대적인 크기는 크지 않았다.
MNIST와 CIFAR-10자료에 대한 결과들을 통하여 하나의 모형이 훈련과정에서 고려하는 표본의 수k가 둘 이상인 경우 검증오차가 줄어드는 효과가 있었으나 단조증가하지 않는 것으로 나타났다. 본 절에서는 CIFAR-10자료를 이용하여 검증오차에 미치는 p값과 k값의 효과를 알아보기 위하여 p =(0.
4에는 p와 k의 조합들에 해당하는 예측오차와 드롭아웃 방법들을 적용하지 않은 완전연결신경망모형의 예측오차의 플롯을 포함하고 있다. 기존의 드롭아웃 방법이나 하이브리드 방법을 적용한 모든 경우 과적합현상은 발생하지 않았으나 p = 0.3인 경우 모든 k 값에서 검증오차가 완전연결모형의 오차값보다 크게 나타났으며 평균적으로 모형의 크기가 완전연결모형의 70% 정도가 되는 p = 0.7인 경우 다른 경우와 비교하여 수렴속도가 매우 빨라 드롭아웃을 사용하지 않은 경우와 비슷하게 국소최소값(local minima)으로 수렴할 위험이 커질 수 있는 것으로 판단된다. 추가적으로 p = 0.
7인 경우 다른 경우와 비교하여 수렴속도가 매우 빨라 드롭아웃을 사용하지 않은 경우와 비슷하게 국소최소값(local minima)으로 수렴할 위험이 커질 수 있는 것으로 판단된다. 추가적으로 p = 0.7인 경우 k = 20인 경우를 제외하고 모든 경우에서 검증오차의 최소값은 53%를 넘지 않았으나 오차의 변동이 크고 안정적으로 수렴하지 못하는 현상을 관찰할 수 있었으며 오차값도 p = 0.5인 경우와 비교하여 상대적으로 큰 값들이 자주 나타났다. Table 3.
5이고 k = 3인 경우 예측오차의 최소값이 가장 작았으며 같은 k값에서 p가 어느 정도 큰 값을 가져도 예측오차에 큰 변화는 없었다. 결과적으로 두 파리미터의 값에 따라 모형의 수렴 특성과 최소 예측오차가 영향을 받는 것으로 나타났다.
잘 알려진 MNIST와 CIFAR-10 이미지 자료를 일반적인 완전신경망모형을 사용하여 새로운 방법과 기존의 드롭아웃 방법을 적용한 결과 새로운 방법을 적용하면 기존의 드롭아웃 방법의 단점인 추정치의 변동성과 수렴과정에서 변동이 감소하지 못하는 단점을 완화시키고 더 나아가 검증자료에 대한 예측력도 높아지는 것을 확인하였다. CIFAR-10자료를 이용하여 각각의 모형 적합에 사용되는 표본수 k와 입력 및 은닉층의 노드 선택확률 p의 조합이 모형의 적합 특히 예측오차에 미치는 영향을 살펴보았다.

후속연구

7인 경우) 드롭아웃을 사용하지 않은 경우과 같이 훈련자료에 대한 오차가 급격히 줄어들어 과적합 현상이 나타나는 것을 알 수 있었다. p와 k의 조합이 미치는 영향에 대한 상세한 정보를 얻으려면 추가적인 모의실험이 필요하다고 하겠다.
이는 하나 또는 k개의 표본마다 적합되는 모형이 동일하지 않아 가중치의 추정치 변동이 심하여 발생하는 것으로 짐작할 수 있으며 이러한 현상을 줄여 모형의 예측오차 변동성을 줄이는 방법으로 가중치의 추정치를 구하는 과정에서 미니배치안의 표본들에 대한 평균을 계산하기 전에 실제 모형의 p값을 각 표본의 가중치에 곱한 값을 사용하는 것을 생각할 수 있을 것이다. 완전연결신경망 이외에 이미지 자료에 적합한 컨볼루셔널 신경망 등을 적용하는 경우 다른 결과가 나타날 수도 있어 이에 대한 추가적인 연구도 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	공적응이란?	Hinton 등 (2012)에 의하여 소개된 드롭아웃방법 (Srivastava, 2013; Srivastava 등, 2014)은 각각의 표본마다 다른 모형을 학습시켜 융통성이 큰 모형이 갖는 단점 중 하나인 공적응을 방지하기 위하여 고안되었다. 과도한 융통성을 갖는 모형은 적절하게 행동하지 못하는 노드가 있는 경우에도 다른 노드(node)들의 도움으로 참의 모형과 비슷한 수준의 예측이 가능하게 되는데 이를 공적응이라고 한다. 이러한 현상의 발생을 방지하는 방법으로 모든 표본의 학습시에 동일한 모형을 사용하는 대신 표본이 바뀔 때마다 다른 모형을 적합하도록 하는 것이 드롭아웃이다.
	심층신경망모형의 단점은?	수많은 모수들을 포함하는 심층신경망모형(deep neural network model)은 강력한 기계학습 시스템을 구현할 수 있다. 그러나 모형의 과도한 융통성으로 인하여 훈련자료(training dataset)에 대한 적합도가 높음에도 훈련자료 크기의 한계로 인한 공적응(co-adaptation)이 발생하게 되며 결과적으로 훈련자료에 대한 오차에 비하여 검증자료(testing dataset)에 대한 예측력이 상대적으로 떨어지는 과적합(overfitting)문제를 내포하고 있다.
	드롭아웃이란?	과도한 융통성을 갖는 모형은 적절하게 행동하지 못하는 노드가 있는 경우에도 다른 노드(node)들의 도움으로 참의 모형과 비슷한 수준의 예측이 가능하게 되는데 이를 공적응이라고 한다. 이러한 현상의 발생을 방지하는 방법으로 모든 표본의 학습시에 동일한 모형을 사용하는 대신 표본이 바뀔 때마다 다른 모형을 적합하도록 하는 것이 드롭아웃이다. 드롭아웃 방법은 모든 표본이 동일한모형을 사용하지 못하도록 각각의 표본이 사용할 모형을 선택할 때 모형에 포함된 노드 또는 활성함수(activation function)들을 무작위로 선택하게 된다.

참고문헌 (10)

Glorot, X. and Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS) 2010, Chia Laguna Resort, Sardinia, Italy. Volume 9 of JMLR: W&CP 9.
Helmbold, D. and Long, P. (2017). Surprising properties of dropout in deep networks, Proceedings of Machine Learning Research, 65, 1-24.
Hinton, G., Srivastava, N., Krizhevsky, A., Sutskever, I. and Salakhutdinov, R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. http://arxiv.org/abs/1207.0580.
Ioffe, S. and Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Proceeding ICML'15 Proceedings of the 32nd International Conference on International Conference on Machine Learning, 37, 448-456.
Nowlan, S. and Hinton, G. (1992). Simplifying neural networks by soft weight-sharing, Neural Computation, 4, 473-493.

상세보기
Salakhutdinov, R. and Mnih, A. (2008). Bayesian probabilistic matrix factorization using Markov chain Monte Carlo, In Proceedings of the 25th International Conference on Machine Learning, ACM.
Srivastava, N. (2013). Improving Neural Networks with Dropout. Master's thesis, University of Toronto.
Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. and Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting, Journal of Machine Learning Research, 15, 1929-1958.
Wan, L., Zeiler, M., Zhang, S., Cun, Y. and Fergus, R. (2013). Regularization of neural networks using DropConnect, Proceedings of the 30th International Conference on Machine Learning, 28, 1058-1066.
Xiong, H., Barash, Y. and Frey, B. (2011). Bayesian prediction of tissue-regulated splicing using RNA sequence and cellular context, Bioinformatics, 27, 2554-2562.

상세보기

저자의 다른 논문 :

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증