[논문]절단된 분포를 이용한 인공신경망에서의 초기값 설정방법

김민종; 조성철; 정혜린; 이영섭; 임창원

doi:10.5351/kjas.2019.32.5.693

절단된 분포를 이용한 인공신경망에서의 초기값 설정방법
Initialization by using truncated distributions in artificial neural network 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.5, 2019년, pp.693 - 702

김민종 (중앙대학교 응용통계학과) , 조성철 (중앙대학교 응용통계학과) , 정혜린 (중앙대학교 응용통계학과) , 이영섭 (동국대학교 통계학과) , 임창원 (중앙대학교 응용통계학과)

초록
AI-Helper

딥러닝은 대용량의 데이터의 분류 및 예측하는 방법으로 각광받고 있다. 데이터의 양이 많아지면서 신경망의 구조는 더 깊어 지고 있다. 이때 초기값이 지나치게 클 경우 층이 깊어 질수록 활성화 함수의 기울기가 매우 작아지는 포화(Saturation)현상이 발생한다. 이러한 포화현상은 가중치의 학습능력을 저하시키는 현상을 발생시키기 때문에 초기값의 중요성이 커지고 있다.이런 포화현상 문제를 해결하기 위해 Glorot과 Bengio (2010)과 He 등 (2015) 층과 층 사이에 데이터가 다양하게 흘러야 효율적인 신경망학습이 가능하고 주장했다. 데이터가 다양하게 흐르기 위해서는 각 층의 출력에 대한 분산과 입력에 대한 분산이 동일해야 한다고 제안했다. Glorot과 Bengio (2010)과 He 등 (2015)는 각 층별 활성화 값의 분산이 같다고 가정해 초기값을 설정하였다. 본 논문에서는 절단된 코쉬 분포와 절단된 정규분포를 활용하여 초기값을 설정하는 방안을 제안한다. 출력에 대한 분산과 입력에 대한 분산의 값을 동일하게 맞춰주고 그 값이 절단된 확률분포의 분산과 같게 적용함으로써 큰 초기값이 나오는 걸 제한하고 0에 가까운 값이 나오도록 분포를 조정하였다. 제안된 방법은 MNIST 데이터와 CIFAR-10 데이터를 DNN과 CNN 모델에 각각 적용하여 실험함으로써 기존의 초기값 설정방법보다 모델의 성능을 좋게 한다는 것을 보였다.

Abstract ▼ AI-Helper

Deep learning has gained popularity for the classification and prediction task. Neural network layers become deeper as more data becomes available. Saturation is the phenomenon that the gradient of an activation function gets closer to 0 and can happen when the value of weight is too big. Increased importance has been placed on the issue of saturation which limits the ability of weight to learn. To resolve this problem, Glorot and Bengio (Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 249-256, 2010) claimed that efficient neural network training is possible when data flows variously between layers. They argued that variance over the output of each layer and variance over input of each layer are equal. They proposed a method of initialization that the variance of the output of each layer and the variance of the input should be the same. In this paper, we propose a new method of establishing initialization by adopting truncated normal distribution and truncated cauchy distribution. We decide where to truncate the distribution while adapting the initialization method by Glorot and Bengio (2010). Variances are made over output and input equal that are then accomplished by setting variances equal to the variance of truncated distribution. It manipulates the distribution so that the initial values of weights would not grow so large and with values that simultaneously get close to zero. To compare the performance of our proposed method with existing methods, we conducted experiments on MNIST and CIFAR-10 data using DNN and CNN. Our proposed method outperformed existing methods in terms of accuracy.

주제어

표/그림 (7)

그림 Figure 2.1. Separate sigmoid linear and nonlinear region.
표 Table 2.1. Feature for popular initialization methods
그림 Figure 2.2. Diﬀerence between normal distribution and uniform distribution.
그림 Figure 2.3. Normal distribution and uniform distribution with both ends truncated.
그림 Figure 2.4. Normal distribution was truncated by standard deviation multiple.
표 Table 3.1. Result value in DNN according to initialization setting methods
표 Table 3.2. Result value in CNN according to initialization setting methods

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

하지만 절단된 분포의 자르는 위치를 정하는 방법은 없었고 임의로 적당한 위치에서 자르는 방식으로 사용되고 있다. 본 논문에서는 Glorot과 Bengio (2010)가 제안한 초기값 설정 방법을 절단된 분포에서 적용하여 절단된 분포에서 초기값을 설정하는 새로운 방법을 제안하고자 한다. 제안된 방법을 사용함으로써 절단된 분포를 사용할 때에도 포화 현상을 방지할 수 있는 초기치 설정이 가능하게 된다.
본 연구에서는 기존의 초기값 설정 방법에 대해 살펴보고 기존의 방법을 대체할 수 있는 새로운 초기값 설정 방법을 제시하였다. 기존 방법으로 많이 쓰이는 Xavier initialization 방법과 He initialization 방법을 본 논문에서 제시한 방법과 비교하였는데 DNN과 CNN을 활용한 분류 문제에서 기존 방법보다 좋은 성능을 보여줬다.
본 연구에서 사용된 비용함수는 − log P(y|x)로 negative log-likelihood 함수이다. 여기에서 P는 우리가 가진 데이터의 분포를 뜻하며, 학습데이터의 분포와 예측한 결과의 분포의 차이를 최소화하는 것을 목표로 한다. 결국 두 확률분포 사이의 차이를 측정하는 크로스 엔트로피 함수가 되며 크로스 엔트로피는 비교 대상 확률 분포의 종류를 특정하지 않는 장점이 있기 때문에 본 논문에서 사용하였다.

가설 설정

1과 같다. 초기값 설정 방법 중 많이 쓰이는 방법인 Xavier방법은 Glorot과 Bengio (2010)은 층별 활성화 값의 분산이 같다고 가정했을 때 초기값을 어떻게 설정해야 하는지를 이론적으로 유도를 하였고 유도를 하기 위해 몇 가지 가정을 세웠다: (i) 활성화 함수는 선형관계에 있다. (ii) f ′(0) = 1이다.
이때 f은 활성화 함수이다. (iii) 가중치와 활성화 함수의 평균값은 0이고 서로 독립 관계에 있다. (iv) f(x)는 원점을 지나는 함수이다.
(iv) f(x)는 원점을 지나는 함수이다. 이들이 제안한 Xavier initialization 방법론에 사용되는 기본 수식에서 sⁱ는 (i + 1)번째 층에서 활성화 함수의 입력값이며 zⁱ는 i번째 층에서 (i + 1)번째 층으로 들어가는 입력값이고 bⁱ는 편향 값을 의미하며 Xavier 방법론과 본 연구에서는 편향 값을 0으로 가정 하여 실험을 하였다. Xavier initialization 방법에서 기본 수식은 다음과 같다.

제안 방법

2장에서는 포화 현상에 대한 설명과 본 연구의 배경이 되는 초기값 설정 방법인 Xavier initialization 방법과 본 연구에서 제안하는 방법을 서술하였다. 3장에서는 절단된 분포에서 초기값 설정 방법을 MNIST (LeCun 등, 1998b) 데이터를 이용해 deep neural networks (DNN) 모델에 학습한 실험한 결과와 CIFAR-10 (Krizhevsky와 Hinton, 2009) 데이터를 convolutional neural networks (CNN) 모델에 학습한 실험한 결과를 기존 초기값을 사용했을 때의 성능을 비교하여 실제로 성능이 좋아지는지를 비교하였다. 4장에서는 본 연구의 결론과 앞으로의 연구 방향에 대해 다루었다.
여기에서 P는 우리가 가진 데이터의 분포를 뜻하며, 학습데이터의 분포와 예측한 결과의 분포의 차이를 최소화하는 것을 목표로 한다. 결국 두 확률분포 사이의 차이를 측정하는 크로스 엔트로피 함수가 되며 크로스 엔트로피는 비교 대상 확률 분포의 종류를 특정하지 않는 장점이 있기 때문에 본 논문에서 사용하였다. 이때 x는 입력 이미지이고 y는 정답 클래스를 의미한다.
초기값 설정할 때 문제가 되었던 포화 현상은 본 연구에서 제안한 방법에서도 발생하지 않았으며 수렴속도 또한 기존 방법보다 빠르게 수렴함을 보여줬다. 또한 기존에 절단된 분포에서 초기값을 설정하는 경우는 많았지만 절단된 분포의 자르는 위치를 제안한 방법은 없었고 본 연구는 자르는 위치를 제안함과 동시에 기존 Xavier 방법의 방법론에 적용시켜 모델의 정확도를 향상시켰다. 본 연구에서 제안한 방법은 연구자가 초기값에 대한 하이퍼 파라미터를 설정할 때 기존에 방법과 함께 고려해 볼 수 있는 방법으로 다양한 딥러닝 모델에서 포화 현상이나 실험 결과가 좋지 않을 때 시도해 볼 수 있는 초기값 선택 방법으로 활용될 수 있을 것이라고 기대된다.
본 연구에서는 초기값을 설정하는 분포로 절단된 정규분포와 절단된 코쉬 분포를 고려하였다. 코쉬 분포는 정규분포보다 0에 더 몰려있고 양쪽 꼬리가 더 얇기 때문에 Figure 2.
001, 풀링 레이어는 2개, 커널 사이즈는 3 × 3, 에폭은 200회 설정한 후 실험을 진행하였다. 이 실험에서는 Xavier initialization 방법과 He initialization 방법과 절단된 분포를 이용한 초기값 설정 방법을 이용해 각각 초기값을 설정한 후 각각의 모델을 학습시키고 분류의 정확도를 구하였다. 본 논문에서는 분류 정확도를 Max out으로 구하였는데 Max out은 실험 결과 중 가장 높은 정확도 값을 의미한다.

대상 데이터

CIFAR-10 데이터를 CNN을 이용해 실험을 진행할 때 CNN층은 5개, 학습 속도는 0.001, 풀링 레이어는 2개, 커널 사이즈는 3 × 3, 에폭은 200회 설정한 후 실험을 진행하였다.
MNIST 데이터를 DNN을 이용해 실험했을 때 DNN층은 4개로 구성했고 학습 속도는 0.01, 배치 사이즈는 100, 에폭은 200번을 설정한 후 실험을 진행하였다. Xavier initialization 방법을 적용할 때 층별 분산을 동일하게 해주기 위해서는 이전 레이어의 노드와 다음 레이어의 노드의 개수를 넣어줘야 한다.
CIFAR-10은 10가지 클래스로 구분되며 항공기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭으로 되어 있다. 또한 60,000개의 이미지가 들어 있으며 50,000장의 트레이닝 데이터와 10,000장의 테스트 테이터로 구성되어 있다.
본 논문은 총 4장으로 구성되어 있다. 2장에서는 포화 현상에 대한 설명과 본 연구의 배경이 되는 초기값 설정 방법인 Xavier initialization 방법과 본 연구에서 제안하는 방법을 서술하였다.
본 연구에서는 MNIST와 CIFAR-10 데이터를 사용하였다. MNIST는 사람이 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝 할 때 주로 사용된다.

성능/효과

앞의 실험과 마찬가지로 k와 a에 여러 가지 값을 넣어서 실험을 진행하였고 이때 절단된 정규분포의 k는 2, 절단된 코쉬 분포의 a는 1로 설정할 때 정확도가 가장 높았다. DNN과 CNN에서 모두 본 연구에서 제안한 초기값 설정 방법이 기존 방법보다 성능이 좋았고 특히 절단된 정규분포를 이용했을 때 성능이 가장 좋았다.
본 연구에서는 기존의 초기값 설정 방법에 대해 살펴보고 기존의 방법을 대체할 수 있는 새로운 초기값 설정 방법을 제시하였다. 기존 방법으로 많이 쓰이는 Xavier initialization 방법과 He initialization 방법을 본 논문에서 제시한 방법과 비교하였는데 DNN과 CNN을 활용한 분류 문제에서 기존 방법보다 좋은 성능을 보여줬다. 초기값 설정할 때 문제가 되었던 포화 현상은 본 연구에서 제안한 방법에서도 발생하지 않았으며 수렴속도 또한 기존 방법보다 빠르게 수렴함을 보여줬다.
특히 절단된 분포 중 절단된 정규분포를 이용했을 때 가장 높은 정확도를 보였다. 본 연구에서는 절단된 정규분포에서는 표준편차의 배수 값(k)과 절단된 코쉬 분포에서는 스케일 값(a)에 여러 값들을 넣어서 실험을 진행하였고 그 결과 k를 2, a를 1로 설정할 때 정확도가 가장 높았다.
2는 CIFAR-10데이터를 CNN을 이용해 분류한 결과이다. 분석결과 CIFAR-10데이터를 학습시킨 CNN에서는 Xavier initialization 방법은 64.28%의 정확도를 보였고 He initialization 방법은 65.51%의 정확도를 보였다. 절단된 정규분포와 절단된 코쉬 분포를 사용했을 때 실험 결과는 각각 67.
활성화 함수는 모두 Relu를 사용하였다. 분석결과 MNIST를 학습시킨 DNN에서는 Xavier initialization 방법은 98.10%의 정확도를 보였고 He initialization 방법은 98.13%의 정확도를 보였다. 절단된 정규분포와 절단된 코쉬 분포를 사용했을 때 실험 결과는 각각 98.
51%의 정확도를 보였다. 절단된 정규분포와 절단된 코쉬 분포를 사용했을 때 실험 결과는 각각 67.7%, 66.08%으로 기존 방법보다 모두 높은 정확도를 보였다. 그 중에서도 절단된 정규분포를 이용했을 때 가장 높은 정확도를 보였다.
13%의 정확도를 보였다. 절단된 정규분포와 절단된 코쉬 분포를 사용했을 때 실험 결과는 각각 98.21%, 98.14%으로 기존 방법보다 모두 높은 정확도를 보였다. 특히 절단된 분포 중 절단된 정규분포를 이용했을 때 가장 높은 정확도를 보였다.
본 논문에서는 Glorot과 Bengio (2010)가 제안한 초기값 설정 방법을 절단된 분포에서 적용하여 절단된 분포에서 초기값을 설정하는 새로운 방법을 제안하고자 한다. 제안된 방법을 사용함으로써 절단된 분포를 사용할 때에도 포화 현상을 방지할 수 있는 초기치 설정이 가능하게 된다.
기존 방법으로 많이 쓰이는 Xavier initialization 방법과 He initialization 방법을 본 논문에서 제시한 방법과 비교하였는데 DNN과 CNN을 활용한 분류 문제에서 기존 방법보다 좋은 성능을 보여줬다. 초기값 설정할 때 문제가 되었던 포화 현상은 본 연구에서 제안한 방법에서도 발생하지 않았으며 수렴속도 또한 기존 방법보다 빠르게 수렴함을 보여줬다. 또한 기존에 절단된 분포에서 초기값을 설정하는 경우는 많았지만 절단된 분포의 자르는 위치를 제안한 방법은 없었고 본 연구는 자르는 위치를 제안함과 동시에 기존 Xavier 방법의 방법론에 적용시켜 모델의 정확도를 향상시켰다.
14%으로 기존 방법보다 모두 높은 정확도를 보였다. 특히 절단된 분포 중 절단된 정규분포를 이용했을 때 가장 높은 정확도를 보였다. 본 연구에서는 절단된 정규분포에서는 표준편차의 배수 값(k)과 절단된 코쉬 분포에서는 스케일 값(a)에 여러 값들을 넣어서 실험을 진행하였고 그 결과 k를 2, a를 1로 설정할 때 정확도가 가장 높았다.

후속연구

추후에는 정규분포와 비슷한 분포인 Triangle distribution, Epanechnikov distribution, Triweight distribution같은 다양한 분포들의 양 끝이 절단된 분포를 이용해 초기값을 설정해 보는 연구와 함께 절단된 분포에서 성능이 좋은 활성화 함수를 연구할 것이다. 또한 본 연구에서 제안한 방법을 이용하여 다양한 데이터들을 활용해 다양한 기계학습 알고리즘들에 적용시켜 성능을 비교해보는 후속 연구를 진행할 것이다.
또한 기존에 절단된 분포에서 초기값을 설정하는 경우는 많았지만 절단된 분포의 자르는 위치를 제안한 방법은 없었고 본 연구는 자르는 위치를 제안함과 동시에 기존 Xavier 방법의 방법론에 적용시켜 모델의 정확도를 향상시켰다. 본 연구에서 제안한 방법은 연구자가 초기값에 대한 하이퍼 파라미터를 설정할 때 기존에 방법과 함께 고려해 볼 수 있는 방법으로 다양한 딥러닝 모델에서 포화 현상이나 실험 결과가 좋지 않을 때 시도해 볼 수 있는 초기값 선택 방법으로 활용될 수 있을 것이라고 기대된다.
3과 같이 양쪽 끝을 절단할 경우 초기치가 0 근처에서 뽑힐 확률이 더 높을 수 있다. 절단된 정규분포와 절단된 코쉬 분포를 각각 Xavier initialization 방법에 적용 후 초기값을 설정한다면 기존의 한계점을 보완하고 좋은 성능을 보일 것이라 기대한다.
추후에는 정규분포와 비슷한 분포인 Triangle distribution, Epanechnikov distribution, Triweight distribution같은 다양한 분포들의 양 끝이 절단된 분포를 이용해 초기값을 설정해 보는 연구와 함께 절단된 분포에서 성능이 좋은 활성화 함수를 연구할 것이다. 또한 본 연구에서 제안한 방법을 이용하여 다양한 데이터들을 활용해 다양한 기계학습 알고리즘들에 적용시켜 성능을 비교해보는 후속 연구를 진행할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Layer-sequentialunit-variance란 무엇인가?	초기값 설정이란 딥러닝 모델에서 가중치를 학습시킬 때 처음 들어가는 가중치 값을 말하며 최근까지도 활발한 연구가 진행되고 있다(Sutskever 등, 2013; Mishkin과 Matas, 2015; Hayou 등, 2015; Humbrid 등, 2018; Hanin과 Rolnick, 2018). Mishkin과 Matas (2015)은 정형화된 매트릭스로 각 층의 가중치를 초기화한 후 첫 번째 층부터 마지막 층의 출력 분산을 동일하게 표준화한 방법인 Layer-sequentialunit-variance (LSUV)를 제안했다. Krahenbuhl 등 (2015)은 K-means 방법과 PCA 방법에 기반하여 데이터에 의존하는 초기값 설정을 통해 폭발(exploding)과 경사감소 소멸(vanishing gradient)을 피하며 모든 유닛이 비슷한 속도에서 학습할 수 있는 초기값 설정 방법을 제안하였다.
	딥러닝에서 포화현상 문제를 해결하기 위한 방법은?	이런 포화현상 문제를 해결하기 위해 Glorot과 Bengio (2010)과 He 등 (2015) 층과 층 사이에 데이터가 다양하게 흘러야 효율적인 신경망학습이 가능하고 주장했다. 데이터가 다양하게 흐르기 위해서는 각 층의 출력에 대한 분산과 입력에 대한 분산이 동일해야 한다고 제안했다. Glorot과 Bengio (2010)과 He 등 (2015)는 각 층별 활성화 값의 분산이 같다고 가정해 초기값을 설정하였다.
	딥러닝 층이 깊어지면 어떻게 되는가?	오늘날 과학기술의 발달로 대용량의 데이터들이 급격하게 증가하면서 딥러닝(deep learning)의 구조 역시 점점 더 복잡하고 깊은 층으로 만들어지고 있다. 딥러닝 층이 깊어지면서 학습 속도가 느려지거나 도중에 학습이 되지 않는 포화 현상(saturation)이 자주 발생하기 시작했다. 초기값 설정이란 딥러닝 모델에서 가중치를 학습시킬 때 처음 들어가는 가중치 값을 말하며 최근까지도 활발한 연구가 진행되고 있다(Sutskever 등, 2013; Mishkin과 Matas, 2015; Hayou 등, 2015; Humbrid 등, 2018; Hanin과 Rolnick, 2018).

참고문헌 (13)

Clevert, D. A., Unterthiner, T., and Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289
Glorot, X. and Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (pp. 249-256).
Goodfellow, I. J., Vinyals, O., and Saxe, A. M. (2014). Qualitatively characterizing neural network optimization problems. arXiv preprint arXiv:1412.6544.
Hanin, B. and Rolnick, D. (2018). How to start training: The effect of initialization and architecture. In Advances in Neural Information Processing Systems (pp. 571-581).
He, K., Zhang, X., Ren, S., and Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1026-1034).
Humbird, K. D., Peterson, J. L., and McClarren, R. G. (2018). Deep neural network initialization with decision trees, EEE Transactions on Neural Networks and Learning Systems, 30, 1286-1295.
Hayou, S., Doucet, A., and Rousseau, J. (2018). On the selection of initialization and activation function for deep neural networks. arXiv preprint arXiv:1805.08266.
Krahenbuhl, P., Doersch, C., Donahue, J., and Darrell, T. (2015). Data-dependent initializations of convolutional neural networks. arXiv preprint arXiv:1511.06856.
Krizhevsky, A. and Hinton, G. (2009). Learning Multiple Layers of Features from Tiny Images (Vol. 1, No. 4, p. 7) Technical report, University of Toronto.
LeCun, Y., Bottou, L., Orr, G., and Muller, K. (1998a). Efficient backprop in neural networks: Tricks of the trade (Orr, G. and Muller, K., eds.), Lecture Notes in Computer Science, 1524(98), 111.
LeCun, Y., Cortes, C., and Burges, C. J. (1998b). The MNIST Database of Handwritten Digits.
Mishkin, D. and Matas, J. (2015). All you need is a good init. arXiv preprint arXiv:1511.06422.
Sutskever, I., Martens, J., Dahl, G., and Hinton, G. (2013). On the importance of initialization and momentum in deep learning, In International Conference on Machine Learning (pp. 1139-1147).

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증