$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

절단된 분포를 이용한 인공신경망에서의 초기값 설정방법
Initialization by using truncated distributions in artificial neural network 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.5, 2019년, pp.693 - 702  

김민종 (중앙대학교 응용통계학과) ,  조성철 (중앙대학교 응용통계학과) ,  정혜린 (중앙대학교 응용통계학과) ,  이영섭 (동국대학교 통계학과) ,  임창원 (중앙대학교 응용통계학과)

초록
AI-Helper 아이콘AI-Helper

딥러닝은 대용량의 데이터의 분류 및 예측하는 방법으로 각광받고 있다. 데이터의 양이 많아지면서 신경망의 구조는 더 깊어 지고 있다. 이때 초기값이 지나치게 클 경우 층이 깊어 질수록 활성화 함수의 기울기가 매우 작아지는 포화(Saturation)현상이 발생한다. 이러한 포화현상은 가중치의 학습능력을 저하시키는 현상을 발생시키기 때문에 초기값의 중요성이 커지고 있다.이런 포화현상 문제를 해결하기 위해 Glorot과 Bengio (2010)과 He 등 (2015) 층과 층 사이에 데이터가 다양하게 흘러야 효율적인 신경망학습이 가능하고 주장했다. 데이터가 다양하게 흐르기 위해서는 각 층의 출력에 대한 분산과 입력에 대한 분산이 동일해야 한다고 제안했다. Glorot과 Bengio (2010)과 He 등 (2015)는 각 층별 활성화 값의 분산이 같다고 가정해 초기값을 설정하였다. 본 논문에서는 절단된 코쉬 분포와 절단된 정규분포를 활용하여 초기값을 설정하는 방안을 제안한다. 출력에 대한 분산과 입력에 대한 분산의 값을 동일하게 맞춰주고 그 값이 절단된 확률분포의 분산과 같게 적용함으로써 큰 초기값이 나오는 걸 제한하고 0에 가까운 값이 나오도록 분포를 조정하였다. 제안된 방법은 MNIST 데이터와 CIFAR-10 데이터를 DNN과 CNN 모델에 각각 적용하여 실험함으로써 기존의 초기값 설정방법보다 모델의 성능을 좋게 한다는 것을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Deep learning has gained popularity for the classification and prediction task. Neural network layers become deeper as more data becomes available. Saturation is the phenomenon that the gradient of an activation function gets closer to 0 and can happen when the value of weight is too big. Increased ...

주제어

표/그림 (7)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 하지만 절단된 분포의 자르는 위치를 정하는 방법은 없었고 임의로 적당한 위치에서 자르는 방식으로 사용되고 있다. 본 논문에서는 Glorot과 Bengio (2010)가 제안한 초기값 설정 방법을 절단된 분포에서 적용하여 절단된 분포에서 초기값을 설정하는 새로운 방법을 제안하고자 한다. 제안된 방법을 사용함으로써 절단된 분포를 사용할 때에도 포화 현상을 방지할 수 있는 초기치 설정이 가능하게 된다.
  • 본 연구에서는 기존의 초기값 설정 방법에 대해 살펴보고 기존의 방법을 대체할 수 있는 새로운 초기값 설정 방법을 제시하였다. 기존 방법으로 많이 쓰이는 Xavier initialization 방법과 He initialization 방법을 본 논문에서 제시한 방법과 비교하였는데 DNN과 CNN을 활용한 분류 문제에서 기존 방법보다 좋은 성능을 보여줬다.
  • 본 연구에서 사용된 비용함수는 − log P(y|x)로 negative log-likelihood 함수이다. 여기에서 P는 우리가 가진 데이터의 분포를 뜻하며, 학습데이터의 분포와 예측한 결과의 분포의 차이를 최소화하는 것을 목표로 한다. 결국 두 확률분포 사이의 차이를 측정하는 크로스 엔트로피 함수가 되며 크로스 엔트로피는 비교 대상 확률 분포의 종류를 특정하지 않는 장점이 있기 때문에 본 논문에서 사용하였다.

가설 설정

  • 1과 같다. 초기값 설정 방법 중 많이 쓰이는 방법인 Xavier방법은 Glorot과 Bengio (2010)은 층별 활성화 값의 분산이 같다고 가정했을 때 초기값을 어떻게 설정해야 하는지를 이론적으로 유도를 하였고 유도를 하기 위해 몇 가지 가정을 세웠다: (i) 활성화 함수는 선형관계에 있다. (ii) f ′(0) = 1이다.
  • 이때 f은 활성화 함수이다. (iii) 가중치와 활성화 함수의 평균값은 0이고 서로 독립 관계에 있다. (iv) f(x)는 원점을 지나는 함수이다.
  • (iv) f(x)는 원점을 지나는 함수이다. 이들이 제안한 Xavier initialization 방법론에 사용되는 기본 수식에서 si는 (i + 1)번째 층에서 활성화 함수의 입력값이며 zi는 i번째 층에서 (i + 1)번째 층으로 들어가는 입력값이고 bi는 편향 값을 의미하며 Xavier 방법론과 본 연구에서는 편향 값을 0으로 가정 하여 실험을 하였다. Xavier initialization 방법에서 기본 수식은 다음과 같다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
Layer-sequentialunit-variance란 무엇인가? 초기값 설정이란 딥러닝 모델에서 가중치를 학습시킬 때 처음 들어가는 가중치 값을 말하며 최근까지도 활발한 연구가 진행되고 있다(Sutskever 등, 2013; Mishkin과 Matas, 2015; Hayou 등, 2015; Humbrid 등, 2018; Hanin과 Rolnick, 2018). Mishkin과 Matas (2015)은 정형화된 매트릭스로 각 층의 가중치를 초기화한 후 첫 번째 층부터 마지막 층의 출력 분산을 동일하게 표준화한 방법인 Layer-sequentialunit-variance (LSUV)를 제안했다. Krahenbuhl 등 (2015)은 K-means 방법과 PCA 방법에 기반하여 데이터에 의존하는 초기값 설정을 통해 폭발(exploding)과 경사감소 소멸(vanishing gradient)을 피하며 모든 유닛이 비슷한 속도에서 학습할 수 있는 초기값 설정 방법을 제안하였다.
딥러닝에서 포화현상 문제를 해결하기 위한 방법은? 이런 포화현상 문제를 해결하기 위해 Glorot과 Bengio (2010)과 He 등 (2015) 층과 층 사이에 데이터가 다양하게 흘러야 효율적인 신경망학습이 가능하고 주장했다. 데이터가 다양하게 흐르기 위해서는 각 층의 출력에 대한 분산과 입력에 대한 분산이 동일해야 한다고 제안했다. Glorot과 Bengio (2010)과 He 등 (2015)는 각 층별 활성화 값의 분산이 같다고 가정해 초기값을 설정하였다.
딥러닝 층이 깊어지면 어떻게 되는가? 오늘날 과학기술의 발달로 대용량의 데이터들이 급격하게 증가하면서 딥러닝(deep learning)의 구조 역시 점점 더 복잡하고 깊은 층으로 만들어지고 있다. 딥러닝 층이 깊어지면서 학습 속도가 느려지거나 도중에 학습이 되지 않는 포화 현상(saturation)이 자주 발생하기 시작했다. 초기값 설정이란 딥러닝 모델에서 가중치를 학습시킬 때 처음 들어가는 가중치 값을 말하며 최근까지도 활발한 연구가 진행되고 있다(Sutskever 등, 2013; Mishkin과 Matas, 2015; Hayou 등, 2015; Humbrid 등, 2018; Hanin과 Rolnick, 2018).
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. Clevert, D. A., Unterthiner, T., and Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289 

  2. Glorot, X. and Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (pp. 249-256). 

  3. Goodfellow, I. J., Vinyals, O., and Saxe, A. M. (2014). Qualitatively characterizing neural network optimization problems. arXiv preprint arXiv:1412.6544. 

  4. Hanin, B. and Rolnick, D. (2018). How to start training: The effect of initialization and architecture. In Advances in Neural Information Processing Systems (pp. 571-581). 

  5. He, K., Zhang, X., Ren, S., and Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1026-1034). 

  6. Humbird, K. D., Peterson, J. L., and McClarren, R. G. (2018). Deep neural network initialization with decision trees, EEE Transactions on Neural Networks and Learning Systems, 30, 1286-1295. 

  7. Hayou, S., Doucet, A., and Rousseau, J. (2018). On the selection of initialization and activation function for deep neural networks. arXiv preprint arXiv:1805.08266. 

  8. Krahenbuhl, P., Doersch, C., Donahue, J., and Darrell, T. (2015). Data-dependent initializations of convolutional neural networks. arXiv preprint arXiv:1511.06856. 

  9. Krizhevsky, A. and Hinton, G. (2009). Learning Multiple Layers of Features from Tiny Images (Vol. 1, No. 4, p. 7) Technical report, University of Toronto. 

  10. LeCun, Y., Bottou, L., Orr, G., and Muller, K. (1998a). Efficient backprop in neural networks: Tricks of the trade (Orr, G. and Muller, K., eds.), Lecture Notes in Computer Science, 1524(98), 111. 

  11. LeCun, Y., Cortes, C., and Burges, C. J. (1998b). The MNIST Database of Handwritten Digits. 

  12. Mishkin, D. and Matas, J. (2015). All you need is a good init. arXiv preprint arXiv:1511.06422. 

  13. Sutskever, I., Martens, J., Dahl, G., and Hinton, G. (2013). On the importance of initialization and momentum in deep learning, In International Conference on Machine Learning (pp. 1139-1147). 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로