[논문]딥러닝을 위한 경사하강법 비교

강민제

doi:10.5762/kais.2020.21.2.189

초록
AI-Helper

본 논문에서는 신경망을 학습하는 데 가장 많이 사용되고 있는 경사하강법에 대해 분석하였다. 학습이란 손실함수가 최소값이 되도록 매개변수를 갱신하는 것이다. 손실함수는 실제값과 예측값의 차이를 수치화 해주는 함수이다. 경사하강법은 오차가 최소화되도록 매개변수를 갱신하는데 손실함수의 기울기를 사용하는 것으로 현재 최고의 딥러닝 학습알고리즘을 제공하는 라이브러리에서 사용되고 있다. 그러나 이 알고리즘들은 블랙박스형태로 제공되고 있어서 다양한 경사하강법들의 장단점을 파악하는 것이 쉽지 않다. 경사하강법에서 현재 대표적으로 사용되고 있는 확률적 경사하강법(Stochastic Gradient Descent method), 모멘텀법(Momentum method), AdaGrad법 그리고 Adadelta법의 특성에 대하여 분석하였다. 실험 데이터는 신경망을 검증하는 데 널리 사용되는 MNIST 데이터 셋을 사용하였다. 은닉층은 2개의 층으로 첫 번째 층은 500개 그리고 두 번째 층은 300개의 뉴런으로 구성하였다. 출력 층의 활성화함수는 소프트 맥스함수이고 나머지 입력 층과 은닉 층의 활성화함수는 ReLu함수를 사용하였다. 그리고 손실함수는 교차 엔트로피 오차를 사용하였다.

Abstract ▼ AI-Helper

This paper analyzes the gradient descent method, which is the one most used for learning neural networks. Learning means updating a parameter so the loss function is at its minimum. The loss function quantifies the difference between actual and predicted values. The gradient descent method uses the ...

This paper analyzes the gradient descent method, which is the one most used for learning neural networks. Learning means updating a parameter so the loss function is at its minimum. The loss function quantifies the difference between actual and predicted values. The gradient descent method uses the slope of the loss function to update the parameter to minimize error, and is currently used in libraries that provide the best deep learning algorithms. However, these algorithms are provided in the form of a black box, making it difficult to identify the advantages and disadvantages of various gradient descent methods. This paper analyzes the characteristics of the stochastic gradient descent method, the momentum method, the AdaGrad method, and the Adadelta method, which are currently used gradient descent methods. The experimental data used a modified National Institute of Standards and Technology (MNIST) data set that is widely used to verify neural networks. The hidden layer consists of two layers: the first with 500 neurons, and the second with 300. The activation function of the output layer is the softmax function, and the rectified linear unit function is used for the remaining input and hidden layers. The loss function uses cross-entropy error.

주제어

표/그림 (7)

그림 Fig. 1. Structure of Neaural Networks
그림 Fig. 2. SGD fluctuation(Source: Wikipedia)
그림 Fig. 3. Fluctuation of SGD for η=0.01 and η=0.1
그림 Fig. 4. Test of mini batch SGD: batch size=256, learning rate η=0.1 and 0.01
그림 Fig. 5. Test of Momentum for case momentum =0.1, 03, 0.5, 0.7
그림 Fig. 6. Test of Adadelta for weight γ=0.5, 03, 0.1
그림 Fig. 7. Test of SGD, Momentum, AdaGrad and Adadelta

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 딥러닝학습에 사용되는 경사하강법들의 특성을 분석하려고 한다. 2장에서는 다층신경망의 학습에 대하여 간단히 설명하고 3장에서는 확률적 경사하강법(Stochastic Gradient Descent method), 모멘텀 법(Momentum method), AdaGrad법 그리고 Adadelta법의 특성에 대하여 분석하고 4장에서는 MNIST 데이터 셋을 이용하여 실험한 결과들을 비교분석하려고 한다.

제안 방법

본 논문에서는 딥러닝학습에 사용되는 경사하강법들의 특성을 분석하려고 한다. 2장에서는 다층신경망의 학습에 대하여 간단히 설명하고 3장에서는 확률적 경사하강법(Stochastic Gradient Descent method), 모멘텀 법(Momentum method), AdaGrad법 그리고 Adadelta법의 특성에 대하여 분석하고 4장에서는 MNIST 데이터 셋을 이용하여 실험한 결과들을 비교분석하려고 한다.

데이터처리

실험은 확률적경사하강법(SGD), 모멘텀법, AdaGrad법 그리고 Adadelta법의 특성 및 성능을 비교분석하기 위하여 다층 신경망을 이용하였다. 실험은 손으로 쓴 숫자 이미지를 판단하는 신경망을 학습시키는 것이다.

이론/모형

실험은 손으로 쓴 숫자 이미지를 판단하는 신경망을 학습시키는 것이다. MNIST 데이터 셋은 인공지능 연구의 권위자 LeCun교수가 만든 것이고 신경망을 검증하는 데 널리 사용된다. MNIST는 손으로 쓴 숫자 이미지이며 숫자는 0에서 9까지의 값을 갖는 고정 크기 이미지 (28x28 픽셀)로 크기 표준화되어 있다.

성능/효과

AdaGrad법과 Adadelta법은 학습을 진행하면서 효과적으로 학습률을 조절하기 위하여 사용된다. Adadelta 법은 갱신된 매개변수들의 윈도우 크기를 조절하여 AdaGrad법이 최종적으로 학습률이 너무 작게 되는 것을 방지하기 위하여 제안되었고 2차 근사법특성이 가미된 알고리즘으로 기대가 많았으나 실험에서는 두 방법이 크게 차이는 없었다. 이는 향후 다른 데이터세트에서 실험하여 재확인 할 필요가 있다고 판단된다.
그러나 실험에서는 큰 차이를 나타내지 않았다. 다만 모멘텀이 클수록 수렴속도가 빠름을 보였다.
본 논문에서는 신경망 학습 알고리즘들을 MNIST 데이터 세트에 적용하여 실험하고 분석하였다. 확률적 경사 하강법에서 배치크기가 1인 경우는 파동이 심하게 발생 하고, 학습률()이 =0.01에서는 수렴하지만 0.1인 경우는 수렴하지 않았다. 배치크기가 256인 경우에는 모든 학습률에서 수렴함을 보였다.

후속연구

Adadelta 법은 갱신된 매개변수들의 윈도우 크기를 조절하여 AdaGrad법이 최종적으로 학습률이 너무 작게 되는 것을 방지하기 위하여 제안되었고 2차 근사법특성이 가미된 알고리즘으로 기대가 많았으나 실험에서는 두 방법이 크게 차이는 없었다. 이는 향후 다른 데이터세트에서 실험하여 재확인 할 필요가 있다고 판단된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	신경망은 빅데이터와 프로세서의 발전으로 인해 새롭게 태어났다고 한 이유는?	신경망이 새롭게 태어날 수 있었던 것은 빅데이터와 프로세서의 발전 덕분이다. 빅데이터 확보로 많은 경우의 수를 테스트하고, 프로세서의 성능개선 또는 클라우드 컴퓨팅 기술로 엄청난 매개변수들을 학습할 수 있게 되었다. 물론 힌톤교수의 불굴의 노력도 중요한 역할을 하였다.
	신경망 학습이란?	본 논문에서는 신경망을 학습하는 데 가장 많이 사용되고 있는 경사하강법에 대해 분석하였다. 학습이란 손실함수가 최소값이 되도록 매개변수를 갱신하는 것이다. 손실함수는 실제값과 예측값의 차이를 수치화 해주는 함수이다.
	신경망이 새롭게 태어날수 있던 이유는?	신경망은 2000년대에 들어오면서 딥러닝(deep learning)이란 새로운 이름으로 개명되었고 구글의 딥러닝 바둑 알고리즘이 세계적인 프로기사들을 이김으로써 세상의 조명을 받게 되었다. 신경망이 새롭게 태어날 수 있었던 것은 빅데이터와 프로세서의 발전 덕분이다. 빅데이터 확보로 많은 경우의 수를 테스트하고, 프로세서의 성능개선 또는 클라우드 컴퓨팅 기술로 엄청난 매개변수들을 학습할 수 있게 되었다.

참고문헌 (8)

Smith, Craig S, "The Man Who Helped Turn Toronto into a High-Tech Hotbed". The New York Times. Retrieved 27 June 2017.
J. Liang, E. Meyerson, and R. Miikkulainen. Evolutionary architecture search for deep multitask networks. arXiv preprint arXiv:1803.03745, 2018.
J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, Q. Le, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, and A. Ng, "Large scale distributed deep net works," in NIPS, 2012.
T. Schaul, S. Zhang, and Y. LeCun, "No more pesky learning rates," arXiv:1206.1106, 2012.
N. Jaitly, P. Nguyen, A. Senior, and V. Vanhoucke, "Application of pretrained deep neural networks to large vocabulary speech recognition," in Interspeech, 2012.
G. Morse and K. O. Stanley. Simple evolutionary optimization can rival stochastic gradient descent in neural networks. In The Genetic and Evolutionary Computation Conference (GECCO), pages 477-484, 2016.
J. Duchi, E. Hazan, and Y. Singer, "Adaptive subgradient methods for online learning and stochastic optimization," in COLT, 2010.
S. Becker and Y. LeCun, "Improving the convergence of back-propagation learning with second order methods," Tech. Rep., Department of Computer Science, University of Toronto, Toronto, ON, Canada, 1988.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

딥러닝을 위한 경사하강법 비교
Comparison of Gradient Descent for Deep Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (7)

표/그림 (7)

AI 본문요약
AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

딥러닝을 위한 경사하강법 비교 Comparison of Gradient Descent for Deep Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (7) 모든 표/그림 보기

표/그림 (7) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

강민제 (18)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

딥러닝을 위한 경사하강법 비교
Comparison of Gradient Descent for Deep Learning 원문보기

초록
AI-Helper

표/그림 (7)

표/그림 (7)

AI 본문요약
AI-Helper