$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

관계 추론 심층 신경망 모델의 성능개선 연구
A Study on Improving Performance of the Deep Neural Network Model for Relational Reasoning 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.7 no.12, 2018년, pp.485 - 496  

이현옥 (고려대학교 빅데이터 융합학과) ,  임희석 (고려대학교 컴퓨터학과)

초록
AI-Helper 아이콘AI-Helper

지금까지 인공지능의 한 분야인 딥러닝 방법은 구조화되지 않은 데이터로부터 문제를 해결하는 놀라울만한 성과를 이루어왔지만, 인간처럼 여러 상황들을 종합적으로 판단, 그것들의 연관성을 추론하고, 그 다음 상황을 예측하는 수준의 지능을 갖는데 도달하지 못하였다. 최근 발표된 복잡한 관계 추론을 수행하는 심층 신경망은 인공지능이 인간의 핵심 지적 능력인 관계 추론을 보유할 수 있다는 것을 증명하였다. 본 논문에서는 관계 추론 심층 신경망 중에서 Relation Networks (RN)의 성능을 분석 및 관찰해 보고자 Sort-of-CLEVR 데이터 셋을 사용한 시각적 질의응답과 bAbI task를 사용한 텍스트 기반 질의응답 두 유형의 RN 기반 심층 신경망 모델을 구축하여 baseline 모델과의 비교를 통한 성능검증을 하였다. 또한 모델의 성능을 극대화하기 위하여 하이퍼 파라미터 튜닝 등 다양각도의 성능개선 실험으로 관계 추론을 위한 RN 기반 심층 신경망 모델의 성능개선 방법을 제안하였다. 제안한 성능개선 방법은 시각적 질의응답 모델과 텍스트 기반 질의응답 모델에 적용하여 그 효과를 검증하였고, 기존의 RN 모델에서 사용해보지 않았던 Dialog-based LL 데이터 셋을 사용하여 새로운 도메인에서의 제안한 성능개선 방법의 효과를 다시 한 번 검증하였다. 실험 결과 두 유형의 RN 모델 모두에서 초기 학습률이 모델의 성능을 결정하는 핵심 요인임을 알 수 있었고, 제안한 random search 방법에 의해 찾은 최적의 초기 학습률 설정이 모델의 성능을 최고 99.8%까지 향상 시킬 수 있다는 것을 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

So far, the deep learning, a field of artificial intelligence, has achieved remarkable results in solving problems from unstructured data. However, it is difficult to comprehensively judge situations like humans, and did not reach the level of intelligence that deduced their relations and predicted ...

주제어

표/그림 (16)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 Fig. 5와 같이 RN 기반 심층 신경망 모델을 구축하여 다양한 도메인에서 RN의 성능을 검증하고, 더 나아가 RN 모델의 성능개선 방법을 제안한다.
  • 본 논문에서는 Heuristic search, Random search 방법에 의거, 경험 및 직관 그리고 선험적 지식을 활용하여 초기 학습률 선정을 위한 실험 및 그에 따른 모델의 성능을 검증하였다. 추후 연구에서는 학습률의 초기값 선정이 중요하다는 것에 중점을 두고 좀 더 수학적 방법으로 수행하는 Bayesian optimization으로 RN 모델의 초기 학습률의 섬세한 조정을 해 볼 것이다.
  • 본 논문에서는 Heuristic search, Random search 방법에 의거, 경험 및 직관 그리고 선험적 지식을 활용하여 초기 학습률 선정을 위한 실험 및 모델의 성능 검증을 하여 보았다. 적절한 초기 학습률을 찾기 위해 본 논문의 앞서 시각기반 질의응답 태스크 성능비교 실험에서 구현한 RN 모델을 baseline으로 정하였다.
  • 본 논문에서는 RN 기반 심층 신경망 모델을 구축하여 다양한 도메인에서 RN의 성능을 검증해 보았고, 더 나아가 RN 모델의 성능개선 방법을 시도하여 보았다.
  • 본 논문에서는 RN 기반 심층 신경망 모델의 성능개선 방법으로 모델 구축 시 사용한 성능개선 핵심 방법 외의 배치 사이즈, 초기 학습률 등의 하이퍼 파라미터 튜닝방법을 제안한다.
  • 본 논문에서는 사람처럼 관계 추론을 수행하는 심층 신경망 중에서 Relation Networks(RN)의 성능을 분석 및 관찰해보고자 시각적 질의응답(Visual Question Answering)[4]과 텍스트 기반 질의응답(Text-based Question Answering) 두 유형의 RN 기반 심층 신경망 모델을 구축하여 baseline 모델과의 비교를 통한 성능검증을 하여 보았다. 또한 모델의 성능을 극대화하기 위하여 하이퍼 파라미터(hyper parameters) 튜닝 등 다양각도의 성능개선 실험으로 관계 추론을 위한 RN 기반 심층 신경망 모델의 성능개선 방법을 제안하였다.
  • 본 논문에서는 시각적 질의응답 RN 모델과 텍스트 기반 RN 모델 두 유형의 모델을 구축하여 다양한 도메인에서 RN 성능을 비교 평가해 본다. 또한 성능개선 핵심 방법을 적용하여 RN 기반 심층 신경망 모델의 성능개선 효과를 검증한다.
  • 따라서 적절한 학습률 조정이 중요하다. 본 논문에서는 학습률의 초기 값 선정이 중요하다는 것에 중점을 두고 초기 학습률 선정이 RN 기반 심층 신경망 모델의 성능에 미치는 영향을 살펴본다. 학습률과 같은 하이퍼 파라미터의 최적화 방법은 과학적 방법보다 다소 수행자의 지혜와 직관에 의존하기 때문에 많은 시행착오를 겪는다.
  • 그럼에도 모델의 성능이 훈련과정에서의 검증한 수치와 최종 범용 성능 평가에서의 검증한 수치에서 많은 차이를 보였고, RN 모델의 성능이 높지 않게 나왔다. 이에 본 논문에서는 학습률의 초기값 선정이 중요하다는 것에 중점을 두고 초기 학습률 선정이 모델성능에 미치는 영향을 살펴보았다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
RN 기반 심층 신경망 모델의 성능 개선을 위해 제안된 방법은? RN 기반 심층 신경망 모델의 성능개선 방법으로 모델 구축 시 사용한 성능개선 핵심 방법 외의 배치 사이즈, 초기 학습률 등의 하이퍼 파라미터 튜닝방법을 제안하였다.
신경망 학습 최적화 기법으로는 무엇이 있는가? 이러한 최적화에는 여러 가지 방법이 있다. 가장 간단한 방법으로는 손실함수의 그래프에서 가장 낮은 지점을 찾아가도록 손실함수의 기울기를 구해 기울어진 방향으로 매개변수의 값을 갱신해나가는 확률적 경사 하강법(SGD)[12]과 이 방법의 단점을 개선한 Momentum[13], AdaGrad[14], Adam 방법이 있다. 본 논문에서의 RN 기반 심층 신경망 모델은 최적화 방법 중에서 가장 큰 장점을 가지고 있는 Adam 기법을 사용하였다.
Sort-of-CLEVR 데이터 셋이란? Sort-of-CLEVR 데이터 셋은 구글의 딥마인드가 RN 아키텍처가 일반적 신경망 아키텍처보다 관계형 추론에 더 적합하다는 가설을 증명하기 위하여 구축한 데이터 셋이다. 이 데이터 셋은 CLEVR[17]의 간소화 버전으로 기존 시각적 질의응답 데이터 셋의 이미지 처리의 복잡성을 줄이고 언어학적 모호성과 편향성을 보완한 데이터 셋이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. Adam Santoro, David Raposo, David G.T. Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, and Timothy Lillicrap, "A simple neural network module for relational reasoning," arXiv: 1706.01427v1, 2017. 

  2. David Raposo, Adam Santoro, David Barrett, Razvan Pascanu, Timothy Lillicrap, and Peter Battaglia, "Discovering objects and their relations from entangled scene representations," arXiv:1702.05068, 2017. 

  3. Nicholas Watters, Andrea Tacchetti, Theophane Weber, Razvan Pascanu, Peter Battaglia, and Daniel Zoran, "Visual Interaction Networks," arXiv:1706.01433v1, 2017. 

  4. Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh, "Vqa: Visual question answering," arXiv:1505.00468v7, 2015. 

  5. Antoine Bordes, Jason Weston, Sumit Chopra, and Tomas Mikolov, "Towards ai-complete question answering: A set of prerequisite toy tasks," arXiv:1502.05698, 2015. 

  6. Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus, "End-To-End Memory Networks," arXiv:1503.08895v5, 2015. 

  7. Sergey Ioffe and Christan Szegedy, "Batch Normalization : Accelerating Deep Network Training by Reducing Internal Covariate Shift," arXiv:1502.03167, 2015. 

  8. N. Srivastava, G. Hinton. A. Krizhevsky. I. Sutskever, and R. Salakhutdinov, "Dropout : A simple way to prevent neural networks from overfitting," The Journal of Machine Learning Research, 15, pp.1929-1958, 2014. 

  9. Diederik Kingma and Jimmy Ba, "Adam : A Method for Stochastic Optimization," arXiv: 1412.6980, 2014. 

  10. James Bergstra and Yoshua Bengio, "Random Search for Hyper Parameter Optimization," Journal of Machine Learning Research, Vol.13, pp.281-305, 2012. 

  11. Jason Weston, "Dialog-based Language Learning," arXiv: 1604.06045, 2016. 

  12. Sebastian Ruder, "An overview of gradient descent optimization algorithms," arXiv:1609.04747v2, 2016. 

  13. Ilya Sutskever, James Martens, George Dahl, and Geoffrey Hinton, "On the importance of initialization and momentum in deep learning," Proceedings of the 30th International Conference on Machine Learning, pp.1139-1147, 2013. 

  14. John Duchi, Elad Hazan, and Yoram Singer, "Adaptive Subgradient Methods for Online Learning and Stochastic Optimization," Journal of Machine Learning Research, Vol.12, pp.2121-2159, 2011. 

  15. Jasper Snoek, Hugo Larochelle, and Ryan P. Adams. "Practical Bayesian optimization of machine learning algorithms," arXiv:1206.2944v2, 2012. 

  16. Matthias Feurer, Benjamin Letham, and Eytan Bakshy, "Scalable Meta-Learning for Bayesian Optimization," arXiv: 1802.02219, 2018. 

  17. Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C Lawrence Zitnick, and Ross Girshick., "Clevr: A diagnostic dataset for compositional language and elementary visual reasoning," arXiv:1612.06890v1, 2017. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로