$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

강화학습의 학습 가속을 위한 함수 근사 방법
Function Approximation for accelerating learning speed in Reinforcement Learning 원문보기

퍼지 및 지능시스템학회 논문지 = Journal of fuzzy logic and intelligent systems, v.13 no.6, 2003년, pp.635 - 642  

이영아 (경희대학교 컴퓨터공학과) ,  정태충 (경희대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

강화학습은 제어, 스케쥴링 등 많은 응용분야에서 성공적인 학습 결과를 얻었다. 기본적인 강화학습 알고리즘인 Q-Learning, TD(λ), SARSA 등의 학습 속도의 개선과 기억장소 등의 문제를 해결하기 위해서 여러 함수 근사방법(function approximation methods)이 연구되었다. 대부분의 함수 근사 방법들은 가정을 통하여 강화학습의 일부 특성을 제거하고 사전지식과 사전처리가 필요하다. 예로 Fuzzy Q-Learning은 퍼지 변수를 정의하기 위한 사전 처리가 필요하고, 국소 최소 자승법은 훈련 예제집합을 이용한다. 본 논문에서는 온-라인 퍼지 클러스터링을 이용한 함수 근사 방법인 Fuzzy Q-Map을 제안하다. Fuzzy Q-Map은 사전 지식이 최소한으로 주어진 환경에서, 온라인으로 주어지는 상태를 거리에 따른 소속도(membership degree)를 이용하여 분류하고 행동을 예측한다. Fuzzy Q-Map과 다른 함수 근사 방법인 CMAC와 LWR을 마운틴 카 문제에 적용하여 실험 한 결과 Fuzzy Q-Map은 훈련예제를 사용하지 않는 CMAC보다는 빠르게 최고 예측율에 도달하였고, 훈련 예제를 사용한 LWR보다는 낮은 예측율을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Reinforcement learning got successful results in a lot of applications such as control and scheduling. Various function approximation methods have been studied in order to improve the learning speed and to solve the shortage of storage in the standard reinforcement learning algorithm of Q-Learning. ...

주제어

참고문헌 (14)

  1. Stephan ten Hagen and Ben Krose, "Q learning for System with continuous state and action spaces", BENELEARN 2000, 10th Belgian-Dutch conference on Machine Learning. 

  2. Chris Gaskett, David Wettergreen, and Alexander Zelinsky, "Q learning in continuous state and action spaces", Australian Joint Conference on Artificial Intelligence 1999. 

  3. 전효병,이동욱,김대준,심귀보, "퍼지추론에 의한 리커런트 뉴럴 네트워크 강화학습", 한국퍼지 및 지능 시스템 학회 '97년도 춘계학술대회 논문집. 

  4. Richard S. Sutton, Andrew G. Barto "Reinforcement Learning: An Introduction". The MIT Press, Cambridge, MA., 1998. 

  5. Juan Carlos Santamaria, Richard S. Sutton, Ashwin Ram, "Experiments with Reinforcement Learning in Problems with Continuous State and Action Spaces", COINS Technical Report 96-88, December 1996. 

  6. William Donald Smart, "Making Reinforcement Learning Work on Real Robots", Ph D Thesis, Department of Computer Science, Brown University, 2002. 

  7. Jan Jantzen, "Neurofuzzy Modelling", Technical Report, Technical University of Denmark 1998. 

  8. 정석일, 이연정, "분포 기여도를 이용한 퍼지 Q-learning", 퍼지 및 지능시스템학회 논문지 2001, Vol. 11, No.5 pp.388-394. 

  9. Pierre Yves Glorennec, Lionel Jouffe, "Fuzzy Q-Iearning", Proceedings of Fuzz-Ieee'97, Sixth International Conference on Fuzzy Systems, P719-724, Barcelona, july,1997. 

  10. Lionel Jouffe, "Fuzzy Inference System Learning by Reinforcement Methods", Ieee Transactions on System, Man and Cybernetics, vol.98, no 3, August,1998. 

  11. Andrea Bonarini, "Delayed Reinforcement, Fuzzy Q-Iearning and Fuzzy Logic Controllers", In Herrera, F., Verdegay, J. L. (Eds.) Genetic Algorithms and Soft Computing, (Studies in Fuzziness, 8), Physica-Verlag, Berlin, D, 447-466. 

  12. William D. Smart, Leslie Pack Kaelbling, "Practical Reinforcement Learning in Continuous Spaces", Proceedings of the sixteenth International Conference on Machine Learning, 2000. 

  13. William D. Smart, Leslie Pack Kaelbling, "Reinforcement Learning for Robot Control", In "Mobile Robots XVI", 2001. 

  14. Artistidis Likas, "A Reinforcement Learning: Approach to On-Line Clustering", Neural Computation, vol. 11, no. 8, pp. 1915-1932, 1999. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로