최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기퍼지 및 지능시스템학회 논문지 = Journal of fuzzy logic and intelligent systems, v.15 no.4, 2005년, pp.505 - 510
김종호 (고려대학교 제어계측공학과) , 강대성 (고려대학교 제어계측공학과) , 박주영 (고려대학교 제어계측공학과)
The RPO(randomized policy optimizer) algorithm, which utilizes probabilistic policy for the action selection, is a recently developed tool in the area of reinforcement learning, and has been shown to be very successful in several application problems. In this paper, we propose a modified RPO algorit...
P. Wawrzynski and A. Pacut, 'A simple actorcritic algorithm for continuous environments,' Proceedings of the 10th IEEE Int. Conf. on Methods and Models in Automation and Robotics, pp. 1143-1149, 2004
P. Wawrzynski and A. Pacut, 'Model-free off-policy reinforcement learning in continuous environment,' Proceedings of the International Joint Conference on Neural Networks, pp. 1091-1096, 2004
X. Xu, H. He and D. Hu, 'Efficient Reinforcement Learning Using Recursive Least-Square Methods,' Journal of Artificial Intelligence Research, vol 16, pp. 259-292, 2002
H. Kimura, K. Miyazaki, and S. Kobayashi, 'Reinforcement learning in POMDPs with function approximation,' In Proceedings of the 14th International Conference on Machine Learning (ICML '97), pp. 152-160, 1997
R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, MIT Press, 1998
H. Kimura and S. Kobayashi, 'An Analysis of Actor/Critic Algorithms using Eligibility Traces: Reinforcement Learning with Imperfect Value Function,' Proceedings of the 15th International Conference on Machine Learning, pp. 278--286, 1998
V. R. Konda and J. N. Tsitsiklis, 'Actor-Critic Algorithms,' SIAM Journal on Control and Optimization, vol. 42, pp. 1143-1166, 2003
박주영, 김종호, 신호근, 'SGA 기반 강화학습 알고 리즘을 이용한 로봇 제어' 한국 퍼지 및 지능시스 템 학회 2004년도 추계학술 대회 논문집, 14권 2호, pp. 63-66, 2004년 10월
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.