$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

사례 기반 결정 이론을 융합한 포텐셜 기반 강화 학습
Potential-based Reinforcement Learning Combined with Case-based Decision Theory 원문보기

정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, v.15 no.12, 2009년, pp.978 - 982  

김은선 (서강대학교 컴퓨터공학과) ,  장형수 (서강대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 다수의 강화 학습 에이전트들의 학습 결과 및 Expert의 지식을 하나의 학습 알고리즘으로 융합하는 강화학습인 "potential-based" reinforcement learning(RL)기법에 불확실한 환경에서의 의사결정 알고리즘인 Case-based Decision Theory(CBDT)를 적용한 "RLs-CBDT"를 제안한다. 그리고 테트리스 실험을 통하여 기존의 RL 알고리즘에 비해 RLs-CBDT가 최적의 정책에 더 마르게 수렴하는 것을 보인다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a potential-based reinforcement learning, called "RLs-CBDT", which combines multiple RL agents and case-base decision theory designed for decision making in uncertain environment as an expert knowledge in RL. We empirically show that RLs-CBDT converges to an optimal policy faster...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 강화학습 알고리즘 Sarsa(O), CBDT 알고리즘과 RLs-CBDT의 성능을 비교하기 위하여 기존의 테트리스를 간단하게 재구성한 Melax가 제안한테트리스[9]를 이용하였다. Melax가 제안한 테트리스는그림 2와 같이 블록의 종류가 기존의 테트리스의 블록보다 작고 모양이 단순하다.
  • 본 절에서는 다수의 강화 학습들을 조합하는 기법[4] 에 CBDT를 융합하는 방법에 대하여 자세히 설명한다, MDP 이 주어져 있다고 할 때 학습에이전트의 목표는 叫-함수를 학습하는 것이다. 다음으로 potential 함수 ©* :f? 에 의해서 丑이
  • 지금까지 다수의 강화학습을 조합한 기법에 CBDT 를 융합한 RLs-CBDT에 대해서 알아보았다. 이는 여러 RL을 수행하는 서브에이전트들의 독립적인 학습과 CB DT의 지식이 감독(supervision)된 형태로 강화 학습과 조합된 융합 알고리즘이다.

가설 설정

  • MDP Me 4개의 튜플-(X, 4E7?)로구성된다. 여기서 X는 시스템 안에 존재하는 상태(state) ⑦들의 유한 집합이고, &는 행동(action), 들의 유한집합이다(간결성을 위하여 모든 행동은 모든 상태에서 실행가능하다고 가정한다.). P는 를 X 에서 가능한 모든 확률 분포들의 집합으로의 매핑하는상태 전이 함수이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (9)

  1. M. L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, wiley, New York, 1994 

  2. R. Sutton and A. Barrto, Reinforcement Learning, MIT Press, 2000 

  3. L. P. Kaelbling, Michael L. Littman, Andrew W. Moore, “Reinforcement learning: A survey,” Journal of Articial Intelligence Research, vol.4, pp.237-285, 1996 

  4. H. S. Chang, “Reinforcement Learning with Supervision by Combining Multiple Learnings and Expert Advices,” in Proc. of the 2006 American Control Conference, pp.4159-4164, June, 2006 

  5. A. Y. Ng, D. Harada, S. Russel, “Policy invariance under reward transformations:theory and applica-tion to reward shaping,” in Proc. of the 16th Int. Conf. on Machine Learning, pp.278-287, 1999 

  6. I. Gilboa and D. Schmeidler, "Case-based decision theory," Quart. J. Economics, vol.110, no.4, pp.605-639, 1995 

  7. E. Hllermeier “Experience-based decision making: a satisficing decision tree approach,” IEEE Trans-actions on Systems, Man, and Cybernetics, vol.35, no.5, pp.641-653, 2005 

  8. S. Singh, T. jaakkola, M. Littman, and C. Sze-pesvari, “Convergence results for single-step on-policy reinforcement learning algorithms,” Machine Learning, vol.38, pp.287-308, 2000 

  9. S. Melax “Reinforcement learning tetris example,” 1998. URL http://www.melax.com/tetris/ 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로