[논문]사례 기반 결정 이론을 융합한 포텐셜 기반 강화 학습

김은선; 장형수

사례 기반 결정 이론을 융합한 포텐셜 기반 강화 학습
Potential-based Reinforcement Learning Combined with Case-based Decision Theory 원문보기

정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, v.15 no.12, 2009년, pp.978 - 982

초록
AI-Helper

본 논문에서는 다수의 강화 학습 에이전트들의 학습 결과 및 Expert의 지식을 하나의 학습 알고리즘으로 융합하는 강화학습인 "potential-based" reinforcement learning(RL)기법에 불확실한 환경에서의 의사결정 알고리즘인 Case-based Decision Theory(CBDT)를 적용한 "RLs-CBDT"를 제안한다. 그리고 테트리스 실험을 통하여 기존의 RL 알고리즘에 비해 RLs-CBDT가 최적의 정책에 더 마르게 수렴하는 것을 보인다.

Abstract ▼ AI-Helper

This paper proposes a potential-based reinforcement learning, called "RLs-CBDT", which combines multiple RL agents and case-base decision theory designed for decision making in uncertain environment as an expert knowledge in RL. We empirically show that RLs-CBDT converges to an optimal policy faster...

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 강화학습 알고리즘 Sarsa(O), CBDT 알고리즘과 RLs-CBDT의 성능을 비교하기 위하여 기존의 테트리스를 간단하게 재구성한 Melax가 제안한테트리스[9]를 이용하였다. Melax가 제안한 테트리스는그림 2와 같이 블록의 종류가 기존의 테트리스의 블록보다 작고 모양이 단순하다.
본 절에서는 다수의 강화 학습들을 조합하는 기법[4] 에 CBDT를 융합하는 방법에 대하여 자세히 설명한다, MDP 이 주어져 있다고 할 때 학습에이전트의 목표는 叫-함수를 학습하는 것이다. 다음으로 potential 함수 ©* :f? 에 의해서 丑이
지금까지 다수의 강화학습을 조합한 기법에 CBDT 를 융합한 RLs-CBDT에 대해서 알아보았다. 이는 여러 RL을 수행하는 서브에이전트들의 독립적인 학습과 CB DT의 지식이 감독(supervision)된 형태로 강화 학습과 조합된 융합 알고리즘이다.

가설 설정

MDP Me 4개의 튜플-(X, 4E7?)로구성된다. 여기서 X는 시스템 안에 존재하는 상태(state) ⑦들의 유한 집합이고, &는 행동(action), 들의 유한집합이다(간결성을 위하여 모든 행동은 모든 상태에서 실행가능하다고 가정한다.). P는 를 X 에서 가능한 모든 확률 분포들의 집합으로의 매핑하는상태 전이 함수이다.

제안 방법

RLs-CBDT 알고리즘과 경쟁자 알고리즘들 간의 성능차를 분석하기에 앞서 최고의 성능 간의 비교를 위하여, 주어진 7= 0.9에 대해서, etegreedy 전략에서 사용하는파라미터 상수 cM((U)의 최적 값을 찾는 실험을 하였다. 테트리스 실험을 위하여 41에서 정의한 파라미터 ^=500, G=100으로 하고, 총 2000번의 round를 진행한다.
위와 같이 정의한 모델을 통하여 테트리스 실험 상에서 기존의 Sarsa(O) 알고리즘, CBDT, 휴리스틱 알고리즘과 RLs-CBDT 융합 알고리즘과의 학습 수렴 속도와 성능 차이를 분석하였고, 5절에서 설명된다.
3知>'인 경우에는 <7(F, ^)=0S] 값을 갖는다. 테트리스에서는 효용값을 수행 즉시 알아낼 수 있으므로 사례화할 때 결과 대신 수행 후 알 수 있는 효용값을 직접 저장하여 사례화하였다.

대상 데이터

살험을 위하여 너니](width)는 6, 높이(height)는 제한되지 않은 필드(field)를 사용하였다. 그리고 1 gamee정해진 X개의 조각이 모두 필드에 떨어지면 종료된다.
9에 대해서, etegreedy 전략에서 사용하는파라미터 상수 cM((U)의 최적 값을 찾는 실험을 하였다. 테트리스 실험을 위하여 41에서 정의한 파라미터 ^=500, G=100으로 하고, 총 2000번의 round를 진행한다. 그림 5, 6, 7, 8의 그래프에서 X축은 round# 나타내고, y축은 average deleted lines를 나타낸다.

이론/모형

기본 에이전트로 Sarsa(O) 알고리즘을 사용하는 “RLs- CBDT” 윰합 알고리즘은 테트리스 실험을 위하여 서브 에이전트로 Q-Learning(2)을 사용한다. 기본 에이전트와 서브에이전트는 MDP My海 =<X, A, P, R) 모델로 기술된 실험 환경과 상호작용을 한다.
필드에 블록이 쌓여있는 형태는 Top To Lev이 RepresentationCTTL) ⑼을 적용하여 구한다. TTL 은 아래의 그림 3과 같이 블록이 가장 높이 쌓여있는 그행에서 아래의 행의 필드의 형태를 이진수(0과 1)로 표현한 것이다.

성능/효과

RLs-CBDT 알고리즘을 Melax 테트리스에 적용하는실험을 통하여 기존의 RL 학습 알고리즘에 비하여 하나이상의 강화학습과 CBDT의 지식이 융합된 RLs-CBDT 알고리즘이 최적의 정책에 더 빠르게 수렴하는 것을 확인할 수 있었다.
은 c로 주어질 수 있는 여러 값들을 적용하여 실험한 결과의 그래프이다. 이 그래프를 통하여 기존 Sarsa(0)와 RLs-CBDT 모두 c=0.9일 때 가장 좋은 성능을 보여줌을 알 수 있다. c가 1에 가까울수록 et — greedy 전략에서 방문한 상태의 수가 적은 경우에는 exploration0] 빈번히 일어나고, 같은 상태에 여러 번 방문한 경우에는 exploitation이 빈번히 일어나기 때문에 가장 좋은 성능을 낸다.
이 실험을 통하여, 순차적으로 의사를 결정해야하는문제에서 CBDT의 지식과 서브에이전트들의 학습결과가융합된 RLs-CBDT의 학습 수렴 속도가 기존 Sarsa(O) 의 학습 수렴 속도보다 향상되었음을 확인할 수 있다.

참고문헌 (9)

M. L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, wiley, New York, 1994
R. Sutton and A. Barrto, Reinforcement Learning, MIT Press, 2000
L. P. Kaelbling, Michael L. Littman, Andrew W. Moore, “Reinforcement learning: A survey,” Journal of Articial Intelligence Research, vol.4, pp.237-285, 1996

상세보기
H. S. Chang, “Reinforcement Learning with Supervision by Combining Multiple Learnings and Expert Advices,” in Proc. of the 2006 American Control Conference, pp.4159-4164, June, 2006
A. Y. Ng, D. Harada, S. Russel, “Policy invariance under reward transformations:theory and applica-tion to reward shaping,” in Proc. of the 16th Int. Conf. on Machine Learning, pp.278-287, 1999
I. Gilboa and D. Schmeidler, "Case-based decision theory," Quart. J. Economics, vol.110, no.4, pp.605-639, 1995

상세보기
E. Hllermeier “Experience-based decision making: a satisficing decision tree approach,” IEEE Trans-actions on Systems, Man, and Cybernetics, vol.35, no.5, pp.641-653, 2005

상세보기
S. Singh, T. jaakkola, M. Littman, and C. Sze-pesvari, “Convergence results for single-step on-policy reinforcement learning algorithms,” Machine Learning, vol.38, pp.287-308, 2000
S. Melax “Reinforcement learning tetris example,” 1998. URL http://www.melax.com/tetris/

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증