[논문]목표지향적 강화학습 시스템

이창훈

초록
AI-Helper

강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다. 그러나 제안된 대부분의 강화학습 알고리즘들은 학습을 수행하는 에이전트(agent)가 목표 상태에 도달하였을 때만 강화 값(reinforcement value)이 주어지기 때문에 최적 해에 매우 늦게 수렴한다. 본 논문에서는 미로 환경(maze environment)에서 최단 경로를 빠르게 찾을 수 있는 강화학습 방법(GORLS : Goal-Directed Reinforcement Learning System)을 제안하였다. GDRLS 미로 환경에서 최단 경로가 될 수 있는 후보 상태들을 선택한다. 그리고 나서 최단 경로를 탐색하기 위해 후보 상태들을 학습한다. 실험을 통해, GDRLS는 미로 환경에서 TD-학습과 TD(${\lambda}$)-학습보다 더 빠르게 최단 경로를 탐색할 수 있음을 알 수 있다.

Abstract ▼ AI-Helper

Reinforcement learning performs learning through interacting with trial-and-error in dynamic environment. Therefore, in dynamic environment, reinforcement learning method like TD-learning and TD(${\lambda}$)-learning are faster in learning than the conventional stochastic learning method....

Reinforcement learning performs learning through interacting with trial-and-error in dynamic environment. Therefore, in dynamic environment, reinforcement learning method like TD-learning and TD(${\lambda}$)-learning are faster in learning than the conventional stochastic learning method. However, because many of the proposed reinforcement learning algorithms are given the reinforcement value only when the learning agent has reached its goal state, most of the reinforcement algorithms converge to the optimal solution too slowly. In this paper, we present GDRLS algorithm for finding the shortest path faster in a maze environment. GDRLS is select the candidate states that can guide the shortest path in maze environment, and learn only the candidate states to find the shortest path. Through experiments, we can see that GDRLS can search the shortest path faster than TD-learning and TD(${\lambda}$)-learning in maze environment.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 미로 환경(maze environment)과 같은 에피소딕 환경에서 최적 함수에 빠르게 수렴할 수 있는 GDRLS 방법을 제안하였다. 일반적으로 미로 환경에서 학습을 수행하기 위한 강화 학습 방법들은 최적 함수에 얼마나 빠르게 수렴하는가? 즉.
본 논문에서는 미로 환경에서 최적 값-함수에 매우 빠르게 수렴할 수 있는 목표 지향적(goal-directed) 강화 학습(GDRLS) 방법을 제안한다. 제안된 학습 시스템은 초기 상태에서 목표 상태까지 최단 경로를 빠르게 탐색할 수 있으며 그림1과 같이 구성되어 있다.

제안 방법

GDRLS의 학습 성능을 평가하기 위해 TD(λ)를 이용한 Q(λ)-학습과 비교하였다.
본 논문에 제안한 GDRLS은 그림1과 같이 최단 경로에 대한 후보 영역들을 탐색하는 탐색 모듈과 후보 영역에서 최단 경로를 탐색하는 학습 모듈로 구성되어있다.
본 논문에서 제안된 GDRLS는 탐색 모듈(search module)과 학습 모듈(learning module)로 구성되어 있다. 탐색 모듈은 최적 경로를 찾기 위해 최적 경로가 될 수 있는 후보 상태들을 탐색하기 위해 학습을 수행하는 단계이고, 학습 모듈은 탐색 모듈에서 선택된 상태들에 대해 최단 경로를 탐색하기 위한 학습하는 단계이다.
그러나 최적 값-함수를 구하기 위해 많은 상태전이가 발생한다. 이를 위해 TD-오류를 이용한 Q-학습을 제안하였다. TD-오류를 이용한 Q-학습은 현재 상태의 (상태-행동) 쌍에 대한 Q-함수 값을 갱신하기 위해 식.
학습을 위해 α=0.8, γ=0.9 그리고 λ=0.9로 하였고, 각 학습 방법들이 최단 경로에 수렴할 때 까지 각 시도(trial)에 대한 상태전이 수를 비교하였다.

대상 데이터

Q(λ)-학습이 최단 경로를 탐색하기위해 그림 7과같이 270번의 시도(trial) 만에 성공하였고, 총 19460번의 상태 전이를 하였다.
본 논문에서 제안한 GDRLS의 탐색 모듈은 그림4와 같은 최단 경로 후보 영역들의 탐색하기 위해 34번의 시도를 하였고, 총 5,436번의 상태전이를 하였다. 탐색모듈의 처리 결과는 그림 8과 같다.
본 논문에서 제안한 GDRLS의 학습 성능을 비교 평가하기 위해 Rohit Kelkar가 제안한 그림 6과 같은 8×8 미로 환경을 이용하였다.
본 논문에서 제안한 GDRLS의 학습은 4장에서 언급한 바와 같이 탐색 모듈이 34번의 시도를 하였고, 5,436번의 상태 전이를 하였다. 그리고 나서 학습 모듈이 111번의 시도를 하였고 4,816번의 상태 전이를 하였다.
학습 모듈은 111번의 시도 끝에 E E E E E E N N W W W W W N N N E E E E E N E 의 경로를 찾아냈으며, 총 상태 전이수는 4,816번 이루어졌다.

성능/효과

그리고 나서 학습 모듈이 111번의 시도를 하였고 4,816번의 상태 전이를 하였다. 그러므로 주어진 환경에서 최단 경로를 탐색하기 위해 총 10,252번의 상태 전이를 하여 Q(λ)-학습보다 약 50%의 성능이 개선됨을 알 수 있었다. 이는 주어진 환경에서의 선행 학습이 매우 중요함을 알 수 있었다.
제안된 학습 방법은 TD-오류를 이용한 Q-학습[5] 그리고 TD(λ)를 이용한 Q(λ)-학습[6]을 Abbott, R이 제안한 미로 환경[7]에 적용한 결과 제안된 방법이 최적 함수에 매우 빠르게 수렴함을 알 수 있었다.

후속연구

그러므로 학습을 언제까지 수행하여야 되는가에 대한 연구가 필요하다. 또한 본 논문에서는 하나의 목표를 찾는 문제를 다루었으나 다중의 목표를 추적할 수 있는 학습 방법이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	강화학습은 어떻게 학습을 수행하는가?	강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다.
	본 논문에서 제안된 GDRLS의 탐색모듈과 학습모듈은 각각 어떤 단계인가?	본 논문에서 제안된 GDRLS는 탐색 모듈(search module)과 학습 모듈(learning module)로 구성되어 있다. 탐색 모듈은 최적 경로를 찾기 위해 최적 경로가 될 수 있는 후보 상태들을 탐색하기 위해 학습을 수행하는 단계이고, 학습 모듈은 탐색 모듈에서 선택된 상태들에 대해 최단 경로를 탐색하기 위한 학습하는 단계이다. 제안된 학습 방법은 TD-오류를 이용한 Q-학습[5] 그리고 TD(λ)를 이용한 Q(λ)-학습[6]을 Abbott, R이 제안한 미로 환경[7]에 적용한 결과 제안된 방법이 최적 함수에 매우 빠르게 수렴함을 알 수 있었다.
	일반적으로 강화 학습을 위해 제시된 학습 방법들은 무엇으로 구분할 수 있는가?	Minsky에 의해 소개된 강화 학습(reinforcement learning)은 동적프로그래밍(dynamic programming)과 교사학습(supervised learning)을 혼합한 형태의 학습 방법으로서 학습을 수행하는 에이전트(agent)는 에이전트 외부에 존재하는 환경(environment)과 시행-착오(trial-and-error)를 통해 상호작용(interaction)하면서 학습한다[1]. 일반적으로 강화 학습을 위해 제시된 많은 학습 방법들은 동적프로그래밍[2], 몬테카를로(Monte Carlo)[3] 그리고 TD-학습[4] 등으로 구분할 수 있다.

참고문헌 (8)

M .L. Minsky "Theory of Neural-Aanlog Reinforcement Systems and Application to the Brain-Model Problem", Ph.D. Thesis Princetion University, Princetion, 1954.
D. P. Bertsekas, "Dynamic Programming and Optimal Control", Athena Scientific, Belmont, MA., 1995.
M.H.Kalos and P. A. Whitlock, " Monte Carlo Methods", Wiley, NY., 1986.
P. Dayan and G. E. Hinton, "Improving generalization for temporal difference learning : the successor representation", Neural Computation, 5, pp.613-624, 1993.

상세보기
C. J. C. H. Watkins, "Learning from Delayed Rewards, Ph.D. Thesis, King's College, Cambride, U.K., 1989.
R. S. Sutton, "Generalization in Reinforcement Learning : Successful examples using sparse coarse coding", Advances in Nural Information Processing Systems, 8, pp. 1038-1045, MIT Press, Cambridge MA, 1996.
Abbott, R: Mad Mazes: Intriguing Mind Twisters for Puzzle Buffs, Game Nuts and Other Smart People. Adams Media, 1990
S.P. Singh and R. S. Sutton, "Reinforcement learning with Replacing Eigibility Traces", Machine Learning, 22, pp. 123-158, 1996.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

목표지향적 강화학습 시스템
Goal-Directed Reinforcement Learning System 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

목표지향적 강화학습 시스템 Goal-Directed Reinforcement Learning System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

이창훈 (11)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

목표지향적 강화학습 시스템
Goal-Directed Reinforcement Learning System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper