[논문]카트-폴 균형 문제를 위한 실시간 강화 학습

김병천; 이창훈

카트-폴 균형 문제를 위한 실시간 강화 학습
On-line Reinforcement Learning for Cart-pole Balancing Problem 원문보기

한국인터넷방송통신학회 논문지 = The journal of the Institute of Internet Broadcasting and Communication, v.10 no.4, 2010년, pp.157 - 162

김병천 (한경대학교 웹정보공학과) , 이창훈 (한경대학교 컴퓨터공학과)

초록
AI-Helper

Cart-pole 균형 문제는 유전자 알고리즘, 인공신경망, 강화학습 등을 이용한 제어 전략 분야의 표준 문제이다. 본 논문에서는 cart-pole 균형문제를 해결하기 위해 실시간 강화 학습을 이용한 접근 방법을 제안하였다. 본 논문의 목적은 cart-pole 균형 문제에서 OREL 학습 시스템의 학습 방법을 분석하는데 있다. 실험을 통해, 본 논문에서 제안한 OREL 학습 방법은 Q-학습보다 최적 값 함수에 더 빠르게 접근함을 알 수 있었다.

Abstract ▼ AI-Helper

The cart-pole balancing problem is a pseudo-standard benchmark problem from the field of control methods including genetic algorithms, artificial neural networks, and reinforcement learning. In this paper, we propose a novel approach by using online reinforcement learning(OREL) to solve this cart-pole balancing problem. The objective is to analyze the learning method of the OREL learning system in the cart-pole balancing problem. Through experiment, we can see that approximate faster the optimal value-function than Q-learning.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 cart-pole 시스템과 같은 동적 환경에서 최적값 함수에 빠르게 수렴할 수 있는 강화 학습 방법을 제안하였다. 실험결과 강화학습의 가장 대표적인 Q-학습 방법보다 최적값 함수에 빠르게 수렴함을 알 수 있었다.
본 논문에서는 cart-pole 시스템과 같은 동적 환경을 제어하기 위한 실시간 강화 학습 시스템(OREL)을 제안한다. cart-pole 시스템을 제어하기 위한 ONRELS의 구조는 그림3과 같이 학습기(learner)와 선택기(selector)와 를 가지고 있다.
본 논문에서는 cart-pole 제어 문제와 같은 동적 환경에서 효율적으로 학습을 수행할 수 있는 실시간 강화 학습(OREL : Online REinforcement Learning system)을 제안한다.

제안 방법

본 논문에서 제안한 OREL 학습 방법과 강화학습의 가장 대표적인 Q-학습 방법을 cart-pole 시스템에 적용하였다. cart를 100,000번 움직이는 동안 pole이 균형을 유지하기 위해 몇 번 시도하였는가를 평가 기준으로 하였다. 실험 결과 그림5와 같이 Q-학습은 126회 만에 성공하였고 OREL은 44회 만에 성공하였다.

이론/모형

본 논문에서 제안한 OREL 학습 방법과 강화학습의 가장 대표적인 Q-학습 방법을 cart-pole 시스템에 적용하였다. cart를 100,000번 움직이는 동안 pole이 균형을 유지하기 위해 몇 번 시도하였는가를 평가 기준으로 하였다.
일정한 힘(±10N)이 cart에 적용되었을 때 cart와 pole의 다음 상태 값은 오일러(Euler)가 제시한 불연속 방정식(discrete-time equation) θ(t + 1) = θt + #을 이용하여 구할 수 있다(이때, τ = 0.02초).

성능/효과

본 논문에서 제안한 OREL은 cart-pole 제어 환경에서 강화 학습으로 가장 널리 알려진 Q-학습(Q-learning)과^[9] 비교한 결과 학습의 성능을 결정하는 최적 값 함수 (optimal value-function)에 빠르게 수렴하는 것을 실험을 통해 알 수 있었다.
cart를 100,000번 움직이는 동안 pole이 균형을 유지하기 위해 몇 번 시도하였는가를 평가 기준으로 하였다. 실험 결과 그림5와 같이 Q-학습은 126회 만에 성공하였고 OREL은 44회 만에 성공하였다.
본 논문에서는 cart-pole 시스템과 같은 동적 환경에서 최적값 함수에 빠르게 수렴할 수 있는 강화 학습 방법을 제안하였다. 실험결과 강화학습의 가장 대표적인 Q-학습 방법보다 최적값 함수에 빠르게 수렴함을 알 수 있었다. 그러나 주어진 환경에 대한 모형(model)을 이용한 학습 방법이기 때문에 매우 제한적이라 할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Cart-pole 균형 문제란 무엇인가?	Cart-pole 균형 문제는 유전자 알고리즘, 인공신경망, 강화학습 등을 이용한 제어 전략 분야의 표준 문제이다. 본 논문에서는 cart-pole 균형문제를 해결하기 위해 실시간 강화 학습을 이용한 접근 방법을 제안하였다.
	학습이란 무엇을 의미하는가?	학습(learning)이란 과거의 경험을 이용하여 현재의 문제를 해결하기 위한 지식(knowledge)이나 기술(skill) 을 의미하며[1], M.L.
	실시간 강화 학습(OREL)에서 cart-pole 균형문제를 효율적으로 학습하기 위해 사용하는 값은 무엇인가?	OREL은 cart-pole 균형문제를 효율적으로 학습하기 위해 cart와 pole의 상호 관계를 적용한 강화-값을 이용한다. 일반적으로 cart-pole 시스템을 제어하기 위한 강화 학습의 성능평가는 학습 시스템이 몇 회의 시도 만에 cart가 트랙의 범위를 벗어나지 않고, pole이 쓰러지지 않도록 균형을 유지 할 수 있는가를 평가 기준으로 한다.

참고문헌 (9)

김병천, 윤병주, "복수전략학습", 정보과학회지, 13권, 5호, pp45-52, 1995.

원문보기 상세보기
M.L.Minsky Theory of Neural-Analog Reinforcement Systems and Application to the Brain-Model Problem, Ph.D. Thesis, Princeton University, Princeton, 1954.
A. G. Barto, D. A. White and D. A. Sofge, "Reinforcement Learning and adaptive critic model", Handbook of Intelligent Control, pp. 469-491,1992.
C. W. Anderson, "Learning to control an inverted pendulum using neural networks", IEEE Control Systems Magazine, pp.31-37, 1989.
O. Pinngern and T. H. Nguyen, "International Symposium on Electrical & Electronics Engineering", HCM City, Vietnam, 2007.
As'ad Salkham, Raymond Cunningham, Anurag Garg, and Vinny Cahill, "A Collaborative Reinforcement Learning Approach to Urban Traffic Control", IEEE/WIC/ACM International Conference, Vol. 2 (2008), pp. 560-566.
T. Walczak and P. Cichosz. "A distributed learning control system for elevator groups", Artificial Intelligence and Soft Computing (ICAISC-06), volume 4029 of Lecture Notes in Computer Science, pp.1223？232. Springer, 2006.
K Conn and R A Peters, ""Reinforcement Learning with a Supervisor for a Mobile Robot in a Real world Environment", Computational Intelligence in Robotics and Automation, pp. 73-78, 2007
G. Cybenko, R. Gray, and K. Moizumi, "Q-learning : A Tutorial and Extensions", Mathematics of Artificial Neural Networks, Oxford University, July, 1995.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증