[논문]효율적인 경로 선택을 위한 Q-Learning 정책 및 보상 설계

용성중; 박효경; 유연휘; 문일영

doi:10.12673/jant.2022.26.2.72

초록
AI-Helper

강화학습의 기법 중 Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습하는 것이다. Q-Learning은 강화학습의 기본적인 알고리즘으로 많이 활용하고 있다. 본 논문에서는 Q-Learning을 바탕으로 정책과 보상을 설계하여 효율적인 경로를 선택하고 학습하는 효용성에 대하여 연구하였다. 또한 Frozen Lake 게임의 8x8 그리드 환경에 동일한 학습 횟수를 적용하여 기존 알고리즘 및 처벌 보상 정책과 제시한 처벌강화 정책의 결과를 비교하였다. 해당 비교를 통해 본 논문에서 제시한 Q-Learning의 처벌강화 정책이 통상적인 알고리즘의 적용보다 학습 속도를 상당히 높일 수 있는 것으로 분석되었다.

Abstract ▼ AI-Helper

Among the techniques of reinforcement learning, Q-Learning means learning optimal policies by learning Q functions that perform actionsin a given state and predict future efficient expectations. Q-Learning is widely used as a basic algorithm for reinforcement learning. In this paper, we studied the ...

Among the techniques of reinforcement learning, Q-Learning means learning optimal policies by learning Q functions that perform actionsin a given state and predict future efficient expectations. Q-Learning is widely used as a basic algorithm for reinforcement learning. In this paper, we studied the effectiveness of selecting and learning efficient paths by designing policies and rewards based on Q-Learning. In addition, the results of the existing algorithm and punishment compensation policy and the proposed punishment reinforcement policy were compared by applying the same number of times of learning to the 8x8 grid environment of the Frozen Lake game. Through this comparison, it was analyzed that the Q-Learning punishment reinforcement policy proposed in this paper can significantly increase the learning speed compared to the application of conventional algorithms.

주제어

표/그림 (8)

그림 그림 1. Frozen Lake 시뮬레이션 환경 Fig. 1. Frozen Lake simulation environment
그림 그림 2. Q-Learning 보상 정책 시뮬레이션 결과 Fig. 2. Q-Learning Compensation Policy Simulation Result
표 표 1. Frozen Lake 게임 학습 대상 Table 1. Frozen Lake game learning target
그림 그림 3. Q-Learning 보상정책 시뮬레이션 학습 성공률 Fig. 3. Q-Learning Compensation Policy Simulation Learning Success Rate
그림 그림 4. Q-Learning 장애물 보상 시뮬레이션 결과 Fig. 4. Q-Learning Obstacle Compensation Simulation Result
그림 그림 5. Q-Learning 장애물 보상 시뮬레이션 학습 성공률 Fig. 5. Q-Learning Obstacle Compensation Simulation Learning Success Rate
그림 그림 6. 처벌강화 Q-Learning 시뮬레이션 결과 Fig. 6. Strengthening Punishment Q-Learning Simulation Result
그림 그림 7. 처벌강화 Q-Learning 시뮬레이션 학습 성공률 Fig. 7. Strengthening punishment Q-Learning Simulation Learning Success Rate

AI 본문요약
AI-Helper

문제 정의

최근 모빌리티 시장의 규모가 증가하고 있으며, 이에 따라 차량의 완전 자동화를 위해 많은 연구가 진행되고 있다. 본 논문에서는 강화학습을 이용하여 자동주행을 위한 가장 효율적인 경로를 선택하는 방법론을 제시하고자 한다. 강화학습은 현재의 상태에 대해 최적의 행동을 선택하는 학습 방법으로, 행동에 의한 보상과 처벌을 통해 최적의 행동을 구분한다.
강화학습의 기법 중 Q-Learning은 미래의 보상 기댓값을 극대화하도록 정책을 학습하는 기법으로 Q-Learning의 기댓값을 최대로 만드는 경로가 가장 효율적인 경로가 된다. 본 논문에서는 기댓값의 정책을 처벌강화로 설정하여 기존 정책과 학습 속도에 대해 평가하고 효용성을 확인하고자 한다.
본 논문에서는 수식(3)과 같이 효율적인 경로 선택을 위한 처벌강화 정책을 제안하였다. 표1과 같이 처벌강화 정책은 에이전트가 함정(H)에 빠지게 되면, 함정 주변의 얼은 면(F)의 가치함수(보상) 처벌 값을 적용하여 함정을 회피하여 목표 지점까지 빠르게 도달하는 학습 성공률을 높이고자 한다.

제안 방법

기존 Q-Learning 학습환경은 4x4 그리드 환경에서 기댓값 보상 정책을 진행하는 알고리즘을 적용하였지만 본 논문에서는 제시한 처벌강화 정책의 학습 속도와 동일한 환경에서 비교하기 위해 8x8 그리드 환경에서 학습 시뮬레이션을 진행하였다. 그림 2와 같이 Frozen Lake 환경에 100번 학습을 진행하였고, 그림 3과 같이 결과를 확인할 수 있었다.
그림 1과 같이 각 그리드는 시작점(S), 얼은 면(F), 함정(H), 목표지점(G)로 배치하고, Agent가 시작점(S)로부터 연결된 얼은 면(F)을 지나 목표지점(G)까지 도달하는 경로를 학습하게 된다. 또한 제시한 알고리즘의 성공률 비교를 위해 수식(2)의 Q 함수에 대한 벨만 최적 방정식 알고리즘, 처벌 보상 정책의 시뮬레이션 환경도 구성하여 진행하였다.
본 논문에서 제안한 Q-Learning 학습은 장애물 보상에 대해 장애물 인접 방향의 처벌 보상 값을 모두 할당하여 에이전트가 함정에 한 번 빠지고 주변의 얼은 면에서 함정 방향의 Q값을 처벌보상 값으로 대입하여 에이전트가 함정을 회피하도록 한다. 시뮬레이션 환경은 그림 6과 같이 이전의 환경과 같이 8x8 그리드 환경과 함정의 위치를 동일하게 100번의 학습 시뮬레이션을 진행하였다.
본 논문은 강화학습 라이브러리 OpenAI Gym을 이용하여 Q-Learning 보상에 대한 설계를 제안하고 시뮬레이션을 진행하였다.
에이전트가 목표물 도달 시 성공 및 장애물 보상 정책을 진행하는 알고리즘을 적용하여 기존 Q-Learning 보상 정책 시뮬레이션과 동일한 환경으로 학습을 진행하였다. 그림 4와 같이 8x8 그리드 환경과 100번 학습을 진행하여 그림 5와 같이 결과를 확인할 수 있었다.

대상 데이터

DQN은 Q-Learning과 딥러닝을 합친 것을 말한다. 2013년, 영국의 스타트업 Deep Mind에서 선보인 기술이다. 심층 강화학습 기술을 이용해 다양한 Atari 게임에서 사람보다 더 게임을 잘하도록 한 것이며, 현재도 이와 관련한 연구가 활발하게 이루어지고 있다.
시뮬레이션 환경은 Frozen Lake의 일반적인 환경 4x4 그리드 환경에서는 적은 학습 횟수를 진행하였을 때 성공률에 대한 확률값이 크지 않으므로 본 논문에서는 8x8 그리드 환경과 10개의 함정을 적용하였다. 그림 1과 같이 각 그리드는 시작점(S), 얼은 면(F), 함정(H), 목표지점(G)로 배치하고, Agent가 시작점(S)로부터 연결된 얼은 면(F)을 지나 목표지점(G)까지 도달하는 경로를 학습하게 된다.
본 논문에서 제안한 Q-Learning 학습은 장애물 보상에 대해 장애물 인접 방향의 처벌 보상 값을 모두 할당하여 에이전트가 함정에 한 번 빠지고 주변의 얼은 면에서 함정 방향의 Q값을 처벌보상 값으로 대입하여 에이전트가 함정을 회피하도록 한다. 시뮬레이션 환경은 그림 6과 같이 이전의 환경과 같이 8x8 그리드 환경과 함정의 위치를 동일하게 100번의 학습 시뮬레이션을 진행하였다. 그림 7과 같이 학습 성공률은 85%로 이전 알고리즘보다 학습 속도가 빨라진 것을 확인할 수 있었다.

성능/효과

본 논문에서는 기댓값의 정책을 처벌강화로 설정하여 기존 알고리즘의 보상 정책과 학습 속도에 대해 시뮬레이션을 통해 결과를 확인할 수 있었다. 본 논문에서 제안한 처벌강화 정책을 통해 적은 학습 횟수에도 불구하고 기존 보상 및 처벌 보상 정책에 비해 높은 학습 성공률을 보여주었다. 한정된 시뮬레이션 환경으로 인해 차후 연구에서는 다양한 환경을 구성하여 시뮬레이션 평가 또는 시뮬레이션 평가도구를 개발할 수 있도록 하고, 장애물의 난이도에 따른 보상, 처벌정책에 따라 장애물을 통과하거나 회피할 수 있는 방법을 연구하여 효율적 경로를 선택할 수 있는 강화학습을 진행할 것이다.
또한, Q-Learning은 미래의 보상 기댓값을 극대화하도록 정책을 학습하는 기법으로 Q-Learning의 기댓값을 최대로 만드는 경로가 가장 효율적인 경로가 된다. 본 논문에서는 기댓값의 정책을 처벌강화로 설정하여 기존 알고리즘의 보상 정책과 학습 속도에 대해 시뮬레이션을 통해 결과를 확인할 수 있었다. 본 논문에서 제안한 처벌강화 정책을 통해 적은 학습 횟수에도 불구하고 기존 보상 및 처벌 보상 정책에 비해 높은 학습 성공률을 보여주었다.
그림 4와 같이 8x8 그리드 환경과 100번 학습을 진행하여 그림 5와 같이 결과를 확인할 수 있었다. 장애물 보상 시뮬레이션 결과 50%의 성공률을 보여 Q-Learning 보상 정책 알고리즘보다 학습 속도가 높아진 것을 확인할 수 있었다.

후속연구

본 논문에서 제안한 처벌강화 정책을 통해 적은 학습 횟수에도 불구하고 기존 보상 및 처벌 보상 정책에 비해 높은 학습 성공률을 보여주었다. 한정된 시뮬레이션 환경으로 인해 차후 연구에서는 다양한 환경을 구성하여 시뮬레이션 평가 또는 시뮬레이션 평가도구를 개발할 수 있도록 하고, 장애물의 난이도에 따른 보상, 처벌정책에 따라 장애물을 통과하거나 회피할 수 있는 방법을 연구하여 효율적 경로를 선택할 수 있는 강화학습을 진행할 것이다.

참고문헌 (5)

Watkins, C.J.C.H., Dayan, P., "Q-learning", Machine Learning, Vol. 8, No. 1, pp. 279-292, May. 1992.
Watkins, C.J.C.H, Learning from Delayed Rewards, Ph.D. thesis, King's College, London, May. 1989.
V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Riedmiller, "Playing Atari with Deep Reinforcement Learning", arXiv preprint arXiv, 1312.5602, Dec. 2013.
G. Brockman, V.Cheung, L. Pettersson, J. Schneider, J.Schulman, J.Tang, and W. Zaremba, "OpenAI Gym", arXiv preprint arXiv, 1606.1540, Jun. 2016.
Clifton, J., and Laber, E., "Q-Learning: Theory and Applications", Annual Review of Statistics and Its Application, Vol. 7, No. 1, pp. 279-301, Mar. 2020.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

효율적인 경로 선택을 위한 Q-Learning 정책 및 보상 설계
Q-Learning Policy and Reward Design for Efficient Path Selection 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

효율적인 경로 선택을 위한 Q-Learning 정책 및 보상 설계 Q-Learning Policy and Reward Design for Efficient Path Selection 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (8) 모든 표/그림 보기

표/그림 (8) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

문일영 (64)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

효율적인 경로 선택을 위한 Q-Learning 정책 및 보상 설계
Q-Learning Policy and Reward Design for Efficient Path Selection 원문보기

초록
AI-Helper

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper