[논문]2D 레이싱 게임 학습 에이전트를 위한 강화 학습 알고리즘 비교 분석

이동철

doi:10.7236/jiibc.2020.20.1.171

초록
AI-Helper

강화 학습은 인공지능 에이전트가 비디오 게임을 학습할 때 가장 효과적으로 사용되는 방법이다. 강화 학습을 위해 여지껏 많은 알고리즘들이 제시되어 왔지만 알고리즘마다 적용되는 분야에 따라 다른 성능을 보여주었다. 본 논문은 최근 강화 학습에서 주로 사용되는 알고리즘들의 성능이 2D 레이싱 게임에서 어떻게 달라지는지 비교 평가한다. 이를 위해 평가에서 사용할 성능 메트릭을 정의하고 각 알고리즘에 따른 메트릭의 값을 그래프로 비교하였다. 그 결과 ACER (Actor Critic with Experience Replay)를 사용할 경우 게임의 보상이 다른 알고리즘보다 평균적으로 높은 것을 알 수 있었고, 보상 값이 가장 낮은 알고리즘과의 차이는 157%였다.

Abstract ▼ AI-Helper

Reinforcement learning is a well-known method for training an artificial software agent for a video game. Even though many reinforcement learning algorithms have been proposed, their performance was varies depending on an application area. This paper compares the performance of the algorithms when w...

Reinforcement learning is a well-known method for training an artificial software agent for a video game. Even though many reinforcement learning algorithms have been proposed, their performance was varies depending on an application area. This paper compares the performance of the algorithms when we train our reinforcement learning agent for a 2D racing game. We defined performance metrics to analyze the results and plotted them into various graphs. As a result, we found ACER (Actor Critic with Experience Replay) achieved the best rewards than other algorithms. There was 157% gap between ACER and the worst algorithm.

주제어

표/그림 (8)

그림 그림 1. 강화 학습 에이전트가 2D 레이싱 게임 방법을 학습하는데 사용한 딥러닝 모델 Fig. 1. Illustration of deep learning model used by the reinforcement learning agent to learn how to play a 2D racing game
그림 그림 2. 타임 스텝에 따른 알고리즘 별 보상 값 Fig. 2. Rewards for each algorithm along with the time steps
그림 그림 3. 트레이닝 시간에 따른 알고리즘 별 보상 값 Fig. 3. Rewards for each algorithm along with the training time
표 표 1. 각 알고리즘에서 사용된 하이퍼 파라미터 값 Table 1. The values of hyperparameters for each algorithm
그림 그림 4. A3C를 사용하였을 때 타임스텝에 따른 보상 값과 게임 시간 Fig. 4. Rewards and playing time for A3C along with the time steps
그림 그림 5. ACER를 사용하였을 때 타임스텝에 따른 보상 값과 게임 시간 Fig. 5. Rewards and playing time for ACER along with the time steps
그림 그림 6. PPO를 사용하였을 때 타임스텝에 따른 보상 값과 게임 시간 Fig. 6. Rewards and playing time for PPO along with the time steps
표 표 2. 각 알고리즘 별 평균 및 최대 보상 값 Table 2. The average and maximum rewards for each algorithm

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 2D 레이싱 게임을 플레이하기 위한 딥러닝 강화 학습 에이전트를 제시한다. 이 에이전트를 이용하면 다양한 강화 학습 알고리즘을 모듈 형태로 다양한 관점 에서 평가할 수 있다.
그러나 어떤 게임을 학습하는지에 따라 알고리즘의 우위가 달라지며 아직 모든 게임에서 우수하게 동작하는 알고리즘은 알려지지 않았다. 본 논문은 2D 레이싱 게임을 학습하기 위해 각 알고리즘 별 에이전트를 구현하고 어떤 알고리즘을 사용하는 것이 학습에 유리한지 성능을 비교 평가하고자 한다.
본 논문은 딥러닝 에이전트가 2D 레이싱 게임을 학습할 때 어떤 알고리즘을 사용하는지에 따른 성능을 평가하였다. 성능 평가 시 비교했던 알고리즘은 강화 학습에서 가장 많이 사용되는 알고리즘인 A3C, ACER, PPO를 대상으로 하였다.

제안 방법

각 알고리즘이 에이전트가 2D 레이싱 게임을 플레이 하는데 끼치는 영향을 알아보기 위하여 게임이 끝났을때 점수인 총 보상 값과 게임을 얼마나 오래 플레이할 수 있었는지 나타내주는 게임 시간 (Length)을 알고리즘별로 비교하였다.
또한 Policy Gradient 의 high variance 현상을 줄이기 위해 Importance Weight의 범위를 상수 c로 제한하고 여기에 correction term을 다음과 같이 더하였다.
6을 활용한 프로그램을 작성하였 다. 에이전트는 학습을 위해 알고리즘별로 1x10 7 번의 타임 스텝을 처리하였고 게임 화면 프레임은 4개를 하나의 스택으로 처리하여 벡터 연산을 하였다. 성능 평가에서 사용된 알고리즘에서 사용된 하이퍼 파라미터는 표1과 같다.
이를 위해 PPO의 목적 함수 J(θ)는 Probability Ratio r(θ)가 [1 - ε, 1+E] 내에서 유지될 수 있도록 Clip Function을 적용하였으며 다음과 같이 정의된다.
이 에이전트를 이용하면 다양한 강화 학습 알고리즘을 모듈 형태로 다양한 관점 에서 평가할 수 있다. 이번 연구에서는 강화 학습에서 최근 많이 사용되는 알고리즘인 A3C, ACER, PPO를 비교 한다. 신경망은 그림 1과 같이 게임 화면의 픽셀 정보를 해석하기 위한 CNN과 장기간의 정보를 기억하기 위한 LSTM을 사용하였다.

대상 데이터

신경망은 그림 1과 같이 게임 화면의 픽셀 정보를 해석하기 위한 CNN과 장기간의 정보를 기억하기 위한 LSTM을 사용하였다. CNN에 사용된 필터는 각각 32개, 64개, 64개이며, 필터 크기는 각각 8x8, 4x4, 3x3 이다. LSTM에 사용된 셀은 512개이다.
CNN에 사용된 필터는 각각 32개, 64개, 64개이며, 필터 크기는 각각 8x8, 4x4, 3x3 이다. LSTM에 사용된 셀은 512개이다. 각각의 은닉층에서 사용된 활성화 함수는 ReLU이다.
본 논문은 딥러닝 에이전트가 2D 레이싱 게임을 학습할 때 어떤 알고리즘을 사용하는지에 따른 성능을 평가하였다. 성능 평가 시 비교했던 알고리즘은 강화 학습에서 가장 많이 사용되는 알고리즘인 A3C, ACER, PPO를 대상으로 하였다. 성능 평가 결과 ACER를 사용할 경우 게임의 보상이 다른 알고리즘보다 평균적으로 높은 것을 알 수 있었고, 보상 값이 가장 낮았던 PPO보다 157% 높았다.

이론/모형

게임은 OpenAI Gym에서 제공되는 Enduro v4를 사용하였다 ^[8] . 이 게임의 특징은 여러 대의 자동차들이 경주하는데 다른 자동차를 앞지를수록 점수가 올라가고 추월당할수록 점수가 줄어든다는 것이다.
이번 연구에서는 강화 학습에서 최근 많이 사용되는 알고리즘인 A3C, ACER, PPO를 비교 한다. 신경망은 그림 1과 같이 게임 화면의 픽셀 정보를 해석하기 위한 CNN과 장기간의 정보를 기억하기 위한 LSTM을 사용하였다. CNN에 사용된 필터는 각각 32개, 64개, 64개이며, 필터 크기는 각각 8x8, 4x4, 3x3 이다.

성능/효과

성능 평가 시 비교했던 알고리즘은 강화 학습에서 가장 많이 사용되는 알고리즘인 A3C, ACER, PPO를 대상으로 하였다. 성능 평가 결과 ACER를 사용할 경우 게임의 보상이 다른 알고리즘보다 평균적으로 높은 것을 알 수 있었고, 보상 값이 가장 낮았던 PPO보다 157% 높았다. 그러나 10M 타임스텝이 수행되는데 걸리는 시간은 ACER가 가장 오래 걸렸고 A3C가 가장 짧았다.
그림 4, 그림 5, 그림 6은 각 알고리즘 별로 트레이닝 시 보상 값과 게임 시간 간의 상관관계를 보여주는 그래프이다. 세 알고리즘 모두 초기에는 기본적으로 주어지는 시간만 플레이하지만 트레이닝 시간이 지날수록 게임 시간이 증가하면서 보상 값과 같은 추이를 보이는 것을 알 수 있다.
. 이 게임의 특징은 여러 대의 자동차들이 경주하는데 다른 자동차를 앞지를수록 점수가 올라가고 추월당할수록 점수가 줄어든다는 것이다. 또한, 게임 화면에 이동 거리도 표시되는데 제한된 시간 안에 이동 거리가 길어야 그만큼 많은 자동차들을 추월할 수 있으므로 둘 사이의 상관 관계가 있을 수 있다.

후속연구

향후 연구로는 딥러닝 에이전트가 게임을 학습하는데 필요한 다른 여러 요인에 대하여 성능 평가를 할 것이다. 이를 통해 게임 스타일 별로, 또는 학습 알고리즘 별로 어떤 요소를 사용하는 것이 효과적인지 알아볼 수 있을 것이다.
향후 연구로는 딥러닝 에이전트가 게임을 학습하는데 필요한 다른 여러 요인에 대하여 성능 평가를 할 것이다. 이를 통해 게임 스타일 별로, 또는 학습 알고리즘 별로 어떤 요소를 사용하는 것이 효과적인지 알아볼 수 있을 것이다.

참고문헌 (8)

S. Mukhopadhyay, O. Tilak, S. Chakrabarti, "Reinforcement Learning Algorithms for Uncertain, Dynamic, Zero-Sum Games", IEEE International Conference on Machine Learning and Applications, 2018. DOI: https://doi.org/10.1109/ICMLA.2018.00015
Y. Wei, W. Xia, M. Lin, J. Huang, B. Ni, J. Dong, Y. Zhao, S. Yan, "HCP: A Flexible CNN Framework for Multi-Label Image Classification", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 38, Iss. 9, pp. 1901-1907, 2016. DOI: https://doi.org/10.1109/TPAMI.2015.2491929

상세보기
S.-G. Choi, W. Xu, "A Study on Person Re-Identification System using Enhanced RNN", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 17, No. 2, 2017. DOI: https://doi.org/10.7236/JIIBC.2017.17.2.15

원문보기 상세보기
I.-T. Joo, S.-H. Choi, "Stock Prediction Model based on Bidirectional LSTM Recurrent Neural Network", The Journal of KIIECT, Vol. 11, No. 2, 2018. DOI: https://doi.org/10.17661/jkiiect.2018.11.2.204

원문보기 상세보기
V. Mnih, A.P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, K. Kavukcuoglu, "Asynchronous methods for deep reinforcement learning", Proceedings of the International Conference on Machine Learning (ICML), pp. 1928-1937, 2016.
Z. Wang, V. Bapst, N. Heess, V. Mnih, R. Munos, K. Kavukcuoglu, N. de Freitas, "Sample efficient actor-critic with experience replay", Proceedings of the International Conference on Learning Representations, 2017.
J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov, "Proximal policy optimization algorithms," arXiv preprintarXiv:1707.06347, 2017.
G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, W. Zaremba, "OpenAI Gym", arXiv:1606.01540, 2016.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

2D 레이싱 게임 학습 에이전트를 위한 강화 학습 알고리즘 비교 분석
Comparison of Reinforcement Learning Algorithms for a 2D Racing Game Learning Agent 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (8)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

2D 레이싱 게임 학습 에이전트를 위한 강화 학습 알고리즘 비교 분석 Comparison of Reinforcement Learning Algorithms for a 2D Racing Game Learning Agent 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (8) 모든 표/그림 보기

표/그림 (8) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (8)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

2D 레이싱 게임 학습 에이전트를 위한 강화 학습 알고리즘 비교 분석
Comparison of Reinforcement Learning Algorithms for a 2D Racing Game Learning Agent 원문보기

초록
AI-Helper

표/그림 (8)

표/그림 (8)

AI 본문요약
AI-Helper