[논문]OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석

황규영; 임현교; 허주성; 한연희

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석
Experimental Analysis of A3C and PPO in the OpenAI Gym Environment 원문보기

황규영 (한국기술교육대학교 컴퓨터공학과) , 임현교 (한국기술교육대학교 창의융합공학협동과정) , 허주성 (한국기술교육대학교 창의융합공학협동과정) , 한연희 (한국기술교육대학교 컴퓨터공학과)

Policy Gradient 방식의 학습은 최근 강화학습 분야에서 많이 연구되고 있는 주제로, 본 논문에서는 강화학습을 적용시킬 수 있는 OpenAi Gym 의 'CartPole-v0' 와 'Pendulum-v0' 환경에서 Policy Gradient 방식의 Asynchronous Advantage Actor-Critic (A3C) 알고리즘과 Proximal Policy Optimization (PPO) 알고리즘의 학습 성능을 비교 분석한 결과를 제시한다. 딥러닝 모델 등 두 알고리즘이 동일하게 지닐 수 있는 조건들은 가능한 동일하게 맞추면서 Episode 진행에 따른 Score 변화 과정을 실험하였다. 본 실험을 통해서 두 가지 서로 다른 환경에서 PPO 가 A3C 보다 더 나은 성능을 보임을 확인하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

‘Pendulum-v0’ 환경(그림 2)에서는 펜듈럼이 joint 를 중심으로 마찰없이 자유롭게 회전할 수 있다. 이 게임은 펜듈럼이 -π ~ π 사이의 임의의 각도와 -1 ~ 1 사이의 임의의 속도로 시작하고 이를 좌우로 움직이며 세운 뒤 최소한의 힘을 가하며 떨어뜨리지 않는 것이 목표이다 [6].

제안 방법

본 논문에서는 Policy Gradient 방식의 Asynchronous Advantage Actor-Critic (A3C) [1] 알고리즘과 Proximal Policy Optimization (PPO) [2] 알고리즘의 성능을 비교하는 실험을 OpenAi Gym 환경에서 진행한다. OpenAi Gym 의 ‘CartPole-v0’ 환경은 이산적인 행동을 학습하는 실험을 진행하고 ’Pendulum-v0‘ 환경에서는 연속적인 행동을 학습하는 실험을 진행한다.
본 논문에서는 최근 강화학습 분야에서 많이 사용되고 있는 Policy Gradient 방식으로 구현된 A3C 알고리즘과 PPO 알고리즘을 OpenAi Gym 의 ‘CartPole-v0’ 과 ‘Pendulum-v0’ 환경에서 비교하는 실험을 진행하였다. 비록 여러 환경에서 다양한 실험을 진행하진 않았지만 본 논문에서 실험을 진행한 이산적인 행동이나 연속적인 행동을 하는 환경 모두에서 PPO 알고리즘이 A3C 알고리즘에 비해 좋은 성능을 낸다는 것을 알 수 있었다.
A3C 알고리즘과 PPO 알고리즘을 비교하는 실험을 진행하기 위해 동일하게 맞춘 요건들은 다음과 같다. 쓰레드는 4 개로 맞추었고, 신경망 모델은 Multilayer Perceptron 를 사용, 은닉층은 3 개, 뉴런수는 각각 32, 16, 8 개로 신경망을 구성하였다. 은닉층의 활성화 함수로는 ELU 를 사용하였고 정책신경망의 출력층 활성화 함수로는 Softmax 를 사용하였다.

대상 데이터

본 논문에서 A3C 와 PPO 알고리즘의 비교 실험을 진행하기위해 사용된 환경은 OpenAi Gym 이다. 이산적인 행동을 하는 환경을 실험하기 위해서 ‘CartPole-v0’을 연속적인 행동을 하는 환경을 실험하기 위해서는 ‘Pendulum-v0’를 선택하였다.

이론/모형

쓰레드는 4 개로 맞추었고, 신경망 모델은 Multilayer Perceptron 를 사용, 은닉층은 3 개, 뉴런수는 각각 32, 16, 8 개로 신경망을 구성하였다. 은닉층의 활성화 함수로는 ELU 를 사용하였고 정책신경망의 출력층 활성화 함수로는 Softmax 를 사용하였다. discount factor 는 0.

성능/효과

(그림 4)는 ‘Pendulum-v0’환경에서 A3C 알고리즘과 PPO 알고리즘 학습 비교 결과를 보여준다. 본 그림에서 알 수 있듯이 PPO 알고리즘은 400 Episode 일 때에 학습이 완료되는 반면에, A3C 알고리즘은 800 Episode 일 때 학습이 완료되는 것을 알 수 있다. 이 그래프를 통해 PPO 가 A3C 보다 빠른 시간 안에 더 많은 보상을 받고있다는 것을 알 수 있다.
본 논문에서는 최근 강화학습 분야에서 많이 사용되고 있는 Policy Gradient 방식으로 구현된 A3C 알고리즘과 PPO 알고리즘을 OpenAi Gym 의 ‘CartPole-v0’ 과 ‘Pendulum-v0’ 환경에서 비교하는 실험을 진행하였다. 비록 여러 환경에서 다양한 실험을 진행하진 않았지만 본 논문에서 실험을 진행한 이산적인 행동이나 연속적인 행동을 하는 환경 모두에서 PPO 알고리즘이 A3C 알고리즘에 비해 좋은 성능을 낸다는 것을 알 수 있었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석
Experimental Analysis of A3C and PPO in the OpenAI Gym Environment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석 Experimental Analysis of A3C and PPO in the OpenAI Gym Environment 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

OpenAI Gym 환경에서 A3C와 PPO의 실험적 분석
Experimental Analysis of A3C and PPO in the OpenAI Gym Environment 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper