[논문]사용자와의 협력 플레이를 위한 강화학습 인공지능 프로세스 구축

정원조

doi:10.7583/jkgs.2020.20.1.57

[국내논문] 사용자와의 협력 플레이를 위한 강화학습 인공지능 프로세스 구축
Build reinforcement learning AI process for cooperative play with users 원문보기

한국게임학회 논문지 = Journal of Korea Game Society, v.20 no.1, 2020년, pp.57 - 66

정원조 (굿게임 스튜디오)

초록
AI-Helper

연구는 MOBA 게임에서 선호도가 낮은 Supporter를 대체하는 인공지능을 강화학습을 이용한 구현을 목표하였다. ML_Agent를 이용해 게임의 규칙, 환경, 관측 정보, 보상 처벌을 구성하였다. DPS 에이전트로 구성된 그룹과, Support 에이전트가 있는 그룹으로 나누어 강화학습을 진행하였다. 결과 데이터인 누적 보상 값, 사망 횟수 바탕으로 결론을 도출하였다. 협력 플레이 그룹이 비교 그룹보다 평균 누적 보상 값이 3.3 더 높게 측정되었으며 사망 횟수 총합 평균은 3.15 낮게 되었다. 이를 바탕으로 죽음을 최소화하고 보상을 최대화하는 협력 플레이를 수행하는 강화학습을 확인할 수 있었다.

Abstract ▼ AI-Helper

The goal is to implement AI using reinforcement learning, which replaces the less favored Supporter in MOBA games. ML_Agent implements game rules, environment, observation information, rewards, and punishment. The experiment was divided into P and C group. Experiments were conducted to compare the cumulative compensation values and the number of deaths to draw conclusions. In group C, the mean cumulative compensation value was 3.3 higher than that in group P, and the total mean number of deaths was 3.15 lower. performed cooperative play to minimize death and maximize rewards was confirmed.

주제어

표/그림 (19)

그림 [Fig. 1] Mechanism of Reinforcement Learning
그림 [Fig. 2] ML_Agent Structure
그림 [Fig. 3] Environment Image
그림 [Fig. 4] DPS Agent (left), Support Agent (right)
그림 [Fig. 5] Branch Input of Agent
그림 [Fig. 6] Agent's Move Processing
표 [Table 1] Branch of Agents
그림 [Fig. 7] Scope of Care Skills for Support Agents
그림 [Fig. 8] Minion Object Finite State Processing
그림 [Fig. 9] Turret, Suppressor, Turret, Nexus Object
표 [Table 2] Detailed Stats
그림 [Fig. 10] Academy settings
표 [Table 3] Detailed Stats of Objects
표 [Table 4] Observation list
그림 [Fig. 11] PPO Hyperparameter
그림 [Fig. 12] DPS Agent Cumulative Compensation Graph
그림 [Fig. 13] DPS, Support Agent Cumulative Compensation Graph
표 [Table 5] Death count comparison table
표 [Table 6] Experiment result table

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구 실험에선 특정 목표를 수행하는 플레이어 에이전트를 보좌하여 더 나은 결과를 내도록 도와주는 에이전트를 강화학습을 통해 구현하는 것이다. 실험에 사용한 에이전트는 DPS 에이전트와 Support 에이전트가 존재하며 DPS 에이전트는 목표 달성(게임의 승리)을 위해 공격 위주로 설계된 에이전트, Support에이전트는 DPS에이전 트를 보좌하는 목적으로 설계된 에이전트다.
본 연구는 MOBA 장르 게임의 목표 달성 협력을 위한 사용자와 함께 참여하는 강화학습 인공지능 프로세스 구축을 목표하였다. 본 연구의 구현을 위한 AI는 PPO 강화학습 알고리즘 기반의 ML_Agent를 사용하여 실험을 진행하였다.
기존 연구 사례들은 인공지능이 사람과 경쟁하여 기존의 명시적인 알고리즘보다 비교 우위의 게임 인공지능을 구현한 것이다. 본 연구는 기존의 사람과 인공지능간의 경쟁이 아닌 협력을 목표로 행동하는 인공지능을 머신러닝 기술을 적용하는 것을 목표 하였다.
본 연구는 협력 역할수행 게임에서 사용자와 협력 플레이를 통하여 강화학습을 진행하는 AI 구성 프로세스 구축을 목표로 한다. 이를 위해 첫째 사용자 행위를 수행하는 인공지능 DPS(Damage Per Second) 에이전트를 구성하였다.
이에 대안으로 플레이어 포지션 선호도가 낮은 플레이어 서포터를 대신할 인공지능 학습이 가능한가를 실험환경으로 구축하였다. 연구는 협력 역할수행 게임에서 사용자와 협력 플레이를 통하여 강화학습을 진행하는 AI 구성 프로세스 구축하고자 한다.

제안 방법

DPS 에이전트는 총 124개의 관측정보를 가지고 있으며 Support 에이전트는 총 105개의 관측정보를 가지고 학습을 진행하였다. DPS 에이전트는 20프레임 주기로 관측 후 행동하였으며 Support 에이전트는 10프레임 주기로 관측 후 행동하였다. [Table 4]는 에이전트의 관측 정보표다.
강화 학습 실험은 콘텐츠 제작 소프트웨어인 유니티 엔진(Unity Engine 2019.2.6)의 환경을 기반으로 구현하였으며 유니티 엔진의 머신 러닝 플랫 폼인 ML_Agent 0.10.0 버전을 이용해 강화 학습을 진행하였다.
본 연구의 구현을 위한 AI는 PPO 강화학습 알고리즘 기반의 ML_Agent를 사용하여 실험을 진행하였다. 결과 분석을 바탕으로 사용자와 AI간의 협력을 통한 목표 달성이 가능한지 비교검증 하였다. [Table 6]은 실험 결과 값을 정리한 표다.
구글 텐서 보드를 사용해 에이전트의 누적 보상 값을 비교 확인하였다. 텐서보드를 이용해 P 그룹과 C 그룹의 누적 보상 값을 그래프로 확인 할 수있다.
이를 위해 첫째 사용자 행위를 수행하는 인공지능 DPS(Damage Per Second) 에이전트를 구성하였다. 둘째 목표를 수행할 수 있도록 협력하는 Support 에이전트의 강화학습 환경을 설계하였다. 셋째 실험을 위한 MOBA 게임 구성, 에이전트의 정보 전달을 위한 관측 환경 구성, 에이전트의 보상 처벌 프로세스를 구축하였다.
4 더 높게 측정 되었다. 또한 Support 에이 전트는 게임을 플레이하면서 Tanking 스탯 능력치를 가장 먼저 올리고 이후 Support 스탯과 DPS 스탯을 올리면서 Support 에이전트는 균형 잡힌 능력치 상승을 선택하여 게임을 플레이하였 다. 이러한 결과 값과 Support 에이전트의 행동을 통해 에이전트가 강화학습을 통해 목표를 수행하더라도 이를 보좌해주는 에이전트에 따라 더 개선된 결과를 보여줄 수 있음을 확인할 수 있었다.
둘째 목표를 수행할 수 있도록 협력하는 Support 에이전트의 강화학습 환경을 설계하였다. 셋째 실험을 위한 MOBA 게임 구성, 에이전트의 정보 전달을 위한 관측 환경 구성, 에이전트의 보상 처벌 프로세스를 구축하였다. 이를 바탕으로 협력 AI 강화학습 프로세스 실험을 진행하였다.
실험에 사용한 에이전트는 DPS 에이전트와 Support 에이전트가 존재하며 DPS 에이전트는 목표 달성(게임의 승리)을 위해 공격 위주로 설계된 에이전트, Support에이전트는 DPS에이전 트를 보좌하는 목적으로 설계된 에이전트다. 실험은 DPS에이전트 2개로 구성된 P(Player Agent) 그룹과 DPS 에이전트와 Support 에이전트로 구성된 C(Cooperation) 그룹으로 나뉘어 실험을 진행하였다. 에이전트가 Hyperparameter에서 지정된 학습량을 달성하고 유니티 엔진에서 학습이 끝낸 모델을 사용하여 10번의 시연을 하고 난후의 결과 값을 비교 하였다.
실험은 DPS에이전트 2개로 구성된 P(Player Agent) 그룹과 DPS 에이전트와 Support 에이전트로 구성된 C(Cooperation) 그룹으로 나뉘어 실험을 진행하였다. 에이전트가 Hyperparameter에서 지정된 학습량을 달성하고 유니티 엔진에서 학습이 끝낸 모델을 사용하여 10번의 시연을 하고 난후의 결과 값을 비교 하였다. 비교 검증의 항목은 에이전트의 평균 사망 횟수, 에이전트가 획득한 최대 보상 값과 평균값을 비교하였다.
6]은 에이전트의 이동을 보여주는 이미지로 정육면체의 가상 커서를 기준으로 Y축 아래방향으로 Ray²⁾를 발사하면 Ray가 접촉한 지점으로 에이전트가 이동한다. 에이전트가 공격을 하는 방법은 에이전트를 중심으로 6.5m 범위에서 가장 가까운 적을 자동으로 1초에 1회씩 발사체를 발사해 공격한다. 공격을 통해 미니언을 에이전트가 파괴 시키거나 아니면 에이전트를 중심으로 15 범위에서 미니언이 파괴될 경우 경험치를 획득한다.
셋째 실험을 위한 MOBA 게임 구성, 에이전트의 정보 전달을 위한 관측 환경 구성, 에이전트의 보상 처벌 프로세스를 구축하였다. 이를 바탕으로 협력 AI 강화학습 프로세스 실험을 진행하였다.
본 연구는 협력 역할수행 게임에서 사용자와 협력 플레이를 통하여 강화학습을 진행하는 AI 구성 프로세스 구축을 목표로 한다. 이를 위해 첫째 사용자 행위를 수행하는 인공지능 DPS(Damage Per Second) 에이전트를 구성하였다. 둘째 목표를 수행할 수 있도록 협력하는 Support 에이전트의 강화학습 환경을 설계하였다.
이로 인하여 팀 구성 매칭에 불균형이 발생하고 사용자의 콘텐츠 몰입에 방해 요소로 인지하였다. 이에 대안으로 플레이어 포지션 선호도가 낮은 플레이어 서포터를 대신할 인공지능 학습이 가능한가를 실험환경으로 구축하였다. 연구는 협력 역할수행 게임에서 사용자와 협력 플레이를 통하여 강화학습을 진행하는 AI 구성 프로세스 구축하고자 한다.

대상 데이터

DPS 에이전트는 총 124개의 관측정보를 가지고 있으며 Support 에이전트는 총 105개의 관측정보를 가지고 학습을 진행하였다. DPS 에이전트는 20프레임 주기로 관측 후 행동하였으며 Support 에이전트는 10프레임 주기로 관측 후 행동하였다.
본 연구 실험에선 특정 목표를 수행하는 플레이어 에이전트를 보좌하여 더 나은 결과를 내도록 도와주는 에이전트를 강화학습을 통해 구현하는 것이다. 실험에 사용한 에이전트는 DPS 에이전트와 Support 에이전트가 존재하며 DPS 에이전트는 목표 달성(게임의 승리)을 위해 공격 위주로 설계된 에이전트, Support에이전트는 DPS에이전 트를 보좌하는 목적으로 설계된 에이전트다. 실험은 DPS에이전트 2개로 구성된 P(Player Agent) 그룹과 DPS 에이전트와 Support 에이전트로 구성된 C(Cooperation) 그룹으로 나뉘어 실험을 진행하였다.
인공지능 협력 학습 연구를 위해 선정된 게임의 장르는 MOBA(Multiplayer Online Battle Arena) 이다. 라이엇 사의 ‘리그오브레전드’에서는 다른 유저들을 보좌하는 서포터 포지션의 선호도가 가장 낮았다[2].

데이터처리

에이전트가 Hyperparameter에서 지정된 학습량을 달성하고 유니티 엔진에서 학습이 끝낸 모델을 사용하여 10번의 시연을 하고 난후의 결과 값을 비교 하였다. 비교 검증의 항목은 에이전트의 평균 사망 횟수, 에이전트가 획득한 최대 보상 값과 평균값을 비교하였다. 실험 결과 C 그룹이 P 그룹 보다 죽은 횟수의 총합이 63 더 낮았으며 평균 사망 횟수가 3.

이론/모형

본 연구는 MOBA 장르 게임의 목표 달성 협력을 위한 사용자와 함께 참여하는 강화학습 인공지능 프로세스 구축을 목표하였다. 본 연구의 구현을 위한 AI는 PPO 강화학습 알고리즘 기반의 ML_Agent를 사용하여 실험을 진행하였다. 결과 분석을 바탕으로 사용자와 AI간의 협력을 통한 목표 달성이 가능한지 비교검증 하였다.

성능/효과

15 더 낮았다. C 그룹의 DPS 에이전트의 누적 보상 값이 P 그룹의 DPS 에이전트 보다 3.3 더 높았으며 최대로 획득한 보상 값은 4.4 더 높았다.
C 그룹이 P그룹과 비교하였을 때 사망 횟수의 총합이 63 낮았으며 사망 횟수 총합 평균은 3.15 낮게 측정되어 C그룹은 협력을 통해 죽음을 최소화하는 방향으로 플레이하는 것을 확인할 수 있었다. 텐서보드의 학습결과 데이터에서 학습초기 C 그룹의 Support 에이전트의 누적 보상 값이 – 41.
이는 협력 Support 에이전트가 DPS 에이전트에 맞추어 행동을 결정함으로써 목표 달성 협력을 위한 학습이 진행되었음을 확인할 수 있다. DPS 에이전트로만 이루어진 P 그룹보다 DPS 에이전트와 DPS 를 보좌해주는 Support 에이전트로 이루어진 C 그룹은 P 그룹보다 목표를 수행하는데 있어 평균 사망 횟수가 3.2 낮았으며 누적 보상 값 또한 C 그룹의 DPS 에이전트가 P 그룹의 DPS 에이전트 보다 평균 누적 보상 값이 3.3 최대 누적 보상 값은 4.4 더 높게 측정 되었다. 또한 Support 에이 전트는 게임을 플레이하면서 Tanking 스탯 능력치를 가장 먼저 올리고 이후 Support 스탯과 DPS 스탯을 올리면서 Support 에이전트는 균형 잡힌 능력치 상승을 선택하여 게임을 플레이하였 다.
12]는 텐서보드를 통해 확인할 수 있는 누적 보상 값으로 주황색이 P 그룹의 DPS 에이전트 분홍색이 C 그룹의 DPS 에이전트의 평균 보상 획득 값이다. P 그룹의 DPS 에이전트의 평균 누적 보상 값은 8.1이며 C 그룹의 DPS 에이전트의 평균 누적 보상은 11.4로 C 그룹의 에이전트가 3.3 더 높으며 최대로 획득한 누적 보상 값은 P 그룹 DPS 에이전트는 15.9 C 그룹의 DPS 에이 전트는 20.3으로 C 그룹의 에이전트가 4.4 더 높게 나왔다.
5 더 높은 수치를 기록하였다. Support 에이전트의 누적보상 값은 협력을 통한 결과에 대한 보상(Reward)으로 협력을 바탕으로 강화학습을 진행하였음을 확인할 수 있었다.
비교 검증의 항목은 에이전트의 평균 사망 횟수, 에이전트가 획득한 최대 보상 값과 평균값을 비교하였다. 실험 결과 C 그룹이 P 그룹 보다 죽은 횟수의 총합이 63 더 낮았으며 평균 사망 횟수가 3.15 더 낮았다. C 그룹의 DPS 에이전트의 누적 보상 값이 P 그룹의 DPS 에이전트 보다 3.
[Table 5]는 학습이 끝난 에이전트를 유니티 엔진 내에서 10번 동안 시연하여 사망 횟수 비교 실험을 진행한 결과표다. 실험 결과 P 그룹의 총 사망 횟수는 214이며 그룹 평균 사망 횟수는 10.7 C 그룹의 총 사망 횟수는 151이며 그룹 평균 사망 횟수는 7.55를 기록했다. 이와 같은 결과는 Support 에이전트가 협력을 통하여 Player 에이전트의 죽음을 최소화하는 방향 으로 학습이 진행되었음을 확인할 수 있었다.
또한 Support 에이 전트는 게임을 플레이하면서 Tanking 스탯 능력치를 가장 먼저 올리고 이후 Support 스탯과 DPS 스탯을 올리면서 Support 에이전트는 균형 잡힌 능력치 상승을 선택하여 게임을 플레이하였 다. 이러한 결과 값과 Support 에이전트의 행동을 통해 에이전트가 강화학습을 통해 목표를 수행하더라도 이를 보좌해주는 에이전트에 따라 더 개선된 결과를 보여줄 수 있음을 확인할 수 있었다.
55를 기록했다. 이와 같은 결과는 Support 에이전트가 협력을 통하여 Player 에이전트의 죽음을 최소화하는 방향 으로 학습이 진행되었음을 확인할 수 있었다.
텐서보드의 학습결과 데이터에서 학습초기 C 그룹의 Support 에이전트의 누적 보상 값이 – 41.41을 기록하였지만 학습이 진행되면서 개선되어 누적 보상 값은 최대 16.4로 증가하였다.

후속연구

세 번째 한계점은 실험을 진행한 워크스테이션의 연산처리 능력의 한계 때문에 에이 전트에게 제한된 학습을 진행할 수밖에 없었다. 네번째 한계점은 보상을 많이 획득하는 방향으로 행동하는 강화학습의 작동 메커니즘 때문에 특정 목표를 수행하는데 있어서 발생하는 인과관계를 에이전트에게 전달하는 어려움이 존재하기 때문에 규칙이 더 복잡한 게임에 한해서는 한계점이 존재할 수 있다. 일례로 실험을 진행하던 중 목표를 수행하지 않고 가만히 있는 게 보상을 최대화 하는 결과가 발생하기도 하여 정지 상태를 유지하거나 목표를 인지하지 못해 특정 지역으로만 이동하는 에이전트도 존재하였다.
첫 번째 한계점은 에이전트끼리 경쟁하는 환경이 아닌 협력만 가능한 환경에서만 학습실험을 진행 하였다. 두 번째 한계점은 실험을 진행하는데 있어 발생할 수 있는 변수 창출의 요소가 기존 상용화된 게임과 비교했을 때 현저히 적다는 점이다. 기존 상용화 게임에서는 아이템, 스킬, 필살기, 특성등 다양한 요소가 존재하지만 본 실험에서는 구현 하지 못했다.
2019년 현재 알파고를 기점으로 머신 러닝 기반의 인공지능 기술이 폭발적으로 성장하고 발전함에 따라 게임 업계에서도 머신 러닝 기술을 게임에 활용하려는 움직임을 보이고 있다[8]. 본 연구 또한 게임 콘텐츠 개발에 있어서 협력을 위한 머신 러닝 적용 실험 사례 연구로서 본 연구를 통해 향후 머신 러닝을 활용한 게임 개발에 도움되길 기대한다.
본 연구는 다음과 같은 한계점을 가지고 있다. 첫 번째 한계점은 에이전트끼리 경쟁하는 환경이 아닌 협력만 가능한 환경에서만 학습실험을 진행 하였다. 두 번째 한계점은 실험을 진행하는데 있어 발생할 수 있는 변수 창출의 요소가 기존 상용화된 게임과 비교했을 때 현저히 적다는 점이다.
향후 강화학습 알고리즘이 더 발전되고 컴퓨터의 연산 처리 능력이 개선된다면 본 연구의 실험 환경보다 발전된 환경에서의 실험 또한 진행하여본 연구의 한계점들을 보완하고자 한다. 2019년 현재 알파고를 기점으로 머신 러닝 기반의 인공지능 기술이 폭발적으로 성장하고 발전함에 따라 게임 업계에서도 머신 러닝 기술을 게임에 활용하려는 움직임을 보이고 있다[8].

질의응답

핵심어	질문	논문에서 추출한 답변
	딥 마인드는 어떤 게임을 학습하였는가?	4%)의 승률을 보여주었다. 딥 마인드의 알파스타는 스타크래프2에 강화학습을 적용하는 프로젝트로 기존 플레이어들의 정보들을 학습하여 모방하고 약 1억 2000만 번의 자체 대결을 통해 스타크래프트2를 학습하였다. 사람의 기준으로 191년 동안 스타크래프트2를 플레이한 시간이다.
	강화 학습이란 어떤 것인가?	강화 학습(Reinforcement Learning)은 머신 러닝의 한 영역으로 에이전트(Agent)가 환경과의 상호작용을 통해 보상(Reward)을 최대화하는 행동 (Action)을 선택하여 반복 학습하는 방법이다[3]. [Fig.
	알파스타가 아직 부족한 부분은 무엇인가?	93%라는 높은 승률을 기록하였다. 하지만 이와 같은 연구 사례들은 사람과의 경쟁위주의 연구로 강화학습을 게임에서의 협력, 보좌를 위한 연구는 아직 부족한 실상이다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증