멀티 에이전트강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.
멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.
An important issue in multiagent reinforcement learning is how an agent should team its optimal policy through trial-and-error interactions in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for multiagent reinforcement teaming tend to ...
An important issue in multiagent reinforcement learning is how an agent should team its optimal policy through trial-and-error interactions in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for multiagent reinforcement teaming tend to apply single-agent reinforcement learning techniques without any extensions or are based upon some unrealistic assumptions even though they build and use explicit models of other agents. In this paper, basic concepts that constitute the common foundation of multiagent reinforcement learning techniques are first formulated, and then, based on these concepts, previous works are compared in terms of characteristics and limitations. After that, a policy model of the opponent agent and a new multiagent reinforcement learning method using this model are introduced. Unlike previous works, the proposed multiagent reinforcement learning method utilize a policy model instead of the Q function model of the opponent agent. Moreover, this learning method can improve learning efficiency by using a simpler one than other richer but time-consuming policy models such as Finite State Machines(FSM) and Markov chains. In this paper. the Cat and Mouse game is introduced as an adversarial multiagent environment. And effectiveness of the proposed multiagent reinforcement learning method is analyzed through experiments using this game as testbed.
An important issue in multiagent reinforcement learning is how an agent should team its optimal policy through trial-and-error interactions in a dynamic environment where there exist other agents able to influence its own performance. Most previous works for multiagent reinforcement teaming tend to apply single-agent reinforcement learning techniques without any extensions or are based upon some unrealistic assumptions even though they build and use explicit models of other agents. In this paper, basic concepts that constitute the common foundation of multiagent reinforcement learning techniques are first formulated, and then, based on these concepts, previous works are compared in terms of characteristics and limitations. After that, a policy model of the opponent agent and a new multiagent reinforcement learning method using this model are introduced. Unlike previous works, the proposed multiagent reinforcement learning method utilize a policy model instead of the Q function model of the opponent agent. Moreover, this learning method can improve learning efficiency by using a simpler one than other richer but time-consuming policy models such as Finite State Machines(FSM) and Markov chains. In this paper. the Cat and Mouse game is introduced as an adversarial multiagent environment. And effectiveness of the proposed multiagent reinforcement learning method is analyzed through experiments using this game as testbed.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 확률 게임은 앞서 소개한 마코프 결정 문제(MDP)를 행동 결정권자인 에이전트가 다수 참여하는 멀티 에이전트 환경으로 일반화한 것이다. 따라서 확률 게임에 참여하는 각 에이전트의 목표는 자신의 보상 값과 게임 상태 전이에 영향을 주는 다른 에이전트들의 존재를 고려하면서 자신의 최적 정책을 학습하는 것이다. 정의 6.
그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 절차를 설명한다. 또한 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐(Cat and Mouse) 게임을 소개하고, 이 게임을 테스베드삼아 수행한 비교 실험 결과들을 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.
본 논문에서는 Q 학습을 확장하여 적대적 멀티 에이전트 환경에 적합한 멀티 에이전트 강화학습 방법을 제시한다. 특히 본 논문에서는 관찰되는 상대 에이전트의 행동을 바탕으로 상대 에이전트의 행동선택함수인 상대방 정책 모델을 점진적으로 학습하고, 이 모델을 기초로 자신의 최적 정책을 학습하는 멀티 에이전트 강화학습 방법을 제시한다.
본 논문에서는 과거에 관찰된 상대 에이전트의 행동들을 기초로 상대 에이전트의 행동 정책 모델을 학습하고, 이 모델을 바탕으로 다시 자신의 최적 정책을 학습하는 강화 학습방법을 제시한다. 이 멀티 에이전트 강화학습 방법은 두 명의 에이전트로 구성된 적대적 멀티 에이전트 환경을 가정하고 있으며, 두 에이전트는 동시에 행동을 수행함으로써 자신의 행동을 결정하기 전에 미리 상대 에이전트의 행동을 알 수는 없으나 일단 동시에 행동을 수행하고 나면 상대 에이전트가 수행한 행동을 관찰할 수 있다.
Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높인 것이 특징이다. 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐(Cat and Mouse) 게임을 테스베드로 삼아 다양한 비교 실험들을 전개하여 본 논문에서 제안한 상대방 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해보았다. 이 실험을 통해 상대방 정책 모델을 이용하는 것이 강화 학습의 효율성과 에이전트의 성능 향상에 도움이 되며, 상대 에이전트가 고정 정책을 쓰는 경우는 물론 Q 학습을 하는 경우에도 상대방 정책 모델 PM의 수렴 성을 확보할 수 있다는 것을 확인하였다.
Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타(DFA)나마코프 체인(Markov Chain)과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 멀티에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 절차를 설명한다.
본 논문에서는 앞서 제안한 정책 모델 기반의 멀티에이전트 강화 학습의 효과를 분석하기 위해 고양이와쥐게임을 이용한 실험을 전개하였다.
본 논문에서는 적대적 멀티 에이전트 환경에서 과거에 관찰된 상대 에이전트의 행동들을 기초로 상대 에이전트의 행동 정책 모델인 PM을 학습하고, 이 모델을 바탕으로 다시 자신의 최적 정책을 학습하는 멀티 에이전트 강화 학습방법을 제시하였다. Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높인 것이 특징이다.
실험의 두 번째 목적은 상대방 정책 모델 PM이 학습의 결과로 나타나는 에이전트의 성능에 미치는 영향을 분석해 보는 것이다. 이 목적을 위해 위에서 설명한 바와 같이 서로 다른 정책(고정 정책, 단순 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 서로 다른 학습(상대 모델이 없는 Q 학습, PM 기반의 Q 학습) 을 수행하는 학습 에이전트들 간의 게임을 차례대로 전개하면서 각 경우의 실험으로부터 게임 지속 시간(음ame duration time)을 측정하여 비교하였다.
게임 지속 시간이 길어지면 쥐의 성능이 향상되고 있는 것으로 판단할 수 있다. 실험의 세 번째 목적은 상대 에이전트의 정책에 따른 상대방 정책 모델 PM의 수렴속도를 분석하는 것이다. 이를 위해 서로 다른 정책들(고정 정책, 상대방 모델이 없는 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 PM 기반의 학습 에이전트 간의 게임들을 수행하면서 식 (12)와 같이 모델 오차를 계산해 보았다.
실험의 첫 번째 목적은 상대방 정책 모델 PM이 강화학습의 효율성에 미치는 영향을 분석해 보는 것이다. 상대 모델(opponent model)의 효과는 상대 에이전트가 어떤 정책을 쓰느냐에 매우 의존적이다.
가설 설정
본 논문에서 가정하는 적대적 멀티 에이전트 환경은 아래에 정의하는 바와 같은 두 명의 제로-합 확률 게임으로서, 적대관계의 두 에이전트가 동시에 각각 자신의 행동을 수행하는 동기화된 환경이다. 그리고 두 에이전트는 서로 관찰을 통해 상대방이 수행하는 행동을 알 수 있으나, 서로 간에는 어떤 통신도 없다고 가정한다.
본 논문에서 말하는 상대모델은 특정 상태 s에서 상대 에이전트가 행동 a를 수행할 가능성을 0과 1사이의 값으로 표현한 것을 말한다. 그리고 이와 같은 상대모델 역시 에이전트의 경험과 관찰을 통해 갱신을 거듭하며 충분한 갱신이 이루어지고 나면 이 모델도 수렴을 한다고 가정하고 있다. 모델의 수렴 성을 알아보기 위한 척도로 갱신 이전의 모델 값 PMt-l(S, aopponent)과 갱신 이후의 모델 값 PMt(S, aopponem)의 차이를 이용할 수 있다.
따라서 고양이와 쥐게임에서 상태 전이는 하나의 결정적 함수(deterministic function)로 표현될 수 있다. 그리고 쥐는 치즈를 먹었을 때, 고양이는 쥐를 잡았을 때 각각 일정한 양의 보상 값을 받는 것으로 가정한다.
상대 모델(opponent model)의 효과는 상대 에이전트가 어떤 정책을 쓰느냐에 매우 의존적이다. 상대 에이전트가 언제나 고정된 하나의 정책(fixed policy)에 따라 행동을 한다고 가정하면, 다른 특별한 이유가 없는 한 학습에이전트에게 주어지는 보상 값과 상태전이는 동적으로 변화하지 않고 정적이다. 이런 경우, 상대 에이전트를 환경의 한 부분으로 간주하고 환경에서 분리하여 별도의 모델을 만들지 않아도 학습이 효과적으로 이루어 질 수 있을 것으로 기대된다.
이 멀티 에이전트 강화학습 방법은 두 명의 에이전트로 구성된 적대적 멀티 에이전트 환경을 가정하고 있으며, 두 에이전트는 동시에 행동을 수행함으로써 자신의 행동을 결정하기 전에 미리 상대 에이전트의 행동을 알 수는 없으나 일단 동시에 행동을 수행하고 나면 상대 에이전트가 수행한 행동을 관찰할 수 있다. 하지만 두 에이전트 간에는 행동 결정에 영향을 미치는 어떠한 통신도 가능하지 않다고 가정한다. Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타(DFA)나마코프 체인(Markov Chain)과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다.
제안 방법
하지만 반대로 상대 에이전트역시 학습 기능을 가지고 시간에 따라 정책을 변경하는 경우에는 상대 에이전트를 환경에서 분리하여 별도의 모델을 구축하는 것이 학습에 효과적일 것으로 기대된다. 따라서 실험에서는 상대 에이전트(고양이)가 (i) 고정된 정책을 사용하는 경우와 (ii) Q 학습을 통해 정책을 변경하는 경우, 그리고 (ⅲ) 상대 에이전트 역시 상대방 정책 모델 PM을 이용하는 Q 학습을 하는 경우로 구분하였고, 또한 학습 에이전트(쥐)도 (a) 상대 모델이 없는 Q 학습과 (b) 상대방 정책 모델 PM을 이용한 Q 학습을 전개하는 경우로 나누어, 각각의 경우에 대한 비교 실험하였다.
선택하는 것이다. 그리고 각 경우의 실험에서 학습의 효율성을 분석하기 위해 식 (11)과 같은 Bellman 오차 (Bellman residualX 측정해 보았다.
Riley와 V너。so의 연구[1 이에서는 다른 에이전트들의 평가 함수 모델이나 행동 정책 모델을 직접 학습하지 않고 대신 환경 상태 전이들을 기록하여 두었다가 이들로부터 하나의 마코프 체인(Markov Chain)을 추출하고, 여기에 가능한 행동들을 붙여 하나의 마코프 결정 문제(MDP) 를 만들었다. 그리고 이 마코프 결정 문제를 풀어 자신의 로봇 축구팀을 위한 코치 조언(coach advice)을 만들어 내었다. 이와 같은 연구들은 종래의 연구들과는 달리 좀 더 풍부한 상대 모델들을 이용한다는 특징을 보이나 이러한 상대 모텔을 직접 강화 학습과 연계하여 이용하려는 노력을 보여주지는 않았다.
따라서 확률 게임의 유형은 곧 적대적 멀티 에이전트시스템과 협력적 멀티 에이전트시스템을 구분하는 기준이 된다. 두 번째 기준점은 상대모델로서, 학습을 위해 다른 에이전트의 가치함수(value function)나 정책(policy) 에 대한 명시적인 모델을 이용하느냐 그렇지 않느냐로 기존의 멀티 에이전트 강화학습 알고리즘들을 분류한다. 비록 명시적인 상대모델을 이용하지 않는 것으로 분류된 멀티 에이전트 강화학습 알고리즘들이라 하더라도 사전에 다른 에이전트들의 정책이나 행동양식에 대한 특별한 가정(assumption)을 기초로 학습을 진행하는 경우가 대부분이다.
보는 것이다. 이 목적을 위해 위에서 설명한 바와 같이 서로 다른 정책(고정 정책, 단순 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 서로 다른 학습(상대 모델이 없는 Q 학습, PM 기반의 Q 학습) 을 수행하는 학습 에이전트들 간의 게임을 차례대로 전개하면서 각 경우의 실험으로부터 게임 지속 시간(음ame duration time)을 측정하여 비교하였다. 게임 지속 시간은 새로운 게임이 시작되어 쥐가 고양이에 의해 잡힐 때까지 유지한 시간을 말한다.
실험의 세 번째 목적은 상대 에이전트의 정책에 따른 상대방 정책 모델 PM의 수렴속도를 분석하는 것이다. 이를 위해 서로 다른 정책들(고정 정책, 상대방 모델이 없는 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 PM 기반의 학습 에이전트 간의 게임들을 수행하면서 식 (12)와 같이 모델 오차를 계산해 보았다.
하지만 Carmel과 Markovitch의 연구[9]에서는 멀티 에이전트 시스템을 구성하는 각 에이전트의 행동 정책 모델을 하나의 결정적 유한 상태 오토마타(Deterministic Finite Automata, DFA) 로 표현하고 이것을 학습하였다. 즉, 이 연구에서는 하나의 DFA로 표현된 상대 에이전트의 행동 정책 모델을 학습하고 이것을 기초로 역시 하나의 DFA로 표현된 자신의 행동 정책을 결정하는 방법을 제시하였다. Riley와 V너。so의 연구[1 이에서는 다른 에이전트들의 평가 함수 모델이나 행동 정책 모델을 직접 학습하지 않고 대신 환경 상태 전이들을 기록하여 두었다가 이들로부터 하나의 마코프 체인(Markov Chain)을 추출하고, 여기에 가능한 행동들을 붙여 하나의 마코프 결정 문제(MDP) 를 만들었다.
특히 본 논문에서는 관찰되는 상대 에이전트의 행동을 바탕으로 상대 에이전트의 행동선택함수인 상대방 정책 모델을 점진적으로 학습하고, 이 모델을 기초로 자신의 최적 정책을 학습하는 멀티 에이전트 강화학습 방법을 제시한다. 본 논문에서 가정하는 적대적 멀티 에이전트 환경은 아래에 정의하는 바와 같은 두 명의 제로-합 확률 게임으로서, 적대관계의 두 에이전트가 동시에 각각 자신의 행동을 수행하는 동기화된 환경이다.
대상 데이터
특히 본 논문에서는 관찰되는 상대 에이전트의 행동을 바탕으로 상대 에이전트의 행동선택함수인 상대방 정책 모델을 점진적으로 학습하고, 이 모델을 기초로 자신의 최적 정책을 학습하는 멀티 에이전트 강화학습 방법을 제시한다. 본 논문에서 가정하는 적대적 멀티 에이전트 환경은 아래에 정의하는 바와 같은 두 명의 제로-합 확률 게임으로서, 적대관계의 두 에이전트가 동시에 각각 자신의 행동을 수행하는 동기화된 환경이다. 그리고 두 에이전트는 서로 관찰을 통해 상대방이 수행하는 행동을 알 수 있으나, 서로 간에는 어떤 통신도 없다고 가정한다.
이론/모형
알고리즘이다. 이 알고리즘은 Nash 평형과 Nash-Q 함수 값에 의존하는 다른 알고리즘과는 달리, 다른 에이전트들의 정적인 정책모델을 이용한다. Fictitious Play 알고리즘에서 다른 에이전트들의 정책에 대한 믿음은 과거 플레이의 실험적 분포에 따라 표현된다.
성능/효과
하지만 두 에이전트 간에는 행동 결정에 영향을 미치는 어떠한 통신도 가능하지 않다고 가정한다. Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타(DFA)나마코프 체인(Markov Chain)과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 멀티에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다.
Bellman 오차가 5를 기준으로 그 이하가 된다는 것은 상태에 대한 현재와 이전의 가치 (Value)가 줄었다는 것을 의미하며 이는 상태에 대한 최적의 가치에 수렴해 간다고 말할 수 있다. 따라서 상대방 정책 모델 PM을 이용한 Q 학습이 상대 모델을 이용하지 않는 Q 학습 보다 빨리 Q 함수가 수렴한다는 것을 알 수 있다.
본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐(Cat and Mouse) 게임을 테스베드로 삼아 다양한 비교 실험들을 전개하여 본 논문에서 제안한 상대방 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해보았다. 이 실험을 통해 상대방 정책 모델을 이용하는 것이 강화 학습의 효율성과 에이전트의 성능 향상에 도움이 되며, 상대 에이전트가 고정 정책을 쓰는 경우는 물론 Q 학습을 하는 경우에도 상대방 정책 모델 PM의 수렴 성을 확보할 수 있다는 것을 확인하였다. 본 연구의 결과를 두 명 이상 다수의 에이전트가 참여하는 제로-합 게임이나 일반-합 게임으로 확장하는 것은 의미 있는 향후 연구가 될 것으로 판단한다.
그림 4와 그림 5의 실험 결과를 통해 발견할 수 있는 두 번째 사실은 쥐가 학습을 하는 경우 (상대 모델이 있든지 없든지 상관없이)에는 상대 에이전트인 고양이가 고정 정책을 쓸 때보다 고양이도 학습을 할 때가 더 빨리 성능 수렴상태에 도달한다는 것이다. 특히 상대 에이전트인 고양이가상대방 정책 모델 PM을 이용한 Q 학습을 할 때 가장 빨리 성능 수렴상태에 도달하였다는 것을 확인할 수 있다. 하지만 이 실험결과를 통해서는 쥐가 상대방 정책 모델인 PM을 이용하는 경우와 그렇지 않은 경우 간의 뚜렷한 성능 차이를 확인할 수는 없었다.
후속연구
이 실험을 통해 상대방 정책 모델을 이용하는 것이 강화 학습의 효율성과 에이전트의 성능 향상에 도움이 되며, 상대 에이전트가 고정 정책을 쓰는 경우는 물론 Q 학습을 하는 경우에도 상대방 정책 모델 PM의 수렴 성을 확보할 수 있다는 것을 확인하였다. 본 연구의 결과를 두 명 이상 다수의 에이전트가 참여하는 제로-합 게임이나 일반-합 게임으로 확장하는 것은 의미 있는 향후 연구가 될 것으로 판단한다.
참고문헌 (12)
Yang E. and Gu D., "Multiagent Reinforcement Learning for Multi-Robot Systems: A Survey," University of Essex Technical Report CSM-404, 2004
Tesauro G., "Multi Agent Learning: Mini Tutorial," IBM T.J.Watson Research Center, 2000
Rahimi K.A., Tabarraei H., Sadeghi B., "Reinforcement Learning Based Supplier-Agents for Electricity Markets," Proceedings of the IEEE International Symposium on Control and Automation, pp. 1405-1410, 2005
Shoham Y., Powers R., and Grenager T., "Multi- Agent Reinforcement Learning: A Critical Survey," Technical Report, Stanford University, 2003
Littman M.L., "Markov Games as Framework for Multi-Agent Reinforcement Learning," Proceedings of the 11th International Conference on Machine Learning, pp. 157-163, 1994
Hu J. and Wellman M.P., "Nash Q-learning for General-Sum Stochastic Games," Journal of Machine Learning Research, Vol.4, pp. 1039-1069, 2003
Littman M.L., "Friend-or-Foe Q-learning in General- Sum Games," Proceedings of the 18th International Conference on Machine Learning, Morgan Kaufman, pp. 322-328, 2001
Claus C. and Boutilier C., "The Dynamics of Reinforcement Learning in Cooperative Multiagent Systems," Proceedings of AAAI-98, pp. 746-752, 1998
Carmel D. and Markovitch S., "Learning Models of Intelligent Agents," Proceedings of AAAI-96, pp. 62-67, 1996
Riley P. and Veloso M., "Advice Generation from Observed Execution: Abstract Markov Decision Process Learning," Proceedings of AAAI-2004, 2004
Sutton, R.S., Barto, A.G. Reinforcement Learning: An Introduction, MIT Press, 1998
Chalkiadakis G. and Boutilier C., "Multiagent Reinforcement Learning: Theoretical Framework and An Algorithm," Proceedings of the 2nd AAMAS-03, pp. 709-716, 2003.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.