[논문]적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링

권기덕; 김인철

문제 정의

이러한 확률 게임은 앞서 소개한 마코프 결정 문제(MDP)를 행동 결정권자인 에이전트가 다수 참여하는 멀티 에이전트 환경으로 일반화한 것이다. 따라서 확률 게임에 참여하는 각 에이전트의 목표는 자신의 보상 값과 게임 상태 전이에 영향을 주는 다른 에이전트들의 존재를 고려하면서 자신의 최적 정책을 학습하는 것이다. 정의 6.
그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 절차를 설명한다. 또한 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐(Cat and Mouse) 게임을 소개하고, 이 게임을 테스베드삼아 수행한 비교 실험 결과들을 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다.
본 논문에서는 Q 학습을 확장하여 적대적 멀티 에이전트 환경에 적합한 멀티 에이전트 강화학습 방법을 제시한다. 특히 본 논문에서는 관찰되는 상대 에이전트의 행동을 바탕으로 상대 에이전트의 행동선택함수인 상대방 정책 모델을 점진적으로 학습하고, 이 모델을 기초로 자신의 최적 정책을 학습하는 멀티 에이전트 강화학습 방법을 제시한다.
본 논문에서는 과거에 관찰된 상대 에이전트의 행동들을 기초로 상대 에이전트의 행동 정책 모델을 학습하고, 이 모델을 바탕으로 다시 자신의 최적 정책을 학습하는 강화 학습방법을 제시한다. 이 멀티 에이전트 강화학습 방법은 두 명의 에이전트로 구성된 적대적 멀티 에이전트 환경을 가정하고 있으며, 두 에이전트는 동시에 행동을 수행함으로써 자신의 행동을 결정하기 전에 미리 상대 에이전트의 행동을 알 수는 없으나 일단 동시에 행동을 수행하고 나면 상대 에이전트가 수행한 행동을 관찰할 수 있다.
Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높인 것이 특징이다. 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐(Cat and Mouse) 게임을 테스베드로 삼아 다양한 비교 실험들을 전개하여 본 논문에서 제안한 상대방 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해보았다. 이 실험을 통해 상대방 정책 모델을 이용하는 것이 강화 학습의 효율성과 에이전트의 성능 향상에 도움이 되며, 상대 에이전트가 고정 정책을 쓰는 경우는 물론 Q 학습을 하는 경우에도 상대방 정책 모델 PM의 수렴 성을 확보할 수 있다는 것을 확인하였다.
Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타(DFA)나마코프 체인(Markov Chain)과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 멀티에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 절차를 설명한다.
본 논문에서는 앞서 제안한 정책 모델 기반의 멀티에이전트 강화 학습의 효과를 분석하기 위해 고양이와쥐게임을 이용한 실험을 전개하였다.
본 논문에서는 적대적 멀티 에이전트 환경에서 과거에 관찰된 상대 에이전트의 행동들을 기초로 상대 에이전트의 행동 정책 모델인 PM을 학습하고, 이 모델을 바탕으로 다시 자신의 최적 정책을 학습하는 멀티 에이전트 강화 학습방법을 제시하였다. Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높인 것이 특징이다.
실험의 두 번째 목적은 상대방 정책 모델 PM이 학습의 결과로 나타나는 에이전트의 성능에 미치는 영향을 분석해 보는 것이다. 이 목적을 위해 위에서 설명한 바와 같이 서로 다른 정책(고정 정책, 단순 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 서로 다른 학습(상대 모델이 없는 Q 학습, PM 기반의 Q 학습) 을 수행하는 학습 에이전트들 간의 게임을 차례대로 전개하면서 각 경우의 실험으로부터 게임 지속 시간(음ame duration time)을 측정하여 비교하였다.
게임 지속 시간이 길어지면 쥐의 성능이 향상되고 있는 것으로 판단할 수 있다. 실험의 세 번째 목적은 상대 에이전트의 정책에 따른 상대방 정책 모델 PM의 수렴속도를 분석하는 것이다. 이를 위해 서로 다른 정책들(고정 정책, 상대방 모델이 없는 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 PM 기반의 학습 에이전트 간의 게임들을 수행하면서 식 (12)와 같이 모델 오차를 계산해 보았다.
실험의 첫 번째 목적은 상대방 정책 모델 PM이 강화학습의 효율성에 미치는 영향을 분석해 보는 것이다. 상대 모델(opponent model)의 효과는 상대 에이전트가 어떤 정책을 쓰느냐에 매우 의존적이다.

가설 설정

본 논문에서 가정하는 적대적 멀티 에이전트 환경은 아래에 정의하는 바와 같은 두 명의 제로-합 확률 게임으로서, 적대관계의 두 에이전트가 동시에 각각 자신의 행동을 수행하는 동기화된 환경이다. 그리고 두 에이전트는 서로 관찰을 통해 상대방이 수행하는 행동을 알 수 있으나, 서로 간에는 어떤 통신도 없다고 가정한다.
본 논문에서 말하는 상대모델은 특정 상태 s에서 상대 에이전트가 행동 a를 수행할 가능성을 0과 1사이의 값으로 표현한 것을 말한다. 그리고 이와 같은 상대모델 역시 에이전트의 경험과 관찰을 통해 갱신을 거듭하며 충분한 갱신이 이루어지고 나면 이 모델도 수렴을 한다고 가정하고 있다. 모델의 수렴 성을 알아보기 위한 척도로 갱신 이전의 모델 값 PMt-l(S, aopponent)과 갱신 이후의 모델 값 PMt(S, aopponem)의 차이를 이용할 수 있다.
따라서 고양이와 쥐게임에서 상태 전이는 하나의 결정적 함수(deterministic function)로 표현될 수 있다. 그리고 쥐는 치즈를 먹었을 때, 고양이는 쥐를 잡았을 때 각각 일정한 양의 보상 값을 받는 것으로 가정한다.
상대 모델(opponent model)의 효과는 상대 에이전트가 어떤 정책을 쓰느냐에 매우 의존적이다. 상대 에이전트가 언제나 고정된 하나의 정책(fixed policy)에 따라 행동을 한다고 가정하면, 다른 특별한 이유가 없는 한 학습에이전트에게 주어지는 보상 값과 상태전이는 동적으로 변화하지 않고 정적이다. 이런 경우, 상대 에이전트를 환경의 한 부분으로 간주하고 환경에서 분리하여 별도의 모델을 만들지 않아도 학습이 효과적으로 이루어 질 수 있을 것으로 기대된다.
이 멀티 에이전트 강화학습 방법은 두 명의 에이전트로 구성된 적대적 멀티 에이전트 환경을 가정하고 있으며, 두 에이전트는 동시에 행동을 수행함으로써 자신의 행동을 결정하기 전에 미리 상대 에이전트의 행동을 알 수는 없으나 일단 동시에 행동을 수행하고 나면 상대 에이전트가 수행한 행동을 관찰할 수 있다. 하지만 두 에이전트 간에는 행동 결정에 영향을 미치는 어떠한 통신도 가능하지 않다고 가정한다. Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타(DFA)나마코프 체인(Markov Chain)과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다.

제안 방법

하지만 반대로 상대 에이전트역시 학습 기능을 가지고 시간에 따라 정책을 변경하는 경우에는 상대 에이전트를 환경에서 분리하여 별도의 모델을 구축하는 것이 학습에 효과적일 것으로 기대된다. 따라서 실험에서는 상대 에이전트(고양이)가 (i) 고정된 정책을 사용하는 경우와 (ii) Q 학습을 통해 정책을 변경하는 경우, 그리고 (ⅲ) 상대 에이전트 역시 상대방 정책 모델 PM을 이용하는 Q 학습을 하는 경우로 구분하였고, 또한 학습 에이전트(쥐)도 (a) 상대 모델이 없는 Q 학습과 (b) 상대방 정책 모델 PM을 이용한 Q 학습을 전개하는 경우로 나누어, 각각의 경우에 대한 비교 실험하였다.
선택하는 것이다. 그리고 각 경우의 실험에서 학습의 효율성을 분석하기 위해 식 (11)과 같은 Bellman 오차 (Bellman residualX 측정해 보았다.
Riley와 V너。so의 연구[1 이에서는 다른 에이전트들의 평가 함수 모델이나 행동 정책 모델을 직접 학습하지 않고 대신 환경 상태 전이들을 기록하여 두었다가 이들로부터 하나의 마코프 체인(Markov Chain)을 추출하고, 여기에 가능한 행동들을 붙여 하나의 마코프 결정 문제(MDP) 를 만들었다. 그리고 이 마코프 결정 문제를 풀어 자신의 로봇 축구팀을 위한 코치 조언(coach advice)을 만들어 내었다. 이와 같은 연구들은 종래의 연구들과는 달리 좀 더 풍부한 상대 모델들을 이용한다는 특징을 보이나 이러한 상대 모텔을 직접 강화 학습과 연계하여 이용하려는 노력을 보여주지는 않았다.
따라서 확률 게임의 유형은 곧 적대적 멀티 에이전트시스템과 협력적 멀티 에이전트시스템을 구분하는 기준이 된다. 두 번째 기준점은 상대모델로서, 학습을 위해 다른 에이전트의 가치함수(value function)나 정책(policy) 에 대한 명시적인 모델을 이용하느냐 그렇지 않느냐로 기존의 멀티 에이전트 강화학습 알고리즘들을 분류한다. 비록 명시적인 상대모델을 이용하지 않는 것으로 분류된 멀티 에이전트 강화학습 알고리즘들이라 하더라도 사전에 다른 에이전트들의 정책이나 행동양식에 대한 특별한 가정(assumption)을 기초로 학습을 진행하는 경우가 대부분이다.
보는 것이다. 이 목적을 위해 위에서 설명한 바와 같이 서로 다른 정책(고정 정책, 단순 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 서로 다른 학습(상대 모델이 없는 Q 학습, PM 기반의 Q 학습) 을 수행하는 학습 에이전트들 간의 게임을 차례대로 전개하면서 각 경우의 실험으로부터 게임 지속 시간(음ame duration time)을 측정하여 비교하였다. 게임 지속 시간은 새로운 게임이 시작되어 쥐가 고양이에 의해 잡힐 때까지 유지한 시간을 말한다.
실험의 세 번째 목적은 상대 에이전트의 정책에 따른 상대방 정책 모델 PM의 수렴속도를 분석하는 것이다. 이를 위해 서로 다른 정책들(고정 정책, 상대방 모델이 없는 Q 학습, PM 기반의 Q 학습)을 사용하는 상대 에이전트들과 PM 기반의 학습 에이전트 간의 게임들을 수행하면서 식 (12)와 같이 모델 오차를 계산해 보았다.
하지만 Carmel과 Markovitch의 연구[9]에서는 멀티 에이전트 시스템을 구성하는 각 에이전트의 행동 정책 모델을 하나의 결정적 유한 상태 오토마타(Deterministic Finite Automata, DFA) 로 표현하고 이것을 학습하였다. 즉, 이 연구에서는 하나의 DFA로 표현된 상대 에이전트의 행동 정책 모델을 학습하고 이것을 기초로 역시 하나의 DFA로 표현된 자신의 행동 정책을 결정하는 방법을 제시하였다. Riley와 V너。so의 연구[1 이에서는 다른 에이전트들의 평가 함수 모델이나 행동 정책 모델을 직접 학습하지 않고 대신 환경 상태 전이들을 기록하여 두었다가 이들로부터 하나의 마코프 체인(Markov Chain)을 추출하고, 여기에 가능한 행동들을 붙여 하나의 마코프 결정 문제(MDP) 를 만들었다.
특히 본 논문에서는 관찰되는 상대 에이전트의 행동을 바탕으로 상대 에이전트의 행동선택함수인 상대방 정책 모델을 점진적으로 학습하고, 이 모델을 기초로 자신의 최적 정책을 학습하는 멀티 에이전트 강화학습 방법을 제시한다. 본 논문에서 가정하는 적대적 멀티 에이전트 환경은 아래에 정의하는 바와 같은 두 명의 제로-합 확률 게임으로서, 적대관계의 두 에이전트가 동시에 각각 자신의 행동을 수행하는 동기화된 환경이다.

대상 데이터

특히 본 논문에서는 관찰되는 상대 에이전트의 행동을 바탕으로 상대 에이전트의 행동선택함수인 상대방 정책 모델을 점진적으로 학습하고, 이 모델을 기초로 자신의 최적 정책을 학습하는 멀티 에이전트 강화학습 방법을 제시한다. 본 논문에서 가정하는 적대적 멀티 에이전트 환경은 아래에 정의하는 바와 같은 두 명의 제로-합 확률 게임으로서, 적대관계의 두 에이전트가 동시에 각각 자신의 행동을 수행하는 동기화된 환경이다. 그리고 두 에이전트는 서로 관찰을 통해 상대방이 수행하는 행동을 알 수 있으나, 서로 간에는 어떤 통신도 없다고 가정한다.

이론/모형

알고리즘이다. 이 알고리즘은 Nash 평형과 Nash-Q 함수 값에 의존하는 다른 알고리즘과는 달리, 다른 에이전트들의 정적인 정책모델을 이용한다. Fictitious Play 알고리즘에서 다른 에이전트들의 정책에 대한 믿음은 과거 플레이의 실험적 분포에 따라 표현된다.

성능/효과

하지만 두 에이전트 간에는 행동 결정에 영향을 미치는 어떠한 통신도 가능하지 않다고 가정한다. Q 학습 알고리즘을 확장한 이 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타(DFA)나마코프 체인(Markov Chain)과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 본 논문에서는 멀티에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다.
Bellman 오차가 5를 기준으로 그 이하가 된다는 것은 상태에 대한 현재와 이전의 가치 (Value)가 줄었다는 것을 의미하며 이는 상태에 대한 최적의 가치에 수렴해 간다고 말할 수 있다. 따라서 상대방 정책 모델 PM을 이용한 Q 학습이 상대 모델을 이용하지 않는 Q 학습 보다 빨리 Q 함수가 수렴한다는 것을 알 수 있다.
본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐(Cat and Mouse) 게임을 테스베드로 삼아 다양한 비교 실험들을 전개하여 본 논문에서 제안한 상대방 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해보았다. 이 실험을 통해 상대방 정책 모델을 이용하는 것이 강화 학습의 효율성과 에이전트의 성능 향상에 도움이 되며, 상대 에이전트가 고정 정책을 쓰는 경우는 물론 Q 학습을 하는 경우에도 상대방 정책 모델 PM의 수렴 성을 확보할 수 있다는 것을 확인하였다. 본 연구의 결과를 두 명 이상 다수의 에이전트가 참여하는 제로-합 게임이나 일반-합 게임으로 확장하는 것은 의미 있는 향후 연구가 될 것으로 판단한다.
그림 4와 그림 5의 실험 결과를 통해 발견할 수 있는 두 번째 사실은 쥐가 학습을 하는 경우 (상대 모델이 있든지 없든지 상관없이)에는 상대 에이전트인 고양이가 고정 정책을 쓸 때보다 고양이도 학습을 할 때가 더 빨리 성능 수렴상태에 도달한다는 것이다. 특히 상대 에이전트인 고양이가상대방 정책 모델 PM을 이용한 Q 학습을 할 때 가장 빨리 성능 수렴상태에 도달하였다는 것을 확인할 수 있다. 하지만 이 실험결과를 통해서는 쥐가 상대방 정책 모델인 PM을 이용하는 경우와 그렇지 않은 경우 간의 뚜렷한 성능 차이를 확인할 수는 없었다.

후속연구

이 실험을 통해 상대방 정책 모델을 이용하는 것이 강화 학습의 효율성과 에이전트의 성능 향상에 도움이 되며, 상대 에이전트가 고정 정책을 쓰는 경우는 물론 Q 학습을 하는 경우에도 상대방 정책 모델 PM의 수렴 성을 확보할 수 있다는 것을 확인하였다. 본 연구의 결과를 두 명 이상 다수의 에이전트가 참여하는 제로-합 게임이나 일반-합 게임으로 확장하는 것은 의미 있는 향후 연구가 될 것으로 판단한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링
Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링 Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

권기덕 (2) 김인철 (75)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링
Policy Modeling for Efficient Reinforcement Learning in Adversarial Multi-Agent Environments 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper