멀티 에이전트강화 학습에서 협동 전략을 배우는데 있어 각 에이전트의 관계를 정의하는 것이 가장 중요하다. 그래프는 각 에이전트의 이러한 관 계를 정의하는데 있어 인간이 이해하기 쉽다는 장점이 있다. 최근 이러한 그래프 데이터를 통해 강화 학습을 적용시킨 연구가 좋은 성과를 거두었 다. 그러나 그래프의 인접 행렬을 구성하는 방법이 ...
멀티 에이전트강화 학습에서 협동 전략을 배우는데 있어 각 에이전트의 관계를 정의하는 것이 가장 중요하다. 그래프는 각 에이전트의 이러한 관 계를 정의하는데 있어 인간이 이해하기 쉽다는 장점이 있다. 최근 이러한 그래프 데이터를 통해 강화 학습을 적용시킨 연구가 좋은 성과를 거두었 다. 그러나 그래프의 인접 행렬을 구성하는 방법이 유클리디안 거리를 이 용하기 때문에, 실제 에이전트의 이동해야 할 거리와 차이가 나는 환경에 서는 이로 인해 성능이 좋지 않은 문제가 발생한다. 환경에 따라 학습이 불안정한 기존 그래프 기반 강화 학습 모델을 여러 환경에 적합한 모델로 만들기 위해, 본 논문에서는 인접 행렬 추상화를 이용한 멀티 에이전트 강 화 학습 모델을 제안한다. 에이전트가 우선적으로 협동에 필요한 인접 노 드들을 환경과 상호작용하면서 구성하므로, 학습 환경에 적절한 인접 노드 간의 관계를 표현하는 데 있어 더 유리하다. 또한, 기존의 연구가 가지고 있는 멀티 에이전트 환경 상에서 발생하는 비 정적 문제와 동적 그래프에 서 발생하는 문제를 해결하여 학습의 불안정성과 수렴 속도를 향상시켰다. 실험은 Unity를 통해 제작한 환경과 StarCraft II의 mini-game으로 진행하 였으며, 기존 그래프 기반 멀티 에이전트 강화 학습 모델과 비교해 좋은 성능을 달성한다.
멀티 에이전트 강화 학습에서 협동 전략을 배우는데 있어 각 에이전트의 관계를 정의하는 것이 가장 중요하다. 그래프는 각 에이전트의 이러한 관 계를 정의하는데 있어 인간이 이해하기 쉽다는 장점이 있다. 최근 이러한 그래프 데이터를 통해 강화 학습을 적용시킨 연구가 좋은 성과를 거두었 다. 그러나 그래프의 인접 행렬을 구성하는 방법이 유클리디안 거리를 이 용하기 때문에, 실제 에이전트의 이동해야 할 거리와 차이가 나는 환경에 서는 이로 인해 성능이 좋지 않은 문제가 발생한다. 환경에 따라 학습이 불안정한 기존 그래프 기반 강화 학습 모델을 여러 환경에 적합한 모델로 만들기 위해, 본 논문에서는 인접 행렬 추상화를 이용한 멀티 에이전트 강 화 학습 모델을 제안한다. 에이전트가 우선적으로 협동에 필요한 인접 노 드들을 환경과 상호작용하면서 구성하므로, 학습 환경에 적절한 인접 노드 간의 관계를 표현하는 데 있어 더 유리하다. 또한, 기존의 연구가 가지고 있는 멀티 에이전트 환경 상에서 발생하는 비 정적 문제와 동적 그래프에 서 발생하는 문제를 해결하여 학습의 불안정성과 수렴 속도를 향상시켰다. 실험은 Unity를 통해 제작한 환경과 StarCraft II의 mini-game으로 진행하 였으며, 기존 그래프 기반 멀티 에이전트 강화 학습 모델과 비교해 좋은 성능을 달성한다.
In learning multi-agent reinforcement learning, it is most important to define the relationship of each agent. The graph has the advantage that it is easy for humans to understand the relationship of each agent. Recently, the research that applied reinforcement learning using the gra...
In learning multi-agent reinforcement learning, it is most important to define the relationship of each agent. The graph has the advantage that it is easy for humans to understand the relationship of each agent. Recently, the research that applied reinforcement learning using the graph data has achieved good results. However, since the method of generating the adjacency matrix of the graph uses the Euclidean distance, there is a problem in the environment where the distance of the actual agent is different from the Euclidean distance. In this paper, we propose a multi-agent reinforcement learning model using adjacency matrix abstraction in order to solve the unstable learning according to the environment. Since the agent first configures the neighbor nodes necessary for cooperation by interacting with the environment, it is more advantageous to express the relation between adjacent nodes by forming adjacent nodes suitable for the environment. In addition, it solves non-stationary problems and problems that occur in dynamic graphs and improves learning instability and convergence speed. We experiment proposed methods using GridWorld and StarCraft II mini-game. The proposed method achieves good performance compared with the existing method.
In learning multi-agent reinforcement learning, it is most important to define the relationship of each agent. The graph has the advantage that it is easy for humans to understand the relationship of each agent. Recently, the research that applied reinforcement learning using the graph data has achieved good results. However, since the method of generating the adjacency matrix of the graph uses the Euclidean distance, there is a problem in the environment where the distance of the actual agent is different from the Euclidean distance. In this paper, we propose a multi-agent reinforcement learning model using adjacency matrix abstraction in order to solve the unstable learning according to the environment. Since the agent first configures the neighbor nodes necessary for cooperation by interacting with the environment, it is more advantageous to express the relation between adjacent nodes by forming adjacent nodes suitable for the environment. In addition, it solves non-stationary problems and problems that occur in dynamic graphs and improves learning instability and convergence speed. We experiment proposed methods using GridWorld and StarCraft II mini-game. The proposed method achieves good performance compared with the existing method.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.