[논문]강화학습을 이용한 다중 에이전트 제어 전략

이형일; 김병천

doi:10.3745/kipstb.2003.10b.3.249

강화학습을 이용한 다중 에이전트 제어 전략
Multagent Control Strategy Using Reinforcement Learning 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.10B no.3, 2003년, pp.249 - 256

이형일 (김포대학 소프트웨어제작과) , 김병천 (한경대학교 웹정보공학과)

초록
AI-Helper

다중 에이전트 시스템에서 가장 중요한 문제는 여러 에이전트가 서로 효율적인 협동(coordination)을 통해서 목표(goal)를 성취하는 것과 다른 에이전트들과의 충돌(collision) 을 방지하는 것이다. 본 논문에서는 먹이 추적 문제의 목표를 효율적으로 성취하기 위해 새로운 전략 방법을 제안한다. 제안된 제어 전략은 다중 에이전트를 제어하기 위해 강화 학습을 이용하였고, 에이전트들간의 거리관계와 공간 관계를 고려하였다.

Abstract ▼ AI-Helper

The most important problems in the multi-agent system are to accomplish a goal through the efficient coordination of several agents and to prevent collision with other agents. In this paper, we propose a new control strategy for succeeding the goal of the prey pursuit problem efficiently. Our control method uses reinforcement learning to control the multi-agent system and consider the distance as well as the space relationship between the agents in the state space of the prey pursuit problem.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다중 에이전트 환경에서 효율적으로 학습을 수행할 수 있는 강화학습 방법을 제안하였다. 제안된 방법은 다중 에이전트 환경하에서 에이전트들의 공동 목표에 보다 빠르게 도달할 수 있으며, 다중 에이전트 환경하에서 문제점 즉, 에이전트들 간의 충돌 문제를 해결하였다.

제안 방법

본 논문에서 제안된 방법은 목표와 다른 에이전트들의 상태 정보를 알고 있는 대화형 제어 전략이므로 목표와 다른 에이전트들의 상태 정보를 알지 못한 상태에서는 적용이 불 가능하다. 그러므로 목표와 다른 에이전트들의 상태 정보를 알지 못하는 상태에서 에이전트들의 공동 목표에 빠르게 수렴할 수 있는 비 대화형 다중 에이전트 시스템의 개발이 필요하다.
본 논문에서 제안한 강화 학습을 이용한 다중 에이전트 제어 전략은 먹이를 포획하기 위하여 4개의 에이전트가 서로 협동과 조정을 통하여 중 돌을 방지하고, 보다 빠르게 먹이를 포획하기 위한 대화형 전략 즉, 분산 제어 전략이라 할 수 있다. 다중에 이 전트의 상태 공간은<S, <20, 分로 정의한다.
본 논문에서 제안한 강화 학습을 이용한 제어 전략과 Step- han과 Max가 제안한 지역 제어 전략 그리고 분산 제어 전략을 각 100회씩 실행한 후의 포획 결과와 포획 과정에서 발생한 충돌 횟 수는와 같다.

대상 데이터

본 논문에서 제안된 강화 학습을 이용한 다중 에이전트 제어 전략과 Stephan과 Merx가 제안한 지역 제어 전략과 분산 제어 전략의 성능 평가를 위해 (그림 2.1)과 같은 30 X 30 격자 환경을 이용하였다. (그림 2.

성능/효과

(그림 4.2)에서 나타난 것처럼 지역 제어 전략과 분산 제어 전략은 먹이의 위치에 따라 상태 전이 수가 많은 변화를 일으켰으나 본 논문에서 제안된 방법은 먹이의 위치와 상관없이 매우 빠르고 안정적으로 포획할 수 있음을 알 수 있다.
그리고 에이전트들 간의의 충돌 횟수는 5회에서 98회까지 발생하여 지역 제어 전략보다 분산 제어 전략이 다중 에이전트에 더 효율적임을 알 수 있었다. 그러나 본 논문에서 제안한 제어 전략은 85회 완전 포획을 하였고, 에이전트들 간의 충돌 횟수는 최대 12번밖에 발생하지 않아 에이전트와 먹이와의 거리 관계뿐만 아니라 다른 에이전트들 간의 공간적 관계를 고려하는 것이 더욱 효율적임을 알 수 있었다. 또한 지역 제어 전략과 분산제어 전략 그리고 본 논문에서 제안한 제어 전략이 먹이를 포획하기 위한 상태 전이 수는<표 3>과 같다.
실험을 통해 본 논문에서 제안된 제어 전략은 지역 제어 전략과 분산 제어 전략보다 매우 빠르게 먹이를 포획할 수 있고, 에이전트들 간의 충돌 현상이 거의 없음을 알 수 있었다. 그러므로 다중 에어전트를 제어하기 위해서는 에이전트들과 목표와의 관계만을 고려하는 것보다 에이전트들 간의 공간적 관계도 같이 고려하는 것이 더 효율적인 제어 전략임을 알 수 있었다.
<표 3>에서 나타난 것처럼 먹이 추적 문제를 100회 실행하는 동안 지역 제어 전략은 상태 전이가 평균 978회, 분산 제어 전략은 평균 6% 회 그리고 본 논문에서 제안된 제어 전략은 233회 발생하였다. 그러므로 본 논문에서 제안된 제어 전략이 지역 제어 전략이나 분산 제어 전략보다 빠르게 먹이를 포획할 수 있음을 알 수 있었고, 100회 실험하는 동안 먹 이를 10회 포획하는 동안 에이전트들의 평균 상태 전이 수는 (그림 4.2)와 같다.
그리고 에이전트들 간의 충돌 횟수는 49회에서 138회까지 발생하였으며, 분산 제어 전략은 82회 완전 포획을 하였고, 5번을 포획하지 못하였다. 그리고 에이전트들 간의의 충돌 횟수는 5회에서 98회까지 발생하여 지역 제어 전략보다 분산 제어 전략이 다중 에이전트에 더 효율적임을 알 수 있었다. 그러나 본 논문에서 제안한 제어 전략은 85회 완전 포획을 하였고, 에이전트들 간의 충돌 횟수는 최대 12번밖에 발생하지 않아 에이전트와 먹이와의 거리 관계뿐만 아니라 다른 에이전트들 간의 공간적 관계를 고려하는 것이 더욱 효율적임을 알 수 있었다.
먹이 추적 문제는 다중 에이전트의 성능 평가를 위해 자주 이용되고 있으며, 다양한 실세계의 개념을 구체화하기 위해 널리 이용되고 있다. 실험을 통해 본 논문에서 제안된 제어 전략은 지역 제어 전략과 분산 제어 전략보다 매우 빠르게 먹이를 포획할 수 있고, 에이전트들 간의 충돌 현상이 거의 없음을 알 수 있었다. 그러므로 다중 에어전트를 제어하기 위해서는 에이전트들과 목표와의 관계만을 고려하는 것보다 에이전트들 간의 공간적 관계도 같이 고려하는 것이 더 효율적인 제어 전략임을 알 수 있었다.
<표 3>에서 나타난 것처럼 먹이 추적 문제를 100회 실행하는 동안 지역 제어 전략은 상태 전이가 평균 978회, 분산 제어 전략은 평균 6% 회 그리고 본 논문에서 제안된 제어 전략은 233회 발생하였다. 그러므로 본 논문에서 제안된 제어 전략이 지역 제어 전략이나 분산 제어 전략보다 빠르게 먹이를 포획할 수 있음을 알 수 있었고, 100회 실험하는 동안 먹 이를 10회 포획하는 동안 에이전트들의 평균 상태 전이 수는 (그림 4.
본 논문에서는 다중 에이전트 환경에서 효율적으로 학습을 수행할 수 있는 강화학습 방법을 제안하였다. 제안된 방법은 다중 에이전트 환경하에서 에이전트들의 공동 목표에 보다 빠르게 도달할 수 있으며, 다중 에이전트 환경하에서 문제점 즉, 에이전트들 간의 충돌 문제를 해결하였다.

참고문헌 (15)

M. L. Minsky, Theory of Neural-Analoy Reinforcement Systems and Application to th Brain-Model Problem, Ph.D.Thesis, Princeton University, Princeton, 1954
M. L. Minsky, 'Step towards aritificial intelligence,' In Proceedings of the Institute of Radio Engineers, 49, pp.8-30, 1961
A. G. Barto, D. A. White and D. A. Sofge, 'Reinforcement Learning and adaptive critic methods,' Handbook of Intelligent Control, pp.469-491, 1992
A. W. Moore and C. G. Atkeson, 'Prioritized sweeping: Reinforcement Learning with less data and less real time,' Machine Leraning, 13, pp.103-130, 1993
C. W. Anderson, 'Learning to control an inverted pendulum using neural networks,' IEEE Control Systems Magazine, 9, pp.31-37

상세보기
F. S. Ho, 'Traffic flow modeling and control using artificial neural networks,' IEEE Control Systems, 16(5), pp.16-26, 1996

상세보기
R. H. Crites and A. G. Barto, 'Improving Elevator Performance Using Reinforcement Learning,' Advances in Neural Information Processing Systems, 8, MIT Press, Cambridge, MA, 1996
S. P. Singh, 'Transfer of Leraning by Composing Solutions of Elemental Sequential Tasks,' Machine Leraning, 8, pp.323-339, 1992

상세보기
C. J. C. H. Watkins, 'Technical note : Q-leraning,' Machine Leraning, 8, pp.279-292
R. S. Sutton, A. G. Barto, 'Reinforcement Learning : An Introduction,' MIT Press, 1988
M. Benda, V. Jagannathan and R. Dodhiawala, 'On optimalcooperation of knowledge source-an empirical invarstigation,' Technical Report BCS-G2010-28, Boeing Advanced Technology Center, Boeing Computing Services, Seattle, Washington, July, 1986
Peter Stone and Manuela Veloso, 'Multiagent System : A Survey from a Machine Learning,' Technical Report CMU-CS-97-193, The University of Carnegie Mellon, December, 1997
Sandip Sen, Mahendra Sekaran and John Hale, 'Learning to coordinate without sharing information,' National Conference on Aritificial Intelligence, pp.426-431, July, 1994
Tomas Haynes and Sandip Sen, 'Evloving behavioral strategies in predators and prey,' Adaptation and Learning in Multiagent System, Springer Verlag, Berlin, pp.113-126, 1996
L. M. Stephens and M. B. Merx, 'The effect of agent control strategy on the performance of a DAI pursuit problem,' In Proceeding of the 1990 Distributed AI Workshop, October, 1990

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

강화학습을 이용한 다중 에이전트 제어 전략
Multagent Control Strategy Using Reinforcement Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

강화학습을 이용한 다중 에이전트 제어 전략 Multagent Control Strategy Using Reinforcement Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

이형일 (14) 김병천 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

강화학습을 이용한 다중 에이전트 제어 전략
Multagent Control Strategy Using Reinforcement Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper