$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] A Study of Collaborative and Distributed Multi-agent Path-planning using Reinforcement Learning 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.26 no.3, 2021년, pp.9 - 17  

Kim, Min-Suk (Dept. of Human Intelligence and Robot Engineering, Sangmyung University)

초록
AI-Helper 아이콘AI-Helper

동적 시스템 환경에서 지능형 협업 자율 시스템을 위한 기계학습 기반의 다양한 방법들이 연구 및 개발되고 있다. 본 연구에서는 분산 노드 기반 컴퓨팅 방식의 자율형 다중 에이전트 경로 탐색 방법을 제안하고 있으며, 지능형 학습을 통한 시스템 최적화를 위해 강화학습 방법을 적용하여 다양한 실험을 진행하였다. 강화학습 기반의 다중 에이전트 시스템에이전트의 연속된 행동에 따른 누적 보상을 평가하고 이를 학습하여 정책을 개선하는 지능형 최적화 기계학습 방법이다. 본 연구에서 제안한 방법은 강화학습 기반 다중 에이전트 최적화 경로 탐색 성능을 높이기 위해 학습 초기 경로 탐색 방법을 개선한 최적화 방법을 제안하고 있다. 또한, 분산된 다중 목표를 구성하여 에이전트간 정보 공유를 이용한 학습 최적화를 시도하였으며, 비동기식 에이전트 경로 탐색 기능을 추가하여 실제 분산 환경 시스템에서 일어날 수 있는 다양한 문제점 및 한계점에 대한 솔루션을 제안하고자 한다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, an autonomous multi-agent path planning using reinforcement learning for monitoring of infrastructures and resources in a computationally distributed system was proposed. Reinforcement-learning-based multi-agent exploratory system in a distributed node enable to evaluate a cumulative ...

Keyword

표/그림 (17)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 강화학습을 이용한 다중 에이전트 기반 경로 탐색 성능 향상을 위해 다양한 방법으로 접근하였다. 단일/다중 에이전트가 주어진 목표에 도달하기 위해서는 탐색할 때 발생하는 환경 정보, 학습 속도(Learning Speed), 노드수(Number of Node) 및 탐색 환경의 크기 (Node Size) 등의 여러 가지 측면을 고려해야 한다.
  • 이와 더불어 다중 에이전트의 동기식/비동기식 탐색 방법에 따른 탐색 속도의 차이, 정보 공유 방법 등을 실험에 추가하여 검증하였다. 본 연구는 사례의 검증을 위해 강화학습 기반 다중 에이전트 시뮬레이션 환경을 구성하여 실험하였고, 이에 따른 다양한 결과를 비교하며 성능향상에 노력하였다.
  • 본 연구는 다양한 시나리오 환경을 구성하고 실시간으로 스케줄링을 실행할 수 있는 다중 에이전트 시스템 환경을 구성하였다. 실시간 다중 에이전트 시스템 환경에서 문제를 해결하기 위해서는 솔루션 제공과 더불어 이를 적절한 타이밍에 맞춰 시스템에 적용하는 과정이 매우 중요하다.
  • 본 연구에서는 강화학습을 이용한 협업 에이전트 기반의 분산형 다중 에이전트 최적화 시나리오를 적용하여 다양한 지능형 학습 방법을 제안하고자 한다. 또한, 에이전트 학습 및 경로 탐색 성능을 최적화하기 위해 다양한 실험 및 검증 환경을 구성하여 연구를 진행하였다.
  • 본 연구는 강화학습 기반 분산 다중 에이전트 시스템을 구현하여 효과적인 에이전트 경로 탐색과 이를 위한 최적화 성능 향상에 목표가 있다. 위 Fig.
  • 또한, 에이전트가 목표점에 빠르게 도달하기 위해서는 환경으로부터 제공받는 상태정보(State) 값과 이에 따른 행동(Action)의 최대값(5)을 각각 학습 및 개선하여 효과적인 최적 경로 탐색을 달성하는 것이 최종 목표이다[14].
  • 6). 다시 말해서 에이전트가 다중 혹은 하위목표 탐색 중에 수집한 누적 경로 정보를 다른 목표 탐색에 이전 사용 및 응용하여 초기 무작위시도에서 발생하는 경로 탐색 성능 감소를 방지하는데 목표를 두고 있다.
  • 본 연구는 위에서 언급한 분산형 다중 에이전트 경로 탐색 방법을 보다 효율적으로 개선하기 위해 에이전트의 학습 단계에서 시스템 스케줄링 방법을 추가하였다. 이는 환경 정보 공유를 위한 에이전트의 동기식 경로 탐색에서 발생하는 탐색 지연(Latency) 시간을 감소시키는 비동기식 다중 에이전트 경로 탐색 방법이다.
  • 본 연구에서는 에이전트 학습 속도 향상을 위한 강화학습기반 분산형 다중 에이전트 시스템 방법을 제안하였다. 특히 다양한 시나리오 및 실험을 통해 새로운 지능형 접근 방법을 연구 및 분석하였고, 이에 따른 전반적인 지능형 시스템 성능향상을 위해 다음과 같은 연구 방법들을 진행하였다.
  • 첫째, 본 연구에서 강화학습 기반 다중 에이전트 분산 협업 에이전트 시스템을 제안하였다. 분산 환경에서 발생할 수 있는 환경적 변화에 따른 시나리오를 구현하였고, 다양한 실험을 통해 효율적인 지능형 분산 시스템의 모델링을 구현하였다.
  • 이는 에이전트가 자율적으로 개별 경로 탐색을 할 수 있게 만드는 스케줄링 기반 시스템 성능 향상 방법이다. 방법은 현실적인 시스템 개선 방법으로써 시스템 스케줄링 및 최적화 지능형 시스템 구현에 궁극적인 목표가 있으며 협업 다중 에이전트 학습 프로세스 성능 향상에 그 목표가 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (19)

  1. D. B. Megherbi, D. C. Xu, "Multi-Agent Distributed Dynamic Scheduling for Large Distributed Critical Key Infrastructures and Resources (CKIR) Surveillance and Monitoring", in Proceeding of IEEE International Conference on Technology for Homeland Security(HST), 2011. DOI: 10.1109/THS.2011.6107907 

  2. K. Zhang, Z. Yang, and T. Basar, "Networked Multi-Agent Reinforcement Learning in Continuous Spaces", in Proceeding of 2018 IEEE Conference on Decision and Control (CDC), 2018.DOI: 10.1109/CDC.2018.8619581 

  3. D. B. Megherbi, P. Levesque, "A Distributed Multi-Agent Tracking, awareness, and communication System Architecture for Synchronized Real-Time Situational Understanding, Surveillance, Decision-Making, and Control", in Proceeding of IEEE International Conference on Technology for Homeland Security(HST), 2009. DOI: 10.1109/THS.2010.5654983 

  4. D. B. Megherbi, Radumilo-Franklin, Jelena, "An Intelligent Multi-agent Distributed Battlefield via Multi-Token Message Passing", in Proceeding of IEEE International Conference on Computational Intelligence for Measurement Systems and Applications, 2009. DOI: 10.1109/CIMSA.2009.5069929 

  5. J. Soler, V. Julian, M. Rebollo, C. Carrascosa, V. Botti., "Towards a Real-Time Multi-Agent System Architecture", Universidad Politecnica de Valencia, Valencia, Spain, 2002. 

  6. B. Horling, V. Lesser, R. Vincent, T. Wagner, "The Soft Real Time Agent Control Architecture", UMASS Department of Computer Science Technical Report WS-02-15, USA, 2002. 

  7. Stuart Russell, Peter Norvig, "Artificial Intelligence", A Modern Approach 2nd edition, Prentice Hall, 2003. 

  8. Xue Jinlin, Gao Qiang, Ju Weiping, "Reinforcement Learning for Engine Idle Speed Control", in Proceeding of 2010 International Conference on Measuring Technology and Mechatronics Automation (ICMTMA), 2010. DOI: 10.1109/ICMTMA.2010.249 

  9. D. B. Megherbi, M. Madera, "A hybrid P2P and master-slave architecture for intelligent multi-agent reinforcement learning in a distributed computing environment: A case study", in Proceeding of IEEE International Conference, Computational Intelligence for Measurement Systems and Applications (CIMSA), 2010. DOI: 10.1109/CIMSA.2010.5611770 

  10. M. Madera, D. B. Megherbi, "An Interconnected Dynamical System Composed of Dynamics-based Reinforcement Learning Agents in a Distributed Environment: A Case Study", in Proceeding of IEEE International Conference on Computational Intelligence for Measurement Systems and Applications, 2012. DOI: 10.1109/CIMSA.2012.6269597 

  11. W. M. Zuberek, "Performance Limitations of Block-Multithread ed Distributed-Memory System", in Proceeding of the Winter Simulation Conference(WSC), 2009. DOI: 10.1109/WSC.2009.5429718 

  12. M.R Shaker, S. Yue, T. Duckett, "Vision-based reinforcement learning using approximate policy iteration", in Proceeding of 2009 International Conference, 2009. 

  13. J. JIANG, S. Zhao-Pin, Q. Mei-Bin, G. ZHANG, "Multi-task Coalition Parallel Formation Strategy Based on Reinforcement Learning", Acta Automatica Sinica, Vol.34, No.3, pp.349-352, 2008. 

  14. D. B. Megherbi, M. Kim, "A Collaborative Distributed Multi-Agent Reinforcement Learning Technique for Dynamic Agent Shortest Path Planning via Selected Sub-goals in Complex Cluttered Environments", in Proceeding of IEEE Conference, CogSIMA, 2015. 

  15. D. B. Megherbi, V. Malaya, "A Hybrid Cognitive/Reactive Intelligent Agent Autonomous Path Planning Technique in a Networked-Distributed Unstructured Environment for Reinforcement Learning", The Journal of Supercomputing, Vol. 59, Issue3, pp.1188-1217, 2012. 

  16. C. Picus, L. Cambrini, W. Herzner, "Boltzmann Machine Topology Learning for Distributed Sensor Networks Using Loopy Belief Propagation Inference. Machine Learning and Applications", in Proceeding of 2008th Seventh International Conference, ICMLA, 2008. DOI: 10.1109/ICMLA.2008.60 

  17. D. B. Megherbi, M. Kim, M. Madera, "A Study of Collaborative Distributed Multi-Goal and Multi-agent based Systems for Large Critical Key Infrastructures and Resources (CKIR) Dynamic Monitoring and Surveillance", in Proceeding of IEEE International Conference on Technologies for Homeland Security, 2013. DOI: 10.1109/THS.2013.6699087 

  18. J. Kim, H. Lim, C. Kim, M. Kim, Y. Hong, Y. Han, "Imitation Reinforcement Learning-Based Remote Rotary Inverted Pendulum Control in OpenFlow Network" Published in IEEE Access, Vol. 7, 2019. 

  19. A. Sharma, S. Gu, S. Levine, V. Kumar, K. Hausman, "DADS: Unsupervised Reinforcement Learning for Skill Discovery", posted by AI Resident, Google Research at the Google Brain team and the Robotics at Google team, May. 2020. 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로