$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

가상환경과 DDPG 알고리즘을 이용한 자율 비행체의 소노부이 최적 배치 연구
Research on Optimal Deployment of Sonobuoy for Autonomous Aerial Vehicles Using Virtual Environment and DDPG Algorithm 원문보기

한국정보전자통신기술학회논문지 = Journal of Korea institute of information, electronics, and communication technology, v.15 no.2, 2022년, pp.152 - 163  

김종인 (Department of Electronic and Control Engineering, Republic of Korea Naval Academy) ,  한민석 (Department of Electronic and Control Engineering, Republic of Korea Naval Academy)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 대잠전의 필수 요소인 소노부이를 무인항공기가 최적의 배치로 투하할 수 있게 하는 방법을 제시한다. 이를 위해 Unity 게임엔진을 통해 음향 탐지 성능 분포도를 모사한 환경을 구성하고 Unity ML-Agents를 활용해 직접 구성한 환경과 외부에서 Python으로 작성한 강화학습 알고리즘이 서로 통신을 주고받으며 학습할 수 있게 하였다. 특히, 잘못된 행동이 누적되어 학습에 영향을 미치는 경우를 방지하고 비행체가 목표지점으로 최단 시간에 비행함과 동시에 소노부이가 최대 탐지 영역을 확보하기 위해 강화학습을 도입하고. 심층 확정적 정책 그래디언트(Deep Deterministic Policy Gradient: DDPG) 알고리즘을 적용하여 소노부이의 최적 배치를 달성하였다. 학습 결과 에이전트가 해역을 비행하며 70개의 타겟 후보들 중 최적 배치를 달성하기 위한 지점들만을 통과하였고 탐지 영역을 확보한 모습을 보면 겹치는 영역 없이 최단 거리에 있는 지점을 따라 비행하였음을 알 수 있다. 이는 최적 배치의 요건인 최단 시간, 최대 탐지 영역으로 소노부이를 배치하는 자율 비행체를 구현하였음을 의미한다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we present a method to enable an unmanned aerial vehicle to drop the sonobuoy, an essential element of anti-submarine warfare, in an optimal deployment. To this end, an environment simulating the distribution of sound detection performance was configured through the Unity game engine,...

주제어

표/그림 (16)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • 본 논문에서는 Unity 게임엔진을 통해 음향 탐지 성능 분포도를 모사한 환경을 구성하고 Unity ML-Agents를 통해 외부에서 Pyhton(Tensorflow)으로 작성된 DDPG 알고리즘과 통신하며 강화학습을 진행하였다. 학습의 대상인 에이전트 비행체는 드론으로 설정하였으며 보상 값을 높이는 학습 결과를 도출하기 위해 타겟으로 접근하는 적절한 보상 설계를 하였다.
  • 본 논문에서는 액터 신경망과 크리틱 신경망, 학습 방법과 저장을 모두 Python의 Tensorflow를 통해 구현하였으며 이 Python 코드는 Unity를 통해 구성한 환경 및 에이전트와 통신하며 학습이 이루어진다.
  • 따라서 음향 탐지 성능 분포도를 통해 어느 지점에 소노부이를 배치해야 최대 탐지 영역을 확보할 수 있는지, 어느 경로로 이동하면 최단 시간에 소노부이를 배치할 수 있는지를 유추할 수 있다. 본 연구에서는 모의적으로 음향 탐지 성능 분포도를 생성하고 에이전트가 이를 인식할 수 있도록 설계하였다.

이론/모형

  • DDPG의 특징은 3가지가 있다. 먼저 학습할 때 사용하는 궤적 데이터가 시간적으로 상관되어 그래디언트가 편향되는 것을 방지하기 위해 경험 리플레이(experience replay)방식을 사용한다. 이는 에이전트의 경험을 학습에 바로 사용하지 않고 그림 8처럼 리플레이 버퍼에 저장해 두었다가 버퍼에서 샘플을 무작위로 N개 추출하는 방식이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (15)

  1. From Wikipedia, the free encyclopedia, Sonobuoy, https://en.wikipedia.org/wiki/Sonobuoy 

  2. From Wikipedia, the free encyclopedia, Reinforcement learning, https://en.wikipedia.org/wiki/Reinforcement_learning 

  3. V. Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A.K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg and D. Hassabis, "Human-level control through deep reinforcement learning", NATURE, Vol. 518, No.2 pp. 529-533, 2015. 

  4. J. Schulman, F. Wolski, P. Dhariwal, A. Radford and O. Klimov, "Proximal Policy Optimization Algorithms", OpenAI, 2017. 

  5. T. Lillicrap, J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver and D. Wierstra, "Continuous Control with Deep Reinforcement Learning", Google Deepmind, 2015. 

  6. Vincent Pierre (2017), Unity ML-Agents http://github.com/Unity-Technologies/ml-agents 

  7. S. Kim, W. Kim, J. Choi, Y. Yoon and J. Park, "Optimal Deployment of Sensor Nodes based on Peformance Surface of Acoustic Detection", Journal of the KIMST, Vol. 18, No. 5, pp. 538-547, 2015. 

  8. M. Cheon, S. Kim, J. Choi, C. Choi, S. Son and J. Park, "Optimal Search Pattern of Ships based on Performance Surface", Journal of the KIMST, Vol. 20, No. 3, pp. 328-336, 2017. 

  9. H.W Kim and W.C Lee, "Real-Time Path Planning for Mobile Robots Using Q-Learning", Journal of IKEEE, Vol.24, No.4, pp.71-77, 2020. 

  10. J. Kim and S.R Shim, "A Case Study on the Evolutionary Development of U.S Unmanned Aerial Vehicles(UAVs)", Journal of Advances in Military Studies, Vol. 3, No. 2, pp, 17-46, 2020. 

  11. Y. Cho, J. Lee and K. Lee, "CNN based Reinforcement Learning for Driving Behavior of Simulated Self-Driving Car", The transactions of The Korean Institute of Electrical Engineers, Vol. 69, No.11, pp.1740-1749, 2020. 

  12. S. Park and D. Kim, "Autonomous Flying of Drone Based on PPO Reinforcement Learning Algorithm", Journal of Institute of Control, Robotics and Systems, Vol. 26, No.11, pp. 955-963, 2020. 

  13. J. Lee, K. Kim, Y. Kim and J. Lee, "Singularity Avoidance Path Planning on Cooperative Task of Dual Manipulator Using DDPG Algorithm", The Journal of Korea Robotics Society, Vol.16, No.2, pp.137-146, 2021. 

  14. S. Park, Reinforcement-Learning with Mathematic, https://github.com/pasus/Reinforcement-Learning-Book 

  15. G. Min, M. Shin, S. Yoon, H. Lee, G. Jeong and D. Cho, Reinforcement-Learning with Tensorflow & Unity ML-Agents, https://github.com/reinforcement-learning-kr/Unity_ML_Agents 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로