$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

깊은강화학습 기반 1-vs-1 공중전 모델링 및 시뮬레이션
Modeling and Simulation on One-vs-One Air Combat with Deep Reinforcement Learning 원문보기

한국시뮬레이션학회논문지 = Journal of the Korea Society for Simulation, v.29 no.1, 2020년, pp.39 - 46  

문일철 ,  정민재 (티맥스 소프트) ,  김동준 (KAIST 산업및시스템공학과)

초록
AI-Helper 아이콘AI-Helper

인공지능(AI)를 교전상황에 활용하는 것은 최근 10년간 국방 분야의 주요 관심사였다. 이러한 응용을 위해서, AI 교전에이전트를 훈련해야 하며, 이를 위해 현실적인 시뮬레이션이 반드시 필요하다. 하드웨어 차원의 현실성을 가진 공중 무기체계 공중전 모델에서 AI 에이전트를 학습한 사례에 대해서 본 논문은 서술하고 있다. 특히, 본 논문은 기총만을 활용하는 공중전 상황에서 적을 어떻게 추적해야하는지 AI를 학습하였다. 본 논문은 현실적인 공중전 시뮬레이터를 작성하여, 에이전트의 행동을 강화학습으로 수행한 결과를 제시한다. 훈련 결과로는 Lead 추적을 활용하여 단축된 교전시간과 높은 보상을 갖는 에이전트의 학습에 성공하였다.

Abstract AI-Helper 아이콘AI-Helper

The utilization of artificial intelligence (AI) in the engagement has been a key research topic in the defense field during the last decade. To pursue this utilization, it is imperative to acquire a realistic simulation to train an AI engagement agent with a synthetic, but realistic field. This pape...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문은 강화학습 기반의 인공지능 공중전 사례 연구를 소개한다. 인공지능 공중전의 현실성을 높이기 위하여, 의사 6자유도 기반의 기동 모델을 구현하였다.
  • 여기서 정책함수를 인공신경망으로 근사하는 방법을 깊은 결정론적 정책 기울기(Deep Deterministic Policy Gradient)라고 한다(Lillicrap 등, 2016). 본 논문은 결정론적 정책 기울기, 줄여서 DDPG를 이용해 기체의 행동 정책을 학습하였다.
  • 본 논문은 위와 같이 구성된 공중전 시뮬레이션에서 AI 에이전트를 학습하여 기총 기반 공중전 교전을 수행하였다. 이 상황에서 AI 에이전트는 추적 위치를 결정해야 한다.
  • 본 논문은 하드웨어 차원의 현실성을 가진 공중 무기체계 공중전 모델을 수행하고 있다. 무기체계 간의 교전을 모델링할 때, 모델링 요소를 산출하기 위한 다양한 방식이 있을 수 있으나, 교전 행동 과정을 정의하고 그 교전 행동에서 활용되는 개체를 인지하여 이를 모델링 하는 과정도 논리적인 접근이다.
  • 본 논문은 현실적인 공학 기반의 시뮬레이션에 어떻게 인공지능 기반 교전 의사 결정을 부가할 수 있는지에 대한 사례를 제시하며, 이러한 사례에 쓰인 방법론은 다양한 국방 시뮬레이션 및 인공지능 교전 모델에 쓰일 수 있다.
  • 위에서 소개한 바와 같이, 본 논문은 강화학습 기반으로 에이전트의 학습을 수행하였다. 본 절은 에이전트의 학습 모델 구성에 대해 소개한다.
  • 현실에서는 위와 같은 추적을 피아간의 상호 위치를 인지하여 조종사가 적절하게 기체를 조정하여 적을 추적한다. 이 실험의 목적은 위와 같은 사람의 의사 결정을 AI 에이전트가 효과적으로 재현해 낼 수 있는지 점검한다.

가설 설정

  • 무기체계 간의 교전을 모델링할 때, 모델링 요소를 산출하기 위한 다양한 방식이 있을 수 있으나, 교전 행동 과정을 정의하고 그 교전 행동에서 활용되는 개체를 인지하여 이를 모델링 하는 과정도 논리적인 접근이다. 우리는 Observe, Orient, Decide, Act로 정의되는 OODA루프를 기반으로 교전 행동 과정을 가정하였다(Breton 등, 2005). OODA루프는 1) Observe 과정에서 탐지 모델, 2) Orient 과정에서 기동 모델, 3) Decide 과정에서 의사 결정 모델, 4) Act 과정에서 교전 행동 및 피해 평가 모델을 필요로 한다.
  • 또한 교전 환경으로 아군기는 기총만으로 무장하였으며, 기총은 충분히 많은 탄환을 가지고 있어서 탄소모에 따른 행동 학습은 수행하지 않았다. 적기는 비무장인 상태에서 회피기동만 수행한다고 가정하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
Critic 네트워크의 특징은 무엇인가? Actor 네트워크는 입력을 상태로 가지고 출력을 행동 선택지로 가진다. Critic 네트워크는 입력을 상태와 행동의 조합으로 가지며 출력을 그에 따른 Q함수 값을 가진다. Actor는 결정론적인 정책을 사용하기 때문에 학습 과정에서는 소음을 주어 다양한 행동을 취할 수 있도록 한다.
기총 기반 공중전의 핵심 행동은? 기본적으로 기총 기반 공중전의 핵심은 교전 기하(Engagement Geometry)로 연구되는 “꼬리잡기 기동”이 핵심 행동이 된다. 그에 따라 상태 정보의 모든 변수는 피아간 기동 정보를 나타내는데 집중하였다.
시뮬레이션과 통신하는 강화학습 모델이 구체적으로 수행한 것은 무엇인가? 이후, 시뮬레이션과 통신하는 강화학습 모델을 구현하였다. 구체적으로 기총기반 공중전의 적기 추적 행동의 최적 의사 결정을 수행하는 DDPG 기반 강화학습을 수행하였다. 학습을 통해 좋은 성능의 AI 에이전트를 학습할 수 있음을 볼 수 있었다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. 이동진, & 방효충. (2009). 강화학습을 이용한 무인전투기(UCAV) 근접 공중전. 한국항공우주학회 학술발표회초록집, 249-252. 

  2. 박현주, 이병윤, 유동완, & 탁민제. (2015). Scoring Function Matrix를 활용한 전투기 3 차원 공중전 기동 생성. 한국항공우주학회 학술발표회 초록집, 442-445. 

  3. Breton, R., & Rousseau, R. (2005, June). The C-OODA: A cognitive version of the OODA loop to represent C2 activities. In Proceedings of the 10th International Command and Control Research Technology Symposium. 

  4. Ernest, N., Carroll, D., Schumacher, C., Clark, M., Cohen, K., & Lee, G. (2016). Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions. J Def Manag, 6(144), 2167-0374. 

  5. Toghiani-Rizi, B., Kamrani, F., Luotsinen, L. J., & Gisslen, L. (2017, October). Evaluating deep reinforcement learning for computer generated forces in ground combat simulation. In Systems, Man, and Cybernetics (SMC), 2017 IEEE International Conference on (pp. 3433-3438). IEEE. 

  6. Park, H., Lee, B. Y., Tahk, M. J., & Yoo, D. W. (2016). Differential game based air combat maneuver generation using scoring function matrix. International Journal of Aeronautical and Space Sciences, 17(2), 204-213. 

  7. Sutton, R. S., & Barto, A. G. (1998). Introduction to reinforcement learning (Vol. 135). Cambridge: MIT press. 

  8. Shaw, R. L. (1985). Fighter Combat. Naval Institute Press. 

  9. Ng, A. Y., Harada, D., & Russell, S. (1999, June). Policy invariance under reward transformations: Theory and application to reward shaping. In ICML (Vol. 99, pp. 278-287). 

  10. Sutton R. S., McAllester D., Singh S., Mansour Y. (2000) Policy Gradient Methods for Reinforcement Learning with Function. In NIPS. 

  11. Silver, D., Lever G., Heess N., Degris T., Wierstra D., Riedmiller M. (2014). Deterministic Policy Gradient Algorithms. In ICML (JMLR: W&CP volume 32.). 

  12. Lillicrap T. P., Hunt J. J., Pritzel A., Heess N., Erez T., Tassa Y., Silver D. & Wierstra D. (2016) Continuous Control with Deep Reinforcement Learning. In ICLR. 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로