[논문]깊은강화학습 기반 1-vs-1 공중전 모델링 및 시뮬레이션

문일철; 정민재; 김동준

doi:10.9709/jkss.2020.29.1.039

깊은강화학습 기반 1-vs-1 공중전 모델링 및 시뮬레이션
Modeling and Simulation on One-vs-One Air Combat with Deep Reinforcement Learning 원문보기

한국시뮬레이션학회논문지 = Journal of the Korea Society for Simulation, v.29 no.1, 2020년, pp.39 - 46

문일철 , 정민재 (티맥스 소프트) , 김동준 (KAIST 산업및시스템공학과)

초록
AI-Helper

인공지능(AI)를 교전상황에 활용하는 것은 최근 10년간 국방 분야의 주요 관심사였다. 이러한 응용을 위해서, AI 교전에이전트를 훈련해야 하며, 이를 위해 현실적인 시뮬레이션이 반드시 필요하다. 하드웨어 차원의 현실성을 가진 공중 무기체계 공중전 모델에서 AI 에이전트를 학습한 사례에 대해서 본 논문은 서술하고 있다. 특히, 본 논문은 기총만을 활용하는 공중전 상황에서 적을 어떻게 추적해야하는지 AI를 학습하였다. 본 논문은 현실적인 공중전 시뮬레이터를 작성하여, 에이전트의 행동을 강화학습으로 수행한 결과를 제시한다. 훈련 결과로는 Lead 추적을 활용하여 단축된 교전시간과 높은 보상을 갖는 에이전트의 학습에 성공하였다.

Abstract ▼ AI-Helper

The utilization of artificial intelligence (AI) in the engagement has been a key research topic in the defense field during the last decade. To pursue this utilization, it is imperative to acquire a realistic simulation to train an AI engagement agent with a synthetic, but realistic field. This paper is a case study of training an AI agent to operate with a hardware realism in the air-warfare dog-fighting. Particularly, this paper models the pursuit of an opponent in the dog-fighting setting with a gun-only engagement. In this context, the AI agent requires to make a decision on the pursuit style and intensity. We developed a realistic hardware simulator and trained the agent with a reinforcement learning. Our training shows a success resulting in a lead pursuit with a decreased engagement time and a high reward.

주제어

표/그림 (8)

그림 Fig. 1. Components and their message passing structure of a single fixed-wing combat aircraft
표 Table 1. Variables of Pseudo 6DOF
표 Table 2. Reinforcement learning state definition
그림 Fig. 2. Action definition on engagement model
그림 Fig. 3. Engagement duration over the training episodes
그림 Fig. 4. Engagement rewards over the training episodes
그림 Fig. 5. Trajectory of two aircrafts before learning
그림 Fig. 6. Trajectory of two aircrafts after learning

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 강화학습 기반의 인공지능 공중전 사례 연구를 소개한다. 인공지능 공중전의 현실성을 높이기 위하여, 의사 6자유도 기반의 기동 모델을 구현하였다.
여기서 정책함수를 인공신경망으로 근사하는 방법을 깊은 결정론적 정책 기울기(Deep Deterministic Policy Gradient)라고 한다(Lillicrap 등, 2016). 본 논문은 결정론적 정책 기울기, 줄여서 DDPG를 이용해 기체의 행동 정책을 학습하였다.
본 논문은 위와 같이 구성된 공중전 시뮬레이션에서 AI 에이전트를 학습하여 기총 기반 공중전 교전을 수행하였다. 이 상황에서 AI 에이전트는 추적 위치를 결정해야 한다.
본 논문은 하드웨어 차원의 현실성을 가진 공중 무기체계 공중전 모델을 수행하고 있다. 무기체계 간의 교전을 모델링할 때, 모델링 요소를 산출하기 위한 다양한 방식이 있을 수 있으나, 교전 행동 과정을 정의하고 그 교전 행동에서 활용되는 개체를 인지하여 이를 모델링 하는 과정도 논리적인 접근이다.
본 논문은 현실적인 공학 기반의 시뮬레이션에 어떻게 인공지능 기반 교전 의사 결정을 부가할 수 있는지에 대한 사례를 제시하며, 이러한 사례에 쓰인 방법론은 다양한 국방 시뮬레이션 및 인공지능 교전 모델에 쓰일 수 있다.
위에서 소개한 바와 같이, 본 논문은 강화학습 기반으로 에이전트의 학습을 수행하였다. 본 절은 에이전트의 학습 모델 구성에 대해 소개한다.
현실에서는 위와 같은 추적을 피아간의 상호 위치를 인지하여 조종사가 적절하게 기체를 조정하여 적을 추적한다. 이 실험의 목적은 위와 같은 사람의 의사 결정을 AI 에이전트가 효과적으로 재현해 낼 수 있는지 점검한다.

가설 설정

무기체계 간의 교전을 모델링할 때, 모델링 요소를 산출하기 위한 다양한 방식이 있을 수 있으나, 교전 행동 과정을 정의하고 그 교전 행동에서 활용되는 개체를 인지하여 이를 모델링 하는 과정도 논리적인 접근이다. 우리는 Observe, Orient, Decide, Act로 정의되는 OODA루프를 기반으로 교전 행동 과정을 가정하였다(Breton 등, 2005). OODA루프는 1) Observe 과정에서 탐지 모델, 2) Orient 과정에서 기동 모델, 3) Decide 과정에서 의사 결정 모델, 4) Act 과정에서 교전 행동 및 피해 평가 모델을 필요로 한다.
또한 교전 환경으로 아군기는 기총만으로 무장하였으며, 기총은 충분히 많은 탄환을 가지고 있어서 탄소모에 따른 행동 학습은 수행하지 않았다. 적기는 비무장인 상태에서 회피기동만 수행한다고 가정하였다.

제안 방법

학습을 위해 총 5000회의 시뮬레이션이 실행되었고 각각은 50000번의 timestep을 최대 시뮬레이션 시간으로 가진다. 100회의 에피소드마다 50번의 시뮬레이션을 통해 테스트를 거쳤다.
이후, 시뮬레이션과 통신하는 강화학습 모델을 구현하였다. 구체적으로 기총기반 공중전의 적기 추적 행동의 최적 의사 결정을 수행하는 DDPG 기반 강화학습을 수행하였다. 학습을 통해 좋은 성능의 AI 에이전트를 학습할 수 있음을 볼 수 있었다.
이는 적군기가 아군기를 회피할 때도 마찬가지이다. 따라서 본 논문은 개별 개체의 기동 정보를 상대의 좌표계로 변환시킨 값 역시 강화학습의 상태로 넣었다.
본 논문에서 소개된 시뮬레이터와 강화학습 방법론을 활용하여 학습 및 교전을 실행하였다. 교전은 random한 위치에서 일정한 거리 20000m를 두고 서로 마주보는 상태로 시작한다.
OODA루프는 1) Observe 과정에서 탐지 모델, 2) Orient 과정에서 기동 모델, 3) Decide 과정에서 의사 결정 모델, 4) Act 과정에서 교전 행동 및 피해 평가 모델을 필요로 한다. 본 논문에서 활용된 시뮬레이터는 위에서 언급된 모델들을 분야전문가와 협의하여 필요한 수준으로 모델링 해상도를 정하여 시뮬레이션을 구축하였다.
본 논문은 위의 현실성 문제를 장비체계의 현실성의 문제로 한정하여 연구를 진행하였다. 장비체계의 현실성을 다루기 위해서는 교전체계에서 활용되는 장비의 범위를 정하고, 정해진 장비의 모델링 해상도(Resolution)을 결정해야한다.
원뿔의 중심축은 기체의 진행방향이며, 위에서 정의된 영역 반경과 꼭지각을 활용하여 적 기체는 피해를 입게 된다. 본 시뮬레이션의 기총 기반 교전에서 개별 기체는 적 기체가 위험 영역에 진입하면, 즉각 기총 사격 메시지를 발생시키는 것으로 모델링을 수행하였다. 이를 통하여, 기총을 활용한 공중전 교전에서 인공지능이 학습하는 영역은 피아의 위치를 감안한 추적 방식만으로 제한되게 된다.
여기서 우리는 Line-of-Sight(LOS)을 활용하여 위에서 나열한 추력 Tt, 양력 L, 롤 각속도 Φ의 제어를 수행하였다.
위에서 논의한 바와 같이 본 논문의 시뮬레이션은 OODA 루프를 기반으로 하여, 탐지, 기동, 의사 결정, 교전, 피해평가로 구현 모델을 식별하였다. 본 절은 각 모델의 구현에 대한 내용을 소개한다.
위에서 소개한 바와 같이, 본 논문은 강화학습 기반으로 에이전트의 학습을 수행하였다. 본 절은 에이전트의 학습 모델 구성에 대해 소개한다.
위와 같은 구조 모델에서, 본 논문은 문제를 기총 기반 교전으로 제한하여 강화학습을 진행하므로, Optical Sensor, Aircraft Maneuver, FixedWingP6DOF가 핵심 모델이 된다.
강화학습은 가치함수 기반 기법과 정책함수 기반 기법으로 나뉜다. 이 중 연속적인 행동 공간(continuous action space)을 학습하는 데에 유리한 정책함수 기반 기법을 선택했다. 정책함수 기반 기법 중 정책을 결정적 함수로 만들고 이의 기울기를 구하는 기법을 결정론적 정책 기울기(Deterministic Policy Gradient)라고 한다(Silver 등, 2014).
기총의 개별 총알의 탄도 궤적을 모델링 하는 것이 정밀한 물리 모델을 반영하는 방법이나, 이런 경우 수천 개의 탄환 궤적을 생성해야 한다는 문제점이 발생한다. 이를 극복하기 위해, 총알이 산포되는 영역을 모델링하기로 하였으며, 이를 위험영역으로 모델링하였다. 즉, 적 기체가 기총의 위험 영역에 진입한 상태에서, 기총의 발사 메시지가 발생한다면, 적이 피해를 입는 것으로 모델링을 하였다.
이러한 정보 제공은 적기의 기동에 따른 정보를 메시지로 작성하여, 아군기의 Optical Sensor 컴포넌트에 전달하는 것으로 구현되었다. 이를 통하여, Optical Sensor를 통한 기총 교전 수준의 탐지를 모델링하였다.
이와 같은 학습 결과를 바탕으로, 학습이 완료된 결과물을 3D Plot을 이용해서 육안 관찰하였다(그림 5, 그림6). 초기에는 적기의 격추가 관찰되지 않았는데, 학습 에피소드의 진행에 따라 적기의 격추가 가능해졌다.
이후, 시뮬레이션과 통신하는 강화학습 모델을 구현하였다. 구체적으로 기총기반 공중전의 적기 추적 행동의 최적 의사 결정을 수행하는 DDPG 기반 강화학습을 수행하였다.
본 논문은 강화학습 기반의 인공지능 공중전 사례 연구를 소개한다. 인공지능 공중전의 현실성을 높이기 위하여, 의사 6자유도 기반의 기동 모델을 구현하였다. 이와 같은 기동 모델을 바탕으로 기총 기반의 공중전 교전을 시뮬레이션 한다.
이를 극복하기 위해, 총알이 산포되는 영역을 모델링하기로 하였으며, 이를 위험영역으로 모델링하였다. 즉, 적 기체가 기총의 위험 영역에 진입한 상태에서, 기총의 발사 메시지가 발생한다면, 적이 피해를 입는 것으로 모델링을 하였다.
이 상황에서 AI 에이전트는 추적 위치를 결정해야 한다. 현실에서는 위와 같은 추적을 피아간의 상호 위치를 인지하여 조종사가 적절하게 기체를 조정하여 적을 추적한다. 이 실험의 목적은 위와 같은 사람의 의사 결정을 AI 에이전트가 효과적으로 재현해 낼 수 있는지 점검한다.

대상 데이터

위의 보상은 상대편을 격추했을 때 제시하는 큰 보상(본 논문은 100000) 이외에 주어지는 상태에 따른 보상이다. 이와 같은 상태에 따라 연속적으로 주어지는 보상은 우리가 원하는 교전 기하의 모양으로 행동을 유도하게 되며, 이러한 기법을 보상 형성(Reward Shaping)이라 한다(Ng 등, 1999).

이론/모형

DDPG(Deep Deterministic Policy Gradient)의 두 네트워크 Actor와 Critic은 각각 정책과 Q함수를 학습한다(Lillicrap 등, 2016). Actor는 정책 기울기로, Critic은 MSE(Mean Squared Error)로 학습을 진행한다. 자세한 학습 방법은 Lillicrap 등(2016)에 나와 있다.

성능/효과

마지막으로 적군기를 격추시켰을 때의 큰 보상뿐만 아니라 위험 영역 반경과 상관있는 변수들로 작은 보상을 정의했다. 본 논문의 실험 결과로 단축된 교전시간과 높은 보상을 갖는 에이전트의 학습에 성공하였다.
Optical Sensor는 적기에 대한 피아 구분, 적기의 NED(North, East, Down) 좌표계에 대한 위치, Roll, Pitch, Yaw에 대한 자세각 정보를 제공한다. 이러한 정보 제공은 적기의 기동에 따른 정보를 메시지로 작성하여, 아군기의 Optical Sensor 컴포넌트에 전달하는 것으로 구현되었다. 이를 통하여, Optical Sensor를 통한 기총 교전 수준의 탐지를 모델링하였다.
구체적으로 기총기반 공중전의 적기 추적 행동의 최적 의사 결정을 수행하는 DDPG 기반 강화학습을 수행하였다. 학습을 통해 좋은 성능의 AI 에이전트를 학습할 수 있음을 볼 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Critic 네트워크의 특징은 무엇인가?	Actor 네트워크는 입력을 상태로 가지고 출력을 행동 선택지로 가진다. Critic 네트워크는 입력을 상태와 행동의 조합으로 가지며 출력을 그에 따른 Q함수 값을 가진다. Actor는 결정론적인 정책을 사용하기 때문에 학습 과정에서는 소음을 주어 다양한 행동을 취할 수 있도록 한다.
	기총 기반 공중전의 핵심 행동은?	기본적으로 기총 기반 공중전의 핵심은 교전 기하(Engagement Geometry)로 연구되는 “꼬리잡기 기동”이 핵심 행동이 된다. 그에 따라 상태 정보의 모든 변수는 피아간 기동 정보를 나타내는데 집중하였다.
	시뮬레이션과 통신하는 강화학습 모델이 구체적으로 수행한 것은 무엇인가?	이후, 시뮬레이션과 통신하는 강화학습 모델을 구현하였다. 구체적으로 기총기반 공중전의 적기 추적 행동의 최적 의사 결정을 수행하는 DDPG 기반 강화학습을 수행하였다. 학습을 통해 좋은 성능의 AI 에이전트를 학습할 수 있음을 볼 수 있었다.

참고문헌 (12)

이동진, & 방효충. (2009). 강화학습을 이용한 무인전투기(UCAV) 근접 공중전. 한국항공우주학회 학술발표회초록집, 249-252.
박현주, 이병윤, 유동완, & 탁민제. (2015). Scoring Function Matrix를 활용한 전투기 3 차원 공중전 기동 생성. 한국항공우주학회 학술발표회 초록집, 442-445.
Breton, R., & Rousseau, R. (2005, June). The C-OODA: A cognitive version of the OODA loop to represent C2 activities. In Proceedings of the 10th International Command and Control Research Technology Symposium.
Ernest, N., Carroll, D., Schumacher, C., Clark, M., Cohen, K., & Lee, G. (2016). Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions. J Def Manag, 6(144), 2167-0374.
Toghiani-Rizi, B., Kamrani, F., Luotsinen, L. J., & Gisslen, L. (2017, October). Evaluating deep reinforcement learning for computer generated forces in ground combat simulation. In Systems, Man, and Cybernetics (SMC), 2017 IEEE International Conference on (pp. 3433-3438). IEEE.
Park, H., Lee, B. Y., Tahk, M. J., & Yoo, D. W. (2016). Differential game based air combat maneuver generation using scoring function matrix. International Journal of Aeronautical and Space Sciences, 17(2), 204-213.

원문보기 상세보기
Sutton, R. S., & Barto, A. G. (1998). Introduction to reinforcement learning (Vol. 135). Cambridge: MIT press.
Shaw, R. L. (1985). Fighter Combat. Naval Institute Press.
Ng, A. Y., Harada, D., & Russell, S. (1999, June). Policy invariance under reward transformations: Theory and application to reward shaping. In ICML (Vol. 99, pp. 278-287).
Sutton R. S., McAllester D., Singh S., Mansour Y. (2000) Policy Gradient Methods for Reinforcement Learning with Function. In NIPS.
Silver, D., Lever G., Heess N., Degris T., Wierstra D., Riedmiller M. (2014). Deterministic Policy Gradient Algorithms. In ICML (JMLR: W&CP volume 32.).
Lillicrap T. P., Hunt J. J., Pritzel A., Heess N., Erez T., Tassa Y., Silver D. & Wierstra D. (2016) Continuous Control with Deep Reinforcement Learning. In ICLR.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증