[논문]가상 환경에서의 강화학습을 이용한 비행궤적 시뮬레이션

이재훈; 김태림; 송종규; 임현재

doi:10.9709/jkss.2018.27.4.001

가상 환경에서의 강화학습을 이용한 비행궤적 시뮬레이션
Flight Trajectory Simulation via Reinforcement Learning in Virtual Environment 원문보기

한국시뮬레이션학회논문지 = Journal of the Korea Society for Simulation, v.27 no.4, 2018년, pp.1 - 8

이재훈 , 김태림 (LIG Nex1 유도무기 연구소) , 송종규 (LIG Nex1 유도무기 연구소) , 임현재 (LIG Nex1 유도무기 연구소)

초록
AI-Helper

인공지능을 이용하여 목표 지점까지 제어하는 가장 대표적인 방법은 강화학습이다. 하지만 그동안 강화학습을 처리하기 위해서는 구현하기 어렵고 복잡한 연산을 처리해야만 했다. 본 논문에서는 이를 개선한 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 가상환경에서 목표지점에 도달하기 위한 계획된 비행궤적을 찾는 방법을 시뮬레이션 하였다. 또한 외부 환경요소가 비행궤적 학습에 미치는 영항을 알아보기 위하여 궤적의 변화, 보상 값의 영향 및 외부 바람등과 같은 변수를 추가하고 궤적 학습 성능 및 학습 속도에 미치는 영향을 비교 분석을 수행한다. 본 결과를 통하여 에이전트가 다양한 외부환경의 변화에도 계획된 궤적을 찾을 수 있다는 것을 시뮬레이션 결과에 따라 알 수 있었으며, 이는 실제 비행체에 적용할 수 있을 것이다.

Abstract ▼ AI-Helper

The most common way to control a target point using artificial intelligence is through reinforcement learning. However, it had to process complicated calculations that were difficult to implement in order to process reinforcement learning. In this paper, the enhanced Proximal Policy Optimization (PPO) algorithm was used to simulate finding the planned flight trajectory to reach the target point in the virtual environment. In this paper, we simulated how this problem was used to find the planned flight trajectory to reach the target point in the virtual environment using the enhanced Proximal Policy Optimization(PPO) algorithm. In addition, variables such as changes in trajectory, effects of rewards, and external winds are added to determine the zero conditions of external environmental factors on flight trajectory learning, and the effects on trajectory learning performance and learning speed are compared. From this result, the simulation results have shown that the agent can find the optimal trajectory in spite of changes in the various external environments, which will be applicable to the actual vehicle.

주제어

표/그림 (10)

그림 Fig. 1. configuration Objects
그림 Fig. 2. Learning cycle
표 Table 1. Hyperparameters of Unity ML-agent
그림 Fig. 3. simulation trajectories
그림 Fig. 4. wind applied trajectory
그림 Fig. 5. Test Result Graph
표 Table 2. Training Statistics
표 Table 3. Simulation result
그림 Fig. 6. Wind Applied Test Result Graph
표 Table 4. Wind Applied Simulation result

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 강화학습을 이용하여 비행궤적을 시뮬레이션하고 궤적의 변화, 보상값의 변화, 바람등의 변수가 에이전트의 학습에 미치는 영향에 대하여 분석하였다. 본 연구의 결과를 통하여 변수가 에이전트의 학습 속도에 영향을 주지만 결국 동일한 궤적을 습득한다는 사실을 알 수 있었다.
본 연구의 목적은 강화학습을 활용하여 이용하여 비행 체를 알고리즘 없이 계획된 궤적을 통과해 목표지점에 도달하도록 하는 것이다. 이를 위하여 각각의 다른 환경 변수를 포함한 시나리오를 5개를 포함한 시뮬레이션 환경을 만들었다.

제안 방법

궤적 1과 궤적2를 비교하여 궤적의 변화가 시뮬레이 션에 미치는 영향을 분석한다. 궤적 1에서 에이전트는 궤적을 통과하기 위해 y축과 z축으로만 힘을 작용하게 된다.
궤적 3과 궤적 4를 통해 보상 값의 영향을 분석한다. 궤적 4에서 장애물 통과 시 -0.
기본궤적의 중간지점부터 15° x축으로 꺾어지는 궤적으로 구성하였다. 궤적이 꺾어졌기 때문에 표적의 끝부분에 걸쳐서 표적을 통과하는 것을 막기 위하여 표적을 감싸는 장벽을 추가하였다.
c)): 중력 및 초기 가속도가 존재하는 상황에서 지면과 수평인 궤적을 유지하는지 확인하기 위해 설정된 궤적이다. 기본궤적에서 중간부분을 곡선에서 지면에 수평이 되도록 구성하였다.
본 장에서는 결과 분석, 궤적 변화에 따른 분석과 보상 값의 영향분석으로 나누어 시뮬레이션 결과에 대해 분석한다.
본 장에서는 본 연구에 사용된 알고리즘에 대하여 소개하고 시뮬레이션을 통한 강화학습의 사례를 분석한다.
시나리오는 1개의 에이전트, 18 개의 궤적, 1개의 표적으로 구성되어 있으며, 궤적및 표적의 위치는 시작점에서 37°로 공기저항이 없을 때 표적까지의 경로로 설정하였다.
각각의 시나리오에서 에이전트는 목적지에 도달하는 것을 목표로 3DOF 방향으로 자유롭게 이동할 수 있게 하였다. 시나리오를 통해 나온 결과를 궤적의 변화, 보상 값의 영향, 바람의 영향으로 나누어서 비교 분석하였다.
): 임의의 방향과 힘으로 바람이 부는 환경에서 궤적을 유지하는지 알아보기 위해 설정된 궤적이다. 실험이 시작될때마다 매번 방향 및 크기가 바뀌는 wind area를 추가하였다.
본 연구의 목적은 강화학습을 활용하여 이용하여 비행 체를 알고리즘 없이 계획된 궤적을 통과해 목표지점에 도달하도록 하는 것이다. 이를 위하여 각각의 다른 환경 변수를 포함한 시나리오를 5개를 포함한 시뮬레이션 환경을 만들었다. 시나리오는 각각 아무 변수가 없는 기본 궤적, 궤적의 중간에서 각도를 꺾은 궤적, 곡선 궤적중 직선을 추가한 궤적, 위 궤적의 직선 부분에 벗어나면 감점 요소를 추가한 궤적, 마지막으로 매번 다른 방향으로 바람이 부는 궤적이다.

대상 데이터

Fig. 1는 본 시뮬레이션에 사용된 구성 개체들로서 각각 에이전트(agent), 궤적(path), 표적(target), 장벽(wall), 장애물(obstacle)이 있다.

이론/모형

드론의 자세 제어를 위한 연구로는 William Koch(2018)는 GYM FC를 사용하여 PPO, TRPO, DDPG, PID 알고리즘별로 무인비행기의 고도를 제어하는 시뮬레이션을 수행하였고, 그 결과로 PPO 알고리즘이 튜닝된 PID 제어기보다 더 높은 결과를낼 뿐만 아니라, 학습된 에이전트(agent)는 재교육 없이도 연속적인 작업을 수행하는 것을 확인하였다. 본 논문 에서는 높은 성능을 가진 PPO알고리즘을 에이전트에 적용하여 시뮬레이션을 수행하였다.
본 연구에 사용된 프로그램은 Vincent Pierre(2017)이 Unity Machine Learning Agents(ML-Agents)이며 이는 Unity에 들어가는 오픈소스 플러그인(Open-source Plug -in) 이다. ML-Agent는 Unity 엔진과 에디터가 구현하는 섬세한 물리효과뿐만 아니라 PPO 알고리즘의 구현을 포함하고 있어서 시뮬레이션 환경 및 에이전트를 설계하면 자체적으로 강화학습을 수행하며 모델을 생성해 준다.

성능/효과

시나리오는 각각 아무 변수가 없는 기본 궤적, 궤적의 중간에서 각도를 꺾은 궤적, 곡선 궤적중 직선을 추가한 궤적, 위 궤적의 직선 부분에 벗어나면 감점 요소를 추가한 궤적, 마지막으로 매번 다른 방향으로 바람이 부는 궤적이다. 각각의 시나리오에서 에이전트는 목적지에 도달하는 것을 목표로 3DOF 방향으로 자유롭게 이동할 수 있게 하였다. 시나리오를 통해 나온 결과를 궤적의 변화, 보상 값의 영향, 바람의 영향으로 나누어서 비교 분석하였다.
본 연구에서는 강화학습을 이용하여 비행궤적을 시뮬레이션하고 궤적의 변화, 보상값의 변화, 바람등의 변수가 에이전트의 학습에 미치는 영향에 대하여 분석하였다. 본 연구의 결과를 통하여 변수가 에이전트의 학습 속도에 영향을 주지만 결국 동일한 궤적을 습득한다는 사실을 알 수 있었다. 시뮬레이션을 통해 생성된 모델을 새가상환경에 적용하였을 때 에이전트는 최종 학습된 정책과 동일한 결과를 낸다.
이를 보완하기 위해 기본 시나리오를 학습한 모델을 복잡한 시나리오에 적용하여 초반부터 학습 속도 및 효율을 증가시키는 것이 가능 할 것이다. 셋째, 표적에 일정범위 내로 다가가 에이전트의 카메라에 목적지가 포착 되었을 경우 독립적인 사물탐지(object detect)로 전환하는 것이다. 사전 학습된 목적지를 실시간으로 추적하여 표적이 움직이더라도 그에 대응하여 표적에 도달할 수 있을 것이다.
반면 대조군인 궤적 2, 궤적 4의 경우 초중반 동안 변화된 궤적과 장애물에 의해 학습이 정체 되는 구간이 있지만 점차 계획된 궤적을 찾는 결과를 보여준다. 시나리오 종료 후 작성된 모델을 새 시나리오에 적용하였을 때 기존 학습된 결과대로 에이전트가 움직이는 것 또한 확인할 수 있었다.

후속연구

시뮬레이션의 결과는 학습된 모델로 남게 되어 향후 이전 과정을 거치지 않고도 시뮬레이션 종료 시 학습결과를 불러올 수 있다. 따라서 학습된 모델을 비행체의 항법장치에 적용하게 된다면 비행체가 실제 비행을 통하여 강화학습의 결과를 축적하지 않고도 비행에 적용될 수 있을 것이다. 둘째, 학습된 모델을 다른 시나리오에 적용하는 커리큘럼 학습(Curriculum Learning) 개념을 적용하는 것이다.
바람을 적용한 시나리오에서처럼 연산에 시간이 걸리게 되면 학습속도 자체를 늦추게 된다. 이를 보완하기 위해 기본 시나리오를 학습한 모델을 복잡한 시나리오에 적용하여 초반부터 학습 속도 및 효율을 증가시키는 것이 가능 할 것이다. 셋째, 표적에 일정범위 내로 다가가 에이전트의 카메라에 목적지가 포착 되었을 경우 독립적인 사물탐지(object detect)로 전환하는 것이다.
시뮬레이션을 통해 생성된 모델을 새가상환경에 적용하였을 때 에이전트는 최종 학습된 정책과 동일한 결과를 낸다. 즉 비행체와 동일한 형상 및 기동특성을 가진 에이전트로 시뮬레이션을 수행하고, 이를 통해 생성된 모델을 CPU를 통해 FPGA에 적용하거나 직접 텐서플로우를 FPGA에 적용시켜 실제 비행궤적에 적용의 될 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	강화학습은 무엇인가?	인공지능을 이용하여 목표 지점까지 제어하는 가장 대표적인 방법은 강화학습이다. 하지만 그동안 강화학습을 처리하기 위해서는 구현하기 어렵고 복잡한 연산을 처리해야만 했다.
	강화학습을 처리하는 것에 있어서 한계는 무엇인가?	인공지능을 이용하여 목표 지점까지 제어하는 가장 대표적인 방법은 강화학습이다. 하지만 그동안 강화학습을 처리하기 위해서는 구현하기 어렵고 복잡한 연산을 처리해야만 했다. 본 논문에서는 이를 개선한 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 가상환경에서 목표지점에 도달하기 위한 계획된 비행궤적을 찾는 방법을 시뮬레이션 하였다.
	강화학습의 한계점을 개선하기 위해 어떠한 것을 이용하였나?	하지만 그동안 강화학습을 처리하기 위해서는 구현하기 어렵고 복잡한 연산을 처리해야만 했다. 본 논문에서는 이를 개선한 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 가상환경에서 목표지점에 도달하기 위한 계획된 비행궤적을 찾는 방법을 시뮬레이션 하였다. 또한 외부 환경요소가 비행궤적 학습에 미치는 영항을 알아보기 위하여 궤적의 변화, 보상 값의 영향 및 외부 바람등과 같은 변수를 추가하고 궤적 학습 성능 및 학습 속도에 미치는 영향을 비교 분석을 수행한다.

참고문헌 (10)

John Schulman, Sergey Levine, Philipp Moritz, Michael Jordan, Pieter Abbeel (2015), Trust Region Policy Optimization, arXiv:1502.05477v5 [cs.LG].
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov (2017), Proximal Policy Optimization Algorithms, arXiv:1707.06347v2 [cs.LG] 28 Aug 2017.
Vincent Pierre (2017), Unity ML-Agents, https://github.com/Unity-Technologies/ml-agents
Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick (2017), Mask R-CNN, arXiv:1703.06870 [cs.CV]
Jemin Hwangbo, Inkyu Sa, Roland Siegwart, Marco Hutter (2017), Control of a Quadrotor with Reinforcement Learning, arXiv:1707.05110v1 [cs.RO]

상세보기
Huy X. Pham, Hung. M. La, David Feil-Seifer, Luan V. Nguyen (2018), Autonomous UAV Navigation Using Reinforcement Learning, arXiv:1801.05086v1 [cs.RO]
William Koch, Renato Mancuso, Richard West, Azer Bestavros, Reinforcement Learning for UAV Attitude Control, arXiv:1804.04154v1 [cs.RO]
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, Mastering the game of go with deep neural networks and tree search, Nature, vol. 529, no. 7587, pp. 484-489, 2016

상세보기
Huy X. Pham, Hung. M. La, David Feil-Seifer, Luan V. Nguyen, Autonomous UAV Navigation Using Reinforcement Learning, arXiv:1801.05086v1 [cs.RO]
김성필 (2016), 딥러닝 첫걸음, 한빛미디어, 서울, pp. 17-33.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증