자율항공기의 실시간 임무계획을 위한 개선된 Anytime기반 동적 A* 알고리즘 연구 An Improved Anytime Dynamic A* Algorithm with Q-Learning for Real-time Mission Planning of Autonomous Aerial Vehicle원문보기
아이아이 마우
(건국대학교 대학원
항공우주정보시스템공학과 항공우주정보시스템공학전공
국내박사)
본 논문은 최근 활발히 연구되고 있는 실시간 임무계획(real-time mission planning) 자율주행 운행체 시스템에 대해 연구하였다. 최근 수년간 모바일 에이전트로 구성된 자율운용 시스템은 효율적이고 강건한 다목적 도구임이 증명되었다. 자율운용 시스템은 탐사 및 구조를 위한 스페이스 로봇과 군사목적용 로봇 뿐만 아니라 아마존 배송, Nvidia와 구글의 ...
본 논문은 최근 활발히 연구되고 있는 실시간 임무계획(real-time mission planning) 자율주행 운행체 시스템에 대해 연구하였다. 최근 수년간 모바일 에이전트로 구성된 자율운용 시스템은 효율적이고 강건한 다목적 도구임이 증명되었다. 자율운용 시스템은 탐사 및 구조를 위한 스페이스 로봇과 군사목적용 로봇 뿐만 아니라 아마존 배송, Nvidia와 구글의 자율주행 자동차 등 상업적 운용을 위해 사용되고 있다. 운행체 지능이 발달함에 따라 자율주행 기술은 다양한 분야에서 크게 주목받고 있다. 운행체가 실시간 임무를 수행하기 위해 지능화된 임무계획 시스템이 필요하다. 자율주행 운행체의 실시간 임무계획에서 경로계획과 장애물 회피는 가장 중요한 과업이다. 실시간 임무계획은 다음의 난점을 포함한다. 일반적으로 실제 환경은 미지의 장애물과 동적 장애물을 포함하고 있다. 즉, 임무계획을 위한 정밀한 모델을 정의하기 어렵고, 정의된 모델도 급변하는 환경에 따라 부정확한 모델이 될 수 있다. 운송수단은 짧은 순간에 많은 정보를 얻기 때문에, 임무계획을 위한 시간은 매우 제한적이다. 운행체는 변화에 대해 거의 실시간에 가까운 신속한 반응을 해야 한다. 본 논문은 자율비행 UAV의 실시간 임무계획 문제를 다룬다. 임무계획은 크게 최적 비행경로 생성과 장애물 회피 기술로 나눌 수 있다. 본 논문에서는 이미지 기반의 경로계획 알고리즘과 기계학습 기반의 실시간 장애물 회피 지역경로계획 알고리즘의 통합을 제안한다. 통합 알고리즘의 첫 번째 단계에서 anytime incremental search algorithm의 하나인 iADA*(improved Anytime Dynamic A*) 알고리즘을 적용하여 전역경로를 계획한다. iADA*는 운행체의 한계를 고려하여 시작점부터 목표 지점까지의 가장 짧은 경로를 생성한다. iADA* 알고리즘은 반복법 기반으로 경로 거리 연산을 향상시키고, 경로를 계획하는 총 계산량을 줄임으로써 상당히 빨라진 계산 성능을 보인다. iADA*는 지역 환경이 변화할 때, 복잡한 동적 환경에 대해 효율적인 해를 도출하기 위해 설계되었다. 전역경로계획은 임무 시작 전에 시작하여 임무 환경의 동적 변화에 반응하여 실시간으로 비행경로를 개선한다. iADA*의 효율 및 정확도는 최근 널리 쓰이는 알고리즘들과 비교를 통해 검증하였다. 지역경로계획은 UAV가 비행하는 동안 실시간으로 이루어진다. 지역경로계획은 정적 장애물과 전역경로계획에서 알 수 없던 동적 장애물을 인식하고 회피한다. Q-learning은 비행 환경에서 장애물을 회피할 때 중간지점(waypoint)들 사이의 지역 경로를 계획하기 위해 사용된다. Q-learning은 강화학습기반의 알고리즘으로 강화학습은 현재 상태에서 최선의 행동(action)을 찾기 위해 사용된다. Q-learning 에이전트는 기대한 행동의 결과를 도출했을 시 보상(reward)를 얻는 반면, 반대의 경우 페널티를 얻는다. Q-learning은 학습 시 정책(policy)를 만들기 위해 무작위 행동(action)을 적용함으로써 총 보상을 최대화하는 방향으로 학습한다. Q-learning 에이전트는 장애물 회피 정책(policy)을 학습하기 위해 사용되며, 장애물 회피 정책은 무인기의 센서 데이터를 매핑하고 비행 중 제어기의 역할을 하는 행동(action)을 결정한다. 마지막으로 효율적인 실시간 임무계획을 위해 전역경로계획 시스템과 지역경로계획 시스템을 통합한다. Global planner인 iADA*와 Local planner인 Q-learning 알고리즘을 통합한 하이브리드 시스템을 설계하였다. 검증을 위해 실시간 임무 계획 시스템을 위한 Closed-loop SITL (Software-In-The-Loop) 시뮬레이션프레임워크를 오픈소스 비행 시뮬레이터인 AirSim에서 실행한다. 개발된 하이브리드 시스템은 AirSim 환경에서 적용 및 검증한다.
본 논문은 최근 활발히 연구되고 있는 실시간 임무계획(real-time mission planning) 자율주행 운행체 시스템에 대해 연구하였다. 최근 수년간 모바일 에이전트로 구성된 자율운용 시스템은 효율적이고 강건한 다목적 도구임이 증명되었다. 자율운용 시스템은 탐사 및 구조를 위한 스페이스 로봇과 군사목적용 로봇 뿐만 아니라 아마존 배송, Nvidia와 구글의 자율주행 자동차 등 상업적 운용을 위해 사용되고 있다. 운행체 지능이 발달함에 따라 자율주행 기술은 다양한 분야에서 크게 주목받고 있다. 운행체가 실시간 임무를 수행하기 위해 지능화된 임무계획 시스템이 필요하다. 자율주행 운행체의 실시간 임무계획에서 경로계획과 장애물 회피는 가장 중요한 과업이다. 실시간 임무계획은 다음의 난점을 포함한다. 일반적으로 실제 환경은 미지의 장애물과 동적 장애물을 포함하고 있다. 즉, 임무계획을 위한 정밀한 모델을 정의하기 어렵고, 정의된 모델도 급변하는 환경에 따라 부정확한 모델이 될 수 있다. 운송수단은 짧은 순간에 많은 정보를 얻기 때문에, 임무계획을 위한 시간은 매우 제한적이다. 운행체는 변화에 대해 거의 실시간에 가까운 신속한 반응을 해야 한다. 본 논문은 자율비행 UAV의 실시간 임무계획 문제를 다룬다. 임무계획은 크게 최적 비행경로 생성과 장애물 회피 기술로 나눌 수 있다. 본 논문에서는 이미지 기반의 경로계획 알고리즘과 기계학습 기반의 실시간 장애물 회피 지역경로계획 알고리즘의 통합을 제안한다. 통합 알고리즘의 첫 번째 단계에서 anytime incremental search algorithm의 하나인 iADA*(improved Anytime Dynamic A*) 알고리즘을 적용하여 전역경로를 계획한다. iADA*는 운행체의 한계를 고려하여 시작점부터 목표 지점까지의 가장 짧은 경로를 생성한다. iADA* 알고리즘은 반복법 기반으로 경로 거리 연산을 향상시키고, 경로를 계획하는 총 계산량을 줄임으로써 상당히 빨라진 계산 성능을 보인다. iADA*는 지역 환경이 변화할 때, 복잡한 동적 환경에 대해 효율적인 해를 도출하기 위해 설계되었다. 전역경로계획은 임무 시작 전에 시작하여 임무 환경의 동적 변화에 반응하여 실시간으로 비행경로를 개선한다. iADA*의 효율 및 정확도는 최근 널리 쓰이는 알고리즘들과 비교를 통해 검증하였다. 지역경로계획은 UAV가 비행하는 동안 실시간으로 이루어진다. 지역경로계획은 정적 장애물과 전역경로계획에서 알 수 없던 동적 장애물을 인식하고 회피한다. Q-learning은 비행 환경에서 장애물을 회피할 때 중간지점(waypoint)들 사이의 지역 경로를 계획하기 위해 사용된다. Q-learning은 강화학습기반의 알고리즘으로 강화학습은 현재 상태에서 최선의 행동(action)을 찾기 위해 사용된다. Q-learning 에이전트는 기대한 행동의 결과를 도출했을 시 보상(reward)를 얻는 반면, 반대의 경우 페널티를 얻는다. Q-learning은 학습 시 정책(policy)를 만들기 위해 무작위 행동(action)을 적용함으로써 총 보상을 최대화하는 방향으로 학습한다. Q-learning 에이전트는 장애물 회피 정책(policy)을 학습하기 위해 사용되며, 장애물 회피 정책은 무인기의 센서 데이터를 매핑하고 비행 중 제어기의 역할을 하는 행동(action)을 결정한다. 마지막으로 효율적인 실시간 임무계획을 위해 전역경로계획 시스템과 지역경로계획 시스템을 통합한다. Global planner인 iADA*와 Local planner인 Q-learning 알고리즘을 통합한 하이브리드 시스템을 설계하였다. 검증을 위해 실시간 임무 계획 시스템을 위한 Closed-loop SITL (Software-In-The-Loop) 시뮬레이션 프레임워크를 오픈소스 비행 시뮬레이터인 AirSim에서 실행한다. 개발된 하이브리드 시스템은 AirSim 환경에서 적용 및 검증한다.
This thesis contributes to the growing research of the autonomous vehicle system concerned with the real-time mission planning. Over the years autonomous systems consisting of mobile agents have proven to be efficient, robust, and versatile tools. These systems are used as a space and military robot...
This thesis contributes to the growing research of the autonomous vehicle system concerned with the real-time mission planning. Over the years autonomous systems consisting of mobile agents have proven to be efficient, robust, and versatile tools. These systems are used as a space and military robots, with applications for search and rescue, as well as commercial operations (Amazon delivery, Nvidia and Google self-driving cars, etc.). With autonomous technologies getting more advanced the vehicle’s intelligence is attracting lots of interest for many applications. For the vehicle to be involved in a real-time mission, an intelligent mission planning system is required. Path planning and obstacle avoidance are the most critical tasks for the real-time mission planning of autonomous vehicles. There are several challenges for real-time operation. The real-world environment typically contains both unknown and dynamic obstacles; it is difficult to determine an accurate model for planning, and it would rapidly become outdated. Time for decision making is very limited since the incoming information is updated frequently. Vehicle is required to react to such a change in near real-time. This thesis addresses the real-time mission planning problem of autonomous UAV. The mission planning is divided into two major parts namely optimal flight path generation and obstacle avoidance. To achieve the task a hybrid planning approach is proposed by combining the graph-based path planning algorithm with a learning-based algorithm for local planning while avoiding obstacle in the real-time. The global path planning problem is solved in the first stage by proposed an anytime incremental search algorithm, improved Anytime Dynamic A* (iADA*). The iADA* generates the shortest path from start to goal destination considering the vehicle constraints. The algorithm iteratively improves the path length and calculation time of the search making the algorithm significantly faster. iADA* is designed to provide an efficient solution to a complex and dynamic search environment when the local environment changes occur. The global path planning takes it turn before the mission start and iteratively refines the flight path in real-time to respond to dynamic changes in the environment. Efficiency and accuracy of the algorithm are demonstrated and compared with existing popular path planning algorithms. The local planning is performed in real-time during UAV flight. Local planning detects and avoids static and dynamic obstacles that were not known at the stage of global planning. Q-learning method is used to develop a local planning between waypoints while avoiding the obstacles in the environment. Q-learning is the algorithm based on Reinforcement Learning which aims to find the best action in response to a current state. The agent receives positive reward if desired response is achieved and receives penalty if it is not. It learns by applying random actions not known to the current policy and maximizing the total reward. The agent is used to learn an obstacle-avoiding policy that maps a vehicle’s sensor observations to actions used as a controller during flight. Finally, the global and local planners are combined to provide an efficient real-time mission planning. The hybrid system utilized iADA* as the global and Q-Learning trained network as a local planner. A closed-loop software-in-the-loop simulation framework for real-time mission planning is implemented using AirSim, the popular opensource flight simulator. The developed hybrid system is demonstrated and validated in the AirSim environment.
This thesis contributes to the growing research of the autonomous vehicle system concerned with the real-time mission planning. Over the years autonomous systems consisting of mobile agents have proven to be efficient, robust, and versatile tools. These systems are used as a space and military robots, with applications for search and rescue, as well as commercial operations (Amazon delivery, Nvidia and Google self-driving cars, etc.). With autonomous technologies getting more advanced the vehicle’s intelligence is attracting lots of interest for many applications. For the vehicle to be involved in a real-time mission, an intelligent mission planning system is required. Path planning and obstacle avoidance are the most critical tasks for the real-time mission planning of autonomous vehicles. There are several challenges for real-time operation. The real-world environment typically contains both unknown and dynamic obstacles; it is difficult to determine an accurate model for planning, and it would rapidly become outdated. Time for decision making is very limited since the incoming information is updated frequently. Vehicle is required to react to such a change in near real-time. This thesis addresses the real-time mission planning problem of autonomous UAV. The mission planning is divided into two major parts namely optimal flight path generation and obstacle avoidance. To achieve the task a hybrid planning approach is proposed by combining the graph-based path planning algorithm with a learning-based algorithm for local planning while avoiding obstacle in the real-time. The global path planning problem is solved in the first stage by proposed an anytime incremental search algorithm, improved Anytime Dynamic A* (iADA*). The iADA* generates the shortest path from start to goal destination considering the vehicle constraints. The algorithm iteratively improves the path length and calculation time of the search making the algorithm significantly faster. iADA* is designed to provide an efficient solution to a complex and dynamic search environment when the local environment changes occur. The global path planning takes it turn before the mission start and iteratively refines the flight path in real-time to respond to dynamic changes in the environment. Efficiency and accuracy of the algorithm are demonstrated and compared with existing popular path planning algorithms. The local planning is performed in real-time during UAV flight. Local planning detects and avoids static and dynamic obstacles that were not known at the stage of global planning. Q-learning method is used to develop a local planning between waypoints while avoiding the obstacles in the environment. Q-learning is the algorithm based on Reinforcement Learning which aims to find the best action in response to a current state. The agent receives positive reward if desired response is achieved and receives penalty if it is not. It learns by applying random actions not known to the current policy and maximizing the total reward. The agent is used to learn an obstacle-avoiding policy that maps a vehicle’s sensor observations to actions used as a controller during flight. Finally, the global and local planners are combined to provide an efficient real-time mission planning. The hybrid system utilized iADA* as the global and Q-Learning trained network as a local planner. A closed-loop software-in-the-loop simulation framework for real-time mission planning is implemented using AirSim, the popular opensource flight simulator. The developed hybrid system is demonstrated and validated in the AirSim environment.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.