[학위논문]모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현 Design and Implementation of a Reinforcement Learning-Based Reward System for Pedestrian Avoidance in Mobile Robots
최근 인공지능 기술의 발전으로 모바일 로봇은 다양한 산업 분야에서 활용되고 있고 실외에서도 무인 배달 로봇 등 더 다양한 용도로 확장되 고 있다. 강화학습과 딥러닝의 결합으로 심층 강화학습이 주목받게 되면 서 자율주행 모바일 로봇의 충돌회피 기술을 심층 강화학습으로 대체하 는 연구가 진행되고 있다. 그런데 기존 연구의 ...
최근 인공지능 기술의 발전으로 모바일 로봇은 다양한 산업 분야에서 활용되고 있고 실외에서도 무인 배달 로봇 등 더 다양한 용도로 확장되 고 있다. 강화학습과 딥러닝의 결합으로 심층 강화학습이 주목받게 되면 서 자율주행 모바일 로봇의 충돌회피 기술을 심층 강화학습으로 대체하 는 연구가 진행되고 있다. 그런데 기존 연구의 시뮬레이션 환경은 보행 자를 회피하여 목표에 도달하는 환경이지만 도로와 인도가 있는 실제 실 외 환경과 차이가 있다. 따라서 본 연구에서는 유니티와 ML-Agents를 사용하여 도로와 인도가 있는 실세계와 유사한 실제 실외 환경에서 도로 를 침범하지 않고 인도 위의 보행자를 회피하여 목표를 찾아가는 시뮬레 이션 환경을 구현하였다. 그리고 강화학습을 적용하기 위한 적절한 보상 체계를 설계하였다. 로봇이 인도에서 보행자를 피해 목표까지 가도록 학 습하기 위해 강화학습 알고리즘 중 하나인 PPO를 사용하였다. 본 연구 에서는 보상 함수 체계를 변경해 가며 시뮬레이션 환경에서 강화학습을 진행하였고 각 실험에서의 학습 성능 그래프와 평가지표를 통해 각 보상 함수가 모바일 로봇의 학습에 미치는 영향을 분석하였다. 그리고 다양한 실험을 통해 모바일 로봇이 출발지로부터 목적지까지 도달하기 위한 최 적의 강화학습 보상 체계를 도출하였다.
최근 인공지능 기술의 발전으로 모바일 로봇은 다양한 산업 분야에서 활용되고 있고 실외에서도 무인 배달 로봇 등 더 다양한 용도로 확장되 고 있다. 강화학습과 딥러닝의 결합으로 심층 강화학습이 주목받게 되면 서 자율주행 모바일 로봇의 충돌회피 기술을 심층 강화학습으로 대체하 는 연구가 진행되고 있다. 그런데 기존 연구의 시뮬레이션 환경은 보행 자를 회피하여 목표에 도달하는 환경이지만 도로와 인도가 있는 실제 실 외 환경과 차이가 있다. 따라서 본 연구에서는 유니티와 ML-Agents를 사용하여 도로와 인도가 있는 실세계와 유사한 실제 실외 환경에서 도로 를 침범하지 않고 인도 위의 보행자를 회피하여 목표를 찾아가는 시뮬레 이션 환경을 구현하였다. 그리고 강화학습을 적용하기 위한 적절한 보상 체계를 설계하였다. 로봇이 인도에서 보행자를 피해 목표까지 가도록 학 습하기 위해 강화학습 알고리즘 중 하나인 PPO를 사용하였다. 본 연구 에서는 보상 함수 체계를 변경해 가며 시뮬레이션 환경에서 강화학습을 진행하였고 각 실험에서의 학습 성능 그래프와 평가지표를 통해 각 보상 함수가 모바일 로봇의 학습에 미치는 영향을 분석하였다. 그리고 다양한 실험을 통해 모바일 로봇이 출발지로부터 목적지까지 도달하기 위한 최 적의 강화학습 보상 체계를 도출하였다.
Advancements in artificial intelligence technology have led to the widespread utilization of mobile robots across various industrial sectors. This expansion extends to diverse applications, including unmanned delivery robots, even in outdoor settings. The emergence of deep reinforcement learning, a ...
Advancements in artificial intelligence technology have led to the widespread utilization of mobile robots across various industrial sectors. This expansion extends to diverse applications, including unmanned delivery robots, even in outdoor settings. The emergence of deep reinforcement learning, a combination of reinforcement learning and deep learning, has garnered attention, prompting research to replace collision avoidance technology in autonomous mobile robots with deep reinforcement learning. However, the simulation environment in previous studies primarily focused on simulation environment where the goal is achieved by avoiding pedestrians, which differs from real-world outdoor environments featuring roads and sidewalks. Consequently, in this paper, we implemented a simulation environment using Unity and ML-Agents, where the agent avoids encroaching on the road and navigates pedestrians to reach the specified goal. Moreover, an apt reward function essential for reinforcement learning was designed. We learned using Proximal Policy Optimization(PPO), one of the reinforcement learning algorithms, through the simulation environment implemented in this paper and the designed reward function. We conducted experiments by modifying some reward functions that did not meet the termination conditions in the optimal reward function system. Through learning performance graphs and evaluation metrics, we analyzed the impact of each reward function on the learning process. Based on the results, we propose an optimal reward function system that includes Target, Walker, Danger Zone, Speed, Drive Way, and Close. The impact of the reward functions used in the experiments was observed in the following order: Danger Zone, Speed, Drive Way, Close.
Advancements in artificial intelligence technology have led to the widespread utilization of mobile robots across various industrial sectors. This expansion extends to diverse applications, including unmanned delivery robots, even in outdoor settings. The emergence of deep reinforcement learning, a combination of reinforcement learning and deep learning, has garnered attention, prompting research to replace collision avoidance technology in autonomous mobile robots with deep reinforcement learning. However, the simulation environment in previous studies primarily focused on simulation environment where the goal is achieved by avoiding pedestrians, which differs from real-world outdoor environments featuring roads and sidewalks. Consequently, in this paper, we implemented a simulation environment using Unity and ML-Agents, where the agent avoids encroaching on the road and navigates pedestrians to reach the specified goal. Moreover, an apt reward function essential for reinforcement learning was designed. We learned using Proximal Policy Optimization(PPO), one of the reinforcement learning algorithms, through the simulation environment implemented in this paper and the designed reward function. We conducted experiments by modifying some reward functions that did not meet the termination conditions in the optimal reward function system. Through learning performance graphs and evaluation metrics, we analyzed the impact of each reward function on the learning process. Based on the results, we propose an optimal reward function system that includes Target, Walker, Danger Zone, Speed, Drive Way, and Close. The impact of the reward functions used in the experiments was observed in the following order: Danger Zone, Speed, Drive Way, Close.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.