[논문]모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현

김민우

[학위논문] 모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현
Design and Implementation of a Reinforcement Learning-Based Reward System for Pedestrian Avoidance in Mobile Robots

김민우 (동명대학교 대학원 컴퓨터미디어공학과 국내석사)

초록 ▼
AI-Helper

최근 인공지능 기술의 발전으로 모바일 로봇은 다양한 산업 분야에서 활용되고 있고 실외에서도 무인 배달 로봇 등 더 다양한 용도로 확장되 고 있다. 강화학습과 딥러닝의 결합으로 심층 강화학습이 주목받게 되면 서 자율주행 모바일 로봇의 충돌회피 기술을 심층 강화학습으로 대체하 는 연구가 진행되고 있다. 그런데 기존 연구의 ...

최근 인공지능 기술의 발전으로 모바일 로봇은 다양한 산업 분야에서 활용되고 있고 실외에서도 무인 배달 로봇 등 더 다양한 용도로 확장되 고 있다. 강화학습과 딥러닝의 결합으로 심층 강화학습이 주목받게 되면 서 자율주행 모바일 로봇의 충돌회피 기술을 심층 강화학습으로 대체하 는 연구가 진행되고 있다. 그런데 기존 연구의 시뮬레이션 환경은 보행 자를 회피하여 목표에 도달하는 환경이지만 도로와 인도가 있는 실제 실 외 환경과 차이가 있다. 따라서 본 연구에서는 유니티와 ML-Agents를 사용하여 도로와 인도가 있는 실세계와 유사한 실제 실외 환경에서 도로 를 침범하지 않고 인도 위의 보행자를 회피하여 목표를 찾아가는 시뮬레 이션 환경을 구현하였다. 그리고 강화학습을 적용하기 위한 적절한 보상 체계를 설계하였다. 로봇이 인도에서 보행자를 피해 목표까지 가도록 학 습하기 위해 강화학습 알고리즘 중 하나인 PPO를 사용하였다. 본 연구 에서는 보상 함수 체계를 변경해 가며 시뮬레이션 환경에서 강화학습을 진행하였고 각 실험에서의 학습 성능 그래프와 평가지표를 통해 각 보상 함수가 모바일 로봇의 학습에 미치는 영향을 분석하였다. 그리고 다양한 실험을 통해 모바일 로봇이 출발지로부터 목적지까지 도달하기 위한 최 적의 강화학습 보상 체계를 도출하였다.

Abstract ▼ AI-Helper

Advancements in artificial intelligence technology have led to the widespread utilization of mobile robots across various industrial sectors. This expansion extends to diverse applications, including unmanned delivery robots, even in outdoor settings. The emergence of deep reinforcement learning, a combination of reinforcement learning and deep learning, has garnered attention, prompting research to replace collision avoidance technology in autonomous mobile robots with deep reinforcement learning. However, the simulation environment in previous studies primarily focused on simulation environment where the goal is achieved by avoiding pedestrians, which differs from real-world outdoor environments featuring roads and sidewalks. Consequently, in this paper, we implemented a simulation environment using Unity and ML-Agents, where the agent avoids encroaching on the road and navigates pedestrians to reach the specified goal. Moreover, an apt reward function essential for reinforcement learning was designed. We learned using Proximal Policy Optimization(PPO), one of the reinforcement learning algorithms, through the simulation environment implemented in this paper and the designed reward function. We conducted experiments by modifying some reward functions that did not meet the termination conditions in the optimal reward function system. Through learning performance graphs and evaluation metrics, we analyzed the impact of each reward function on the learning process. Based on the results, we propose an optimal reward function system that includes Target, Walker, Danger Zone, Speed, Drive Way, and Close. The impact of the reward functions used in the experiments was observed in the following order: Danger Zone, Speed, Drive Way, Close.

Keyword

학위논문 정보

저자	김민우
학위수여기관	동명대학교 대학원
학위구분	국내석사
학과	컴퓨터미디어공학과
지도교수	조미경
발행연도	2024
총페이지	49 p.
키워드	ML-Agents 유니티 모바일 로봇 보행자 회피 심층 강화학습
언어	kor
원문 URL	http://www.riss.kr/link?id=T16926866&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[학위논문] 모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현
Design and Implementation of a Reinforcement Learning-Based Reward System for Pedestrian Avoidance in Mobile Robots

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[학위논문] 모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현 Design and Implementation of a Reinforcement Learning-Based Reward System for Pedestrian Avoidance in Mobile Robots

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[학위논문] 모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현
Design and Implementation of a Reinforcement Learning-Based Reward System for Pedestrian Avoidance in Mobile Robots

초록 ▼
AI-Helper