[논문]강화학습 기법을 이용한 최적경로 탐색

구다솔; 이태경

강화학습 기법을 이용한 최적경로 탐색
Optimal Path Search using Reinforcement Learning Technique 원문보기

구다솔 (동국대학교 컴퓨터과학과) , 이태경 (동국대학교 컴퓨터과학과)

본 논문에서는 사용자로부터 실시간으로 전송 받은 교통정보 이용하여 강화학습에 의한 최적 경로탐색을 제안한다. ITS(Intelligent Transportation Systems)를 서비스하기 위한 시스템을 구축하기에는 많은 시간적 비용과 물질적 비용이 소모된다. 이를 보완하기 위해 사용자의 단말기로부터 실시간으로 수집한 교통 정보를 이용하여 강화학습기법을 적용한다. 강화학습의 목표는 환경 내에서의 에이전트가 행동에 대한 보상의 총합을 최대화 하는 것이다. 본 논문에서는 실시간으로 사용자의 단말기로부터 획득한 교통 정보를 이용하여 강화학습기법을 적용하고, 최단경로탐색 알고리즘을 분석하여 비교한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

교통 정보 수집을 바탕으로 사용자로부터 받은 정보를 이용하기 위하여 본 논문에서는 Q-leaming 알고리즘에서 보상 값의 변화를 주고자 보상 규칙을 변경하였다.
본 논문에서는 강화학습의 효율성을 실험하기 위해 의 노드 간의 거리에 실시간으로 전송 받은 평균 주행속도와 노드 간에 제한속도를 부여받아 강화학습 한결과를 최단경로와 비교한다.
본 논문에서는 사용자의 단말기로부터 최적경로 탐색을 위한 지정된 노드를 통과한 구간의 평균주행속도를 교통관제 서버에서 전송받고, 이 데이터를 활용하여 최적 경로를 탐색한다. 하지만 도로 주행 특성상 과속 차량과 저속 및 정차 차량을 구분해야하고, 단말기 센서의 오작동 또한 고려하여야 한다.
이에 본 논문에서는 강화학습과 Dijkstra 알고리즘의 비교를 위해 제안한 알고리즘의 제한속도와 평균 주행속도를 나타내어 강화학습을 하려고 한다.<표 3>은 노드 간 평균주행속도 정보이다.

제안 방법

교통 네트워크에 제시 된 거리를 계산하기 위해각 노드에 좌표 값을 부여하여 각 노드간의 직선거리를 나타내었다.
본 논문에서는 강화학습 (Reinforcement Learning) 기법을 이용하여 실시간으로 사용자의 단말기로부터 획득한 교통정보로 사용자가 출발지에서 목적지까지의 최적 경로를 주천 해주는 알고리즘을 제안하고, 최단 경로 알고리즘과 분석하여 비교한다.
본 논문에서는 실시간 교통 정보를 이용하여 최단경로알고리 즘과 강화학습기법을 적용한 알고리즘을 분석 하여 비교하였다. 최단 경로 알고리즘보다 제안한 강화학습기법이 동적인 교통상황에 맞는 최적의 경로를 찾는데 도움을 준다는 것이 검증되었다.
본 논문에서는 실험 상황을 위하여 노드 1에서 노드 2 까지의 최단거리와 최적경로를 실험한다. 노드 1에서 노드 2까지의 최단경로는 다음과 같다.

성능/효과

<표 6>과 같이 동일한 출발지와 목적지의 최단 경로를 비교하였을 때, Q-leaming 알고리즘을 적용한 추천경로의주행거 리는 Dijkstra 알고리 즘의 주행거 리보다 증가하였다. 그러나 Q-learning 알고리즘을 적용한 추천경로가 가장 빠른 시간 내에 도달할 수 있는 최적경로를 추천한다.
찾는다. 위 경로의 학습 결과를 보면 최적 경로로 나타난 경로 2는 많은 학습 결과 값이 나왔고, 최단 경로의 적합한 경로였던 경로 5는 학습 결과 값이 적게 나왔다. 또한, 주행시간도 최적 경로에 비해 많은 시간이 걸림을 알 수 있다.
최단 경로 알고리즘보다 제안한 강화학습기법이 동적인 교통상황에 맞는 최적의 경로를 찾는데 도움을 준다는 것이 검증되었다. 교통상황에 따라 달라질 수 있는 변수에 대해 최단경로를 찾는 것보다 강화학습을 이용한 최적 경로를 찾는 것이 주행시간 단죽에 더 우수하다.

후속연구

향후 과제로는 사용자로부터 교통정보를 수집하기 위한 실시간 교통관제 시스템을 구축하고, 이 시스템에 강화학습기법을 적용하여 실시간 교통 정보를 이용한 최적 경로 시스템을 개발하여 사용자에게 체계적으로 서비스할 수 있는 방안을 연구할 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

강화학습 기법을 이용한 최적경로 탐색
Optimal Path Search using Reinforcement Learning Technique 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

강화학습 기법을 이용한 최적경로 탐색 Optimal Path Search using Reinforcement Learning Technique 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

강화학습 기법을 이용한 최적경로 탐색
Optimal Path Search using Reinforcement Learning Technique 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper