[논문]Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습

이승관

문제 정의

본 논문에서 제안된 개미 모델은 기존의 Ant-Q 모델 성능을 개선하기 위해 새롭게 제안된 방법이다. 이 방법은 Ant-Q 모델에 TD 학습을 적용한 강화학습과 엘리트 전략에 의한 다중 집단 상호작용 개미 모델을 적용한 혼합된 학습방법이다.
본 논문에서는 TD 학습을 적용한 Ant-Q 기반의 다중 집단 상호작용 개미 강화학습 모델을 제안하였다. 본 논문에서 제안된 개미 모델 학습 방법은 기존의 Ant-Q 개미 모델 학습 성능을 개선하기 위해 새롭게제안된 방법이다.
본 논문에서는 TD 학습을 적용한 Ant-Q 기반의 다중 집단 상호작용 개미 강화학습 모델을 제안한다. 제안된 개미 모델 구조는 몇 개의 독립적 AS 집단으로 이루어져 있으며, 상호작용은 강화 전략과 다양화 전략으로 나누어진 집단간 엘리트 전략에 따라 임무를 수행한다.
본 논문에서는 Temporal Difference(TD) 학습을 적용한 Ant-Q 기반 개미 모델을 이용한 다중 집단 상호작용 개미 강화학습 모델(Multi Colony Interaction Ant Reinforcement Learning Model) 을 제안한다. TD 학습을 이용한 Ant-Q 기반의 다중 집단 상호작용 개미 모델은 매 학습 단계에서 현재 상태의 출력에 대한 예측과 다음 상태의 출력에 대한 예측과의 차이를 이용하여 학습한다TD 학습은 현재 상태에서 현재 상태의 출력에 대한 예측은 다음 상태의 출력에 대한 예측과 가깝게 하기 위해 갱신된다.

제안 방법

TD 학습을 이용한 제안된 개미 모델은 매 학습 단계에서 현재 상태의 출력에 대한 예측과 다음 상태의 출력에 대한 예측과의 차이를 이용하여, 현재 상태에서 현재 상태의 출력에 대한 예측과 다음 상태의 출력에 대한 예측과 가깝게 '하기 위해 갱신하였다. 그리고 엘리트전략에 의한 집단간 상호작용을 통해 각 에이전트들이 경로 사이클을 이루는 동안 각 간선에 방문한 방문 빈도수 기반의 다양화 전략을 상태전이 규칙에 적용해 에이전트들이 탐색영역을 더욱 다양하게 검색 가능하게 하였다.
TD 학습을 적용한 Ant-Q 기반의 다중 집단 상호작용 개미 강화학습 모델의 성능을 평가하기 위해, 실험은 네 가지 방향으로 진행한다. 첫째, 학습율(a)에 따른 탐색 결과의 변화를 관측함으로써 학습율에 따른 영향을 평가한다.
9,W=10, m=10. 각 집단에서 에이전트들의 초기 위치 결정은 각 노드에 1개씩 무작위로배정하였으며, 종료 조건은 고정된 수행 횟수 또는 여러 실험에 의해 최적해로 알려진 값을 찾았을 경우 종료하였다.
세 번째는 q0에 따른 영향을 평가한다. 그리고 네 번째는 기존 개미 모델과의 탐색 결과 비교를 통한 성능을 측정하여 본다. 제안된 개미 모델을 실험하기 위해서도 시들의 위치는 TSP 예제로 널리 알려진 TSPLIBU0]에서 추출하여 실험을 하였다.
예측과 가깝게 '하기 위해 갱신하였다. 그리고 엘리트전략에 의한 집단간 상호작용을 통해 각 에이전트들이 경로 사이클을 이루는 동안 각 간선에 방문한 방문 빈도수 기반의 다양화 전략을 상태전이 규칙에 적용해 에이전트들이 탐색영역을 더욱 다양하게 검색 가능하게 하였다. 이로 인해 에이전트는 선호하지 않는 새로운 탐색 영역으로의 탐색 공간 확장을 통해 국부 최적으로부터 벗어날 수 있었고, 또한 최적해에 빠르게 수렴할 수 있었다.
, 는 집단/의 현재 경로 사이클의 최적 경로 길이이다. 또한 Queenl 그룹의 중심 집단(C₅) 과 Queen2 그룹의 중심 집단(C₁₀) 간의 상호작용은 두 그룹의 지역최적해를 서로 비교해, 우수한 해에 대해 전역 갱신하는전략을 채택한다.
제안하였다. 본 논문에서 제안된 개미 모델 학습 방법은 기존의 Ant-Q 개미 모델 학습 성능을 개선하기 위해 새롭게제안된 방법이다. 이 방법은 Ant-Q 개미 모델에 TD 학습을 통한 강화학습과 엘리트 전략에 의한 다중 집단상호작용 개미 모델을 적용한 학습 방법이다.
실험은 학습율과 할인율 그리고 go의 변화에 따른 탐색 결과의 변화를 측정하였고, 제안된 TD 학습을 이용한 다중 집단 개미 강화학습 모델의 성능을 실험하였다. 향후 연구과제는 제안된 개미 모델에서 현재 상태에서 선택한 노드에 대해 얼마나 적합한가를 의미하는 척도인 적합도(Eligibility factor)를 이용한 강화학습 방법에 대한 연구도 필요하다.
제안한다. 제안된 개미 모델 구조는 몇 개의 독립적 AS 집단으로 이루어져 있으며, 상호작용은 강화 전략과 다양화 전략으로 나누어진 집단간 엘리트 전략에 따라 임무를 수행한다. 강화 전략은 다른 에이전트 집단의 휴리스틱 정보를 이용해 좋은 경로 선택을 가능하게 한다.
가지 방향으로 진행한다. 첫째, 학습율(a)에 따른 탐색 결과의 변화를 관측함으로써 학습율에 따른 영향을 평가한다. 두 번째는 할인율3 )에 따른 영향을 평가한다.
위의 TD-학습을 Ant-Q 개미 모델에 적용하면식(9)와 같다[11]. 현재 상태의 노드3)에 있는 에이전트(Q에 의해 선택된 노드(s)에 대한 Q-값G4Q(r, s))과현재 상태의 노드(r, s)에 의해 선택된 다음 상태의 노드 (s, z) 중에서 최대 Q-값(Mox/1Q(s, 2))을 갖는 노드 (s, z) 쌍과의 Q-함수 값을 갱신하기 위해 TD 학습을이용한다. TD 학습은 식(9)와 같이 계산된다.

대상 데이터

그리고 네 번째는 기존 개미 모델과의 탐색 결과 비교를 통한 성능을 측정하여 본다. 제안된 개미 모델을 실험하기 위해서도 시들의 위치는 TSP 예제로 널리 알려진 TSPLIBU0]에서 추출하여 실험을 하였다. 실험을 위한 개미 모델의 기본 환경 변수는 다음과 같이 결정하였다.

이론/모형

같다. 현재 상태의 집단/의 노드(r)에 있는 에이전트(k)에의해 선택된 노드(s)에 대한 Q-값(Ab(r, s))과 현재 상태의 노드(r, s)에 의해 선택된 다음 상태의 노드(s, n) 중에서 최대 Q-값(MaxAQ(s,z))을 갖는 노드(s, z) 쌍과의 Q-함수 값을 갱신하기 위해 TD 학습을 이용한다. TD 학습은 식(13)과 같이 계산된다.

성능/효과

TSP 문제는 산출된 수치 그대로이며, St70.TSP 문제는 동일 그래프상에 표현하기 위해산출된 결과의 62% 수치 값으로 표현하였다.
TSP 문제를 이용해 Ant-Q개미 모델과 제안된 개미 모델에서 q0에 따른 성능 평가 결과를 보여주고 있다. 결과를 살펴보면, q0가 0.7~0.9 사이에서 좋은 결과를 보여주고 있으며, 그 중에서 go가 0.9일 경우 가장 좋은 결과를 산출함을 볼 수 있다.
20000회의 결과이다. 그 결과를 살펴보면, 각 ACS, Ant-Q 그리고 제안된 개미 모델에 의해 산출된최적 경로 길이와 평균 경로 길이를 보여주는 것으로제안된 개미 모델의 성능이 우수하다는 것을 보여주고있다.
효과적임을 보여주고 있다. 그러나 Ant-Q 개미모델이 계산량이 많아 시간이 많이 소요되는 이유로 제안된 개미 모델도 그에 따른 계산량이 많아지는 단점이 있음에도 불구하고 문제영역이 큰 문제에 대해 제안된 개미 모델이 효과적으로 적용될 수 있음을 실험을 통해 알 수 있었다.
학습율이 0.1일 때 가장 좋은 성능을 보이며, 학습율이 높아질수록 성능이 점차 감소됨을 실험에서 밝히고있다. 여기서 Eil51.

후속연구

실험하였다. 향후 연구과제는 제안된 개미 모델에서 현재 상태에서 선택한 노드에 대해 얼마나 적합한가를 의미하는 척도인 적합도(Eligibility factor)를 이용한 강화학습 방법에 대한 연구도 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습
Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습 Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Temporal Difference 학습을 이용한 다중 집단 강화.다양화 상호작용 개미 강화학습
Multi Colony Intensification.Diversification Interaction Ant Reinforcement Learning Using Temporal Difference Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper