[논문]다중에이전트 행동기반의 강화학습에 관한 연구

도현호; 정태충

다중에이전트 행동기반의 강화학습에 관한 연구
A Study on Reinforcement Learning of Behavior-based Multi-Agent 원문보기

도현호 (경희대학교 전자계산공학과) , 정태충 (경희대학교 전자계산공학과)

다양한 특성들을 가지고 있는 멀티에이전트 시스템의 행동학습은 에이전트 설계에 많은 부담을 덜어준다. 특성들로부터 나오는 다양한 행동의 효과적인 학습은 에이전트들이 환경에 대한 자율성과 반응성을 높여준 수 있다. 행동학습은 model-based learning과 같은 교사학습보다는 각 상태를 바로 지각하여 학습하는 강화학습과 같은 비교사 학습이 효과적이다. 본 논문은 로봇축구환경에 에이전트들의 행동을 개선된 강화학습법인 Modular Q-learning을 적용하여 복잡한 상태공간을 효과적으로 나누어 에이전트들의 자율성과 반응성을 높일 수 있는 강화학습구조를 제안한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

효과직임을 보였다. 또한 이 실험을 통하여 복잡한 환경 속의 에이전트 학습시 효과적인 상태 공간이전체 학습 성능에 어떠한 영향을 주는지 보여주고 있다. 그러나 축구 전술문제와 같은 상위 레벨의 학습문제까지 고려를 할 경우에는 좀 더 복잡한 행동들이 나와 학습시간의 지연이 올 수도 있다.
그러나 단순한 강화학습의 가장 큰 문제점은 큰 상태공간을 갖는 복잡한 환경들에 그대로 적용하기가 힘들다는 것이다. 본 논문에서는 복잡한 환경인 로봇 축구에 기존의 강화 학습을 개선한 Modular Q-leaming 적용하여, 에이전트들의 자율성과 반응성을향상시키기 위해 큰 상태 공간에서 에이전트들의 다양한 행동을 이용한 효과적으로 학습할 수 있는 구조를 제안한다.
본 논문은 복잡한 환경의 멀티 에이전트 시스템에서다양한 행동들로 인하여 지수적으로 늘어나게 되는 상태 공간을 줄이기 위하여 강화학습인 Modular Q-learning올 사용한 구조를 제안하고, Q니earning을사용한 구조와의 비교, 평가를 로봇축구 환경의 실험을통하여 효과직임을 보였다. 또한 이 실험을 통하여 복잡한 환경 속의 에이전트 학습시 효과적인 상태 공간이전체 학습 성능에 어떠한 영향을 주는지 보여주고 있다.

제안 방법

통하여 비교 실험하였다. 각각의 에이진트들의 학습력과 반응성을 평가하기란 쉬운 일이 아니므로 팀 정체의 득점비율로 성능 평가를 하였다. 각 팀의 학습력이 높아질수록 환경에 대한 반응성이 좋아지고 경기의 득점이 높아지기 때문이다.
본 연구에서는 Modular Q니earning학습을 한 에이전트 팀과 Q니earning 학습을 한 에이전트 팀의 행동들을 통하여 비교 실험하였다. 각각의 에이진트들의 학습력과 반응성을 평가하기란 쉬운 일이 아니므로 팀 정체의 득점비율로 성능 평가를 하였다.
비교를_ 위해 학습기능이 없는 팀과 순수한 Q-】eaming 으로 학습을 하는 팀, Modular Q니earning으로 학습하는 팀을 구현하여 평가를 하였다.

대상 데이터

본 연구에서는 Modular Q니earning의 적용을 구힌하기 위하여 Georgia공대의 Tucker Balch가 개발한 멀티 에이전트 및 멀티 로봇 시뮬레이션 Teambots을 사용하여 구현하였다. Teambotse 에이전트들의 행동을 Motor schema로 표현할 수 있도록 Clay라는 Java package로 구현되어있다.
learning module 들의 학습 공간들을 나누는 것은 Modular Q니earning 에서 아주 중요하다. 지각 센서로부터 받아 Motor Schema로 표현된 각각의 행동들을 기준으로 학습의 공간을 선택하였다. 각 최상위 행동들에 대하여 [그림5] 와 같이 sub_task로 나누어 학습을 하기 때문에 보다 적은 시간으로 빠른 행동진략에 수림할 수 있으며, 각 상태에 대한 학습 범위를 줄여줌으로서 Q-Value의 저장공간도 줄여준다.

이론/모형

이런 문제점들을 본 논문에서는 Modular Q니earning을 사용함으로서 해결한다. learning module 들의 학습 공간들을 나누는 것은 Modular Q니earning 에서 아주 중요하다.

성능/효과

제안한 Modular Q니earning을 이용한 팀이 순수한 Q니earning을 이용한 팀보다 초기에는 좋지 못한 성능을 나타내었으나, 일정 시간이 경과한 뒤에는 Q니earning학습 에이전트 팀보다 Modular Q-leaming 학습 에이전트 팀의 성능이 향상되었다.

후속연구

그러나 축구 전술문제와 같은 상위 레벨의 학습문제까지 고려를 할 경우에는 좀 더 복잡한 행동들이 나와 학습시간의 지연이 올 수도 있다. 이를 위한 :효과적인 학습 모듈 설계와 다른 강화학습 Algorithm의 비교, 평가하여 다양한 환경에 적응할 수 있는 학습구조를만들어 가는 것이 향후 연구 과제로 이루어져야 할 것이 다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다중에이전트 행동기반의 강화학습에 관한 연구
A Study on Reinforcement Learning of Behavior-based Multi-Agent 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다중에이전트 행동기반의 강화학습에 관한 연구 A Study on Reinforcement Learning of Behavior-based Multi-Agent 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다중에이전트 행동기반의 강화학습에 관한 연구
A Study on Reinforcement Learning of Behavior-based Multi-Agent 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper