[논문]다중 에이전트 강화학습을 위한 SOM 기반의 일반화

임문택; 김인철

[국내논문] 다중 에이전트 강화학습을 위한 SOM 기반의 일반화
SOM_Based Generalization for Multiagent Reinforcement Learning 원문보기

임문택 (경기대학교 전자계산학과) , 김인철 (경기대학교 전자계산학과)

본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 독립적이면서 대표적인 강화학습법인 Q-학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다. 이 문제에 대한 기존의 접근방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 the Prey and Hunters Problem를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM 을 이용한 일반화 방법을 제안한다. 이 방법은 다층 퍼셉트론 신경망과 역전파 알고리즘을 이용한 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM 을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 채 경험하지 못한 상태-행동들에 대한 Q 값을 예측하고 이용할 수 있다는 장점이 있다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이와 같이 신경망 SOM 을 일반화에 이용하면 기대할 수 있는 가장 큰 장점은 비교사 학습(unsupervised learning)으로서 정확한 훈련 예가 없어도 높은 성능의 일반화가 가능하다는 점이다. 따라서 본 논문에서는 강화학습을 위한 일반화에 신경 망 SOM 을 적용한 SOM 알고리즘을 제안한다.
본 논문에서는 Q 학습의 큰 상태공간 문제를 해결하기 위한 방법으로 신경망을 이용한 일반화 방법을 제안 하였다. 특히 일반화 방법으로 SOM 을 이용한 QSOM 을 제안하였으며 QSOM 학습방법은 Q-표 대신 신경망 SOM 을 사용하였고 QSOM 의 특징으로는 비교사 학습으로 정확한 훈련 예 없이도 효과적인 학습이 가능하다는 것이다.
이 문제에 대한 기존의 접근 방법은 크게 모듈화 방법과 일반화 방법이 제안되었으나 모두 나름의 제한을 가지고 있다. 본 논문에서는 대표적인 다중 에이전트 학습 문제의 예로서 the Prey and Hunters Problem 를 소개하고 이 문제영역을 통해 이와 같은 강화학습의 문제점을 살펴보고, 해결책으로 신경망 SOM 을 이용한 일반화 방법 QSOM 을제안한다. 이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM 을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못한 상태-행동들에 대한 Q 값을 예측하고 이용할 수 있다는 장점이 있다.
본 논문에서는 에이전트간의 통신이 불가능한 다중 에이전트 환경에서 각 에이전트들이 독립적이면서 대표적인 강화학습법인 Q-학습을 전개함으로써 서로 효과적으로 협조할 수 있는 행동전략을 학습하려고 한다. 하지만 단일 에이전트 경우에 비해 보다 큰 상태-행동공간을 갖는 다중 에이전트환경에서는 강화학습을 통해 효과적으로 최적의 행동 전략에 도달하기 어렵다는 문제점이 있다.

이론/모형

(s) 와 신경망의 출력으로 제시된 기존의 Q 함수값 QNETa.(5)의 차 (difference) 를 오차 (error) 로 삼아 역전파 알고리즘 (backpropagation algorithm)을 적용하여 신경망의 가중치를 갱신한다.

성능/효과

첫째, 이 방법은 사전에 잘 정의된 모듈들을 필요로 하며, 효과적인 모듈화를 위해서는 많은 영역지식이 필요하다. 둘째, 각 모듈별 학습 결과를 결합하는 중재모듈의 결합 방식이 매우 단순하고 고정적이다. 셋째는 결과적으로 모듈화를 통해 각 모듈에서 고려하는 환경요소는 한 두개 정도로 줄어들어 실제 문제의 복잡도에 비해 지나치게 단순화된다는 것이다.
둘째, 각 모듈별 학습 결과를 결합하는 중재모듈의 결합 방식이 매우 단순하고 고정적이다. 셋째는 결과적으로 모듈화를 통해 각 모듈에서 고려하는 환경요소는 한 두개 정도로 줄어들어 실제 문제의 복잡도에 비해 지나치게 단순화된다는 것이다.
하였다. 특히 일반화 방법으로 SOM 을 이용한 QSOM 을 제안하였으며 QSOM 학습방법은 Q-표 대신 신경망 SOM 을 사용하였고 QSOM 의 특징으로는 비교사 학습으로 정확한 훈련 예 없이도 효과적인 학습이 가능하다는 것이다. 향후 연구로는 the Prey and Hunters Problem 에 대한 실험을 통해 본 논문에서 제안한 QSOM 의 성 능과 효과를 입 증하는 것이다.

후속연구

The Prey and Hunters Problem 영역의 실험을 통해 본 논문에서 제시한 QSOM 학습방법의 일반화 효과를 평가 할 것이다. 평가항목으로는 평가함수 값의 수렴속도, 행동의 최적성 그리고 Prey 에 포획될 때 까지 소요된 총 동작 수(시간)를 산출하고 각 Hunter 에이전트의 학습 진행 상황인 SOM 에서 출력 뉴런 虬=(상태, 동작, Q 값)의 변화과정을 추적하게 될 것이다.
특히 일반화 방법으로 SOM 을 이용한 QSOM 을 제안하였으며 QSOM 학습방법은 Q-표 대신 신경망 SOM 을 사용하였고 QSOM 의 특징으로는 비교사 학습으로 정확한 훈련 예 없이도 효과적인 학습이 가능하다는 것이다. 향후 연구로는 the Prey and Hunters Problem 에 대한 실험을 통해 본 논문에서 제안한 QSOM 의 성 능과 효과를 입 증하는 것이다.
이 방법은 기존의 일반화 방법과는 달리 군집화 기능을 제공하는 신경망 SOM 을 이용함으로써 명확한 다수의 훈련 예가 없어도 효과적으로 이전에 경험하지 못한 상태-행동들에 대한 Q 값을 예측하고 이용할 수 있다는 장점이 있다. 후속 연구를 통해본 논문에서 제시한 QSOM 학습법의 일반화 효과와 성능을 평가할 계획이다.

원문 보기

ScienceON 원문보기

*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.

이 논문과 함께 이용한 콘텐츠

[논문] 퍼셉트론 형태의 SOM : SOM의 일반화

저작권 관리 안내

내보내기 메뉴

내보내기 구분

파일저장
인쇄
메일전송

구성항목

기본정보
상세정보

관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관

저장형식

Text(ASCII format)
Excel format
RefWorks Direct Export
RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley

메일정보

받는사람 (필수): @
보내는사람 (선택): @
제목
내용: KISTI 검색결과 이메일 서비스

안내

총 건의 자료가 검색되었습니다.

다운받으실 자료의 인덱스를 입력하세요. (1-10,000)

검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다.

데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요)

다운로드 파일은 UTF-8 형태로 저장됩니다.
파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오.

Text(ASCII format)
Excel format

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

AI-Helper ※ AI-Helper는 을 사용합니다.

AI-Helper

안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

연합인증

[국내논문] 다중 에이전트 강화학습을 위한 SOM 기반의 일반화
SOM_Based Generalization for Multiagent Reinforcement Learning 원문보기

초록
AI-Helper