[논문]탐색 강화 계층적 강화 학습

이승준; 장병탁

탐색 강화 계층적 강화 학습
Hierachical Reinforcement Learning with Exploration Bonus 원문보기

이승준 (서울대학교 컴퓨터공학부 바이오지능 연구실) , 장병탁 (서울대학교 컴퓨터공학부 바이오지능 연구실)

Q-Learning과 같은 기본적인 강화 학습 알고리즘은 문제의 사이즈가 커짐에 따라 성능이 크게 떨어지게 된다. 그 이유들로는 목표와의 거리가 멀어지게 되어 학습이 어려워지는 문제와 비 지향적 탐색을 사용함으로써 효율적인 탐색이 어려운 문제를 들 수 있다. 이들을 해결하기 위해 목표와의 거리를 줄일 수 있는 계층적 강화 학습 모델과 여러 가지 지향적 탐색 모델이 있어 왔다. 본 논문에서는 이들을 결합하여 계층적 강화 학습 모델에 지향적 탐색을 가능하게 하는 탐색 보너스를 도입한 강화 학습 모델을 제시한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 앞서 말한 탐색과 scaling의 문제를 해결하기 위해 계층적 강화 학습 모델에 탐색 보너스를 적용한 탐색 강화 계충적 강화 학습 모델을 제시한다. 일반적인 문제에 적용 가능하도록 하고 간단한 구현이 가 능하도록 하기 위하여 다단계 행동(Multi-step action)을 사용한 계층적 강화 학습 모델에 상태 카운트를 사용한 전역적 탐색 보너스를 사용하였다.
또한 실제 문제에 적용하기 위해서는 큰 상태 공간에 비해 상대적으로 적은 학습 데이터의 문제(sparse data problem)올 해결할 필요가 있다. 본 논문에서는 이러한 두 문제를 해결하기 위한 시도로써 계충적 강화 학습(Hierachical RL) 에 탐 색 보너스를 도입한 탐색 강화 계층적 강화 학습 모델올 제시한다.
이 실험에서는 MSA와 Exploration bonus, 그리고 이 둘을 복합적으로 사용한 경우의 탐색 능력을 알아보았다. 시작점에서 고울 지점까지 어느 정도의 시간이 흐른 다음에 도착하는지의 평균값 (First Passage Time, FPT)를 측정하여 탐색 능력의 기준으로 삼았다.

제안 방법

이 실험에서는 MSA와 Exploration bonus, 그리고 이 둘을 복합적으로 사용한 경우의 탐색 능력을 알아보았다. 시작점에서 고울 지점까지 어느 정도의 시간이 흐른 다음에 도착하는지의 평균값 (First Passage Time, FPT)를 측정하여 탐색 능력의 기준으로 삼았다. 비교 대상은 Random walk, Random walk with MSA, Random walk with Exploration bonus, Random walk with MSA and exploration bonus의 네 가지였다.
이번에는 Random walk 대신 Q-Learninge- 사용하였 올 경우의 수렴 형태를 알아보았다. Q-Learning의 경우는 £=0.

대상 데이터

시작점에서 고울 지점까지 어느 정도의 시간이 흐른 다음에 도착하는지의 평균값 (First Passage Time, FPT)를 측정하여 탐색 능력의 기준으로 삼았다. 비교 대상은 Random walk, Random walk with MSA, Random walk with Exploration bonus, Random walk with MSA and exploration bonus의 네 가지였다. 1000번 시행해 구한 결과는 다음의 표와 같다.

이론/모형

본 논문에서는 앞서 말한 탐색과 scaling의 문제를 해결하기 위해 계층적 강화 학습 모델에 탐색 보너스를 적용한 탐색 강화 계충적 강화 학습 모델을 제시한다. 일반적인 문제에 적용 가능하도록 하고 간단한 구현이 가 능하도록 하기 위하여 다단계 행동(Multi-step action)을 사용한 계층적 강화 학습 모델에 상태 카운트를 사용한 전역적 탐색 보너스를 사용하였다. 이 모델의 경우 행동 선택은 다음과 같이 탐색 보너스를 사용하여 이루어진다.

성능/효과

9을 사용하였다 1000회 반복 수행 시 모두 최적치(16 step)올 찾을 수 있었다. MSA를 사용한 경우와 MSA, 보너스를 사용한 경우에는 two-step action을 최대 회수(7회) 사용하는 올바른 최적치를 구할 수 있었다. 다음은 학습 도중의 경로 길이이다.
2-step action을 단일 행동으로 본다면 그 이상의 향상이라고 여길 수 있다. 탐색 보너스를 사용한 방법은 완전히 Random 한 방법에 비해 30% 정도의 행동으로 골에 다다률 수 있었다. 한 번 지나온 곳보다 안 가 본 곳에 탐색이 집중되기 때문에 큰 성능 차이가 있다고 생각된다.

원문 보기

ScienceON 원문보기

*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.

내보내기 메뉴

내보내기 구분

파일저장
인쇄
메일전송

구성항목

기본정보
상세정보

관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관

저장형식

Text(ASCII format)
Excel format
RefWorks Direct Export
RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley

메일정보

받는사람 (필수): @
보내는사람 (선택): @
제목
내용: KISTI 검색결과 이메일 서비스

안내

총 건의 자료가 검색되었습니다.

다운받으실 자료의 인덱스를 입력하세요. (1-10,000)

검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다.

데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요)

다운로드 파일은 UTF-8 형태로 저장됩니다.
파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오.

Text(ASCII format)
Excel format

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

AI-Helper ※ AI-Helper는 을 사용합니다.

AI-Helper

안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

연합인증

탐색 강화 계층적 강화 학습
Hierachical Reinforcement Learning with Exploration Bonus 원문보기

초록
AI-Helper