[보고서]강화학습의 제어적 해석과 설계

이동환

[국가R&D연구보고서] 강화학습의 제어적 해석과 설계
Control Theory Perspective of Reinforcement Learning in Analysis and Design 원문보기

보고서 정보
주관연구기관	한국과학기술원 Korea Advanced Institute of Science and Technology
연구책임자	이동환
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2024-03
과제시작연도	2023
주관부처	과학기술정보통신부 Ministry of Science and ICT
연구관리전문기관	한국연구재단 National Research Foundation of Korea
등록번호	TRKO202400006155
과제고유번호	1711191821
사업명	개인기초연구(과기정통부)
DB 구축일자	2024-09-04
키워드	강화학습.제어시스템.안정성.수렴성.안장점.Reinforcement learning.Control system.Stability.Convergence.Saddle-point.

초록 ▼

□ 연구개요
동적 시스템 및 제어 시스템 관점에서 강화학습과 머신러닝 기법들의 수렴성을 연구를 목표. 연구 목표의 달성을 위해서 강화학습 알고리즘의 제어시스템 모델의 개발 및 안정점 이론을 이용한 새로운 알고리즘의 개발. 전체 알고리즘의 안정성 및 수렴성을 보장하는 기법을 연구. 이를 통해서 강화학습 분야에 새로운 관점을 제시. 엄정한 수학적인 분석을 통해서 수렴성과 해를 해석.

□ 연구 목표대비 연구결과
연구의 목표는 제어 시스템 의 관점과 기법을 사용해서 강화학습 알고리즘을 해석하고 개발하는 새로운 관점과 틀을 확립. 목표대비 연구 결과 초과달성. 대표적인 연구성과는 다음과 같이 정리 됨:
1) 스위칭 시스템 기반 Q-learning 해석
- 제어시스템의 한 분야인 스위칭 시스템모델을 활용하여 강화학습의 가장 중요한 알고리즘인 Q-learning의 기존과 전혀 다른 새로운 해석기법과 관점을 제시
- 이렇게 제세된 새로운 관점은 다른 강화학습 기법으로 확장 가능
2) Backstepping기법 기반 gradient TD-learning (GTD)
- 제어기법인 backstepping기법을 이용한 새로운 GTD기법 개발 및 수렴성 증명.
- 이를 통한 강화학습 과 제어의 새로운 연결 확립
3) 안장점 이론 기반 새로운 GTD 개발 및 제어이론 활용
- GTD를 제약조건이 있는 최적화 문제로 와 새로운 안장점 문제로 바꾸고 이를 primal-dual 알고리즘으로 푸는 방식으로 새로운 GTD알고리즘 개발
- 알고리즘의 해석을 위해 알고리즘의 제어시스템 모델을 활용
4) LQR문제를 위한 dynamic programming (동적계획법)의 새로운 수렴성 확립
- 제어 문제인 LQR문제를 위한 dynamic programming의 새로운 지수적 수렴 상한을 최초로 개발
- 개발된 방법은 기존과 다른 방식으로 유도하며 이는 강화학습 개발을 위한 초석이 됨
개발된 연구 내용들은 이후로도 후속 연구가 계속 진행되고 있고 앞으로 더욱 혁신적인 이론 개발이 이루어질 예정임

□ 연구개발성과의 활용 계획 및 기대효과(연구개발결과의 중요성)
1) 활용계획:
- 제어이론을 이용한 기존 강화학습의 새로운 해석 및 새로운 강화학습 기법 개발 구체적 활용계획:
- 모델기반 Q-learning의 수렴성 해석
- Double Q-learning의 수렴성 해석
- Soft Q-learning의 수렴성 해석
- Two-player zero-sum game의 adversarial Q-learning의 수렴성 해석
- Q-learning의 overestimation bias해소를 위한 새로운 Q-learning 개발

2) 기대효과:
- 새로운 강화학습 해석 기법을 제공함 으로써 앞으로 강화학습 해석과 개발에 범용적으로 많이 사용될 것으로 기대
- 전반적인 강화학습 이론의 발전과 이해에 도움
- 이론을 기반으로 실용적인 문제를 푸는 강화학습 기법개발에 도움
- 제어이론의 활용성 증가
- 강화학습 이론 교육에 활용

(출처 : 요약문 2p)

목차 Contents

표지 ... 1
연구결과 요약문 ... 2
목차 ... 3
1. 연구개발과제의 개요 ... 4
2. 연구개발과제의 수행 과정 및 수행 내용 ... 4
1) 스위칭 시스템 모델 기반의 Q-learning의 새로운 수렴성 증명 및 새로운 관점 ... 4
2) 새로운 gradient TD-learing (GTD) 개발 ... 5
3) Backstepping기법을 이용한 새로운 gradient TD-learing 개발 ... 6
4) 안장점문제와 제어이론을 이용한 multi-agent 분산강화학습 개발 ... 7
5) LQR을 위한 동적계획법 수렴성 ... 8
6) LQR을 위한 동적계획법 수렴성 ... 9
6) LQR을 위한 강화학습 개발 및 수렴성 ... 10
3. 연구개발과제의 수행 결과 및 목표 달성 수준 ... 11
1) 정성적 연구개발성과(연구개발결과) ... 11
2) 세부 정량적 연구개발성과 ... 12
3) 목표 달성 수준 ... 12
4. 연구개발성과의 관련 분야에 대한 기여 정도(연구개발결과의 중요성) ... 12
(i) 학문적 중요성 ... 12
(ii) 학문적 실용성 ... 13
5. 연구개발성과의 관리 및 활용 계획 ... 13
6. 자체점검표 ... 14
끝페이지 ... 33

표/그림 (5)

표 Q-learning의 스위칭 시스템 모델 기반 해석에 대한 전반적인 다이어그램
표 개발된 GTD와 기존 GTD2와의성능 비교
표 제안된 multi-agent 분산강화학습 환경의 다이어그램
표 3개의 드론이 랜덤 또는 대형을 이루어 지역정찰 시나리오. 각각의 드론이 감지 할 수 있는 물체가 각기 다르며 목적은 모든 정찰 드론이 모든 물체를 감지. 각각의 드론이 다른 센서를 장착하거나 대형을 이룰 경우 커버 할 수 있는 범위가 다르기 때문. 드론은 제안된 알고리즘을 통해서 모든 물체를 감지 가능
표 : 수렴속도 실험

참고문헌 (25)

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 보고서

해당 보고서가 속한 카테고리에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국가R&D연구보고서] 강화학습의 제어적 해석과 설계
Control Theory Perspective of Reinforcement Learning in Analysis and Design 원문보기