[논문]유전 알고리즘을 이용한 강화학습 보상함수 최적화

박종철

지식인프라
지식인프라

연구 활동에 필요한 과학기술정보·데이터, 슈퍼컴퓨팅 자원, 정보분석 도구 등을 제공합니다.
- 지식인프라 전체보기
  
  지식인프라 전체보기
  
  연구 활동에 필요한 과학기술 지식인프라를
  데이터 유형, 연구단계, 이용목적별로 제공합니다.
- 이용목적별 지식인프라
  
  이용목적별 지식인프라
  
  이용자의 소속 유형과 활용 목적에 적합한
  과학기술 지식인프라를 제공합니다.
- 활용 시나리오
  
  활용 시나리오
  
  인프라 기능들 사이에 목적별 워크플로우를 구성하여 과학기술 지식인프라 이용에 도움을 드리려고 합니다.
지능형 분석
지능형 분석

과학기술정보데이터, 슈퍼컴퓨팅활용, 정보분석 등
연구자들이 언제 어디서나 활용할 수 있도록 지원합니다.
- AI 논문 서비스・AI-Helper
  
  AI 논문 서비스・AI-Helper
  
  논문의 문장분류를 기반으로 AI 요약 서비스를
  제공하고 있으며, 딥러닝 AI 모델을 통해 연구주제,
  연구방법, 연구결과에 대한 문장분류 태그를
  자동으로 구축하고 있습니다.
  
  또한, 논문 PDF에서 선택한 텍스트를 요약, 번역,
  용어 설명하는 AI-Helper 서비스를 제공합니다.
- ScienceON TREND
  
  ScienceON TREND
  
  최신 과학기술 트렌드와 토픽에 대한 ScienceON
  연관 콘텐츠 및 내외부 지식인프라 콘텐츠를 한 번에 볼 수 있는 서비스입니다.
- ScienceON Analytics
  
  ScienceON Analytics
  
  ScienceON 이용통계 기반의 활용도 분석 서비스를 제공합니다.
- ScienceON LAB
  
  ScienceON LAB
  
  ScienceON LAB은 사용자들이 ScienceON의
  새로운 서비스, 기능 등을 이용해보고 피드백을
  남길 수 있는 공간입니다.
고객지원
고객지원

이용자의 연구 활동을 돕고 요구사항을 반영하고자
온오프라인을 통해 적극적으로 고객을 지원합니다.
- 공지사항
  
  공지사항
  
  ScienceON, 연구개발, 과학기술 활동과 관련된
  공지 내용을 제공합니다.
- FAQ
  
  FAQ
  
  ScienceON 이용과 관련한 주요 질문과 답변을
  제공합니다.
- Q&A
  
  Q&A
  
  ScienceON 이용 관련 질문, 불편사항,
  개선 요청사항에 대한 게시판입니다.
- 사용설명서
  
  사용설명서
  
  ScienceON 사용에 필요한 설명을 제공합니다.
- OpenAPI
  
  ScienceON API Gateway
  
  KISTI에서 구축한 과학기술정보를 제공하는
  개방형 유통 플랫폼입니다.
- ScienceON 홍보
  
  ScienceON 홍보
  
  ScienceON에서 발간한 ScienceON 홍보자료를 확인할 수 있습니다.
- 저작권 관리 안내
  
  저작권 관리 안내
  
  ScienceON에서 제공하는 콘텐츠에 대한 저작권 관리 안내입니다
About
About

ScienceON 개요, 추진방향, 목표, 기능과
제공 콘텐츠입니다.
- ScienceON 개요
  
  ScienceON 개요
  
  과학기술 지식인프라 ScienceON은 과학기술정보, 연구데이터, 정보분석서비스 및 연구인프라를 연계·융합하여 연구자가 필요로 하는 지식인프라를 한곳에서 제공하는 서비스 입니다.
- 추진방향
  
  추진방향
  
  지식인프라의 통합적 연계·활용 중심에서 인공지능
  큐레이션 서비스로의 진화를 목표로 합니다.
- 서비스 목표
  
  서비스 목표
  
  이용자의 접근성과 활용성 강화, R&D의 효율성 향상, 과학기술의 대중화 실현하고자 합니다.
- 주요기능
  
  주요기능
  
  지식인프라, 지능형 분석, 고객지원 등 연구 활동에
  필요한 주요 기능을 설명합니다.
- 제공콘텐츠
  
  제공콘텐츠
  
  ScienceON에서 제공하는 과학기술정보 및
  지식인프라에 대한 개요 및 현황을 제공합니다.
- 지식인프라 소개
  
  지식인프라 소개
  
  ScienceON에서 제공하는 다양한
  지식인프라에 대한 소개를 제공합니다.

인기검색어
급상승검색어

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[학위논문] 유전 알고리즘을 이용한 강화학습 보상함수 최적화
Optimization of the reward function in reinforcement learning using genetic algorithm 원문보기

박종철 (高麗大學校 컴퓨터學科 국내석사)

초록 ▼
AI-Helper

강화 학습(Reinforcement learning)은 정해진 환경 속에서 구현된 에이전트가 주변 상태를 인식하여, 가능한 선택지들에서 보상을 최대화시키는 행동을 선택하는 정책을 학습하는 기계학습 분야이다. 전통적인 강화학습은 의사결정 과정을 ...

강화 학습(Reinforcement learning)은 정해진 환경 속에서 구현된 에이전트가 주변 상태를 인식하여, 가능한 선택지들에서 보상을 최대화시키는 행동을 선택하는 정책을 학습하는 기계학습 분야이다. 전통적인 강화학습은 의사결정 과정을 모델링을 한 방법인 마르코프 결정 과정(Markov Decision Process)과 Q-러닝을 사용하여 상태나 모델을 학습시킨다. 이러한 방법은 Q-테이블에 저장된 각 상태에 대한 정보에 의존한다는 단점이 있었고 심층강화학습(Deep Reinforcement Learning)의 등장은 이러한 단점을 어느 정도 극복하였다.
하지만 심층강화학습 모델의 이러한 시도에도 불구하고, 지금까지 해결하지 못하고 있는 다양한 문제점이 존재한다. 이 논문에서는 다음과 같은 네 가지의 문제점에 집중하고자 한다. 첫째, 심층 강화학습은 보상이 적은 게임을 학습할 때 매우 난해하다. 둘째, 심층 강화학습이 학습하는 게임이 비효율적으로 샘플링될 수 있다. 셋째, 학습의 결과로 나온 결과물이 다른 방식보다 성능이 저조할 수 있다. 마지막으로, 강화학습에는 보상함수가 필요하다.
본 논문에서는 이러한 문제점을 해결하고자, 유전 알고리즘을 이용한 강화학습으로 보상함수 최적화를 설계하여 이 방법을 사용하여 해결하였다. 첫째, 보상함수를 유전 알고리즘으로 만들어서 환경에 보상을 추가하였다. 둘째, 상태 군집화를 통해서 비슷한 상태를 같은 상태로 학습시켜서 학습 시간을 크게 줄였다. 셋째, 환경에 정보 없이 시작하지 않고, 휴리스틱 전략을 대입해서 다른 방식과 비슷한 시작점을 가졌다. 넷째, 유전 알고리즘으로 찾은 보상함수를 강화학습의 보상함수로 대체하였다. 결과적으로, 제안하는 기법들로 강화학습의 효율과 성능을 증가시킴을 보인다.

학위논문 정보

저자	박종철
학위수여기관	高麗大學校
학위구분	국내석사
학과	컴퓨터學科
지도교수	金顯哲
발행연도	2019
총페이지	v, 30장
언어	kor
원문 URL	http://www.riss.kr/link?id=T15062772&outLink=K
정보원	한국교육학술정보원

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper

안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[학위논문] 유전 알고리즘을 이용한 강화학습 보상함수 최적화
Optimization of the reward function in reinforcement learning using genetic algorithm 원문보기

초록 ▼
AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[학위논문] 유전 알고리즘을 이용한 강화학습 보상함수 최적화 Optimization of the reward function in reinforcement learning using genetic algorithm 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[학위논문] 유전 알고리즘을 이용한 강화학습 보상함수 최적화
Optimization of the reward function in reinforcement learning using genetic algorithm 원문보기

초록 ▼
AI-Helper