[논문]비지도 강화학습 기반의 인공지능 융합 기술 연구 및 동향

비지도 강화학습 기반의 인공지능 융합 기술 연구 및 동향
Research & Trends for Converged AI Technology based on Unsupervised Reinforcement Learning 원문보기

김민석 (상명대학교 휴먼지능로봇공학과)

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

내적 보상함 수는 시스템 환경에서 나타나는 외적 보상함수에서 설계된 학습 요구사항이 아닌 환경에 새롭게 내재되어 있는 현상을 학습하여 제안하는 방법으로 기존 강화 학습에 비해보다 광범위한 작업을 선택하여 학습할 수 있는지도 강화 학습(Unsupervised RL) 방법이다. 또한 에이전트의 행동개선을 유도하기 위해 시스템 환경 변화에서 나타나는 상호작용 (Environmental Interaction)을 강조하고 예측 가능한 환경 변화 요소에 따른 학습 최적화를 성취하는 데 목표가 있다.

결과적으로 비지도 메타 강화 학습은 메타 학습을 통해 얻어지는 보상값을 기반으로 하위 정책을 학습한 후 주요 경로탐색을 위한 마스터 정책과 정보를 공유하여 최적화 경로탐색을 안내한다. 또한 마스터 정책은 하위 정책의 실행 순서를 결정하고 에이전트가 메타 학습작업에 빠르게 적응할 수 있도록 선순환과정을 유도하는 학습방법으로 지도 및 비지도 강화 학습을 모두 채택하여 사용하는 매우 효과적인 방법이라고 할 수 있다.

비록 강화 학습은 여전히 학습보상함수의 정의나 환경설정의 제약으로 실제 환경이나 시스템에 적용하기 매우 어려운 분야지만, 다양한 방법을 통해 이를 극복하기 위한 지속적인 연구 및 개발이 진행되고 있다. 이러한 연구개발의 흥미로운 발견은 기술 간의 관계성을 연구하고 학습 제어기술의 구간을 세분화하여 단계별로 융합발전할 수 있도록 시도하는 부분이며 향후 전반적인 인공지능 기술 분야에 걸쳐질적 및 양적기술 향상을 가져올 것으로 기대한다.
특히 인공지능의 지능학 습인 기계학습(Machine Learning)은 기본적으로 지도학습, 비지도 학습 및 강화학습 세 개의 분야로 구분되어 발전하고 있다. 하지만 다양한 방법으로 인공지능을 전 분야에 걸쳐 적용하다 보니 더욱 효과적인 결과를 찾기 위한 새로운 방법들을 강구하기 시작하였고, 이로 인해 기존에 구분되었던 기계학습 분야의 경계면이 점차 허물어져 가는 방향으로 연구 및 개발이 진행 중이다. 예를 들어, 비지도 학습 기반의 클러스터링 기법과 지도학습의 레이블데이터를 결합한 후 이를 분류 기법에 적용하여 높은 효과를 만드는 준지도 학습 (Semi-supervised Learning)이 바로 대표적인 인공지능 융합 기계학습 접근 방법 중 하나이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증