[논문]지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning

서호섭; 윤소정; 오경환

문제 정의

두 번째 에이전트는 보다 많은 정보를 위해서 X축과 y 축 방향의 거리를 퍼지 화 하였다. 두 에이전트 모두 그 거리롤 작게 만드는 것을 퍼지 목적으로 삼는다. 3개의 에이전트에 대한 실험 결과는 다음의 그래프와 같다.
본 논문에서 제안한 퍼지 강화 함수와 FuzzyQ- Learning에 대한 타당성을 검증하기 위해서, 격자 공간에서 목적지를 탐색하는 에이전트에 대한 실험을 수행하였다. 또한 실험할 퍼지 강화 학습 에이전트는 다음의 수식에 의해서 FuzzyQ-Tab花의 凡砂Q값을 갱신한다.
따라서, 이런 불확실한 목적과 상태로 이루어지는 결정 과정에서 최적의 정책을 수행하기 위해서 이를 표현하고 해결하는 방법이 필요하다. 본 논문에서는 사용자로부터 주어지는 언어적인 값으로 표현된 지능형 에이전트의 목적을 퍼지 목적(fuzzy goal)으로 나타내고, 지능형 에이전트가 거치는 환경의 상태를 퍼지 상태 (fiizzy state)로 인지하여 목적과 환경의 불확실성을 표현하는 방법을 제안한다. 또, 이를 이용하여 퍼지 강화 함수(fuzzy reinforcement function)를 정의하고, 기존 강화 학습 알고리즘인 Q-Learning을 확장한 Fu끄yQ-Leaming을 제안한다.
본 논문에서는 에이전트에게 언어값으로 주어지는 사용자의 목적을 퍼지집합의 순서쌍으로 구성된 퍼지목적으로 표현하고, 외부 환경 또한 퍼지상태로 표현하는 방법을 제안하였다. 이와 함께 환경에 대한 에이전트의 적웅성을 위해, 퍼지 강화함수를 제안하고 기존의 Q-Lemming 을 FuzzyQ-Learning 으로 확장하였다.

가설 설정

다음 그림과 같이 퍼지 목적。을 갖는 지능형 에이전트가 퍼지 상태 S에서 어떤 행동 " 를 선택한 다음, 상태 S' 으로 전이하고, 이때 퍼지 강화 값 FR(S, a)을 받았다고 가정하자.
또한, 에이전트는 사용자를 대신해서 사용자의 목적을 처리하며, 일반적인 한경에서 사용자의 목적은 언어적인 값(linguistic value)으로 주어진다고 가정할 수 있다. 그 결과 에이전트의 목적은 인간 언어 및 지식이 가지고 있는 불확실성을 포함하게 된다.

제안 방법

퍼지 강화 학습 에이전트의 경우, 첫 번째 에이전트눈 이동 거리를 퍼지 화하여 에이전트의 상태로 인지한다. 두 번째 에이전트는 보다 많은 정보를 위해서 X축과 y 축 방향의 거리를 퍼지 화 하였다. 두 에이전트 모두 그 거리롤 작게 만드는 것을 퍼지 목적으로 삼는다.
본 논문에서는 사용자로부터 주어지는 언어적인 값으로 표현된 지능형 에이전트의 목적을 퍼지 목적(fuzzy goal)으로 나타내고, 지능형 에이전트가 거치는 환경의 상태를 퍼지 상태 (fiizzy state)로 인지하여 목적과 환경의 불확실성을 표현하는 방법을 제안한다. 또, 이를 이용하여 퍼지 강화 함수(fuzzy reinforcement function)를 정의하고, 기존 강화 학습 알고리즘인 Q-Learning을 확장한 Fu끄yQ-Leaming을 제안한다.
Q-Leaming에서뉸 에이전트가 어떤 상태 s에서 행동 q를 취했을 경우 얻는 감소된 누적 강화 값의 최대값을 Q(Sia) 라고 정의하고 이를 최대화하는 방향으로 에이전트의 행동을 학습시킨다. 본 논문에서는 앞서 제안한 퍼지 목적과 퍼지 상태를 이용하여 새로운 퍼지 강화 함수를 제안하고 기존의 Q- Leaming 을 이를 이용하여 확장한 FuzzyQ-Learning 알고리즘을 제안한다.
우선 첫 번째 실험은 격자 모양의 가상 공간에서 기존 강화 학습 알고리즘 중 하나인 Q-Learning과 FuzzyQ- Learning의 비교 실험으로, 가상 공간은 8×8의 격자로 이루어져 있으며, 1개의 목적지가 특정 위치에 고정되어 있다. 이 공간에 목적지를 찾아가는 3가지 종류의 에이전트를 설계하였으며, 그중 하나는 Q-Leaming을, 나머지 2개는 퍼지 목적을 이용한 Fuzml yQ-Leaming 을 사용한다. 퍼지 강화 학습 에이전트의 경우, 첫 번째 에이전트눈 이동 거리를 퍼지 화하여 에이전트의 상태로 인지한다.
일반적으로 에이전트는 사용자로부터 언어적인 값으로 주어지는 실세계의 목적과, 환경으로부터 기인하는 불확실한 상태를 통해 최적의 정책을 찾아내어야 한다. 이를 위해 본 논문에서는 퍼지 집합을 이용하여 목적과 환경에 대한 불확실성을 표현한다.
이를 위해서 다음의 수식과 같이 퍼지 집합의 순서쌍을 이용하여 에이전트에게 주어지는 목적을 퍼지 목적으로 표현한다. 이를 위해 사용자의 목적으로부터 얻는 "개의 구문식 표현에 대한 퍼지 집합을 각각 賦笊, …瓦 이라고 하고 에이전트의 퍼지 목적 를© 를 다음과 같이 정의한다.
이를 이용하여 새로운 FuzzyQ 함수를 다음과 같이 정의하고 수식 (6) 을 에이전트의 각 학습 단계에서 반복적으로 적용함으로써 에이전트에게 주어진 사용자의 목적에 대한 최적의 정책에 따른 FuzzyQ 함수의 근사값을 구할 수 있으며, 에이전트는 퍼지 상태와 행동, 그리고 FuzzyQ 값으로 구성된 FuzzyQ-Table을 각 단계마다 갱신함으로써 FuzzyQ- Leaming을 수행한다. 丫 는 감소인자를 의미한다.
본 논문에서는 에이전트에게 언어값으로 주어지는 사용자의 목적을 퍼지집합의 순서쌍으로 구성된 퍼지목적으로 표현하고, 외부 환경 또한 퍼지상태로 표현하는 방법을 제안하였다. 이와 함께 환경에 대한 에이전트의 적웅성을 위해, 퍼지 강화함수를 제안하고 기존의 Q-Lemming 을 FuzzyQ-Learning 으로 확장하였다. 또한 실험을 통해서 동일한 문제에 대해 기존 강화 학습 알고리즘 중 하나인 Q-Leaming에 비해 그 성능이 우수하다는 것을 보였으며, 퍼지 강 화 학습 에이전트가 사용자의 퍼지 목적에 대해 적합한 행동 양식을 학습할 수 있다는 것을 검증하였다.
즉, 에이전트는 가상 공간을 이동하며 얻을 수 있는 이익을 매우 크게(Very Large Benefit) 하고, 비용은 매우 적게(Very Low Cost) 하는 행동 양식을 학습해야 한다. 첫 번째 실험과 마찬가지 방법으로 실험한 결과, 퍼지 강화 학습 에이전트는 다음의 그림과 같은 행동 양식을 학습하였다.

대상 데이터

우선 첫 번째 실험은 격자 모양의 가상 공간에서 기존 강화 학습 알고리즘 중 하나인 Q-Learning과 FuzzyQ- Learning의 비교 실험으로, 가상 공간은 8×8의 격자로 이루어져 있으며, 1개의 목적지가 특정 위치에 고정되어 있다. 이 공간에 목적지를 찾아가는 3가지 종류의 에이전트를 설계하였으며, 그중 하나는 Q-Leaming을, 나머지 2개는 퍼지 목적을 이용한 Fuzml yQ-Leaming 을 사용한다.

이론/모형

또한 에이전트의 행동 선택을 위해서 기존 강화 학습 연구에서 가장 널리 사용된 탐색전략 중 하나인 볼쯔만(Boltzmann) 탐색전략을 사용하였다.

성능/효과

이와 함께 환경에 대한 에이전트의 적웅성을 위해, 퍼지 강화함수를 제안하고 기존의 Q-Lemming 을 FuzzyQ-Learning 으로 확장하였다. 또한 실험을 통해서 동일한 문제에 대해 기존 강화 학습 알고리즘 중 하나인 Q-Leaming에 비해 그 성능이 우수하다는 것을 보였으며, 퍼지 강 화 학습 에이전트가 사용자의 퍼지 목적에 대해 적합한 행동 양식을 학습할 수 있다는 것을 검증하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning
FuzzyQ-Learning to Process the Vague Goals of Intelligent Agent 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning FuzzyQ-Learning to Process the Vague Goals of Intelligent Agent 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

지능형 에이전트의 모호한 목적을 처리하기 위한 FuzzyQ-Learning
FuzzyQ-Learning to Process the Vague Goals of Intelligent Agent 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper