[논문]강화학습에 기반한 모델로 게임의 설계 및 구현

이동훈; 우종우

강화학습에 기반한 모델로 게임의 설계 및 구현
Design and Implementation of Othello game Based on Reinforcement Learning 원문보기

이동훈 (국민대학교 컴퓨터학부) , 우종우 (국민대학교 컴퓨터학부)

최근 인공지능의 기법을 도입한 게임에 관한 연구가 활발히 진행되고 있다. 특히 신경망의 역 전파 알고리즘을 적용한 게임은 구현이 용이하고 학습이 완료되면 비교적 실행이 빨라서 많은 연구가 진행되고 있지만 기본적인 학습시간이 길고 최적화에 관한 문제점이 존재하고 있다. 이러한 문제점을 개선하고자 본 논문에서는 기존의 역 전파 알고리즘과 강화학습의 Q-learning알고리즘을 모델로 게임에 적용하여 비교 분석 하였다. 실험은 단순한 min-max 알고리즘과 각각 대결하여 승수 와 승율을 중심으로 비교하였고 실험의 결과는 강화학습의 알고리즘이 역 전파 알고리즘에 비하여 비교적 우수한 결과를 제시하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 연구의 대표적인 예는 신경망의 역 전파 알고리 즘의 적용이며, 역 전파 알고리즘믈 적용하게 되면, 구현 이 쉽고, 학습이 완료되면 비교적 실행속도가 빠른 반면, 초기 학습시간이 길며 최적화된 결과가 제공되지 못하는 문제점이 있다[4]. 본 논문에서는 이러한 문제점을 개선 하고자 강화학습 알고리즘을 오델로 게임에 적용하여 시 스템을 설계 및 구현하였다. 실험은 단순한 min-max알 고리즘을 역 전파 알고리즘과 강화학습 알고리즘과 각각 대결하여 승율 및 승수를 비교하였다.
본 연구에서는 최근 인공기능 게임분야에서 확산되고 있 는 강화 학습 알고리즘으로 게임을 설계 및 구현하였다. 본 연구의 시스템을 분석하기 위하여 실험 대상으로는 오델로 게임을 선정하였고, 성능측정을 위하며 신경망의 역 전파 알고리즘과 비교.

제안 방법

. Backpropagation Module : Q-leaming Mod니。로 부 터 Q- ta비e의 학습 데이터를 받아 역 전파 알고리즘을 이용 하여 Q-table을 학습한다.
실험은 1회차에 5000번씩 대결을 하며, 모두 5회차로 수행하여 그 결과를 [표 1]에 요약 정리하였다. 표에서 앞 의 숫자는 승수를 말하며, 괄호안의 숫자는 승율을 나타 낸다.
본 논문에서는 이러한 문제점을 개선 하고자 강화학습 알고리즘을 오델로 게임에 적용하여 시 스템을 설계 및 구현하였다. 실험은 단순한 min-max알 고리즘을 역 전파 알고리즘과 강화학습 알고리즘과 각각 대결하여 승율 및 승수를 비교하였다.
실험은 본 본문의 시스템과 동일한 신경망을 가진 역 전 파 알고리즘으로 구현된 모듈과 강화 학습 모듈을 학습이 아직 안된 상태에서, 각각 depth 3인 min-max 알고리즘과의 대결을 통하여 측정하였다. 학습의 성공여부는 승수 및 승 율로 판단할 수 있게 된다.

대상 데이터

본 연구에서는 데이터 공간의 문제를 해결하기 위해 신 경망 알고리즘을 Q-table2| 역할로 사용하여 해결하였다. 본 시스템에서의 신경망은 모든 상태 및 행동에 대한 Q- function 값을 매핑 하고, 시스템 구조는 입력층, 은닉층, 출 력층오로 구성되며, 64개의 뉴론을 가지고 있다.[그림 3]은 신경망員 적용한 QJeaming 에 대한 알고리즘을 표현한 것 이다.
본 연구에서는 최근 인공기능 게임분야에서 확산되고 있 는 강화 학습 알고리즘으로 게임을 설계 및 구현하였다. 본 연구의 시스템을 분석하기 위하여 실험 대상으로는 오델로 게임을 선정하였고, 성능측정을 위하며 신경망의 역 전파 알고리즘과 비교.분석 하였다.

이론/모형

강화학습에는 다양한 접근방법이 있으며, 본 논문에서는 Q니eaming알고리즘을 중심으로 기술하였다.
본 연구에서는 데이터 공간의 문제를 해결하기 위해 신 경망 알고리즘을 Q-table2| 역할로 사용하여 해결하였다. 본 시스템에서의 신경망은 모든 상태 및 행동에 대한 Q- function 값을 매핑 하고, 시스템 구조는 입력층, 은닉층, 출 력층오로 구성되며, 64개의 뉴론을 가지고 있다.

성능/효과

1. 사용자의 차례 일 경우 사용자가 동작을 할 경우 현재 게임의 상태 정보 및 사용자의 동작 정보를 Othello R니e Validator에서 받아 게임의 적법성 여부를 판별하 고, 그 결 과를 다시 user interface에 보 낸 다.
분석 하였다. 두 알고리즘의 단순비교가 어렵기 패문에 비교의 대상으로 min-max알고리즘을 구현 하여 두 알고리즘과 각각 대결하는 방식을 수행하였고, 실 험의 결과는 강화학습기반의 시스템이 비교적 우수한 결과 를 제공하였다. 특히 강화 학습 알고리즘은 역 전파 알고리 즘에 비해 □ 학습 율과 패턴의 불규칙성이 커 게임 적용시 보다 자연스러운 결과를 제시할 수 있을 것이다.
표에서 앞 의 숫자는 승수를 말하며, 괄호안의 숫자는 승율을 나타 낸다. 학습 시간은 두 알고리즘 모두 비슷하였으며, 강화 학습의 경우 약 13〜37%의 승율인 반면, 역 전파 알고리 즘의 경우 9〜19%의 승율로 강화 학습이 비교적 우수하 게 나타났다. 또한 역 전파 알고리즘은 학습이 진행 갈수 록 패턴이 고착화 되어가는 반면 강화 학습은 역 전파 알 고리즘에 비해 패턴이 불규칙하였다,

후속연구

향후 연구로는 오델로 이외의 다양한 게임에의 적용과 강화학습 알고리즘의 학습율 향상에 관한 연구가 진행되어 야 할 것 이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

강화학습에 기반한 모델로 게임의 설계 및 구현
Design and Implementation of Othello game Based on Reinforcement Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

강화학습에 기반한 모델로 게임의 설계 및 구현 Design and Implementation of Othello game Based on Reinforcement Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

강화학습에 기반한 모델로 게임의 설계 및 구현
Design and Implementation of Othello game Based on Reinforcement Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper