[논문]미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝

신용우

doi:10.7583/jkgs.2018.18.4.99

미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝
Q-learning to improve learning speed using Minimax algorithm 원문보기

한국게임학회 논문지 = Journal of Korea Game Society, v.18 no.4, 2018년, pp.99 - 106

초록
AI-Helper

보드게임에서는 많은 경우의 수의 말들과 많은 상태공간들을 가지고 있다. 그러므로 게임은 학습을 오래 하여야 한다. 본 논문에서는 Q러닝 알고리즘을 이용했다. 그러나 강화학습은 학습초기에 학습속도가 느려지는 단점이 있다. 그러므로 학습을 하는 동안에 같은 최선의 값이 있을 때, 게임트리를 고려한 문제영역의 지식을 활용한 휴리스틱을 사용하여 학습의 속도향상을 시도하였다. 기존 구현된 말과 개선하여 구현된 말을 비교하기 위하여 보드게임을 제작했다. 그래서 일방적으로 공격하는 말과 승부를 겨루게 하였다. 개선된 말은 게임트리를 고려하여 상대방 말을 공격하였다. 실험결과 개선하여 구현된 말이 학습속도적인 면에서 향상됨 것을 알 수 있었다.

Abstract ▼ AI-Helper

Board games have many game characters and many state spaces. Therefore, games must be long learning. This paper used reinforcement learning algorithm. But, there is weakness with reinforcement learning. At the beginning of learning, reinforcement learning has the drawback of slow learning speed. Therefore, we tried to improve the learning speed by using the heuristic using the knowledge of the problem domain considering the game tree when there is the same best value during learning. In order to compare the existing character the improved one. I produced a board game. So I compete with one-sided attacking character. Improved character attacked the opponent's one considering the game tree. As a result of experiment, improved character's capability was improved on learning speed.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

강화학습으로 연구된 분야에는 상태공간의 문제, 캐릭터의 지능화의 문제가 있었는데, 상태공간의 효율적인 사용의 문제는 여러 논문에서 다루었다. 그러므로 본 논문에서는 캐릭터의 지능화를 다루고자 한다. 기존의 캐릭터의 지능화를 다룬 논문들은 서양 보드게임(Board game)인 오델로, 틱택토 등을 다루었으나[3,4] 본 논문에서는 줄고누게임을 다루고자 한다.
그러므로 본 논문에서는 캐릭터의 지능화를 다루고자 한다. 기존의 캐릭터의 지능화를 다룬 논문들은 서양 보드게임(Board game)인 오델로, 틱택토 등을 다루었으나[3,4] 본 논문에서는 줄고누게임을 다루고자 한다.
본 논문에서는 상대방 말과의 대국을 학습하는 인공지능을 구현한다.
본 논문에서는 이러한 단점을 없애기 위해, [Fig. 4] 와 같이 동일한 값들이 추출될 때, 미니맥스를 고려하여 유리한 방향으로 움직이도록 Q러닝 알고리즘을 개선하였다.
삼목놀이의 간단한 예에 미니맥스를 적용 해보자. 삼목놀이란, 3개의 말을 가지고 서로 한수씩 번갈아 대국한다.

가설 설정

여기서는 비공식적이지만 한 경기자의 한 행동을 그의 수(Move) 라 하자. 관습적으로 양의 숫자는 한 경기자에겐 이득으로, 음의 숫자는 상대방에서 이득이 있는 것으로 가정하자[9].

제안 방법

고누게임을 컴퓨터로 구현하기 위해서는 현재 게임의 상황에서 몇 수 앞을 내다보고, 여러 가지 둘 수 있는 수 중 유리한 수들을 평가해 본다. 평가된 값들 중 현재 나에게 이로운 값들을 판단하기 위해서는 평가함수(Evaluation function) 가 있어야 한다.
구현된 우리 말이 잘 움직이는지 확인하기 위하여, 보드게임을 제작하였다. 기존의 강화학습으로 움직이는 방법, 영향력 분포도로 움직이는 방법 그리고 개선된 강화학습을 적용한 방법의 실험결과를 직접 비교 하였다.
이러한 단점을 개선하기 위하여 영향력 분포도를 이용한 학습에서 단점을 개선하였으나 완전히 개선하기는 어려웠다. 그러나 본 논문은 이러한 단점을 개선하기 위하여 동일한 값이 산출될 때, 게임트리를 활용한 미니맥스 알고리즘을 활용하였다. 그 결과 학습속도가 향상되었다.
구현된 우리 말이 잘 움직이는지 확인하기 위하여, 보드게임을 제작하였다. 기존의 강화학습으로 움직이는 방법, 영향력 분포도로 움직이는 방법 그리고 개선된 강화학습을 적용한 방법의 실험결과를 직접 비교 하였다. 실험결과, 기존방법 보다는 영향력 분포도를 활용한 방법이 패배횟수의 감소가 있었다.
본 논문에서 제안하는 방법은 학습과정에서 최선의 값을 산출하는 부분에서 동일한 값이 나왔을 때, 미니맥스 알고리즘(Minimax algorithm)을 이용하여 유리한 값을 선택하도록 하였다. 실험 결과 논문[6] 에서의 게임보다 미니맥스를 적용한 말이 우수한 게임을 하는 것을 알 수 있었다.
본 논문에서의 고누게임에서도 역시 이길 가능성을 가지는 방법으로 평가함수를 제안하였다.
실험은 우리 말과 상대방 말이 각각 둘일 경우로 실험하였다. 우리 말은 학습 되었으므로 현재의 위치에서 최적의 지점으로 이동하도록 설계되었으며, 상대방 말의 공격 알고리즘은 다음과 같다.

이론/모형

본 고누 게임에서는 넓이우선 방법을 기준으로 사용한다. 이동생성은 넓이우선 탐색과 같은 방법으로 위에서 아래로 내려오며 노드들을 생성한다.
본 고누게임은 게임트리(Game tree)를 이용하였다. 게임트리는 각 노드마다 무수히 많은 해결책(경우의 수) 과 함께 두 경기자의 모든 상황을 표현해 주는 수학적 도구이다.

성능/효과

그러나 본 논문은 이러한 단점을 개선하기 위하여 동일한 값이 산출될 때, 게임트리를 활용한 미니맥스 알고리즘을 활용하였다. 그 결과 학습속도가 향상되었다. 학습속도가 향상됨으로 우리 말이 전략적으로 움직임으로 패배횟수가 없다.
기존의 강화학습으로 움직이는 방법, 영향력 분포도로 움직이는 방법 그리고 개선된 강화학습을 적용한 방법의 실험결과를 직접 비교 하였다. 실험결과, 기존방법 보다는 영향력 분포도를 활용한 방법이 패배횟수의 감소가 있었다. 그러나 미니맥스를 활용한 방법은 패배횟수가 0에 불과했다.

후속연구

게임시나리오와 기획이 게임을 재미있게 한다. 그러나 새로운 게임 인공지능 기법이 도입된다면 다양하고 재미있는 게임의 구현이 가능할 것이다.
향후 논문으로는, 개선된 방법의 실험에서는 패배횟수는 없지만 무승부의 횟수가 증가하는 것을 알 수 있었다. 무승부의 횟수를 감소시키는 방법을 연구하여야 하겠다.
본 논문은 고누게임을 구현했다는 점에서 큰 의미를 부여할 수 있지만, 실제 게임에서도 응용할 수 있다. 많은 수의 지능적인 캐릭터들이 등장하는 경우에, 학습을 시키기 위해서는 시간적으로 부족할 수 있다.
중요한 점은, 계속 실험을 한다면, 우리 말의 패배 횟수가 0인 상태에서 우리 말의 승리 횟수가 증가될 것으로 예상된다.
향후 논문으로는, 개선된 방법의 실험에서는 패배횟수는 없지만 무승부의 횟수가 증가하는 것을 알 수 있었다. 무승부의 횟수를 감소시키는 방법을 연구하여야 하겠다.

질의응답

핵심어	질문	논문에서 추출한 답변
	고누의 종류는 무엇에 따라 명칭이 붙여진 것인가?	고누의 종류는 대부분 말판의 모양에 따라서 명칭이 붙여진 것이다.
	고누의 종류에는 무엇이 있는가?	고누의 종류는 여러 가지 특징이 있으나 우물고누, 줄고누, 밭고누, 곤질고누, 자동차고누, 참고누,호박고누, 패랭이고누, 장수고누, 팔팔고누, 포위고누, 왕고누로 구분해 볼 수 있다[8].
	줄고누게임의 규칙은 무엇인가?	줄고누게임의 규칙은 다음과 같다. 상대방 말을 포획하려면, 상대방 말 옆에 우리 말 둘이 일직선으로 있으면 된다. 또한 우리 말을 포획하려면, 상대방 말의 일직선상에 들어가면 포획 당하게 된다. 게임을 진행하는 방법은 한 번에 한 칸씩만 직선으로 이동한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝
Q-learning to improve learning speed using Minimax algorithm 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝 Q-learning to improve learning speed using Minimax algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

신용우 (10)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝
Q-learning to improve learning speed using Minimax algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper