[논문]딥퍼플 : 딥러닝을 이용한 체스 엔진

김성환; 김영웅

doi:10.7236/jiibc.2017.17.5.119

딥퍼플 : 딥러닝을 이용한 체스 엔진
DeepPurple : Chess Engine using Deep Learning 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.17 no.5, 2017년, pp.119 - 124

초록
AI-Helper

1997년 IBM의 딥블루가 세계 체스 챔피언인 카스파로프를 이기고, 최근 구글의 알파고가 중국의 커제에게 완승을 거두면서 딥러닝에 대한 관심이 급증하였다. 본 논문은 딥러닝에 기반을 둔 인고지능 체스엔진인 딥퍼플(DeepPurple) 개발에 대해 기술한다. 딥퍼플 체스엔진은 크게 몬테카를로 트리탐색과 컨볼루션 신경망으로 구현된 정책망 및 가치망으로 구성되어 있다. 딥러닝을 통해 구축된 정책망을 통해 다음 수를 예측하고, 가치망을 통해 주어진 상황에서의 판세를 계산한 후, 몬테카를로 트리탐색을 통해 가장 유리한 수를 선택하는 것이 기본 원리이다. 학습 결과, 정책망의 경우 정확도 43%, 손실함수 비용 1,9로 나타났으며, 가치망의 경우 정확도 50%, 손실함수 비용 1점대에서 진동하는 것으로 나타났다.

Abstract ▼ AI-Helper

In 1997, IBM's DeepBlue won the world chess championship, Garry Kasparov, and recently, Google's AlphaGo won all three games against Ke Jie, who was ranked 1st among all human Baduk players worldwide, interest in deep running has increased rapidly. DeepPurple, proposed in this paper, is a AI chess engine based on deep learning. DeepPurple Chess Engine consists largely of Monte Carlo Tree Search and policy network and value network, which are implemented by convolution neural networks. Through the policy network, the next move is predicted and the given situation is calculated through the value network. To select the most beneficial next move Monte Carlo Tree Search is used. The results show that the accuracy and the loss function cost of the policy network is 43% and 1.9. In the case of the value network, the accuracy is 50% and the loss function cost is 1, respectively.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 구글 딥마인드의 알파고의 원리를 바탕으로 딥러닝을 이용한 인공지능 체스 엔진인 딥퍼플에 대해 기술한다. 딥퍼플 체스 엔진은 크게 몬테카를로 트리 탐색과 컨볼루션 신경망Convolutional Neural Network:CNN)^[1]구조를 갖는 정책망, 가치망으로 구성되어 있다.
본 논문은 딥러닝을 이용한 인공지능 체스 엔진인 딥퍼플에 대해 기술하였다. 딥퍼플 체스 엔진은 크게 몬테카를로 트리탐색과 CNN구조로 구성된 정책망, 가치망으로 구성되어 있다.

제안 방법

Py_ChessGame은 기존에 학습된 정책망과 가치망을 바탕으로 게임을 진행하는 부분으로 ChessGame클래스를 통해 게임이 진행된다. ChessAI의 ask()함수를 호출하면 Monte 클래스에서 탐색 깊이와 횟수인 select_depth, simulation_num을 통해 predict() 메서드를 호출하고, MCTS의 과정인 탐색, 선택, 확장, 역전달의 메서드가 호출되어 탐색을 진행한다. 마지막에 choice() 메서드를 통해 Tree 클래스 root_Node의 자식 노드 중에서 가장 높은 방문횟수를 가진 노드를 선택한다.
딥퍼플은 Windows10 운영체제에서 딥러닝 구현에 필요한 라이브러리로 텐서플로우를 이용하였다. Elo 점수 2000대 이상의 체스 선수들의 기보를 이용하여 체스 기보 데이터를 전처리하여 텐서플로우를 통해서 데이터를 학습시켜 유효한 수를 내놓는 모델과 각각의 체스판에서 이길 확률을 측정하는 모델을 구현하였다. 체스 로직은 python-chess api를 이용하였으며, 텐서플로우와 python-chess api의 개발 언어는 파이썬을 사용하였으며, 체스 엔진에서 사용하는 사용자 인터페이스는 언리얼 엔진4를 사용하여 구현하였다.
모델에 대한 실험은 layer 개수를 3, 5, 13로 진행하였고, 1천만 개의 데이터에 대해서는 정확도와 손실함수 cost가 비슷하게 나타난다. 더 오래 학습을 진행한 13개의 layer가 cost 값이 가장 낮으므로 선택하여야 하나, 몬테카를로 트리탐색을 보다 빠르게 진행하기 위해서는 layer의 개수가 작은 모델을 사용하여 학습하였다.
딥러닝을 통해 구축된 모델인 정책망과 가치망으로부터 산출된 값을 이용하여 몬테카를로 트리 탐색 방식의 시뮬레이션을 진행한 후 결과를 분석하여 가장 좋은 수를 결정하도록 구현하였다.
또한, Giraffe는 minimax를 수행할 때 확률한계탐색 (probability-limited search)이 깊이한계탐색 (depth-limited search) 보다 더 정확하다고 판단하여, 확률한계탐색을 이용한 트리탐색을 제안하였으며, 주어진 체스 게임 상황에서, 미리 수를 내다보지 않고, 최적의 수가 되는 말의 움직임에 대한 각각의 개연성에 대해서 점수를 측정하였다. Giraffe는 대략 FIDE 세계 랭킹^[7]국제 마스터 레벨의 체스 실력을 갖추고 있다.
알고리즘과 확률에 기반을 둔 탐색(probability-based search) 을 이용하여 체스 엔진의 성능을 높이는데 있다. 매 학습 반복 중 학습 데이터에서 무작위로 256의 체스 상황을 추출하여, 스스로 12번 순서대로 다음 수를 두고, 12번 모두의 움직임에 대한 체스 상황에 대한 점수 변화를 저장하여, 모든 점수 변화를 축적하면서 탐색 시작점에 추가함으로써, 평가함수를 학습시킬 때, 장기적인 결과에 대한 패턴을 모델화하였다.
파이썬 체스 엔진에서 시시각각 변화하는 현재의 체스판을 몬테카를로 트리 탐색 모듈로 넘겨주면, 현재의 체스판을 0과 1로 구성된 특징들로 변환하여 입력 데이 터를 만들고, 이전에 먼저 학습된 가중치 값들을 텐서플로의 saver를 통해 불러온다. 입력 데이터와 불러온 가중치 값을 이용해 비동기적으로 정책망과 가치망으로부터 값을 전달 받아 몬테카를로 트리 탐색을 진행하고, 기존에 미리 정해 놓은 트리 탐색의 깊이, 시뮬레이션 횟수에 따라 시뮬레이션을 진행한다. 모든 시뮬레이션 완료되면 루트 노드의 자식 노드 중 가장 높은 방문횟수를 가진 노드를 가장 좋은 다음 수로 판단해 해당 노드가 가진 체스 명령어를 다음 수로 선택한다.
Elo 점수 2000대 이상의 체스 선수들의 기보를 이용하여 체스 기보 데이터를 전처리하여 텐서플로우를 통해서 데이터를 학습시켜 유효한 수를 내놓는 모델과 각각의 체스판에서 이길 확률을 측정하는 모델을 구현하였다. 체스 로직은 python-chess api를 이용하였으며, 텐서플로우와 python-chess api의 개발 언어는 파이썬을 사용하였으며, 체스 엔진에서 사용하는 사용자 인터페이스는 언리얼 엔진4를 사용하여 구현하였다.

대상 데이터

FenLoad 클래스의 getBatchSizeData() 메서드를 통해 지정한 경로에서 원하는 배치 사이즈의 데이터를 불러온다. Board2Array 클래스와 OneHotEncoding 클래스를 이용해 입력 데이터와 결과 데이터를 받아낸다.
ConvChess에서 사용한 데이터로는 Elo rating^[5]이 2000점 이상인 상대들과 2만 게임을 하면서 245,000개의 체스말 이동을 통해 CNN을 학습시켰다. ConvChess의 최적의 말을 선택하는 CNN 모델의 가장 높은 정확도는 38.
정책망은 다음과 같은 방법으로 학습시킨다. FenLoad 클래스의 getBatchSizeData() 메서드를 통해 지정한 경로에서 원하는 배치 사이즈의 데이터를 불러온다. Board2Array 클래스와 OneHotEncoding 클래스를 이용해 입력 데이터와 결과 데이터를 받아낸다.

이론/모형

이때 데이터를 불러오는 시간을 절약하기 위해, 한 줄의 정보로 모든 체스 대국의 정보를 가질 수 있는 Forsyth–Edwards Notation(FEN) 기보 방식[10] 을 이용해 저장한다.
전처리 과정에서 파이썬 pickle API를 이용해 객체를 파일로 저장하고 불러올 수 있는 기능을 사용하기 위해 입력 데이터를 변환하는 Board2Array 클래스와 One-Hot 인코딩으로 생성된 결과 값을 얻을 수 있는 OneHotEncoding 클래스를 이용한다.
정책망과 가치망을 완성하면, 이 두 개의 모델만으로도 어느 정도의 패턴을 파악한 결과를 알 수 있지만, 딥퍼플의 경우 충분한 성능을 확보하기 위해 몬테카를로 트리 탐색(Montecarlo tree search: MCTS)알고리즘^[2]을 사용한다. MCTS의 기본 원리는 동일한 상황에서 수많은 시뮬레이션을 반복함으로써 결과적으로 가장 좋은 선택을 찾는 것이다.

성능/효과

CNN 모델을 통해 정책망과 가치망을 학습 시킨 결과, 정책망의 경우 43%의 정확도와 1.9의 손실함수 Cost를 보였으며, 가치망의 경우 승, 무, 패의 3가지 경우의 수가 고르게 분포되어 있어 손실함수 cost가 진동하면서 줄어들지만 1점대에서 계속 진동하는 결과를 보였다.
이 2000점 이상인 상대들과 2만 게임을 하면서 245,000개의 체스말 이동을 통해 CNN을 학습시켰다. ConvChess의 최적의 말을 선택하는 CNN 모델의 가장 높은 정확도는 38.3%이며, 선택된 말의 최적의 이동할 위치를 선택하는 CNN 모델의 정확도는 말의 종류에 따라 27% ~ 56% 범위의 정확도를 가진다.
초기화에 사용한 방법은 Xavier initializer를 사용하였고 초기 cost가 8.3 정도로 형성되어, 초기화가 잘 되었는지 확인하는 공식 –ln(1/4096)= 8.31776616672와 비교해 보았을 때 적절하게 되었음을 확인할 수 있다.
9를 보였다. 출력 값이 19x19개인, CNN을 이용한 알파고의 정확도가 50~60% 사이의 정확도를 보이고 본 연구에서의 정책망은 4096개의 출력 값에 대하여 43%의 정확도를 보이므로 결과를 제대로 학습이 제대로 진행되었음을 알 수 있다.

후속연구

기존의 CNN을 이용한 체스엔진의 경우 1억 만개의 데이터를 사용하고, 알파고 또한 3천만 개의 데이터를 가지고 3주간 학습을 진행한 것과 비교해 볼 때, 본 연구에서는 1천만 개의 데이터를 사용하였으므로, 데이터의 개수를 증가시키고 더 오랜 시간 학습을 진행한다면 개선의 여지가 남아있다.
향후 연구과제로는 딥퍼플의 더 많은 데이터를 사용하여 학습을 진행하는 일과, 성능 개선을 위해 정책망과 가치망의 알고리즘을 개선시키는 연구가 진행될 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	딥퍼플 체스엔진의 구성 요소는?	본 논문은 딥러닝에 기반을 둔 인고지능 체스엔진인 딥퍼플(DeepPurple) 개발에 대해 기술한다. 딥퍼플 체스엔진은 크게 몬테카를로 트리탐색과 컨볼루션 신경망으로 구현된 정책망 및 가치망으로 구성되어 있다. 딥러닝을 통해 구축된 정책망을 통해 다음 수를 예측하고, 가치망을 통해 주어진 상황에서의 판세를 계산한 후, 몬테카를로 트리탐색을 통해 가장 유리한 수를 선택하는 것이 기본 원리이다.
	딥러닝에 대한 관심이 급증한 이유는?	1997년 IBM의 딥블루가 세계 체스 챔피언인 카스파로프를 이기고, 최근 구글의 알파고가 중국의 커제에게 완승을 거두면서 딥러닝에 대한 관심이 급증하였다. 본 논문은 딥러닝에 기반을 둔 인고지능 체스엔진인 딥퍼플(DeepPurple) 개발에 대해 기술한다.
	몬테카를로 트리 탐색의 기본 원리는?	정책망과 가치망을 완성하면, 이 두 개의 모델만으로도 어느 정도의 패턴을 파악한 결과를 알 수 있지만, 딥퍼플의 경우 충분한 성능을 확보하기 위해 몬테카를로 트리 탐색(Montecarlo tree search: MCTS)알고리즘[2]을 사용한다. MCTS의 기본 원리는 동일한 상황에서 수많은 시뮬레이션을 반복함으로써 결과적으로 가장 좋은 선택을 찾는 것이다. 이 기본 원리를 바탕으로 딥퍼플의 시뮬레이션은 트리 탐색 방법으로서 선택(selection), 확장 (expansion), 시뮬레이션, 역전달(back propagation) 총 4단계를 통해 이루어진다.

참고문헌 (10)

Clark, Christopher and Storkey, Amos. "Teaching deep convolutional neural networks to play Go", arXiv preprint arXiv:1412.3409, 2014.
Browne, C. B., Powley, E., Whitehouse, D., Lucas, S. M., Cowling, P. I., Rohlfshagen, P.,Tavener, S., Perez, D., Samothrakis, S., & Colton, S. "A survey of Monte Carlo tree search methods". IEEE Transactions on Computational Intelligence and AI in Games, Vol. 4 No. 1, pp.1-43, 2012. DOI: https://doi.org/10.1109/TCIAIG.2012.2186810

상세보기
Barak Oshri and Nishith Khandwala, "Predicting Moves in Chess using Convolution Neural Networks", http://github.com/BarakOshiri/ConvChess
Matthew Lai., "Giraffe: Using Deep Reinforcement Learning to Play Chess", arXiv:1509.01549v2, 2015.
https://en.wikipedia.org/wiki/Elo_rating_system
Jonathan Baxter, Andrew Tridgell, and Lex Weaver "TDLeaf( $\lambda$ ) Combining Temporal Difference Learning with Game-Tree Search"Australian Journal of Intelligent Information Processing Systems, 1998.
https://en.wikipedia.org/wiki/FIDE_World_ Rankings.
https://www.unrealengine.com/ko/what-isunreal-engine-4.
http://www.kingbase-chess.net/
https://en.wikipedia.org/wiki/Forsyth_Edwards_Notation

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증