$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

기계학습 알고리즘 기반의 인공지능 장기 게임 개발
Development of Artificial Intelligence Janggi Game based on Machine Learning Algorithm 원문보기

한국IT서비스학회지 = Journal of Information Technology Services, v.16 no.4, 2017년, pp.137 - 148  

장명규 (국민대학교 컴퓨터공학부) ,  김영호 (국민대학교 컴퓨터공학부) ,  민동엽 (국민대학교 컴퓨터공학부) ,  박기현 (국민대학교 컴퓨터공학부) ,  이승수 (국민대학교 컴퓨터공학부) ,  우종우 (국민대학교 컴퓨터공학부)

Abstract AI-Helper 아이콘AI-Helper

Researches on the Artificial Intelligence has been explosively activated in various fields since the advent of AlphaGo. Particularly, researchers on the application of multi-layer neural network such as deep learning, and various machine learning algorithms are being focused actively. In this paper,...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서 개발한 알고리즘의 성능을 평가하기 위하여 현재 온라인 서비스되는 장기 AI와 테스트를 진행하였다. 테스트 결과 [Table 4]와 같이 무승부를 제외하고 약 59%의 승률을 확인할 수 있었다.
  • 본 연구에서는 기보를 이용한 학습 과정에서 다음 식 (1)과 같이 MDP State Value Function 학습 알고리즘을 장기에 맞게 적용하여 각 상태의 가치를 조절하고자 한다(Feinberg and Shwartz, 2002). 수식에서 R은 해당 State의 기댓값이며 r0, r1, .
  • 본 연구에서는 생성된 그래프와 학습이 완료된 그래프의 현재 상태를 유지하여 다음 대국에 활용하기 위하여, 전체 그래프를 객체 직렬화(Object Serialization) 방식을 사용하여 저장하였다. 객체 직렬화는 [Figure 9]와 같이 메모리에 있는 정보들을 연속적인 바이트로 변환하고, 변환된 바이트를 다시 원래의 객체로 복원하는 방법을 말한다.
  • , 2016). 본 연구에서는 우선 게임의 기본이 되는 보드게임의 학습 알고리즘 개발을 통해 성능을 테스트 뒤, 해당 알고리즘을 다른 게임에 적용할 방법을 발전적으로 연구하고자 한다.
  • 본 연구에서는 이러한 기존 연구들의 장점과 또한 제한점을 분석 하여, 보다 우수한 승률을 얻고자 다음과 같이 접근하고자 한다. 첫째, 단순히 트리탐색 알고리즘에 의존적이 아닌 장기 우승자들의 누적된 기보를 활용한 학습방식을 적용함으로 더 풍부한 실전 결과를 반영할 수 있게 한다.
  • 본 연구에서는 이러한 문제점들을 극복하기 위하여, 학습 데이터가 비교적 충분히 존재하고, 수많은 실전 대국을 통하여 해당 데이터들의 신뢰도가 어느 정도 확보된 장기 기보들을 수집하여 강화학습과 Monte Carlo Tree Search(MCTS) 알고리즘(Browne et al., 2012)을 적용하는 인공지능 장기게임을 개발하고자 한다. 장기와 같은 보드게임은 인공지능 분야에서 알고리즘의 성능을 가시적으로 확인할 수 있고 게임 종류에 따라 다양한 복잡도를 가지고 있어 알고리즘 수행 시간과 복잡도의 관계를 확인하기 위한 테스트를 진행할 수 있어 연구목적으로 많이 사용되어 왔다(Kulsinskas et al.
  • 객체 직렬화는 [Figure 9]와 같이 메모리에 있는 정보들을 연속적인 바이트로 변환하고, 변환된 바이트를 다시 원래의 객체로 복원하는 방법을 말한다. 본 연구에서는 이렇게 생성된 구조를 바탕으로 학습 정책과 알고리즘을 테스트하였다.
  • 본 연구에서는 학습 알고리즘의 연구를 위해 장기소프트웨어를 개발하였으며, 연구의 주요 관점은 다음과 같다. 첫째, 단순 트리탐색 알고리즘에 의존하지 않고 장기 전문가들의 누적된 데이터를 활용함으로서 시스템개발에 보다 풍부한 실전결과를 반영할 수 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MIN MAX 알고리즘이란? MCTS 알고리즘은 기존의 MIN MAX 알고리즘의 한계를 극복하기 위한 접근 방식이다. MIN MAX 알고리즘은 각 상태에서 나올 수 있는 모든 다음 상태를 계속 이어나가며 지정된 깊이까지 모든 상태를 만든 뒤 계층별로 가장 가치가 높은 값/가장 가치가 낮은 값을 번갈아 가며 선택하여 현재상태에게 가장 유리한 수를 찾는 방식이다(Rivest, 1987). 그러나 MIN MAX 알고리즘은 모든 경우의 수를 판단해야 하기 때문에 깊이를 깊게 보거나 바둑과 같이 경우의 수가 커질 경우 실행 시간이 길어지기 때문에 성능 향상을 시키는데 한계를 가지고 있었다.
강화학습이란? 강화학습은 현재 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지 학습하는 방식이다. 행동 결과에 따라 보상(Reward) 값을 줌으로써 옳은 행동일 경우 플러스 점수를 얻게 되고 잘못된 행동일 경우 마이너스 점수를 주는 방식으로 구현한다.
강화학습은 어떠한 방식으로 구현하는가? 강화학습은 현재 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지 학습하는 방식이다. 행동 결과에 따라 보상(Reward) 값을 줌으로써 옳은 행동일 경우 플러스 점수를 얻게 되고 잘못된 행동일 경우 마이너스 점수를 주는 방식으로 구현한다. 일반적으로 유한한 상태일 경우 MDP(Markov Decision Process)로 표현이 가능하며 이미 존재하는 상태의 데이터와 존재하지 않는 상태와의 균형을 잡는 데 적합하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. Bang, J.S., D.C. Lee, S.H. Seo, Y.J. Kim, H.J. Lee, and W.H. Son, "Trends of VR/AR Game Technology", Electronics and Telecommunications Trends, Vol.31, No.1, 2016, 146-156. (방준성, 이동춘, 서상현, 김용준, 이헌주, 손욱호, "VR/AR 게임기술 동향", 전자통신동향분석, 제31권, 제1호, 2016, 146-156. 

  2. Browne, C., E. Powley, D. Whitehouse, S. Lucas, P. Cowling, and P. Rohlfshagen, "A Survey of Monte Carlo Tree Search Methods", IEEE Transactions on Computational Intelligence and AI in Games, Vol.4, No.1, 2012, 1-49. 

  3. Cho, B.H. and C.J. Park, "Research Trends in Game AI", Electronics and Tellecommunications Trends, Vol.23, No.4, 2008, 115-121. (조병헌, 박창준, "게임 인공지능 연구동향", 전자 통신동향분석, 제23권, 제4호, 2008, 115-121.) 

  4. Fan, Y.F., X.J. Bai, R.Y. Lui, and S. Xing, "The Research of Chinese Chess Based on Database with Self Learning", Proceedings of the Ninth International Conference on Machine Learning and Cybernetics, 2010, 319-322. 

  5. Feinberg, E. and A. Shwartz, Handbook of Markov Decision Processes, Kluwer, Boston, MA, 2002. 

  6. Ingram, J. and J. Mcgregor, "A Look at the Future of Autonomous Connected Vehicle Systems", Proceedings of International Conference on Software Engineering and Data Engineering, Vol.23, 2015, 162-177. 

  7. Kim, S.W., S.W. Ahn, and H.S. Choo, "Artificial Intelligence of AlphaGo", SPRi Issue Report, 2016-001, Vol.1, 2016. (김석원, 안성원, 추형석, "AlphaGo의 인공지능", SPRi Issue Report, 제2016-001호, 제1호, 2016.) 

  8. Kulsinskas, A., C. Balan, N. Bukdahl, and A. Brooks, "Augmentation of Board Games Using Smartphones", Lecture Notes in Computer Science, Vol.2015, No.9177, 2015, 483-492. 

  9. Mandziuk, J., Knowledge-Free and Learning-based Methods in Intelligent Game Playing, Springer, Berlin, 2010. 

  10. Millington, I. and J. Funge, Artificial Intelligence for Games, Elsevier Inc., Berlington, MA, 2009. 

  11. Ong, C., H. Quek, K. Tan, and A. Tay, "Dis covering Chinese Chess Strategies through Co-evolutionary Approaches," IEEE Symposium on Computational Intelligence and Games, 2007, 360-367. 

  12. Park, D.S., "ICT Convergence Industry Outlook in the Era of Artificial Intelligence," 2017 ICT Industry Outlook Conference, 2016. (박대수, "인공지능 시대의 ICT융합 산업 전망", 2017 ICT산업 전망 컨퍼런스, 2016.) 

  13. Park, H.S. and K.J. Kim, "Latest Research Trend of Artificial Intelligence in Games", Journal of Korean Institute of Information Scientists and Engineers(KIISE), Vol.31, No.7, 2013, 8-15. (박현수, 김경중, "게임 인공지능 최신 연구동향", 정보과학회지, 제31권, 제7호, 2013, 8-15.) 

  14. Rivest, R., "Game Tree Searching by Min/Max Approximation", Artificial Intelligence, Vol. 34, No.1, 1987, 77-96. 

  15. Robilliard, D. and C. Fonlupt, "Towards Human-Competitive Game Playing for Complex Board Games with Genetic Programming", Lecture Notes in Computer Science, Vol.2016, No.9554, 2015, 123-135. 

  16. Spencer, P. and J. Oommen, "Novel AI Strategies for Multi-Player Games at Intermediate Board States", Lecture Notes in Computer Science, Vol.2015, No.9101, 2015, 33-42. 

  17. Silver, D., A. Huang, C. Maddison, A. Guez, L. Sifre, and G. Driessche, "Mastering the Game of Go with Deep Neural Networks and Tree Search", Nature, Vol.529, 2016, 484-489. 

  18. Wu, G. and J. Tao, "Chinese Chess Algorithm Design and Implementation in the Computer Games", Proceedings of the 35th Chinese Control Conference, 2016, 10380-10384. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로