딥 러닝과 강화학습을 접목한 딥 강화학습은 다양한 분야에 활용 가능성을 보이며 실생활에 적용되고 있다. 또한 성공한 몇몇 사례들의 커다란 가능성을 통해 여러 분야에 걸쳐 폭 넓은 연구들이 이루어지고 있다. 본 논문은 오델로, 바둑, 체스 등과 같은 지능적 사고를 필요로 하는 ...
딥 러닝과 강화학습을 접목한 딥 강화학습은 다양한 분야에 활용 가능성을 보이며 실생활에 적용되고 있다. 또한 성공한 몇몇 사례들의 커다란 가능성을 통해 여러 분야에 걸쳐 폭 넓은 연구들이 이루어지고 있다. 본 논문은 오델로, 바둑, 체스 등과 같은 지능적 사고를 필요로 하는 보드게임에서 복잡한 상태와 형세판단 사이의 상관관계를 찾기 위해 실제 프로기사들의 대국을 답습한 CNN을 설계하고, 판단한 형세를 근거 삼아 최소최대탐색을 이용해 최적의 수를 찾는 의사 결정을 한다. 또한 형세 판단의 근거를 발전시키고자 강화학습 이론을 이용한 자가대국 학습방법을 제안한다. 지도학습 과정의 성능을 비교하기 위해 본 연구자가 선행연구 했었던 비교적 간단한 구조를 가진 지도학습 기반의 ANN 가치평가 네트워크[1]와 본 논문에서 제안하는 지도학습 기반 CNN 가치평가 네트워크와의 대국을 실행하여, 흑일 때 69.7%, 백일 때 72.1%의 승률을 보였다. 또한 지도학습 네트워크를 자가대국으로 policy-iteration기반의 강화 학습을 적용하여 발전시킨 네트워크와 앞서 말한 두 네트워크(ANN, CNN)와의 성능 비교도 실시하였으며 최종적인 승률은 흑일 때 ANN을 상대로100%, CNN을 상대로76%의 승률을 보였으며, 백일 때 ANN을 상대로100%, CNN을 상대로 78%의 승률을 보였다.
딥 러닝과 강화학습을 접목한 딥 강화학습은 다양한 분야에 활용 가능성을 보이며 실생활에 적용되고 있다. 또한 성공한 몇몇 사례들의 커다란 가능성을 통해 여러 분야에 걸쳐 폭 넓은 연구들이 이루어지고 있다. 본 논문은 오델로, 바둑, 체스 등과 같은 지능적 사고를 필요로 하는 보드게임에서 복잡한 상태와 형세판단 사이의 상관관계를 찾기 위해 실제 프로기사들의 대국을 답습한 CNN을 설계하고, 판단한 형세를 근거 삼아 최소최대탐색을 이용해 최적의 수를 찾는 의사 결정을 한다. 또한 형세 판단의 근거를 발전시키고자 강화학습 이론을 이용한 자가대국 학습방법을 제안한다. 지도학습 과정의 성능을 비교하기 위해 본 연구자가 선행연구 했었던 비교적 간단한 구조를 가진 지도학습 기반의 ANN 가치평가 네트워크[1]와 본 논문에서 제안하는 지도학습 기반 CNN 가치평가 네트워크와의 대국을 실행하여, 흑일 때 69.7%, 백일 때 72.1%의 승률을 보였다. 또한 지도학습 네트워크를 자가대국으로 policy-iteration기반의 강화 학습을 적용하여 발전시킨 네트워크와 앞서 말한 두 네트워크(ANN, CNN)와의 성능 비교도 실시하였으며 최종적인 승률은 흑일 때 ANN을 상대로100%, CNN을 상대로76%의 승률을 보였으며, 백일 때 ANN을 상대로100%, CNN을 상대로 78%의 승률을 보였다.
Deep reinforcement learning combined with deep learning and reinforcement learning is applied to real life, showing possibility of application in various fields. A wide range of studies are being conducted in various fields through the great possibility of some successful cases. In this paper, w...
Deep reinforcement learning combined with deep learning and reinforcement learning is applied to real life, showing possibility of application in various fields. A wide range of studies are being conducted in various fields through the great possibility of some successful cases. In this paper, we design a CNN that follows the records of real professional players in order to find the correlation between complex situation and condition judgment in board games that require intelligent thinking such as Othello, Go, Chess. Based on the judged condition, we make a decision to find the optimal action using the Minimax search. We also propose a self - learning method using reinforcement learning theory in order to develop the basis of case judgment. In order to compare the performance of the learning process, we compared the ANN evaluation network based on Supervised-Learning with simple structure that the researcher had studied previously and the CNN evaluation network based on Supervised-Learning proposed in this paper, the win rate of black and white are respectively 69.7% and 72.1%. In addition, we compared the performance of the learning network with the network developed by applying the policy-iteration based reinforcement learning to the self-playing and the two networks (ANN, CNN) mentioned above. The final win rate with the black agent is 100% against ANN, 69% against the CNN. The win rate with white agent is 100% against ANN and 73% against CNN.
Deep reinforcement learning combined with deep learning and reinforcement learning is applied to real life, showing possibility of application in various fields. A wide range of studies are being conducted in various fields through the great possibility of some successful cases. In this paper, we design a CNN that follows the records of real professional players in order to find the correlation between complex situation and condition judgment in board games that require intelligent thinking such as Othello, Go, Chess. Based on the judged condition, we make a decision to find the optimal action using the Minimax search. We also propose a self - learning method using reinforcement learning theory in order to develop the basis of case judgment. In order to compare the performance of the learning process, we compared the ANN evaluation network based on Supervised-Learning with simple structure that the researcher had studied previously and the CNN evaluation network based on Supervised-Learning proposed in this paper, the win rate of black and white are respectively 69.7% and 72.1%. In addition, we compared the performance of the learning network with the network developed by applying the policy-iteration based reinforcement learning to the self-playing and the two networks (ANN, CNN) mentioned above. The final win rate with the black agent is 100% against ANN, 69% against the CNN. The win rate with white agent is 100% against ANN and 73% against CNN.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.