$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

다중 에이전트 Q-학습 구조에 기반한 주식 매매 시스템의 최적화
Optimization of Stock Trading System based on Multi-Agent Q-Learning Framework 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.11B no.2, 2004년, pp.207 - 212  

김유섭 (한림대학교 정보통신공학부) ,  이재원 (성신여자대학교 컴퓨터정보공학부) ,  이종우 (㈜아이닉스소프트)

초록
AI-Helper 아이콘AI-Helper

본 논문은 주식 매매 시스템을 위한 강화 학습 구조를 제시한다. 매매 시스템에 사용되는 매개변수들은 Q-학습 알고리즘에 의하여 최적화되고, 인공 신경망이 값의 근사치를 구하기 위하여 활용된다 이 구조에서는 서로 유기적으로 협업하는 다중 에이전트를 이용하여 전역적인 추세 예측과 부분적인 매매 전략을 통합하여 개선된 매매 성능을 가능하게 한다. 에이전트들은 서로 통신하여 훈련 에피소드와 학습된 정책을 서로 공유하는데, 이 때 전통적인 Q-학습의 모든 골격을 유지한다. 실험을 통하여, KOSPI 200에서는 제안된 구조에 기반 한 매매 시스템을 통하여 시장 평균 수익률을 상회하며 동시에 상당한 이익을 창출하는 것을 확인하였다. 게다가 위험 관리의 측면에서도 본 시스템은 교사 학습(supervised teaming)에 의하여 훈련된 시스템에 비하여 더 뛰어난 성능을 보여주었다.

Abstract AI-Helper 아이콘AI-Helper

This paper presents a reinforcement learning framework for stock trading systems. Trading system parameters are optimized by Q-learning algorithm and neural networks are adopted for value approximation. In this framework, cooperative multiple agents are used to efficiently integrate global trend pre...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 최근에는 대안으로써 강화 학습을 매매 시스템의 최적화에 응용하는 연구가 나타나고 있다[2, 3]. 강화 학습의 목적은 실제 일반적인 교사 학습의 목적인 오류 제곱(squares error) 의 합을 최소화하는 것이 아니라, 학습 에이전트가 환경으로부터 최대의 평균 보상을 얻기 위한 최적의 정책을 획득하는 것이다.
  • 우리는 본 논문에서 강화 학습하에서 체계화된 다중 협업 에이전트를 가진 주식 매매 시스템의 구조를 제안하였다. 또한 우리는 장기 주가 변동과 관련한 역사적인 정보를 요약하기 위하여 새로운 데이터 구조를 설계하였다. 본 시스템은 교사 학습으로 훈련된 시스템에 비하여 한국 주식 시장에서 높은 수익과 의미있는 위험 관리를 가능하게 하였다.
  • 강화 학습은 목표 지향적인 학습과 의사 결정을 이해하고 자동화시키는 계산적인 접근 방법이다. 본 논문에서는 강화 학습에 대하여 Sutton[4]의 표기법에 따라서 소개할 것이다. 강화 학습 구조, 특히 마르코프 결정 과정 (Markov decision process : MDP)에서는 하나의 에이전트가 있고, 이산 시간 과정 t= 0, 1, 2, …, T에 서로 상호작용하는 환경이 있다.
  • 본 논문에서는 두 시장 사이의 자산 분배 보다는 하나의 주식 시장에서의 주식 매매에 대한 연구를 진행하였다. 또한 대부분의 주식 시장에 관한 강화 학습 공식들은 하나의 에이전트만을 구성하였으나 본 논문에서는 다중 에이전트를 사용하여 강화 학습을 공식화하였다.
  • Baird는 이러한 근사화의 발산을 방지하기 위하여 약간의 이론적인 방향에 대하여 토의하였다[6]. 본 논문에서는 이러한 문제를 보다 간단하게 만들기 위하여 다음과 같은 정규화된 기울기 감소 (regularized gradient descent)를 소개하였다.
  • 본 논문은 다중 협업 에이전트로 구성된 강화 학습 구조를 제시하는더], 이 구조는 보다 더 효과적으로 예즉 기준을 매매 정책과 통합시킬 수 있다. 매수와 매도 신호를 발생시키는 에이전트는 변환점 구조(turning-point structure)라 명명되는 행렬을 사용하는데, 이 행렬은 주가의 장기 의존 관계를 모델링한다.
  • 우리는 본 논문에서 강화 학습하에서 체계화된 다중 협업 에이전트를 가진 주식 매매 시스템의 구조를 제안하였다. 또한 우리는 장기 주가 변동과 관련한 역사적인 정보를 요약하기 위하여 새로운 데이터 구조를 설계하였다.

가설 설정

  • 그러나 백업이 어떻게 이루어지는 가에 따라서 이들 알고리즘은 다음과 같이 크게 3가지 종류로 나누어 볼 수 있다. 첫째, 동적 프로그래밍을 사용하는 것이다. 동적 프로그래밍은 전체 백업을 사용하고 동시에 언제나 수렴하는 특징을 가지고 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (10)

  1. S. M. Kendall and K. Ord, 'Time Series,' Oxford, New York, 1997 

  2. R. Neuneier, 'Enhancing Q-Learning for Optimal Asset allocation,' Advanced in Neural Information Processing System, 10, MIT Press, Cambridge, pp.936-942, 1998 

  3. J. Lee, 'Stock Price Prediction using Reinforcement Learning,' Proc. of the 6th IEEE International Symposium on Industrial Electronics, 2001 

  4. R. S. Sutton and A. G. Barto, 'Reinforcement Learning : An Introduction,' MIT Press, Cambridge, 1998 

  5. M. Jakkola, M. Jordan and S. Signh, 'On the Convergence of Stochastic Iterative Dynamic Programming Algorithms,' Neural Computation, 6(6), pp.1185-2201, 1994 

  6. L. C. Baird, 'Residual Algorithms : Reinforcement Learning with Function Approximation,' Proc. of Twelfth International Conference on Machine Learning, Morgan Kaufmann, San Francisco, pp.30-37, 1995 

  7. R. Neuneier and O. Mihatsch, 'Risk Sensitive Reinforcement Learning,' Advances in Neural Information Processing Systems, 11, MIT Press, Cambridge, pp.1031-1037, 1999 

  8. J. Moody, Y. Wu, Y. Liao and M. Saffell, 'Performance Functions and Reinforcement Learning for Trading Systems and Portfolios,' Journal of Forecasting, 17(5-6), pp.441-470, 1998 

  9. J. Moody and M. Saffell, 'Learning to Trade via Direct Reinforcement,' IEEE Transactions on Neural Networks, 12(4), pp.875-889, 2001 

  10. G. Xiu, C. Laiwan, 'Algorithm for Trading and Portfolio Management Using Q-learning and Sharpe Ratio Maximization,' Proc. of ICONIP 2000, Korea, pp.832-837, 2000 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로