[논문]다중 에이전트 Q-학습 구조에 기반한 주식 매매 시스템의 최적화

김유섭; 이재원; 이종우

doi:10.3745/kipstb.2004.11b.2.207

다중 에이전트 Q-학습 구조에 기반한 주식 매매 시스템의 최적화
Optimization of Stock Trading System based on Multi-Agent Q-Learning Framework 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.11B no.2, 2004년, pp.207 - 212

김유섭 (한림대학교 정보통신공학부) , 이재원 (성신여자대학교 컴퓨터정보공학부) , 이종우 (㈜아이닉스소프트)

초록
AI-Helper

본 논문은 주식 매매 시스템을 위한 강화 학습 구조를 제시한다. 매매 시스템에 사용되는 매개변수들은 Q-학습 알고리즘에 의하여 최적화되고, 인공 신경망이 값의 근사치를 구하기 위하여 활용된다 이 구조에서는 서로 유기적으로 협업하는 다중 에이전트를 이용하여 전역적인 추세 예측과 부분적인 매매 전략을 통합하여 개선된 매매 성능을 가능하게 한다. 에이전트들은 서로 통신하여 훈련 에피소드와 학습된 정책을 서로 공유하는데, 이 때 전통적인 Q-학습의 모든 골격을 유지한다. 실험을 통하여, KOSPI 200에서는 제안된 구조에 기반 한 매매 시스템을 통하여 시장 평균 수익률을 상회하며 동시에 상당한 이익을 창출하는 것을 확인하였다. 게다가 위험 관리의 측면에서도 본 시스템은 교사 학습(supervised teaming)에 의하여 훈련된 시스템에 비하여 더 뛰어난 성능을 보여주었다.

Abstract ▼ AI-Helper

This paper presents a reinforcement learning framework for stock trading systems. Trading system parameters are optimized by Q-learning algorithm and neural networks are adopted for value approximation. In this framework, cooperative multiple agents are used to efficiently integrate global trend prediction and local trading strategy for obtaining better trading performance. Agents Communicate With Others Sharing training episodes and learned policies, while keeping the overall scheme of conventional Q-learning. Experimental results on KOSPI 200 show that a trading system based on the proposed framework outperforms the market average and makes appreciable profits. Furthermore, in view of risk management, the system is superior to a system trained by supervised learning.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

최근에는 대안으로써 강화 학습을 매매 시스템의 최적화에 응용하는 연구가 나타나고 있다[2, 3]. 강화 학습의 목적은 실제 일반적인 교사 학습의 목적인 오류 제곱(squares error) 의 합을 최소화하는 것이 아니라, 학습 에이전트가 환경으로부터 최대의 평균 보상을 얻기 위한 최적의 정책을 획득하는 것이다.
우리는 본 논문에서 강화 학습하에서 체계화된 다중 협업 에이전트를 가진 주식 매매 시스템의 구조를 제안하였다. 또한 우리는 장기 주가 변동과 관련한 역사적인 정보를 요약하기 위하여 새로운 데이터 구조를 설계하였다. 본 시스템은 교사 학습으로 훈련된 시스템에 비하여 한국 주식 시장에서 높은 수익과 의미있는 위험 관리를 가능하게 하였다.
강화 학습은 목표 지향적인 학습과 의사 결정을 이해하고 자동화시키는 계산적인 접근 방법이다. 본 논문에서는 강화 학습에 대하여 Sutton[4]의 표기법에 따라서 소개할 것이다. 강화 학습 구조, 특히 마르코프 결정 과정 (Markov decision process : MDP)에서는 하나의 에이전트가 있고, 이산 시간 과정 t= 0, 1, 2, …, T에 서로 상호작용하는 환경이 있다.
본 논문에서는 두 시장 사이의 자산 분배 보다는 하나의 주식 시장에서의 주식 매매에 대한 연구를 진행하였다. 또한 대부분의 주식 시장에 관한 강화 학습 공식들은 하나의 에이전트만을 구성하였으나 본 논문에서는 다중 에이전트를 사용하여 강화 학습을 공식화하였다.
Baird는 이러한 근사화의 발산을 방지하기 위하여 약간의 이론적인 방향에 대하여 토의하였다[6]. 본 논문에서는 이러한 문제를 보다 간단하게 만들기 위하여 다음과 같은 정규화된 기울기 감소 (regularized gradient descent)를 소개하였다.
본 논문은 다중 협업 에이전트로 구성된 강화 학습 구조를 제시하는더], 이 구조는 보다 더 효과적으로 예즉 기준을 매매 정책과 통합시킬 수 있다. 매수와 매도 신호를 발생시키는 에이전트는 변환점 구조(turning-point structure)라 명명되는 행렬을 사용하는데, 이 행렬은 주가의 장기 의존 관계를 모델링한다.
우리는 본 논문에서 강화 학습하에서 체계화된 다중 협업 에이전트를 가진 주식 매매 시스템의 구조를 제안하였다. 또한 우리는 장기 주가 변동과 관련한 역사적인 정보를 요약하기 위하여 새로운 데이터 구조를 설계하였다.

가설 설정

그러나 백업이 어떻게 이루어지는 가에 따라서 이들 알고리즘은 다음과 같이 크게 3가지 종류로 나누어 볼 수 있다. 첫째, 동적 프로그래밍을 사용하는 것이다. 동적 프로그래밍은 전체 백업을 사용하고 동시에 언제나 수렴하는 특징을 가지고 있다.

제안 방법

그리고 '상태-행동 쌍㊇瞬개)의 탐색 공간이 매수 신호 에이전트가 테이블에서 Q-값을 유지하기에 지나치게 크기 때문에, 본 논문에서는 Q-값의 근사화를 위하여 인공 신경 망을 사용하였다. 이론적으로 Q-테이블의 단순 선형 근사 화가 발산하는 경우가 발생한다.
본 논문에서는 두 시장 사이의 자산 분배 보다는 하나의 주식 시장에서의 주식 매매에 대한 연구를 진행하였다. 또한 대부분의 주식 시장에 관한 강화 학습 공식들은 하나의 에이전트만을 구성하였으나 본 논문에서는 다중 에이전트를 사용하여 강화 학습을 공식화하였다.
본 논문에서 우리는 변곡점 구조를 표현하는 이항 행렬을 적용하였다. 이 행렬은 5일 이동 평균선의 상하위 변곡 점들에 기반하여 장기 의존관계를 요약한다.
본 논문에서는 제안된 구조에 기반하여 구축된 주식 매매 시스템을 다른 매매 시스템과 비교하였는데, 비교 대상 시스템은 3장에서 설명된 것과 동일한 입력 공간을 가진 인공 신경망을 사용하여 교사 학습 방법으로 훈련되었다. 편의를 위하여 우리가 제안한 시스템을 MAQ이라 하였고 비교 대상이 된 시스템을 SNN이라 하였다.
그리고, 하룻동안의 가격 변동을 활용하기 위하여, 주문을 발생시키는 에이전트는 단기 정책을 최적화시킨다. 이때, 인공 신경망과 결합된 Q-학습 방법을 사용하여 에이전트를 학습하여 최적의 정책을 얻을 수 있도록 하였다. 게다가, 정규화 기법을 사용하여 값 근사화 모 듈을 학습시켜서 매개변수들의 발산을 방지할 수 있었다.
본 논문에서는 제안된 구조에 기반하여 구축된 주식 매매 시스템을 다른 매매 시스템과 비교하였는데, 비교 대상 시스템은 3장에서 설명된 것과 동일한 입력 공간을 가진 인공 신경망을 사용하여 교사 학습 방법으로 훈련되었다. 편의를 위하여 우리가 제안한 시스템을 MAQ이라 하였고 비교 대상이 된 시스템을 SNN이라 하였다.

이론/모형

마지막으로, 일시적 차이 (temporal difference : TD)를 사용하는 방법이 있다. 이 방법은 앞의 두 알고리즘을 적절히 혼합한 형태로서, n-단계 샘플과 currently learned value model[4, 5]로 불리는 부트스트래핑을 사용한다. 실제로, TD 방식은 다루기가 용이하기 때문에 널리 사용되고 있으나 반면에 수렴을 위해서는 많은 주의를 필요로 한다⑹.

성능/효과

또한 우리는 장기 주가 변동과 관련한 역사적인 정보를 요약하기 위하여 새로운 데이터 구조를 설계하였다. 본 시스템은 교사 학습으로 훈련된 시스템에 비하여 한국 주식 시장에서 높은 수익과 의미있는 위험 관리를 가능하게 하였다. 그러나, 이 시스템을 실제 주식 매매 시스템에 연동하여 활용하기 위해서는 추가적인 현실적 고려가 필요하다.
게다가, 정규화 기법을 사용하여 값 근사화 모 듈을 학습시켜서 매개변수들의 발산을 방지할 수 있었다. 실험에서는 실제 주식 매매 시스템을 제안된 구조를 사용하여 구현하였는데, 그 시스템은 시장 평균을 상회하는 성능을 보여주었으며 또한 고전적인 교사 학습 알고리즘으로 구현된 시스템보다 더 좋은 성능을 보여주었다.
테스트 집합의 기간에서 시작일의 KOSPI 지수는 612 포인트였다. 전체적으로 본다면, MAQ는 시장 지수와 SNN 모두 보다 뛰어난 성능을 보여준다고 볼 수 있다. 테스트 기간이 끝난 뒤에 MAQ의 자산은 28.
전체적으로 본다면, MAQ는 시장 지수와 SNN 모두 보다 뛰어난 성능을 보여준다고 볼 수 있다. 테스트 기간이 끝난 뒤에 MAQ의 자산은 28.26% 증가하여 785 포인트가 되었으나 SNNe 8.49% 증가하여 664 포인트가 되었을 뿐이었다.

후속연구

강화 학습은 매우 장래성이 좋은 방법임이 틀림없으나 이러한 고려들을 실제 적용하는 것은 매우 복잡한 문제를 야기한다. 그래서 강화 학습을 이러한 고려들과 통합하여 공식화하는 것은 향후 연구 과제가 될 것이다.

참고문헌 (10)

S. M. Kendall and K. Ord, 'Time Series,' Oxford, New York, 1997
R. Neuneier, 'Enhancing Q-Learning for Optimal Asset allocation,' Advanced in Neural Information Processing System, 10, MIT Press, Cambridge, pp.936-942, 1998
J. Lee, 'Stock Price Prediction using Reinforcement Learning,' Proc. of the 6th IEEE International Symposium on Industrial Electronics, 2001
R. S. Sutton and A. G. Barto, 'Reinforcement Learning : An Introduction,' MIT Press, Cambridge, 1998
M. Jakkola, M. Jordan and S. Signh, 'On the Convergence of Stochastic Iterative Dynamic Programming Algorithms,' Neural Computation, 6(6), pp.1185-2201, 1994

상세보기
L. C. Baird, 'Residual Algorithms : Reinforcement Learning with Function Approximation,' Proc. of Twelfth International Conference on Machine Learning, Morgan Kaufmann, San Francisco, pp.30-37, 1995
R. Neuneier and O. Mihatsch, 'Risk Sensitive Reinforcement Learning,' Advances in Neural Information Processing Systems, 11, MIT Press, Cambridge, pp.1031-1037, 1999
J. Moody, Y. Wu, Y. Liao and M. Saffell, 'Performance Functions and Reinforcement Learning for Trading Systems and Portfolios,' Journal of Forecasting, 17(5-6), pp.441-470, 1998

상세보기
J. Moody and M. Saffell, 'Learning to Trade via Direct Reinforcement,' IEEE Transactions on Neural Networks, 12(4), pp.875-889, 2001

상세보기
G. Xiu, C. Laiwan, 'Algorithm for Trading and Portfolio Management Using Q-learning and Sharpe Ratio Maximization,' Proc. of ICONIP 2000, Korea, pp.832-837, 2000

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증