[논문]R-Trader: 강화 학습에 기반한 자동 주식 거래 시스템

이재원; 김성동; 이종우; 채진석

[국내논문] R-Trader: 강화 학습에 기반한 자동 주식 거래 시스템
R-Trader: An Automatic Stock Trading System based on Reinforcement learning 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.29 no.11, 2002년, pp.785 - 794

이재원 (성신여자대학교 컴퓨터정보학부) , 김성동 (한성대학교 컴퓨터정보학부) , 이종우 (광운대학교 컴퓨터공학부) , 채진석 (인천대학교 컴퓨터공학과)

초록
AI-Helper

자동 주식 거래 시스템은 시장 추세의 예측, 투자 종목의 선정, 거래 전략 등 매우 다양한 최적화 문제를 통합적으로 해결할 수 있어야 한다. 그러나 기존의 감독 학습 기법에 기반한 거래 시스템들은 이러한 최적화 요소들의 효과적인 결합에는 큰 비중을 두지 않았으며, 이로 인해 시스템의 궁극적인 성능에 한계를 보인다. 이 논문은 주가의 변동 과정이 마르코프 의사결정 프로세스(MDP: Markov Decision Process)라는 가정 하에, 강화 학습에 기반한 자동 주식 거래 시스템인 R-Trader를 제안한다. 강화 학습은 예측과 거래 전략의 통합적 학습에 적합한 학습 방법이다. R-Trader는 널리 알려진 두 가지 강화 학습 알고리즘인 TB(Temporal-difference)와 Q 알고리즘을 사용하여 종목 선정과 기타 거래 인자의 최적화를 수행한다. 또한 기술 분석에 기반하여 시스템의 입력 속성을 설계하며, 가치도 함수의 근사를 위해 인공 신경망을 사용한다. 한국 주식 시장의 데이타를 사용한 실험을 통해 제안된 시스템이 시장 평균을 초과하는 수익을 달성할 수 있고, 수익률과 위험 관리의 두 가지 측면 모두에서 감독 학습에 기반한 거래 시스템에 비해 우수한 성능 보임을 확인한다.

Abstract ▼ AI-Helper

Automatic stock trading systems should be able to solve various kinds of optimization problems such as market trend prediction, stock selection, and trading strategies, in a unified framework. But most of the previous trading systems based on supervised learning have a limit in the ultimate performance, because they are not mainly concerned in the integration of those subproblems. This paper proposes a stock trading system, called R-Trader, based on reinforcement teaming, regarding the process of stock price changes as Markov decision process (MDP). Reinforcement learning is suitable for Joint optimization of predictions and trading strategies. R-Trader adopts two popular reinforcement learning algorithms, temporal-difference (TD) and Q, for selecting stocks and optimizing other trading parameters respectively. Technical analysis is also adopted to devise the input features of the system and value functions are approximated by feedforward neural networks. Experimental results on the Korea stock market show that the proposed system outperforms the market average and also a simple trading system trained by supervised learning both in profit and risk management.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

반면에 이 논문에서 제안하고 있는 R-Trader 는 수백 종목의 주식올 포함하고 있는 주식 시장에서의 포트폴리오 최적화를 목표로 한다. 또한 기존의 연구들은 입력 속성(input attribute)에 대해 비중 있게 언급하지 않았으나’ 이 논문에서는 그랜빌(Granville)의 법칙과 일본식 봉챠트(Japanese candlestick chart)에 기반한 입력 속성의 설계에도 비중을 둔다.
이 논문에서는 강화 학습에 기반한 자동 주식 거래시스템인 R-Trader를 소개하였다. 주식 매매에 있어 매수의 관점과 매도의 관점이 다르다는 점에 착안하여, 종목 선정올 위한 예측에는 TD 알고리즘을 독립적으로 사용하였다.
매우 중요하다. 이 논문에서는 주가 변동 분석에 널리 사용되고 있는 기술 분석에 기반하여 상태를 설계한다. 주요 기술 분석 방법론으로는 다우 이론, 엘리오트 파동이론, 패턴 분석, 그랜빌의 법칙, 진동자(oscillator), 일본식 봉 챠트 기법 등이 있다 이 중 다우 이론은 중장기적 분석에 적합하지만 단기적인 주가 변동의 예측에는 부적합하며, 엘리오트 이론은 재귀적 정의 등 이론 자체의 복잡성으로 인해 프로그램화하기 힘들다.

가설 설정

4.2 절의 정의에 따르면, 주식의 상태 공간은 연속적이다. 따라서 이전에 경험한 상태로부터 경험하지 못한 상태로의 일반화가 필요하다.
하나의 에피소드는 이 데이타로부터 특정 주식의 특정 날짜에 대한 데이타를 무작위로 선택함으로써 시작된다. 주식의 매수는 매수를 결정한 날의 종가에 이루어지는 것으로 가정한다. greedy에 의해 선택된 행위가 HOLD인 경우에는 가치도 갱신이 이루어지며, 선택된 행위가 SELL인 경우에는 에피소드가 종료된다.

제안 방법

입력 예제의 TD 갱산을 위한 목표 값 의 계산에 사용되는 V(S^i) 항의 근사치를 구하기 위해 이전 예제들로부터 학습된 신경망의 가중치를 사용한다. 각 종목의 학습 기간에 해당하는 전체 데이타롤 하나의 에피소드로 간주하였으므로 모두 300개의 에피소드가 사용되었으며, 검증 데이타에 대한 평균 수익률이 감소하기 시작할 때까지 이 에피소드들을 반복적으로 학습시켰다. 신경망은 각기 40개와 20개의 뉴우런을 포함하는 두개의 은닉층(hidden layer)을 사용하였다.
매도 모듈은 기존의 강화 학습 알고리즘의 장점인 예측과 전략의 통합적 학습을 수행하기 위해 Q 알고리즘을 사용하였다. 강화 학습의 입력에 적합한 형태로 기술 분석 기법올 변형하여 활용하였으며, 신경망에 의한 가치도 근사를 수행하였다. 실험 결과는 제안한 시스템에 의해 시장 평균을 초과하는 수익의 달성이 가능하고 감독 학습에 기반한 시스템에 비해 우수한 성능올 달성할 수 있음을 보였다.
현재 수익률을 상태 표현에 포함시키는 한 가지 방법은 단순히 수익률에 해당하는 실수 값 속성 하나를 할당하는 것이다 그러나 이 경우 미시적인 수익률의 차이를 효과적으로 학습에 반영할 수 없다. 따라서 이 논문에서는 여러 개의 이진 속성(binary attribute)으로 수익률을 표현하는 방식을 채택하며, 입력 속성간 일관성을 유지하기 위해 다른 모든 속성들도 이진으로 표현한다. 상태의 정의는 아래과 같다.
비교 대상이 되는 시스템은 R-Trader와 같은 입력 속성과 신경망을 사용하여 구축되었으며 S-Trader 라는 명칭으로 부르기로 한다. 마지막으로 기존의 강화학습 기반 거래 시스템과 R-Trader의 성능 비교를 통해 R-Trader의 의의에 관해 분석한다. 평균 거래량 및 주가 변동 성향 검사를 통해 안정성이 검증된 총 300 종목의 일별 주가 데이타로부터 표 2와 같은 실험 데이타를 구성하였다.
매수 예측 모듈은 TD 알고리즘으로 학습하며, 각 후보 주식에 대한 미래 누적 기대 수익을 수치로 표현하는 '예측'을 수행한다. 매수 전략은 이 예측치에 근거하여 추천 주식(매수 주식)을 선정하기 위한 임계치를 선정한다 5).
매수 예측 모듈의 TD 학습은 y를 0.9로 하여 새로운목표값이 계산될 때마다 즉시 갱신을 수행하는 온라인갱신으로 진행하였다. 입력 예제의 TD 갱산을 위한 목표 값 의 계산에 사용되는 V(S^i) 항의 근사치를 구하기 위해 이전 예제들로부터 학습된 신경망의 가중치를 사용한다.
제시한다. 먼저 매수 예측 모듈의 예측력 (predictability)을 테스트하고, 다음으로 감독 학습에 기반하여 구축된 거래 시스템과의 성능 비교 결과를 제시한다. 비교 대상이 되는 시스템은 R-Trader와 같은 입력 속성과 신경망을 사용하여 구축되었으며 S-Trader 라는 명칭으로 부르기로 한다.
시스템마다 각기 다른 테스트 기간을 사용하였고, 투자 대상이나 방식에도 차이가 있어 직접적인 비교가 불가능하므로, 지수변동대비 연평균 수익률을 별도 산정하여 비교하였다 Neuneier가 제안한 시스템(TDU2]은 독일 주식 시장에서의 모의 투자에 Q 학습올 사용하였다. Xiu의 시스템(T2)⑻과 R-Trader 모두 T1 에 비해 높은 연평균수익률을 보였다.
각 종목의 학습 기간에 해당하는 전체 데이타롤 하나의 에피소드로 간주하였으므로 모두 300개의 에피소드가 사용되었으며, 검증 데이타에 대한 평균 수익률이 감소하기 시작할 때까지 이 에피소드들을 반복적으로 학습시켰다. 신경망은 각기 40개와 20개의 뉴우런을 포함하는 두개의 은닉층(hidden layer)을 사용하였다. 표 3은 테스트 데이타에 대한 TD 예측치의 분포를 보이며 그림 9는 TD 예측의 성능을 보인다 /?⑴〜R(20)은 각기 1, 5, 10, 그리고 20일 후에 절삭된 평균 가치도(return)를 나타내며 다음의 공식을 사용하여 계산하였다:
일별 주가 데이타베이스에는 거래량이 너무 작거나 종합주가지수와 현저히 다른 주가 변동 성향을 보이는 주식들이 다수 포함되어 있다2 3 4). 이 논문에서 수행하는 학습과 모의 실험에서는 이러한 주식들을 배제하기 위해, 일정 기간 동안의 평균 거래량 검사 및 주가 변동 성향 분석을 통해 안정성이 있다고 판단되는 주식들의 데이타만을 사용한다.
이 연구들은 학습된 자산 분배기 (asset allocator)를 사용하여 S&P 500과 T-Bill 시장에서의 위치(position) 변경을 통해 수익을 얻을 수 았음을 보였다, Xiu 등도 Q-학습을 이용한 포트폴리오 관리 시스템을 제안하였다[9]. 이 연구에서는 절대적 수익과 상대적 위험-고려(risk-adjusted) 수익이라는 두 가지 성능 함수를 사용하였으므로 두 개의 신경망으로 학습을 수행하였다.
R-Trader를 소개하였다. 주식 매매에 있어 매수의 관점과 매도의 관점이 다르다는 점에 착안하여, 종목 선정올 위한 예측에는 TD 알고리즘을 독립적으로 사용하였다. 매도 모듈은 기존의 강화 학습 알고리즘의 장점인 예측과 전략의 통합적 학습을 수행하기 위해 Q 알고리즘을 사용하였다.
5를 사용한 경우가 가장 높은 최종 수익률을 보였다. 최대 매수 가능 종목수는 10개로 제한하였으며, 익일 매도가 결정된 종목 수와 같은 수의 종목을 익일에 매수하는 방식으로 실험하였다. 임계치를 넘는 추천 종목의 수가 매수하고자 하는 종목수보다 많을 경우 예측치가 높은 순서대로 매수하였고, 반대의 경우에는 추천된 모든 종목올 매수하였다.

대상 데이터

마지막으로 기존의 강화학습 기반 거래 시스템과 R-Trader의 성능 비교를 통해 R-Trader의 의의에 관해 분석한다. 평균 거래량 및 주가 변동 성향 검사를 통해 안정성이 검증된 총 300 종목의 일별 주가 데이타로부터 표 2와 같은 실험 데이타를 구성하였다.

이론/모형

주식 매매에 있어 매수의 관점과 매도의 관점이 다르다는 점에 착안하여, 종목 선정올 위한 예측에는 TD 알고리즘을 독립적으로 사용하였다. 매도 모듈은 기존의 강화 학습 알고리즘의 장점인 예측과 전략의 통합적 학습을 수행하기 위해 Q 알고리즘을 사용하였다. 강화 학습의 입력에 적합한 형태로 기술 분석 기법올 변형하여 활용하였으며, 신경망에 의한 가치도 근사를 수행하였다.
성능을 비교한다. 시장 평균과의 비교를 위해 테스트 기간의 종합주가지수(KOSPI) 변화도 함께 제시하였다. 전반적으로 R-Trader 는 종합주가지수와 S-Trader보다 높은 성능을 보였다.
또한 패턴 분석은 컴퓨터 분야의 몇몇 기존 연고에서 활용되었으나 패턴의 정의가 주관적인 요소를 많이 포함하고 있어 높은 성능을 기대하기 힘들다. 이 논문에서는 상호 연관성이 높고 수치화돤 입력 속성으로의 표현이 용이하다고 판단되는 그랜빌의 법칙과 봉 챠트 기법7)을 결합하여 사용한다. 그랜빌은 특정 기간 동안의 주가의 평균값인 이동평균 (MA: Moving Average)의 관점에서 주가의 미래 추세를 설명하였다’ 이동평균은 아래와 같이 정의할 수 있다.

성능/효과

(A) 단기 이동평균선이 하강하여 장기 이동평균선에 근접하면 단기 이동 평균선은 반전하여 상승할 가능성이 았다. (그림 4(A) 참조)
(B) 단기 이동평균선이 하강하여 장기 이동평균선을 하향 돌파하였으나 단기간에 다시 상향 돌파하면 단기이동평균선은 상숭을 계속할 가능성이 있다. (그림 4(B) 참조)
매도 모듈은 매수 예측 모듈과 같은 구조의 신경망으로 같은 할인율을 사용하여 학습하였고, 7'响>■으로는 L0올 사용하였다⑵. 28만 에피소드를 학습한 이후 검증 데이타에 대한 수익률이 증가하기 시작하였고, 47만 에피소드 이후에 수익률이 감소하여 학습올 중단하였다. 매수전략에 해당하는 매수 예측 임계치 确로 4.
87%의 수익을 달성하였다. 비록 외부 총격에 해당하는 미국 9.11 테러 사건 직후의 폭락 장세에서는 R-Trader도 급격한 수익 감소를 보였지만, 시장 내부 요인에 의한 일반적인 하락 장세에서는 S-Trader에 비해 안정적인 성능올 보였다. 이것은 R-Tiader가 위험 관리의 측면에서도 S-Trader에 비해 우수함 올 의미한다.
강화 학습의 입력에 적합한 형태로 기술 분석 기법올 변형하여 활용하였으며, 신경망에 의한 가치도 근사를 수행하였다. 실험 결과는 제안한 시스템에 의해 시장 평균을 초과하는 수익의 달성이 가능하고 감독 학습에 기반한 시스템에 비해 우수한 성능올 달성할 수 있음을 보였다.
어】 대한 예측 성능이 상대적으로 좋았는데, 이것은 이 논문에서 사용한 입력 속성들이 기술 분석에 기반하고 있어 비교적 단기적인 주가 추세의 예측에 적합함을 의미한다고 볼 수 있다. 그러나 7?(1), 즉 바로 다음 날의 주가에 대한 예측은 5일간의 미래 추세에 대한 예측보다 어려움을 알 수 있다.
T2는 독일 마르크화(DM)와 미 달러 (USD) 간 환율 예측을 통한 외환 거래에 의해 수익을 얻었는데, T1에서 사용한 독일 주가지수(DAX)와 환율 이 모두 단일 시계열이라는 점에서 비교의 의의가 있다. 연평균 수익률만으로 보면 T2와 R-Trader의 성능이 비슷한 것으로 나타났지만, T2의 경우 마르크화로의 환 전 시에는 거래세를 적용하지 않았으므로 R-Trader에 비해 낮은 성능을 보이는 것으로 판단된다. 이 두 시스 템과는 달리 R-Trader는 단일 시계열인 KOSPI 지수 대신 이 지수의 산정에 포함되는 개별 종목들의 주가에 대한 예측을 활용하였다는 점과, TD 예측 모듈을 매도 모듈과 분리함으로써 예측 성능을 증대하고 투자 자금 의 분량을 신축적으로 조절한 점 등이 성능 개선에 기 여한 것으로 보인다.
전반적으로 R-Trader 는 종합주가지수와 S-Trader보다 높은 성능을 보였다. 테스트 기간 동안 종합주가지수는 6.98% 하락한 반면 R-Trader 는 68.32%, S-Trader는 29.87%의 수익을 달성하였다. 비록 외부 총격에 해당하는 미국 9.
가장 성능이 좋은 2?(5) 에 대한 예측의 경우에도, 거래세를 고려할 때, 구간 1〜3만이 비교적 유용한 예측 성능을 보였다U). 하지만이 구간에 속하는 테스트 데이타의 수는 표 2에서 알 수 있듯이 전체 데이타 중 극히 일부에 불과하여, 기술지표에 의한 주가 변동의 예측은 제한된 경우에 한하여 가능함을 확인할 수 있다.

참고문헌 (16)

B. G. Malkiel, A Random Walk Down Wall Street, Norton, New York, 1996
S. T. Chou, H. Hsu, C. Yang, F. Lai, 'A stock selection DSS combining AI and technical analysis,' Annals of Operations Research 75. pp.335-353, 1997
B. Zhang, R. Coggins, M. A. Jabri, D. Dersch, B. Flower, 'Multiresolution Forecasting for Futures Trading Using Wavelet Decompositions,' IEEE Trans. Neural Networks, vol. 12, pp.765-775, 2001

상세보기
R. J. Kuo, 'A Decision Support System for the Stock Market through Integration of Fuzzy Neural Networks and Fuzzy Delphi,' Applied Intelligence, 6., pp.501-520, 1998
R. Neuneier, 'Enhancing Q-Learning for Optimal Asset Allocation,' Advances in Neural Information Processing Systems 10, MIT Press, Cambridge. pp.936-942, 1998
R. Neuneier, O. Mihatsch, 'Risk Sensitive Reinforcement Learning,' Advances in Neural Information Processing Systems 11, MIT Press, Cambridge, pp.1031-1037, 1999
J. Moody, Y. Wu, Y. Liao, M. Saffell, 'Performance Functions and Reinforcement Learning for Trading Systems and Portfolios,' Journal of Forecasting, 17(5-6), pp.441-470, 1998

상세보기
J. Moody, M. Saffell, 'Learning to Trade via Direct Reinforcement,' IEEE Transactions on Neural Networks, 12(4), pp.875-889, 2001

상세보기
G. Xiu, C. Laiwan, 'Algorithm for Trading and Portfolio Management Using Q-learning and Sharpe Ratio Maximization,' Proceedings of ICONIP 2000, Korea, pp.832--837, 2000
R. S. Sutton, A. G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, 1998
C. J. Watkins, Learning from Delayed Rewards. Ph.D. thesis, Cambridge University, 1989
M. H. Kalos, P. A. Whitlock, Monte Carlo Methods, Wiley, New York, 1998
R. Neuneier, 'Optimal Asset Allocation Using Adaptive Dynamic Programming,' Advances in Neural Information Processing Systems 8, Cambridge, MA: MIT Press, pp.953-958, 1996
R. D. Edwards and J. Magee, Technical Analysis of Stock Trends, John Magee, Inc., 1974
S. Nison, Japanese Candlestick Charting Techniques, New York, NY:New York Institute of Finance, 1991
T. Hellstroem, A Random Walk through the Stock Market, Ph.D. theis, University of Umea, Sweden, 1998

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증