Support Vector Machines와 유전자 알고리즘을 이용한 지능형 트레이딩 시스템 개발 Development of an Intelligent Trading System Using Support Vector Machines and Genetic Algorithms원문보기
최근 트레이딩 시스템에 대한 관심이 높아지면서, 인공지능을 이용한 지능형 트레이딩 시스템의 개발과 관련한 연구들이 활발하게 이루어지고 있다. 그러나 현재까지 소개된 트레이딩 시스템 관련 연구들은 트레이딩에 적용될 수 있는 다양한 변수들이 실무에서 활용되고 있음에도 불구하고, 주가지수에서 파생된 기술적 지표에만 과도하게 의존하는 경향이 있었다. 또한, 실제 수익창출에 초점이 맞추어진 트레이딩 시스템의 모형보다는 주가 혹은 주가지수의 등락에 대한 정확한 예측에 초점을 맞춰 모형을 개발하려고 하는 한계도 존재했다. 이에 본 연구에서는 기존 연구에서 주로 활용되어 온 기술적 지표 외에 현업에서 유용하게 활용되는 다양한 비가격 변수들을 시스템에 반영함으로서 예측 성과의 개선을 도모하는 동시에, Support Vector Machines 기반의 등락예측모형의 결과를 트레이딩 시스템의 매수, 매도, 혹은 유지의 신호로 해석할 수 있도록 설계된 새로운 형태의 지능형 트레이딩 시스템을 제안한다. 제안시스템의 유용성을 검증하기 위해, 본 연구에서는 2004년 5월부터 2009년 12월까지의 KOSPI200 주가지수에 제안모형을 적용하여 그 성과를 살펴보았다. 그 결과, 제안시스템이 수익률 관점에서 다른 비교모형들에 비해 더 우수한 성과를 도출함을 확인할 수 있었다.
최근 트레이딩 시스템에 대한 관심이 높아지면서, 인공지능을 이용한 지능형 트레이딩 시스템의 개발과 관련한 연구들이 활발하게 이루어지고 있다. 그러나 현재까지 소개된 트레이딩 시스템 관련 연구들은 트레이딩에 적용될 수 있는 다양한 변수들이 실무에서 활용되고 있음에도 불구하고, 주가지수에서 파생된 기술적 지표에만 과도하게 의존하는 경향이 있었다. 또한, 실제 수익창출에 초점이 맞추어진 트레이딩 시스템의 모형보다는 주가 혹은 주가지수의 등락에 대한 정확한 예측에 초점을 맞춰 모형을 개발하려고 하는 한계도 존재했다. 이에 본 연구에서는 기존 연구에서 주로 활용되어 온 기술적 지표 외에 현업에서 유용하게 활용되는 다양한 비가격 변수들을 시스템에 반영함으로서 예측 성과의 개선을 도모하는 동시에, Support Vector Machines 기반의 등락예측모형의 결과를 트레이딩 시스템의 매수, 매도, 혹은 유지의 신호로 해석할 수 있도록 설계된 새로운 형태의 지능형 트레이딩 시스템을 제안한다. 제안시스템의 유용성을 검증하기 위해, 본 연구에서는 2004년 5월부터 2009년 12월까지의 KOSPI200 주가지수에 제안모형을 적용하여 그 성과를 살펴보았다. 그 결과, 제안시스템이 수익률 관점에서 다른 비교모형들에 비해 더 우수한 성과를 도출함을 확인할 수 있었다.
As the use of trading systems increases recently, many researchers are interested in developing intelligent trading systems using artificial intelligence techniques. However, most prior studies on trading systems have common limitations. First, they just adopted several technical indicators based on...
As the use of trading systems increases recently, many researchers are interested in developing intelligent trading systems using artificial intelligence techniques. However, most prior studies on trading systems have common limitations. First, they just adopted several technical indicators based on stock indices as independent variables although there are a variety of variables that can be used as independent variables for predicting the market. In addition, most of them focus on developing a model that predicts the direction of the stock market indices rather than one that can generate trading signals for maximizing returns. Thus, in this study, we propose a novel intelligent trading system that mitigates these limitations. It is designed to use both the technical indicators and the other non-price variables on the market. Also, it adopts 'two-threshold mechanism' so that it can transform the outcome of the stock market prediction model based on support vector machines to the trading decision signals like buy, sell or hold. To validate the usefulness of the proposed system, we applied it to the real world data-the KOSPI200 index from May 2004 to December 2009. As a result, we found that the proposed system outperformed other comparative models from the perspective of 'rate of return'.
As the use of trading systems increases recently, many researchers are interested in developing intelligent trading systems using artificial intelligence techniques. However, most prior studies on trading systems have common limitations. First, they just adopted several technical indicators based on stock indices as independent variables although there are a variety of variables that can be used as independent variables for predicting the market. In addition, most of them focus on developing a model that predicts the direction of the stock market indices rather than one that can generate trading signals for maximizing returns. Thus, in this study, we propose a novel intelligent trading system that mitigates these limitations. It is designed to use both the technical indicators and the other non-price variables on the market. Also, it adopts 'two-threshold mechanism' so that it can transform the outcome of the stock market prediction model based on support vector machines to the trading decision signals like buy, sell or hold. To validate the usefulness of the proposed system, we applied it to the real world data-the KOSPI200 index from May 2004 to December 2009. As a result, we found that the proposed system outperformed other comparative models from the perspective of 'rate of return'.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
, 1999; Sollich, 2002; 홍태호와 신택수, 2005). 본 연구 역시 예측 정확도가 높은 SVM을 트레이딩 시스템에 적용하고자 하였는데, 이를 위해서는 각 집단의 추정 소속확률을 제공할 수 있는 변형된 SVM의 적용이 요구되었다. 이를 위해 본 연구에서는 Platt et al.
또한 최적의 이중 임계치를 결정하기 위한 방법으로는 유전자 알고리즘을 사용한다. 본 연구에서는 이러한 제안 시스템을 실제 KOSPI200 지수에 다른 비교모형들과 함께 적용함으로서, 모형의 유용성을 실증적으로 검증해 보고자 하였다.
본 연구에서는 최근 금융분야에서 크게 주목받고 있는 트레이딩 시스템과 관련하여, SVM과 유전자 알고리즘을 결합한 새로운 형태의 지능형 트레이딩 시스템을 제안하였다. 본 연구의 제안 시스템은 다른 분류 모형들에 비해 효율적이면서도 예측 정확도가 높은 것으로 보고되고 있는 SVM을 기반으로, 유전자 알고리즘에 의해 최적화 된 이중 임계치를 통해 매수, 매도 혹은 보류와 같은 매매 의사결정을 스스로 내릴 수 있도록 설계되었다.
본 장에서는 우선 트레이딩 시스템과 관련한 기존 문헌들을 고찰해 보고, 본 연구에서 사용될 2가지 핵심 기법인 Support Vector Machines와 유전자 알고리즘에 대해 살펴보도록 한다.
그런데 앞서 소개한 단일 임계치와 마찬가지로, 이중 임계치 역시 설계자가 직관에 의해 임의로 값을 설정해야 하는 어려움이 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 유전자 알고리즘을 이용해 이중 임계치 값을 최적화하고자 한다. 아래의 <그림 4>는 본 연구의 제안 시스템에서 활용된 염색체의 구조를 나타내고 있다.
이를 위해서는 주가예측의 성과기준이 투자 수익률이 되어야 하며, 투자에 따른 자금관리에 적합한 누적 투자수익률을 목적함수로 사용해야 한다. 이러한 배경에서 본 연구는 투자수익률을 극대화시킬 수 있는 새로운 지능형 시스템을 제안하는데, 이를 위해 이중 임계치 기법을 도입하고자 한다(이재식 외, 2000; 안현철과 이형용, 2009). 이 기법을 적용하게 되면, 예측 값이 확실하지 않을 경우 보유(hold) 의사결정을 내릴 수 있도록 이중 임계치를 설정하여 강력한 매수(buy) 또는 매도(sell) 신호만 활용하여 매매하는 것이 가능해 진다.
이에 본 연구에서는 기존 연구에서 사용되어 온 가격 기반 기술적 지표 외에 주가에 영향을 미치는 다양한 비가격 변수(non-price variables)를 추가하여 트레이딩 시스템의 투자성과를 높이고자 한다. 가격 기반 기술적 지표는 오래 전부터 시장 참여자들 사이에 많이 알려지고 실제 투자에 활용되면서, 이를 활용한 최근의 투자성과는 많이 줄어들고 있는 추세다(Sullivan et al.
이에 본 연구에서는 이러한 기존 연구의 한계점을 극복할 수 있는 대안으로 새로운 개념의 지능형 트레이딩 시스템의 모형을 제안하고자 한다. 제안 시스템은 크게 3단계에 의해 구현되도록 설계되었는데, 제안시스템의 전체적인 진행체계는 다음의 <그림 2>와 같다.
가설 설정
하지만 본 연구는 여러 한계점도 함께 내포하고 있다. 우선 실제 매매에서는 거래비용이 발생함에도 불구하고, 본 연구에서는 거래비용이 없다고 가정하고 실험을 수행하고 있다는 점을 들 수 있다. 물론 거래비용에 대한 추정의 어려움은 있겠지만, 향후 연구에서는 직/간접적인 거래비용까지 반영해서 제안 시스템의 성능을 보다 정밀하게 측정하는 노력이 수반되어야 할 것이다.
효율적 시장가설(Efficient Market Hypothesis, EMH)은 주가가 다양한 정보를 즉각적으로 반영하여 움직이기 때문에 랜덤워크(random walk)에 따라 움직인다고 가정하고 있다. 이 경우 과거의 주가자료를 이용하여 내일의 주가를 예측하는 것은 불가능하기 때문에, 효율적 시장가설 하에서 기술적 분석이나 주가의 예측모형을 찾아내려는 노력은 무의미해진다.
제안 방법
SVM 실험에 이어, 비교모형인 로지스틱 회귀 모형과 인공신경망에 대해서도 동일한 데이터를 기준으로 실험을 진행해 보았다. 그 결과가 다음의 <표 4>에 제시되어 있다.
유전자 알고리즘의 각종 통제변수들과 관련해서는 본 연구에서는 탐색해야 할 공간이 그다지 크지 않은 공간임을 감안해, 모집단의 크기를 50개체로 설정하고, 교배율과 돌연변이율은 각각 50%와 10%로 설정하였다. 그리고, 종료조건으로는 총 1000회의 연산(즉, 20세대)을 시도하게끔 설정 하였다.
그러나 입력변수로는 기술적 지표 중 가장 잘 알려진 두 이동평균선의 교차만을 사용하고 있고, 적합함수(fitness function)로 비록 누적수익률함수를 사용하고 있지만, 연구의 주목적이 최적의 기술적 규칙을 찾기보다는 통제 파라미터 값에 대한 유전자 알고리즘의 강인성 검정(robustness test)에 초점이 맞추어져 있다는 한계가 있다. 또한, 이 연구에서 제안된 시스템은 매일매일 매수 또는 매도신호를 발생하도록 설계되어 있다. 따라서, 실제 투자에 활용하는데 있어, 다소 무리가 따른다는 한계가 있다.
본 연구에서는 최근 금융분야에서 크게 주목받고 있는 트레이딩 시스템과 관련하여, SVM과 유전자 알고리즘을 결합한 새로운 형태의 지능형 트레이딩 시스템을 제안하였다. 본 연구의 제안 시스템은 다른 분류 모형들에 비해 효율적이면서도 예측 정확도가 높은 것으로 보고되고 있는 SVM을 기반으로, 유전자 알고리즘에 의해 최적화 된 이중 임계치를 통해 매수, 매도 혹은 보류와 같은 매매 의사결정을 스스로 내릴 수 있도록 설계되었다. 제안 시스템의 유용성을 약 6년 여간 축적된 KOSPI 200 지수에 적용해 본 결과, 제안 시스템이 기존 연구들에서 다루어졌던 다른 비교 모형들과 비교해, 더 높은 투자 수익률을 제공함을 확인할 수 있었다.
우선 본 시스템은 성과의 향상을 위해 SVM을 도입해 적용하였는데, 이 효과를 정밀하게 검증하기 위해 로지스틱 회귀모형(LOGIT, logistic regression) 및 인공신경망(artificial neural network) 모형을 추가로 적용하여 실험해 보았다. 아울러, 이중 임계치의 효과도 검증해 보기 위하여, 로지스틱 회귀모형, 인공신경망, SVM의 각 개별 모형에 이중 임계치가 아닌 단일 임계치(0.5)를 적용하여, 매일 매일 매수/매도를 예측해 실행했을 경우의 수익률도 함께 구해 보았다. 이렇게 함으로서, (1) LOGIT+단일 임계치 모형, (2) ANN+단일 임계치 모형, (3) SVM+단일 임계치 모형, (4) LOGIT+이중 임계치 모형, (5) ANN+이중 임계치 모형, (6) SVM+이중 임계치 모형(제안 시스템)의 총 6가지 경우에 대한 실험을 모두 수행해 보고 결과를 비교하였다.
아울러, 제안 시스템의 성과를 좀 더 깊이 있게 분석하기 위해, 몇 가지 비교모형을 함께 실험해보았다. 우선 본 시스템은 성과의 향상을 위해 SVM을 도입해 적용하였는데, 이 효과를 정밀하게 검증하기 위해 로지스틱 회귀모형(LOGIT, logistic regression) 및 인공신경망(artificial neural network) 모형을 추가로 적용하여 실험해 보았다.
아울러, 제안 시스템의 성과를 좀 더 깊이 있게 분석하기 위해, 몇 가지 비교모형을 함께 실험해보았다. 우선 본 시스템은 성과의 향상을 위해 SVM을 도입해 적용하였는데, 이 효과를 정밀하게 검증하기 위해 로지스틱 회귀모형(LOGIT, logistic regression) 및 인공신경망(artificial neural network) 모형을 추가로 적용하여 실험해 보았다. 아울러, 이중 임계치의 효과도 검증해 보기 위하여, 로지스틱 회귀모형, 인공신경망, SVM의 각 개별 모형에 이중 임계치가 아닌 단일 임계치(0.
유전자 알고리즘의 각종 통제변수들과 관련해서는 본 연구에서는 탐색해야 할 공간이 그다지 크지 않은 공간임을 감안해, 모집단의 크기를 50개체로 설정하고, 교배율과 돌연변이율은 각각 50%와 10%로 설정하였다. 그리고, 종료조건으로는 총 1000회의 연산(즉, 20세대)을 시도하게끔 설정 하였다.
5)를 적용하여, 매일 매일 매수/매도를 예측해 실행했을 경우의 수익률도 함께 구해 보았다. 이렇게 함으로서, (1) LOGIT+단일 임계치 모형, (2) ANN+단일 임계치 모형, (3) SVM+단일 임계치 모형, (4) LOGIT+이중 임계치 모형, (5) ANN+이중 임계치 모형, (6) SVM+이중 임계치 모형(제안 시스템)의 총 6가지 경우에 대한 실험을 모두 수행해 보고 결과를 비교하였다.
그리고 예측모형으로는 SVM, 그 중에서도 예측결과를 0~1사이의 ‘추 정확률’ 값으로 산출할 수 있는 변형 SVM 모형을 활용한다. 이를 통해 전통적으로 많이 적용되어 온 인공신경망 모형과 비교해, 보다 안정적이면서도 우수한 예측력을 갖춘 분류모형을 구축한다.
SVM의 경우, 어떤 커널함수를 사용하는지, 그리고 커널함수에 포함되는 파라미터 값들을 어떻게 설정하는가에 따라 성과가 달라질 수 있다. 이에 본 시스템에서는 여러 경우에 대해 모두 실험을 진행해 보고, 가장 우수한 성과를 보이는 커널함수와 파라미터 값을 탐색하여, 최적의 SVM 모형을 결정할 수 있도록 하였다.
이에, 본 연구에서도 상기 매개변수들의 값을 다양하게 바꾸어가면서 실험하여, 가장 우수한 성과를 보이는 매개변수 값들을 최종적으로 선택하였다.
로지스틱 회귀모형에서 입력변수의 선정방식은 입력(enter), 전진 선택(forward selection), 후진 선택(backward selection)의 3가지 방식을 모두 실험하여 가장 우수한 성과를 보이는 방식을 채택하였다. 인공신경망에 대해서는 입력층과 출력층 사이에 은닉층을 1개 포함하는 3계층 역전파 네트워크(three layer back propagation network)를 적용하였다. 인공신경망의 학습율과 모멘텀율은 모두 0.
인공신경망에 대해서는 입력층과 출력층 사이에 은닉층을 1개 포함하는 3계층 역전파 네트워크(three layer back propagation network)를 적용하였다. 인공신경망의 학습율과 모멘텀율은 모두 0.1로 설정하였으며, 은닉층과 출력층의 노드들은 시그모이드 전이함수(sigmoid transfer function)를 사용하게끔 설계하였다. 은닉층의 노드수와 관련해서는 8, 16, 24, 32 등 4가지 경우를 모두 적용해 보았으며, 그 중에서 가장 우수한 결과를 보이는 설정을 선택하였다.
전술한 바와 같이, 본 연구의 제안 시스템은 SVM을 이용해 주가지수의 등락예측 모형을 먼저 구축하도록 설계되어 있다. 이에 확보된 지난 6년간의 KOSPI200 지수 예측과 관련한 데이터를 이용하여, SVM 모형을 먼저 학습하였다.
제안 시스템에 포함된 SVM은 선형 그리고 가우시안(Gaussian) RBF의 2가지 커널함수를 적용하여, 학습용 데이터를 기준으로 가장 우수한 성과를 보이는 커널함수를 최종적으로 선정하였다. 또한 Tay and Cao(2002), Kim(2003), 안현철 외(2005b)는 SVM의 성과를 결정짓는데 있어서, 상 한계수 C나 σ2와 같은 커널함수 내 매개변수들의 값에 대한 설정이 중대한 영향을 미칠 수 있음을 지적하였다.
첫 번째 단계로 제안 시스템은 SVM을 활용해 학습용 데이터에 대한 이분류 예측모형을 구축하게 된다.
실험을 위한 프로토타입 시스템은 MS Excel의 VBA(Visual Basic for Applications)를 이용해 구현되었다. 프로토타입 시스템은 SVM을 통해 예측값이 생성될 경우, 이를 임계치에 의해 투자의사 결정 신호로 해석하고, 이 신호에 기반해 예상 투자수익률을 계산해 낼 수 있도록 설계되었다. 추정 확률값을 산출할 수 있는 변형 SVM 모형은 LIBSVM 2.
대상 데이터
본 연구를 위해 수집된 데이터는 2004년 5월 17일부터 2009년 12월 31일까지의 약 6년치 데이터였다.3) 이 중, 전체 데이터의 약 80%를 차지하는 2004년부터 2008년까지의 데이터를 학습용으로 활용하였고, 나머지 2009년의 데이터를 검증용으로 활용하였다. 학습용 데이터의 경우, 학습의 왜곡을 막기 위해 주가지수의 상승사례와 하락사례의 비율이 서로 1 : 1이 되도록 조정되어야 한다.
본 시스템에서 고려된 입력변수들은 총 48개의 변수들이었다. 이 중 15개의 변수는 Kim(2003), 이형용(2008) 등의 연구에서 사용된 기술적 지표들이며, 나머지 33개의 변수는 20년 이상 트레이딩 시스템 분야에 종사한 전문가로부터 추천된 비가격 변수들로 구성되었다.
본 연구에서는 제안 시스템의 우수성을 검증하기 위해, KOSPI200 지수의 일별자료에 적용해 보았다. 본 연구를 위해 수집된 데이터는 2004년 5월 17일부터 2009년 12월 31일까지의 약 6년치 데이터였다.3) 이 중, 전체 데이터의 약 80%를 차지하는 2004년부터 2008년까지의 데이터를 학습용으로 활용하였고, 나머지 2009년의 데이터를 검증용으로 활용하였다.
본 연구에서는 제안 시스템의 우수성을 검증하기 위해, KOSPI200 지수의 일별자료에 적용해 보았다. 본 연구를 위해 수집된 데이터는 2004년 5월 17일부터 2009년 12월 31일까지의 약 6년치 데이터였다.
은닉층의 노드수와 관련해서는 8, 16, 24, 32 등 4가지 경우를 모두 적용해 보았으며, 그 중에서 가장 우수한 결과를 보이는 설정을 선택하였다. 아울러, 과적합화를 막기 위한 테스트용 데이터는 학습용 데이터 중 2008년 1월~12월까지의 데이터를 사용하였고, 테스트용 데이터의 오류가 최저값에 도달한 뒤 50,000회 반복해도 성과가 더 이상 개선되지 않을 경우 학습을 중지하도록 설정하였다.
1로 설정하였으며, 은닉층과 출력층의 노드들은 시그모이드 전이함수(sigmoid transfer function)를 사용하게끔 설계하였다. 은닉층의 노드수와 관련해서는 8, 16, 24, 32 등 4가지 경우를 모두 적용해 보았으며, 그 중에서 가장 우수한 결과를 보이는 설정을 선택하였다. 아울러, 과적합화를 막기 위한 테스트용 데이터는 학습용 데이터 중 2008년 1월~12월까지의 데이터를 사용하였고, 테스트용 데이터의 오류가 최저값에 도달한 뒤 50,000회 반복해도 성과가 더 이상 개선되지 않을 경우 학습을 중지하도록 설정하였다.
이 중 15개의 변수는 Kim(2003), 이형용(2008) 등의 연구에서 사용된 기술적 지표들이며, 나머지 33개의 변수는 20년 이상 트레이딩 시스템 분야에 종사한 전문가로부터 추천된 비가격 변수들로 구성되었다. 이러한 48개의 후보 변수들 중에서 KOSPI200 지수의 등락을 가장 잘 설명하는 변수들을 선정하였는데, 독립표본 t-검정 결과 유의수준 70% 이상에서 유의하면서, 전문가들이 타당하다고 추천한 변수만 추려 총 15개의 변수를 SVM의 입력변수로 최종 선정하였다. 다음의 <표 2>는 최종 선택된 15개 변수의 명칭과 의미, 산식 등을 정리하여 제시하고 있다.
이론/모형
이를 위해 본 연구에서는 Platt et al.(1999)이 제안한 방법에 기초한 변형 SVM 모형을 적용하였다. 기본적으로 이 방법은 분류기로부터 데이터가 얼마나 멀리 떨어져 있는 지를 활용하여, 해당 집단에 소속될 사후 조건부 확률(conditional posterior probability)을 추정하는 형태로 이루어져 있다.
그리고 예측모형으로는 SVM, 그 중에서도 예측결과를 0~1사이의 ‘추 정확률’ 값으로 산출할 수 있는 변형 SVM 모형을 활용한다.
본 연구에서 이중 임계치를 적용하게 될 주가지수 등락의 예측모형으로는 최근 가장 활발하게 적용되고 있는 이분류(二分類, binary classification) 모형인 Support Vector Machines 알고리즘을 적용한다. 또한 최적의 이중 임계치를 결정하기 위한 방법으로는 유전자 알고리즘을 사용한다. 본 연구에서는 이러한 제안 시스템을 실제 KOSPI200 지수에 다른 비교모형들과 함께 적용함으로서, 모형의 유용성을 실증적으로 검증해 보고자 하였다.
본 연구에서 이중 임계치를 적용하게 될 주가지수 등락의 예측모형으로는 최근 가장 활발하게 적용되고 있는 이분류(二分類, binary classification) 모형인 Support Vector Machines 알고리즘을 적용한다. 또한 최적의 이중 임계치를 결정하기 위한 방법으로는 유전자 알고리즘을 사용한다.
비교모형인 로지스틱 회귀모형은 PASW Statistics 17버전을 이용해 도출되었으며, 인공신경망 모형의 경우 Neuroshell 4.0버전을 이용해 실험하였다. 로지스틱 회귀모형에서 입력변수의 선정방식은 입력(enter), 전진 선택(forward selection), 후진 선택(backward selection)의 3가지 방식을 모두 실험하여 가장 우수한 성과를 보이는 방식을 채택하였다.
아울러, 본 연구에서는 유전자 알고리즘을 위한 적합도 함수로서 모형구축용 데이터셋에 대한 수익률을 활용하였다. 이 때 수익률은 다음과 같이 계산된다.
전술한 바와 같이, 본 연구의 제안 시스템은 SVM을 이용해 주가지수의 등락예측 모형을 먼저 구축하도록 설계되어 있다. 이에 확보된 지난 6년간의 KOSPI200 지수 예측과 관련한 데이터를 이용하여, SVM 모형을 먼저 학습하였다. 다음의 <표 3>은 다양한 조건 하에서 수행된 SVM 모형의 학습결과를 나타내고 있다.
프로토타입 시스템은 SVM을 통해 예측값이 생성될 경우, 이를 임계치에 의해 투자의사 결정 신호로 해석하고, 이 신호에 기반해 예상 투자수익률을 계산해 낼 수 있도록 설계되었다. 추정 확률값을 산출할 수 있는 변형 SVM 모형은 LIBSVM 2.91버전을 이용해 구축되었으며(Chang and Lin, 2001), 이중 임계치를 최적화하기 위한 유전자 알고리즘은 상용 소프트웨어인 Evolver 4.08버전을 이용해 구현되었다.
성능/효과
SVM에 기반한 모형의 경우, 유전자 알고리즘을 이용한 이중 임계치를 적용하지 않고 단일 임계치로 등락을 판단해 매매를 할 경우에도 약 47%에 가까운 높은 수익을 거둘 수는 있으나, 이 경우에는 상당히 자주(46회) 매매를 해야 한다는 한계가 있다. 그에 비해 제안 시스템은 절반 정도의 횟수(27회)로만 매매를 하고도, 더 높은 수익을 거둘 수 있다는 점에서 전반적으로 가장 우수한 성능의 모형이라는 점을 확인할 수 있다.
0버전을 이용해 실험하였다. 로지스틱 회귀모형에서 입력변수의 선정방식은 입력(enter), 전진 선택(forward selection), 후진 선택(backward selection)의 3가지 방식을 모두 실험하여 가장 우수한 성과를 보이는 방식을 채택하였다. 인공신경망에 대해서는 입력층과 출력층 사이에 은닉층을 1개 포함하는 3계층 역전파 네트워크(three layer back propagation network)를 적용하였다.
마지막으로 본 연구는 트레이딩 시스템에 있어 ‘비가격 변수’들이 시장의 흐름을 예측하는데 상당히 유용한 정보가 될 수 있다는 점을 시사한다.
<표 5>에서 볼 수 있듯이, SVM과 유전자 알고리즘을 결합한 본 연구의 제안 시스템은 다른 비교 모형들에 비해 훨씬 더 우수한 성과를 보이고 있음을 알 수 있다. 본 연구의 제안 시스템을 활용해 2004년 5월부터 2008년 12월까지의 패턴을 학습하고, 이를 2009년 한 해 동안의 실제 매매에 적용할 경우, 약 48.21%의 수익을 거둘 수 있는 것으로 나타났다. SVM에 기반한 모형의 경우, 유전자 알고리즘을 이용한 이중 임계치를 적용하지 않고 단일 임계치로 등락을 판단해 매매를 할 경우에도 약 47%에 가까운 높은 수익을 거둘 수는 있으나, 이 경우에는 상당히 자주(46회) 매매를 해야 한다는 한계가 있다.
마지막으로 본 연구는 트레이딩 시스템에 있어 ‘비가격 변수’들이 시장의 흐름을 예측하는데 상당히 유용한 정보가 될 수 있다는 점을 시사한다. 비슷한 조건에서 이루어진 기존 연구와의 비교를 통해, KOSPI200 지수의 등락을 예측하는데 가격 기반의 기술적 지표만 사용하는 것 보다는 비가격 지표들을 함께 활용해 예측을 하는 것이 보다 더 정확한 예측을 가능케 함을 확인할 수 있었다. 이는 상당히 많은 주식시장 예측과 관련한 연구들이 기술적 지표만을 입력변수로 활용하고 있는 점을 고려할 때, 매우 의미 있는 발견이라고 할 수 있다.
예측모형에 임계치까지 적용한 본 연구의 최종 실험결과는 다음의 <표 5>에 제시되어 있다. <표 5>에서 볼 수 있듯이, SVM과 유전자 알고리즘을 결합한 본 연구의 제안 시스템은 다른 비교 모형들에 비해 훨씬 더 우수한 성과를 보이고 있음을 알 수 있다. 본 연구의 제안 시스템을 활용해 2004년 5월부터 2008년 12월까지의 패턴을 학습하고, 이를 2009년 한 해 동안의 실제 매매에 적용할 경우, 약 48.
둘째로 본 연구는 ‘이중 임계치’ 방법이 매매 수익률 극대화를 목표로 하는 트레이딩 시스템에 상당히 유용하게 활용될 수 있음을 시사하고 있다. 우리는 본 연구에서 유전자 알고리즘을 통해 이중 임계치를 최적화 할 경우, 로지스틱 회귀모형을 제외한 나머지 두 모형에서 모두 단일 임계치를 매매에 적용할 때에 비해 더 적은 거래횟수로도 더 높은 수익을 창출하는 것이 가능함을 확인할 수 있다. 이런 점으로 미루어 볼 때, 앞으로 이중 임계치 방법은 향후 다른 매매 최적화와 관련된 연구에서도 유용하게 적용될 수 있을 것으로 기대된다.
본 연구의 의의 혹은 시사점은 크게 다음의 3가지 정도로 요약될 수 있다. 우선 첫째, 본 연구는 복잡다단한 주식시장의 등락을 예측하는데 있어, 다른 이분류 모형에 비해 SVM 모형이 훨씬 우수함을 실증적으로 증명하고 있다. 오랜 시간 동안 국내외를 막론하고 주식시장의 흐름을 예측하기 위한 도구로는 주로 인공신경망 모형이 활용되어 왔는데, 본 연구는 앞으로 SVM에 대해 관련 연구자들이 더 많이 관심을 가질 필요가 있다는 점을 시사한다.
그 결과가 다음의 <표 4>에 제시되어 있다. 이 결과를 통해 SVM이 비교모형인 로지스틱 회귀모형이나 인공신경망과 비교해 월등히 높은 예측 정확도를 나타내고 있음을 확인할 수 있다.
= 100을 적용한 경우였다. 이 경우 학습용 데이터에 대해 61.98%의 예측정확도를 보이면서, 검증용 데이터에 대해서도 56.92%의 높은 예측정확도를 보이는 것으로 나타났다. 이는 KOSPI200 주가지수 등락 예측에 SVM을 적용한 안현철 외(2009)의 연구와 비교해 볼때, 월등히 예측성과가 높아진 것이다.
예측방법으로 가장 많이 활용된 기법은 인공신경망이었다. 전체 분석대상의 90% 이상이 인공신경망 혹은 인공신경망의 변형모형을 사용한 것으로 나타났다. 반면 인공신경망보다 더 진보된 방법론으로 알려진 SVM의 경우, 전체 분석대상 중 단 한 편만 주식시장 예측에 적용한 것으로 나타났다.
본 연구의 제안 시스템은 다른 분류 모형들에 비해 효율적이면서도 예측 정확도가 높은 것으로 보고되고 있는 SVM을 기반으로, 유전자 알고리즘에 의해 최적화 된 이중 임계치를 통해 매수, 매도 혹은 보류와 같은 매매 의사결정을 스스로 내릴 수 있도록 설계되었다. 제안 시스템의 유용성을 약 6년 여간 축적된 KOSPI 200 지수에 적용해 본 결과, 제안 시스템이 기존 연구들에서 다루어졌던 다른 비교 모형들과 비교해, 더 높은 투자 수익률을 제공함을 확인할 수 있었다.
다음의 <표 2>는 최종 선택된 15개 변수의 명칭과 의미, 산식 등을 정리하여 제시하고 있다. 표에서 볼 수 있듯이, 최종 선택된 15개의 변수 중 단 4개만이 기존 연구에서 적용되어 온 기술적 지표임을 확인할 수 있다. 이를 통해 학술연구에서 지금까지 많이 활용되지 못했던 비가격 지표들이 시장을 예측하는데 있어 상당히 중요한 역할을 할 수 있음을 미루어 짐작할 수 있다.
후속연구
우선 Núñez-Letamendia(2007)는 유전자 알고리즘을 이용하여 기술적 트레이딩 시스템을 최적화하였다. 그러나 입력변수로는 기술적 지표 중 가장 잘 알려진 두 이동평균선의 교차만을 사용하고 있고, 적합함수(fitness function)로 비록 누적수익률함수를 사용하고 있지만, 연구의 주목적이 최적의 기술적 규칙을 찾기보다는 통제 파라미터 값에 대한 유전자 알고리즘의 강인성 검정(robustness test)에 초점이 맞추어져 있다는 한계가 있다. 또한, 이 연구에서 제안된 시스템은 매일매일 매수 또는 매도신호를 발생하도록 설계되어 있다.
끝으로 현재 연구에서는 SVM의 단일 모형만 다루고 있는데, 보다 나은 성과의 개선을 위해 향후 연구에서는 모형 간 결합을 시도해 볼 수 있다. 옥중경과 김경재(2009)의 최근 연구에 따르면, 분류모형의 경우 각 기법마다 각각의 장단점이 있어 서로 상호 보완적인 관계에 있기 때문에, 단일 기법을 사용하는 것보다 다수의 기법을 동시에 결합해 사용하는 것이 성과를 개선하는데 도움이 될 수 있다.
둘째로 본 연구는 ‘이중 임계치’ 방법이 매매 수익률 극대화를 목표로 하는 트레이딩 시스템에 상당히 유용하게 활용될 수 있음을 시사하고 있다.
하지만, 주가 정보와 같은 시계열 정보에 이러한 인위적인 표본 추출 과정을 적용할 경우, 시계열 패턴이 명확하게 반영되지 않을 위험이 존재할 수 있다. 때문에 학습의 왜곡도 방지하면서, 시계열 패턴도 그대로 반영할 수 있는 현명한 학습 알고리즘에 대한 깊이 있는 연구가 향후 수반되어야 할 것으로 보인다.
우선 실제 매매에서는 거래비용이 발생함에도 불구하고, 본 연구에서는 거래비용이 없다고 가정하고 실험을 수행하고 있다는 점을 들 수 있다. 물론 거래비용에 대한 추정의 어려움은 있겠지만, 향후 연구에서는 직/간접적인 거래비용까지 반영해서 제안 시스템의 성능을 보다 정밀하게 측정하는 노력이 수반되어야 할 것이다.
세 번째 본 연구의 또 다른 한계점으로 학습용 데이터에 적용된 ‘무작위 추출’을 통한 지수 상승 및 하락 사례의 균형화가 시계열 정보를 왜곡할 가능성이 있다는 점을 지적할 수 있다.
우선 첫째, 본 연구는 복잡다단한 주식시장의 등락을 예측하는데 있어, 다른 이분류 모형에 비해 SVM 모형이 훨씬 우수함을 실증적으로 증명하고 있다. 오랜 시간 동안 국내외를 막론하고 주식시장의 흐름을 예측하기 위한 도구로는 주로 인공신경망 모형이 활용되어 왔는데, 본 연구는 앞으로 SVM에 대해 관련 연구자들이 더 많이 관심을 가질 필요가 있다는 점을 시사한다.
옥중경과 김경재(2009)의 최근 연구에 따르면, 분류모형의 경우 각 기법마다 각각의 장단점이 있어 서로 상호 보완적인 관계에 있기 때문에, 단일 기법을 사용하는 것보다 다수의 기법을 동시에 결합해 사용하는 것이 성과를 개선하는데 도움이 될 수 있다. 이러한 아이디어를 반영한다면, 본 연구에서 제안된 트레이딩 시스템 보다 매매 수익률을 더 높일 수 있는 트레이딩 시스템의 개발도 가능할 것으로 예상된다.
우리는 본 연구에서 유전자 알고리즘을 통해 이중 임계치를 최적화 할 경우, 로지스틱 회귀모형을 제외한 나머지 두 모형에서 모두 단일 임계치를 매매에 적용할 때에 비해 더 적은 거래횟수로도 더 높은 수익을 창출하는 것이 가능함을 확인할 수 있다. 이런 점으로 미루어 볼 때, 앞으로 이중 임계치 방법은 향후 다른 매매 최적화와 관련된 연구에서도 유용하게 적용될 수 있을 것으로 기대된다.
현재 연구에서는 2009년 한 해 동안의 KOSPI200 지수를 검증용 데이터로 활용하고 있는데, 1년이라는 기간은 시스템의 성능을 검증하기에 충분하지 않으며, 2009년이라는 시점 자체가 2008년 말 갑작스레 터진 글로벌 금융위기가 극복되면서 상당히 빠르게 주식시장이 오른 다소 특별한 시기였다는 점을 감안할 때 검증 기간을 더 확대할 필요가 있다고 할 수 있다. 향후 연구에서 이런 부분이 더 보완되어야 할 것이다.
둘째로 검증용 데이터가 좀 더 확보될 필요가 있다는 점을 지적할 수 있다. 현재 연구에서는 2009년 한 해 동안의 KOSPI200 지수를 검증용 데이터로 활용하고 있는데, 1년이라는 기간은 시스템의 성능을 검증하기에 충분하지 않으며, 2009년이라는 시점 자체가 2008년 말 갑작스레 터진 글로벌 금융위기가 극복되면서 상당히 빠르게 주식시장이 오른 다소 특별한 시기였다는 점을 감안할 때 검증 기간을 더 확대할 필요가 있다고 할 수 있다. 향후 연구에서 이런 부분이 더 보완되어야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
Support Vector Machines은 무엇인가?
Support Vector Machines(이하 SVM)은 1995년 러시아의 통계학자인 Vapnik이 처음 제안한 분류기법으로, 인공신경망과 마찬가지로 복잡한 비선형 관계를 갖는 이분류 문제를 해결하는데 적합한 분류 기법이다. 복잡한 분류문제에서 상당히 우수한 예측 정확도를 보인다는 점은 인공신경망과 동일하나, SVM은 상대적으로 여러 측면에서 장점을 갖고 있다.
주가예측을 위한 입력변수로 기본적 분석은 어떤 방법인가?
주가예측을 위한 입력변수로는 기본적 분석(fundamental analysis), 기술적 분석(technical analysis) 등이 주로 이용되고 있다. 전자는 기업의 부채비율, 배당률, PER(Price/Earnings Ratio), 경제성장율, 금리, 환율 등 주가에 영향을 미치는 경제변수를 입력변수로 이용하려는 접근방법이고 기술적 지표는 과거의 주가나 거래량 자료를 이용하여 변환과정을 거쳐 이동평균(moving average), 스토캐스틱(stochastic), MACD(Moving Average Convergence and Divergence), 모멘텀(momentum) 등으로 변환된 지표이다. 기본적 분석은 주가를 결정하는 본질적 정보를 이용하는 분석방법이나 경제변수들은 주가에 장기적 영향을 미치고 있기 때문에 단기적 거래를 지향하는 트레이딩 시스템에서는 활용하기에 어려움이 있다.
트레이딩 시스템의 장점은 무엇인가?
구체적으로는 과거의 주가자료를 분석해 최적의 수익을 제공하는 포지션 진입규칙(position entry rule)과 청산규칙(position exit rule)을 말한다. 트레이딩 시스템은 전통적 매매방법에 비해 계량화(quantifiablity), 검증성(verifiability), 객관성(objectivity), 일관성(consistency), 자동화(automation)의 장점을 가지고 있기 때문에 실제 투자에서도 중요도가 점점 커지고 있다.
참고문헌 (38)
안현철, 김경재, 한인구, "효과적인 고객관계관리를 위한 사례기반추론 동시 최적화 모형", 한국지능정보시스템학회논문지, 11권 2호(2005a), 175-195.
홍승현, 신경식, "유전자알고리즘을 활용한 인공신경망모형 최적입력변수의 선정 : 부도예측모형을 중심", 한국지능정보시스템학회논문지, 9권 1호(2003), 227-247.
홍태호, 신택수, "Using Estimated Probability from Support Vector Machines for Credit Rating in IT Industry", 한국지능정보시스템학회-웹코리아포럼 2005 공동추계정기학술대회, 509-515, 2005.
Ahn, H., K. j. Kim and I. Han, "Determining the optimal number of cases to combine in an effective case based reasoning systemusing genetic algorithms", Proceedings of International Conference of Korea Intelligent Information Systems Society 2003 (ICKI-ISS2003), 178-184, 2003.
Ahn, H., C. Song, J. J. Ahn, H. Y. Lee, T. Y. Kim, and K. J. Oh, "Using Hybrid Data Mining Techniques for Facilitating Crossselling of a Mobile Telecom Market to Develop Customer Classification Model", The 43th Hawaii International Conference on System Sciences(HICSS-43), Hawaii, USA, 2010.
Alexander, S. S., "Price movements in speculative markets : trends or random walks", Industrial Management Review, Vol.2, No.2(1961), 7-26.
Atiya, A., N. Talaat and S. Shaheen, "An efficient stock market forecasting model using neural networks", Proceedings of the IEEE International Conference on Neural Networks, 2112-2115, 1997.
Atsalakis G. S. and K. P. Valavanis, "Surveying stock market forecasting techniques?Part II: Soft computing methods", Expert Systems with Applications, Vol.36, No.3(2009a), 5932-5941.
Atsalakis G. S. and K. P. Valavanis, "Forecasting stock market short term trends using a neuro fuzzy based methodology", Expert Systems with Applications, Vol.36, No.7(2009b), 10696-10707.
Bao, D. and Z.Yang, "Intelligent stock trading system by turning point confirming and probabilistic reasoning", Expert Systems with Applications, Vol.34, No.1(2008), 620-627.
Caporale, G. M. and U. N. Pittis, "Cointegration and predictability of asset prices", Journal of International Money and Finance, Vol.17, No.3(1998), 441-453.
Chang, C.-C. and C.-J. Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
Chavarnakul T. and D. Enke, "A hybrid stock trading system for intelligent technical analysis based equivolume charting", Neurocomputing, Vol.72, No.16-18(2009), 3517-3528.
Casas C. A., "Tactical asset allocation : An artificial neural network based model", Proceedings of the International Joint Conference on Neural Networks, 1811-1816, 2001.
Elton, E. J. and M. J. Gruber, Modern Portfolio Theory and Investment Analysis, Wiley, 1984.
Fama, E. F., "The Behavior of Stock Market Prices", Journal of Business, Vol. XXXVIII(1965), 34-105.
Granger C., "Some Properties of Time Series Data and Their Use in Econometric Model Specification", Journal of Econometrics, Vol.16, No.1(1981), 121-130.
Kim, K. j. and I. Han, "Application of a hybrid genetic algorithm and neural network approach in activity based costing", Expert Systems with Applications, Vol.24, No.1 (2003), 73-77.
Kim, K.-j. and W. B. Lee, "Stock market prediction using artificial neural networks with optimal feature transformation", Neural Computing and Applications, Vol.13, No.3 (2004), 255-260.
McNelis, P. D., Neural Networks in Finance: Gaining the Predictive Edge in the Market, Elsevier Academic Press, 2005.
Nunez-Letamendia, L., "Fitting the control parameters of a genetic algorithm : An application to technical trading systems design", European Journal of Operational Research, Vol.179, No.3(2007), 847-868.
Olson, D. and C. Mossman, "Neural network forecasts of Canadian stock returns using accounting ratios", International Journal of Forecasting, Vol.19, No.3(2003), 453-465.
Platt, J., "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods", In A. J. Smola, P.L. Bartlett, B. Scholkopf, and D. Schuurmans, editors, Advances in Large Margin Classifiers, Cambridge, MA, 2000. MIT Press.
Schulmeister, S., "Profitability of technical stock trading : Has it moved from daily to intraday data?", Review of Financial Economics, Vol.18, No.4(2009), 190-201.
Schwager, J. D., The New Market Wizards : Conversations with America's Top Traders, Harper Business, 1992.
Sollich, P., "Bayesian Methods for Support Vector Machines : Evidence and Predictive Class Probabilities", Machine Learning, Vol.46, No.1-3(2002), 21-52.
Sullivan R., Timmermann A., and H. White, "Data snooping, technical trading rule performance, and the bootstrap", The Journal of Finance, Vol.LIV(1999), 1647-1691.
Tay, F. E. J. and L. J. Cao, "Modified support vector machines in financial time series forecasting", Neurocomputing, Vol.48, No.1-4(2002), 847-861.
Yudong, Z. and W. Lenan, "Stock market prediction of S&P 500 via combination of improved BCO approach and BP neural network", Expert Systems with Applications, Vol.36, No.5(2009), 8849-8854.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.