[논문]재무예측을 위한 Support Vector Machine의 최적화

김경재; 안현철

doi:10.13088/jiis.2011.17.4.241

재무예측을 위한 Support Vector Machine의 최적화
Optimization of Support Vector Machines for Financial Forecasting 원문보기

지능정보연구 = Journal of intelligence and information systems, v.17 no.4, 2011년, pp.241 - 254

김경재 (동국대학교_서울 경영정보학과) , 안현철 (국민대학교 경영정보학부)

초록
AI-Helper

Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.

Abstract ▼ AI-Helper

Financial time-series forecasting is one of the most important issues because it is essential for the risk management of financial institutions. Therefore, researchers have tried to forecast financial time-series using various data mining techniques such as regression, artificial neural networks, decision trees, k-nearest neighbor etc. Recently, support vector machines (SVMs) are popularly applied to this research area because they have advantages that they don't require huge training data and have low possibility of overfitting. However, a user must determine several design factors by heuristics in order to use SVM. For example, the selection of appropriate kernel function and its parameters and proper feature subset selection are major design factors of SVM. Other than these factors, the proper selection of instance subset may also improve the forecasting performance of SVM by eliminating irrelevant and distorting training instances. Nonetheless, there have been few studies that have applied instance selection to SVM, especially in the domain of stock market prediction. Instance selection tries to choose proper instance subsets from original training data. It may be considered as a method of knowledge refinement and it maintains the instance-base. This study proposes the novel instance selection algorithm for SVMs. The proposed technique in this study uses genetic algorithm (GA) to optimize instance selection process with parameter optimization simultaneously. We call the model as ISVM (SVM with Instance selection) in this study. Experiments on stock market data are implemented using ISVM. In this study, the GA searches for optimal or near-optimal values of kernel parameters and relevant instances for SVMs. This study needs two sets of parameters in chromosomes in GA setting : The codes for kernel parameters and for instance selection. For the controlling parameters of the GA search, the population size is set at 50 organisms and the value of the crossover rate is set at 0.7 while the mutation rate is 0.1. As the stopping condition, 50 generations are permitted. The application data used in this study consists of technical indicators and the direction of change in the daily Korea stock price index (KOSPI). The total number of samples is 2218 trading days. We separate the whole data into three subsets as training, test, hold-out data set. The number of data in each subset is 1056, 581, 581 respectively. This study compares ISVM to several comparative models including logistic regression (logit), backpropagation neural networks (ANN), nearest neighbor (1-NN), conventional SVM (SVM) and SVM with the optimized parameters (PSVM). In especial, PSVM uses optimized kernel parameters by the genetic algorithm. The experimental results show that ISVM outperforms 1-NN by 15.32%, ANN by 6.89%, Logit and SVM by 5.34%, and PSVM by 4.82% for the holdout data. For ISVM, only 556 data from 1056 original training data are used to produce the result. In addition, the two-sample test for proportions is used to examine whether ISVM significantly outperforms other comparative models. The results indicate that ISVM outperforms ANN and 1-NN at the 1% statistical significance level. In addition, ISVM performs better than Logit, SVM and PSVM at the 5% statistical significance level.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 SVM에 유전자 알고리즘을 적용하기 위하여 전체 실험자료에 대해 각각 분석에서의 사용여부를 나타내는 코드를 부여하고 이를 조합하여 모집단 염색체를 구성한 다음, 유전자 알고리즘 고유의 연산과정인 교배, 선택, 돌연변이 조작과 이에 따른 산출물인 적합도 평가를 하게 된다. 즉, 전체 원자료 중에서 여러 조합을 이용하여 SVM에서 사용될 실험 데이터를 선택적으로 재구성하고, 이 중에서 적합도 함수의 평가결과가 가장 우수한 자료의 집합을 최종적으로 선택하여 사례 선택을 하는 방식이다.
본 연구에서는 사례기반추론이나 인공신경망에서의 사례선택에 성공적으로 이용된 유전자 알고리즘 기반의 사례선택기법을 활용하여 예측성능이 매우 우수한 것으로 알려져 최근 많은 연구에서 이용되고 있는 SVM에 적용하고자 한다. 이는 Reeves and Taylor(1998), Reeves and Bush(2001), Kim(2006)의 연구에서 제안된 방법을 SVM에 응용하는 것이라 할 수 있다.
본 연구에서는 예측정확도 제고라는 목적을 가지고 있으므로 Wrapper model을 이용한 전처리를 통하여 양이 많고 잡음이 심한 주식시장 데이터에서의 예측을 위한 새로운 방법을 제안한다. 제안하는 방법은 데이터마이닝을 이용한 분석과정에서 예측정확도를 보다 제고할 수 있도록 분석에 사용될 데이터를 선택적으로 활용하는 방법이다.
본 연구에서는 유전자 알고리즘에 기반한 사례 선택기법이라는 새로운 데이터마이닝 기법을 전통적인 데이터마이닝 기법인 SVM에 결합한 새로운 SVM 기법을 제안하였다. 본 연구에서 제안한 모형은 유전자 알고리즘을 활용하여 일반적인 SVM 모형의 예측성과를 제고할 수 있는 학습용 데이터를 선택적으로 활용함으로써 예측성과를 저하시키는 데이터들을 사전적으로 데이터 집합으로부터 제거할 수 있으며 이를 통하여 예측의 효율성과 효과성을 제고할 수 있었다.
본 연구에서의 유전자 알고리즘 수행 목적은 주식시장의 미래 방향을 예측하는 데에 유용하며 SVM 내에서 활용할 학습용 자료의 집합을 선택하는 것이다. 예측에 사용할 전체 데이터는 매우 많으며, 이들 데이터를 모두 SVM 분석과정에 사용한다면 소요되는 분석시간도 많이 필요하고, 불필요하거나 중복된 데이터 또는 잡음이 심한 데이터로 인해 효과적이지 못한 분석결과를 제시할 가능성이 높다.
최근에는 경영학 분야에 SVM을 응용하고자 하는 연구들이 많이 진행되고 있는데 특히, 재무분야에 적용한 연구로는 주로 시계열 예측 및 분류에 관한 것이었다(Tay and Cao, 2001, Kim, 2003, 안현철 등, 2006, 안현철, 김경재, 2009). 이 연구들에서는 전형적인 SVM 모형의 재무예측에의 유용성을 평가하거나, 채권평가의 분야에서 일반적인 이분류 SVM을 대체하는 다분류 SVM의 여러 모형들의 예측가능성을 검증한 것이었다. 그러나 선행연구에서는 대부분 일반적인 SVM 알고리즘에 대한 수정 없이 응용분야에 맞는 SVM의 모수 결정이나 기존 데이터마이닝 기법과의 성능 비교에 치중하였다.
본 연구에서 제안하는 유전자 알고리즘에 기반한 사례선택 기법은 일반적인 사례선택 기법을 이용한 선행연구에서와 같이 대용량 데이터를 이용하면서도 정확한 의사결정지원을 할 수 있도록 설계되어야 한다. 이러한 목표는 분석에 사용되는 데이터마이닝 기법의 목적함수와 유전자 알고리즘의 적합도함수를 일치시키고 유전자 알고리즘이 적합도함수를 최적화하기 위해 탐색할 공간을 전체 원데이터로 설정함으로써 구현할 수 있다.

가설 설정

이 검정에서, i = 1, …, n이고 j = 2, …, m일 때, 귀무가설은 H0：pi-pj =0이고, 대립 가설은 Ha：pi-pj > 0이다.

제안 방법

본 연구에서는 모형에 따라 최적화 과정이 필요한 경우에는 최적화용 데이터셋을 따로 두고, 최적화를 필요로 하지 않는 경우에는 따로 두지 않았다. 각 데이터셋 별 표본의 숫자는 학습용 1,056개, 최적화용 581개, 검증용 581개로 구성되며, 본 연구에서 제안하는 모형에서는 초기에 1,056개의 학습용 데이터를 모두 이용하여 사례선택을 한 후 이 중 선택된 데이터만을 이용하여 SVM을 구축하게 된다.
본 연구에는 전통적인 전처리과정은 물론이고, 새롭게 제안하는 wrapper model에 의한 사례선택기법을 활용하여 전통적인 데이터마이닝 기법과 융합한 모형을 제안한다. 기존의 여러 연구들에서는 인공신경망, 사례기반선택 등에 사례선택기법이 결합되어 사용된 적이 있으나, 본 연구에서는 SVM에 사례선택기법을 결합한 새로운 분석모형을 제안한다.
본 연구에서도 유의한 변수선정을 위한 변수군 선택과정이 본 모형에 추가된다면 더 우수한 예측성과를 가져올 수 있을 것으로 생각되며, 이는 향후 연구과제로 제안한다. 둘째, 본 연구에는 제안한 모형의 응용가능성을 재무분야의 주가지수 예측 문제에 응용하여 확인하였다. 향후 연구에서는 다른 특성을 가진 마케팅이나 생산 분야의 데이터에 응용하여 본 연구에서 제안하는 모형의 유용성을 확인하여 그 일반화 가능성을 높일 수 있을 것이다.
본 연구에서는 SVM과 유전자 알고리즘 실험을 위해 Java platform 기반으로 개발된 유전자 알고리즘과 SVM 결합모형을 이용한다. 본 실험에서 SVM 실험은 SVM 공개 소프트웨어인 LIBSVM(Chang and Lin, 2001)을 사용하고, 유전자 알고리즘을 SVM 코드에 결합하여 개발된다. 본 연구에서 사용될 유전자 알고리즘의 모수는 50개의 표본과 0.
데이터마이닝 연구에서는 이러한 방법을 “사례선택기법(instance selection technique)”이라고 한다. 본 연구에는 전통적인 전처리과정은 물론이고, 새롭게 제안하는 wrapper model에 의한 사례선택기법을 활용하여 전통적인 데이터마이닝 기법과 융합한 모형을 제안한다. 기존의 여러 연구들에서는 인공신경망, 사례기반선택 등에 사례선택기법이 결합되어 사용된 적이 있으나, 본 연구에서는 SVM에 사례선택기법을 결합한 새로운 분석모형을 제안한다.
본 연구에서 제안하는 모형은 SVM과 유전자 알고리즘(genetic algorithm, GA)을 이용한 최적화 과정을 통하여 구축되게 되므로 최적화에 따른 과도적합문제를 최소화하기 위해 모형구축을 위한 학습용 데이터셋, 최적화용 데이터셋, 검증용 데이터셋의 세 가지 데이터 집합으로 구성한다. 일반적으로 학습용 데이터셋은 모형구축을 위한 파라미터 추정에 사용되고, 최적화용 데이터셋은 최적화 모형에서의 과도적합문제를 통제하기 위한 목적으로 사용된다.
본 연구에서 제안하는 유전자 알고리즘에 기반한 사례선택 기법은 일반적인 사례선택 기법을 이용한 선행연구에서와 같이 대용량 데이터를 이용하면서도 정확한 의사결정지원을 할 수 있도록 설계되어야 한다. 이러한 목표는 분석에 사용되는 데이터마이닝 기법의 목적함수와 유전자 알고리즘의 적합도함수를 일치시키고 유전자 알고리즘이 적합도함수를 최적화하기 위해 탐색할 공간을 전체 원데이터로 설정함으로써 구현할 수 있다.
그리고 구축된 모형의 일반화 정도를 측정하기 위해 모형 구축과정에는 활용되지 않는 데이터 집합이 검증용 데이터셋이다. 본 연구에서는 모형에 따라 최적화 과정이 필요한 경우에는 최적화용 데이터셋을 따로 두고, 최적화를 필요로 하지 않는 경우에는 따로 두지 않았다. 각 데이터셋 별 표본의 숫자는 학습용 1,056개, 최적화용 581개, 검증용 581개로 구성되며, 본 연구에서 제안하는 모형에서는 초기에 1,056개의 학습용 데이터를 모두 이용하여 사례선택을 한 후 이 중 선택된 데이터만을 이용하여 SVM을 구축하게 된다.
본 연구에서는 전통적인 SVM을 이용하며, SVM의 목적함수를 유전자 알고리즘의 적합도 함수로 설정한 후, 유전자 알고리즘이 탐색할 공간을 전체 데이터 집합으로 정의한다. 본 연구에서 사용하는 SVM의 목적함수는 한국 주식시장의 익일 방향성에 대한 예측 정확성인데, 일반적으로 익일 방향성은 당일의 주가지수의 종가 대비 익일의 주가지수 종가의 상향 또는 하향 여부를 분류하는 것이므로, 실질적으로는 분류정확도(classification accuracy)를 의미한다.
본 연구에서는 제안하는 모형의 유용성을 확인하기 위하여 전통적인 SVM(SVM), 모수 최적화 SVM(PSVM), 인공신경망(ANN), 사례기반추론(1-NN), 로지스틱 회귀분석(Logit)의 결과를 비교하였다. <표 2>는 각각의 여섯 모형에서 가장 좋은 예측성능을 나타내었을 때의 성과들을 정리한 것이다.
본 연구에서는 예측정확도 제고라는 목적을 가지고 있으므로 Wrapper model을 이용한 전처리를 통하여 양이 많고 잡음이 심한 주식시장 데이터에서의 예측을 위한 새로운 방법을 제안한다. 제안하는 방법은 데이터마이닝을 이용한 분석과정에서 예측정확도를 보다 제고할 수 있도록 분석에 사용될 데이터를 선택적으로 활용하는 방법이다. 데이터마이닝 연구에서는 이러한 방법을 “사례선택기법(instance selection technique)”이라고 한다.

대상 데이터

본 연구에서 사용된 데이터는 선행연구에서 활용된 데이터로서, 일반적으로 주가지수 예측에 많이 이용되는 기술적 지표들을 입력변수로 선정하였다. 본 연구에서 이용된 기술적 지표는 주가지수 예측 관련 선행연구에서 사용된 지표 중에서 한국 주식시장의 특성을 반영하기 위하여 국내 투자전문기업에서 5인의 투자전문가들을 선정한 후, 이들의 검토를 거친 후 선정하였다.
본 실험에서 SVM 실험은 SVM 공개 소프트웨어인 LIBSVM(Chang and Lin, 2001)을 사용하고, 유전자 알고리즘을 SVM 코드에 결합하여 개발된다. 본 연구에서 사용될 유전자 알고리즘의 모수는 50개의 표본과 0.7의 교배비율, 0.1의 돌연변이비율을 기본으로 한다. 유전자 알고리즘 실험의 정지조건은 50세대로 한다.
따라서 본 연구에서 제안하는 모형의 성능을 평가하는 데에 유용한 데이터로 판단된다. 본 연구에서 사용하는 데이터는 Ahn and Kim(2008)에서 데이터마이닝 기법의 성능을 확인하기 위해 사용한 데이터이며, 1989년부터 1998년까지의 한국종합주가지수의 일별 종가자료이다. 실험에 사용된 총 표본의 크기는 2,218개이다.
본 연구에서 사용된 데이터는 선행연구에서 활용된 데이터로서, 일반적으로 주가지수 예측에 많이 이용되는 기술적 지표들을 입력변수로 선정하였다. 본 연구에서 이용된 기술적 지표는 주가지수 예측 관련 선행연구에서 사용된 지표 중에서 한국 주식시장의 특성을 반영하기 위하여 국내 투자전문기업에서 5인의 투자전문가들을 선정한 후, 이들의 검토를 거친 후 선정하였다. 이러한 방식을 사용한 이유는 기술적 지표가 대부분 과거 주가지수를 토대로 생성되기에 종속변수와의 관련성을 기반으로 통계적인 유의성을 통해 유용한 독립변수를 선정하는 것에 한계가 있기 때문이다.
본 연구에서 사용하는 데이터는 Ahn and Kim(2008)에서 데이터마이닝 기법의 성능을 확인하기 위해 사용한 데이터이며, 1989년부터 1998년까지의 한국종합주가지수의 일별 종가자료이다. 실험에 사용된 총 표본의 크기는 2,218개이다.
1의 돌연변이비율을 기본으로 한다. 유전자 알고리즘 실험의 정지조건은 50세대로 한다.

데이터처리

본 연구에서는 제안하는 연구모형의 유용성을 확인하기 위하여 전통적인 방식의 SVM(본 연구에서는 ‘SVM’으로 표기), 유전자 알고리즘을 SVM의 모수 최적화에 사용한 SVM(SVM with optimized parameters; PSVM), 데이터마이닝 기법 중 예측 연구에 가장 많이 활용되어 온 오류역전파 인공신경망 모형(ANN)과 사례기반추론 모형 중 하나의 근접이웃만을 고려하는 기본모형(1-NN), 통계적인 기법 중에서 예측 연구에 가장 많이 사용되고 있는 로지스틱 회귀분석(Logit)의 성과를 비교한다.
<표 3>에서는 제안한 모형과 비교대상 모형들의 예측력 차이의 통계적 유의성을 검토하기 위하여 비율에 대한 이표본 검정(two-sample test for proportions)을 실시하였다. 이 검정을 통해, 두 개의 대응 표본에 대한 두 비율(본 연구에서는 예측 정확도)의 차이가 유의한지를 확인할 수 있다(Harnett and Soni, 1991).

이론/모형

실제로 두 가지 함수를 모두 사용하여 여러 모수들을 적용하여 실험하는 일은 매우 많은 실험시간을 요한다. 따라서 본 연구에서는 전통적인 SVM 구축을 위해 가우시안 RBF 함수를 사용한다. 한편, 최적의 모수를 찾는 데에도 많은 실험을 요하는데, 본 연구에서는 Tay and Cao(2001)와 Kim(2003)의 연구에서 사용된 모수 범위 내에서 실험을 진행한다.
본 연구에서는 SVM과 유전자 알고리즘 실험을 위해 Java platform 기반으로 개발된 유전자 알고리즘과 SVM 결합모형을 이용한다. 본 실험에서 SVM 실험은 SVM 공개 소프트웨어인 LIBSVM(Chang and Lin, 2001)을 사용하고, 유전자 알고리즘을 SVM 코드에 결합하여 개발된다.
한편, ANN 모형은 가장 일반적인 오류역전파 신경망 모형을 이용하며, 실험도구는 NeuroShell이라는 상용 소프트웨어를 이용한다. 사례기반추론은 전통적인 근접이웃을 고려하는 사례기반추론 모형 중 가장 기본모형이라고 할 수 있는 현재 사례와 가장 가까운 하나의 사례를 이용하여 유클리드 거리에 의한 예측을 수행하는 1-NN을 사용한다. 로지스틱 회귀분석은 SPSS 18.
한편, ANN 모형은 가장 일반적인 오류역전파 신경망 모형을 이용하며, 실험도구는 NeuroShell이라는 상용 소프트웨어를 이용한다. 사례기반추론은 전통적인 근접이웃을 고려하는 사례기반추론 모형 중 가장 기본모형이라고 할 수 있는 현재 사례와 가장 가까운 하나의 사례를 이용하여 유클리드 거리에 의한 예측을 수행하는 1-NN을 사용한다.
따라서 본 연구에서는 전통적인 SVM 구축을 위해 가우시안 RBF 함수를 사용한다. 한편, 최적의 모수를 찾는 데에도 많은 실험을 요하는데, 본 연구에서는 Tay and Cao(2001)와 Kim(2003)의 연구에서 사용된 모수 범위 내에서 실험을 진행한다. 선행연구에서 제시된 적절한 모수 범위는 σ²의 경우는 1에서 100사이의 값으로, C의 경우에는 10에서 100사이의 범위 내로 한정한다.

성능/효과

<표 2>에서 나타난 것과 같이 본 연구에서 제안한 사례선택 기법에 의한 SVM 모형(ISVM)이 비교 대상인 모든 모형들에 비해 예측성능이 가장 우수한 것으로 나타났다. 구체적으로는 1-NN에 비해 검증용 데이터에서 15.32%의 차이로 예측성능 차이가 가장 크게 나타났고, 인공신경망에 비해서는 6.89%, Logit과 전통적인 SVM에 비해서는 5.34%, 모수 최적화 SVM(PSVM)에 대해서는 4.82% 예측성능 개선이 있었다. 특히 ISVM은 전체 학습용 데이터 1,056개 중에서 사례선택 기법에 의해 556개의 데이터만을 선택적으로 사용함으로써 예측에 이용되는 사례의 수가 전통적인 모형들에 비해 거의 절반 수준으로 감소하였으며, 이는 향후 예측 등에 있어서 더 효율적인 분석이 가능함을 의미한다.
<표 3>에서 나타난 것과 같이 본 연구에서 제안한 모형은 모든 모형에 있어서 예측성과의 차이가 통계적으로 유의한 것으로 나타났다. 구체적으로는, 인공신경망, 1-NN에 대해 1% 유의수준에서 차이가 있는 것으로 나타났으며, 전통적인 SVM, 모수 최적화 SVM(PSVM), Logit에 대해서는 5% 유의수준에서 차이가 있는 것으로 나타나서 다른 모형들과의 예측성과 차이가 모두 통계적으로 유의한 것으로 나타났다.
주식시장 예측과 관련된 데이터는 일반적으로 잡음과 이상치가 매우 많이 포함되어 있기에 예측능력이 매우 우수한 분석기법을 사용하지 않고서는 좋은 예측성과를 기대할 수 없는 것으로 알려져 있다. 따라서 본 연구에서 제안하는 모형의 성능을 평가하는 데에 유용한 데이터로 판단된다. 본 연구에서 사용하는 데이터는 Ahn and Kim(2008)에서 데이터마이닝 기법의 성능을 확인하기 위해 사용한 데이터이며, 1989년부터 1998년까지의 한국종합주가지수의 일별 종가자료이다.
본 연구에서는 유전자 알고리즘에 기반한 사례 선택기법이라는 새로운 데이터마이닝 기법을 전통적인 데이터마이닝 기법인 SVM에 결합한 새로운 SVM 기법을 제안하였다. 본 연구에서 제안한 모형은 유전자 알고리즘을 활용하여 일반적인 SVM 모형의 예측성과를 제고할 수 있는 학습용 데이터를 선택적으로 활용함으로써 예측성과를 저하시키는 데이터들을 사전적으로 데이터 집합으로부터 제거할 수 있으며 이를 통하여 예측의 효율성과 효과성을 제고할 수 있었다. 특히 가장 잡음이 심하다고 알려진 금융시계열 데이터에서 유용한 데이터들을 선별적으로 분석 데이터 집합으로부터 제거함으로써 예측성과와 일반화 가능성을 높일 수 있음을 연구결과에서 확인할 수 있다.
<표 3>에서 나타난 것과 같이 본 연구에서 제안한 모형은 모든 모형에 있어서 예측성과의 차이가 통계적으로 유의한 것으로 나타났다. 구체적으로는, 인공신경망, 1-NN에 대해 1% 유의수준에서 차이가 있는 것으로 나타났으며, 전통적인 SVM, 모수 최적화 SVM(PSVM), Logit에 대해서는 5% 유의수준에서 차이가 있는 것으로 나타나서 다른 모형들과의 예측성과 차이가 모두 통계적으로 유의한 것으로 나타났다.
<표 2>에서 나타난 것과 같이 본 연구에서 제안한 사례선택 기법에 의한 SVM 모형(ISVM)이 비교 대상인 모든 모형들에 비해 예측성능이 가장 우수한 것으로 나타났다. 구체적으로는 1-NN에 비해 검증용 데이터에서 15.
특히 가장 잡음이 심하다고 알려진 금융시계열 데이터에서 유용한 데이터들을 선별적으로 분석 데이터 집합으로부터 제거함으로써 예측성과와 일반화 가능성을 높일 수 있음을 연구결과에서 확인할 수 있다. 연구 결론에서는 제안하는 모형의 우수성을 확인하기 위하여 일반적인 데이터마이닝 기법인 인공신경망, 사례기반추론, 로지스틱 회귀분석, 전통적 SVM 모형들과 비교하였으며, 그 결과 예측성과의 개선 정도가 통계적으로 유의함으로 확인하였다.
본 연구에서 제안한 사례선택 기법에 기반한 SVM 모형은 상기와 같은 연구의의를 가지고 있지만 몇 가지 한계점도 가지고 있다. 첫째, 본 연구에서는 사례선택 기법에 의해서 학습용 데이터셋을 정제함으로써 좋은 예측성과를 나타냈다. 데이터마이닝의 선행연구들에서는 유의한 변수군을 사용할 때 전체 변수군을 사용하는 모형보다 우수한 분류 성과를 가져 올 수 있다고 한다.
82% 예측성능 개선이 있었다. 특히 ISVM은 전체 학습용 데이터 1,056개 중에서 사례선택 기법에 의해 556개의 데이터만을 선택적으로 사용함으로써 예측에 이용되는 사례의 수가 전통적인 모형들에 비해 거의 절반 수준으로 감소하였으며, 이는 향후 예측 등에 있어서 더 효율적인 분석이 가능함을 의미한다.
본 연구에서 제안한 모형은 유전자 알고리즘을 활용하여 일반적인 SVM 모형의 예측성과를 제고할 수 있는 학습용 데이터를 선택적으로 활용함으로써 예측성과를 저하시키는 데이터들을 사전적으로 데이터 집합으로부터 제거할 수 있으며 이를 통하여 예측의 효율성과 효과성을 제고할 수 있었다. 특히 가장 잡음이 심하다고 알려진 금융시계열 데이터에서 유용한 데이터들을 선별적으로 분석 데이터 집합으로부터 제거함으로써 예측성과와 일반화 가능성을 높일 수 있음을 연구결과에서 확인할 수 있다. 연구 결론에서는 제안하는 모형의 우수성을 확인하기 위하여 일반적인 데이터마이닝 기법인 인공신경망, 사례기반추론, 로지스틱 회귀분석, 전통적 SVM 모형들과 비교하였으며, 그 결과 예측성과의 개선 정도가 통계적으로 유의함으로 확인하였다.

후속연구

데이터마이닝의 선행연구들에서는 유의한 변수군을 사용할 때 전체 변수군을 사용하는 모형보다 우수한 분류 성과를 가져 올 수 있다고 한다. 본 연구에서도 유의한 변수선정을 위한 변수군 선택과정이 본 모형에 추가된다면 더 우수한 예측성과를 가져올 수 있을 것으로 생각되며, 이는 향후 연구과제로 제안한다. 둘째, 본 연구에는 제안한 모형의 응용가능성을 재무분야의 주가지수 예측 문제에 응용하여 확인하였다.
제안하는 SVM에서의 사례선택 기법의 유용성을 확인하기 위해 예측이 매우 어려운 것으로 알려진 주식시장 예측에 관련된 데이터에 적용해 보기로 한다. 주식시장 예측과 관련된 데이터는 일반적으로 잡음과 이상치가 매우 많이 포함되어 있기에 예측능력이 매우 우수한 분석기법을 사용하지 않고서는 좋은 예측성과를 기대할 수 없는 것으로 알려져 있다.
둘째, 본 연구에는 제안한 모형의 응용가능성을 재무분야의 주가지수 예측 문제에 응용하여 확인하였다. 향후 연구에서는 다른 특성을 가진 마케팅이나 생산 분야의 데이터에 응용하여 본 연구에서 제안하는 모형의 유용성을 확인하여 그 일반화 가능성을 높일 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	SVM의 특징은?	SVM은 입력공간과 관련된 비선형문제를 고차원의 특징공간에서의 선형문제로 변환시켜 나타내기 때문에 수학적으로 분석하는 것이 수월하다는 점이 특징이다(Vapnik, 1995, 1998). 다른 데이터마이닝 기법에 비하여 SVM은 조정해야 할 모수의 수가 많지 않아 비교적 쉽게 학습에 영향을 미치는 요인들을 규명할 수 있고, 구조적위험을 최소화하여 과도적합문제에서 벗어날 가능성이 크며, 볼록함수를 최소화하는 학습을 진행하여 전역 최적해를 찾을 가능성이 크다는 점이 장점이다.
	일반적인 SVM을 이용하려면 임의성이 높고, 국부 최적해에 수렴할 가능성이 큰 이유는?	SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다.
	SVM을 사용하려고 할때, 잡음이 심한 데이터가 포함된 경우 어떤 문제를 일으킬 가능성이 있는가?	하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다.

참고문헌 (22)

안현철, 김경재, "다양한 다분류 SVM을 적용한 기업채권평가", Asia Pacific Journal of Information Systems, 19권 2호(2009), 157-178

원문보기 상세보기
안현철, 김경재, 한인구, "다분류 Support Vector Machine을 이용한 한국 기업의 지능형 기업 채권평가모형", 경영학연구, 35권 5호(2006), 1479-1496.
Ahn, H. and K. Kim, "Using genetic algorithms to optimize k-nearest neighbors for data mining", Annals of Operations Research, Vol.163, No.1(2008), 5-18.

상세보기
Chang, C.-C. and C.-J Lin, LIBSVM：a library for support vector machines, Software available at http://www.csie.ntu.edu.tw/～cjlin/ libsvm, 2001
Gates, G. W., "The reduced nearest neighbor rule", IEEE Transactions on Information Theory, Vol.18, No.3(1972), 431-433.

상세보기
Harnett, D. L., A. K. Soni, Statistical methods for business and economics, Addison-Wesley, MA, 1991
Hart, P. E., "The condensed nearest neighbor rule", IEEE Transactions on Information Theory, Vol.14(1968), 515-516.

상세보기
Kim, K., "Financial time series forecasting using support vector machines", Neurocomputing, Vol.55(2003), 307-319.

상세보기
Kim, K., "Artificial neural networks with evolutionary instance selection for financial forecasting", Expert Systems with Applications, Vol.30, No.3(2006), 519-526.

상세보기
Kuncheva, L. I., "'Change-glasses' approach in pattern recognition", Pattern Recognition Letters, Vol.14(1993), 619-623.

상세보기
Liu, H. and H. Motoda, "Feature transformation and subset selection", IEEE Intelligent Systems, Vol.13, No.2(1998), 26-28.
McSherry, D., "Automating case selection in the construction of a case library", Knowledge Based Systems, Vol.13, No.2/3(2000), 133- 140.

상세보기
Reeves, C. R. and D. R. Bush, Using genetic algorithms for training data selection in RBF networks, In Liu, H. and H. Motoda, Instance selection and construction for data mining, Kluwer Academic Publishers, Massachusetts, (2001), 339-356.
Reeves, C. R. and S. J. Taylor, Selection of training sets for neural networks by a genetic algorithm, In Eiden, A. E., T. Back, M. Schoenauer and H.-P. Schwefel, Parallel problem-solving from nature-PPSN V, Springer-Verlag, Berlin, 1998.
Ritter, G. L., H. B. Woodruff, S. R. Lowry, and T. L. Isenhour, "An algorithm for a selective nearest neighbor decision rule", IEEE Transactions on Information Theory, Vol.21, No.6(1975), 665-669.

상세보기
Smyth, B., "Case-base maintenance", Proceedings of the 11th International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert Systems, (1998), 507-516.
Tay, F. E. H. and L. Cao, "Application of support vector machines in financial time series forecasting", Omega, Vol.29(2001), 309-317.
Tetko, I. V. and A. E. P. Villa, "Efficient partition of learning data sets for neural network training", Neural Networks, Vol.10, No.8 (1997), 1361-1374.

상세보기
Vapnik, V. N., The Nature of Statistical Learning Theory, Springer-Verlag, 1995
Vapnik, V. N., Statistical Learning Theory, Wiley, New York, 1998
Wilson, D. L., "Asymptotic properties of nearest neighbor rules using edited data", IEEE Transactions on Systems, Man, and Cybernetics, Vol.2, No.3(1972), 408-421.

상세보기
Wilson, D. R. and T. R. Martinez, "Reduction techniques for instance-based learning algorithms", Machine Learning, Vol.38(2000), 257-286.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증