빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.
빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.
Because stock price forecasting is an important issue both academically and practically, research in stock price prediction has been actively conducted. The stock price forecasting research is classified into using structured data and using unstructured data. With structured data such as historical ...
Because stock price forecasting is an important issue both academically and practically, research in stock price prediction has been actively conducted. The stock price forecasting research is classified into using structured data and using unstructured data. With structured data such as historical stock price and financial statements, past studies usually used technical analysis approach and fundamental analysis. In the big data era, the amount of information has rapidly increased, and the artificial intelligence methodology that can find meaning by quantifying string information, which is an unstructured data that takes up a large amount of information, has developed rapidly. With these developments, many attempts with unstructured data are being made to predict stock prices through online news by applying text mining to stock price forecasts. The stock price prediction methodology adopted in many papers is to forecast stock prices with the news of the target companies to be forecasted. However, according to previous research, not only news of a target company affects its stock price, but news of companies that are related to the company can also affect the stock price. However, finding a highly relevant company is not easy because of the market-wide impact and random signs. Thus, existing studies have found highly relevant companies based primarily on pre-determined international industry classification standards. However, according to recent research, global industry classification standard has different homogeneity within the sectors, and it leads to a limitation that forecasting stock prices by taking them all together without considering only relevant companies can adversely affect predictive performance. To overcome the limitation, we first used random matrix theory with text mining for stock prediction. Wherever the dimension of data is large, the classical limit theorems are no longer suitable, because the statistical efficiency will be reduced. Therefore, a simple correlation analysis in the financial market does not mean the true correlation. To solve the issue, we adopt random matrix theory, which is mainly used in econophysics, to remove market-wide effects and random signals and find a true correlation between companies. With the true correlation, we perform cluster analysis to find relevant companies. Also, based on the clustering analysis, we used multiple kernel learning algorithm, which is an ensemble of support vector machine to incorporate the effects of the target firm and its relevant firms simultaneously. Each kernel was assigned to predict stock prices with features of financial news of the target firm and its relevant firms. The results of this study are as follows. The results of this paper are as follows. (1) Following the existing research flow, we confirmed that it is an effective way to forecast stock prices using news from relevant companies. (2) When looking for a relevant company, looking for it in the wrong way can lower AI prediction performance. (3) The proposed approach with random matrix theory shows better performance than previous studies if cluster analysis is performed based on the true correlation by removing market-wide effects and random signals. The contribution of this study is as follows. First, this study shows that random matrix theory, which is used mainly in economic physics, can be combined with artificial intelligence to produce good methodologies. This suggests that it is important not only to develop AI algorithms but also to adopt physics theory. This extends the existing research that presented the methodology by integrating artificial intelligence with complex system theory through transfer entropy. Second, this study stressed that finding the right companies in the stock market is an important issue. This suggests that it is not only important to study artificial intelligence algorithms, but how to theoretically adjust the input values. Third, we confirmed that firms
Because stock price forecasting is an important issue both academically and practically, research in stock price prediction has been actively conducted. The stock price forecasting research is classified into using structured data and using unstructured data. With structured data such as historical stock price and financial statements, past studies usually used technical analysis approach and fundamental analysis. In the big data era, the amount of information has rapidly increased, and the artificial intelligence methodology that can find meaning by quantifying string information, which is an unstructured data that takes up a large amount of information, has developed rapidly. With these developments, many attempts with unstructured data are being made to predict stock prices through online news by applying text mining to stock price forecasts. The stock price prediction methodology adopted in many papers is to forecast stock prices with the news of the target companies to be forecasted. However, according to previous research, not only news of a target company affects its stock price, but news of companies that are related to the company can also affect the stock price. However, finding a highly relevant company is not easy because of the market-wide impact and random signs. Thus, existing studies have found highly relevant companies based primarily on pre-determined international industry classification standards. However, according to recent research, global industry classification standard has different homogeneity within the sectors, and it leads to a limitation that forecasting stock prices by taking them all together without considering only relevant companies can adversely affect predictive performance. To overcome the limitation, we first used random matrix theory with text mining for stock prediction. Wherever the dimension of data is large, the classical limit theorems are no longer suitable, because the statistical efficiency will be reduced. Therefore, a simple correlation analysis in the financial market does not mean the true correlation. To solve the issue, we adopt random matrix theory, which is mainly used in econophysics, to remove market-wide effects and random signals and find a true correlation between companies. With the true correlation, we perform cluster analysis to find relevant companies. Also, based on the clustering analysis, we used multiple kernel learning algorithm, which is an ensemble of support vector machine to incorporate the effects of the target firm and its relevant firms simultaneously. Each kernel was assigned to predict stock prices with features of financial news of the target firm and its relevant firms. The results of this study are as follows. The results of this paper are as follows. (1) Following the existing research flow, we confirmed that it is an effective way to forecast stock prices using news from relevant companies. (2) When looking for a relevant company, looking for it in the wrong way can lower AI prediction performance. (3) The proposed approach with random matrix theory shows better performance than previous studies if cluster analysis is performed based on the true correlation by removing market-wide effects and random signals. The contribution of this study is as follows. First, this study shows that random matrix theory, which is used mainly in economic physics, can be combined with artificial intelligence to produce good methodologies. This suggests that it is important not only to develop AI algorithms but also to adopt physics theory. This extends the existing research that presented the methodology by integrating artificial intelligence with complex system theory through transfer entropy. Second, this study stressed that finding the right companies in the stock market is an important issue. This suggests that it is not only important to study artificial intelligence algorithms, but how to theoretically adjust the input values. Third, we confirmed that firms
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서, 본 논문에서는 기존의 연구의 한계를 극복하기 위해, 무작위 행렬 이론을 사용하여 GICS 섹터를 군집 분석을 하고, 그 군집이 인공지능 알고리즘과 함께 어떤 식으로 사용될 수 있는 지에 대해 보여준다.
본 논문에서 주장하고자 하는 바는 무작위 행렬 이론을 통한 시장 세분화를 하여 여러 뉴스를 사용하는 것이 k-평균 군집 분석이나 섹터 혹은 단일 특정 회사의 뉴스를 사용하는 것보다 더 좋은 결과를 보여준다는 것이다. 따라서 본 논문에서는 크게 3가지 비교 대상을 가진다.
본 논문에서는 무작위 행렬 이론을 통한 군집분석이 주식 시장을 적절하게 나누는지와 그것이 인공 지능 방법을 통한 주가 예측에 효과적인 방법임을 검증하기 위해 실제 데이터를 통해 실험하였다. 데이터는 크게 2가지로 나뉘어있다.
위의 세 가지 연구가 모두 제시하는 바는 실제로 특정 회사에 관련된 뉴스가 나오면 관련 있는 특정 회사뿐만 아니라 회사의 주가도 함께 움직인다는 것이며, 관련된 회사를 어떻게 찾는 지가 중요한 지이다. 본 논문에서는 이러한 연구 흐름을 따라, 관련된 회사를 찾는 방법을 무작위 행렬 이론을 통해 제시한다.
본 연구의 학문적 시사점은 다음과 같다. 첫번째, 본 연구는 주식 시장이 이론적으로 가지는 복잡계 특성을 분석하여 이를 인공지능 알고리즘의 입력값으로 사용하는 연구를 확장하였다. 이는 단순히 모든 입력값을 통합하여 사용하는것이 아니라, 이론적으로 그 관계를 고려해야 한다는 점을 의미한다.
가설 설정
우리는 햇(e.g.Ŷ )을 훈련 데이터에서 사용하는 서브 행렬이라고 가정한다. 이때, EasyMKL는 다음과 같다.
관련 있는 회사들의 뉴스를 함께 이용하여 주가를 예측하는 경우 특정 주식에 관련된 뉴스만으로 주가를 예측하는 것보다 뛰어난 결과를 보여주었다. 하지만 저자들은 같은 GICS 섹터체계에 있으면 관련성이 높을 것이라는 가정을 하였다. 하지만 실제로는 같은 업종에 있다고 하더라도 관련성이 높지 않을 수 있다는 한계점을 가진다.
훈련 데이터가 Gtr={(xs,1,y1), ..., (xs,i,yi)} 이며, 예측 데이터가 Gte={(xs,i+1,yi+1), ..., (xs,l,yl)}이며, yi∊{-1(down),+1(up)}라고 가정한다.
제안 방법
Seong and Nam (2018)은 Shynkevich et al.(2016)의 같은 GICS 섹터 안에 있더라도 모두 관련성이 높지 않을 수 있다는 한계점을 보완하기위해, GICS 섹터를 k-평균 군집 분석하여 관련성이 높은 회사를 고르는 방법을 고안하였다. 그 결과, 단순히 GICS 섹터 안에 있는 기업들을 관련성이 있는 회사라고 가정하여 주가를 예측하는 데 사용하는 것 보다, 군집 분석을 통해 관련성이 높은 회사들을 찾는 것이 중요하다는 것을 제시하였다.
본 논문에서는 코스피 중에서 소재 섹터에 포함된 기업들에 관해서만 연구를 진행하였다. 각각에 기업에 관련성이 높은 뉴스를 추출하는 방법으로는 본문에 회사의 이름이 포함된 뉴스를 선정 기준으로 사용하였다. 또한, 실험에 사용한 기업에 대한 정보는 [Table 1]과 같다.
본 연구에서는 무작위 행렬 이론을 이용하여 주가의 상관 계수 행렬의 잡음을 제거하고, 시장전반의 효과를 제거하며 정확한 상관 계수를 찾았다. 그 상관 계수를 기반으로 군집 분석을 시행하여 관련된 회사를 찾고 그 관련된 회사들의 뉴스를 함께 고려하는 주가 예측 방법론을 제시하였다. 그 결과, 본 논문에서 제시한 방법이 각개인의 회사의 뉴스만 가지고 주가를 예측하는것, 혹은 섹터의 모든 뉴스를 가지고 주가를 예측하는 것, K-평균 군집 분석을 관련된 회사를찾고 이를 이용해 주가를 예측하는 것보다 월등한 성과를 보여주었다.
본 논문에서는 사전 처리로는 단어 주머니 모형으로 뉴스를 숫자 벡터로 바꾸어 주며, 카이스퀘어 방법으로 필요한 단어만을 선별하였으며, TF-IDF 방법으로 가중치를 주었다. 기계 학습 방법으로는 본 논문에서는 특정 회사의 주가를 예측할 때, 특정 회사의 뉴스만이 아니라, 관련된 회사들의 뉴스 또한 함께 고려하는 방법을 사용하기 때문에, 여러 특성을 같이 포함할 수 있는 기계 학습 방법인 다중 학습 커널을 사용하였다.
후속 연구에서는 시장 전체에서 관련성이 높은 기업들을 찾으며, 군집의개수를 통계적으로 분석하는 방법을 함께 사용할 필요가 있다. 두 번째, 본 논문에서는 GICS섹터 중 소재 섹터를 선택하여 연구를 진행하였다. 하지만 이는 소재 섹터의 특성일 수도 있으니 일반화의 문제가 있다.
이는 이전 엔트로피를 통한 복잡계 형성과 인공지능을 통합하여 방법론을 제시한 Namand Seong (2019)의 연구를 확장한다. 두 번째, 본 연구는 주식 시장에서 관련성이 높은 기업을 정확하게 찾는 것이 중요한 문제임을 다시 한 번 강조하며, 인공지능 알고리즘을 연구하는 것만이 중요한 것이 아니라 입력 값을 어떻게 이론적으로 조절하는 것이 필요한 것인지를 입증하였다.
,2016). 따라서 본 논문에서는 기존 연구와 같이TF-IDF로 표현된 변수에 선택한 변수의 개수를 곱해준다. 변수의 개수가 k개였다면, k*TF-IDF가 될 것이다.
본 논문에서 제안한 방법은 특정 회사의 뉴스와 관련 있는 회사들의 뉴스를 함께 고려하는 모형이다. 관련 있는 회사가 n-1개가 있을 시, n개의 커널이 생성되며, 각 커널의 최적의 매개 변수는 서포트 벡터 머신을 그리드 서치한 결과로 나온다.
뉴스를 통해 주가 예측을 하는 방법은 크게 사전 처리와 기계 학습이 있다. 본 논문에서는 사전 처리로는 단어 주머니 모형으로 뉴스를 숫자 벡터로 바꾸어 주며, 카이스퀘어 방법으로 필요한 단어만을 선별하였으며, TF-IDF 방법으로 가중치를 주었다. 기계 학습 방법으로는 본 논문에서는 특정 회사의 주가를 예측할 때, 특정 회사의 뉴스만이 아니라, 관련된 회사들의 뉴스 또한 함께 고려하는 방법을 사용하기 때문에, 여러 특성을 같이 포함할 수 있는 기계 학습 방법인 다중 학습 커널을 사용하였다.
본 연구에서는 무작위 행렬 이론을 이용하여 주가의 상관 계수 행렬의 잡음을 제거하고, 시장전반의 효과를 제거하며 정확한 상관 계수를 찾았다. 그 상관 계수를 기반으로 군집 분석을 시행하여 관련된 회사를 찾고 그 관련된 회사들의 뉴스를 함께 고려하는 주가 예측 방법론을 제시하였다.
(7)에서 구한 최적의 함수로 우리는 참 상관계수 행렬을 찾을 수 있다. 우리는 참 상관 계수행렬을 거리 함수로 계층적 군집 분석을 시행하였다. 이때, 본 논문에서는 기존 연구와 비교하기 위하여, 계층적 군집 분석 시행 결과에서 군집을 3개로 나누어 각 군집 할당하였다.
우리는 참 상관 계수행렬을 거리 함수로 계층적 군집 분석을 시행하였다. 이때, 본 논문에서는 기존 연구와 비교하기 위하여, 계층적 군집 분석 시행 결과에서 군집을 3개로 나누어 각 군집 할당하였다.
따라서 기존 연구에서는 시장의 잡음을 제거하여 주가 예측에 사용하려는 연구가 존재하지 않았다. 이러한 연구의 빈틈을 메우기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 잡음을 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하고, 이를 인공지능 방법과 결합하는 방법을 제안한다.
이번 장에서는 무작위 행렬 이론 기반 주식 시장 군집 분석을 하여, 관련성이 높은 회사를 찾고, 그 관련성이 높은 회사들의 뉴스 기사가 주가 예측에 반영되는 방법을 제안한다. 3.
Groth and Muntermann (2011)는 기계학습 알고리즘으로 뉴스 분석을 이용한 위기 관리 방법을 제시하였다. 저자들은 인공 신경망, 서포트 벡터 머신, 나이브 베이즈, 및 K-근접 이웃 등 다양한 방법론을 비교하였다. 이때, 서포트 벡터 머신이 가장 효율적인 방법임을 제시하였다.
우리는 2014년 1월부터 2016년 12월까지 총 3년간의 뉴스 데이터와 3년 간의 주가 데이터를 사용하였다. 제안된 방법의 검증을 위하여 훈련기간, 검증 기간, 예측 기간을 각각 2년, 6개월, 6개월로 설정으로 하였다. 훈련 기간 동안 매개변수를 찾고, 검증 기간 동안 최적의 매개 변수를 그리드 서치를 통해 찾으며, 예측 기간 동안평가를 진행한다.
하지만 본 연구는 다음과 같은 한계점을 가진다. 첫 번째, 본 논문에서는 GICS 섹터 안에서 3개의 군집으로 군집을 나누었다. 이러한 방법은 시장 전체에서 관련성이 높은 기업들을 찾는 것이 어렵다는 단점이 있다.
관련 있는 회사가 n-1개가 있을 시, n개의 커널이 생성되며, 각 커널의 최적의 매개 변수는 서포트 벡터 머신을 그리드 서치한 결과로 나온다. 최적의 값을 찾은 뒤에는 다중 커널 학습을 시행한다.
최적의 매개변수를 찾기 위해, 본 논문에서는 각커널에 서포트 벡터 머신을 사용하여 그리드 서치(grid search)를 진행하였으며, 매개 변수 범위는 C={2-5,2-3, ...,215}, ϒ={2-15, 2-13, ..., 23}이다 (Hsu et al., 2010).
, 2016). 카이스퀘어 변수 선택은 카이 제곱 분포를 사용하여 변수의 영향력을 평가한다. 모든 단어의 기대되는 빈도는 같으므로, 관찰된 빈도Oij가 기대되는 빈도Eij와 의미있게 다른지 본다면 영향력을 평가할 수 있다.
즉, 관련성이 높은 회사를 정확하게 찾는것은 뉴스를 이용한 주가 예측 방법에서 중요한부분이다. 하지만 아직 이 부분에 대한 연구가 부족하기 때문에 본 논문에서는 이 연구 흐름을 경제 물리학 방법론을 통해 보완하였다.
제안된 방법의 검증을 위하여 훈련기간, 검증 기간, 예측 기간을 각각 2년, 6개월, 6개월로 설정으로 하였다. 훈련 기간 동안 매개변수를 찾고, 검증 기간 동안 최적의 매개 변수를 그리드 서치를 통해 찾으며, 예측 기간 동안평가를 진행한다. 실험이 끝나면 각각의 예측에대해서, 예측이 Up이라고 예측했는데, 옳게 예측한 수를 TP라고 정의하고, 틀리게 예측한 수를FP라고 하며, Down이라고 예측하였는데, 옳게 예측한 수를 FN, 틀리게 예측한 것을 TN이라고한다.
대상 데이터
그들은 각각 뉴스 데이터와 주가 데이터이다. 데이터의 범위는 2014년 1월 1일부터 2016년 12월31일이다. 우리는 뉴스 정보를 활용하기 위해 한국 최대 포털사이트 네이버에 등록된 10개의 종합 신문과 14개의 방송 통신 신문과 9개의 경제신문, 총 33개의 인터넷 뉴스의 모든 금융, 경제관련 뉴스를 크롤링하였다.
특정 회사의 뉴스에서 단어 선택을 할 때는 특정 회사의 주가에 영향을 준 단어들을 선별하며, 관련 회사들의 뉴스에서 단어 선택을 할 때 또한 특정 회사의 주가에 영향을 준 단어들을 선별한다. 본 논문에서는 기존 연구 흐름과 마찬가지로 변수 중 카이스퀘어가 가장 전체 변수의 상위 10%로 하여 선택을 하였다 (Nam and Seong, 2019; Seong andNam, 2018).
우리는 2014년 1월부터 2016년 12월까지 총 3년간의 뉴스 데이터와 3년 간의 주가 데이터를 사용하였다. 제안된 방법의 검증을 위하여 훈련기간, 검증 기간, 예측 기간을 각각 2년, 6개월, 6개월로 설정으로 하였다.
데이터의 범위는 2014년 1월 1일부터 2016년 12월31일이다. 우리는 뉴스 정보를 활용하기 위해 한국 최대 포털사이트 네이버에 등록된 10개의 종합 신문과 14개의 방송 통신 신문과 9개의 경제신문, 총 33개의 인터넷 뉴스의 모든 금융, 경제관련 뉴스를 크롤링하였다. 이는 한국에서 대중이 접할 수 있는 대다수의 금융 뉴스를 포함한정보로, 금융 뉴스가 미치는 영향을 파악하기 좋은 데이터이다.
이론/모형
, 2012). 그들 중에서, 우리는 현재 최고로 알려진 EasyMKL방법을 사용하였다 (Aiolli and Donini, 2015).
, 2017). 따라서 기존 연구에서는 경제학 기반으로 만든 GICS나 k-평균 군집분석과 같은 인공 지능 기법으로 시장을 세분한다 (Aghabozorgi and Teh, 2014; Nam and Seong,2019; Seong and Nam, 2018). 하지만 GICS는 단순히 경제학적으로 회사를 세분한 것일 뿐 주가예측에 유용하게 그들을 군집화한 것이 아니며, 특정 기업이 수동으로 이를 분류하는 것이므로, 시장의 변화에 빠르게 대응하는 군집화 시스템을 구축하지 못한다는 단점이 있다.
이때 이를 반영하기 위해 기존 연구에서 주로 사용되는 변수 표현 방식은 TF-IDF방식이다 (Nam and Seong, 2019; Seong andNam, 2018). 따라서, 본 논문에서는 기존 연구의 흐름에 따라 변수 표현으로 TF-IDF를 사용한다.
, 2010). 또한, 가우시안 커널은 선형 커널과 시그모이드 커널을 매개 변수의 범위에 따라 포함할 수 있으므로, 본 논문에서는 가우시안 커널을 사용하였다 (Keerthi and Lin,2003). 가우시안 커널은 다음과 같이 표현된다:
본 논문에서 변수 선택으로는 카이스퀘어 방법을 사용하였다. 변수 선택은 수많은 단어 중에서 실제로 주가에 영향을 미쳤을 단어를 통계적으로 찾는 방법을 의미하는 데, 카이스퀘어 방법은 단어의 분포가 기대되는 빈도보다 높을 때, 변수들을 선정하는 방법이다.
본 논문에서 변수 추출로는 단어 주머니 모형을 사용하였다. 단어 주머니 모형을 사용하기 위해서는 단어들을 모두 원형으로 만들어야 한다.
본 논문에서는 가우시안 커널을 사용하였다. 가우시안 커널은 가장 자주 사용되는 커널이면서도 다양한 비선형 관계를 처리하기에 적합하다 (Hsu et al.
본 논문에서는 기존 연구의 흐름에 따라 변수선택으로 카이 스퀘어 방법을 사용한다.
단어 주머니 방법은 모든 단어를 형태소 분석을 하여 모든 단어를 원형으로 만들어, 그것들의 개수를 세서 이를 벡터로 표현한다. 본 논문에서는 기존 연구의 흐름을 따라 단어 주머니 모형을 사용한다.
단어 주머니 모형을 사용하기 위해서는 단어들을 모두 원형으로 만들어야 한다. 본 논문에서는 단어를 원형으로 만드는 방법으로 konlpy 패키지의 꼬꼬마 형태소 분석기를 사용하였다 (Park and Cho, 2014). 본 방법은 다양한 연구에서 사용된 방법으로 그 효율성은 입증되었다 ( Nam and Seong, 2019; Seong and Nam,2018).
즉, 이와 같은 무작위 신호와 시장 전체 효과를 고려하지 않고, 단순히 주식 시장에서 군집 분석을 시행하는 방식은 잘못된 결과를 낼 수 있다. 본 논문에서는 이를 해결하기 위하여, 무작위 행렬 이론을 사용하였다.
이때 C를 추정할 수 있는 함수인 Ξ(M) 를 찾는 것이 핵심이다. 본 논문에서는 현재까지 최고의 성능을 보인다고 알려진 Rotational Invariant Estimator(RIE) 방식을 사용한다 (Bun et al., 2016).
,2017). 이 문제를 해결하기 위해 본 논문에서는 경제 물리학에서 주로 사용하는 무작위 행렬 이론을 사용한다.
카이스퀘어 변수 선택을 한 후, 특정 단어들이 특정 뉴스에서만 나오는 것에 가중치를 더 주고, 특정 단어들이 수많은 뉴스에서 나오는 것에 가중치를 덜 주기 위해 변수 표현 방법으로는 TF-IDF 방법을 사용하였다 (Nam and Seong,2019). TF-IDF 변수 표현을 거치면 기계 학습 방법의 입력 값이 너무 작아서 기계 학습을 효율적으로 하기 위해서는 단위 조정이 필요하며, 여러데이터 원이 같은 정도의 가중치를 갖기 위해서는 단위 조정이 필요하다 (Shynkevich et al.
성능/효과
본 논문의 결과는 다음과 같다. (1) 관련성이 높은 기업의 뉴스를 이용하여 주가를 예측하는 것은 효과적인 방법이라는 것을 기존 연구 흐름에 이어 확인하였다. (2) 관련 있는 기업을 찾을 때, 잘못된 방식으로 찾는다면 인공지능 예측 성능을 저하할 수 있다.
(1) 관련성이 높은 기업의 뉴스를 이용하여 주가를 예측하는 것은 효과적인 방법이라는 것을 기존 연구 흐름에 이어 확인하였다. (2) 관련 있는 기업을 찾을 때, 잘못된 방식으로 찾는다면 인공지능 예측 성능을 저하할 수 있다. (3) 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여줄 수 있다.
저자는 국제 산업 분류 표준(GICS) 기반으로 관련성 있는 회사를 정의하였다. 관련 있는 회사들의 뉴스를 함께 이용하여 주가를 예측하는 경우 특정 주식에 관련된 뉴스만으로 주가를 예측하는 것보다 뛰어난 결과를 보여주었다. 하지만 저자들은 같은 GICS 섹터체계에 있으면 관련성이 높을 것이라는 가정을 하였다.
(2016)의 같은 GICS 섹터 안에 있더라도 모두 관련성이 높지 않을 수 있다는 한계점을 보완하기위해, GICS 섹터를 k-평균 군집 분석하여 관련성이 높은 회사를 고르는 방법을 고안하였다. 그 결과, 단순히 GICS 섹터 안에 있는 기업들을 관련성이 있는 회사라고 가정하여 주가를 예측하는 데 사용하는 것 보다, 군집 분석을 통해 관련성이 높은 회사들을 찾는 것이 중요하다는 것을 제시하였다.
그 상관 계수를 기반으로 군집 분석을 시행하여 관련된 회사를 찾고 그 관련된 회사들의 뉴스를 함께 고려하는 주가 예측 방법론을 제시하였다. 그 결과, 본 논문에서 제시한 방법이 각개인의 회사의 뉴스만 가지고 주가를 예측하는것, 혹은 섹터의 모든 뉴스를 가지고 주가를 예측하는 것, K-평균 군집 분석을 관련된 회사를찾고 이를 이용해 주가를 예측하는 것보다 월등한 성과를 보여주었다. 이는 관련된 회사를 정확하게 찾는 것이 중요함을 다시 한 번 상기시켜주며, 제시한 방법이 기존 연구들보다 우월한 성능을 나타냄을 의미한다.
두 번째, 본 연구에서 제안한 방법으로 주가를 예측하는 방식은, 특히 시장이 정형적으로 갖춰져 있지 않은 가상화폐 시장 같은 곳에서 그들 사이의 관계를 찾고 이를 주가 예측에 반영할 때 큰 도움이 될 수 있다.
마지막으로, 본 연구에서 제시한 방법과 기존연구들이 제시한 방법들을 비교했을 때는 본 논문에서 제시한 방법이 우수한 성능을 보여준다. 이는 기존의 방법들과 약 3%의 정확도 차이를 보이며, 통계적으로 유의미한 차이를 보인다.
그 결과, 본 논문에서 제시한 방법이 각개인의 회사의 뉴스만 가지고 주가를 예측하는것, 혹은 섹터의 모든 뉴스를 가지고 주가를 예측하는 것, K-평균 군집 분석을 관련된 회사를찾고 이를 이용해 주가를 예측하는 것보다 월등한 성과를 보여주었다. 이는 관련된 회사를 정확하게 찾는 것이 중요함을 다시 한 번 상기시켜주며, 제시한 방법이 기존 연구들보다 우월한 성능을 나타냄을 의미한다.
기존 주가 예측 방법론이 정확도를 1% 이상 발전시키기 힘든 점에 비교하였을 때, 이는 매우 큰차이로 보인다. 즉, 무작위 행렬 이론을 통해 관련성이 높은 기업들을 선택한 것이 k-평균 군집분석을 시행하여 관련성이 높은 기업을 추출하는 것보다 동질성이 높은 기업들을 적절하게 찾는다는 점을 시사한다. 즉, 주식 시장에서 시장세분화를 할 때는 무작위 신호와 시장 전체 효과에 대해서 항상 고려해야 하고 이를 제거하는 방법을 찾을 필요가 있다.
본 연구의 기여는 다음과 같다. 첫 번째, 본 연구는 경제물리학에서 주로 사용되던 무작위 행렬 이론이 인공지능과 결합하면 좋은 방법론을 만들어낼 수 있다는 것을 보여주며 단순히 인공지능 알고리즘만을 발전시키는 것이 아닌 물리학 이론을 차용하여 발전시키는 것이 중요함을 시사한다. 이는 이전 엔트로피를 통한 복잡계 형성과 인공지능을 통합하여 방법론을 제시한 Namand Seong (2019)의 연구를 확장한다.
본 연구의 실무적 시사점은 다음과 같다. 첫번째, 본 연구에서 사용한 무작위 행렬 이론은주식 시장에서 정확한 상관계수를 찾는데 사용되었으며, 그 효과를 입증하였다. 이는 포트폴리오를 구성하는 인공지능 알고리즘을 구현할 때 이러한 관계를 추가로 이용할 수 있다.
후속연구
(2) 관련 있는 기업을 찾을 때, 잘못된 방식으로 찾는다면 인공지능 예측 성능을 저하할 수 있다. (3) 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여줄 수 있다.
또한, 현재는 3개의 군집을 가진다고 기존 연구에 따라 선택하였는데, 이는 통계적으로 분석한 것이 아니라 일반화가 힘들다는 단점이 있다. 후속 연구에서는 시장 전체에서 관련성이 높은 기업들을 찾으며, 군집의개수를 통계적으로 분석하는 방법을 함께 사용할 필요가 있다. 두 번째, 본 논문에서는 GICS섹터 중 소재 섹터를 선택하여 연구를 진행하였다.
하지만 이는 소재 섹터의 특성일 수도 있으니 일반화의 문제가 있다. 후속 연구에서는 일반화를 보다 잘 주장하기 위해 시장 전반에서 다양한 섹터에서 진행할 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
무작위 행렬 이론이란?
, 2000). 무작위 행렬 이론은 상관 계수 행렬에 존재하는 무작위 신호를 제거하여 정확한 상관 계수를 추정할 수 있게 해주는 이론이다. 이는 특히 데이터 수가 많은 곳에서 주로 사용된다 (Bun et al.
경제학 기반으로 만든 인공 지능 기법의 문제점은?
따라서 기존 연구에서는 경제학 기반으로 만든 GICS나 k-평균 군집분석과 같은 인공 지능 기법으로 시장을 세분한다 (Aghabozorgi and Teh, 2014; Nam and Seong,2019; Seong and Nam, 2018). 하지만 GICS는 단순히 경제학적으로 회사를 세분한 것일 뿐 주가예측에 유용하게 그들을 군집화한 것이 아니며, 특정 기업이 수동으로 이를 분류하는 것이므로, 시장의 변화에 빠르게 대응하는 군집화 시스템을 구축하지 못한다는 단점이 있다. 또한, 단순한 k-평균 군집 분석은 시장의 노이즈를 고려하지 못하기 때문에 군집 분석이 제대로 이루어지지 않을 수 있다 (Bun et al., 2017).
빅데이터 시대의 특징은?
빅데이터 시대에 정보의 양이 급증하고, 그것을 정량화하여 의미를 찾아낼 수 있는 인공지능 방법론이 함께 발전하면서, 그러한 기술을 주가예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다 (Seong and Nam,2017; Seong and Nam, 2018). 이러한 주가 예측의 방법은 대개 특정 기업에 관련된 뉴스가 나오면 그 뉴스를 이용해 특정 기업의 주가의 방향성을 예측하는 것이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.