[논문]산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측

성노윤; 남기환

doi:10.13088/jiis.2018.24.2.001

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측
Online news-based stock price forecasting considering homogeneity in the industrial sector 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.2, 2018년, pp.1 - 19

성노윤 (한국과학기술원 경영대학 경영공학부) , 남기환 (한양대학교 경영대학 경영학부)

초록
AI-Helper

주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

Abstract ▼ AI-Helper

Since stock movements forecasting is an important issue both academically and practically, studies related to stock price prediction have been actively conducted. The stock price forecasting research is classified into structured data and unstructured data, and it is divided into technical analysis, fundamental analysis and media effect analysis in detail. In the big data era, research on stock price prediction combining big data is actively underway. Based on a large number of data, stock prediction research mainly focuses on machine learning techniques. Especially, research methods that combine the effects of media are attracting attention recently, among which researches that analyze online news and utilize online news to forecast stock prices are becoming main. Previous studies predicting stock prices through online news are mostly sentiment analysis of news, making different corpus for each company, and making a dictionary that predicts stock prices by recording responses according to the past stock price. Therefore, existing studies have examined the impact of online news on individual companies. For example, stock movements of Samsung Electronics are predicted with only online news of Samsung Electronics. In addition, a method of considering influences among highly relevant companies has also been studied recently. For example, stock movements of Samsung Electronics are predicted with news of Samsung Electronics and a highly related company like LG Electronics.These previous studies examine the effects of news of industrial sector with homogeneity on the individual company. In the previous studies, homogeneous industries are classified according to the Global Industrial Classification Standard. In other words, the existing studies were analyzed under the assumption that industries divided into Global Industrial Classification Standard have homogeneity. However, existing studies have limitations in that they do not take into account influential companies with high relevance or reflect the existence of heterogeneity within the same Global Industrial Classification Standard sectors. As a result of our examining the various sectors, it can be seen that there are sectors that show the industrial sectors are not a homogeneous group. To overcome these limitations of existing studies that do not reflect heterogeneity, our study suggests a methodology that reflects the heterogeneous effects of the industrial sector that affect the stock price by applying k-means clustering. Multiple Kernel Learning is mainly used to integrate data with various characteristics. Multiple Kernel Learning has several kernels, each of which receives and predicts different data. To incorporate effects of target firm and its relevant firms simultaneously, we used Multiple Kernel Learning. Each kernel was assigned to predict stock prices with variables of financial news of the industrial group divided by the target firm, K-means cluster analysis. In order to prove that the suggested methodology is appropriate, experiments were conducted through three years of online news and stock prices. The results of this study are as follows. (1) We confirmed that the information of the industrial sectors related to target company also contains meaningful information to predict stock movements of target company and confirmed that machine learning algorithm has better predictive power when considering the news of the relevant companies and target company's news together. (2) It is important to predict stock movements with varying number of clusters according to the level of homogeneity in the industrial sector. In other words, when stock prices are homogeneous in industrial sectors, it is important to use relational effect at the level of industry group without analyzing clusters or to use it in small number of clusters. When the stock price is heterogeneous in industry group, it is important to cluster them into groups. This study has a contribution that we testifie

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 이러한 특성을 기계 학습 기법을 접목해 산업군 내의 동질적인 경향성을 찾고 명확하게 적용할 수 있는 방법을 제안한다. 따라서 본 논문에서는 국제 산업 분류 표준으로 뉴스의 관련성을 측정하는 것을 대체할 방법을 고안한다. 이를 위해 주식의 동향에 따라 군집 분석을 하여, 관련성이 높은 기업들을 선별하여, 이를 기반으로 하여 주가를 예측하였다.
하지만 이 논문에서는 여러 단계에서의 변수들을 동시에 사용하여 예측하지 않아 예측력을 높이지 못했다는 한계점이 있다. 따라서 본 논문에서는 산업군과 특정 회사등 여러 단계의 변수들을 통합하여 사용하기 위하여, 다중커널학습을 사용하였다.
다양한 산업군을 확인해본 결과 기존 연구의 주장과는 다른 결과를 나타내는 산업군 또한 존재함을 알 수 있었다. 본 연구는 이러한 특성을 기계 학습 기법을 접목해 산업군 내의 동질적인 경향성을 찾고 명확하게 적용할 수 있는 방법을 제안한다. 따라서 본 논문에서는 국제 산업 분류 표준으로 뉴스의 관련성을 측정하는 것을 대체할 방법을 고안한다.
본 연구에서는 동질적인 패턴을 보이는 그룹을 찾기 위하여, 주가의 흐름이 비슷한 기업들을 찾았고, 이를 군집 분석을 하여 동질적인 그룹을 구성하였다. 이때, 대상이 된 산업군은 국제 산업 분류 표준 체계에서 소재, 음식료, 제약이었다.
본 연구에서는 산업군 내 이질성을 해결하기 위해 산업군 내에서 군집 분석을 시행하여 동질한 군집을 찾는 과정을 시행한다. 군집 분석을 시행하는 데는 다양한 방법이 있다.
일반적으로는 제목에 회사의 이름이 있거나, 뉴스의 태그의 그 회사의 틱커가 있으면 그 회사에 영향을 주는 정보라고 인식을 한다. 본 연구에서는 영향의 범위를 각 회사와 동질적인 패턴을 보이는 그룹으로 확장하여 각 개별뿐만 아니라 영향력을 줄 수 있는 기업들도 함께 고려하여 예측을 할 때 어떻게 성능이 좋아지는 지에 관하여 연구를 하였다. 본 연구에서 제시한 방법을 다중커널학습방법을 사용하여 예측한 결과 기존의 국제 산업 분류 표준 체계로 예측하거나, 개별 회사 단위로 예측하는 것보다 더 높은 예측률을 보였다.
Schumaker and Chen(2009)은 뉴스 기사와 주식 거래 전문가의 의견 그리고 주식 시세로 데이터를 구성한 후, 서포트 벡터 회귀(Support Vector Regression)로 예측하는 시스템 Arizona Financial Text System(AZFinText)을 제안하였다. 저자는 AZFinText를 사용하여, 효율적으로 데이터를 모으고 문자열 정보로 체계적으로 주가를 예측하는 방법에 대하여 논의하였다. 저자들은 주가에 영향을 미치는 뉴스를 국제 산업 분퓨 표준에 따라 여러 단계로 분리하였다.

가설 설정

후속 연구에서 동질한 군집 내에 있더라도, 다른 관련성을 가지는 형태를 반영하는 연구를 할 수 있을 것이다. 두 번째, 본 논문에서는 주가의 동향을 가지고 군집 분석을 시행하였는데, 이는 주가가 비슷하게 움직인다면 동질성이 높은 주식이라는 가정하에 있다. 하지만, 같은 뉴스가 나올 때 혹은 같은 키워드가 나올 때, 같은 방향성의 움직임을 가지는 주식들이 뉴스로 주가를 예측함에서 동질성이 높은 주식이라고 생각할 수 있다.

제안 방법

이때 비교군은 기존 연구에서 사용되던 두 가지 방법이다. (1) 개별 기업만을 가지고 3가지 커널로 서포트 벡터 머신을 해서 비교를 한다. (2) 군집으로 동질적인 특성을 가지는 그룹을 찾아주는 것이 좋은 결과를 나타낸다는 것을 보여주기 위하여 국제 산업 분류 표준 체계에 기반을 둔 다중커널학습 알고리즘으로 예측하여 비교를하였다.
(2) 군집으로 동질적인 특성을 가지는 그룹을 찾아주는 것이 좋은 결과를 나타낸다는 것을 보여주기 위하여 국제 산업 분류 표준 체계에 기반을 둔 다중커널학습 알고리즘으로 예측하여 비교를하였다.
뉴스 텍스트 데이터, 댓글 수 등을 사용하였다. 각각의 데이터에서 다양한 변수 추출을 하여 다중커널학습을 하였다. 이때, 여러 다른 변수들을 사용하여 합치는 것이 단일 커널들보다 더 뛰어난 효과를 보였다.
따라서 본 논문에서는 Shynkevich et al. (2016)에서처럼 단순히 국제 산업 분류 표준 체계로 주가를 예측하는 것이 아닌, 동질적인 그룹으로 주가 예측을 하는 것이 아닌, 군집 분석을 통해 그룹의 동기화를 높이는 방법을 고안하여, 더 높은 관련성을 가지는 군집으로 주가를 예측하였다.
하지만 복잡한 시스템의 이질성을 줄이기 위해 기업들을 군집 분석으로 동기화를 높여 예측하는 논문은 없었다. 따라서 본 논문에서는 기존 연구에서 사용한 것과 같이 단어 주머니 모형으로 변수를 추출하고 카이스퀘어 변수 선택과 TF-IDF 가중치 준 뒤에 다중커널학습방법을 사용하였다.
(2016) 에서는 같은 국제 산업 분류 표준 체계에 있으면 관련성이 높을 것이라는 가정하에서 시스템을 고안하였으나, 실제로는 같은 업종에 있다고 하더라도 관련성이 높지 않을 수 있다. 따라서 본 논문에서는 단순히 국제 산업 분류 표준 체계를 사용하는 것이 아닌 기계 학습 기법을 사용하여 기업 간의 관련성을 반영하는 방법을 찾았다.
또한 순차적으로 K를 늘려가며 베이지안 정보 기준을(Bayesian Information Criterion) 최대화시키는 방법 또한 있다하지만 본 연구는 일차적으로 동질 산업으로 묶여 있는 상태에서 산업군 내에서 이질적인 점을 잡아내는 것이므로 많은 수의 K는 필요 없는 실정이다. 따라서 본 연구에서는 최근 데이터 마이닝 분야에서 많이 활용 되는 그리드 서치(Grid Search)와 같이 K를 2부터 적용해 봄으로써 최적일 때의 결과를 적용한다. 분석 결과 이미 한 차례 동질적인 산업군으로 구분되었기 때문에 K가 4를 넘어야 최적의 결과를 보이는 것은 없었다.
[Table 3]은 본 실험의 결과를 나타낸다. 먼저, 3장에서 언급한 것과 마찬가지로, 어떤 커널이 텍스트 데이터를 처리하기에 가장 적합한지 알 수 없으므로, 본 논문에서는 Shynkevich et al. (2016)과 마찬가지로 3가지 커널을 조합하여 단일 커널과 2가지 조합 커널을 사용하는 방식을 채택하였다. 이때, [Table 3]의 ‘poly’는 3차 다항 커널, ‘rbf’는 가우시안 커널, ‘lin’은 선형 커널을 의미하며, ‘lp’은 선형 커널과 다항 커널이 사용된 것, ‘rp’는 가우시안 커널, 다항 커널이 사용된 것을 의미하고, ‘lr’은 선형 커널과 가우시안 커널이 된 것을 의미한다.
본 연구에서는 각각의 커널은 대상이 되는 기업과 그 기업과 동질적인 특성을 가지는 기업들을 군집 분석으로 구한 군집에 할당을 한다. 우리의 텍스트 데이터에 어떤 커널이 가장 좋은 성능을 보일지 알지 못해, 선형 커널, 3차 다항 커널, 가우시안 커널과 그 조합들, 선형 가우시안, 다항 가우시안, 선형과 다항을 사용하였다.
본 연구에서는 각각의 커널은 대상이 되는 기업과 그 기업과 동질적인 특성을 가지는 기업들을 군집 분석으로 구한 군집에 할당을 한다. 우리의 텍스트 데이터에 어떤 커널이 가장 좋은 성능을 보일지 알지 못해, 선형 커널, 3차 다항 커널, 가우시안 커널과 그 조합들, 선형 가우시안, 다항 가우시안, 선형과 다항을 사용하였다. 즉, 각각의 회사는 선형 커널, 가우시안 커널, 다항 커널 중 1개 혹은 2개와 자신과 자신이 속한 그룹의 조합으로 최소 2개, 최대 4개의 커널을 할당받는다.
본 연구에서는 2014년 1월부터 2016년 12월까지 총 3년 간의 뉴스 데이터와 3년 간의 주가 데이터를 사용하였다. 이때 검증을 하기 위하여 훈련 기간과 예측 기간을 2년 6개월, 6개월로 설정으로 하여, 훈련 기간 동안 매개 변수를 찾고, 예측 기간 동안 그 결과가 실제 상황에서 잘 맞는지를 확인을 한다. 이때, 실험의 평가 방법은 정확도로 한다.
(2013) 에서는 기업 발표와 금융 뉴스를 자동으로 받아와서 텍스트 마이닝을 통해서 주가를 예측하는 시스템을 구축하였다. 이때, 변수 선택을 위해서 시장 반응을 이용한 카이 제곱 (Chi-square), 이중 정상 분리 (Bi normal separation)을 하였고, 단어 주머니 모형(Bag of Word), 2-Gram 등 여러 가지 변수 추출 방법을 사용하여 높은 예측률을 보여주었다. 본 논문에서는 Hageneu et al.
따라서 본 논문에서는 국제 산업 분류 표준으로 뉴스의 관련성을 측정하는 것을 대체할 방법을 고안한다. 이를 위해 주식의 동향에 따라 군집 분석을 하여, 관련성이 높은 기업들을 선별하여, 이를 기반으로 하여 주가를 예측하였다.
특히, Groth and Muntermann (2011)에서는 인공신경망, 서포트 벡터 머신, 나이브 베이즈, 그리고 K-근접 이웃을 이용하여 결과를 비교하였다. 저자는 기계학습 알고리즘으로 텍스트 분석를 이용한 위기 관리와 투자 의사 결정을 하였다. 저자는 결과와 시간의 효율성을 모두 고려할 때, 서포트 벡터 머신을 추천하였다.
저자들은 주가에 영향을 미치는 뉴스를 국제 산업 분퓨 표준에 따라 여러 단계로 분리하였다. 저자는 기업과 관련있는 산업군, 산업그룹, 산업, 하위산업, 특정 회사의 뉴스 기사를 전부 사용하여, 각각의 문자열 데이터로 주가를 예측하였다. 그 결과 특정 회사에 관련있는 뉴스뿐만 아니라, 산업군 기반 뉴스 데이터 등의 데이터도 주가를 예측함에 유효함을 보여주었다.
저자는 국제산업 분류 표준 기반의 뉴스 그룹을 만들어 주가를 예측하였다. 즉, 기업과 관련이 있는 산업군 기반, 산업그룹 기반, 하위 산업 기반, 그룹 기반, 특정 회사의 뉴스 기사를 전부 사용하여 다중커널학습을 사용하여 비교하였다. 그 결과 다른 수준의 관련성을 함께 고려하여 주가를 예측하는 경우 주가를 특정 주식만으로 예측하는 것보다 뛰어난 결과를 보여주었다.
하지만 본 연구는 다음과 같은 한계점을 가진다. 첫 번째, 본 논문에서는 K-평균 군집 분석을 시행하였는데, 이는 동질한 그룹을 찾을 수 있지만, 그 안에서 계층적 구조를 알기 어렵고, 기업간의 거리를 반영하기 힘들다는 단점이 있다. 후속 연구에서 동질한 군집 내에 있더라도, 다른 관련성을 가지는 형태를 반영하는 연구를 할 수 있을 것이다.

대상 데이터

데이터는 2014년 1월 1일부터 2016년 12월 31일의 금융 뉴스와 주가 데이터로 이루어져 있다. 뉴스 정보를 구축하기 위해서 한국 최대 포털사이트 네이버에 등록된 10개의 종합 신문과 14개의 방송 통신 신문과 9개의 경제 신문, 총 33개의 인터넷 뉴스의 모든 금융, 경제 관련 뉴스를 크롤링하였다. 이는 한국에서 대중이 접할 수 있는 대다수의 금융 뉴스를 포함한 정보로, 금융 뉴스가 미치는 영향을 파악하기 좋은 데이터이다.
(2011) 에서는 여러 가지의 정보를 통합하여 주가를 예측하는 시스템을 구축하였다. 뉴스 텍스트 데이터, 댓글 수 등을 사용하였다. 각각의 데이터에서 다양한 변수 추출을 하여 다중커널학습을 하였다.
본 논문에서 제시하는 방법이 실제로 효과가 있는 지를 검증하기 위하여 실제 데이터를 가지고 실험을 하였다. 데이터는 2014년 1월 1일부터 2016년 12월 31일의 금융 뉴스와 주가 데이터로 이루어져 있다. 뉴스 정보를 구축하기 위해서 한국 최대 포털사이트 네이버에 등록된 10개의 종합 신문과 14개의 방송 통신 신문과 9개의 경제 신문, 총 33개의 인터넷 뉴스의 모든 금융, 경제 관련 뉴스를 크롤링하였다.
본 논문에서 제시하는 방법이 실제로 효과가 있는 지를 검증하기 위하여 실제 데이터를 가지고 실험을 하였다. 데이터는 2014년 1월 1일부터 2016년 12월 31일의 금융 뉴스와 주가 데이터로 이루어져 있다.
본 연구에서는 2014년 1월부터 2016년 12월까지 총 3년 간의 뉴스 데이터와 3년 간의 주가 데이터를 사용하였다. 이때 검증을 하기 위하여 훈련 기간과 예측 기간을 2년 6개월, 6개월로 설정으로 하여, 훈련 기간 동안 매개 변수를 찾고, 예측 기간 동안 그 결과가 실제 상황에서 잘 맞는지를 확인을 한다.
이는 한국에서 대중이 접할 수 있는 대다수의 금융 뉴스를 포함한 정보로, 금융 뉴스가 미치는 영향을 파악하기 좋은 데이터이다. 이 기간에 크롤링된 뉴스는 중복된 것을 제외하자 데이터는 총 1,397,800개 있었다. 뉴스 데이터의 형식은 분류(경제, 금융, 정치), 제목, 작성이, 작성 시간, 내용이 있다.

데이터처리

각 실험은 세그멘 테이션의 초기값을 변경하고 각종 매개 변수 값들을 변경해 가며 100차례 실험을 수행하였으며, 이를 기반으로 통계적 유의미한 차이가 존재하는지를 티 검증(t-test)을 통해 확인할 수 있었다.

이론/모형

(2013) 에서 그 효율성과 정확도를 입증하였다. 따라서 본 논문에서는 단어 주머니 모형을 사용한다. 단어 주머니 모형을 수행하기 위해서, 이메일 등 의미 없는 문자열을 먼저 제거하고, 형태소 분석을 통해 구두점 등을 제거하며 단어들의 원형을 찾는다.
그중에서도 사용하기 간단하고, 많은 데이터를 처리하기 좋으며, 널리 사용되는 알고리즘은 k-평균이다. 따라서 본 논문에서는 산업군내 이질성을 해결하기 위해 K-평균 컬러스터링을 사용하였다.
변수 추출(feature extraction), 변수 선택(feature selection), 변수 표현(feature representation)이다. 문자열 사전 처리은 Hagenau et al. (2013) 연구에서 제시한 방법을 사용하였다.
변수 선택을 거친 후, 각각의 변수에 가중치를 주게 되는 데, 이는 2장에서 언급한 TF-IDF 방법을 사용한다. 단 이때, TF-IDF를 거치면 변수의 값들이 너무 작게 되어 기계 학습을 효율적으로 하기 위해서 단위 조정이 필요하다.
본 논문에서는 Hageneu et al. (2013) 에서 사용한 단어 주머니 모형에 카이제곱 변수 선택과 TF-IDF(Term Frequency – Inverse Document Frequency) 가중치를 사용하였다.
이 방법은 기존에 최고의 방법으로 생각되는 SPF-GMKL(Jain et al., 2012)보다 여러 가지 데이터에서 월등한 AUC 점수를 보였을 뿐만 아니라, 더 효율적인 메모리 사용량을 보이기에 본 연구에서는 EasyMKL을 사용하였다 (Aiolli and Donini, 2015).
다중커널학습은 여러 가지 커널을 가져, 각각의 커널이 다른 데이터를 받아들여 예측한다. 이때, 각 커널의 가중치를 잘 조절해 주는 것이 중요한데, 이를 해결하기 위해서, 본 논문에서는 EasyMKL 방법을 사용하였다 (Aiolli and Donini, 2015). 각각의 커널은 대상 기업, K-평균 군집 분석으로 나눈 산업군의 금융 뉴스의 변수(feature)들로 주가를 예측하는데 할당되었다.
이때, 서포트 벡터 회귀(Support Vector Regression)는 하나의 특성을 가지는 데이터만을 사용할 수 있으므로, 이 한계점을 극복하고자 앙상블 방법의 하나인 다중커널 학습을 하여 단일의 커널을 사용한 서포트 벡터 회귀보다 더 좋은 결과를 보여주었다. 이에 따라, 본 논문에서도 다양한 특성을 가지는 데이터를 통합하기 위해 다중커널학습을 사용한다.
이와 같은 과정을 반복하며 k개의 중심을 고른다. 이와 같은 초깃값 설정 알고리즘을 k-평균++(Arthur and Vassilvitskii, 2007)이라 하는데, k-평균++는 데이터가 많아질수록 시간이 기하급수적으로 많이 걸리는 k-평균 군집 분석의 문제점을 해결하였기에 본 논문에서는 효율적인 계산을 위해 k-평균++을 사용하였다.

성능/효과

‘Sector’와 본 논문에서 제시한 군집 분석 방식을 비교한다면, 음식료 산업군에서는 ‘Sector’가 0.60749로 가장 좋은 값을 보여줌을 알 수 있고, 제약 산업군에서는 그룹 K= 2와 그룹 K= 3이 평균적으로 같은 예측력을 보인다는 것을 알 수 있으며, 소재 산업군에서는 그룹 K= 4가 가장 좋은 예측력을 보여준다는 것을 알 수 있다.
본 논문의 결과는 다음과 같다. (1) 자신과 관련 있는 회사들로 묶인 산업군의 정보 또한 유의미한 정보를 포함한다는 것을 확인하였으며, 관련성 있는 기업의 뉴스와 자신의 뉴스를 함께 고려할 때 더 뛰어난 예측력을 가진다는 것을 확인하였다. (2) 산업군 내에 주가가 어느 수준의 동질성을 가지는지에 따라, 군집의 수를 다르게 하여 예측하는 것이 중요하다는 것이다.
즉, 기업과 관련이 있는 산업군 기반, 산업그룹 기반, 하위 산업 기반, 그룹 기반, 특정 회사의 뉴스 기사를 전부 사용하여 다중커널학습을 사용하여 비교하였다. 그 결과 다른 수준의 관련성을 함께 고려하여 주가를 예측하는 경우 주가를 특정 주식만으로 예측하는 것보다 뛰어난 결과를 보여주었다. 하지만, Shynkevich et al.
저자는 기업과 관련있는 산업군, 산업그룹, 산업, 하위산업, 특정 회사의 뉴스 기사를 전부 사용하여, 각각의 문자열 데이터로 주가를 예측하였다. 그 결과 특정 회사에 관련있는 뉴스뿐만 아니라, 산업군 기반 뉴스 데이터 등의 데이터도 주가를 예측함에 유효함을 보여주었다. 하지만 이 논문에서는 여러 단계에서의 변수들을 동시에 사용하여 예측하지 않아 예측력을 높이지 못했다는 한계점이 있다.
하지만 기존 연구에서는 이러한 다양한 형태의 산업군의 특성을 모두 살펴보지 못하고 동질성을 띠는 산업군에 관해서만 연구를 진행하였다. 다양한 산업군을 확인해본 결과 기존 연구의 주장과는 다른 결과를 나타내는 산업군 또한 존재함을 알 수 있었다. 본 연구는 이러한 특성을 기계 학습 기법을 접목해 산업군 내의 동질적인 경향성을 찾고 명확하게 적용할 수 있는 방법을 제안한다.
첫 번째, 본 연구는 기존에 국제 산업 분류 표준에서 같은 산업군으로 나누어진 기업들이 이질성을 가진다는 것을 밝힘으로써, 관련성을 단순히 국제 산업 분류 표준에서 정의하는 것이 아닌, 기계 학습 및 통계적 분석 방법론을 통해 정의하는 것이 필요하다는 것을 밝혀냈다. 두 번째, 산업군 내에 이질성이 클수록 더 많은 군집으로 나누어 예측해야 한다는 것을 밝힘으로써, 이질성을 반영한 예측 모형의 효율성을 입증하였다.
본 연구에서는 영향의 범위를 각 회사와 동질적인 패턴을 보이는 그룹으로 확장하여 각 개별뿐만 아니라 영향력을 줄 수 있는 기업들도 함께 고려하여 예측을 할 때 어떻게 성능이 좋아지는 지에 관하여 연구를 하였다. 본 연구에서 제시한 방법을 다중커널학습방법을 사용하여 예측한 결과 기존의 국제 산업 분류 표준 체계로 예측하거나, 개별 회사 단위로 예측하는 것보다 더 높은 예측률을 보였다.
(2016) 에서는 국제 산업 분류 표준 체계에 기반을 두어 다른 관련성을 가지는 여러 금융 그룹들의 뉴스 데이터를 다중커널학습을 사용하여 주가를 예측하였다. 이때, 기업의 뉴스 데이터만을 사용한 것 보다, 관련성을 가지는 기업들의 뉴스들의 텍스트를 사용하여 예측하는 것이 더 뛰어난 예측 결과를 나타내었다. 하지만 복잡한 시스템의 이질성을 줄이기 위해 기업들을 군집 분석으로 동기화를 높여 예측하는 논문은 없었다.
소재 산업군는 산업군 내에서 기업들의 주가 분산이 커, 이질성이 크며, 음식료와 제약은 이질성이 작았다. 이때, 본 연구에서 주장하는 바와 같이 산업군 내에서 이질성이 큰 그룹에서는 군집 분석을 하여 동질적인 그룹을 만들어 예측하는 것이 도움되며, 이질적인 작은 그룹에서는 산업군 자체로 예측을 하는 것이 도움된다는 것을 볼 수 있었다.
(2011) 에서는 소셜 네트워크 서비스 (Social Network Service)의 감성 분석, 기술적 분석, 뉴스의 수치적 특성과 같은 다양한 특성을 가지는 데이터를 이용하여 주가를 예측하는 알고리즘을 고안하였다. 이때, 서포트 벡터 회귀(Support Vector Regression)는 하나의 특성을 가지는 데이터만을 사용할 수 있으므로, 이 한계점을 극복하고자 앙상블 방법의 하나인 다중커널 학습을 하여 단일의 커널을 사용한 서포트 벡터 회귀보다 더 좋은 결과를 보여주었다. 이에 따라, 본 논문에서도 다양한 특성을 가지는 데이터를 통합하기 위해 다중커널학습을 사용한다.
각각의 데이터에서 다양한 변수 추출을 하여 다중커널학습을 하였다. 이때, 여러 다른 변수들을 사용하여 합치는 것이 단일 커널들보다 더 뛰어난 효과를 보였다. 또한, Wang et al.
(2011)에서는 자기 구성 지도를 이용한 시계열 군집화를 하여, 시계열을 예측하는 모델을 실험하였다. 이때, 이질적인 특성을 가지는 시계열을 군집화를 하지 않은 것 보다, 군집화를 하여 같은 알고리즘으로 예측한 것이 월등한 결과를 보였다.
본 연구의 기여는 다음과 같다. 첫 번째, 본 연구는 기존에 국제 산업 분류 표준에서 같은 산업군으로 나누어진 기업들이 이질성을 가진다는 것을 밝힘으로써, 관련성을 단순히 국제 산업 분류 표준에서 정의하는 것이 아닌, 기계 학습 및 통계적 분석 방법론을 통해 정의하는 것이 필요하다는 것을 밝혀냈다. 두 번째, 산업군 내에 이질성이 클수록 더 많은 군집으로 나누어 예측해야 한다는 것을 밝힘으로써, 이질성을 반영한 예측 모형의 효율성을 입증하였다.

후속연구

하지만, 같은 뉴스가 나올 때 혹은 같은 키워드가 나올 때, 같은 방향성의 움직임을 가지는 주식들이 뉴스로 주가를 예측함에서 동질성이 높은 주식이라고 생각할 수 있다. 이 점을 반영한 연구를 후속 연구로 진행할 수 있을 것이다.
그 결과 특정 회사에 관련있는 뉴스뿐만 아니라, 산업군 기반 뉴스 데이터 등의 데이터도 주가를 예측함에 유효함을 보여주었다. 하지만 이 논문에서는 여러 단계에서의 변수들을 동시에 사용하여 예측하지 않아 예측력을 높이지 못했다는 한계점이 있다. 따라서 본 논문에서는 산업군과 특정 회사등 여러 단계의 변수들을 통합하여 사용하기 위하여, 다중커널학습을 사용하였다.
첫 번째, 본 논문에서는 K-평균 군집 분석을 시행하였는데, 이는 동질한 그룹을 찾을 수 있지만, 그 안에서 계층적 구조를 알기 어렵고, 기업간의 거리를 반영하기 힘들다는 단점이 있다. 후속 연구에서 동질한 군집 내에 있더라도, 다른 관련성을 가지는 형태를 반영하는 연구를 할 수 있을 것이다. 두 번째, 본 논문에서는 주가의 동향을 가지고 군집 분석을 시행하였는데, 이는 주가가 비슷하게 움직인다면 동질성이 높은 주식이라는 가정하에 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	변수 선택은 무엇인가?	변수 선택은 단어 주머니 모형에서 찾아낸 수 많은 변수 중에서 주가에 영향을 미치는 것들을 골라내는 것이다. 예를 들어, 형태소 분석을 통해 나온 결과가 변수 추출 단계의 결과인데, ‘를’, ‘을’ 등은 주가의 방향성을 예측하는 데 도움을 주지 않고, ‘호재’와 같은 단어는 영향을 줄 것이다.
	텍스트 마이닝을 통한 주가 예측 분야에서 가장 많이 사용되는 변수 추출방법은 무엇인가?	Nassirtoussi et al. (2014) 에 따르면, 단어 주머니 접근법이 텍스트 마이닝을 통한 주가 예측분야에서 가장 많이 사용되는 변수 추출방법이며, Hagenau et al.(2013) 에서 그 효율성과 정확도를 입증하였다.
	Mittermayer는 텍스트 사전 처리 과정을 어떻게 나타냈는가?	Mittermayer(2004)는 텍스트 사전 처리를 3가지로 나타내었다. 변수 추출(feature extraction), 변수 선택(feature selection), 변수 표현(feature representation)이다. 문자열 사전 처리은 Hagenau et al.

참고문헌 (31)

Aiolli, F., and M. Donini, "EasyMKL: a scalable multiple kernel learning algorithm," Neurocomputing, Vol. 169, (2015), 215-224.

상세보기
Arthur, D. and S. Vassilvitskii, "k-means++: the advantages of careful seeding". Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. (2007), 1027-1035.
Cherif, A., H. Cardot, and R. Bone, "SOM time series clustering and prediction with recurrent neural networks," Neurocomputing, Vol. 74, No. 11(2011), 1936-1944.

상세보기
Deng, S., T. Mitsubuchi, K. Shioda, T. Shimada, and A. Sakurai, "Combining technical analysis with sentiment analysis for stock price prediction," In Dependable, Autonomic and Secure Computing (DASC), 2011 IEEE Ninth International Conference on (2011), 800-807.
Ester, M., H. P. Kriegel, J. Sander, and X. Xu, "A density-based algorithm for discovering clusters in large spatial databases with noise," In Kdd, Vol. 96, No. 34(1996), 226-231.
Fung, G. P. C., J. X. Yu, and H. Lu, "The Predicting Power of Textual Information on Financial Markets," IEEE Intelligent Informatics Bulletin, Vol. 5, No. 1(2005), 1-10.
Gidofalvi, G., and C. Elkan, "Using news articles to predict stock price movements," Department of Computer Science and Engineering, University of California, San Diego, (2001).
Groth, S. S., and J. Muntermann, "An intraday market risk management approach based on textual analysis," Decision Support Systems, Vol. 50, No. 4(2011), 680-691.

상세보기
Hagenau, M., M. Liebmann, and D. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," Decision Support Systems, Vol. 55, No. 3(2013), 685-697.

상세보기
Jain, A. K., "Data clustering: 50 years beyond K-means," Pattern recognition letters, Vol. 31, No. 8(2010), 651-666.

상세보기
Jain, A., S. V. Vishwanathan, and M. Varma, "SPF-GMKL: generalized multiple kernel learning with a million kernels," In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, (2012), 750-758.
Jeong, J. S., D. S. Kim, and J. W. Kim, "Influence analysis of Internet buzz to corporate performance: Individual stock price prediction using sentiment analysis of online news", Journal of Intelligence and Information Systems, Vol. 21, No. 4 (2015), 37-51.
Kim, Y.-S., N.-G. Kim, and S.-R. Jeong, "Stock-Index Invest Model Using News Big Data Opinion Mining", Journal of Intelligence and Information Systems, Vol. 18, No. 2(2012), 143-156.
Lazarsfeld, P.F. and Henry, N.W., "Latent structure analysis", Boston: Houghton Miffli, (1968)
Lee, D. J., J. H. Yeon, I. B. Hwang, and S. G. Lee, "KKMA: a tool for utilizing Sejong corpus based on relational database," Journal of KIISE: Computing Practices and Letters, Vol. 16, No. 11(2010), 1046-1050.
Lee, M. and H. J. Lee, "Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach", Journal of Intelligence and Information Systems, Vol. 23, No. 2(2017), 123-138.
Li, Q., T. Wang, P. Li, L. Liu, Q. Gong, and Y. Chen, "The effect of news and public mood on stock movements," Information Sciences, Vol. 278, (2014), 826-840.

상세보기
Li, X., C. Wang, J. Dong, and F. Wang, "Improving stock market prediction by integrating both market news and stock prices," Database and Expert Systems Applications, Lecture Notes in Computer Science, Vol. 6861 (2011), 279-293.
MacQueen, J., "Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability," Vol. 1, No. 14(1967) 281-297.
Mittermayer, M., "Forecasting intraday stock price trends with text mining techniques," Proceedings of the 37th Annual Hawaii International Conference on System Sciences, (2004), 1-10.
Motter, A. E., C. S. Zhou, and J. Kurths, "Enhancing complex-network synchronization," EPL(Europhysics Letters), Vol. 69, No. 3 (2005), 334.

상세보기
Nassirtoussi, A.K., T.Y. Wah, S.R. Aghabozorgi, and D.N.C. Ling, "Text mining for market prediction: a systematic review," Expert Systems with Applications, Vol. 41, No. 16(2014), 7653-7670.

상세보기
Ng, R. T., and J. Han, "Efficient and effective clustering method for spatial data mining," In Proceedings of VLDB (1994), 144-155.
Rousseeuw, P. J., "Silhouettes: a graphical aid to the interpretation and validation of cluster analysis," Journal of computational and applied mathematics, Vol. 20 (1987), 53-65.

상세보기
Schumaker, R. P., and H. Chen, "A quantitative stock prediction system based on financial news," Information Processing & Management, Vol. 45, No. 5(2009), 571-583.

상세보기
Shynkevich, Y., T. M. McGinnity, S. A. Coleman, and A. Belatreche, "Forecasting movements of health-care stock prices based on different categories of news articles using multiple kernel learning," Decision Support Systems, Vol. 85, (2016), 74-83.

상세보기
Sun, Z., N. Ampornpunt, M. Varma, and S. Vishwanathan, "Multiple kernel learning and the SMO algorithm," In Advances in neural information processing systems, (2010), 2361-2369.
Wang, F., L. Liu, and C. Dou, "Stock market volatility prediction: a service-oriented multi-kernel learning approach," 2012 IEEE Ninth International Conference on In Services Computing (SCC) (2012), 49-56.
Yeh, C.-Y., C.-W. Huang, and S.-J. Lee, A multiple-kernel support vector regression approach for stock market price forecasting, Expert Systems with Applications, Vol. 38, No. 3(2011), 2177-2186.

상세보기
Zhai, Y., A. Hsu, and S. K. Halgamuge, "Combining news and technical indicators in daily stock price trends prediction," In Proceedings of the 4th international symposium on neural networks: advances in neural networks, Part III (2007), 1087-1096.
Zhang, T., R. Ramakrishnan, and M. Livny, "BIRCH: an efficient data clustering method for very large databases," In ACM Sigmod Record Vol. 25, No. 2(1996), 103-114.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증