$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측
Online news-based stock price forecasting considering homogeneity in the industrial sector 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.2, 2018년, pp.1 - 19  

성노윤 (한국과학기술원 경영대학 경영공학부) ,  남기환 (한양대학교 경영대학 경영학부)

초록
AI-Helper 아이콘AI-Helper

주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

Abstract AI-Helper 아이콘AI-Helper

Since stock movements forecasting is an important issue both academically and practically, studies related to stock price prediction have been actively conducted. The stock price forecasting research is classified into structured data and unstructured data, and it is divided into technical analysis,...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 이러한 특성을 기계 학습 기법을 접목해 산업군 내의 동질적인 경향성을 찾고 명확하게 적용할 수 있는 방법을 제안한다. 따라서 본 논문에서는 국제 산업 분류 표준으로 뉴스의 관련성을 측정하는 것을 대체할 방법을 고안한다. 이를 위해 주식의 동향에 따라 군집 분석을 하여, 관련성이 높은 기업들을 선별하여, 이를 기반으로 하여 주가를 예측하였다.
  • 하지만 이 논문에서는 여러 단계에서의 변수들을 동시에 사용하여 예측하지 않아 예측력을 높이지 못했다는 한계점이 있다. 따라서 본 논문에서는 산업군과 특정 회사등 여러 단계의 변수들을 통합하여 사용하기 위하여, 다중커널학습을 사용하였다
  • 다양한 산업군을 확인해본 결과 기존 연구의 주장과는 다른 결과를 나타내는 산업군 또한 존재함을 알 수 있었다. 본 연구는 이러한 특성을 기계 학습 기법을 접목해 산업군 내의 동질적인 경향성을 찾고 명확하게 적용할 수 있는 방법을 제안한다. 따라서 본 논문에서는 국제 산업 분류 표준으로 뉴스의 관련성을 측정하는 것을 대체할 방법을 고안한다.
  • 본 연구에서는 동질적인 패턴을 보이는 그룹을 찾기 위하여, 주가의 흐름이 비슷한 기업들을 찾았고, 이를 군집 분석을 하여 동질적인 그룹을 구성하였다. 이때, 대상이 된 산업군은 국제 산업 분류 표준 체계에서 소재, 음식료, 제약이었다.
  • 본 연구에서는 산업군 내 이질성을 해결하기 위해 산업군 내에서 군집 분석을 시행하여 동질한 군집을 찾는 과정을 시행한다. 군집 분석을 시행하는 데는 다양한 방법이 있다.
  • 일반적으로는 제목에 회사의 이름이 있거나, 뉴스의 태그의 그 회사의 틱커가 있으면 그 회사에 영향을 주는 정보라고 인식을 한다. 본 연구에서는 영향의 범위를 각 회사와 동질적인 패턴을 보이는 그룹으로 확장하여 각 개별뿐만 아니라 영향력을 줄 수 있는 기업들도 함께 고려하여 예측을 할 때 어떻게 성능이 좋아지는 지에 관하여 연구를 하였다. 본 연구에서 제시한 방법을 다중커널학습방법을 사용하여 예측한 결과 기존의 국제 산업 분류 표준 체계로 예측하거나, 개별 회사 단위로 예측하는 것보다 더 높은 예측률을 보였다.
  • Schumaker and Chen(2009)은 뉴스 기사와 주식 거래 전문가의 의견 그리고 주식 시세로 데이터를 구성한 후, 서포트 벡터 회귀(Support Vector Regression)로 예측하는 시스템 Arizona Financial Text System(AZFinText)을 제안하였다. 저자는 AZFinText를 사용하여, 효율적으로 데이터를 모으고 문자열 정보로 체계적으로 주가를 예측하는 방법에 대하여 논의하였다. 저자들은 주가에 영향을 미치는 뉴스를 국제 산업 분퓨 표준에 따라 여러 단계로 분리하였다.

가설 설정

  • 후속 연구에서 동질한 군집 내에 있더라도, 다른 관련성을 가지는 형태를 반영하는 연구를 할 수 있을 것이다. 두 번째, 본 논문에서는 주가의 동향을 가지고 군집 분석을 시행하였는데, 이는 주가가 비슷하게 움직인다면 동질성이 높은 주식이라는 가정하에 있다. 하지만, 같은 뉴스가 나올 때 혹은 같은 키워드가 나올 때, 같은 방향성의 움직임을 가지는 주식들이 뉴스로 주가를 예측함에서 동질성이 높은 주식이라고 생각할 수 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
변수 선택은 무엇인가? 변수 선택은 단어 주머니 모형에서 찾아낸 수 많은 변수 중에서 주가에 영향을 미치는 것들을 골라내는 것이다. 예를 들어, 형태소 분석을 통해 나온 결과가 변수 추출 단계의 결과인데, ‘를’, ‘을’ 등은 주가의 방향성을 예측하는 데 도움을 주지 않고, ‘호재’와 같은 단어는 영향을 줄 것이다.
텍스트 마이닝을 통한 주가 예측 분야에서 가장 많이 사용되는 변수 추출방법은 무엇인가? Nassirtoussi et al. (2014) 에 따르면, 단어 주머니 접근법이 텍스트 마이닝을 통한 주가 예측분야에서 가장 많이 사용되는 변수 추출방법이며, Hagenau et al.(2013) 에서 그 효율성과 정확도를 입증하였다.
Mittermayer는 텍스트 사전 처리 과정을 어떻게 나타냈는가? Mittermayer(2004)는 텍스트 사전 처리를 3가지로 나타내었다. 변수 추출(feature extraction), 변수 선택(feature selection), 변수 표현(feature representation)이다. 문자열 사전 처리은 Hagenau et al.
질의응답 정보가 도움이 되었나요?

참고문헌 (31)

  1. Aiolli, F., and M. Donini, "EasyMKL: a scalable multiple kernel learning algorithm," Neurocomputing, Vol. 169, (2015), 215-224. 

  2. Arthur, D. and S. Vassilvitskii, "k-means++: the advantages of careful seeding". Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. (2007), 1027-1035. 

  3. Cherif, A., H. Cardot, and R. Bone, "SOM time series clustering and prediction with recurrent neural networks," Neurocomputing, Vol. 74, No. 11(2011), 1936-1944. 

  4. Deng, S., T. Mitsubuchi, K. Shioda, T. Shimada, and A. Sakurai, "Combining technical analysis with sentiment analysis for stock price prediction," In Dependable, Autonomic and Secure Computing (DASC), 2011 IEEE Ninth International Conference on (2011), 800-807. 

  5. Ester, M., H. P. Kriegel, J. Sander, and X. Xu, "A density-based algorithm for discovering clusters in large spatial databases with noise," In Kdd, Vol. 96, No. 34(1996), 226-231. 

  6. Fung, G. P. C., J. X. Yu, and H. Lu, "The Predicting Power of Textual Information on Financial Markets," IEEE Intelligent Informatics Bulletin, Vol. 5, No. 1(2005), 1-10. 

  7. Gidofalvi, G., and C. Elkan, "Using news articles to predict stock price movements," Department of Computer Science and Engineering, University of California, San Diego, (2001). 

  8. Groth, S. S., and J. Muntermann, "An intraday market risk management approach based on textual analysis," Decision Support Systems, Vol. 50, No. 4(2011), 680-691. 

  9. Hagenau, M., M. Liebmann, and D. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," Decision Support Systems, Vol. 55, No. 3(2013), 685-697. 

  10. Jain, A. K., "Data clustering: 50 years beyond K-means," Pattern recognition letters, Vol. 31, No. 8(2010), 651-666. 

  11. Jain, A., S. V. Vishwanathan, and M. Varma, "SPF-GMKL: generalized multiple kernel learning with a million kernels," In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, (2012), 750-758. 

  12. Jeong, J. S., D. S. Kim, and J. W. Kim, "Influence analysis of Internet buzz to corporate performance: Individual stock price prediction using sentiment analysis of online news", Journal of Intelligence and Information Systems, Vol. 21, No. 4 (2015), 37-51. 

  13. Kim, Y.-S., N.-G. Kim, and S.-R. Jeong, "Stock-Index Invest Model Using News Big Data Opinion Mining", Journal of Intelligence and Information Systems, Vol. 18, No. 2(2012), 143-156. 

  14. Lazarsfeld, P.F. and Henry, N.W., "Latent structure analysis", Boston: Houghton Miffli, (1968) 

  15. Lee, D. J., J. H. Yeon, I. B. Hwang, and S. G. Lee, "KKMA: a tool for utilizing Sejong corpus based on relational database," Journal of KIISE: Computing Practices and Letters, Vol. 16, No. 11(2010), 1046-1050. 

  16. Lee, M. and H. J. Lee, "Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach", Journal of Intelligence and Information Systems, Vol. 23, No. 2(2017), 123-138. 

  17. Li, Q., T. Wang, P. Li, L. Liu, Q. Gong, and Y. Chen, "The effect of news and public mood on stock movements," Information Sciences, Vol. 278, (2014), 826-840. 

  18. Li, X., C. Wang, J. Dong, and F. Wang, "Improving stock market prediction by integrating both market news and stock prices," Database and Expert Systems Applications, Lecture Notes in Computer Science, Vol. 6861 (2011), 279-293. 

  19. MacQueen, J., "Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability," Vol. 1, No. 14(1967) 281-297. 

  20. Mittermayer, M., "Forecasting intraday stock price trends with text mining techniques," Proceedings of the 37th Annual Hawaii International Conference on System Sciences, (2004), 1-10. 

  21. Motter, A. E., C. S. Zhou, and J. Kurths, "Enhancing complex-network synchronization," EPL(Europhysics Letters), Vol. 69, No. 3 (2005), 334. 

  22. Nassirtoussi, A.K., T.Y. Wah, S.R. Aghabozorgi, and D.N.C. Ling, "Text mining for market prediction: a systematic review," Expert Systems with Applications, Vol. 41, No. 16(2014), 7653-7670. 

  23. Ng, R. T., and J. Han, "Efficient and effective clustering method for spatial data mining," In Proceedings of VLDB (1994), 144-155. 

  24. Rousseeuw, P. J., "Silhouettes: a graphical aid to the interpretation and validation of cluster analysis," Journal of computational and applied mathematics, Vol. 20 (1987), 53-65. 

  25. Schumaker, R. P., and H. Chen, "A quantitative stock prediction system based on financial news," Information Processing & Management, Vol. 45, No. 5(2009), 571-583. 

  26. Shynkevich, Y., T. M. McGinnity, S. A. Coleman, and A. Belatreche, "Forecasting movements of health-care stock prices based on different categories of news articles using multiple kernel learning," Decision Support Systems, Vol. 85, (2016), 74-83. 

  27. Sun, Z., N. Ampornpunt, M. Varma, and S. Vishwanathan, "Multiple kernel learning and the SMO algorithm," In Advances in neural information processing systems, (2010), 2361-2369. 

  28. Wang, F., L. Liu, and C. Dou, "Stock market volatility prediction: a service-oriented multi-kernel learning approach," 2012 IEEE Ninth International Conference on In Services Computing (SCC) (2012), 49-56. 

  29. Yeh, C.-Y., C.-W. Huang, and S.-J. Lee, A multiple-kernel support vector regression approach for stock market price forecasting, Expert Systems with Applications, Vol. 38, No. 3(2011), 2177-2186. 

  30. Zhai, Y., A. Hsu, and S. K. Halgamuge, "Combining news and technical indicators in daily stock price trends prediction," In Proceedings of the 4th international symposium on neural networks: advances in neural networks, Part III (2007), 1087-1096. 

  31. Zhang, T., R. Ramakrishnan, and M. Livny, "BIRCH: an efficient data clustering method for very large databases," In ACM Sigmod Record Vol. 25, No. 2(1996), 103-114. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로