[논문]Prediction of Stock Returns from News Article's Recommended Stocks Using XGBoost and LightGBM Models

Yoo-jin Hwang; Seung-yeon Son; Zoon-ky Lee

doi:10.9708/jksci.2024.29.02.051

Prediction of Stock Returns from News Article's Recommended Stocks Using XGBoost and LightGBM Models 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.29 no.2, 2024년, pp.51 - 59

Yoo-jin Hwang (Graduate School of Information, Yonsei University) , Seung-yeon Son (Graduate School of Information, Yonsei University) , Zoon-ky Lee (Graduate School of Information, Yonsei University)

초록
AI-Helper

투자자는 수익의 극대화를 위해 언론사의 기사를 포함한 다양한 정보를 활용하여 투자 전략을 수립한다. 이에 국내 언론사에서도 신뢰도 있는 투자정보를 제공하기 위해, 애널리스트의 종목분석 보고서에 기초한 종목 추천기사를 게재하고 있다. 본 연구에서는 종목 추천기사 게재를 하나의 사건(event)으로 간주하고, XGBoost와 LightGBM 모델을 활용하여 기사 게재 10일 이후 가격의 상승 또는 하락을 예측하는 분류 모델을 제시한다. 또한, 전체 추천종목을 유가증권시장과 코스닥 시장 및 기업규모(대형/소형)에 따라 4가지로 분류하고, 하위 그룹에 따라 모델의 예측 정확도에 차이가 있는지 파악하고자 한다. 학습 결과 전체 모델의 분류 정확도는 XGBoost 75%, LightGBM 71%로 나타났고, 예측 정확도는 유가증권 시장 예측력이 코스닥시장 주식 대비 높게 나타났으며, 대형주의 예측력이 소형주 보다 높게 나타났다. 마지막으로, SHAP(Shapley Additive exPlanations) 분석을 통해 개별 모델의 예측에 중요한 변수를 살펴보고 모델의 해석력을 제고하였다.

Abstract ▼ AI-Helper

This study examines the relationship between the release of the news and the individual stock returns. Investors utilize a variety of information sources to maximize stock returns when establishing investment strategies. News companies publish their articles based on stock recommendation reports of analysts, enhancing the reliability of the information. Defining release of a stock-recommendation news article as an event, we examine its economic impacts and propose a binary classification model that predicts the stock return 10 days after the event. XGBoost and LightGBM models are applied for the study with accuracy of 75%, 71% respectively. In addition, after categorizing the recommended stocks based on the listed market(KOSPI/KOSDAQ) and market capitalization(Big/Small), this study verifies difference in the accuracy of models across four sub-datasets. Finally, by conducting SHAP(Shapley Additive exPlanations) analysis, we identify the key variables in each model, reinforcing the interpretability of models.

주제어

표/그림 (13)

그림 Fig. 1. Model Framework
표 Table 1. Data Description
표 Table 2. Sub-Datasets
표 Table 3. List of Variables
표 Table 4. Accuracy Results - Valid Data
표 Table 5. Confusion Matrix Results - Entirety
표 Table 6. Confusion Matrix Results - KOSPI
표 Table 7. Confusion Matrix Results - KOSDAQ
표 Table 8. Confusion Matrix Results - Big
표 Table 9. Confusion Matrix Results - Small
표 Table 10. Results(Past 10 days, 20 days Return)
그림 Fig. 2. SHAP Analysis Results - Entirety
표 Table 11. SHAP Analysis Results

AI 본문요약
AI-Helper

문제 정의

그러나, 뉴스 기사에 명시적으로 실린 애널리스트의 투자 의견을 바탕으로 한 뉴스기사가 수익률에 어떤 영향을 미치는지에 대한 실증분석은 매우 드물다. 본 연구 목적은 뉴스기사 중에서도 애널리스트의 추천종목 등 투자자의 관심이 유발되는 기사가 게재되는 경우, 개별 기업의 특성에 따라 수익률의 상승과 하락에 미치는 영향을 비교분석하는 것이다. 이를 위해 추천종목이 미디어로 보도되는 하나의 사건을 일종의 사건(event)으로 간주하고, 기사 게재 이전 5일간의 개별 주식의 특성에 관련된 데이터를 활용하여 게재 10일 이후 수익률의 방향성을 예측하였다.
최근에는 이러한 재무 관련 이벤트 연구 또한 다양한 기계학습과 결합하여, 신경망 모델 또는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터 머신(SVM) 등을 통해 실적 공시, 공모주 상장 등의 사건 이후 해당 기업의 주가를 예측하는 연구들이 활발하게 수행되고 있다[11][12]. 본 연구는 애널리스트의 추천 종목이 게재된 기사를 하나의 사건으로 간주하고, 해당 추천종목 기사 게재 이후의 종목 수익률을 예측하는 것을 목표로 한다.
본 연구는 추천종목이 미디어로 보도되는 날짜 이전의 5일간 개별 기업의 특성과 관련된 데이터를 활용하여, 기사 게재 10일 이후 수익률의 방향성을 예측하는 것에 목표를 두고 있다. 다음은 모델의 전반적인 구조를 나타낸다.

제안 방법

데이터는 train data와 test data를 8:2 비율로 나누어 활용하였으며, 모델의 정확한 성능 및 일반화 능력을 평가하기 위해 train data에서 valid data를 4:1 비율로 다시 나누었다. 이에 train data와 valid data, test data는 각각 64%, 16%, 20% 정도의 비율로 분리되었다.
이러한 수익률의 변동은 투자자들의 투자 성향에도 많은 영향을 미치며, 이에 수익률 방향성을 예측하는 모델의 성능은 기업의 특성에 따라 차이가 있을 수 있다. 따라서, 본 연구에서는 1) 추천종목이 상장된 시장(유가증권시장 또는 코스닥시장)에 따라, 2) 추천종목의 기업규모(대형주 또는 소형주)에 따라 기업들을 분류하고, 하위 그룹별로 모델의 예측력을 비교하였다.
먼저, 거래량은 종목별로 기업의 규모에 영향을 받을 수 있다는 점을 참작해 각각 발행주식 수로 나누어 거래량 변수 간의 단위를 통일하였다. 또한, 4번 변수(시가총액)는 데이터 간 차이가 큰 점을 감안하여, 로그 정규화를 수행해 변동성을 조정하였다. 마지막으로, 연도별로 상이할 수 있는 투자 동향을 고려하여 연도별로 데이터를 분류하고 train set data, valid set data, test set data를 구성한 뒤 이를 각각 통합해 연도별 데이터 간의 균형을 고려하고 데이터의 안정성을 개선하였다.
이와 함께 머신러닝 기법 중 의사결정 트리 기반의 앙상블(ensemble) 기법인 XGBoost(eXtreme Gradient Boosting) 모델과 LightGBM(Light Gradient Boosting Machine) 모델을 학습에 적용하여, 모델의 분류 정확도를 측정하고 주식종목의 특성에 따라 정확도가 달라지는지 검증하였다. 또한, 전체 추천종목을 유가증권시장 또는 코스닥 시장 및 기업규모(대형/소형)에 따라 4가지로 분류한 후, 각 하위 집단에 따라 모델의 예측 정확도에 차이가 있는지 검증하였다. 이와 함께 본 연구에서는 SHAP(Shapley Additive exPlanations) 분석결과를 제시하여, 각 모델의 주요 변인을 파악해 모델의 해석력을 제고하였다.
이에 train data와 valid data, test data는 각각 64%, 16%, 20% 정도의 비율로 분리되었다. 모델의 성능 평가는 혼동행렬(Confusion Matrix), F1 Score, ROC Curve를 통해 종합적으로 분석되었으며, 특히 상장시장과 기업규모 간의 예측 정확도 차이와 함께 XGBoost와 LightGBM 간의 성능 차이를 비교하는데 중점을 두었다.
본 연구에서는 예측 대상이 되는 종속 변수를 y를 게재일 기준 10일 이후의 수익률로 계산하였으며, 수익률의 부호에 따라 이진(양(+) 또는 0의 값을 가지는 경우 1, 음(-)의 값을 가지는 경우 0)으로 분류하여 수익률의 방향성을 설정하였다. 또한, 주요 입력 변수 및 종속 변수 데이터가 누락되어 알고리즘에 학습이 어려운 155개의 결측 데이터를 제거한 후 진행하였다.
상장된 시장은 기사 게재 날짜를 기준으로 분류하였으며, KOSPI 100 구성종목의 최저 시가총액을 기준으로 기준치 초과 종목을 대형주, 미만 종목을 소형주로 구분하였다. 이후 개별 그룹별로 주식 수익률의 방향성을 예측하는 모델을 생성하여 심층적인 모델 분석 결과를 제시하고자 하였으며, 분류 결과는 다음과 같다.
본 연구 목적은 뉴스기사 중에서도 애널리스트의 추천종목 등 투자자의 관심이 유발되는 기사가 게재되는 경우, 개별 기업의 특성에 따라 수익률의 상승과 하락에 미치는 영향을 비교분석하는 것이다. 이를 위해 추천종목이 미디어로 보도되는 하나의 사건을 일종의 사건(event)으로 간주하고, 기사 게재 이전 5일간의 개별 주식의 특성에 관련된 데이터를 활용하여 게재 10일 이후 수익률의 방향성을 예측하였다.
또한, SHAP 기법은 변수들이 상호 간 영향을 줄 수 있다는 것을 고려하고, 변수의 음(-)의 영향력까지 계산할 수 있다는 점에서 Feature Importance 기법보다 더욱 정확한 영향력을 측정한다[17]. 이에 SHAP 기법을 활용하여 모델의 해석력을 높이는 동시에, 영향력이 높은 변수들을 파악하였다.
Bayesian Optimization은 사전지식(prior)과 데이터로부터 얻은 사후지식(posterior)을 활용하여 최적의 하이퍼파라미터 조합을 효율적으로 찾는 최적화 기법으로, 특히 데이터의 규모가 크고 변수가 많은 모델에서 발생할 수 있는 수렴 문제를 효과적으로 해결한다. 이에 본 연구에서는 iteration을 최대 50으로 설정한 Bayesian Optimization을 수행하여 각 모델에 적용하였다.
또한, LightGBM은 결측치 처리 및 다양한 유형의 데이터 처리에 효율적임에 따라, 주가 예측 모델과 같은 복잡한 데이터셋에도 높은 효율성을 보인다. 이에 본 연구에서는 최근 머신러닝 기법으로 주목받는 XGBoost와 LightGBM 모델을 각각 적용한 후, 성능 결과를 비교분석하였다.
자료는 국내 포털사이트 네이버에서 2019년부터 2022년까지 ‘추천’, ‘추천종목’이라는 키워드로 검색된 뉴스기사에서 추천 종목을 발굴하여 활용하였다. 이와 함께 머신러닝 기법 중 의사결정 트리 기반의 앙상블(ensemble) 기법인 XGBoost(eXtreme Gradient Boosting) 모델과 LightGBM(Light Gradient Boosting Machine) 모델을 학습에 적용하여, 모델의 분류 정확도를 측정하고 주식종목의 특성에 따라 정확도가 달라지는지 검증하였다. 또한, 전체 추천종목을 유가증권시장 또는 코스닥 시장 및 기업규모(대형/소형)에 따라 4가지로 분류한 후, 각 하위 집단에 따라 모델의 예측 정확도에 차이가 있는지 검증하였다.
또한, 전체 추천종목을 유가증권시장 또는 코스닥 시장 및 기업규모(대형/소형)에 따라 4가지로 분류한 후, 각 하위 집단에 따라 모델의 예측 정확도에 차이가 있는지 검증하였다. 이와 함께 본 연구에서는 SHAP(Shapley Additive exPlanations) 분석결과를 제시하여, 각 모델의 주요 변인을 파악해 모델의 해석력을 제고하였다.
에서 valid data에 대한 정확도 결과를 먼저 제시하였다. 이후 Table 5에서 9까지 test data에 대한 정확도, 재현율, 정밀도, F1 Score, AUC를 포함한 전체 혼동행렬 결과를 제시하여 모델의 객관성을 제고하였다.
상장된 시장은 기사 게재 날짜를 기준으로 분류하였으며, KOSPI 100 구성종목의 최저 시가총액을 기준으로 기준치 초과 종목을 대형주, 미만 종목을 소형주로 구분하였다. 이후 개별 그룹별로 주식 수익률의 방향성을 예측하는 모델을 생성하여 심층적인 모델 분석 결과를 제시하고자 하였으며, 분류 결과는 다음과 같다.

대상 데이터

1-33번까지의 변수는 게재일 기준 5일 전까지의 평균값으로 계산하였으며, 34번 변수(추정기관 수)의 경우 event date 전일 데이터를 활용하였다. 데이터의 전처리 과정은 다음과 같다.
본 연구에서는 예측 대상이 되는 종속 변수를 y를 게재일 기준 10일 이후의 수익률로 계산하였으며, 수익률의 부호에 따라 이진(양(+) 또는 0의 값을 가지는 경우 1, 음(-)의 값을 가지는 경우 0)으로 분류하여 수익률의 방향성을 설정하였다. 또한, 주요 입력 변수 및 종속 변수 데이터가 누락되어 알고리즘에 학습이 어려운 155개의 결측 데이터를 제거한 후 진행하였다.
본 연구에서는 2019년부터 2022년까지 총 4년간 국내 포털사이트 네이버에서 35개의 경제·미디어 관련 언론사를 대상으로 ‘추천’, ‘추천종목’을 키워드로 하여 뉴스기사 데이터를 크롤링하였고, 추천기사에서 증권사 애널리스트가 추천대상으로 선정한 기업종목과 추천 날짜를 수집하였다
본 연구의 모델 변수 데이터는 2019년부터 2022년까지 FnGuide에서 제공하고 있는 자료를 수집하였다. 모델 변수는 [14], [15] 등의 연구와 같이 주가 예측에 널리 활용되는 재무 변수 34개이며, 변수의 내용은 Table 3와 같다.
이때 인수합병, 분할, 상장폐지 등의 사유로 인해 데이터가 부재한 기업 33개는 제외하였으며, 추천종목은 유가증권시장(KOSPI)와 코스닥시장(KOSDAQ)에 상장된 주식으로 제한함에 따라 이에 속하지 않는 기업 15곳 또한 제외하였다. 이를 통해 총 2,407개의 뉴스기사에서 총 14,334건의 추천종목과 뉴스 게재 날짜를 발굴하였고, FnGuide에서 다음 변수들의 뉴스 게재일 이전 5일간의 재무 데이터를 가공 후 매치하였다.
자료는 국내 포털사이트 네이버에서 2019년부터 2022년까지 ‘추천’, ‘추천종목’이라는 키워드로 검색된 뉴스기사에서 추천 종목을 발굴하여 활용하였다

이론/모형

또한, 본 연구의 모델에 쓰인 변수들의 중요성(Feature Importance)을 파악하기 위해 SHAP 방법론을 활용하였다. SHAP은 머신러닝 모델의 예측에 대한 투명성과 이해도를 높이기 위해 활용하는 게임 이론 기법으로, 각 입력 변수가 학습된 모델의 예측에 미치는 상대적인 중요도를 섀플리 값(Shapley Values)을 통해 정량적으로 평가함으로써 변수 간의 상호작용과 영향력을 시각화하여 제시한다[16].
본 연구에서는 거래량, 가격 등 다양한 단위의 변수들이 활용되었다. 또한, 시계열/비시계열 등 다양한 유형의 연속형 변수들이 활용되었다는 점과 컨센서스 데이터의 경우 결측치가 일정 부분 존재한다는 점에서 변수의 특성에 가장 적합한 XGBoost와 LightGBM 모델을 활용하였다.
모델 학습 전 XGBoost와 LightGBM 모델의 하이퍼파라미터 최적화를 위하여 Bayesian Optimization을 채택하였다. Bayesian Optimization은 사전지식(prior)과 데이터로부터 얻은 사후지식(posterior)을 활용하여 최적의 하이퍼파라미터 조합을 효율적으로 찾는 최적화 기법으로, 특히 데이터의 규모가 크고 변수가 많은 모델에서 발생할 수 있는 수렴 문제를 효과적으로 해결한다.
이중 대표적인 XGBoost와 LightGBM은 모두 그래디언트 부스트 기반 앙상블 알고리즘으로, 복잡한 데이터셋의 분류 및 예측 문제에 우수한 성능을 발휘하는 것으로 알려져 있다. 이 알고리즘들은 특정한 손실 함수를 최소화하기 위해 경사 하강법을 사용하며, 다양한 정규화 기법과 가지치기 전략을 통해 과적합을 방지한다.
입력변수의 중요도를 파악하기 위한 SHAP 기법은 데이터셋을 분류한 하위 집단에 각각 적용하였으며, LightGBM 모델에 기반하여 측정하였다. 다음은 전체 데이터셋에 대한 SHAP 분석결과와 전체 데이터셋을 제외하고 4개의 세부집단을 SHAP으로 분석한 각 상위 5개, 하위 5개 변수 결과이다.

성능/효과

PER은 주가를 기업의 순이익과 비교하여, 투자자가 해당 종목 투자 시 얻을 수 있는 이익이 현 주가에 비해 얼마나 높은지를 나타낸다. PER은 주로 시장의 기대치를 반영함에 따라, 투자자의 심리가 수익률 방향성 예측에 중요하다는 결론을 내릴 수 있다.
시가총액은 주식시장 내 여러 시장지수의 인덱스로 활용된다는 점에서 기업의 규모와 안정성을 파악하기에 매우 유용한 지표라고 할 수 있다. 대형주로 정의되어 분류된 기업들에 대한 모델의 예측 정확도는 80%에 가까워 매우 높게 나타난 반면 소형주에 대한 모델 정확도는 65% 정도로 낮게 나타나며, 두 비율의 차이는 유가증권시장 상장기업과 코스닥시장 상장기업 간의 차이보다 더욱 크다는 것을 알 수 있다.
이들은 간결한 내용으로 신속하게 투자자들에게 전달된다는 점에서 애널리스트 리포트와는 다른 영향력을 가지고, 이에 상이한 방법론을 통한 추가 연구가 필요하다. 따라서, 인터넷 뉴스기사를 통해 애널리스트의 추천종목과 사유가 투자자에게 직접적으로 안내되는 새로운 미디어 콘텐츠 분야의 초기 연구를 제시했다는 점과, 추천종목의 수익률 예측에 있어 기본적인 재무 변수들을 활용해 합리적인 예측 정확도를 보이는 모델을 제시하였다는 점에서 의미가 있다.
또한, LightGBM은 결측치 처리 및 다양한 유형의 데이터 처리에 효율적임에 따라, 주가 예측 모델과 같은 복잡한 데이터셋에도 높은 효율성을 보인다. 이에 본 연구에서는 최근 머신러닝 기법으로 주목받는 XGBoost와 LightGBM 모델을 각각 적용한 후, 성능 결과를 비교분석하였다.
또한, 빅데이터 기술의 발전에 따라 방대한 양의 뉴스기사 및 소셜 미디어 콘텐츠에 대한 분석이 가능하게 되어, 긍정 또는 부정의 감정을 추출하여 주가를 예측하는 감성분석(Sentiment Analysis)과 관련된 연구의 관심도가 증가하였다. 감성분석 연구 중 [5]는 뉴스가 주로 비정형 텍스트로 구성되어 있음을 고려하여, 감성분석 기법을 적용해 주가지수의 등락을 예측하는 모델을 제안하였다.
또한, 유가증권시장 상장기업과 코스닥시장 상장기업 중에서는 유가증권시장 상장주식들이 코스닥시장 상장주식들에 비해 모델의 정확도가 더욱 높았다. 이는 높은 인지도와 신뢰도를 바탕으로 하는 유가증권시장 상장사에 대한 투자자들의 긍정적인 인식과 안정성이 예측 모델의 성능에 일정한 영향을 미친다는 것을 시사한다.
마지막으로 대형주 모델링에서는 매출액 증가율 변수가 가장 높은 중요도를 가지는 것으로 나타났으나, 소형주에서는 유의한 중요도를 가지지 않는 것으로 나타났다. 일반적으로 대형주들은 기존에 안정적으로 확립된 사업모델과 시장지위를 가지고 있음에 따라, 투자자들이 미래의 수익 성장세를 크게 기대하기 때문이라고 분석할 수 있다.
또한, 4번 변수(시가총액)는 데이터 간 차이가 큰 점을 감안하여, 로그 정규화를 수행해 변동성을 조정하였다. 마지막으로, 연도별로 상이할 수 있는 투자 동향을 고려하여 연도별로 데이터를 분류하고 train set data, valid set data, test set data를 구성한 뒤 이를 각각 통합해 연도별 데이터 간의 균형을 고려하고 데이터의 안정성을 개선하였다.
먼저, 거래량은 종목별로 기업의 규모에 영향을 받을 수 있다는 점을 참작해 각각 발행주식 수로 나누어 거래량 변수 간의 단위를 통일하였다. 또한, 4번 변수(시가총액)는 데이터 간 차이가 큰 점을 감안하여, 로그 정규화를 수행해 변동성을 조정하였다.
먼저, 대부분의 그룹에서 기사 게재 이전 5일간의 PER(Price Earning Ratio; 과거 PER)이 중요한 변인으로 꼽혔음을 알 수 있다. PER은 주가를 기업의 순이익과 비교하여, 투자자가 해당 종목 투자 시 얻을 수 있는 이익이 현 주가에 비해 얼마나 높은지를 나타낸다.
5가지의 데이터 분류에 따른 분석결과는 다음과 같다. 먼저, 전반적으로 모델의 예측 정확도가 60~80%의 범위에 있어, 본 수익률 예측 모델을 합리적으로 신뢰할 수 있음을 알 수 있다. 기업의 수익률에 영향을 미치는 요소는 매우 다양하며, 이러한 변인들은 여러 상호작용을 통해 주가의 방향성 파악을 더욱 어렵게 만든다.
이는 높은 인지도와 신뢰도를 바탕으로 하는 유가증권시장 상장사에 대한 투자자들의 긍정적인 인식과 안정성이 예측 모델의 성능에 일정한 영향을 미친다는 것을 시사한다. 반면, 코스닥시장 상장사들에 대한 예측 모델은 상대적으로 낮은 정확도를 보였으며, 시장의 불확실성과 변동성이 코스닥시장 상장사들의 수익률 방향성 파악을 어렵게 하는 것으로 해석할 수 있다.
또한, 유가증권시장 상장 종목들과 대형주로 분류된 종목 간 중요도가 높게 측정된 변인들이 일정 부분 유사하다. 유가증권시장 상장 종목들의 경우 변동성과 시가총액, 기사 게재 이전 PER, 알파 등의 수치가 중요한 변인으로 꼽혔다. 이들은 대형주 사이에서도 높은 중요도로 평가되었는데, 이는 대형주로 분류되는 종목들이 주로 유가증권 시장에 상장되었기 때문이라 해석할 수 있다.
또한, 유가증권시장 상장기업과 코스닥시장 상장기업 중에서는 유가증권시장 상장주식들이 코스닥시장 상장주식들에 비해 모델의 정확도가 더욱 높았다. 이는 높은 인지도와 신뢰도를 바탕으로 하는 유가증권시장 상장사에 대한 투자자들의 긍정적인 인식과 안정성이 예측 모델의 성능에 일정한 영향을 미친다는 것을 시사한다. 반면, 코스닥시장 상장사들에 대한 예측 모델은 상대적으로 낮은 정확도를 보였으며, 시장의 불확실성과 변동성이 코스닥시장 상장사들의 수익률 방향성 파악을 어렵게 하는 것으로 해석할 수 있다.
데이터는 train data와 test data를 8:2 비율로 나누어 활용하였으며, 모델의 정확한 성능 및 일반화 능력을 평가하기 위해 train data에서 valid data를 4:1 비율로 다시 나누었다. 이에 train data와 valid data, test data는 각각 64%, 16%, 20% 정도의 비율로 분리되었다. 모델의 성능 평가는 혼동행렬(Confusion Matrix), F1 Score, ROC Curve를 통해 종합적으로 분석되었으며, 특히 상장시장과 기업규모 간의 예측 정확도 차이와 함께 XGBoost와 LightGBM 간의 성능 차이를 비교하는데 중점을 두었다.
기업의 수익률에 영향을 미치는 요소는 매우 다양하며, 이러한 변인들은 여러 상호작용을 통해 주가의 방향성 파악을 더욱 어렵게 만든다. 이에, 기업의 추천종목 기사 게재라는 사건을 통해 평균 70% 정도의 정확도를 기록한 것은 본 연구에 활용된 모델의 실효성과 앞서 제시한 모델의 경제적 가치를 뒷받침한다.
최근에는 글로벌 경기가 둔화세를 보이고, 금리가 급격하게 변동하는 기조를 보임에 따라, 예측 모델에 변동성을 고려하는 것이 점차 중요해지고 있다. 이에, 연구에서 수행한 상장시장의 구분과 시가총액에 기반한 대형주/소형주의 구분은 모델의 정확도에 유의한 영향을 미쳤다는 점에서 가치가 있다.
그러나, 본 연구는 다음과 같은 한계를 가진다. 첫째, 본 연구는 2019년부터 2022년까지 4개년의 데이터를 수집하여 활용하였으나, 2019년 말부터 2022년까지 금융시장은 코로나19 팬데믹이라는 특수한 상황의 영향을 받았다. 이에, 관측기간을 늘려 데이터를 수집해 모델의 적합도를 재검증하면, 모델의 실효성을 더욱 제고할 수 있을 것이다.
추가로, 기사 게재일 기준 5일간의 과거 재무 데이터로 10일 이후 수익률의 방향성을 예측하는 기존 모델에서, 관측기간을 늘려 과거 10일 데이터를 통해 게재일 20일 이 후 수익률을 예측하는 모델을 생성함으로써 모델의 일반화 가능성을 제고하였다. 그 결과, 본래 연구의 모델과 유사한 수준의 정확도를 보이는 것으로 확인되었으며, 세부 결과는 다음과 같다.

후속연구

이와 같이 뉴스 기사와 주가의 상관관계를 분석하고, 뉴스를 기반으로 주가 예측에 관한 다양한 연구가 수행되어 왔다. 그러나 애널리스트가 뉴스기사를 통해 직접 추천한 주식 종목이 기업의 주가 및 주식 거래량에 미치는 영향에 대한 연구는 상대적으로 부족하다는 한계점이 있다.
뉴스기사는 게재된 이후 빠르게 투자자들에게 공유됨에 따라, 더욱 정확한 통계분석을 위해서는 기사가 장 중에 게재되었는지 장 마감 이후 게재되었는지 구분할 필요가 있다. 그러나, 본 연구에서는 모델 학습 시 뉴스 기사 게재 당일 전까지의 데이터를 학습하고, 이후 수익률을 고려하였기 때문에 장 중에 게재 여부까지 포괄하지 못했다.
또한, 뉴스기사 게재 날짜 수집 시 게재 시간까지는 고려하지 않았다는 점도 한계로 남는다. 뉴스기사는 게재된 이후 빠르게 투자자들에게 공유됨에 따라, 더욱 정확한 통계분석을 위해서는 기사가 장 중에 게재되었는지 장 마감 이후 게재되었는지 구분할 필요가 있다. 그러나, 본 연구에서는 모델 학습 시 뉴스 기사 게재 당일 전까지의 데이터를 학습하고, 이후 수익률을 고려하였기 때문에 장 중에 게재 여부까지 포괄하지 못했다.
또한, 뉴스기사 게재 날짜 수집 시 게재 시간까지는 고려하지 않았다는 점도 한계로 남는다. 뉴스기사는 게재된 이후 빠르게 투자자들에게 공유됨에 따라, 더욱 정확한 통계분석을 위해서는 기사가 장 중에 게재되었는지 장 마감 이후 게재되었는지 구분할 필요가 있다.
또한, 보다 세밀한 데이터 처리를 위하여 후속 실증분석에서는 뉴스기사를 다룰 시 뉴스기사의 게재 시간까지 고려할 수 있다. 이와 함께 XGBoost와 LightGBM을 포함하여 다른 우수한 기계학습 알고리즘을 활용할 경우, 모델의 정확도를 개선하는 동시에 예측에 더욱 적합한 모델을 발전시킬 수 있을 것으로 기대한다.
지금까지 기계학습이 결합된 금융 분야의 연구에서 기업의 주가 및 수익률에 대한 연구는 매우 심층적으로 수행되었으나, 애널리스트의 투자의견을 뉴스기사로 게재해 언론의 주목을 받은 주식에 대한 연구는 면밀하게 분석되지 못했다. 이들은 간결한 내용으로 신속하게 투자자들에게 전달된다는 점에서 애널리스트 리포트와는 다른 영향력을 가지고, 이에 상이한 방법론을 통한 추가 연구가 필요하다. 따라서, 인터넷 뉴스기사를 통해 애널리스트의 추천종목과 사유가 투자자에게 직접적으로 안내되는 새로운 미디어 콘텐츠 분야의 초기 연구를 제시했다는 점과, 추천종목의 수익률 예측에 있어 기본적인 재무 변수들을 활용해 합리적인 예측 정확도를 보이는 모델을 제시하였다는 점에서 의미가 있다.
첫째, 본 연구는 2019년부터 2022년까지 4개년의 데이터를 수집하여 활용하였으나, 2019년 말부터 2022년까지 금융시장은 코로나19 팬데믹이라는 특수한 상황의 영향을 받았다. 이에, 관측기간을 늘려 데이터를 수집해 모델의 적합도를 재검증하면, 모델의 실효성을 더욱 제고할 수 있을 것이다.
또한, 보다 세밀한 데이터 처리를 위하여 후속 실증분석에서는 뉴스기사를 다룰 시 뉴스기사의 게재 시간까지 고려할 수 있다. 이와 함께 XGBoost와 LightGBM을 포함하여 다른 우수한 기계학습 알고리즘을 활용할 경우, 모델의 정확도를 개선하는 동시에 예측에 더욱 적합한 모델을 발전시킬 수 있을 것으로 기대한다.
향후 본 연구는 다른 재무지표를 결합하여 더욱 모델의 정확도를 개선하는 방향으로 확장될 수 있으며, 수익률 방향에서 수익률 자체를 예측하는 모델로 발전 시 sharpe ratio 또는 sortino ratio 등을 활용한 모델의 리스크 평가도 가능할 것으로 보인다.

참고문헌 (17)

Chi Young Song, "News and Financial Prices", International？Economic Journal, 8, 3, 1-34, December 2002
Cutler, David M., James M. Poterba, Lawrence H. Summers, "What？moves stock prices?", March 1988. DOI 10.3386/w2538
Tetlock, Paul C., "Giving content to investor sentiment: The role？of media in the stock market", The Journal of finance, 62, 3,？1139-1168, June 2007. DOI 10.2139/ssrn.685145

상세보기
G Serafeim, A Yoon, "Which corporate ESG news does the market？react to?", Financial Analysts Journal, 78, 1, 59-78, February 2022.？DOI 10.2139/ssrn.3832698

상세보기
Yoosin Kim, Namgyu Kim, Seung Ryul Jeong, "Stock-Index Invest？Model Using News Big Data Opinion Mining", Journal of？Intelligence and Information Systems, 18, 2, 143-156, June 2012.？DOI 10.13088/jiis.2012.18.2.143

원문보기 상세보기
Hyeon Jiwon, Lee Joonil, Cho Hyunkwon, "Sentiment Analysis？of News on Corporation Using KoBERT", Korean Accounting？Review, 47, 4, 33-54, 2022. DOI 10.24056/KAR.2022.08.002

상세보기
Doo-Won Kang, So-Yeop Yoo, Ha-Young Lee, Ok-Ran Jeong,？"A study on Deep Learning-based Stock Price Prediction using？News Sentiment Analysis", Journal of The Korea Society of？Computer and Information, Vol. 27 No. 8, pp. 31-39, August 2022.？DOI 10.9708/jksci.2022.27.08.031

원문보기 상세보기
Cheol Park, Soo Cheol Park, "Individual Trading Behavior？Comparison Around Ex-Dividend Days Before and After the？Dividend Tax Changes", Korean Journal of Financial Studies,？September 2010
Hyunseok Kim, Jungwon Suh, "Stock Return and Liquidity Effects？of Bonus Issues, Stock Splits and Stock Dividends: Evidence from？Korea", Korean Journal of Financial Studies, August 2018. DOI？10.26845/KJFS.2018.02.47.1.27
Lee Seokgyu, Byeon Yeongdeok, Park Sangguk, "Analysis of？Market Response to Merger Announcements", Joumal of？Accountifng and Finance, 18, 1-22, October 2002
Suyeon Yang, Chaerok Lee, Jonggwan Won, Taeho Hong, "The？prediction of the stock price movement after IPO using machine？learning and text analysis based on TF-IDF", Journal of？Intelligence and Information Systems, 28, 2, 237-262, June 2022.？DOI 10.13088/jiis.2022.28.2.237

원문보기 상세보기
Cui Jinhua, Kim Soonho, "Predicting Stock Prices Based on？Neural Networks Around Earnings Announcements", Journal of？The Korean Data Analysis Society, 22, 6, 2667-2678, December？2020. DOI 10.37727/jkdas.2020.22.6.2667

상세보기
Myung-woo Nam, Doo-Seo Park, Young-Jun Jang, Hong-Chul？Lee, "Prediction Of Traffic Accident Casualties Using Machine？Learning : For Seoul Public Data", Korea Society of Computer？Information Spring Conference Proceedings, 29, 1, 27-30,？January 2021.
Pei-Fen Tsai, Cheng-Han Gao and Shyan-Ming Yuan, "Stock？Selection Using Machine Learning Based on Financial Ratios",？Mathematics, 11, 23, 4758, November 2023. DOI 10.3390/math11234758

상세보기
Reza Gharoie Ahangar, Mahmood Yahyazadehfar, Hassan？Pournaghshband, "The Comparison of Methods Artificial Neural？Network with Linear Regression Using Specific Variables for？Prediction Stock Price in Tehran Stock Exchange", International？Journal of Computer Science and Information Security, 7, 2,？February 2010. DOI 10.48550/arXiv.1003.1457
Lundberg, S. M., & Lee, S. I., "A unified approach to interpreting？model predictions.", Advances in neural information processing？systems, 30., 2017.
Hyung-Rok Oh, Ae-Lin Son, Zoonky Lee, "Occupational accident？prediction modeling and analysis using SHAP", Journal of Digital？Contents Society, 22, 7, 1115-1123, July 2021. DOI 10.9728/dcs.2021.22.7.1115

상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증