[논문]머신러닝 기반의 기업가치 예측 모형: 온라인 기업리뷰를 활용하여

이한준; 신동원; 김희은

doi:10.7472/jksii.2021.22.5.79

머신러닝 기반의 기업가치 예측 모형: 온라인 기업리뷰를 활용하여
Machine Learning based Firm Value Prediction Model: using Online Firm Reviews 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.22 no.5, 2021년, pp.79 - 86

이한준 (Department of Management Information Systems, Myongji University) , 신동원 (Industry Academic Cooperation Foundation, Myongji University) , 김희은 (College of Business Administration, Myongji University)

초록
AI-Helper

빅데이터 분석의 유용성이 주목을 받으면서 경영학 분야에서도 이를 활용하여 기업의 성과를 예측하고자 하는 다양한 연구들이 진행되고 있다. 이러한 선행연구들은 주로 뉴스 기사나 SNS 등 기업 외부의 자료에 의존하고 있다. 직원의 만족도나 기업에 대한 직원의 인식, 장단점 평가와 같은 기업 내부의 목소리는 기업가치에 대한 잠재적인 영향력에도 불구하고 상대적으로 확보가 어려워 관련 연구가 아직 충분치 못하다. 이에 본 연구에서는 국내 유가증권시장 상장 기업을 대상으로 임직원의 기업리뷰가 기업가치에 미치는 영향을 살펴보고, 이를 기반으로 기업가치를 예측하는 모형을 구축하고자 한다. 이를 위해 온라인 기업리뷰 사이트인 잡플래닛(Jobplanet)에 2014년부터 2019년까지 전·현직원이 남긴 97,216건의 기업리뷰를 수집하고 동 데이터에 근거하여 머신러닝 기반의 예측 모형을 제안하였다. 제안한 모형 중 LSTM 기반 모형의 정확도가 73.2%로 가장 높았고 MAE 또한 0.359로 가장 낮은 오차를 보였다. 본 연구는 국내에서 머신러닝을 활용한 기업가치 연구 분야에 유용한 사례가 될 것으로 기대한다.

Abstract ▼ AI-Helper

As the usefulness of big data analysis has been drawing attention, many studies in the business research area begin to use big data to predict firm performance. Previous studies mainly rely on data outside of the firm through news articles and social media platforms. The voices within the firm in the form of employee satisfaction or evaluation of the strength and weakness of the firm can potentially affect firm value. However, there is insufficient evidence that online employee reviews are valid to predict firm value because the data is relatively difficult to obtain. To fill this gap, from 2014 to 2019, we employed 97,216 reviews collected by JobPlanet, an online firm review website in Korea, and developed a machine learning-based predictive model. Among the proposed models, the LSTM-based model showed the highest accuracy at 73.2%, and the MAE showed the lowest error at 0.359. We expect that this study can be a useful case in the field of firm value prediction on domestic companies.

주제어

표/그림 (5)

그림 (그림 1) 연구흐름도 (Figure 1) Research Procedure
그림 (그림 2) 잡플래닛에 게시된 기업리뷰 예시 (Figure 2) Example of Firm Review posted on the JobPlanet
표 (표 1) 회귀모형 성능 비교 (Table 1) Performance Comparison among Regression Predictive Models
표 (표 2) 분류모형 예측 정확도 비교 (Table 2) Performance Comparison among Classification Predictive Models
그림 (그림 3) LSTM 분류모형의 변수중요도 (Figure 3) Feature Importance of LSTM Classification Predictive Model

AI 본문요약
AI-Helper

문제 정의

그리고 해당 데이터에 다양한 머신러닝 기법을 적용하여 기업가치 예측 모형을 구축하고 성능평가를 통해 최적의 모형을 제안한다. 또한 변수 중요도 평가를 통하여 기업가치에 영향력을 갖는 변수를 도출하고자 한다.
본 연구에서는 국내 상장 기업의 기업가치를 예측하기 위한 머신러닝 기반의 예측 모형을 제안하였다. 이를 위해 10만여 건에 달하는 기업리뷰를 수집한 뒤 머신러닝 알고리즘을 적용하고 성능평가를 통하여 최적의 예측 모형을 제시하였다.
이러한 플랫폼에서는 과거에 수집하기 어려웠던 기업 내부의 정보를 손쉽게 대량으로 확보하는 것이 가능하여 다양한 연구의 좋은 자료로 활용되고 있다. 이에 본 연구에서는 그동안 잘 다뤄지지 못했던 직원의 만족도, 기업에 대한직원들의 인식과 전망, 기업에 대한 장단점 평가와 같은 기업 내부의 데이터를 활용하여 기업가치를 예측할 수 있는 예측 모형을 제안하고자 한다.

제안 방법

이를 위해 국내 온라인 기업리뷰 사이트로부터 직원들의 의견을 수집하고 이를 기업 특성 변수와 통합하여 데이터 세트를 구성한다. 그리고 해당 데이터에 다양한 머신러닝 기법을 적용하여 기업가치 예측 모형을 구축하고 성능평가를 통해 최적의 모형을 제안한다. 또한 변수 중요도 평가를 통하여 기업가치에 영향력을 갖는 변수를 도출하고자 한다.
com)에서 기업리뷰를 크롤링하고 이를 전처리한 뒤 기업 특성 변수와 통합하여 두 번째 데이터 세트를 구성한다. 두 데이터세트에 다양한 머신러닝 알고리즘을 적용하여 기업가치 예측을 위한 분류 및 회귀 모형을 구축한다. 그리고 구축된 머신러닝 모형들의 성능을 평가하고 최적의 모형을 선정하는 순으로 진행한다.
본 연구에서 구축하고자 하는 기업가치 예측 모형은 회귀모형과 분류모형의 두 종류이다.
딥러닝을 활용한 최근의 연구에서는 LSTM이 많이 활용되고 있는데 타 모형 대비 LSTM 모형의 예측 성능이 우수한 이유로 해석된다. 본 연구에서는 머신러닝 및 딥러닝 알고리즘을 활용하여 기업리뷰를 활용한 기업가치 예측 모형을 제안하고자 한다.
본 연구에서는 이상의 연구에서 개별적으로 다루었던 변수들을 포괄적으로 활용하여 기업가치 예측 모형을 제안하고자 한다. 기존 연구들이 주로 전통적인 통계 모형에 기반한 반면 본 연구에서는 머신러닝 방법론을 활용하여 접근하고자 한다.
본 연구에서는 국내 상장 기업의 기업가치를 예측하기 위한 머신러닝 기반의 예측 모형을 제안하였다. 이를 위해 10만여 건에 달하는 기업리뷰를 수집한 뒤 머신러닝 알고리즘을 적용하고 성능평가를 통하여 최적의 예측 모형을 제시하였다. 연구 결과, LSTM 기반의 모형이 기업가치에 대해 가장 우수한 예측력을 가지고 있다는 것을 확인하였다.
이를 위해 국내 온라인 기업리뷰 사이트로부터 직원들의 의견을 수집하고 이를 기업 특성 변수와 통합하여 데이터 세트를 구성한다. 그리고 해당 데이터에 다양한 머신러닝 기법을 적용하여 기업가치 예측 모형을 구축하고 성능평가를 통해 최적의 모형을 제안한다.

대상 데이터

우선기업 재무정보를 수집하여 첫 번째 데이터세트를 구성한다. 그리고 국내 온라인 기업리뷰 사이트인 잡플래닛 (http://jobplanet.com)에서 기업리뷰를 크롤링하고 이를 전처리한 뒤 기업 특성 변수와 통합하여 두 번째 데이터 세트를 구성한다. 두 데이터세트에 다양한 머신러닝 알고리즘을 적용하여 기업가치 예측을 위한 분류 및 회귀 모형을 구축한다.
두 번째 데이터는 잡플래닛으로부터 수집한 기업리뷰데이터이다. 잡플래닛은 2014년 4월 개설된 온라인 기업리뷰 사이트로서 국내 기업에 대한 전·현직원의 리뷰를 수집·제공한다.
잡플래닛은 2014년 4월 개설된 온라인 기업리뷰 사이트로서 국내 기업에 대한 전·현직원의 리뷰를 수집·제공한다. 본 연구에서는 파이썬 기반의 웹크롤러를 구현하여 2014년 4월부터 2019년 12월까지 한국 유가증권시장에 상장된 440개 기업에 대한 리뷰 총 97, 216건을 수집하여 활용하였다. 그림 2는 잡플래닛에 게시된 리뷰 예시를 보여준다.

데이터처리

먼저 회귀모형에 대한 평가는 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error)를 기준으로 평가하였다. 표 1에서 보는 바와 같이 기업 특성 변수만으로 구성된 첫 번째 데이터세트를 이용한 모형 대비 기업리뷰 데이터가 포함된 두 번째 데이터세트를 이용한 예측모형이 더 우수한 성능을 나타냈다.
본 연구에서 구축한 모형 중 가장 우수한 성능을 보였던 LSTM 분류 모형에 대한 변수중요도를 계산하였다. 결과는 그림 3에서 보는 바와 같다.
분류모형에서는 정확도 및 정밀도, 재현율, F1 점수를 이용하여 모형의 성능을 비교하였다. 표 2에서 보는 바와 같이 분류모형에서도 기업리뷰 데이터를 함께 활용한 모형(Dataset II)에서 상대적으로 우수한 정확도를 보였다.

이론/모형

다음으로 분류모형에서는 과거 3년치의 데이터를 활용하는 것은 회귀모형과 같되 기업가치의 증감은 과거 3 년치 평균 기업가치 수치 대비 기업가치의 증감 여부를 예측하는 모형을 만들었다. 기업가치가 증가한 기업 수와 감소한 기업 비율이 각각 69.3%, 30.7%로 클래스 불균형 문제가 있어 SMOTE(Synthetic Minority Oversampling Technique) 기법을 적용하여 이를 해소하였다. 학습시 훈련 데이터와 테스트 데이터의 분할 비율과 반복 학습은 회귀모형 학습시와 동일하게 진행하였으며 머신러닝 알고리즘도 회귀모형과 동일한 여섯 가지의 알고리즘을 적용하여 모형을 구축하였다.
본 연구에서는 이상의 연구에서 개별적으로 다루었던 변수들을 포괄적으로 활용하여 기업가치 예측 모형을 제안하고자 한다. 기존 연구들이 주로 전통적인 통계 모형에 기반한 반면 본 연구에서는 머신러닝 방법론을 활용하여 접근하고자 한다. 아울러 기업가치에 영향력을 갖는 변수들을 도출하여 제시하고자 한다.
2에서 준비한 두 가지 데이터세트 각각에 대하여 의사결정 나무(DT), 랜덤포레스트(RF), 그래디언트 부스팅 (GBM), XG부스트(XGB), Light GBM(LGBM), LSTM 등 총 여섯 가지 머신러닝 알고리즘을 적용하였다. 모형 구축에는 scikit-learn, lightgbm, xgboost 및 keras 라이브러리를 활용하였다. LSTM의 경우에는 데이터 전처리로서 모형의 안정성 확보와 성능 제고를 위하여 MinMaxScaler 로스케일 링을 하였다.
먼저 회귀모형에서는 과거 3년치의 데이터를 활용하여 기업가치값을 예측하는 모형을 만들었다. 이를 위해 3.2에서 준비한 두 가지 데이터세트 각각에 대하여 의사결정 나무(DT), 랜덤포레스트(RF), 그래디언트 부스팅 (GBM), XG부스트(XGB), Light GBM(LGBM), LSTM 등 총 여섯 가지 머신러닝 알고리즘을 적용하였다. 모형 구축에는 scikit-learn, lightgbm, xgboost 및 keras 라이브러리를 활용하였다.

성능/효과

표 2에서 보는 바와 같이 분류모형에서도 기업리뷰 데이터를 함께 활용한 모형(Dataset II)에서 상대적으로 우수한 정확도를 보였다. 그리고 제안한 모형 중 LSTM 기반 모형의 성능이 정확도와 F1점수를 근거로 가장 좋은 결과를 나타냈다. 이 모형을 활용하면 73.
연구 결과, LSTM 기반의 모형이 기업가치에 대해 가장 우수한 예측력을 가지고 있다는 것을 확인하였다. 또한 본 연구 결과를 통해 기업 추천여부, 만족도, 장단점 평가 등 기업 내부 정보가 기업가치 예측에 대해 유의미한 영향력을 갖고 있음을 확인할 수 있었다.
이를 위해 10만여 건에 달하는 기업리뷰를 수집한 뒤 머신러닝 알고리즘을 적용하고 성능평가를 통하여 최적의 예측 모형을 제시하였다. 연구 결과, LSTM 기반의 모형이 기업가치에 대해 가장 우수한 예측력을 가지고 있다는 것을 확인하였다. 또한 본 연구 결과를 통해 기업 추천여부, 만족도, 장단점 평가 등 기업 내부 정보가 기업가치 예측에 대해 유의미한 영향력을 갖고 있음을 확인할 수 있었다.
먼저 회귀모형에 대한 평가는 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error)를 기준으로 평가하였다. 표 1에서 보는 바와 같이 기업 특성 변수만으로 구성된 첫 번째 데이터세트를 이용한 모형 대비 기업리뷰 데이터가 포함된 두 번째 데이터세트를 이용한 예측모형이 더 우수한 성능을 나타냈다. 모형 간 성능을 비교해보면 Dataset II를 이용한 LSTM 기반 모형의 경우 MAE가 0.

후속연구

본 연구는 실무적 활용이 가능한 기업가치 예측 모형을 제안하였다는 점에서 의미를 갖는다. 또한 직원들의 기업추천 여부와 같이 선행연구에서 다루지 않았던 새로운 변수들을 식별하여 제시한 것도 본 연구의 기여점으로 판단된다. 본 연구에서 제시한 결과는 국내 기업들을 대상으로 하는 기업가치 연구 분야에 유용한 사례가 될 것으로 기대되며 본 연구에서 제시한 방법론을 활용하면 기업의 재무 정보와 기업리뷰를 기업가치 예측을 위한 유용한 데이터로 활용할 수 있을 것이다.
이는 거시적인 데이터의 필요성에 대한 논의로 이어질 수 있을 것이다. 또한 향후 다양한 텍스트 분석 기법을 적용하여 기업가치에 영향력을 갖는 변수들을 추가적으로 추출한다면 보다 높은 정확도를 갖는 예측 모형을 개발할 수 있을 것이다.
또한 직원들의 기업추천 여부와 같이 선행연구에서 다루지 않았던 새로운 변수들을 식별하여 제시한 것도 본 연구의 기여점으로 판단된다. 본 연구에서 제시한 결과는 국내 기업들을 대상으로 하는 기업가치 연구 분야에 유용한 사례가 될 것으로 기대되며 본 연구에서 제시한 방법론을 활용하면 기업의 재무 정보와 기업리뷰를 기업가치 예측을 위한 유용한 데이터로 활용할 수 있을 것이다.
본 연구에서는 제한된 기간의 데이터를 활용하였지만, 추후 데이터가 더 오랜 기간 축적되어 보다 긴 기간의 데이터를 활용할 수 있게 된다면 데이터의 크기에 따른 모형의 예측력을 검증하고 기업가치 예측을 위한 최적의 데이터 크기를 검증할 수 있을 것이다. 이는 거시적인 데이터의 필요성에 대한 논의로 이어질 수 있을 것이다.

참고문헌 (23)

J. A. Ohlson, "Earning, Book Values and Dividend in Equity Valuation: An Empirical Perspective," Contemporary Accounting Research, Vol. 8, No. 1 pp. 107-120, 2001. http://dx.doi.org/10.1506/7tpj-rxqn-tqc7-ffae

상세보기
S. Penman, "Combining Earnings and Book Value in Equity Valuation," Contemporary Accounting Research, Vol. 15, No. 3, pp. 291-324, 1998. http://dx.doi.org/10.1111/j.1911-3846.1998.tb00562.x

상세보기
J. Bollen, H. Mao and X. Zeng, "Twitter Mood Predicts the Stock Market," Journal of Computational Science, Vol. 2, No. 1, pp. 1-8, 2011. http://dx.doi.org/10.1016/j.jocs.2010.12.007

상세보기
A. K. Nassirtoussi, S. Aghabozorgi, T. Y. Wah and D. C. L. Ngo, "Text Mining for Market Prediction: A Systematic Review," Expert Systems with Applications, Vol. 41, No. 16, pp. 7653-7670, 2014. https://doi.org/10.1016/j.eswa.2014.06.009

상세보기
A. Edmans, "Does the Stock Market Fully Value Intangibles? Employee Satisfaction and Equity Prices," Journal of Financial Economics, Vol. 101 No. 3 pp. 621-640, 2011. https://doi.org/10.1016/j.jfineco.2011.03.021

상세보기
O. Guillon and C. Cezanne, "Employee Loyalty and Organizational Performance: A Critical Survey," Journal of Organizational Change Management, Vol. 27, No. 5, pp. 839-850, 2014. https://doi.org/10.1108/jocm-02-2014-0025

상세보기
H. Chen, P. De, Y. J. Hu, and B. H. Hwang, "Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media," The Review of Financial Studies , Vol. 27, No. 5, pp. 1367-1403, 2014. https://doi.org/10.1093/rfs/hhu001

상세보기
X. Luo, J. Zhang, and W. Duan, "Social Media and Firm Equity Value," Information Systems Research, Vol. 24, No. 1, pp. 146-163, 2013. https://doi.org/10.1287/isre.1120.0462

상세보기
J. Huang, "The Customer Knows Best: The Investment Value of Consumer Opinions," Journal of Financial Economics, Vol. 128, No. 1, pp. 164-182, 2018 https://doi.org/10.1016/j.jfineco.2018.02.001

상세보기
M. Huang, P. Li, F. Meschke, and J. P. Guthrie, "Family Firms, Employee Satisfaction, and Corporate Performance," Journal of Corporate Finance, Vol. 34, pp. 108-127, 2015. https://doi.org/10.1016/j.jcorpfin.2015.08.002

상세보기
T. C. Green, R. Huang, Q. and Wen, D. Zhou, "Crowdsourced Employer Reviews and Stock Returns," Journal of Financial Economics, Vol. 13, No. 1, pp. 236-251, 2019. https://doi.org/10.1016/j.jfineco.2019.03.012

상세보기
K. Huang, M. Li, and S. Markov, "What Do Employees Know? Evidence from a Social Media Platform," The Accounting Review, Vol. 95, No. 2, pp. 199-226, 2020. https://doi.org/10.2308/accr-52519

상세보기
H. E. Kim and H. Lee, "Online Employee Reviews and Firm Value," Management & Economic Research Institute, Vol. 43, No. 2, pp. 27-52, 2021. http://doi.org/10.22828/meri.2021.43.2.002
Y. Lim and H. Lim, "A Comparative Analysis of the Prediction Models for the Direction of Stock Price Using the Online Company Reviews," Journal of the Korea Convergence Society, Vol. 11, No. 8, pp. 165-171, 2020. https://doi.org/10.15207/JKCS.2020.11.8.165

원문보기 상세보기
G. E. Box, G. M. Jenkins, G. C. Reinsel and G. M. Ljung, "Time Series Analysis: Forecasting and Control," John Wiley & Sons, 2015. https://doi.org/10.1002/9781118619193
S. H. Chun, "The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction," Journal of Intelligence and Information Systems Vol. 25, No. 3, pp. 239-251, 2019. http://dx.doi.org/10.2307/2284112

상세보기
R. K. Nayak, D. Mishra, and A. K. Rath, "A Naive SVM-KNN based Stock Market Trend Reversal Analysis for Indian Benchmark Indices," Applied Soft Computing, Vol. 35, pp. 670-680, 2015. https://doi.org/10.1016/j.asoc.2015.06.040

상세보기
S. Basak, S. Kar, S. Saha, L. Khaidem and S. R. Dey, "Predicting the Direction of Stock Market Prices using Tree-based Classifiers," The North American Journal of Economics and Finance, Vol. 47, pp. 552-567. 2019. https://doi.org/10.1016/j.najef.2018.06.013

상세보기
M. Nabipour, P. Nayyeri, H. Jabani, A. Mosavi and E. Salwana, "Deep Learning for Stock Market Prediction," Entropy, Vol. 22, No. 8, 840, 2020. https://doi.org/10.3390/e22080840

상세보기
Y. Cho, K. Sohn and O. Kwon, "Comparison of Models for Stock Price Prediction Based on Keyword Search Volume According to the Social Acceptance of Artificial Intelligence," Journal of Intelligence and Information Systems, Vol. 27, No. 1, pp. 103-128, 2021. https://doi.org/10.13088/jiis.2021.27.1.103

원문보기 상세보기
S. Siami-Namini, N. Tavakoli and A. S. Namin, "A Comparison of ARIMA and LSTM in Forecasting Time Series", 17th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 1394-1401, 2018. https://doi.org/10.1109/ICMLA.2018.00227
Rundo, F., "Deep LSTM with Reinforcement Learning Layer for Financial Trend Prediction in FX High Frequency Trading Systems," Applied Sciences, Vol. 9, No. 20, 4460, 2019.

상세보기
C. Strobl, A. L. Boulesteix, T. Kneib, T. Augustin and A. Zeileis, "Conditional Variable Importance for Random Forests," BMC bioinformatics, Vol. 9, No. 1, pp. 1-11, 2008. https://doi.org/10.1186/1471-2105-9-307

상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증