야구에서 데이터분석의 중요성은 점점 더 커지고 있는데, 이는 Billy Beane의 머니볼 이론을 적용한 MLB의 오클랜드 구단과 2020년 KBO 우승팀인 NC다이노스의 사례에서도 알 수 있다. 미국 뿐 만 아니라 우리나라에서도 데이터를 이용한 다양한 연구이 이루어지고 있는데, 특히 경기의 승패를 예측하기 딥러닝 및 머신러닝을 이용한 연구가 활발하게 진행되고 있다. 그러나 기존 연구의 경우 경기 승패 예측에 초점이 맞추어져 있으며, 어떠한 요인이 경기에 중요한 영향을 주었는지에 대한 결과 해석이 어렵다는 한계점이 존재한다. 이에 따라 본 논문에서는 포지션별 최고의 선수에게 수여되는 골든글러브 수상 예측 모형을 개발하고, 어떠한 요인이 수상에 영향을 주는지를 파악함으로써, 우수한 선수로 구분되는 척도를 찾고자 한다. 분석 모형으로는 Boosting 기법 중의 하나인 XGBoost를 이용하였으며, 어떠한 요인이 골든글러브 수상에 중요한 영향을 주었는지 파악하기 위하여 XGBoost의 변수 중요도를 이용하였다. 이와 같은 분석을 통해 각 포지션별 중요한 지표를 파악할 수 있었다.
야구에서 데이터분석의 중요성은 점점 더 커지고 있는데, 이는 Billy Beane의 머니볼 이론을 적용한 MLB의 오클랜드 구단과 2020년 KBO 우승팀인 NC다이노스의 사례에서도 알 수 있다. 미국 뿐 만 아니라 우리나라에서도 데이터를 이용한 다양한 연구이 이루어지고 있는데, 특히 경기의 승패를 예측하기 딥러닝 및 머신러닝을 이용한 연구가 활발하게 진행되고 있다. 그러나 기존 연구의 경우 경기 승패 예측에 초점이 맞추어져 있으며, 어떠한 요인이 경기에 중요한 영향을 주었는지에 대한 결과 해석이 어렵다는 한계점이 존재한다. 이에 따라 본 논문에서는 포지션별 최고의 선수에게 수여되는 골든글러브 수상 예측 모형을 개발하고, 어떠한 요인이 수상에 영향을 주는지를 파악함으로써, 우수한 선수로 구분되는 척도를 찾고자 한다. 분석 모형으로는 Boosting 기법 중의 하나인 XGBoost를 이용하였으며, 어떠한 요인이 골든글러브 수상에 중요한 영향을 주었는지 파악하기 위하여 XGBoost의 변수 중요도를 이용하였다. 이와 같은 분석을 통해 각 포지션별 중요한 지표를 파악할 수 있었다.
The importance of data analysis in baseball has been increasing after the success of MLB's Oakland which applied Billy Beane's money ball theory, and the 2020 KBO winner NC Dinos. Various studies using data in baseball has been conducted not only in the United States but also in Korea, In particular...
The importance of data analysis in baseball has been increasing after the success of MLB's Oakland which applied Billy Beane's money ball theory, and the 2020 KBO winner NC Dinos. Various studies using data in baseball has been conducted not only in the United States but also in Korea, In particular, the models using deep learning and machine learning has been suggested. However, in the previous studies using deep learning and machine learning, the focus is only on predicting the win or loss of the game, and there is a limitation in that it is difficult to interpret the results of which factors have an important influence on the game. In this paper, to investigate which factors is important by position, the prediction model for the Golden Glove award which is given for the best player by position is developed. To develop the prediction model, XGBoost which is one of boosting method is used, which also provide the feature importance which can be used to interpret the factors for prediction results. From the analysis, the important factors by position are identified.
The importance of data analysis in baseball has been increasing after the success of MLB's Oakland which applied Billy Beane's money ball theory, and the 2020 KBO winner NC Dinos. Various studies using data in baseball has been conducted not only in the United States but also in Korea, In particular, the models using deep learning and machine learning has been suggested. However, in the previous studies using deep learning and machine learning, the focus is only on predicting the win or loss of the game, and there is a limitation in that it is difficult to interpret the results of which factors have an important influence on the game. In this paper, to investigate which factors is important by position, the prediction model for the Golden Glove award which is given for the best player by position is developed. To develop the prediction model, XGBoost which is one of boosting method is used, which also provide the feature importance which can be used to interpret the factors for prediction results. From the analysis, the important factors by position are identified.
M. Lewis, Moneyball: The Art of winning an unfair game, Norton: New York, 2003.
김형우, 머신러닝 기법을 활용한 프로야구 승패 예측, 전남대학교, 석사학위논문, 2021.
Y. Oh, H. Kim, J. Yun, and J. Lee, "Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games," Korean Institute of Industrial Engineers, Vol.40, No.1, pp.8-17, 2014.
홍석미, 정경숙, 정태충, "혼합형 기계 학습 모델을 이용한 프로야구 승패 예측 시스템," 한국정보과학회, 제9권, 제6호, pp.693-698, 2003.
노언석, 최재현, "기계학습을 활용한 프로야구 승부예측에 관한 연구," 한국IT정책경영학회논문지, 제9권, 제1호, pp.335-338, 2017.
김태훈, 임성원, 고진광, 이재학, "인공지능 모델에 따른 한국프로야구의 승패 예측 분석에 관한 연구," 한국빅데이터학회, 제5권, 제2호, pp.77-84, 2020.
서영진, 문형우, 우용태, "기계학습 기법을 이용한 한국프로야구 승패 예측 모델," 한국컴퓨터정보학회, 제24권, 제2호, pp.17-24, 2019.
김종훈, 김경태, 한종기, "Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석," 한국통신학회, 제2015권, 제11호, pp.262-265, 2015.
L. Breiman, "Random Forest," Machine Learning, Vol.45, No.1, pp.5-32, 2001.
R. Rojas, AdaBoost and the super bowl of classifiers a tutorial introduction to adaptive boosting, Freie University: Berlin, 2009.
T. Hastie, R. Tibshirani, and J. H. Friedman, "10. Boosting and Additive Trees," The Elements of Statistical Learning(2nd ed.), New York: Springer, 2009.
T. Chen and C. Guestrin, "XGBoost: A scalable tree boosting system," Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining San Francisco, pp. 785-794, 2016.
J. H. Friedman, "Greedy Function Approximation: A Gradient Boosting Machine," The Annals of Statistics, Vol.29, No.5, pp.1189-1232, 2001.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.