$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구
Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games 원문보기

대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.40 no.1, 2014년, pp.8 - 17  

오윤학 (성균관대학교 시스템경영공학과) ,  김한 (성균관대학교 시스템경영공학과) ,  윤재섭 (성균관대학교 시스템경영공학과) ,  이종석 (성균관대학교 시스템경영공학과)

Abstract AI-Helper 아이콘AI-Helper

In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Usi...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 연구는 최근 경기력을 반영하기 위해 전 시즌부터 ‘직전’ 경기까지의 누적 데이터를 기반으로 선발라인업 10명(선발투수 1명, 타자 9명)의 데이터를 종합하는 시도를 하였으며, 과거 연구들이 승 · 패 예측을 위해 일부의 예측기법만을 사용한 반면, 본 연구에서는 보다 다양한 데이터마이닝 기법을 통해 프로야구 경기의 승 · 패를 예측함으로써 보다 높은 정확도의 모델을 수립하기 위한 시도를 하였다.
  • 본 연구의 목적은 2013년도 시즌 국내 프로야구 팀과 선수들의 누적데이터를 통해서 다음 경기의 승패를 예측하는 것이다. 이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다.
  • 본 연구의 목적은 선수 및 팀의 이전 시즌부터 직전경기까지의 기존의 누적 데이터를 바탕으로 다음 경기의 승·패를 예측 하는 것이기 때문에 KBO에서 수집한 자료를 바탕으로 [Table 1]에 제시한 방법에 따라 변인을 생성하여 [Table 2]에 의거하여 자료를 생성하였다.
  • 하지만 기존의 스포츠분석에서 주로 사용되어왔던 기법들은 의사결정나무, 로지스틱 회귀분석, 인공신경망 분석, 판별분석 정도로 기법의 종류가 제한적일 뿐만 아니라, 하나의 연구에 여러 가지의 분류기법을 적용한 사례도 드물다. 이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다. 본 연구의 모든 자료분석과 예측모형수립은 통계학에서 주로 사용되는 R 소프트웨어(http://cran.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
CART 알고리즘이란? 의사결정나무(decision tree)를 형성하는 데 사용될 수 있는 알고리즘 역시 여러 가지가 있지만, 본 연구에서는 해석의 용이성과 계산의 효율성 측면에서 다른 알고리즘보다 우수한 것으로 알려져 많이 사용되는 CART(classification and regression trees) 알고리즘을 선택하였다. CART 알고리즘은 전체 데이터를 포함 하는 뿌리노드(root node)에서 시작하여, 하나의 부모노드(parent node)로부터 두 개의 자식노드(child node)를 재귀적으로 형성하는 과정이다(Breiman et al., 1984).
CART 알고리즘에서 불순도를 측정하기 위해 사용되는 방법은? 이때 자식노드를 형성 하기 위해 선택되는 변인과 분지기준은 자식노드에 포함되는 데이터들의 불순도를 최대로 감소시킬 수 있는 것들로 선택하게 된다. 데이터의 불순도를 측정하기 위해서 보통 지니계수 (Gini index)나 정보엔트로피(information entropy)가 사용되는데, 본 연구에서는 지니계수를 이용하여 의사결정나무를 형성 하였다.
기존의 스포츠분석에서 주로 사용되어왔던 기법들은 무엇이 있었는가? 분류문제를 해결하기 위해 사용될 수 있는 데이터마이닝 기법들은 그 종류가 다양하다. 하지만 기존의 스포츠분석에서 주로 사용되어왔던 기법들은 의사결정나무, 로지스틱 회귀분석, 인공신경망 분석, 판별분석 정도로 기법의 종류가 제한적일 뿐만 아니라, 하나의 연구에 여러 가지의 분류기법을 적용한 사례도 드물다. 이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (23)

  1. Breiman, L. (2001), Random forests, Machine Learning, 45(1), 5-32. 

  2. Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984), Classification and regression trees, Wadsworth, CA, USA. 

  3. Burges, C. J. C. (1998), A tutorial on support vector machines for pattern recognition, Data Mining and Knowledge Discovery, 2, 121-167. 

  4. Chea, J.-S., Cho, E.-H., and Eom, H.-J. (2010), Comparisons of the outcomes of statistical models applied to the prediction of post-season entry in Korean professional baseball, The Korean Journal of Measurement and Evaluation in Physical Education and Sport Science, 12(1), 33-48. 

  5. Hong, C., Jung, M., and Lee, J. (2010), Prediction model analysis of 2010 South Africa world cup, Journal of the Korean data and information science society, 21(6), 1137-1146. 

  6. Hong, S., Jung, K., and Chung, T. (2003), Win/Lose prediction system : Predicting baseball game results using a hybrid machine learning model, Journal of Korea Information Science Society : Computing Practices, 9(6), 693-698. 

  7. Jensen, S. T., McShane, B. B., and Wyner, A. J. (2009), Hierarchical Bayesian modeling of hitting performance in baseball, Bayesian Analysis, 4(4), 631-652. 

  8. Jun, C.-H. (2012), Data Mining Techniques and Applications, Hannarae, Seoul, Korea. 

  9. Kim, C. (2001), A win-loss predicting model by analyzing professional baseball game, Journal of Sport and Leisure Studies, 16, 807-819. 

  10. Kim, D., Lee, S., and Kim, Y. (2007), Prediction for 2006 Germany world cup using Bradley-Terry model, The Korean journal of applied statistics, 20(2), 205-218. 

  11. Kim, J. H., Ro, G. T., Park, J. S., and Lee, W. H. (2007), The development of soccer game win-lost prediction model using neural network analysis : FIFA world cup 2006 Germany, Korean Journal of Sport Science, 18(4), 54-63. 

  12. Kim, N.-K. and Park, H.-M. (2011), Predicting the score of a soccer match by use of a Markovian arrival process, IE Interfaces, 24(4), 323-329. 

  13. Koo, S., Kim, H., and Chang, S. (2009), A comparative study on win-loss prediction models for Korean professional basketball, Korean Journal of Sport Science, 20(4), 704-711. 

  14. Korean Baseball Organization (2013), 2013 KBO Annual Report, Korean Baseball Organization, Seoul, Korea. 

  15. Lee, D.-J. and Yang, W. M. (2004), Performance evaluations of professional baseball players using DEA/OERA, IE Interfaces, 17(4), 440-449. 

  16. Lewis, M. M. (2004), Moneyball : The Art of Winning an Unfair Game, W. W. Norton and Company, NY, USA. 

  17. Miljkovic, D., Gajic, L., Kovacevic, A., and Konjovic, Z. (2010), The use of data mining for basketball matches outcomes prediction, Proceedings of the 8th International Symposium on Intelligent Systems and Informatics, 309-312. 

  18. Min, D. K. and Hyun, M. S. (2009), Prediction of a winner in PGA tournament using neural network, Journal of the Korean data and information science society, 20(6), 1119-1127. 

  19. Null, B. (2009), Modeling baseball player ability with a nested Dirichlet distribution, Journal of Quantitative Analysis in Sports, 5(2), 1-36. 

  20. Odachowski, K. and Grekow, J. (2013), Using bookmaker odds to predict the final result of football matches, Lecture Notes in Artificial Intelligence, 7828, 196-205. 

  21. Oh, K.-M. and Lee, J.-T. (2003), A model study on salaries of Korean pro-baseball players using data mining, Journal of Korean Sociology of Sport, 16(2), 295-309. 

  22. Seidman, C. (2002), MS SQL server2000 data mining (Technical Reference). 

  23. Sung, H. and Chang, W. (2007), Forecasting the results of soccer matches using poisson model, IE Interfaces, 20(2), 133-141. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로