In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Usi...
In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.
In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구는 최근 경기력을 반영하기 위해 전 시즌부터 ‘직전’ 경기까지의 누적 데이터를 기반으로 선발라인업 10명(선발투수 1명, 타자 9명)의 데이터를 종합하는 시도를 하였으며, 과거 연구들이 승 · 패 예측을 위해 일부의 예측기법만을 사용한 반면, 본 연구에서는 보다 다양한 데이터마이닝 기법을 통해 프로야구 경기의 승 · 패를 예측함으로써 보다 높은 정확도의 모델을 수립하기 위한 시도를 하였다.
본 연구의 목적은 2013년도 시즌 국내 프로야구 팀과 선수들의 누적데이터를 통해서 다음 경기의 승패를 예측하는 것이다. 이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다.
본 연구의 목적은 선수 및 팀의 이전 시즌부터 직전경기까지의 기존의 누적 데이터를 바탕으로 다음 경기의 승·패를 예측 하는 것이기 때문에 KBO에서 수집한 자료를 바탕으로 [Table 1]에 제시한 방법에 따라 변인을 생성하여 [Table 2]에 의거하여 자료를 생성하였다.
하지만 기존의 스포츠분석에서 주로 사용되어왔던 기법들은 의사결정나무, 로지스틱 회귀분석, 인공신경망 분석, 판별분석 정도로 기법의 종류가 제한적일 뿐만 아니라, 하나의 연구에 여러 가지의 분류기법을 적용한 사례도 드물다. 이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다. 본 연구의 모든 자료분석과 예측모형수립은 통계학에서 주로 사용되는 R 소프트웨어(http://cran.
제안 방법
타자 관련 변인은 경기에 출전하는 9명의 타자들의 수치를 합으로 나타내었으며, 투수 관련 변인은 선발투수의 팀 기여도를 나타낸 지표이다. 다만 자료 수집을 하는 과정에서 각 경기당 선수의 희비를 구하는데 어려움이 있어 출루율 계산과정을 수정하였다.
신경망은 독립변인의 입력층, 종속변인의 출력층, 그리고 은닉노드(hidden node)들의 은닉층으로 구성된다. 모형의 복잡도는 은닉층과 은닉노드의 개수를 정함으로써 결정되는데, 본 연구에서는 세 개의 은닉노드로 구성된 한 개의 은닉 층으로써 모형을 구성하였다. 통상 모델의 복잡도가 증가할수록 학습표본에 과적합되는 경향이 있는데, 이를 방지하기 위함이다.
본 연구에 사용된 변인은 크게 팀, 타자, 투수로 나뉘며 세부적인 변인 및 생성과정은 [Table 1]에 제시하였다. 각 데이터는 선수 및 팀의 통산 데이터를 수집하였으나, 팀의 승패를 예측하는데 있어서 통산 데이터보다 가장 최근에 참여한 한 시즌의 데이터가 선수 및 팀에 영향을 준다고 판단하여 이전의 한 시즌부터 2013년 6월까지의 자료를 사용하였다.
이때, 범주에 관계없이 분산-공분산 행렬이 동일하다고 가정하면 판별함수가 선형으로 도출되는데 이를 선형판별분석(linear discriminant analysis : LDA)이라고 하고, 다르다고 가정하면 이차식의 판별함수가 유도되므로 이를 이차판별분석 (quadratic discriminant analysis : QDA)이라고 한다. 본 연구에서는 두 가지 방법을 모두 사용하여 프로야구경기의 승패를 예측하는 시도를 하였다.
또한, 선택된 변인의 빈도수와 각 의사결정나무의 예측성능을 이용하여, 독립변인들의 중요도를 계산해 낼수 있는 장점이 있다. 본 연구에서는 랜덤포레스트의 학습을 위하여 100개의 의사결정나무를 형성하였고, 각 의사결정나무에서 사용될 수 있는 독립변인의 수를 세 개로 정하였다.
본 연구에서는 위와 같이 수집된 데이터를 바탕으로, 각 경기에서 팀 간 변인의 차이가 경기 결과에 미치는 영향을 알아 보기 위하여, 어웨이 팀의 데이터에서 홈 팀의 데이터를 나눈 나눔데이터, 그리고 홈 팀의 데이터와 어웨이 팀의 데이터를 비교해 홈팀의 값이 크면 1, 작으면 0으로 표시한 이분데이터를 추가로 변환하여 준비하였다. [Table 5]의 값과 같이 수집된 데이터는 원시데이터라 하였다.
이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다. 본 연구의 모든 자료분석과 예측모형수립은 통계학에서 주로 사용되는 R 소프트웨어(http://cran.r-project.org/)를 이용하여 수행되었고, 각각의 분류기법을 사용하기 위해 설치해야 하는 R 패키지와 사용되는 함수는 [Table 7]에 정리된 바와 같다.
본 연구의 목적은 2013년도 시즌 국내 프로야구 팀과 선수들의 누적데이터를 통해서 다음 경기의 승패를 예측하는 것이다. 이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다. 본격적으로 예측 모델을 수립하기 이전에, 원시데이터 모형에 대해 t-검정을 실시하였고, 팀과 관련된 변인에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다.
[Figure 3]은 나눔데이터를 의사결정나무 기법을 통해 학습한 예측모형이다. 최종 노드들 중 개체 수 10개 이상, 분류 정확도 80% 이상인 3, 8, 11, 24번 노드들의 해석을 통해 데이터의 어떠한 변인이 경기결과에 영향을 미치는지 알아보았다. 그 결과는 [Figure 4]에 표시된 바와 같다.
통상 데이터마이닝에서 예측모형을 수립할 때, 데이터를 학습 및 평가 표본으로 나누어 학습 표본에서 모형을 생성하고 평가 표본을 이용하여 모델의 성능을 평가한다. 하지만 이러한 방법은 우연히 예측 모델이 그 평가 표본에만 적합한 경우가 발생할 수 있으므로, 본 연구에서는 어떠한 평가 표본에 대해서도 예측률이 좋은 모델을 만들기 위해 100개의 평가 표본을 무작위로 생성하여 평균 오분류율을 구하였다.
통상 데이터마이닝에서 예측모형을 수립할 때, 데이터를 학습 및 평가 표본으로 나누어 학습 표본에서 모형을 생성하고 평가 표본을 이용하여 모델의 성능을 평가한다. 하지만 이러한 방법은 우연히 예측 모델이 그 평가 표본에만 적합한 경우가 발생할 수 있으므로, 본 연구에서는 어떠한 평가 표본에 대해서도 예측률이 좋은 모델을 만들기 위해 100개의 평가 표본을 무작위로 생성하여 평균 오분류율을 구하였다.
대상 데이터
본 연구에 사용된 변인은 크게 팀, 타자, 투수로 나뉘며 세부적인 변인 및 생성과정은 [Table 1]에 제시하였다. 각 데이터는 선수 및 팀의 통산 데이터를 수집하였으나, 팀의 승패를 예측하는데 있어서 통산 데이터보다 가장 최근에 참여한 한 시즌의 데이터가 선수 및 팀에 영향을 준다고 판단하여 이전의 한 시즌부터 2013년 6월까지의 자료를 사용하였다. 각 선수들의 데이터는 KBO(한국야구위원회) 홈페이지에서 제공한 선수자료들과 경기일정을 바탕으로 수집하였다.
각 데이터는 선수 및 팀의 통산 데이터를 수집하였으나, 팀의 승패를 예측하는데 있어서 통산 데이터보다 가장 최근에 참여한 한 시즌의 데이터가 선수 및 팀에 영향을 준다고 판단하여 이전의 한 시즌부터 2013년 6월까지의 자료를 사용하였다. 각 선수들의 데이터는 KBO(한국야구위원회) 홈페이지에서 제공한 선수자료들과 경기일정을 바탕으로 수집하였다. 몇 가지 변인을 간략히 설명하자면 평균연봉은 2013시즌 개막 시 팀의 외국인선수와 신인선수를 제외한 선수들의 평균연봉을 나타낸 변인이며, 휴식의 경우 2013년 시즌 9구단 체제로 인한 휴식 팀과 경기취소에 의한 영향을 반영시키기 위한 변인이고, 팀의 연승 연패는 팀의 분위기를 반영하기 위한 척도로 팀이 승리 시 1부터 1씩 증가하고 패배 시 -1부터 -1씩 감소하도록 하였다.
오분류율 : 모델을 생성할 때의 학습표본은 데이터의 60%로, 평가표본은 40%로 구성하였다. 원시데이터의 경우 328개의 학습표본과 218개의 평가표본으로 나뉘었으며, 나눔데이터와 이분데이터의 경우 164개 학습표본과 109개의 평가표본으로 나뉘어졌다. 이렇게 구성된 학습표본에 [Table 7]에서 제시한 분석방법을 적용하여, 분석한 결과는 [Table 9]와 [Figure 2]에 정리하였고, [Table 10]은 [Figure 2]의 가로축에 대한 설명이다.
경기 전 발표된 9명의 선발타자 엔트리및 각 선수의 데이터는 [Table 4]에 나타나 있고, 6월 2일 기아의 최종 데이터는 [Table 5]와 같이 나타낼 수 있다. 이와 같은 방법으로 총 546 경기에 대한 자료를 수집하였다.
예측 모델 수립을 위한 데이터 생성의 예로서, 53일차인 6월 2일 기아와 LG의 경기에서, 홈팀인 기아의 데이터를 생성하는 과정을 살펴보면 다음과 같다. 팀 데이터는 기아의 누적 데이터 및 LG와의 상대 승률, 상대팀에 대한 평균 자책점을 사용하였고, 당시 기아의 선발투수는 양현종이기 때문에 투수 데이터는 양현종의 2012시즌부터 직전경기인 5월 26일까지의 누적 값을 사용하였다. 경기 전 발표된 9명의 선발타자 엔트리및 각 선수의 데이터는 [Table 4]에 나타나 있고, 6월 2일 기아의 최종 데이터는 [Table 5]와 같이 나타낼 수 있다.
데이터처리
위 식을 특정범주에 속할 확률 p와 그렇지 않을 확률(1-p)의 비율(승산비)의 로그에 대하여 전개하면, 독립변인들의 선형함수로 쉽게 바꿀 수 있으며, 이로써 모형에 대한 해석이 용이해지는 장점이 있다(Jun, 2012). 본 연구에서는 프로야구경기의 승패 예측을 위해 이분 로지스틱 회귀분석을 사용하였고, 그와 동시에 중요변수를 선택하기 위해 단계적 변인선택 방법(stepwise variable selection)을 도입하였다.
본격적으로 예측 모델을 수립하기 이전에, 원시데이터 모형에 대해 t-검정을 실시하였고, 팀과 관련된 변인에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다. 분류기법으로는 의사결정나무, 랜덤포레스트, 로지스틱 회귀분석, 신경망분석, 지지벡터머신, 판별 분석을 사용하였고 연구의 결론은 다음과 같다.
분석기법을 적용하기 이전에 각 변인들에 대하여 승리한 팀과 패배한 팀 간 평균 비교(t-검정)를 실시하였다. 그 결과를 [Table 8]에 정리하였고, 그 중 유의한 변인들의 평균차이는 [Figure 1]과 같다.
예측 모형의 해석이 가능한 분석방법은 의사결정나무, 로지스틱 회귀분석이 있는데, 이들 중 오분류율이 가장 작은 의사결정나무-나눔데이터 모형의 예측모델을 통해 결과를 해석하였다. [Figure 3]은 나눔데이터를 의사결정나무 기법을 통해 학습한 예측모형이다.
이론/모형
이때 자식노드를 형성 하기 위해 선택되는 변인과 분지기준은 자식노드에 포함되는 데이터들의 불순도를 최대로 감소시킬 수 있는 것들로 선택하게 된다. 데이터의 불순도를 측정하기 위해서 보통 지니계수 (Gini index)나 정보엔트로피(information entropy)가 사용되는데, 본 연구에서는 지니계수를 이용하여 의사결정나무를 형성하였다.
이때, 비선형 분류를 위하여 입력변인들을 고차원 공간으로 이동시켜서 새로운 공간에서의 분류초평면이 실제 입력변인들의 공간에서는 복잡한 비선형의 분류경계를 형성하는 효과를 얻게 해주는 커널트릭을 사용하기도 한다. 본 연구에서는 통상 많이 사용되는 가우시안커널(Gaussian kernel)을 사용하였고, 커널함수의 결정 계수는 학습표본을 10개로 분할하고 교차타당성(cross-validation)을 이용하여 결정하였다. 지지벡터머신도 신경망모형과 마찬가지로 모형에 대한 해석은 불가능하다.
의사결정나무(decision tree)를 형성하는 데 사용될 수 있는 알고리즘 역시 여러 가지가 있지만, 본 연구에서는 해석의 용이성과 계산의 효율성 측면에서 다른 알고리즘보다 우수한 것으로 알려져 많이 사용되는 CART(classification and regression trees) 알고리즘을 선택하였다. CART 알고리즘은 전체 데이터를 포함 하는 뿌리노드(root node)에서 시작하여, 하나의 부모노드(parent node)로부터 두 개의 자식노드(child node)를 재귀적으로 형성하는 과정이다(Breiman et al.
통상 모델의 복잡도가 증가할수록 학습표본에 과적합되는 경향이 있는데, 이를 방지하기 위함이다. 형성된 모형의 학습을 위하여 출력층의 예측값과 실제값의 차이를 최소화하는 방향으로 모형의 가중치를 갱신하는 역전파(back propagation)알고리즘을 사용하였다. 위에 언급한 기법들과는 달리 신경망모형은 학습된 모형의 해석이 불가능하다는 단점이 있다.
성능/효과
동일한 문제에 대해 데이터의 가공과 사용되는 분석방법에 따라 중요변인이 다르게 나타지만 반복 적으로 중요변인으로 선정되는 변인은 점수가 높게 나타나며, 분류를 하는 데 있어 중요한 역할을 한다고 볼 수 있다. 그 결과, 다른 변인들에 비해 중요한 변인은 삼진/이닝, 평균연봉, 평균자책점, 선발승률, 삼진/타수, 사구/타수 순으로 나타났고, 홈어웨이, 연승연패는 상대적으로 중요하지 않은 변인으로 나타났다.
둘째, 세 가지의 데이터 종류에 대해 일곱 가지 분석기법들을 사용하여 예측 모델을 수립한 결과, 랜덤포레스트를 사용한 경우(원시 : 16.82%, 나눔 : 16.13%, 이분 : 15.86%), 이분데이터에 신경망모형을 사용한 경우(21.70%), 이분데이터에 지지 벡터머신을 사용한 경우(22.88%)순으로 오분류율이 낮게 측정되었고, 특히 이분데이터 모형에 랜덤포레스트를 사용하였을 때 오분류율이 가장 낮은 것으로 나타났다. 따라서 데이터 종류나 분석기법들에 따라 예측 결과가 차이가 나는 것을 확인할 수 있었다.
88%)순으로 오분류율이 낮게 측정되었고, 특히 이분데이터 모형에 랜덤포레스트를 사용하였을 때 오분류율이 가장 낮은 것으로 나타났다. 따라서 데이터 종류나 분석기법들에 따라 예측 결과가 차이가 나는 것을 확인할 수 있었다.
Node 11에서는 사구/타수 및 선발승률이 Node 8과 같은 경향을 보이는데도 홈팀이 승리할 것으로 예측하였는데, 이는 상대적으로 볼넷/이닝과 평균자책점의 영향력이 더 크기 때문이라고 볼 수 있다. 마지막으로 Node 24는 볼넷/이닝과 장타율이 기대와 반대로 나타났으나, 사구/타수, 선발승률, 평균소화이닝의 영향력이 상대적으로 더 크게 작용함을 확인할 수 있다.
특히, 랜덤포레스트의 경우 예측성능도 우수할 뿐만 아니라 변인의 중요도 또한 산출해 낼 수 있으므로, 어떤 변수가 경기의 승패에 큰 영향을 끼치는지 알 수 있다. 본 연구의 실험에서는 원시데이터모형의 평가 오분류율보다 두 팀의 상대적인 차이를 나타내는 나눔데이터모형 또는 이분데이터모형의 평가오분류율이 더 낮게 측정되었다.
이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다. 본격적으로 예측 모델을 수립하기 이전에, 원시데이터 모형에 대해 t-검정을 실시하였고, 팀과 관련된 변인에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다. 분류기법으로는 의사결정나무, 랜덤포레스트, 로지스틱 회귀분석, 신경망분석, 지지벡터머신, 판별 분석을 사용하였고 연구의 결론은 다음과 같다.
셋째, 일곱 가지 분석기법들 중에서 중요변인을 확인할 수있는 의사결정나무, 랜덤포레스트, 로지스틱회귀분석을 통해서 각각 중요변인을 점수로 변환하여 비교한 결과 삼진/이닝, 팀의 평균연봉, 투수의 평균 자책점, 선발승률, 타자의 삼진/타수, 사구/타수 순서로 중요한 변인으로 나타났다. 이를 통해, 팀의 평균연봉이 선수들의 기량을 충분히 반영하고, 선발투수의 성적이 타자의 성적보다 상대적으로 중요하다는 것을 추론 할 수 있다.
학습 오분류율은 학습표본에 대한 오분류율이고 평가오분류율은 무작위로 반복하여 추출된 100개의 평가 표본들의 평균 오분류율이다. 이 결과에 따르면 랜덤포레스트 분석 방법은 모든 데이터 종류에서 낮은 오분류율(원시 : 16.82%, 나눔 : 16.13%, 이분 : 15.86%)을 나타내며, 그 다음으로는 이분데이터를 신경망모형으로 예측한 경우(21.70%), 이분데이터를 지지벡터머신으로 예측한 경우(22.88%)가 낮은 오분류율을보였다. 특히, 랜덤포레스트의 경우 예측성능도 우수할 뿐만 아니라 변인의 중요도 또한 산출해 낼 수 있으므로, 어떤 변수가 경기의 승패에 큰 영향을 끼치는지 알 수 있다.
첫째, 프로야구의 경기기록과 정보를 이용해 누적된 자료를 바탕으로 생성한 세 가지 데이터 종류에서 원시데이터 모형을 사용하였을 때의 오분류율보다 나눔데이터 모형 또는 이분데이터모형의 오분류율이 더 낮음을 확인할 수 있었다. 이를 통해 한 경기에서 두 팀의 데이터를 각각 사용하는 것 보다 두 팀의 상대적인 차이를 사용한 데이터 모형이 경기의 승패를 예측하는데 효과적이라는 것을 확인할 수 있었다.
첫째, 프로야구의 경기기록과 정보를 이용해 누적된 자료를 바탕으로 생성한 세 가지 데이터 종류에서 원시데이터 모형을 사용하였을 때의 오분류율보다 나눔데이터 모형 또는 이분데이터모형의 오분류율이 더 낮음을 확인할 수 있었다. 이를 통해 한 경기에서 두 팀의 데이터를 각각 사용하는 것 보다 두 팀의 상대적인 차이를 사용한 데이터 모형이 경기의 승패를 예측하는데 효과적이라는 것을 확인할 수 있었다.
평균비교 결과에서 나타나듯이 팀과 관련된 변인 중에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다(p < .05).
후속연구
본 연구의 한계점으로는, 분석에 사용된 데이터가 6월까지의 경기이었기 때문에 7월 이후의 경기 승패를 예측하기 위해서는 직전경기까지의 누적데이터가 필요하다는 점과, 검증되지 않은 신인선수들과 NC와 같은 신생팀의 자료가 부족하였다는 점이다. 향후 몇 년간 자료가 누적된다면 더 정확한 예측 모형을 얻을 수 있을 것이라고 기대한다.
기존의 스포츠 분석 관련 연구들은 한정된 몇 가지의 분석 기법만을 사용한 반면, 본 연구는 기존에 사용되지 않았던 기법들을 포함하여 여러 가지 기법들을 적용한 점, 그리고 각 기법들로부터 승패에 영향을 미치는 중요 요인들을 산출하여 그 의미를 파악하였다는 점에서 의의가 있다. 특히, 랜덤포레스트 분석기법은 성능도 우수할 뿐만 아니라, 변수의 중요도 역시 산출해 낼 수 있으므로, 현재까지 스포츠분석에서 사용된 사례는 없지만, 본 연구에서 사용한 결과 다른 분석기법들에 비해 비교적 낮은 오분류율을 나타내 추후 스포츠 분석에서 사용한다면 좋을 예측결과를 기대할 수 있을 것이다. 또한, 경기에서 팀 간의 상대적인 차이를 반영한 새로운 종류의 데이터를 가공하여 사용했다는 점, 선수들의 누적데이터를 이용하여 경기의 승․패를 예측했다는 점이 기존의 연구와 다르다고 할 수 있다.
본 연구의 한계점으로는, 분석에 사용된 데이터가 6월까지의 경기이었기 때문에 7월 이후의 경기 승패를 예측하기 위해서는 직전경기까지의 누적데이터가 필요하다는 점과, 검증되지 않은 신인선수들과 NC와 같은 신생팀의 자료가 부족하였다는 점이다. 향후 몇 년간 자료가 누적된다면 더 정확한 예측 모형을 얻을 수 있을 것이라고 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
CART 알고리즘이란?
의사결정나무(decision tree)를 형성하는 데 사용될 수 있는 알고리즘 역시 여러 가지가 있지만, 본 연구에서는 해석의 용이성과 계산의 효율성 측면에서 다른 알고리즘보다 우수한 것으로 알려져 많이 사용되는 CART(classification and regression trees) 알고리즘을 선택하였다. CART 알고리즘은 전체 데이터를 포함 하는 뿌리노드(root node)에서 시작하여, 하나의 부모노드(parent node)로부터 두 개의 자식노드(child node)를 재귀적으로 형성하는 과정이다(Breiman et al., 1984).
CART 알고리즘에서 불순도를 측정하기 위해 사용되는 방법은?
이때 자식노드를 형성 하기 위해 선택되는 변인과 분지기준은 자식노드에 포함되는 데이터들의 불순도를 최대로 감소시킬 수 있는 것들로 선택하게 된다. 데이터의 불순도를 측정하기 위해서 보통 지니계수 (Gini index)나 정보엔트로피(information entropy)가 사용되는데, 본 연구에서는 지니계수를 이용하여 의사결정나무를 형성 하였다.
기존의 스포츠분석에서 주로 사용되어왔던 기법들은 무엇이 있었는가?
분류문제를 해결하기 위해 사용될 수 있는 데이터마이닝 기법들은 그 종류가 다양하다. 하지만 기존의 스포츠분석에서 주로 사용되어왔던 기법들은 의사결정나무, 로지스틱 회귀분석, 인공신경망 분석, 판별분석 정도로 기법의 종류가 제한적일 뿐만 아니라, 하나의 연구에 여러 가지의 분류기법을 적용한 사례도 드물다. 이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다.
참고문헌 (23)
Breiman, L. (2001), Random forests, Machine Learning, 45(1), 5-32.
Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984), Classification and regression trees, Wadsworth, CA, USA.
Burges, C. J. C. (1998), A tutorial on support vector machines for pattern recognition, Data Mining and Knowledge Discovery, 2, 121-167.
Chea, J.-S., Cho, E.-H., and Eom, H.-J. (2010), Comparisons of the outcomes of statistical models applied to the prediction of post-season entry in Korean professional baseball, The Korean Journal of Measurement and Evaluation in Physical Education and Sport Science, 12(1), 33-48.
Hong, C., Jung, M., and Lee, J. (2010), Prediction model analysis of 2010 South Africa world cup, Journal of the Korean data and information science society, 21(6), 1137-1146.
Hong, S., Jung, K., and Chung, T. (2003), Win/Lose prediction system : Predicting baseball game results using a hybrid machine learning model, Journal of Korea Information Science Society : Computing Practices, 9(6), 693-698.
Jensen, S. T., McShane, B. B., and Wyner, A. J. (2009), Hierarchical Bayesian modeling of hitting performance in baseball, Bayesian Analysis, 4(4), 631-652.
Jun, C.-H. (2012), Data Mining Techniques and Applications, Hannarae, Seoul, Korea.
Kim, C. (2001), A win-loss predicting model by analyzing professional baseball game, Journal of Sport and Leisure Studies, 16, 807-819.
Kim, D., Lee, S., and Kim, Y. (2007), Prediction for 2006 Germany world cup using Bradley-Terry model, The Korean journal of applied statistics, 20(2), 205-218.
Kim, J. H., Ro, G. T., Park, J. S., and Lee, W. H. (2007), The development of soccer game win-lost prediction model using neural network analysis : FIFA world cup 2006 Germany, Korean Journal of Sport Science, 18(4), 54-63.
Koo, S., Kim, H., and Chang, S. (2009), A comparative study on win-loss prediction models for Korean professional basketball, Korean Journal of Sport Science, 20(4), 704-711.
Korean Baseball Organization (2013), 2013 KBO Annual Report, Korean Baseball Organization, Seoul, Korea.
Lee, D.-J. and Yang, W. M. (2004), Performance evaluations of professional baseball players using DEA/OERA, IE Interfaces, 17(4), 440-449.
Lewis, M. M. (2004), Moneyball : The Art of Winning an Unfair Game, W. W. Norton and Company, NY, USA.
Miljkovic, D., Gajic, L., Kovacevic, A., and Konjovic, Z. (2010), The use of data mining for basketball matches outcomes prediction, Proceedings of the 8th International Symposium on Intelligent Systems and Informatics, 309-312.
Min, D. K. and Hyun, M. S. (2009), Prediction of a winner in PGA tournament using neural network, Journal of the Korean data and information science society, 20(6), 1119-1127.
Null, B. (2009), Modeling baseball player ability with a nested Dirichlet distribution, Journal of Quantitative Analysis in Sports, 5(2), 1-36.
Odachowski, K. and Grekow, J. (2013), Using bookmaker odds to predict the final result of football matches, Lecture Notes in Artificial Intelligence, 7828, 196-205.
Oh, K.-M. and Lee, J.-T. (2003), A model study on salaries of Korean pro-baseball players using data mining, Journal of Korean Sociology of Sport, 16(2), 295-309.
Seidman, C. (2002), MS SQL server2000 data mining (Technical Reference).
Sung, H. and Chang, W. (2007), Forecasting the results of soccer matches using poisson model, IE Interfaces, 20(2), 133-141.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.