[논문]데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구

오윤학; 김한; 윤재섭; 이종석

doi:10.7232/jkiie.2014.40.1.008

문제 정의

따라서 본 연구는 최근 경기력을 반영하기 위해 전 시즌부터 ‘직전’ 경기까지의 누적 데이터를 기반으로 선발라인업 10명(선발투수 1명, 타자 9명)의 데이터를 종합하는 시도를 하였으며, 과거 연구들이 승 · 패 예측을 위해 일부의 예측기법만을 사용한 반면, 본 연구에서는 보다 다양한 데이터마이닝 기법을 통해 프로야구 경기의 승 · 패를 예측함으로써 보다 높은 정확도의 모델을 수립하기 위한 시도를 하였다.
본 연구의 목적은 2013년도 시즌 국내 프로야구 팀과 선수들의 누적데이터를 통해서 다음 경기의 승패를 예측하는 것이다. 이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다.
본 연구의 목적은 선수 및 팀의 이전 시즌부터 직전경기까지의 기존의 누적 데이터를 바탕으로 다음 경기의 승·패를 예측 하는 것이기 때문에 KBO에서 수집한 자료를 바탕으로 [Table 1]에 제시한 방법에 따라 변인을 생성하여 [Table 2]에 의거하여 자료를 생성하였다.
하지만 기존의 스포츠분석에서 주로 사용되어왔던 기법들은 의사결정나무, 로지스틱 회귀분석, 인공신경망 분석, 판별분석 정도로 기법의 종류가 제한적일 뿐만 아니라, 하나의 연구에 여러 가지의 분류기법을 적용한 사례도 드물다. 이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다. 본 연구의 모든 자료분석과 예측모형수립은 통계학에서 주로 사용되는 R 소프트웨어(http://cran.

제안 방법

타자 관련 변인은 경기에 출전하는 9명의 타자들의 수치를 합으로 나타내었으며, 투수 관련 변인은 선발투수의 팀 기여도를 나타낸 지표이다. 다만 자료 수집을 하는 과정에서 각 경기당 선수의 희비를 구하는데 어려움이 있어 출루율 계산과정을 수정하였다.
신경망은 독립변인의 입력층, 종속변인의 출력층, 그리고 은닉노드(hidden node)들의 은닉층으로 구성된다. 모형의 복잡도는 은닉층과 은닉노드의 개수를 정함으로써 결정되는데, 본 연구에서는 세 개의 은닉노드로 구성된 한 개의 은닉 층으로써 모형을 구성하였다. 통상 모델의 복잡도가 증가할수록 학습표본에 과적합되는 경향이 있는데, 이를 방지하기 위함이다.
본 연구에 사용된 변인은 크게 팀, 타자, 투수로 나뉘며 세부적인 변인 및 생성과정은 [Table 1]에 제시하였다. 각 데이터는 선수 및 팀의 통산 데이터를 수집하였으나, 팀의 승패를 예측하는데 있어서 통산 데이터보다 가장 최근에 참여한 한 시즌의 데이터가 선수 및 팀에 영향을 준다고 판단하여 이전의 한 시즌부터 2013년 6월까지의 자료를 사용하였다.
이때, 범주에 관계없이 분산-공분산 행렬이 동일하다고 가정하면 판별함수가 선형으로 도출되는데 이를 선형판별분석(linear discriminant analysis : LDA)이라고 하고, 다르다고 가정하면 이차식의 판별함수가 유도되므로 이를 이차판별분석 (quadratic discriminant analysis : QDA)이라고 한다. 본 연구에서는 두 가지 방법을 모두 사용하여 프로야구경기의 승패를 예측하는 시도를 하였다.
또한, 선택된 변인의 빈도수와 각 의사결정나무의 예측성능을 이용하여, 독립변인들의 중요도를 계산해 낼수 있는 장점이 있다. 본 연구에서는 랜덤포레스트의 학습을 위하여 100개의 의사결정나무를 형성하였고, 각 의사결정나무에서 사용될 수 있는 독립변인의 수를 세 개로 정하였다.
본 연구에서는 위와 같이 수집된 데이터를 바탕으로, 각 경기에서 팀 간 변인의 차이가 경기 결과에 미치는 영향을 알아 보기 위하여, 어웨이 팀의 데이터에서 홈 팀의 데이터를 나눈 나눔데이터, 그리고 홈 팀의 데이터와 어웨이 팀의 데이터를 비교해 홈팀의 값이 크면 1, 작으면 0으로 표시한 이분데이터를 추가로 변환하여 준비하였다. [Table 5]의 값과 같이 수집된 데이터는 원시데이터라 하였다.
이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다. 본 연구의 모든 자료분석과 예측모형수립은 통계학에서 주로 사용되는 R 소프트웨어(http://cran.r-project.org/)를 이용하여 수행되었고, 각각의 분류기법을 사용하기 위해 설치해야 하는 R 패키지와 사용되는 함수는 [Table 7]에 정리된 바와 같다.
본 연구의 목적은 2013년도 시즌 국내 프로야구 팀과 선수들의 누적데이터를 통해서 다음 경기의 승패를 예측하는 것이다. 이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다. 본격적으로 예측 모델을 수립하기 이전에, 원시데이터 모형에 대해 t-검정을 실시하였고, 팀과 관련된 변인에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다.
[Figure 3]은 나눔데이터를 의사결정나무 기법을 통해 학습한 예측모형이다. 최종 노드들 중 개체 수 10개 이상, 분류 정확도 80% 이상인 3, 8, 11, 24번 노드들의 해석을 통해 데이터의 어떠한 변인이 경기결과에 영향을 미치는지 알아보았다. 그 결과는 [Figure 4]에 표시된 바와 같다.
통상 데이터마이닝에서 예측모형을 수립할 때, 데이터를 학습 및 평가 표본으로 나누어 학습 표본에서 모형을 생성하고 평가 표본을 이용하여 모델의 성능을 평가한다. 하지만 이러한 방법은 우연히 예측 모델이 그 평가 표본에만 적합한 경우가 발생할 수 있으므로, 본 연구에서는 어떠한 평가 표본에 대해서도 예측률이 좋은 모델을 만들기 위해 100개의 평가 표본을 무작위로 생성하여 평균 오분류율을 구하였다.
통상 데이터마이닝에서 예측모형을 수립할 때, 데이터를 학습 및 평가 표본으로 나누어 학습 표본에서 모형을 생성하고 평가 표본을 이용하여 모델의 성능을 평가한다. 하지만 이러한 방법은 우연히 예측 모델이 그 평가 표본에만 적합한 경우가 발생할 수 있으므로, 본 연구에서는 어떠한 평가 표본에 대해서도 예측률이 좋은 모델을 만들기 위해 100개의 평가 표본을 무작위로 생성하여 평균 오분류율을 구하였다.

대상 데이터

본 연구에 사용된 변인은 크게 팀, 타자, 투수로 나뉘며 세부적인 변인 및 생성과정은 [Table 1]에 제시하였다. 각 데이터는 선수 및 팀의 통산 데이터를 수집하였으나, 팀의 승패를 예측하는데 있어서 통산 데이터보다 가장 최근에 참여한 한 시즌의 데이터가 선수 및 팀에 영향을 준다고 판단하여 이전의 한 시즌부터 2013년 6월까지의 자료를 사용하였다. 각 선수들의 데이터는 KBO(한국야구위원회) 홈페이지에서 제공한 선수자료들과 경기일정을 바탕으로 수집하였다.
각 데이터는 선수 및 팀의 통산 데이터를 수집하였으나, 팀의 승패를 예측하는데 있어서 통산 데이터보다 가장 최근에 참여한 한 시즌의 데이터가 선수 및 팀에 영향을 준다고 판단하여 이전의 한 시즌부터 2013년 6월까지의 자료를 사용하였다. 각 선수들의 데이터는 KBO(한국야구위원회) 홈페이지에서 제공한 선수자료들과 경기일정을 바탕으로 수집하였다. 몇 가지 변인을 간략히 설명하자면 평균연봉은 2013시즌 개막 시 팀의 외국인선수와 신인선수를 제외한 선수들의 평균연봉을 나타낸 변인이며, 휴식의 경우 2013년 시즌 9구단 체제로 인한 휴식 팀과 경기취소에 의한 영향을 반영시키기 위한 변인이고, 팀의 연승 연패는 팀의 분위기를 반영하기 위한 척도로 팀이 승리 시 1부터 1씩 증가하고 패배 시 -1부터 -1씩 감소하도록 하였다.
오분류율 : 모델을 생성할 때의 학습표본은 데이터의 60%로, 평가표본은 40%로 구성하였다. 원시데이터의 경우 328개의 학습표본과 218개의 평가표본으로 나뉘었으며, 나눔데이터와 이분데이터의 경우 164개 학습표본과 109개의 평가표본으로 나뉘어졌다. 이렇게 구성된 학습표본에 [Table 7]에서 제시한 분석방법을 적용하여, 분석한 결과는 [Table 9]와 [Figure 2]에 정리하였고, [Table 10]은 [Figure 2]의 가로축에 대한 설명이다.
경기 전 발표된 9명의 선발타자 엔트리및 각 선수의 데이터는 [Table 4]에 나타나 있고, 6월 2일 기아의 최종 데이터는 [Table 5]와 같이 나타낼 수 있다. 이와 같은 방법으로 총 546 경기에 대한 자료를 수집하였다.
예측 모델 수립을 위한 데이터 생성의 예로서, 53일차인 6월 2일 기아와 LG의 경기에서, 홈팀인 기아의 데이터를 생성하는 과정을 살펴보면 다음과 같다. 팀 데이터는 기아의 누적 데이터 및 LG와의 상대 승률, 상대팀에 대한 평균 자책점을 사용하였고, 당시 기아의 선발투수는 양현종이기 때문에 투수 데이터는 양현종의 2012시즌부터 직전경기인 5월 26일까지의 누적 값을 사용하였다. 경기 전 발표된 9명의 선발타자 엔트리및 각 선수의 데이터는 [Table 4]에 나타나 있고, 6월 2일 기아의 최종 데이터는 [Table 5]와 같이 나타낼 수 있다.

데이터처리

위 식을 특정범주에 속할 확률 p와 그렇지 않을 확률(1-p)의 비율(승산비)의 로그에 대하여 전개하면, 독립변인들의 선형함수로 쉽게 바꿀 수 있으며, 이로써 모형에 대한 해석이 용이해지는 장점이 있다(Jun, 2012). 본 연구에서는 프로야구경기의 승패 예측을 위해 이분 로지스틱 회귀분석을 사용하였고, 그와 동시에 중요변수를 선택하기 위해 단계적 변인선택 방법(stepwise variable selection)을 도입하였다.
본격적으로 예측 모델을 수립하기 이전에, 원시데이터 모형에 대해 t-검정을 실시하였고, 팀과 관련된 변인에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다. 분류기법으로는 의사결정나무, 랜덤포레스트, 로지스틱 회귀분석, 신경망분석, 지지벡터머신, 판별 분석을 사용하였고 연구의 결론은 다음과 같다.
분석기법을 적용하기 이전에 각 변인들에 대하여 승리한 팀과 패배한 팀 간 평균 비교(t-검정)를 실시하였다. 그 결과를 [Table 8]에 정리하였고, 그 중 유의한 변인들의 평균차이는 [Figure 1]과 같다.
예측 모형의 해석이 가능한 분석방법은 의사결정나무, 로지스틱 회귀분석이 있는데, 이들 중 오분류율이 가장 작은 의사결정나무-나눔데이터 모형의 예측모델을 통해 결과를 해석하였다. [Figure 3]은 나눔데이터를 의사결정나무 기법을 통해 학습한 예측모형이다.

이론/모형

이때 자식노드를 형성 하기 위해 선택되는 변인과 분지기준은 자식노드에 포함되는 데이터들의 불순도를 최대로 감소시킬 수 있는 것들로 선택하게 된다. 데이터의 불순도를 측정하기 위해서 보통 지니계수 (Gini index)나 정보엔트로피(information entropy)가 사용되는데, 본 연구에서는 지니계수를 이용하여 의사결정나무를 형성하였다.
이때, 비선형 분류를 위하여 입력변인들을 고차원 공간으로 이동시켜서 새로운 공간에서의 분류초평면이 실제 입력변인들의 공간에서는 복잡한 비선형의 분류경계를 형성하는 효과를 얻게 해주는 커널트릭을 사용하기도 한다. 본 연구에서는 통상 많이 사용되는 가우시안커널(Gaussian kernel)을 사용하였고, 커널함수의 결정 계수는 학습표본을 10개로 분할하고 교차타당성(cross-validation)을 이용하여 결정하였다. 지지벡터머신도 신경망모형과 마찬가지로 모형에 대한 해석은 불가능하다.
의사결정나무(decision tree)를 형성하는 데 사용될 수 있는 알고리즘 역시 여러 가지가 있지만, 본 연구에서는 해석의 용이성과 계산의 효율성 측면에서 다른 알고리즘보다 우수한 것으로 알려져 많이 사용되는 CART(classification and regression trees) 알고리즘을 선택하였다. CART 알고리즘은 전체 데이터를 포함 하는 뿌리노드(root node)에서 시작하여, 하나의 부모노드(parent node)로부터 두 개의 자식노드(child node)를 재귀적으로 형성하는 과정이다(Breiman et al.
통상 모델의 복잡도가 증가할수록 학습표본에 과적합되는 경향이 있는데, 이를 방지하기 위함이다. 형성된 모형의 학습을 위하여 출력층의 예측값과 실제값의 차이를 최소화하는 방향으로 모형의 가중치를 갱신하는 역전파(back propagation)알고리즘을 사용하였다. 위에 언급한 기법들과는 달리 신경망모형은 학습된 모형의 해석이 불가능하다는 단점이 있다.

성능/효과

동일한 문제에 대해 데이터의 가공과 사용되는 분석방법에 따라 중요변인이 다르게 나타지만 반복 적으로 중요변인으로 선정되는 변인은 점수가 높게 나타나며, 분류를 하는 데 있어 중요한 역할을 한다고 볼 수 있다. 그 결과, 다른 변인들에 비해 중요한 변인은 삼진/이닝, 평균연봉, 평균자책점, 선발승률, 삼진/타수, 사구/타수 순으로 나타났고, 홈어웨이, 연승연패는 상대적으로 중요하지 않은 변인으로 나타났다.
둘째, 세 가지의 데이터 종류에 대해 일곱 가지 분석기법들을 사용하여 예측 모델을 수립한 결과, 랜덤포레스트를 사용한 경우(원시 : 16.82%, 나눔 : 16.13%, 이분 : 15.86%), 이분데이터에 신경망모형을 사용한 경우(21.70%), 이분데이터에 지지 벡터머신을 사용한 경우(22.88%)순으로 오분류율이 낮게 측정되었고, 특히 이분데이터 모형에 랜덤포레스트를 사용하였을 때 오분류율이 가장 낮은 것으로 나타났다. 따라서 데이터 종류나 분석기법들에 따라 예측 결과가 차이가 나는 것을 확인할 수 있었다.
88%)순으로 오분류율이 낮게 측정되었고, 특히 이분데이터 모형에 랜덤포레스트를 사용하였을 때 오분류율이 가장 낮은 것으로 나타났다. 따라서 데이터 종류나 분석기법들에 따라 예측 결과가 차이가 나는 것을 확인할 수 있었다.
Node 11에서는 사구/타수 및 선발승률이 Node 8과 같은 경향을 보이는데도 홈팀이 승리할 것으로 예측하였는데, 이는 상대적으로 볼넷/이닝과 평균자책점의 영향력이 더 크기 때문이라고 볼 수 있다. 마지막으로 Node 24는 볼넷/이닝과 장타율이 기대와 반대로 나타났으나, 사구/타수, 선발승률, 평균소화이닝의 영향력이 상대적으로 더 크게 작용함을 확인할 수 있다.
특히, 랜덤포레스트의 경우 예측성능도 우수할 뿐만 아니라 변인의 중요도 또한 산출해 낼 수 있으므로, 어떤 변수가 경기의 승패에 큰 영향을 끼치는지 알 수 있다. 본 연구의 실험에서는 원시데이터모형의 평가 오분류율보다 두 팀의 상대적인 차이를 나타내는 나눔데이터모형 또는 이분데이터모형의 평가오분류율이 더 낮게 측정되었다.
이를 위해 홈 팀과 어웨이 팀 각각의 경기기록으로 생성한 원시데이터, 어웨이 팀의 데이터를 홈 팀의 데이터로 나눈 나눔데이터, 홈 팀 데이터와 어웨이 팀 데이터의 차이를 0, 1로나타낸 이분데이터를 생성하였다. 본격적으로 예측 모델을 수립하기 이전에, 원시데이터 모형에 대해 t-검정을 실시하였고, 팀과 관련된 변인에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다. 분류기법으로는 의사결정나무, 랜덤포레스트, 로지스틱 회귀분석, 신경망분석, 지지벡터머신, 판별 분석을 사용하였고 연구의 결론은 다음과 같다.
셋째, 일곱 가지 분석기법들 중에서 중요변인을 확인할 수있는 의사결정나무, 랜덤포레스트, 로지스틱회귀분석을 통해서 각각 중요변인을 점수로 변환하여 비교한 결과 삼진/이닝, 팀의 평균연봉, 투수의 평균 자책점, 선발승률, 타자의 삼진/타수, 사구/타수 순서로 중요한 변인으로 나타났다. 이를 통해, 팀의 평균연봉이 선수들의 기량을 충분히 반영하고, 선발투수의 성적이 타자의 성적보다 상대적으로 중요하다는 것을 추론 할 수 있다.
학습 오분류율은 학습표본에 대한 오분류율이고 평가오분류율은 무작위로 반복하여 추출된 100개의 평가 표본들의 평균 오분류율이다. 이 결과에 따르면 랜덤포레스트 분석 방법은 모든 데이터 종류에서 낮은 오분류율(원시 : 16.82%, 나눔 : 16.13%, 이분 : 15.86%)을 나타내며, 그 다음으로는 이분데이터를 신경망모형으로 예측한 경우(21.70%), 이분데이터를 지지벡터머신으로 예측한 경우(22.88%)가 낮은 오분류율을보였다. 특히, 랜덤포레스트의 경우 예측성능도 우수할 뿐만 아니라 변인의 중요도 또한 산출해 낼 수 있으므로, 어떤 변수가 경기의 승패에 큰 영향을 끼치는지 알 수 있다.
첫째, 프로야구의 경기기록과 정보를 이용해 누적된 자료를 바탕으로 생성한 세 가지 데이터 종류에서 원시데이터 모형을 사용하였을 때의 오분류율보다 나눔데이터 모형 또는 이분데이터모형의 오분류율이 더 낮음을 확인할 수 있었다. 이를 통해 한 경기에서 두 팀의 데이터를 각각 사용하는 것 보다 두 팀의 상대적인 차이를 사용한 데이터 모형이 경기의 승패를 예측하는데 효과적이라는 것을 확인할 수 있었다.
첫째, 프로야구의 경기기록과 정보를 이용해 누적된 자료를 바탕으로 생성한 세 가지 데이터 종류에서 원시데이터 모형을 사용하였을 때의 오분류율보다 나눔데이터 모형 또는 이분데이터모형의 오분류율이 더 낮음을 확인할 수 있었다. 이를 통해 한 경기에서 두 팀의 데이터를 각각 사용하는 것 보다 두 팀의 상대적인 차이를 사용한 데이터 모형이 경기의 승패를 예측하는데 효과적이라는 것을 확인할 수 있었다.
평균비교 결과에서 나타나듯이 팀과 관련된 변인 중에서는 평균연봉, 상대승률, 상대팀에 대한 평균자책점이, 타자와 관련된 변인에서는 장타율이, 투수와 관련된 변인에서는 선발투수의 승률과 볼넷/이닝이 통계적으로 유의하게 나타났다(p < .05).

후속연구

본 연구의 한계점으로는, 분석에 사용된 데이터가 6월까지의 경기이었기 때문에 7월 이후의 경기 승패를 예측하기 위해서는 직전경기까지의 누적데이터가 필요하다는 점과, 검증되지 않은 신인선수들과 NC와 같은 신생팀의 자료가 부족하였다는 점이다. 향후 몇 년간 자료가 누적된다면 더 정확한 예측 모형을 얻을 수 있을 것이라고 기대한다.
기존의 스포츠 분석 관련 연구들은 한정된 몇 가지의 분석 기법만을 사용한 반면, 본 연구는 기존에 사용되지 않았던 기법들을 포함하여 여러 가지 기법들을 적용한 점, 그리고 각 기법들로부터 승패에 영향을 미치는 중요 요인들을 산출하여 그 의미를 파악하였다는 점에서 의의가 있다. 특히, 랜덤포레스트 분석기법은 성능도 우수할 뿐만 아니라, 변수의 중요도 역시 산출해 낼 수 있으므로, 현재까지 스포츠분석에서 사용된 사례는 없지만, 본 연구에서 사용한 결과 다른 분석기법들에 비해 비교적 낮은 오분류율을 나타내 추후 스포츠 분석에서 사용한다면 좋을 예측결과를 기대할 수 있을 것이다. 또한, 경기에서 팀 간의 상대적인 차이를 반영한 새로운 종류의 데이터를 가공하여 사용했다는 점, 선수들의 누적데이터를 이용하여 경기의 승․패를 예측했다는 점이 기존의 연구와 다르다고 할 수 있다.
본 연구의 한계점으로는, 분석에 사용된 데이터가 6월까지의 경기이었기 때문에 7월 이후의 경기 승패를 예측하기 위해서는 직전경기까지의 누적데이터가 필요하다는 점과, 검증되지 않은 신인선수들과 NC와 같은 신생팀의 자료가 부족하였다는 점이다. 향후 몇 년간 자료가 누적된다면 더 정확한 예측 모형을 얻을 수 있을 것이라고 기대한다.

핵심어	질문	논문에서 추출한 답변
	CART 알고리즘이란?	의사결정나무(decision tree)를 형성하는 데 사용될 수 있는 알고리즘 역시 여러 가지가 있지만, 본 연구에서는 해석의 용이성과 계산의 효율성 측면에서 다른 알고리즘보다 우수한 것으로 알려져 많이 사용되는 CART(classification and regression trees) 알고리즘을 선택하였다. CART 알고리즘은 전체 데이터를 포함 하는 뿌리노드(root node)에서 시작하여, 하나의 부모노드(parent node)로부터 두 개의 자식노드(child node)를 재귀적으로 형성하는 과정이다(Breiman et al., 1984).
	CART 알고리즘에서 불순도를 측정하기 위해 사용되는 방법은?	이때 자식노드를 형성 하기 위해 선택되는 변인과 분지기준은 자식노드에 포함되는 데이터들의 불순도를 최대로 감소시킬 수 있는 것들로 선택하게 된다. 데이터의 불순도를 측정하기 위해서 보통 지니계수 (Gini index)나 정보엔트로피(information entropy)가 사용되는데, 본 연구에서는 지니계수를 이용하여 의사결정나무를 형성 하였다.
	기존의 스포츠분석에서 주로 사용되어왔던 기법들은 무엇이 있었는가?	분류문제를 해결하기 위해 사용될 수 있는 데이터마이닝 기법들은 그 종류가 다양하다. 하지만 기존의 스포츠분석에서 주로 사용되어왔던 기법들은 의사결정나무, 로지스틱 회귀분석, 인공신경망 분석, 판별분석 정도로 기법의 종류가 제한적일 뿐만 아니라, 하나의 연구에 여러 가지의 분류기법을 적용한 사례도 드물다. 이에 본 연구에서는 위에 언급된 기법들 외에, 의사결정나무의 메타학습(meta-learning)형태인 랜덤포레스트(random forest)와 패턴인식분야에서 자주 사용되는 지지벡터머신(suppor vector machine)을 추가적으로 사용하고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구
Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (23)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (23)

이 논문을 인용한 문헌

저자의 다른 논문 :

이종석 (4)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구
Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games 원문보기

AI 본문요약
AI-Helper