경마 산업은 국내 합법 사행산업의 대부분을 차지하고 있다. 그러나 사행성 도박이라는 인식 하에 여타 스포츠 산업에 비해 활발한 통계적 분석이 이루어지지 않고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 우승마를 예측하는 모형 개발에 있다. 모형 적합에 사용한 데이터는 한국 마사회에서 제공하는 자료를 바탕으로 하였으며, 경마 성적표, 경주마 정보, 기수 정보, 조교사 정보 등을 사용하였다. 예측 모형은 크게 두 모형으로 나누어 순위를 기반으로 한 모형과 기록을 기반으로 한 모형으로 적합하였고, 분석 방법으로는 선형회귀분석, 랜덤 포레스트, 로지스틱 회귀 분석을 사용하였다. 그 결과 말 기본 정보와 과거 우승 경력, 기수의 과거 우승 경력 등이 순위 예측에 큰 영향을 미치는 것을 알 수 있었다. 모형 적합에 사용되지 않은 최근 1개월 간 데이터를 이용하여 단승식, 복승식, 삼복승식으로 배팅한 결과 모형 간 큰 차이가 없었고, 모두 양의 수익을 얻을 수 있었다.
경마 산업은 국내 합법 사행산업의 대부분을 차지하고 있다. 그러나 사행성 도박이라는 인식 하에 여타 스포츠 산업에 비해 활발한 통계적 분석이 이루어지지 않고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 우승마를 예측하는 모형 개발에 있다. 모형 적합에 사용한 데이터는 한국 마사회에서 제공하는 자료를 바탕으로 하였으며, 경마 성적표, 경주마 정보, 기수 정보, 조교사 정보 등을 사용하였다. 예측 모형은 크게 두 모형으로 나누어 순위를 기반으로 한 모형과 기록을 기반으로 한 모형으로 적합하였고, 분석 방법으로는 선형회귀분석, 랜덤 포레스트, 로지스틱 회귀 분석을 사용하였다. 그 결과 말 기본 정보와 과거 우승 경력, 기수의 과거 우승 경력 등이 순위 예측에 큰 영향을 미치는 것을 알 수 있었다. 모형 적합에 사용되지 않은 최근 1개월 간 데이터를 이용하여 단승식, 복승식, 삼복승식으로 배팅한 결과 모형 간 큰 차이가 없었고, 모두 양의 수익을 얻을 수 있었다.
The Horse race industry has the largest proportion of the domestic legal gambling industry. However, there is limited statistical analysis on horse races versus other sports. We propose prediction models for winning horses in horse races using data mining techniques such as logistic regression, line...
The Horse race industry has the largest proportion of the domestic legal gambling industry. However, there is limited statistical analysis on horse races versus other sports. We propose prediction models for winning horses in horse races using data mining techniques such as logistic regression, linear regression, and random forest. Horse races data are from the Korea Racing Authority and we use horse racing reports, information of racehorses, jockeys, and horse trainers. We consider two models based on ranks and time records. The analysis results show that prediction of ranks is affected by information on racehorses, number of wins of racehorses and jockeys. We place wagers for the last month of races based on our prediction models that produce serious profits.
The Horse race industry has the largest proportion of the domestic legal gambling industry. However, there is limited statistical analysis on horse races versus other sports. We propose prediction models for winning horses in horse races using data mining techniques such as logistic regression, linear regression, and random forest. Horse races data are from the Korea Racing Authority and we use horse racing reports, information of racehorses, jockeys, and horse trainers. We consider two models based on ranks and time records. The analysis results show that prediction of ranks is affected by information on racehorses, number of wins of racehorses and jockeys. We place wagers for the last month of races based on our prediction models that produce serious profits.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 경마 경기의 우승마 예측을 위해 한국 마사회에서 제공하는 경마 성적표, 경주마 정보, 기수와 조교사 정보를 사용하여 예측 모형을 제시하였다. 예측 모형은 순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형을 적합하였고 각 예측 모형의 주요 변수를 살펴보았다.
그러나 관련 데이터로 통계적 예측 모형을 활용한 분석이 타 스포츠 종목에 비하여 이루어진 사례가 적다 (Yoo와 Park, 2000). 본 연구에서는 데이터 마이닝 기법을 이용하여 경마 순위 예측 모형을 제안하고자 한다.
본 연구의 목적은 경주마에 대한 정보와 기수 정보, 조교사 정보를 가지고 우승마를 예측하는 것이다. 반응변수는 경주마의 순위와 기록 두 가지로 설정하였다.
2014년 1월부터 2015년 4월까지의 자료인 총 1474회의 경기 중 임의로 70%의 경기를 train data로 30%의 경기를 test data로 나누어 test data에서의 예측률을 모형 비교의 지표로 사용하였다. 위와 같은 과정을 100회 반복 시행하여 평균 예측률을 비교하고 최적 모형을 구하고자 한다. 그리고 2015년 5월 한 달간 자료인 109회의 경기에 최적 모형을 적용하여 도출한 예측률과 실제 배당률을 적용한 배당 금액을 계산하여 비교한다.
제안 방법
앞 절에서 선택된 최적모형을 이용하여 2015년 5월 한 달 동안의 test data(총 109개의 경기)에 적용하였을 때의 예측률을 비교하였다. 1마리 예측 모형은 단승식의 경우에 해당하고, 2마리, 3마리 예측 모형은 각각 복승식, 삼복승식에 해당하므로 배팅 방식에 따른 배당률을 이용하여 얻을 수 있는 배당 금액을 계산하였다.
이번 장에서는 서울시 경마 경기의 우승마를 예측하기 위하여 1) 순위를 기반으로 한 모형, 2) 기록을 기반으로 한 모형을 적합하여 경기별 우승마 예측률을 비교해보고, 예측 모형에 포함된 중요한 변수에 대하여 알아본다.
2014년 1월부터 2015년 4월까지의 자료인 총 1474회의 경기 중 임의로 70%의 경기를 train data로 30%의 경기를 test data로 나누어 test data에서의 예측률을 모형 비교의 지표로 사용하였다. 위와 같은 과정을 100회 반복 시행하여 평균 예측률을 비교하고 최적 모형을 구하고자 한다.
두 번째는 기록을 기반으로 한 모형으로, 우선 경기 기록을 예측한 후 기록에 따른 순위를 부여하는 방법을 이용하였다. 경마 특성상 배팅이 주목적이므로 우리는 배팅 방식에 따라 원하는 순위까지 예측하였을 때의 예측 정확성(예측률)을 계산하여 비교하고자 한다. 분석에는 선형 회귀 모형, 로지스틱 회귀 모형 (McCullagh와 Nelder, 1989; Hastie와 Pregibon, 1992), 랜덤 포레스트 모형 (Breiman, 2001)을 이용하였다.
즉, BIC-로지스틱 모형이 AIC-로지스틱 모형보다 더 간단하고 예측력은 거의 차이가 없으므로 BIC-로지스틱 모형을 최적 모형으로 선택하였다. 그러나 실제 배당률을 적용하여 시행하는 경우에는 어떤 모형이 더 좋은 결과를 나타낼지 알 수 없으므로 3.3절에서 AIC-로지스틱 모형과 BIC-로지스틱 모형을 모두 비교해보고자 한다. 랜덤 포레스트의 최적모형은 100번 적합 시 train data에서의 예측률을 최대로 하는 모형으로 하였다.
위와 같은 과정을 100회 반복 시행하여 평균 예측률을 비교하고 최적 모형을 구하고자 한다. 그리고 2015년 5월 한 달간 자료인 109회의 경기에 최적 모형을 적용하여 도출한 예측률과 실제 배당률을 적용한 배당 금액을 계산하여 비교한다. 우리는 분석에서 중요변수 도출과 최종모형 선택은 다음과 같이 수행하였다.
우선 선형모형의 경우에는 일단 마지막 1달치 데이터를 제외한 모든 데이터를 사용해서 선형모형을 적합하고 AIC/BIC 값을 최소화 하는 최적의 모형을 구하고 이 때 선택된 설명변수들을 저장한다. 그리고 train/test로 나누어서 train data에서 이 설명변수들을 사용해서 모형을 적합한다. 물론 train data는 매번 random하게 선택되므로 회귀계수 값들은 달라지지만 사용된 설명변수는 동일하다.
기록을 기반으로 한 모형은 원하는 마릿수의 우승마를 예측하기 위하여 거리에 따라 각각 회귀 모형을 적합한 후, 경기 별로 기록에 따른 순위를 부여하였다. 기록 모형에서도 순위에 기반한 예측 모형과 같이 배팅 방식에 따라 예측률을 계산하여 비교하였다. 회귀분석방법으로는 AIC 기준의 단계별 변수선택법을 이용한 선형 회귀와 랜덤 포레스트 방법을 이용하였다.
기록을 기반으로 한 모형은 원하는 마릿수의 우승마를 예측하기 위하여 거리에 따라 각각 회귀 모형을 적합한 후, 경기 별로 기록에 따른 순위를 부여하였다. 기록 모형에서도 순위에 기반한 예측 모형과 같이 배팅 방식에 따라 예측률을 계산하여 비교하였다.
따라서 말 1위 비율은 경주마의 총 출전 횟수 중 총 1위 횟수의 비율이고, 말 2위 비율은 경주마의 총 출전 횟수 중 총 2위 횟수의 비율이다. 다음에 나오는 기수정보와 조교사정보에서도 마찬가지로 횟수 정보를 비율 정보로 변환하였다.
다음으로 배당률 정보를 이용하여 각 경기당 10,000원씩 배팅하였을 때의 총 이윤금액을 계산해보았다. 우승마를 맞췄을 경우에는 10,000원 ∗ (배당률 − 1), 맞추지 못했을 경우에는 −10,000원으로 한 것을 합하여 한 달간 총 이윤 금액을 계산하였다.
두 가지 정보를 모두 사용하기 위해 국외(국내/해외)변수와 군(1∼6)변수로 나누었고, 군 변수는 그 수가 작을수록 좋은 등급의 말을 의미한다.
첫 번째는 경기 결과의 순위를 기반으로 한 모형으로, 다양한 분류분석방법을 이용하여 예측 모형을 적합하였다. 두 번째는 기록을 기반으로 한 모형으로, 우선 경기 기록을 예측한 후 기록에 따른 순위를 부여하는 방법을 이용하였다. 경마 특성상 배팅이 주목적이므로 우리는 배팅 방식에 따라 원하는 순위까지 예측하였을 때의 예측 정확성(예측률)을 계산하여 비교하고자 한다.
예를 들어, 어느 경기에는 1등 말이 하나도 없는 경우가 나올 수도 있다. 따라서 경기 별로 배팅 방식에 따른 마릿수를 예측하기 위하여 개별 말이 1로 분류 될 예측 확률을 계산하였다. 이후 n마리의 우승마를 예측하기 위해서 각 경기 내에서 1로 분류될 예측 확률이 높은 순서대로 n위까지의 말을 우승마로 하여 1로 나머지를 0으로 분류하였다.
다음으로 경주마의 등급이 정해지지 않은 말은 보통 비슷한 등급의 말로 경기가 구성되기 때문에 같은 경기에 출전하는 말의 등급의 최빈값으로 결측치를 대체하였다. 또한 1000m, 1300m, 1700m, 1800m에서 이상치 가 존재하여 해당 자료를 제거한 후 분석하였다. 분석에 이용한 설명변수들은 다음과 같다.
자료 수집 시 다음과 같은 결측치가 발생하여 제거하였다. 먼저 경기 도중 실격이나 출전중지 등의 사유로 순위가 존재하지 않는 자료 308건과 조교정보가 존재하지 않는 자료 6건을 제거하였다. 다음으로 경주마의 등급이 정해지지 않은 말은 보통 비슷한 등급의 말로 경기가 구성되기 때문에 같은 경기에 출전하는 말의 등급의 최빈값으로 결측치를 대체하였다.
분석을 위하여 각 경주일마다의 경마 성적표와 경주마 정보, 기수 정보, 조교사 정보를 사용하였다. 먼저 경마 성적표를 통하여 경주 거리, 날씨, 주로 상태, 주로 습도, 경주마의 순위, 경주마 번호, 산지, 성별, 나이, 부담중량, 기수, 조교사, 마주, 마체중, 경주 기록 자료를 수집하였고 이에 해당하는 기수 정보와 조교사 정보, 경주마 정보를 수집하였다. 각 변수에 대한 자세한 설명은 다음 절에서 하고자 한다.
분석에는 선형 회귀 모형, 로지스틱 회귀 모형 (McCullagh와 Nelder, 1989; Hastie와 Pregibon, 1992), 랜덤 포레스트 모형 (Breiman, 2001)을 이용하였다. 분석은 R (R Development Core Team, 2010)을 이용하여 이루어졌으며, R에 내장된 다양한 함수와 패키지를 이용하여 주요변수를 선택하고 모형을 적합하였다.
총 18,062개의 자료 중 2014년 1월부터 2015년 4월까지의 16,821개의 자료(총 1,474개의 경기)를 train data로, 2015년 5월에 해당하는 1,241개의 자료(총 109개의 경기)를 test data로 설정하였다. 분석을 위하여 각 경주일마다의 경마 성적표와 경주마 정보, 기수 정보, 조교사 정보를 사용하였다. 먼저 경마 성적표를 통하여 경주 거리, 날씨, 주로 상태, 주로 습도, 경주마의 순위, 경주마 번호, 산지, 성별, 나이, 부담중량, 기수, 조교사, 마주, 마체중, 경주 기록 자료를 수집하였고 이에 해당하는 기수 정보와 조교사 정보, 경주마 정보를 수집하였다.
순위를 기반으로 한 예측 모형은 분류분석방법을 사용하여 모든 변수를 사용한 로지스틱 회귀모형과 AIC, BIC를 기준으로 단계별 변수선택법을 이용한 로지스틱 회귀모형, 랜덤 포레스트 모형의 총 4가지 예측 모형을 적합하였다. 그 결과, 단계별 변수선택법을 이용한 회귀 모형을 통해 마체중이 높을수록, 기수와 말의 우승 비율이 높을수록 우승마일 확률이 높아지는 것을 확인할 수 있었다.
앞 절에서 선택된 최적모형을 이용하여 2015년 5월 한 달 동안의 test data(총 109개의 경기)에 적용하였을 때의 예측률을 비교하였다. 1마리 예측 모형은 단승식의 경우에 해당하고, 2마리, 3마리 예측 모형은 각각 복승식, 삼복승식에 해당하므로 배팅 방식에 따른 배당률을 이용하여 얻을 수 있는 배당 금액을 계산하였다.
본 연구에서는 경마 경기의 우승마 예측을 위해 한국 마사회에서 제공하는 경마 성적표, 경주마 정보, 기수와 조교사 정보를 사용하여 예측 모형을 제시하였다. 예측 모형은 순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형을 적합하였고 각 예측 모형의 주요 변수를 살펴보았다. 최적 예측 모형의 정확도를 비교하기 위하여 단승식과 복승식, 삼복승식에 따른 예측률을 평가 지표로 사용하였다.
우리는 전체 자료를 이용하여 바로 순위를 예측하는 방법과 거리 별로 기록을 예측하는 회귀모형을 적합하여 순위를 예측하는 방법 두 가지를 모두 이용할 것이다.
따라서 경기 별로 배팅 방식에 따른 마릿수를 예측하기 위하여 개별 말이 1로 분류 될 예측 확률을 계산하였다. 이후 n마리의 우승마를 예측하기 위해서 각 경기 내에서 1로 분류될 예측 확률이 높은 순서대로 n위까지의 말을 우승마로 하여 1로 나머지를 0으로 분류하였다.
경마 순위 예측모형을 위하여 본 논문에서는 두 가지 모형을 고려하였다. 첫 번째는 경기 결과의 순위를 기반으로 한 모형으로, 다양한 분류분석방법을 이용하여 예측 모형을 적합하였다. 두 번째는 기록을 기반으로 한 모형으로, 우선 경기 기록을 예측한 후 기록에 따른 순위를 부여하는 방법을 이용하였다.
원 자료에서는 경주마의 총 출전 횟수와 총 1위 횟수, 총 2위 횟수 정보가 존재한다. 하지만 총 출전 횟수가 많을수록 총 1위와 2위 횟수도 많은 경향이 있기 때문에 이를 보정하기 위해 말 1위 비율과 말 2위 비율로 데이터를 변환하였다. 따라서 말 1위 비율은 경주마의 총 출전 횟수 중 총 1위 횟수의 비율이고, 말 2위 비율은 경주마의 총 출전 횟수 중 총 2위 횟수의 비율이다.
대상 데이터
마체중은 경주마의 체중(kg)으로 수집한 자료에서는 370kg∼585kg까지 존재하며 평균체중은 469.9 kg이다.
본 연구에 사용된 자료는 2014년 1월 4일부터 2015년 5월 31일까지 서울경마공원에서 실시된 경마 경주 자료로, 한국 마사회(www.kra.co.kr)의 공공데이터포털을 이용하여 자료를 수집하였다. 총 18,062개의 자료 중 2014년 1월부터 2015년 4월까지의 16,821개의 자료(총 1,474개의 경기)를 train data로, 2015년 5월에 해당하는 1,241개의 자료(총 109개의 경기)를 test data로 설정하였다.
현재 국내 경마 경기는 매주 이틀씩 서울, 부산, 제주에서 각각 개최되고 있으며, 이 중 매출액의 55%를 차지하고 있는 서울 지역 경기를 분석 대상으로 하였다. 분석에 이용한 데이터는 한국마사회 홈페이지 자료실에서 제공하는 2014년 1월부터 2015년 4월까지의 경마 성적표, 경주마, 기수, 조교사 정보를 이용하였다. 경마 순위 예측모형을 위하여 본 논문에서는 두 가지 모형을 고려하였다.
kr)의 공공데이터포털을 이용하여 자료를 수집하였다. 총 18,062개의 자료 중 2014년 1월부터 2015년 4월까지의 16,821개의 자료(총 1,474개의 경기)를 train data로, 2015년 5월에 해당하는 1,241개의 자료(총 109개의 경기)를 test data로 설정하였다. 분석을 위하여 각 경주일마다의 경마 성적표와 경주마 정보, 기수 정보, 조교사 정보를 사용하였다.
현재 국내 경마 경기는 매주 이틀씩 서울, 부산, 제주에서 각각 개최되고 있으며, 이 중 매출액의 55%를 차지하고 있는 서울 지역 경기를 분석 대상으로 하였다. 분석에 이용한 데이터는 한국마사회 홈페이지 자료실에서 제공하는 2014년 1월부터 2015년 4월까지의 경마 성적표, 경주마, 기수, 조교사 정보를 이용하였다.
데이터처리
분류분석방법으로 모든 변수를 전부 이용한 로지스틱 회귀와 AIC, BIC 기준으로 변수선택법 (Park 등, 2011; Venables와 Ripley, 2002)을 이용한 로지스틱 회귀, 그리고 랜덤 포레스트 방법을 이용하여 test data에서의 예측률을 비교하였다.
이론/모형
기록을 기반으로 한 예측 모형은 각 경주 거리별로 모형을 적합하였으며, 적합 시 단계별선택법과 랜덤 포레스트를 이용하였다. 단계별선택법을 이용한 선형회귀 모형에서는 군, 성별암, 부담중량 등의 변수가 기록 증가에 영향을 미치는 것을 알 수 있었다.
한국마사회법에 따르면 경마란 기수가 기승한 말의 경주에 대하여 승마투표권을 발매하고, 승마투표 적중자에게 환급금을 지급하는 행위를 말한다. 본 연구에서는 경주마의 순위 예측 모형의 평가 지표로 경마 배팅 방식을 이용하였다. 경마 배팅 방식으로는 단승식, 연승식, 복연승식, 복승식, 쌍승식, 삼복승식 등이 있으며, 각 배팅방식은 다음과 같다.
경마 특성상 배팅이 주목적이므로 우리는 배팅 방식에 따라 원하는 순위까지 예측하였을 때의 예측 정확성(예측률)을 계산하여 비교하고자 한다. 분석에는 선형 회귀 모형, 로지스틱 회귀 모형 (McCullagh와 Nelder, 1989; Hastie와 Pregibon, 1992), 랜덤 포레스트 모형 (Breiman, 2001)을 이용하였다. 분석은 R (R Development Core Team, 2010)을 이용하여 이루어졌으며, R에 내장된 다양한 함수와 패키지를 이용하여 주요변수를 선택하고 모형을 적합하였다.
랜덤 포레스트 예측 모형의 경우, 주어진 설명변수의 중요도를 통해 말과 기수의 과거 우승 비율이 순위 예측에 주요 역할을 하는 것을 알 수 있었다. 순위를 기반으로 한 각 예측 모형의 예측률을 비교해본 결과, BIC-로지스틱 모형과 랜덤 포레스트 모형을 최적 모형으로 선택하였다.
하지만 1, 2마리 예측에서 AIC-로지스틱 모형과 BIC-로지스틱 모형의 예측력이 거의 같고, 3마리 예측에서는 BIC-로지스틱 모형이 더 우수하였다. 즉, BIC-로지스틱 모형이 AIC-로지스틱 모형보다 더 간단하고 예측력은 거의 차이가 없으므로 BIC-로지스틱 모형을 최적 모형으로 선택하였다. 그러나 실제 배당률을 적용하여 시행하는 경우에는 어떤 모형이 더 좋은 결과를 나타낼지 알 수 없으므로 3.
예측 모형은 순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형을 적합하였고 각 예측 모형의 주요 변수를 살펴보았다. 최적 예측 모형의 정확도를 비교하기 위하여 단승식과 복승식, 삼복승식에 따른 예측률을 평가 지표로 사용하였다.
기록 모형에서도 순위에 기반한 예측 모형과 같이 배팅 방식에 따라 예측률을 계산하여 비교하였다. 회귀분석방법으로는 AIC 기준의 단계별 변수선택법을 이용한 선형 회귀와 랜덤 포레스트 방법을 이용하였다. BIC 기준의 단계별 변수선택법도 시행하였으나 AIC 기준의 단계별 변수선택법을 이용한 결과와 거의 동일하여 AIC 기준의 모형을 이용하기로 한다.
성능/효과
3에서와 같다. 1마리, 2마리 예측에서는 AIC-로지스틱 모형이, 3마리 예측 모형에서는 랜덤 포레스트 모형의 예측률이 가장 높았다. 하지만 1, 2마리 예측에서 AIC-로지스틱 모형과 BIC-로지스틱 모형의 예측력이 거의 같고, 3마리 예측에서는 BIC-로지스틱 모형이 더 우수하였다.
이는 상위 3등의 기록 예측이 3-2-1순으로 예측되거나 2-3-1순으로 예측되어 1, 2위 2마리 예측에는 실패하였지만, 1, 2, 3위 3마리 예측은 정확히 하여 나타난 결과이다. 거리별 예측률을 각 경기 수에 따라 가중치 평균을 낸 결과, 모든 경우 가중치 평균 예측률이 랜덤 포레스트 모형보다 선형 회귀 모형에서 높게 나온 것을 알 수 있다. 랜덤 포레스트 모형의 최적 모형은 순위를 기반으로 한 모형에서와 같은 방식으로 하였다.
순위를 기반으로 한 예측 모형은 분류분석방법을 사용하여 모든 변수를 사용한 로지스틱 회귀모형과 AIC, BIC를 기준으로 단계별 변수선택법을 이용한 로지스틱 회귀모형, 랜덤 포레스트 모형의 총 4가지 예측 모형을 적합하였다. 그 결과, 단계별 변수선택법을 이용한 회귀 모형을 통해 마체중이 높을수록, 기수와 말의 우승 비율이 높을수록 우승마일 확률이 높아지는 것을 확인할 수 있었다. 또한, 거세마가 암말이나 수말보다 빠르며, 예상한 바와 같이 마번이 작은 안쪽에서 출발하는 것이 유리하다는 사실을 확인할 수 있었다.
기록을 기반으로 한 예측 모형은 각 경주 거리별로 모형을 적합하였으며, 적합 시 단계별선택법과 랜덤 포레스트를 이용하였다. 단계별선택법을 이용한 선형회귀 모형에서는 군, 성별암, 부담중량 등의 변수가 기록 증가에 영향을 미치는 것을 알 수 있었다. 반면, 기록 단축에 영향을 미치는 유의한 설명변수로는 말 1, 2위 비율, 말 1년 출전 횟수 등의 변수가 선택되었다.
7을 통해 전체적인 결과를 살펴보면 다음과 같은 사실을 발견할 수 있다. 단승식의 경우에는 기록을 기반으로 한 선형회귀모형의 예측률이 가장 높고, 복승식의 경우에는 기록을 기반으로 한 랜덤포레스트 모형의 예측률이 가장 높았다. 그러나 삼복승식의 경우에는 순위를 기반으로 한 BIC-로지스틱 모형의 예측률이 가장 높은 결과를 보였다.
그리고 주로 습도와 같이 경주 환경과 직접적으로 관련이 있는 설명변수도 경마 기록에 영향을 미치는 것을 알 수 있었다. 두 모형에 공통적으로 선택된 주요변수는 말 1, 2위 비율, 군 변수로 말에 관한 정보가 기록 예측에 중요한 역할을 하는 것을 알 수 있었다. 두 모형의 예측률를 비교한 결과, 근소한 차이로 선형회귀 모형이 랜덤 포레스트 모형보다 단승식과 삼복승식에서 더 나은 예측률을 보였다.
두 모형에 공통적으로 선택된 주요변수는 말 1, 2위 비율, 군 변수로 말에 관한 정보가 기록 예측에 중요한 역할을 하는 것을 알 수 있었다. 두 모형의 예측률를 비교한 결과, 근소한 차이로 선형회귀 모형이 랜덤 포레스트 모형보다 단승식과 삼복승식에서 더 나은 예측률을 보였다.
단계별선택법을 이용하여 적합한 예측 모형과 랜덤 포레스트를 이용하여 적합한 예측 모형에서 공통적으로 선택된 주요변수는 말 1위 비율과 말 2위 비율, 군이다. 따라서 기록을 기반으로 경주마의 순위를 예측하기 위해서는 말과 관련된 정보가 중요하게 작용한다는 사실을 확인할 수 있다.
회귀계수가 음수인 설명변수는 말 1위 비율이 1900m 모형을 제외한 모든 예측 모형에 포함되었고, 말 2위 비율은 6개의 모형에, 말 1년 출전 횟수는 5개의 모형에 포함되어 주요변수라고 할 수 있다. 따라서 말의 1, 2위 비율이 높을수록, 최근 1년 출전횟수가 많을수록 기록이 좋아지는 것을 알 수 있다.
말의 선천적 능력 이외에 조교사의 훈련을 통한 후천적 능력 또한 경주마의 순위에 중요한 영향을 미칠 수 있다. 따라서 조교사의 나이와 경력, 훈련시킨 경주마의 1위 비율, 2위 비율, 최근 1년간 총 출전 횟수, 최근 1년간 1위 횟수, 최근 1년간 2위 횟수 정보가 포함되었다.
랜덤 포레스트를 이용한 예측 모형의 경우도 선형회귀모형과 비슷하게 말 1, 2위 비율, 군 등 말에 관한 정보가 주요변수로 선택되었다. 또한 기수 1, 2위 비율, 기수 1년 1위 등 기수의 과거 우승 경력이 기록에 영향을 미치는 것으로 나타났다. 그리고 주로 습도와 같이 경주 환경과 직접적으로 관련이 있는 설명변수도 경마 기록에 영향을 미치는 것을 알 수 있었다.
순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형의 예측률을 비교해 보았을 때, 비슷한 예측률을 보인다는 것을 알 수 있었다. 또한 단승식과 복승식, 삼복승식의 배당률 정보를 이용하여 획득하게 되는 이윤금액을 살펴본 결과, 이윤 금액은 특정 경기의 배당률에 큰 영향을 받는 사실을 확인할 수 있었다.
그 결과, 단계별 변수선택법을 이용한 회귀 모형을 통해 마체중이 높을수록, 기수와 말의 우승 비율이 높을수록 우승마일 확률이 높아지는 것을 확인할 수 있었다. 또한, 거세마가 암말이나 수말보다 빠르며, 예상한 바와 같이 마번이 작은 안쪽에서 출발하는 것이 유리하다는 사실을 확인할 수 있었다. 랜덤 포레스트 예측 모형의 경우, 주어진 설명변수의 중요도를 통해 말과 기수의 과거 우승 비율이 순위 예측에 주요 역할을 하는 것을 알 수 있었다.
음의 효과를 갖는 변수를 살펴보면, 마번이 커질수록 우승확률이 낮아지므로 마번이 작은, 즉 안쪽에서 출발하는 것이 유리하다는 사실을 확인할 수 있다. 말의 성별이 수나 암이면 우승할 확률이 작아지며, 회귀계수를 통해 거세마, 수말, 암말 순으로 빠르다는 것을 알 수 있다.
본 연구에서 제시한 예측 모형들은 데이터마이닝 기법을 이용하여 통계적 분석에 근거한 모형으로, 우승마 예측에 있어 임의로 선택하는 경우보다 훨씬 높은 예측률을 보인다. 따라서 앞으로의 경마 경기에 대한 정보가 충분히 제공된다면 이러한 예측 모형들이 우승마 예측에 도움을 줄 수 있으리라 기대되는 바이다.
순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형의 예측률을 비교해 보았을 때, 비슷한 예측률을 보인다는 것을 알 수 있었다. 또한 단승식과 복승식, 삼복승식의 배당률 정보를 이용하여 획득하게 되는 이윤금액을 살펴본 결과, 이윤 금액은 특정 경기의 배당률에 큰 영향을 받는 사실을 확인할 수 있었다.
로지스틱 회귀에서 회귀계수가 양수이면 설명변수의 값이 커질수록 우승마가 될 확률이 증가하는 변수임을 의미한다. 양의 효과를 갖는 변수를 살펴보면, 마체중이 무거울수록, 기수와 말의 우승 비율이 높을수록 우승마일 확률이 높아지는 것을 확인할 수 있다. 음의 효과를 갖는 변수를 살펴보면, 마번이 커질수록 우승확률이 낮아지므로 마번이 작은, 즉 안쪽에서 출발하는 것이 유리하다는 사실을 확인할 수 있다.
양의 효과를 갖는 변수를 살펴보면, 마체중이 무거울수록, 기수와 말의 우승 비율이 높을수록 우승마일 확률이 높아지는 것을 확인할 수 있다. 음의 효과를 갖는 변수를 살펴보면, 마번이 커질수록 우승확률이 낮아지므로 마번이 작은, 즉 안쪽에서 출발하는 것이 유리하다는 사실을 확인할 수 있다. 말의 성별이 수나 암이면 우승할 확률이 작아지며, 회귀계수를 통해 거세마, 수말, 암말 순으로 빠르다는 것을 알 수 있다.
8과 같다. 이윤 금액은 예측률 결과와 같이 단승식에서는 기록을 기반으로 한 선형회귀모형이, 복승식에서는 기록 기반 랜덤 포레스트 모형이, 삼복승식에서는 BIC-로지스틱 모형이 가장 높았다. 이윤 금액의 함이 가장 큰 모형은 기록을 기반으로 한 랜덤 포레스트 모형인 것을 확인할 수 있다.
1마리, 2마리 예측에서는 AIC-로지스틱 모형이, 3마리 예측 모형에서는 랜덤 포레스트 모형의 예측률이 가장 높았다. 하지만 1, 2마리 예측에서 AIC-로지스틱 모형과 BIC-로지스틱 모형의 예측력이 거의 같고, 3마리 예측에서는 BIC-로지스틱 모형이 더 우수하였다. 즉, BIC-로지스틱 모형이 AIC-로지스틱 모형보다 더 간단하고 예측력은 거의 차이가 없으므로 BIC-로지스틱 모형을 최적 모형으로 선택하였다.
후속연구
본 연구에서 제시한 예측 모형들은 데이터마이닝 기법을 이용하여 통계적 분석에 근거한 모형으로, 우승마 예측에 있어 임의로 선택하는 경우보다 훨씬 높은 예측률을 보인다. 따라서 앞으로의 경마 경기에 대한 정보가 충분히 제공된다면 이러한 예측 모형들이 우승마 예측에 도움을 줄 수 있으리라 기대되는 바이다.
질의응답
핵심어
질문
논문에서 추출한 답변
국내 합법 사행산업에는 어떤 것이 있는가?
국내 합법 사행산업은 기존에 있던 경마, 경륜, 복권, 카지노(외국인 대상)에서, 2000년 이후 내국인 카지노, 스포츠 토토, 경정, 온라인 복권 등으로 확대되어 왔다. 2014년 매출액을 기준으로 보면 경마가 38.
한국마사회법에 따른 경마란?
한국마사회법에 따르면 경마란 기수가 기승한 말의 경주에 대하여 승마투표권을 발매하고, 승마투표 적중자에게 환급금을 지급하는 행위를 말한다. 본 연구에서는 경주마의 순위 예측 모형의 평가 지표로 경마 배팅 방식을 이용하였다.
경마 배팅 방식 중 단승식은 무엇인가?
• 단승식: 1등으로 도착할 말 1두를 적중시키는 방식.
참고문헌 (11)
Breiman, L. (2001). Random forests, Machine Learning, 45, 5-32.
Hastie, T. J. and Pregibon, D. (1992). Generalized Linear Models, Chapter 6 of Statistical Models in S eds J. M. Chambers and T. J. Hastie, Wadsworth & Brooks/Cole.
McCullagh, P. and Nelder, J. A. (1989). Generalized Linear Models, 37, CRC press.
Park, C., Kim, Y., Kim, J., Song, J. and Choi, H. (2011). Datamining using R, Kyowoo, Seoul.
R Development Core Team (2010). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0. http://www.R-project.org
Statistics Korea e-National indicators (2015). http://www.index.go.kr/potal/main/EachDtlPageDetail.do?idxcd1662
The Korea Racing Authority (2014). http://www.kra.co.kr/main.do
The National Gambling Control Commission (2015). http://static.ngcc.go.kr/user/index.jsp
The National Gambling Control Commission (2014). http://www.ngcc.go.kr/Board/ReadView.do?idxpds&page1&no9346
Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S, Springer, New York.
Yoo, S. and Park, H. (2000). The horse race winning probability via logistic regression, Korean Journal of Applied Statistics, 13, 35-44.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.