승부를 예측하는 많은 연구방법들이 있고, 지금도 많은 연구가 진행되고 있다. 이러한 많은 예측 방법들 중에서, 경기력에 영향을 미치는 현실적인 변수를 고려한 통계적인 모형을 사용하여 예측한다면 다른 예측방법들 보다 정교한 예측을 기대할 수 있다. 본 연구에서는 2010년 남아공 월드컵 축구 결과 예측을 위하여 Bradley-Terry 모형을 고려한다. 이 예측모형은 경기력에 영향을 미치는 확률변수들을 포함하고, 쌍별 비교 방법을 사용하였다. 모형에 포함된 각 국가의 가치모수는 Newton-Raphson 알고리즘을 이용하여 얻은 수렴한 값이다. 이 모형을 사용하여 32개국 중 16강 진출하는 국가를 예측하였고, 8강, 4강, 결승진출, 우승팀까지 예측하였다. 2010년 남아공 월드컵 축구의 최종 결과와 이 예측자료를 비교하고 향후 연구에 대해 토론한다.
승부를 예측하는 많은 연구방법들이 있고, 지금도 많은 연구가 진행되고 있다. 이러한 많은 예측 방법들 중에서, 경기력에 영향을 미치는 현실적인 변수를 고려한 통계적인 모형을 사용하여 예측한다면 다른 예측방법들 보다 정교한 예측을 기대할 수 있다. 본 연구에서는 2010년 남아공 월드컵 축구 결과 예측을 위하여 Bradley-Terry 모형을 고려한다. 이 예측모형은 경기력에 영향을 미치는 확률변수들을 포함하고, 쌍별 비교 방법을 사용하였다. 모형에 포함된 각 국가의 가치모수는 Newton-Raphson 알고리즘을 이용하여 얻은 수렴한 값이다. 이 모형을 사용하여 32개국 중 16강 진출하는 국가를 예측하였고, 8강, 4강, 결승진출, 우승팀까지 예측하였다. 2010년 남아공 월드컵 축구의 최종 결과와 이 예측자료를 비교하고 향후 연구에 대해 토론한다.
There are a lot of methods to predict the result of a game and many forecasting researches have been studied. Among many methods, if a statistical model including some realistic random variables is used to forecast, more accurate prediction could be expected than any others. In this work, Bradley-Te...
There are a lot of methods to predict the result of a game and many forecasting researches have been studied. Among many methods, if a statistical model including some realistic random variables is used to forecast, more accurate prediction could be expected than any others. In this work, Bradley-Terry model is considered to predict results of 2010 South Africa World Cup games via paired comparison method. This prediction model includes some random variables which affect the results of games. The worth parameters for each country in this model are convergence values obtained by using Newton-Raphson algorithm. With this model, we can forecast top 16 among 32 countries and up to who will win the victory. Final results of 2010 South Africa World Cup games are compared with this prediction and discuss further works.
There are a lot of methods to predict the result of a game and many forecasting researches have been studied. Among many methods, if a statistical model including some realistic random variables is used to forecast, more accurate prediction could be expected than any others. In this work, Bradley-Terry model is considered to predict results of 2010 South Africa World Cup games via paired comparison method. This prediction model includes some random variables which affect the results of games. The worth parameters for each country in this model are convergence values obtained by using Newton-Raphson algorithm. With this model, we can forecast top 16 among 32 countries and up to who will win the victory. Final results of 2010 South Africa World Cup games are compared with this prediction and discuss further works.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
많은 사람들은 세계 축구의 최고 제전인 월드컵 경기의 결과를 예측하고자 한다. 그러나 국가대표 간의 경기인 A매치는 일년동안 많지 않은 경기가 열려 각 국가 간의 경기결과를 예측하는 것은 쉽지 않다.
본 연구는 축구 전문가나 팬들이 쉽게 접할 수 있는 A매치 결과와 여러 가지 현실적인 확률변수들을 통하여 확률을 제시한 점에서 의미있는 연구이다. 이밖에 경기결과에 영향을 줄 수 있는 다른 확률변수들을 고려해 볼 수 있을 것이며, 축구에 국한되지 않고 승패가 있는 다른 스포츠분야에도 적용하는 연구는 향후 연구과제로 남겨두기로 한다.
시합 전 대한민국 대표 팀의 성적을 예측하는 것은 통계학자뿐만 아니라 온 국민에게 매우 흥미롭다. 홍종선 등 (2010)은 2010 남아공 월드컵 대회 전 5월에 결과를 예측 발표하였고, 본 연구에서는 예측 결과와 대회가 종료된 최종 성적을 비교하여 토론하고자 한다.
가설 설정
4. 단계 2, 3을 10,000번 반복한다.
제안 방법
일반적으로 두 팀 간의 비교를 통한 승패예측을 하는 쌍별 비교 (paired comparison)모형으로는 로지스틱 모형 (logistic model)과 휴리스틱 모형 (heuristic model), 유전자 알고리즘 (gene algorithm)을 사용한 모형 등이 있으며 여러 가지 알고리즘을 복합적으로 사용한 모형들도 많이 사용되어지고 있다 (김혁주와 김정현, 2009; 신상근 등, 2009; 신양규, 1995; 김재희와 이경원, 2000). 2006 독일 월드컵을 예측하고 분석한 김도현 등 (2007)의 논문을 참고하여 본 연구에서는 2010 남아공 월드컵을 분석하고자 하며 무승부가 포함된 수정된 Bradley-Terry 모형을 이용하고 여러 개의 의미 있는 확률변수들을 포함시켜 분석한다. 월드컵 개최국인 남아공의 특수성을 고려하여 고도변수와 대륙 간 거리변수를 포함하여 모형을 설정한다.
7)에 대입하면 A팀이 B팀에 이길 확률을 구할 수 있고, 같은 방법으로 비길 확률질 확률을 구할 수 있다. 32개국의 가치모수 추정량과 이 추정값을 토대로 3.2절에서 설명할 모의실험을 하여 상위 경기로의 진출확률을 추정한다.
6. 조건부확률을 이용하여 각 10,000번의 경기결과에서 만날 수 있는 상대를 대진표에 의해 구하고 각 국가 간의 승, 무, 패 확률을 이용하여 8강, 4강, 준결승, 우승확률을 각각 구한다.
가치모수 추정을 위한 최대가능도 추정량은 앞서 언급한 방법인 Newton-Raphson 알고리즘에 의해 구해질 수 있으며 이를 통하여 208개 국가에 대한 가치모수 (γ1, γ2, ..., γ208)와 경기력에 영향을 미치는 경기모수 (δ, λ, α1, α2, α3, α4)를 추정하였다.
2절에서 설명한 모형을 기반으로 분석한 예측결과를 제시한다. 고려해야할 확률변수들을 선정하여 모형에 적합시킨 뒤, 가치모수와 경기모수들의 추정량을 구하고 이를 기반으로 모의실험을 통하여 각 국가의 16강 진출할 확률과 8강, 4강, 준결승 그리고 우승확률을 구한다.
본 연구에서 구한 각 국가의 16강 진출확률과 8강, 4강, 준결승, 우승확률은 다음의 모의실험 과정을 통하여 구한다.
글로벌 투자사의 전망이 엉터리냐 아니냐는 4강 관문에서 또 한 번 가려지게 되었다. 세 금융기관이 4강 진출 팀으로 꼽은 국가로 골드만삭스는 브라질, 스페인, 독일, 잉글랜드로 예상하였고, JP모간은 잉글랜드, 스페인, 네덜란드, 슬로베니아로 예측하였으며, UBS는 브라질, 독일, 이탈리아, 네덜란드로 예측하였다. 또한 JP모간은 브라질이 강력한 우승 후보지만 8강에서 네덜란드에 덜미가 잡힐 것으로 전망했다.
2006 독일 월드컵을 예측하고 분석한 김도현 등 (2007)의 논문을 참고하여 본 연구에서는 2010 남아공 월드컵을 분석하고자 하며 무승부가 포함된 수정된 Bradley-Terry 모형을 이용하고 여러 개의 의미 있는 확률변수들을 포함시켜 분석한다. 월드컵 개최국인 남아공의 특수성을 고려하여 고도변수와 대륙 간 거리변수를 포함하여 모형을 설정한다.
이는 2002년의 4강신화가 단지 홈 이점에 의한 결과가 아닌 우리나라 축구의 실력수준이 높아졌음을 보여주는 예라고 볼 수 있다. 이에 대한 의문에서 출발한 본 연구는 고려해 볼 수 있는 모든 변수들을 고려해서 최대한 객관적인 추정값들을 계산하였고, 이에 대한 16강, 8강, 4강, 결승 진출의 확률을 계산해 보았다. FIFA 순위를 배제한 이유는 FIFA 순위는 FIFA 자체에서 순위를 정하는 기준이 있으므로 고려할 변수로 모형에 추가하면, 추정값이 편의 (Bias)되기 때문이다.
대상 데이터
208개의 국가에 대한 가치모수 중 2010 남아공 월드컵에 참여하는 32개국의 가치모수와 경기력에 영향을 미치는 홈 이점 (Home), 무승부 (Tie), 대륙 간 거리(Distance), 최근 월드컵 참여 수 (Recent 5), 월드컵 최고 성적 (Best Rank), 고도 (Altitude)의 경기모수 (δ, λ, α1, α2, α3, α4)의 추정값은 표 3.1에서 나타내었다.
본 연구에서 분석할 자료는 FIFA에 등록되어 있는 208개 나라의 20년 (1990.1.1 ∼ 2009.12.31)의 자료로 14,000여 개의 경기기록으로 구성되어 있으며, 고려하는 확률 변수로는 경기장소 (hi), 대륙 간 거리 (X1), 최근 5회의 걸친 월드컵 참여 수 (X2), 최고성적 (X3)과 고도 (X4)로 구성되어 있다.
이론/모형
1. Newton-Raphson 알고리즘 방법을 이용하여 구한 최대가능도 추정량이 포함된 모형으로부터 각 국가 간의 승, 무, 패의 확률을 구한다.
하위경기에서 상위경기로의 진출확률은 각 국가가 대진표에 의한 경기에서 상대국에 대한 승리확률의 합으로 구할 수 있다. 16강부터는 32강의 승점제와 다르게 승패만 가리므로 수정된 Bradley-Terry 모형이 아닌 Bradley-Terry 모형을 사용하였으며, 여기서 상대국과의 승리확률은 상대국과 경기할 확률과 경기에서 승리할 확률의 곱으로 구한다. 4강, 결승, 우승확률도 같은 방법으로 추출하였으며 월드컵 참가하는 어느 국가라도 우승할 확률이 있고 32개국 중 하나의 우승국이 나오므로 32개국의 우승확률의 총합은 100%이고 브라질이 15%로 가장 높은 확률을 나타낸다.
모수 추정을 위한 최대가능도 추정량 (maximum likelihood estimates)은 일반적으로 잘 알려진 방법인 Newton-Raphson 알고리즘에 의해 구해질 수 있으며 모수추정을 위한 가능도함수는 다음과 같다.
본 연구에서는 두 팀 간의 비교를 통한 승패를 예측하기 위하여 쌍별 비교 (paired comparison)모형 중 하나인 Bradley-Terry 모형 (Bradley와 Terry, 1952)을 기본으로 수정된 Bradley-Terry 모형(Davison, 1970)을 고려한다. Bradley-Terry 모형은 A팀이 다른 B팀을 이길 확률을 다음과 같이 나타낸다.
세계적인 글로벌 투자회사들은 FIFA랭킹, 과거 월드컵 성적, 개최국 여부, 국가별 경제력 등을 변수로 설정한 뒤 변수마다 가중치를 부여해 나름의 결과를 도출해 내는 복잡한 계량적 분석방법을 사용했으나, 본 연구에서는 통계적인 Bradley-Terry 모형으로 분석하였다. 서로 다른 방법으로 예측하였지만 세계적인 글로벌 투자회사들의 예측결과와 본 연구에서 낸 결과와 크게 다르지 않음을 파악할 수 있다.
성능/효과
16강부터는 32강의 승점제와 다르게 승패만 가리므로 수정된 Bradley-Terry 모형이 아닌 Bradley-Terry 모형을 사용하였으며, 여기서 상대국과의 승리확률은 상대국과 경기할 확률과 경기에서 승리할 확률의 곱으로 구한다. 4강, 결승, 우승확률도 같은 방법으로 추출하였으며 월드컵 참가하는 어느 국가라도 우승할 확률이 있고 32개국 중 하나의 우승국이 나오므로 32개국의 우승확률의 총합은 100%이고 브라질이 15%로 가장 높은 확률을 나타낸다. 32개국의 결승확률은 두 국가가 남게 되어 200% 4강은 400% 8강은 800%이다.
세 금융기관이 4강 진출 팀으로 꼽은 국가로 골드만삭스는 브라질, 스페인, 독일, 잉글랜드로 예상하였고, JP모간은 잉글랜드, 스페인, 네덜란드, 슬로베니아로 예측하였으며, UBS는 브라질, 독일, 이탈리아, 네덜란드로 예측하였다. 또한 JP모간은 브라질이 강력한 우승 후보지만 8강에서 네덜란드에 덜미가 잡힐 것으로 전망했다. 그러나 결과는 골드만삭스는 스페인과 독일만을 맞춰 두 나라를 맞췄고 JP모간 또한 스페인과 네덜란드 두 나라를 맞췄다.
이때 각 조의 16강 진출 확률의 합은 200%인데 그 이유는 각 조당 두 나라가 16강에 진출하기 때문이다. 모든 조 각각의 16강 진출확률은 표 3.2와 같으며 우리가 일반적으로 알고 있는 축구 강국들이 높은 확률을 가지고 있는 것을 알 수 있다.
FIFA 순위를 배제한 이유는 FIFA 순위는 FIFA 자체에서 순위를 정하는 기준이 있으므로 고려할 변수로 모형에 추가하면, 추정값이 편의 (Bias)되기 때문이다. 본 연구에서에서 고려한 모형으로 모수를 추정하여 우승까지의 모의실험을 해본 결과, 브라질이나 영국이 결승에서 우승할 것이라고 예측하였으며, 대체적으로 우리가 알고 있는 강팀들이 예측결과에서도 높은 순위에 위치하고, 이는 국가모수 값이 크게 계산되었기 때문이다. 위 경기에서 상위 경기로 갈수록 줄어드는 확률의 크기가 같지 않음은 대진표에 따라 각국들이 경기할 수 있는 상대국가가 다르기 때문에 나타나는 현상으로, 이는 월드컵경기에서 각 나라의 경기력도 중요하지만 조 편성이나 대진 운 또한 중요 변수가 될 수 있음을 의미한다.
그러나 결과는 골드만삭스는 스페인과 독일만을 맞춰 두 나라를 맞췄고 JP모간 또한 스페인과 네덜란드 두 나라를 맞췄다. 하지만 UBS는 네덜란드만 맞추는데 그쳐 상대적으로 낮은 적중률을 보였으며 본 연구결과에서는 스페인과 네덜란드를 맞춰 골드만삭스와 JP모건과 비슷한 정확도를 보였다.
후속연구
본 연구는 축구 전문가나 팬들이 쉽게 접할 수 있는 A매치 결과와 여러 가지 현실적인 확률변수들을 통하여 확률을 제시한 점에서 의미있는 연구이다. 이밖에 경기결과에 영향을 줄 수 있는 다른 확률변수들을 고려해 볼 수 있을 것이며, 축구에 국한되지 않고 승패가 있는 다른 스포츠분야에도 적용하는 연구는 향후 연구과제로 남겨두기로 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
국제단체인 FIFA는 언제 어디서 탄생했나?
전 세계에서 가장 인기 있는 스포츠를 꼽는다면 많은 사람들은 축구라고 말할 것이다. 세계 축구경기를 통할하는 국제단체인 FIFA (Federation Internationale de Football Association; 국제축구연맹)는 1886년 영국에서 탄생하였다. 현재 FIFA에 등록되어있는 나라는 200여 나라가 넘고 전 세계의 등록선수는 2억명을 넘는다.
일반적으로 두 팀 간의 비교를 통한 승패예측을 하는 쌍별 비교모형은 어떤 것들이 있나?
일반적으로 두 팀 간의 비교를 통한 승패예측을 하는 쌍별 비교 (paired comparison)모형으로는 로지스틱 모형 (logistic model)과 휴리스틱 모형 (heuristic model), 유전자 알고리즘 (gene algorithm)을 사용한 모형 등이 있으며 여러 가지 알고리즘을 복합적으로 사용한 모형들도 많이 사용되어지고 있다 (김혁주와 김정현, 2009; 신상근 등, 2009; 신양규, 1995; 김재희와 이경원, 2000). 2006 독일 월드컵을 예측하고 분석한 김도현 등 (2007)의 논문을 참고하여 본 연구에서는 2010 남아공 월드컵을 분석하고자 하며 무승부가 포함된 수정된 Bradley-Terry 모형을 이용하고 여러 개의 의미 있는 확률변수들을 포함시켜 분석한다.
FIFA의 목적과 역할은 무엇인가?
현재 FIFA에 등록되어있는 나라는 200여 나라가 넘고 전 세계의 등록선수는 2억명을 넘는다. 목적은 경기 추진, 각국 협회 간 우호 증진, 경기규칙의 준수 등이며, 4년마다 열리는 세계선수권대회를 주관한다. 올림픽 중간 연도를 택해 4년마다 개최하는 세계선수권대회 중 하나가 바로 월드컵이다.
홍종선, 정민섭, 이재형 (2010). 2010 남아프리카 공화국 월드컵 예측모형. , 2월 5일, 원광대학교.
Bradley, R. A. and Terry, M. E. (1952). Rank analysis of incomplete block designs: The method of paired comparisons. Biometrica, 39, 324-345.
Davison, R. R. (1970). On extending the Bradley-Terry model to accommodate ties in paired comparison experiments. Journal of the American Statistical Association, 65, 317-328.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.