$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

PGA 투어의 골프 스코어 예측 및 분석
Prediction of golf scores on the PGA tour using statistical models 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.1, 2017년, pp.41 - 55  

임정은 (이화여자대학교 통계학과) ,  임영인 (이화여자대학교 통계학과) ,  송종우 (이화여자대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

Abstract AI-Helper 아이콘AI-Helper

This study predicts the average scores of top 150 PGA golf players on 132 PGA Tour tournaments (2013-2015) using data mining techniques and statistical analysis. This study also aims to predict the Top 10 and Top 25 best players in 4 different playoffs. Linear and nonlinear regression methods were u...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 1934년 마스터스를 창설한 보비 존스는 골프코스에서 가장 중요한 조건은 퍼팅그린의 질이라 하였다. 그만큼 퍼팅 그린의 잔디 질이 스코어에 큰 영향을 미친다는 뜻으로 본 연구를 통해 그린뿐만 아니라 페어웨이의 잔디까지 스코어에 미치는 영향을 통계적으로 확인해 보고자 한다. 그린과 페어웨이 잔디의 단단함 정도를 5단계로 나누어 (soft - medium soft - medium - medium firmness - firmness) 설명변수로 이용하였다.
  • 본 연구에서는 PGA 투어에서 제공하는 선수정보 및 코스정보를 사용하여 예측모형을 제시하였다. 다양한 데이터 마이닝 모형을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하였고, 어떠한 변수들이 스코어에 영향을 미치는지 살펴보았다. 추가적으로 페덱스 플레이오프 4대 경기 데이터를 통해 예측된 스코어에 따른 선수들의 순위 또한 정확하게 추정이 가능한지 확인해 보았다.
  • 따라서 본 연구에서는 데이터 마이닝 기법을 이용하여 PGA 투어에 출전하는 프로 골프 선수의 경기 결과를 예측하는 모형을 제안하고자 한다. 앞서 해외 논문들이 운이나 심리적 압박감을 변수로 사용하여 점수에 어떠한 영향을 미치는지에 초점을 맞추었다면, 본 연구에서는 선수 개인의 능력과 경기 환경들을 변수로 사용하여 다양한 데이터 마이닝 모형을 탐색했다는 점 그리고 예측력을 우선으로 했다는 점에서 차이가 있다.
  • 본 연구에서는 페덱스컵 포인트 기준 상위 150위 선수들을 데이터로 사용하였기 때문에 페덱스컵 4개 경기에 대한 선수 기록을 이번 장에서 추가적으로 예측해 보고자 한다. 또한 만약 평균스코어를 정확하게 예측했다면 순위도 잘 추정할 수 있을 것이라 생각하여 예측 스코어를 낮은 값부터 정렬해 상위권 순위도 얼마나 맞추는지 확인해 보았다.
  • 본 연구에서는 PGA 투어에서 제공하는 선수정보 및 코스정보를 사용하여 예측모형을 제시하였다. 다양한 데이터 마이닝 모형을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하였고, 어떠한 변수들이 스코어에 영향을 미치는지 살펴보았다.
  • 본 연구에 사용된 자료는 2013년 1월 7일에 개최된 Hyundai Tournament of Champions 경기를 시작으로 2015년 10월 11일 TOUR Championship by Coca-Cola 경기까지 총 132개(2013년 40개, 2014년 45개, 2015년 47개) 경기에 대한 선수 기록을 수집하였다. 본 연구에서는 출전 선수들의 기록을 2013년부터 2015년까지 추적하여 매 경기가 끝날 때마다 그 경기까지의 평균 기록으로 계속 업데이트를 해주었기 때문에 132개 경기에 출전한 모든 선수를 분석하기에는 지나치게 많은 시간이 소요될 뿐만 아니라 PGA 투어에 지속적으로 참여하지 않는 선수들 또한 포함하여 무의미하다고 보았다. 따라서 페덱스컵 포인트 기준 상위 150명 선수만을 분석에 사용하였고 이 중 경기 기록에 점수가 존재하지 않는 171건의 경우는 제거 하였다.
  • 본 연구에서는 페덱스컵 포인트 기준 상위 150위 선수들을 데이터로 사용하였기 때문에 페덱스컵 4개 경기에 대한 선수 기록을 이번 장에서 추가적으로 예측해 보고자 한다. 또한 만약 평균스코어를 정확하게 예측했다면 순위도 잘 추정할 수 있을 것이라 생각하여 예측 스코어를 낮은 값부터 정렬해 상위권 순위도 얼마나 맞추는지 확인해 보았다.
  • 따라서 다양한 변수들이 골프 스코어에 영향을 미치기 때문에 경기력을 특정 하나로만 설명하기는 어렵다. 본 연구의 목적은 골프 선수에 대한 정보와 코스 정보, 바람에 대한 정보를 가지고 골프 스코어를 예측하는 것이며 반응변수는 해당 경기의 점수로 설정하였다. 분석에 사용된 설명변수는 총 47개로 아래에서 보다 자세히 설명하고자 한다.
  • 우선 선형회귀모형에서의 결과에 대해 살펴보고자 한다. Table 3.
  • 이번 장에서는 통계적 분석 기법들을 이용하여 PGA 투어 경기에 출전한 골프 선수들의 평균스코어를 예측하는 모형을 적합해보고 어떠한 모형이 가장 높은 예측률을 주는지와 평균스코어에 영향을 미치는 변수가 무엇인지 파악하고자 한다. 적합된 모형의 예측력을 공정하게 비교하기 위해 10-fold 교차평가(cross validation) 과정을 100번 반복하였다.
  • 앞으로의 분석은 각 모형에 10-fold 교차평가 방법을 적용하여 제곱근평균제곱오차 RMSE =#를 계산하고 예측력을 비교한 후, 각 분석방법에서 선택된 변수들을 도출하여 공통적으로 선택되는 중요변수들은 어떤 것이 있고 스코어에 어떤 영향을 미치는지 알아보는 것을 중심으로 진행할 것이다. 추가적으로 가장 예측력이 높은 2가지 모델을 가지고 페덱스컵의 4가지 플레이오프의 결과도 예측해 보고자 한다.
  • 다양한 데이터 마이닝 모형을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하였고, 어떠한 변수들이 스코어에 영향을 미치는지 살펴보았다. 추가적으로 페덱스 플레이오프 4대 경기 데이터를 통해 예측된 스코어에 따른 선수들의 순위 또한 정확하게 추정이 가능한지 확인해 보았다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
골프에서 메이저대회에는 무엇이 있는가? 해마다 10월 초에 첫 대회를 시작 해 다음해 9월 말까지 진행되며 세계 각국 기업들이 스폰서로 나서 해마다 수많은 공식 대회를 치르는데 2015년 정규 시즌에는 52개 대회가 열렸다. 공식 대회 가운데 PGA 챔피언십, 마스터즈 토너먼트(Masters Tournament), US 오픈, 오픈 챔피언십 등 4개 대회를 가리켜 메이저대회라 부르며 여기서 모두 우승한 것을 그랜드슬램(Grand Slam)이라고 한다.
본 논문에서 골프 스코어에 유의한 영향을 미치는 변수를 분석한 결과는? 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.
본 논문에서 사용한 선형/비선형 회귀분석 방법은? 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. Breiman, L. (1996). Bagging predictors, Machine Learning, 24, 123-140. 

  2. Breiman, L. (2001). Random forests, Machine Learning, 45, 5-32. 

  3. Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984)., Classification and Regression Trees, Chapman and Hall, New York. 

  4. Connolly, R. A. and Rendleman Jr., R. J. (2008). Skill, luck and streaky play on the PGA tour, Journal of The American Statistical Association, 103, 74-88. 

  5. Connolly, R. A. and Rendleman Jr., R. J. (2012). What it takes to win on the PGA tour (If your name is "Tiger" or if it isn't), Interfaces, 42, 554-576. 

  6. Cover, T. and Hart, P. (1967). Nearest neighbor pattern classification, IEEE Transactions on Information Theory, 13, 21-27. 

  7. Frank, I. and Friedman, J. (1993). A statistical view of some chemometrics regression tools (with discussion), Technometrics, 35, 109-148. 

  8. Freund, Y. and Schapire, R. (1997). A decision-theoretic generalization of on-line learning and an application to boosting, Journal of Computer and System Sciences, 55, 119-139. 

  9. Friedman, J. (2002). Stochastic gradient boosting, Computational Statistics & Data Analysis, 38, 367-378. 

  10. Gunther, F. and Fritsch, S. (2010). Neuralnet: training of neural networks, The R Journal, 2, 30-38. 

  11. Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning, Springer, New York. 

  12. Hickman, D. C. and Metz, N. E. (2015). The impact of pressure on performance: evidence from the PGA tour, Journal of Economic Behavior & Organization, 116, 319-330. 

  13. Hoerl, A. and Kennard, R. (1970). Ridge regression: biased estimation for nonorthogonal problems, Technometrics, 12, 55-67. 

  14. Lee, H. W. and Lee, S. H. (2014). Analysis on the trend of domestic studies on golf : focusing on the Korean Journal of Golf Studies, Korean Journal of Golf Studies, 8, 77-84. 

  15. Park, C., Kim, Y., Kim, J., Song, J., and Choi, H. (2011). Datamining using R, Kyowoo, Seoul. 

  16. R Development Core Team. (2015). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. http://www.R-project.org. 

  17. Ridgeway, G. (2012). Generalized Boosted Models: A guide to the gbm package. 

  18. Stone, M. and Brooks, R. (1990). Continuum regression: cross-validated sequentially constructed prediction embracing ordinary least squares, partial least squares and principal components regression, Journal of the Royal Statistical Society Series B (Methodological), 52, 237-269. 

  19. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso, Journal of the Royal Statistical Society B (Methodological), 58, 267-288. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로