[논문]PGA 투어의 골프 스코어 예측 및 분석

임정은; 임영인; 송종우

doi:10.5351/kjas.2017.30.1.041

문제 정의

1934년 마스터스를 창설한 보비 존스는 골프코스에서 가장 중요한 조건은 퍼팅그린의 질이라 하였다. 그만큼 퍼팅 그린의 잔디 질이 스코어에 큰 영향을 미친다는 뜻으로 본 연구를 통해 그린뿐만 아니라 페어웨이의 잔디까지 스코어에 미치는 영향을 통계적으로 확인해 보고자 한다. 그린과 페어웨이 잔디의 단단함 정도를 5단계로 나누어 (soft - medium soft - medium - medium firmness - firmness) 설명변수로 이용하였다.
본 연구에서는 PGA 투어에서 제공하는 선수정보 및 코스정보를 사용하여 예측모형을 제시하였다. 다양한 데이터 마이닝 모형을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하였고, 어떠한 변수들이 스코어에 영향을 미치는지 살펴보았다. 추가적으로 페덱스 플레이오프 4대 경기 데이터를 통해 예측된 스코어에 따른 선수들의 순위 또한 정확하게 추정이 가능한지 확인해 보았다.
따라서 본 연구에서는 데이터 마이닝 기법을 이용하여 PGA 투어에 출전하는 프로 골프 선수의 경기 결과를 예측하는 모형을 제안하고자 한다. 앞서 해외 논문들이 운이나 심리적 압박감을 변수로 사용하여 점수에 어떠한 영향을 미치는지에 초점을 맞추었다면, 본 연구에서는 선수 개인의 능력과 경기 환경들을 변수로 사용하여 다양한 데이터 마이닝 모형을 탐색했다는 점 그리고 예측력을 우선으로 했다는 점에서 차이가 있다.
본 연구에서는 페덱스컵 포인트 기준 상위 150위 선수들을 데이터로 사용하였기 때문에 페덱스컵 4개 경기에 대한 선수 기록을 이번 장에서 추가적으로 예측해 보고자 한다. 또한 만약 평균스코어를 정확하게 예측했다면 순위도 잘 추정할 수 있을 것이라 생각하여 예측 스코어를 낮은 값부터 정렬해 상위권 순위도 얼마나 맞추는지 확인해 보았다.
본 연구에서는 PGA 투어에서 제공하는 선수정보 및 코스정보를 사용하여 예측모형을 제시하였다. 다양한 데이터 마이닝 모형을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하였고, 어떠한 변수들이 스코어에 영향을 미치는지 살펴보았다.
본 연구에 사용된 자료는 2013년 1월 7일에 개최된 Hyundai Tournament of Champions 경기를 시작으로 2015년 10월 11일 TOUR Championship by Coca-Cola 경기까지 총 132개(2013년 40개, 2014년 45개, 2015년 47개) 경기에 대한 선수 기록을 수집하였다. 본 연구에서는 출전 선수들의 기록을 2013년부터 2015년까지 추적하여 매 경기가 끝날 때마다 그 경기까지의 평균 기록으로 계속 업데이트를 해주었기 때문에 132개 경기에 출전한 모든 선수를 분석하기에는 지나치게 많은 시간이 소요될 뿐만 아니라 PGA 투어에 지속적으로 참여하지 않는 선수들 또한 포함하여 무의미하다고 보았다. 따라서 페덱스컵 포인트 기준 상위 150명 선수만을 분석에 사용하였고 이 중 경기 기록에 점수가 존재하지 않는 171건의 경우는 제거 하였다.
본 연구에서는 페덱스컵 포인트 기준 상위 150위 선수들을 데이터로 사용하였기 때문에 페덱스컵 4개 경기에 대한 선수 기록을 이번 장에서 추가적으로 예측해 보고자 한다. 또한 만약 평균스코어를 정확하게 예측했다면 순위도 잘 추정할 수 있을 것이라 생각하여 예측 스코어를 낮은 값부터 정렬해 상위권 순위도 얼마나 맞추는지 확인해 보았다.
따라서 다양한 변수들이 골프 스코어에 영향을 미치기 때문에 경기력을 특정 하나로만 설명하기는 어렵다. 본 연구의 목적은 골프 선수에 대한 정보와 코스 정보, 바람에 대한 정보를 가지고 골프 스코어를 예측하는 것이며 반응변수는 해당 경기의 점수로 설정하였다. 분석에 사용된 설명변수는 총 47개로 아래에서 보다 자세히 설명하고자 한다.
우선 선형회귀모형에서의 결과에 대해 살펴보고자 한다. Table 3.
이번 장에서는 통계적 분석 기법들을 이용하여 PGA 투어 경기에 출전한 골프 선수들의 평균스코어를 예측하는 모형을 적합해보고 어떠한 모형이 가장 높은 예측률을 주는지와 평균스코어에 영향을 미치는 변수가 무엇인지 파악하고자 한다. 적합된 모형의 예측력을 공정하게 비교하기 위해 10-fold 교차평가(cross validation) 과정을 100번 반복하였다.
앞으로의 분석은 각 모형에 10-fold 교차평가 방법을 적용하여 제곱근평균제곱오차 RMSE =#를 계산하고 예측력을 비교한 후, 각 분석방법에서 선택된 변수들을 도출하여 공통적으로 선택되는 중요변수들은 어떤 것이 있고 스코어에 어떤 영향을 미치는지 알아보는 것을 중심으로 진행할 것이다. 추가적으로 가장 예측력이 높은 2가지 모델을 가지고 페덱스컵의 4가지 플레이오프의 결과도 예측해 보고자 한다.
다양한 데이터 마이닝 모형을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하였고, 어떠한 변수들이 스코어에 영향을 미치는지 살펴보았다. 추가적으로 페덱스 플레이오프 4대 경기 데이터를 통해 예측된 스코어에 따른 선수들의 순위 또한 정확하게 추정이 가능한지 확인해 보았다.

제안 방법

3). 골프는 다른 스포츠와 달리 체력이 많이 요구되지 않아 연령이 점수에 크게 영향을 미치지 않다고 알려졌는데 이를 확인하기 위해 연령별로 컷오프 당하는 비율을 계산해 보았다. 그 결과 20대부터 40대까지는 컷오프 당하는 비율이 비슷하며 50대가 되었을 때 그 확률이 조금 증가하는 것을 확인 할 수 있었다.
그만큼 퍼팅 그린의 잔디 질이 스코어에 큰 영향을 미친다는 뜻으로 본 연구를 통해 그린뿐만 아니라 페어웨이의 잔디까지 스코어에 미치는 영향을 통계적으로 확인해 보고자 한다. 그린과 페어웨이 잔디의 단단함 정도를 5단계로 나누어 (soft - medium soft - medium - medium firmness - firmness) 설명변수로 이용하였다.
PGA 선수들의 경우 실력차이가 크지 않고 미약한 점수 차이로 랭킹이 나뉘기 때문에 선수 개개인의 순위를 모두 예측하는 것은 너무 어렵다고 판단하였다. 따라서 각 경기의 상위 10명과 상위 25명 선수들을 예측하는데 중점을 두었다. 3차전까지는 상위 10명과 상위 25명을 모두 예측하였고 마지막 4차전에서는 참여 선수가 30명밖에 안되므로 상위 10명만 예측하였다.
2장에 설명하고자 한다. 먼저 훈련용 자료를 이용해 위의 11가지 모형의 예측력을 비교해 보고자 한다. 교차오차의 평균은 2014년의 경기 기록인 훈련 자료를 각각의 방법에 대해 10-fold 교차평가를 100번 모의실험하여 구한 값이며 테스트 오차는 훈련 자료를 이용하여 만든 모형에 2015년의 2,956개 기록을 테스트 자료로 적합하여 구한 오차값이다.
골프는 바람의 영향을 많이 받는 스포츠이다. 본 연구에서는 바람의 강도를 3가지로 나누어 설명변수로 적용하였다. 골프가 대체로 4일 간 열리는 운동이기 때문에 4일 동안의 최대 풍속과 4일 각각의 평균풍속의 최댓값, 그리고 4일 각각의 평균풍속의 평균을 구한 후 보퍼트 풍속 계급표를 참고하여 해당되는 구간 값을 지정해 주었다(Table 2.
적합된 모형의 예측력을 공정하게 비교하기 위해 10-fold 교차평가(cross validation) 과정을 100번 반복하였다. 앞으로의 분석은 각 모형에 10-fold 교차평가 방법을 적용하여 제곱근평균제곱오차 RMSE =#를 계산하고 예측력을 비교한 후, 각 분석방법에서 선택된 변수들을 도출하여 공통적으로 선택되는 중요변수들은 어떤 것이 있고 스코어에 어떤 영향을 미치는지 알아보는 것을 중심으로 진행할 것이다. 추가적으로 가장 예측력이 높은 2가지 모델을 가지고 페덱스컵의 4가지 플레이오프의 결과도 예측해 보고자 한다.
따라서 페덱스컵 포인트 기준 상위 150명 선수만을 분석에 사용하였고 이 중 경기 기록에 점수가 존재하지 않는 171건의 경우는 제거 하였다. 업데이트 방법은 2013년의 선수 기록을 개개인 별로 평균하여 2014년 첫 번째 경기의 설명변수로 사용하였고 2014년 이후 열리는 매 경기마다의 기록으로 새롭게 업데이트 하였다. 2013년부터 2015년까지 총 9,575개 자료 중 2013년의 기록으로 업데이트 해준 2014년과 2015년의 자료만을 분석에 사용하였으며, 2014년의 3,248개 기록을 훈련 자료로, 2015년의 2,956개 기록을 테스트 자료로 설정 하였다.
이번 장에서는 통계적 분석 기법들을 이용하여 PGA 투어 경기에 출전한 골프 선수들의 평균스코어를 예측하는 모형을 적합해보고 어떠한 모형이 가장 높은 예측률을 주는지와 평균스코어에 영향을 미치는 변수가 무엇인지 파악하고자 한다. 적합된 모형의 예측력을 공정하게 비교하기 위해 10-fold 교차평가(cross validation) 과정을 100번 반복하였다. 앞으로의 분석은 각 모형에 10-fold 교차평가 방법을 적용하여 제곱근평균제곱오차 RMSE =#를 계산하고 예측력을 비교한 후, 각 분석방법에서 선택된 변수들을 도출하여 공통적으로 선택되는 중요변수들은 어떤 것이 있고 스코어에 어떤 영향을 미치는지 알아보는 것을 중심으로 진행할 것이다.
평균교차오차와 테스트 오차가 가장 낮은 랜덤 포레스트 모형에서 가장 중요도가 높은 세 변수를 선택하여 각 변수의 범위에 따라 평균스코어 예측치가 어떻게 변화하는지 그 양상을 살펴보았다. 선택된 세 가지 변수는 Green Height, Rough Height, Fairway Height로 모두 잔디의 길이와 관련된 변수였으나 평균스코어에 영향을 끼치는 모습은 각기 달랐으며 선형회귀분석을 통해서는 알 수 없었던 흥미로운 정보들을 새롭게 알 수 있었다.
평균스코어를 예측하기 위한 방법으로 선형회귀분석 방법과 비선형회귀분석 방법 두 가지로 나누어서 분석하였다. 선형회귀분석 방법으로는 라소, 능형회귀, 주성분회귀, 모든 가능한 회귀모형, 단계적 선택법을 사용하였고 비선형회귀분석 방법으로는 신경망 모형, 의사결정나무, 그래디언트 부스팅, 배깅, 랜덤 포레스트, K-최근접이웃방법을 사용하였다.

대상 데이터

업데이트 방법은 2013년의 선수 기록을 개개인 별로 평균하여 2014년 첫 번째 경기의 설명변수로 사용하였고 2014년 이후 열리는 매 경기마다의 기록으로 새롭게 업데이트 하였다. 2013년부터 2015년까지 총 9,575개 자료 중 2013년의 기록으로 업데이트 해준 2014년과 2015년의 자료만을 분석에 사용하였으며, 2014년의 3,248개 기록을 훈련 자료로, 2015년의 2,956개 기록을 테스트 자료로 설정 하였다.
대한골프협회(http://www.kgagolf.or.kr)가 지난 2012년에 이어 [2014 한국 골프 지표]를 발표하였다. 이 지표는 현재 한국의 골프 인구 이용 형태, 골프 활동 유형 및 해외 골프 활동 형태에 대한 내용을 담고 있다.
본 연구에서는 출전 선수들의 기록을 2013년부터 2015년까지 추적하여 매 경기가 끝날 때마다 그 경기까지의 평균 기록으로 계속 업데이트를 해주었기 때문에 132개 경기에 출전한 모든 선수를 분석하기에는 지나치게 많은 시간이 소요될 뿐만 아니라 PGA 투어에 지속적으로 참여하지 않는 선수들 또한 포함하여 무의미하다고 보았다. 따라서 페덱스컵 포인트 기준 상위 150명 선수만을 분석에 사용하였고 이 중 경기 기록에 점수가 존재하지 않는 171건의 경우는 제거 하였다. 업데이트 방법은 2013년의 선수 기록을 개개인 별로 평균하여 2014년 첫 번째 경기의 설명변수로 사용하였고 2014년 이후 열리는 매 경기마다의 기록으로 새롭게 업데이트 하였다.
본 연구에 사용된 자료는 2013년 1월 7일에 개최된 Hyundai Tournament of Champions 경기를 시작으로 2015년 10월 11일 TOUR Championship by Coca-Cola 경기까지 총 132개(2013년 40개, 2014년 45개, 2015년 47개) 경기에 대한 선수 기록을 수집하였다. 본 연구에서는 출전 선수들의 기록을 2013년부터 2015년까지 추적하여 매 경기가 끝날 때마다 그 경기까지의 평균 기록으로 계속 업데이트를 해주었기 때문에 132개 경기에 출전한 모든 선수를 분석하기에는 지나치게 많은 시간이 소요될 뿐만 아니라 PGA 투어에 지속적으로 참여하지 않는 선수들 또한 포함하여 무의미하다고 보았다.
선수에 대한 정보는 PGA 투어(http://mediaguide.pgatourhq.com)에서 샷 링크 시스템(SHOT LINK SYSTEM)으로 측정한 데이터를 이용하였다. 샷 링크 시스템이란 PGA 투어 대회 대다수의 라운드에서 모든 샷의 정확한 결과를 기록하기 위한 시스템으로 약 350명의 자원봉사자들이 매주 참여하고 있다.
위와 같은 흥미로운 결과들을 도출해 내기 위해 많은 시간과 노력을 투자해야 했는데 골프스코어를 예측하는 것이 본 연구의 목표이기 때문에 매 경기가 열릴 때마다 그 경기 전까지 선수들의 모든 기록을 업데이트 시켜야 했고 이를 9,757개의 데이터에 모두 적용하였다. 매 경기를 하나씩 업데이트 하는 것은 굉장히 힘든 작업이었으므로 PGA 투어 선수들 중 상위 150명(페덱스컵 포인트 기준)만을 대상으로 분석을 했다는 한계점이 있다.
골프 경기는 총 4라운드로 구성되어 있는데 대부분의 경우에 한 라운드당 18개의 홀로 이루어져 있다. 하루에 한 라운드씩 나흘 간 총 72개 홀에서 경기가 진행된다. 대부분의 대회는 2라운드까지 치른 뒤 성적순으로 3라운드 진출자를 가리는데 그 기준 성적에 걸려 통과하지 못하면 컷오프(cut off) 당했다고 한다.

데이터처리

이것은 실제 평균스코어와 예측한 평균스코어가 평균적으로 2점 정도밖에 차이가 안 난다는 뜻으로 본 연구에서 만든 11가지 모형 모두 실제 스코어를 매우 정확하게 추정하고 있음을 알 수 있다. Figure 3.1의 경우에는 차이를 조금 더 잘 볼 수 있도록 제곱근평균제곱오차의 제곱값인 평균제곱오차(MSE)를 사용하여 상자 그림을 작성하였다.
분석은 통계프로그래밍 R (R Development Core Team, 2015)을 이용하여 이루어졌으며 분석에 사용한 모형은 선형회귀모형, 라소 회귀모형(LASSO) (Tibshirani, 1996), 능형 회귀모형 (Hoerl과 Kennard, 1970), 의사결정나무 (Brieman 등, 1984), 배깅(bagging) (Brieman, 1996), 랜덤 포레스트 (Breiman, 2001), 그래디언트 부스팅 (Friedman, 2002; Freund와 Schapire, 1997; Ridgeway, 2012), 주성분회귀(PCR) (Frank와 Friedman, 1993; Stone과 Brooks, 1990), K-최근접이웃방법(KNN) (Cover와 Hart, 1967), 신경망 (Günther와 Fritsch, 2010; Hastie 등, 2009; Park 등, 2011)이다.
평균스코어를 예측하기 위한 방법으로 선형회귀분석 방법과 비선형회귀분석 방법 두 가지로 나누어서 분석하였다. 선형회귀분석 방법으로는 라소, 능형회귀, 주성분회귀, 모든 가능한 회귀모형, 단계적 선택법을 사용하였고 비선형회귀분석 방법으로는 신경망 모형, 의사결정나무, 그래디언트 부스팅, 배깅, 랜덤 포레스트, K-최근접이웃방법을 사용하였다. 분석결과 선택된 변수에 대해서는 선형회귀분석과 비선형회귀분석으로 나누어 3.
선형회귀모형에서는 단계적 선택법(stepwise regression), 모든 가능한 회귀모형(all possible regression)과 같은 변수선택방법을 사용하여 총 11가지 모형을 사용하였다. 위의 모든 방법론은 R에 포함된 다양한 함수와 패키지를 이용하였고 예측력 평가지표로 제곱근평균제곱오차(root mean square error; RMSE)를 이용하였다.
추가적으로 분석한 4대 플레이오프 경기의 경우 예측률이 가장 좋았던 배깅과 랜덤 포레스트 모형을 사용하여 선수들의 평균스코어를 예측하였다. 이 예측 스코어를 기반으로 하여 상위권 선수의 순위를 예측했을 때에도 50%이상을 맞추는 좋은 결과를 보였다.
평균스코어 예측 모형에서 랜덤 포레스트와 배깅 모형의 테스트 오차 값이 가장 작았기 때문에 이 두가지 모형을 가지고 제곱근평균제곱오차를 계산해보았다. Table 3.
평균스코어를 예측하기 위해 의사결정나무, 부스팅, 배깅, 랜덤 포레스트, 라소, 능형회귀, 주성분회귀, 신경망 모형, 모든 가능한 회귀모형, 최근접이웃방법, 단계적 선택법 방법을 이용하였으며 모형 평가 지표로 제곱근평균제곱오차를 사용하였다. 각 모형들에 대한 예측률을 비교해보면 배깅과 랜덤 포레스트에서 가장 좋은 예측률을 보였다.

이론/모형

분석은 통계프로그래밍 R (R Development Core Team, 2015)을 이용하여 이루어졌으며 분석에 사용한 모형은 선형회귀모형, 라소 회귀모형(LASSO) (Tibshirani, 1996), 능형 회귀모형 (Hoerl과 Kennard, 1970), 의사결정나무 (Brieman 등, 1984), 배깅(bagging) (Brieman, 1996), 랜덤 포레스트 (Breiman, 2001), 그래디언트 부스팅 (Friedman, 2002; Freund와 Schapire, 1997; Ridgeway, 2012), 주성분회귀(PCR) (Frank와 Friedman, 1993; Stone과 Brooks, 1990), K-최근접이웃방법(KNN) (Cover와 Hart, 1967), 신경망 (Günther와 Fritsch, 2010; Hastie 등, 2009; Park 등, 2011)이다. 선형회귀모형에서는 단계적 선택법(stepwise regression), 모든 가능한 회귀모형(all possible regression)과 같은 변수선택방법을 사용하여 총 11가지 모형을 사용하였다. 위의 모든 방법론은 R에 포함된 다양한 함수와 패키지를 이용하였고 예측력 평가지표로 제곱근평균제곱오차(root mean square error; RMSE)를 이용하였다.

성능/효과

그러나 Figure 3.2(c) Fairway Height의 경우 설명변수의 값이 0.38일 때를 기준으로 평균스코어가 증가하다가 감소한다. Green Height처럼 전반적으로 평균스코어가 양의 방향으로 증가하는 형상과 달리 Fairway Height는 페어웨이의 잔디길이가 0.
평균스코어를 예측하기 위해 의사결정나무, 부스팅, 배깅, 랜덤 포레스트, 라소, 능형회귀, 주성분회귀, 신경망 모형, 모든 가능한 회귀모형, 최근접이웃방법, 단계적 선택법 방법을 이용하였으며 모형 평가 지표로 제곱근평균제곱오차를 사용하였다. 각 모형들에 대한 예측률을 비교해보면 배깅과 랜덤 포레스트에서 가장 좋은 예측률을 보였다.
골프는 다른 스포츠와 달리 체력이 많이 요구되지 않아 연령이 점수에 크게 영향을 미치지 않다고 알려졌는데 이를 확인하기 위해 연령별로 컷오프 당하는 비율을 계산해 보았다. 그 결과 20대부터 40대까지는 컷오프 당하는 비율이 비슷하며 50대가 되었을 때 그 확률이 조금 증가하는 것을 확인 할 수 있었다. 하지만 그 차이가 0.
38인치 이상부터는 역으로 큰 폭으로 급감한다. 그 결과 페어웨이의 잔디의 길이가 짧을 때보다 길 때 오히려 평균스코어가 더 낮으며 그 폭이 약 0.5점 정도로 차이가 나는 것을 알 수 있다.
즉 게임 회복 능력이 높을수록 높은 scrambling 값을 가지며 평균스코어는 낮아지게 된다. 마지막으로 Longest Drive는 한 해 동안 해당 선수가 친 가장 긴비거리를 의미하므로 Longest Drive 값이 클수록 공을 멀리 보내는 능력이 뛰어남을 나타낸다. 이는 곧 공을 멀리 보낼 수 있는 선수일수록 평균스코어가 낮은 경향이 있다는 것을 보여준다.
평균교차오차와 테스트 오차가 가장 낮은 랜덤 포레스트 모형에서 가장 중요도가 높은 세 변수를 선택하여 각 변수의 범위에 따라 평균스코어 예측치가 어떻게 변화하는지 그 양상을 살펴보았다. 선택된 세 가지 변수는 Green Height, Rough Height, Fairway Height로 모두 잔디의 길이와 관련된 변수였으나 평균스코어에 영향을 끼치는 모습은 각기 달랐으며 선형회귀분석을 통해서는 알 수 없었던 흥미로운 정보들을 새롭게 알 수 있었다. 아래의 Figure 3.
선형회귀분석을 이용한 모형들 중에서 중복으로 선택된 변수들을 살펴보면 페어웨이의 단단함과 그린의 잔디 길이, 평균최대풍속 등이 평균스코어 증가에 영향을 미치는 것을 알 수 있었다. 즉, 페어웨이가 딱딱하면 공이 원하는 대로 굴러가지 않을 수 있고 그린에 있는 잔디의 길이가 길면 스윙을 할 때 방해요소가 되기도 한다.
반대로 음의 계수를 가지는 변수들은 그 값이 증가할수록 평균스코어가 낮아짐을 의미한다. 양의 값을 가지는 회귀 변수로는 Fairway Firmness, Green Height, Max INT, Max average wind interval, Three Putt Avoidance가 선택되었다. 예를 들어 Fairway Firmness의 경우 페어웨이의 단단함 강도가 높을수록 평균스코어가 증가한다.
추가적으로 분석한 4대 플레이오프 경기의 경우 예측률이 가장 좋았던 배깅과 랜덤 포레스트 모형을 사용하여 선수들의 평균스코어를 예측하였다. 이 예측 스코어를 기반으로 하여 상위권 선수의 순위를 예측했을 때에도 50%이상을 맞추는 좋은 결과를 보였다.
테스트 오차의 경우에도 모든 모형에서 2점대의 값을 가져서 훈련용 자료에서의 오차보다 아주 조금 클 뿐이다. 이것은 실제 평균스코어와 예측한 평균스코어가 평균적으로 2점 정도밖에 차이가 안 난다는 뜻으로 본 연구에서 만든 11가지 모형 모두 실제 스코어를 매우 정확하게 추정하고 있음을 알 수 있다. Figure 3.
랜덤 포레스트모형의 (d) importance plot을 보면 Green Height가 가장 중요한 변수로 선택된다. 제 3.1.1장 선형회귀분석에서 중복적으로 선택된 변수에도 Green Height가 있는 것으로 보아 선형회귀모형과 비선형회귀모형에서 모두 중요하게 선택되는 변수임을 알 수 있다. Table 3.
교차오차의 평균은 2014년의 경기 기록인 훈련 자료를 각각의 방법에 대해 10-fold 교차평가를 100번 모의실험하여 구한 값이며 테스트 오차는 훈련 자료를 이용하여 만든 모형에 2015년의 2,956개 기록을 테스트 자료로 적합하여 구한 오차값이다. 튜닝 모수와 변수선택이 필요한 모형에 대해서는 10-fold 교차 오차가 가장 작은 모수와 변수를 최적으로 선택하였다. 최적의 튜닝모수로 랜덤 포레스트에서는 mtry = 16, 배깅에서는 mtry = 47이었다.
반면 다른 선수들에 비해 더 성적이 좋음을 나타내는 변수인 Stroke gained 값이 크면 선수들의 능력이 좋은 것이므로 평균스코어가 낮아지게 되며, 평균적으로 퍼팅을 한 번에 성공시키는 경우가 많고, GIR 실패 후 버디나 이글로 점수를 스코어를 낼 때에도 평균스코어는 낮아진다. 한 해 동안 선수가 친 가장 긴 비거리를 나타내는 Longest drive도 스코어 감소에 영향을 미친다는 결과를 얻을 수 있었다.

후속연구

매 경기를 하나씩 업데이트 하는 것은 굉장히 힘든 작업이었으므로 PGA 투어 선수들 중 상위 150명(페덱스컵 포인트 기준)만을 대상으로 분석을 했다는 한계점이 있다. 이를 보완하여 모든 선수들의 기록을 매 경기마다 업데이트시켜 분석에 사용한다면 기존 예측모형보다 더 좋은 결과를 얻을 수 있을 것이라고 생각된다.

핵심어	질문	논문에서 추출한 답변
	골프에서 메이저대회에는 무엇이 있는가?	해마다 10월 초에 첫 대회를 시작 해 다음해 9월 말까지 진행되며 세계 각국 기업들이 스폰서로 나서 해마다 수많은 공식 대회를 치르는데 2015년 정규 시즌에는 52개 대회가 열렸다. 공식 대회 가운데 PGA 챔피언십, 마스터즈 토너먼트(Masters Tournament), US 오픈, 오픈 챔피언십 등 4개 대회를 가리켜 메이저대회라 부르며 여기서 모두 우승한 것을 그랜드슬램(Grand Slam)이라고 한다.
	본 논문에서 골프 스코어에 유의한 영향을 미치는 변수를 분석한 결과는?	우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.
	본 논문에서 사용한 선형/비선형 회귀분석 방법은?	그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

PGA 투어의 골프 스코어 예측 및 분석
Prediction of golf scores on the PGA tour using statistical models 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

PGA 투어의 골프 스코어 예측 및 분석 Prediction of golf scores on the PGA tour using statistical models 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

송종우 (23)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

PGA 투어의 골프 스코어 예측 및 분석
Prediction of golf scores on the PGA tour using statistical models 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper