본 연구에서는 시뮬레이션을 활용하여 타자의 공격능력, 즉 타자로서의 타격능력과 주자로서의 주루능력을 포괄하는 득점생산능력을 종합적으로 평가한다. 이를 위하여, 각 타자의 스코어링 인덱스를 구하는데, 여기서 스코어링 인덱스란 한 팀의 모든 타자가 동일한, 한 선수로만으로 구성되었을 때, 기대되는 경기당 득점이다. 시뮬레이션 입력으로는 2014시즌 한국 프로야구 데이터를 사용하였는데, 주요 출력결과로서 상위 10명의 타자들의 스코어링 인덱스 및 9개 구단과 2014시즌 한국 프로야구의 스코어링 인덱스를 제시한다. 이렇게 구한 스코어링 인덱스는 타자 및 팀의 공격능력의 종합적인 평가뿐만 아니라, 대표선수 및 선발타자의 선정, 선수들의 연봉의 책정 등에도 활용될 수 있을 것이다.
본 연구에서는 시뮬레이션을 활용하여 타자의 공격능력, 즉 타자로서의 타격능력과 주자로서의 주루능력을 포괄하는 득점생산능력을 종합적으로 평가한다. 이를 위하여, 각 타자의 스코어링 인덱스를 구하는데, 여기서 스코어링 인덱스란 한 팀의 모든 타자가 동일한, 한 선수로만으로 구성되었을 때, 기대되는 경기당 득점이다. 시뮬레이션 입력으로는 2014시즌 한국 프로야구 데이터를 사용하였는데, 주요 출력결과로서 상위 10명의 타자들의 스코어링 인덱스 및 9개 구단과 2014시즌 한국 프로야구의 스코어링 인덱스를 제시한다. 이렇게 구한 스코어링 인덱스는 타자 및 팀의 공격능력의 종합적인 평가뿐만 아니라, 대표선수 및 선발타자의 선정, 선수들의 연봉의 책정 등에도 활용될 수 있을 것이다.
This research is to comprehensively evaluate offensive abilities of baseball players who are expected to produce as many runs as possible by their hitting and running. To this end, we establish a simulation program to obtain the so-called scoring index of an individual player. The scoring index of a...
This research is to comprehensively evaluate offensive abilities of baseball players who are expected to produce as many runs as possible by their hitting and running. To this end, we establish a simulation program to obtain the so-called scoring index of an individual player. The scoring index of a player is defined as an expected number of runs scored by an imaginary team that is composed of nine copies of the player. As a simulation input, we use 2014 season data of Korean pro-baseball. As a result, we present the scoring indices of top 10 players, 9 Korean pro-baseball teams, and overall 2014 season. The scoring index can serve as a comprehensive evaluation of offensive ability of a player or a team, selection of players for a (national) team or for a starting line-up, estimation of player's worth, and so on.
This research is to comprehensively evaluate offensive abilities of baseball players who are expected to produce as many runs as possible by their hitting and running. To this end, we establish a simulation program to obtain the so-called scoring index of an individual player. The scoring index of a player is defined as an expected number of runs scored by an imaginary team that is composed of nine copies of the player. As a simulation input, we use 2014 season data of Korean pro-baseball. As a result, we present the scoring indices of top 10 players, 9 Korean pro-baseball teams, and overall 2014 season. The scoring index can serve as a comprehensive evaluation of offensive ability of a player or a team, selection of players for a (national) team or for a starting line-up, estimation of player's worth, and so on.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 타자의 공격능력 즉, 타격능력과 주루능력을 포괄하는 득점생산능력을 종합적으로 평가하기 위하여, 시뮬레이션을 활용하여 각 타자의 스코어링 인덱스를 구하였다. 2014시즌 한국 프로야구 데이터를 사용하여 시뮬레이션 한 결과, 스코어링 인덱스는 실제 경기당 득점수와 5% 내외의 오차를 가졌으며, 기존의 세이버메트릭스 지표들과 비교적 높은 상관관계를 갖았다.
본 연구에서는 타자의 공격능력, 즉 타자로서의 타격능력과 주자로서의 주루능력을 포괄하는 득점생산성의 종합적인 평가를 위해, 1번 타자부터 9번 타자까지 모두 동일한 선수로 이루어진 가상의 팀을 구성한다. 예를 들면, 1번 타자부터 9번 타자까지 모두 한화의 김태균으로만 구성된 김태균 팀을 구성한다.
가설 설정
A.3 경기 중에 일어나는 작전 (in-game strategy, 희생번트/강공작전, 스퀴즈 작전, 도루작전 등) 및 기타 경기 내외적 상황은 고려하지 않는다.
가정 (A.2.1)에서 n루타 시, 주자가 n루 진루하는 것을 ‘기본진루’라 하고, 기본진루보다 한 루 더 진루하는 것을 ‘추가진루’라 하자.
Bukiet 등 (1997)은 D’Esopo와 Lefkowitz (1960)의 가정을 따라, 1루타 시, 1루주자는 2루까지만 진루하고, 나머지 주자는 모두 득점하는 것으로 가정하였다. 같은 방식으로, 2루타 시, 1루주자는 3루까지만 진루하고, 나머지 주자는 모두 득점하는 것으로 가정하였다. Sugano(2008)은 본 연구에서처럼, 땅볼 또는 뜬공아웃 시, 주자가 진루할 수 없는 것으로 가정하였으나, 견제사, 도루, 희생타, 에러 등을 추가로 고려하여 섬세한 시뮬레이션을 구현하였다.
제안 방법
2014시즌 125명 각 선수들의 SI값들이 기존의 세이버메트릭스 지표값들과 일관된 값을 주는지를 파악하기 위해 상관관계를 분석하였다. 특별히, 타자의 공격능력을 평가하는 세이버메트릭스 지표들 중, Lee (2014a)가 고려한 8가지 지표들과의 상관관계를 분석하였다.
4절에서는 시뮬레이션 결과를 실제 경기데이터와 비교하고, 시뮬레이션에서 구한 SI값과 기존의 지표들과의 상관관계를 검토한다. 2014시즌 한국 프로야구 데이터로부터, 상위 10명의 타자들의 SI값들과 각 구단별 SI값들, 시즌 전체의 SI 값도 제시한다. 5절에서는 본 연구의 의의와 한계점을 논의한다.
구체적인 방법은 Sugano (2008)의 방식을 따라 다음과 같이 하였다. 먼저, 각 선수들의 스피드 스코어 값으로부터 스피드 스코어 백분위(speed score percentile; SSP)를 구한다. 백분위는 집단에서 주어진 자료의 크기에 따른 상대적인 위치를 나타내는 값이다.
본 논문에서는, 125명의 스피드 스코어를 크기 순서로 배열한 후, 스피드 스코어 n위의 SSP를 (126 − n)/125로 계산하였다.
본 연구에서는 타자의 공격능력을 시뮬레이션을 활용하여 평가한다. 이 시뮬레이션에서는 야구경기의 진행상황을 프로그램 언어로 묘사한 후, 컴퓨터 상에서 가상적으로 구현한다.
시뮬레이션 프로그램은 C언어를 사용하여 코딩 되었으며, 난수는 C언어에서 제공하는 서브루틴을 활용하여 생성하였다. 시뮬레이션의 반복회수는 50만 경기 (약 3906시즌)로 설정하였다.
시뮬레이션에서는 스피드 스코어가 높은 주자의 추가진루확률은 Table 2.1의 추가진루 평균비율보다 높게, 스피드 스코어가 낮은 주자의 추가진루확률은 Table 2.1의 추가진루 평균비율보다 낮게 조정하여, 주루능력이 뛰어난 주자가 더 자주 추가진루하도록 모델링하였다. 구체적인 방법은 Sugano (2008)의 방식을 따라 다음과 같이 하였다.
이에 대한 통계적 유효성에 대한 논의는 Beaudoin (2013)을 참조하기 바란다. 시뮬레이션에서는 이 표의 추가진루 평균비율과 주자의 개인적인 주루능력을 평가한 스피드 스코어를 활용하여 추가진루 여부를 결정한다. 주자가 추가진루를 하지 못하면 기본진루만 하는 것으로 모델링하였다.
본 연구에서는 타자의 공격능력을 시뮬레이션을 활용하여 평가한다. 이 시뮬레이션에서는 야구경기의 진행상황을 프로그램 언어로 묘사한 후, 컴퓨터 상에서 가상적으로 구현한다. 이후, 가상현실 상에서 9회의 야구경기를 수십만 번 진행시키고, 이러한 경기진행을 매우 빠른 속도로 재생한다.
예를 들면, 1번 타자부터 9번 타자까지 모두 한화의 김태균으로만 구성된 김태균 팀을 구성한다. 이 후, 이 가상의 팀의 9회 경기를 50만 번 반복하여 경기당 득점 (또는 이닝당 득점)을 구한다. 이러한 방식으로 얻은 평균득점을 D’Esopo와 Lefkowitz (1960)는 스코어링 인덱스 (scoring index; SI)라고 불렀다.
둘째, 각 주자들의 스피드 스코어를 계산하여 주자의 주루능력을 시뮬레이션 모델링에 반영한 점이다. 이를 바탕으로, 안타 시, 주자들의 추가진루 여부를 주자들의 주루능력과 아웃상황을 모두 고려하여 모델링하였다. 셋째, 2014년 한국 프로야구 타자들의 타격능력과 주자로서의 주루능력을 포괄적으로 고려하여 공격능력을 종합적으로 평가하는 스코어링 인덱스를 제시한 점이다.
시뮬레이션에서는 이 표의 추가진루 평균비율과 주자의 개인적인 주루능력을 평가한 스피드 스코어를 활용하여 추가진루 여부를 결정한다. 주자가 추가진루를 하지 못하면 기본진루만 하는 것으로 모델링하였다. 이와 관련된 자세한 내용은 3.
2절에서 상술한다. 참고로, 주자가 여러 명 있는 경우, 가장 앞선 주자부터 차례대로 진루를 결정하도록 모델링하였다. 이 과정에서, 한 루에 두 명의 주자가 있을 수 없으므로, 뒤따르는 주자가 (추가진루를 통하여) 앞선 주자의 루까지 진루할 수 없도록 시뮬레이션이 구현되었다.
상술하면, James의 스피드 스코어는 주루능력과 관련된 여섯 가지 범주 (도루 성공률, 도루 시도율, 3루타 비율, 출루 시 득점비율, 병살타 회피비율, 수비위치)를 0과 10사이의 값으로 평가 한 후, 이들 중 가장 낮은 범주값을 제외한 나머지 다섯 범주값들의 평균값으로 계산한다. 최근에는 수비위치에 대한 범주값을 제외한 나머지 다섯 가지 범주값들만을 고려하여 스피드 스코어를 계산하는데, 이 논문에서도 이 다섯 범주값들의 평균으로 개별 주자의 스피드 스코어를 계산하였다. 각 범주에 대한 계산식은 James (1987)를 참고하기 바란다.
1의 식들을 사용하여 계산하였다. 추가로, 가중 OPS의 일종인 GPA, Kim (2012)이 제안한 가중 OPS, Lee (2014b)가 제안한 가중 OPS, Kim과 Kim (2014)가 제안한 가중수정 OPS와의 상관관계도 분석하였다. 이 지표들 중, 8개의 지표들과의 상관계수를 표로 정리하면 Table 4.
2014시즌 125명 각 선수들의 SI값들이 기존의 세이버메트릭스 지표값들과 일관된 값을 주는지를 파악하기 위해 상관관계를 분석하였다. 특별히, 타자의 공격능력을 평가하는 세이버메트릭스 지표들 중, Lee (2014a)가 고려한 8가지 지표들과의 상관관계를 분석하였다. 이들 지표들은 Lee (2014a)의 Table 2.
대상 데이터
2014시즌 한국 프로야구, 각 팀당 128 경기 중, 100타석 이상을 기록한 타자 125명에 대한 KBO 타자자료를 기본적인 입력데이터로 사용하였다 (KBO, 2015). 사용한 타격자료는 타수 (AB), 1루타 (1B), 2루타 (2B), 3루타 (3B), 홈런 (HR), 사사구 (BB+HBP), 삼진 (SO), 뜬공아웃 (AO), 땅볼아웃 (GO)이다.
시뮬레이션 결과가 실제 경기데이터와 일관된 값을 주는지를 다음과 같이 확인하였다. 먼저 2014시즌 한국 프로야구 9개 각 구단의 타격자료 (1루타, 2루타, 3루타, 홈런, 사사구, 삼진, 뜬공아웃 또는 땅볼아웃)와 주루자료 (타수, 안타, 득점, 1루타, 3루타, 홈런, 사사구, 삼진, 도루성공, 도루실패, 병살타)를 KBO 자료로부터 얻었다 (KBO, 2015). 이에 따르면, 2014 시즌 KIA는 1루타 885개, 2루타 246개, 3루타 27개 등을 기록했다 (Table 4.
2014시즌 한국 프로야구, 각 팀당 128 경기 중, 100타석 이상을 기록한 타자 125명에 대한 KBO 타자자료를 기본적인 입력데이터로 사용하였다 (KBO, 2015). 사용한 타격자료는 타수 (AB), 1루타 (1B), 2루타 (2B), 3루타 (3B), 홈런 (HR), 사사구 (BB+HBP), 삼진 (SO), 뜬공아웃 (AO), 땅볼아웃 (GO)이다. 이들 125명의 자료의 평균값을 갖는 가상의 선수를 ‘평균’선수라고 하면 이 평균선수의 입력자료는 Table 3.
스피드 스코어 계산식에 대입하기 위해 필요한 125명의 KBO 자료는 타수 (AB), 안타 (H), 득점 (R), 1루타 (1B), 3루타 (3B), 홈런 (HR), 사사구 (BB+HBP), 삼진 (SO), 도루 (SB), 도루실패 (CS), 병살타 (GDP)이다. 특별히, ‘평균’선수의 경우의 입력자료는 Table 3.
이론/모형
1의 추가진루 평균비율보다 낮게 조정하여, 주루능력이 뛰어난 주자가 더 자주 추가진루하도록 모델링하였다. 구체적인 방법은 Sugano (2008)의 방식을 따라 다음과 같이 하였다. 먼저, 각 선수들의 스피드 스코어 값으로부터 스피드 스코어 백분위(speed score percentile; SSP)를 구한다.
주자의 개별적인 주루능력을 반영하기 위해서 James (1987)가 제안한 스피드 스코어 (speed score; SS)를 사용하였다. 스피드 스코어는 주자의 주루능력을 평가하는 10점 만점의 척도이다.
성능/효과
본 연구에서는 타자의 공격능력 즉, 타격능력과 주루능력을 포괄하는 득점생산능력을 종합적으로 평가하기 위하여, 시뮬레이션을 활용하여 각 타자의 스코어링 인덱스를 구하였다. 2014시즌 한국 프로야구 데이터를 사용하여 시뮬레이션 한 결과, 스코어링 인덱스는 실제 경기당 득점수와 5% 내외의 오차를 가졌으며, 기존의 세이버메트릭스 지표들과 비교적 높은 상관관계를 갖았다. 시뮬레이션 결과에 따르면, 서두에서 언급한 서건창의 SI는 9.
2014시즌 한국 프로야구 데이터를 사용하여 시뮬레이션 한 결과, 스코어링 인덱스는 실제 경기당 득점수와 5% 내외의 오차를 가졌으며, 기존의 세이버메트릭스 지표들과 비교적 높은 상관관계를 갖았다. 시뮬레이션 결과에 따르면, 서두에서 언급한 서건창의 SI는 9.73이고, 박병호의 SI는 10.79로 나타났다. SI를 통한, 혹은 다른 지표를 통한, 선수들의 우열평가는 매우 조심스럽게 접근 되어야 한다.
후속연구
시뮬레이션을 통한 야구경기의 모델링과 분석의 한계는 주로 입력 데이터의 한계로 기인한다. 미국의 레트로시트 (retrosheet)의 경우처럼, 추후, 한국 프로야구 데이터들을 쉽게 접근할 수 있게 된다면, 보다 더 정교한 모델링이 가능할 것이며, 따라서 보다 더 정확한 분석을 기대할 수 있을 것이다.
이를 바탕으로, 안타 시, 주자들의 추가진루 여부를 주자들의 주루능력과 아웃상황을 모두 고려하여 모델링하였다. 셋째, 2014년 한국 프로야구 타자들의 타격능력과 주자로서의 주루능력을 포괄적으로 고려하여 공격능력을 종합적으로 평가하는 스코어링 인덱스를 제시한 점이다. 각 구단별 스코어링 인덱스와 2014시즌의 한국 프로야구의 스코어링 인덱스도 추가로 제시하였다.
하지만, 일단 구축이 되면, 보다 정밀하고 강건한 결과를 기대할 수 있다. 이렇게 구한 스코어링 인덱스는 타자 및 팀의 공격 능력의 종합적인 평가 뿐만 아니라, 대표선수 및 선발타자의 선정, 선수들의 연봉의 책정 등에도 활용될 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
OPS란?
이를 보완하기 위해 최근에 많이 활용되고 있는 지표로 OPS (On-base Plus Slugging)와 GPA(Gross Production Average)가 있다. OPS는 출루율과 장타율을 합한 값이고, GPA는 출루율에 1.8을 곱한 후 장타율과 합한 값이다.
GPA는 어떤 지표인가?
8을 곱한 후 장타율과 합한 값이다. OPS에서 장타율보다 크기가 작은 출루율이 과소평가 되는 점을 보완하기 위한 지표가 GPA이다. 같은 맥락에서, 한국 프로야구의 실정에 맞는 적절한 가중치를 갖는 가중 OPS를 찾기 위해, Kim (2012)는 한국 프로야구의 경기당 득점과 가중 OPS와의 상관관계를 분석하였다.
마르코프체인으로 모델링한 연구의 단점은?
야구경기를 마르코프 체인으로 모델링하면 타자의 타격으로 인한 주자상태와 아웃상태의 변화를 세밀하게 묘사할 수 있다. 하지만, 상태변화가 타자에 의해서 전적으로 이루어지다 보니, 주자의 능력으로 인한 진루를 모델링할 수 없다는 단점이 있다. 예를 들어, 타자가 1루타를 쳤을 때, 2루에 있는 주자가 홈까지 진루할 수도 있고, 3루까지만 진루할 수도 있는데, 이것은 실제로 타자의 타격과 함께 주자의 주루능력으로 결정된다.
참고문헌 (17)
Baumer, B. S. (2009). Using simulation to estimate the impact of baserunning ability in baseball. Journal of Quantitative Analysis in Sports, 5, Iss. 2, Article 8.
Cho, Y. J. and Lee, K. H. (2015). Bayesian estimation of the Korea professional baseball players' hitting ability based on the batting average. Journal of the Korean Data & Information Science Society, 26, 197-207.
Kim, H. J. (2012). Effects of on-base and slugging ability on run productivity in Korean professional baseball. Journal of the Korean Data & Information Science Society, 23, 1065-1074.
Kim, H. J. and Kim, Y. H. (2014). Explanation of run productivity using weighted adjusted OPS in Korean professional baseball. The Korean Journal of Applied Statistics, 27, 731-741.
Korea Baseball Organization. (2015). http://www.koreabaseball.com/Record/Main.aspx.
Lee, J. T. (2014a). Measurements for hitting ability in the Korean pro-baseball. Journal of the Korean Data & Information Science Society, 25, 349-356.
Lee, J. T. (2014b). Estimation of OBP coefficient in Korean professional baseball. Journal of the Korean Data & Information Science Society, 25, 357-363.
Lee, J. T. and Kim Y. T. (2005). A study on runs evaluation measure for Korean pro-baseball player. Journal of the Korean Data Analysis Society, 7, 2289-2302.
Moon, H. W., Woo, Y. T. and Shin, Y. W. (2013). Analysis of the Korean baseball league using a Markov chain model. The Korean Journal of Applied Statistics, 26, 649-659.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.