한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 2006년부터 2016년까지 꾸준히 증가 추세를 보이고 있다. 지난해에는 한국프로야구 역사상 가장 최대인 800만 관중을 넘어섰다. 프로야구에 대한 인기가 높아지면서 기록에 대한 중요성과 세이버메트릭스 (Sabermetrics)에 대한 관심도 점점 더 커지고 있다. 세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있고, 이 분야의 중요성은 점차 강조되고 있다 (Kang 등, 2014; Cho 등, 2007). 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermetrician)이라고 부른다 (Hong 등, 2016). 한국프로야구에서도 세이버메트릭스를 통한 연구는 Kim (2012), Lee와 Cho (2009), Lee (2014) 등이 있다. 이는 단순히 스트라이크 수, 볼넷 수 등으로 선수의 능력을 분석하는 것에서 벗어나 보다 실증적인 연구로 선수의 능력을 평가한다는 점에서 야구 경기 분석의 주류로 자리 잡고 있다 (Seung과 Kang, 2012). 세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (...
한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 2006년부터 2016년까지 꾸준히 증가 추세를 보이고 있다. 지난해에는 한국프로야구 역사상 가장 최대인 800만 관중을 넘어섰다. 프로야구에 대한 인기가 높아지면서 기록에 대한 중요성과 세이버메트릭스 (Sabermetrics)에 대한 관심도 점점 더 커지고 있다. 세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있고, 이 분야의 중요성은 점차 강조되고 있다 (Kang 등, 2014; Cho 등, 2007). 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermetrician)이라고 부른다 (Hong 등, 2016). 한국프로야구에서도 세이버메트릭스를 통한 연구는 Kim (2012), Lee와 Cho (2009), Lee (2014) 등이 있다. 이는 단순히 스트라이크 수, 볼넷 수 등으로 선수의 능력을 분석하는 것에서 벗어나 보다 실증적인 연구로 선수의 능력을 평가한다는 점에서 야구 경기 분석의 주류로 자리 잡고 있다 (Seung과 Kang, 2012). 세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12개가 있다. 특히, 세이버메트릭스 통계량 중에서 대체선수대비승수인 WAR (Wins above replacement)은 가장 공신력 있는 통계량이고, 미국프로야구 (Major league baseball; MLB)와 KBO에서 선수를 평가함에 있어 가장 많이 사용된다 (http://m.mlb.com/news/article/182980276/best-late-round-picks-in-draft-history/, http://osen.mt.co.kr/article/G1110627260). 실제로 야구 경기 중계 방송 중에도 포지션 별 WAR 수치를 보여주고 있으며, WAR을 포함한 세이버메트릭스 통계량을 활용하여 선수들의 연봉추정 모형을 제시한 연구도 진행된 바 있다 (Chang과 Zenilman; 2013). 이러한 WAR의 가장 큰 장점은 투수와 타자 등 모든 포지션의 선수의 어떤 행위도 철저하게 득점과 승리를 위한 수단으로 바라보아 승리 기여도라는 단 하나의 숫자로 표현해 주는 것으로 서로 다른 구단, 다른 포지션의 선수들과 비교가 가능하다. 먼저 $WAR$은 다음과 같이 정의된다 (http://www.kbreport.com/statDic/detail?seq=22\&contentsType=a304).
$WAR_1$은 선수의 공격능력 (Batting runs)과 주루능력 (Base running runs), 수비능력 (Fielding runs), 포지션 조정 (Positional adjustment)의 합을 1승에 해당하는 득점 (Runs per win)으로 나눈 값으로 선수의 능력을 종합적으로 나타낸다는 점에서 큰 장점을 가진다. Batting runs는 타자의 공격능력을 나타내는 지표이며, wOBA (weight On Base Average)를 기반으로 하는 wRAA (weighted Runs Above Average)를 사용한다. wRAA를 구하는 식은 아래와 같다. \begin{align} wRAA=\frac{wOBA-league wOBA}{wOBA scale} \times PA \nonumber \end{align} Base running은 크게 도루능력과 그 외 상황에서의 진루능력으로 나눌 수 있으며 이를 나타내는 지표는 wSB(Weighted Stolen Base Runs) 과 UBR(Ultimate Base Running)이다. 그리고, 이를 합한 후 승리기여도의 지표로 표시한 것이 WAR에 포함된다. UBR은 Fangraph에서 자체적으로 개발한 통계량으로 복잡한 계산과 보정이 들어가는 지표이며, 현재 KBreport에서는 wSB만 사용되고 있다. wSB는 아래의 식과 같다. \begin{align} wSB = SB \times rusSB + CS \times runCS – lgwSB \times (1B + BB + HBP – IBB) \nonumber \end{align} {\scriptsize (SB: 도루, runSB: 도루의 득점기여도, CS: 도루실패, runCS: 도루실패의 득점기여도, lgwSB: 리그평균 wSB)} Fielding은 수비능력을 나타내는 지표로써 일반적으로 공격지표보다 측정하기 어렵다. 이유로는 크게 세 가지가 있다. 첫 번째, 수비 포지션이 제각각이며 플라이, 땅볼, 직선타구 등의 여러 상황이 발생할 수 있다. 두 번째, 상황을 기록하는 기록원의 주관이 들어갈 여지가 있으며 포수의 수비능력을 측정하지 못한다. 세 번째, 수비지표는 연간 편차가 너무 크다. 수비 지표 계산방법은 UZR (Ultimate Zone Rating) 등 여러 가지가 제시되고 있으나 (Piette와 Jensen; 2011), 앞선 이유들로 KBreport에서는 현재 WAR에 수비지표를 포함하지 않는다. 따라서 본 연구에서도 수비능력은 제외하여 분석한다. Positional adjustment는 수비의 득점기여도를 따질 때 수비포지션에 따라 기여도가 다른 것을 보정하기 위한 상수 값이다. KBO에서 각 수비 포지션에 따른 보정수치는 Table 1과 같다. \begin{table}[!ht] \renewcommand{\arraystretch}{0.75} \begin{center} {\small \caption{Position adjustment scale (KBO)} \label{tb2} {\tabcolsep=18pt \begin{tabular}{cc} \hline\hline Position & Adjustment scale\\ \hline 포수 (Catcher) & +10 runs \\ 1루수 (First base) & -10 runs \\ 2루수 (Second base) & +2 runs \\ 3루수 (Third base) & +2 runs \\ 유격수 (Shortstop) & +6 runs \\ 좌익수 (Left field) & -6 runs \\ 중견수 (Center field) & +2 runs \\ 우익수 (Right field) & -6 runs \\ 지명타자 (Designated Hitter) & -14 runs \\ \hline \end{tabular} }} \end{center} \end{table}
Runs per win은 1승에 해당되는 득점 수로써, 피타고리안 승률 (Phythagorean Winning Percentage) 개념에 의해 계산되어진다. 따라서 대략적으로 10점=1승으로 계산된다. \begin{align} Phythagoran\ Winning\ Percentage=RS^2/(RS^2+RA^2) \nonumber \end{align} \begin{center} {\scriptsize (RS: 팀득점, RA: 팀실점)} \end{center} 위와 같이 $WAR_1$은 많은 세이버메트릭스 통계량을 이용한 계산으로 일반적인 선수들의 기본 기록 수치로는 상당히 복잡하고 구하기가 어렵다. 따라서 본 연구에서는 KBreport에 제시되어 있는 세이버메트릭스를 사용하여 $WAR_1$에 가장 근접한 타자의 타격능력지수를 제안하는 것이 목적이다.
2) 선발투수의 WAR ($WAR_2$)
$WAR_2$를 산출하는 방식은 조정 실점 (Adjusted RA) 산출, 1승당 필요한 점수 (Runs to Win), 기대승률 산출 등의 복잡한 과정을 거쳐서 정의된다. 식은 다음과 같다. \begin{align} WAR_2=(Expected\%-0.38)\times IP/9 \end{align} 식 2에서 투수의 기대승률 (Expected\%)은 다음과 같이 정의된다. \begin{align*} Expected\% = (Adjusted\ RA-RA/9)/Runs\ to\ Win +0.5 \end{align*} 기대승률에서 조정 실점 값 (Adjusted RA)은 구장효과 (Park factor), 팀 수비능력 등을 고려한 중립적인 평균 실점 값과 리그평균 자책점과 리그평균 실점의 비를 나눈 값으로 아래의 식과 같다. \begin{align*} Adjusted RA = FIP/(league ERA:league RA) \end{align*} KBreport에서 조정 실점 값은 수비무관 평균자책점 (Fielding Independent Pitching; FIP)에 기반을 두고 있다. Runs per Win은 특정 투수가 등판했을 때 1승당 필요한 점수로 아래의 식과 같다. \begin{align*} Runs\ per\ Win = (((18-IP)\times Adjusted\ RA/9+IP\times RA/9)+2)\times 1.5 \end{align*} Runs per Win은 한 경기에서 양 팀의 공격이 각각 9이닝씩 총 18이닝이 이루어진다고 보았을 때, 특정 투수가 등판한 이닝에서는 그 선수의 이닝당 실점 값을 적용하고 그 외의 이닝에서는 리그의 평균적인 점수, 즉 앞서 산출한 조정 실점만큼의 점수가 발생했다고 가정하고 1승을 올리기 위한 값을 구한다는 개념이다. 마지막으로 기대승률에 더해지는 0.5는 리그 전체의 평균 승률을 의미한다. 이 과정을 통해 산출한 1승당 점수를 바탕으로 투수의 기대 승률 (Expected\%)이 정의된다. 따라서 $WAR_2$는 기대 승률과 투수의 시즌 투구이닝 (IP)을 종합하여 정의된다.
$WAR_2$ 값을 구하려는 선수마다 실점 값이 다르기 때문에 1승당 필요한 점수와 조정 실점 등의 값을 매번 구해야 한다. 이와 같은 이유로 $WAR_2$ 또한 복잡한 계산식으로 이루어지며 조정 실점 (Adjusted RA)에서 구장별 효과 (Park factor)에 대한 기록이 없기 때문에 구하기가 어렵다. 따라서 본 연구에서는 KBreport에 제시되어 있는 세이버메트릭스를 사용하여 $WAR_2$에 가장 근접한 선발투수의 투수능력지수를 제안하는 것이 목적이다.
본 논문의 2장에서는 연구에 사용된 데이터와 세이버메트릭스 변수에 대한 설명 및 주성분 회귀분석방법을 소개한다. 3장에서는 산술평균, 가중평균, 주성분 회귀분석방법들을 KBO 선수들의 데이터에 적용한다. 3.1절에서는 세 가지 방법 각각 타자의 타격능력지수를 개발하고 $WAR_1$과 비교하여 가장 근접한 지수를 최종으로 선택하여 선수를 평가하는 최종적 지수로 제안하고, 3.2절에서는 세 가지 방법 각각 선발투수의 투수능력지수를 개발하고 $WAR_2$와 비교 후 가장 근접한 지수를 최종적 지수로 제안한다. 3.3절에서는 전향적 연구의 일환으로 2016년 타자들의 데이터를 바탕으로 제안된 타격능력지수에 적용하여 해당연도 최고의 타자를 선출한다. 마지막으로 4장에서는 연구의 결과를 요약하고 결론을 맺는다.
한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 2006년부터 2016년까지 꾸준히 증가 추세를 보이고 있다. 지난해에는 한국프로야구 역사상 가장 최대인 800만 관중을 넘어섰다. 프로야구에 대한 인기가 높아지면서 기록에 대한 중요성과 세이버메트릭스 (Sabermetrics)에 대한 관심도 점점 더 커지고 있다. 세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있고, 이 분야의 중요성은 점차 강조되고 있다 (Kang 등, 2014; Cho 등, 2007). 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermetrician)이라고 부른다 (Hong 등, 2016). 한국프로야구에서도 세이버메트릭스를 통한 연구는 Kim (2012), Lee와 Cho (2009), Lee (2014) 등이 있다. 이는 단순히 스트라이크 수, 볼넷 수 등으로 선수의 능력을 분석하는 것에서 벗어나 보다 실증적인 연구로 선수의 능력을 평가한다는 점에서 야구 경기 분석의 주류로 자리 잡고 있다 (Seung과 Kang, 2012). 세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12개가 있다. 특히, 세이버메트릭스 통계량 중에서 대체선수대비승수인 WAR (Wins above replacement)은 가장 공신력 있는 통계량이고, 미국프로야구 (Major league baseball; MLB)와 KBO에서 선수를 평가함에 있어 가장 많이 사용된다 (http://m.mlb.com/news/article/182980276/best-late-round-picks-in-draft-history/, http://osen.mt.co.kr/article/G1110627260). 실제로 야구 경기 중계 방송 중에도 포지션 별 WAR 수치를 보여주고 있으며, WAR을 포함한 세이버메트릭스 통계량을 활용하여 선수들의 연봉추정 모형을 제시한 연구도 진행된 바 있다 (Chang과 Zenilman; 2013). 이러한 WAR의 가장 큰 장점은 투수와 타자 등 모든 포지션의 선수의 어떤 행위도 철저하게 득점과 승리를 위한 수단으로 바라보아 승리 기여도라는 단 하나의 숫자로 표현해 주는 것으로 서로 다른 구단, 다른 포지션의 선수들과 비교가 가능하다. 먼저 $WAR$은 다음과 같이 정의된다 (http://www.kbreport.com/statDic/detail?seq=22\&contentsType=a304).
$WAR_1$은 선수의 공격능력 (Batting runs)과 주루능력 (Base running runs), 수비능력 (Fielding runs), 포지션 조정 (Positional adjustment)의 합을 1승에 해당하는 득점 (Runs per win)으로 나눈 값으로 선수의 능력을 종합적으로 나타낸다는 점에서 큰 장점을 가진다. Batting runs는 타자의 공격능력을 나타내는 지표이며, wOBA (weight On Base Average)를 기반으로 하는 wRAA (weighted Runs Above Average)를 사용한다. wRAA를 구하는 식은 아래와 같다. \begin{align} wRAA=\frac{wOBA-league wOBA}{wOBA scale} \times PA \nonumber \end{align} Base running은 크게 도루능력과 그 외 상황에서의 진루능력으로 나눌 수 있으며 이를 나타내는 지표는 wSB(Weighted Stolen Base Runs) 과 UBR(Ultimate Base Running)이다. 그리고, 이를 합한 후 승리기여도의 지표로 표시한 것이 WAR에 포함된다. UBR은 Fangraph에서 자체적으로 개발한 통계량으로 복잡한 계산과 보정이 들어가는 지표이며, 현재 KBreport에서는 wSB만 사용되고 있다. wSB는 아래의 식과 같다. \begin{align} wSB = SB \times rusSB + CS \times runCS – lgwSB \times (1B + BB + HBP – IBB) \nonumber \end{align} {\scriptsize (SB: 도루, runSB: 도루의 득점기여도, CS: 도루실패, runCS: 도루실패의 득점기여도, lgwSB: 리그평균 wSB)} Fielding은 수비능력을 나타내는 지표로써 일반적으로 공격지표보다 측정하기 어렵다. 이유로는 크게 세 가지가 있다. 첫 번째, 수비 포지션이 제각각이며 플라이, 땅볼, 직선타구 등의 여러 상황이 발생할 수 있다. 두 번째, 상황을 기록하는 기록원의 주관이 들어갈 여지가 있으며 포수의 수비능력을 측정하지 못한다. 세 번째, 수비지표는 연간 편차가 너무 크다. 수비 지표 계산방법은 UZR (Ultimate Zone Rating) 등 여러 가지가 제시되고 있으나 (Piette와 Jensen; 2011), 앞선 이유들로 KBreport에서는 현재 WAR에 수비지표를 포함하지 않는다. 따라서 본 연구에서도 수비능력은 제외하여 분석한다. Positional adjustment는 수비의 득점기여도를 따질 때 수비포지션에 따라 기여도가 다른 것을 보정하기 위한 상수 값이다. KBO에서 각 수비 포지션에 따른 보정수치는 Table 1과 같다. \begin{table}[!ht] \renewcommand{\arraystretch}{0.75} \begin{center} {\small \caption{Position adjustment scale (KBO)} \label{tb2} {\tabcolsep=18pt \begin{tabular}{cc} \hline\hline Position & Adjustment scale\\ \hline 포수 (Catcher) & +10 runs \\ 1루수 (First base) & -10 runs \\ 2루수 (Second base) & +2 runs \\ 3루수 (Third base) & +2 runs \\ 유격수 (Shortstop) & +6 runs \\ 좌익수 (Left field) & -6 runs \\ 중견수 (Center field) & +2 runs \\ 우익수 (Right field) & -6 runs \\ 지명타자 (Designated Hitter) & -14 runs \\ \hline \end{tabular} }} \end{center} \end{table}
Runs per win은 1승에 해당되는 득점 수로써, 피타고리안 승률 (Phythagorean Winning Percentage) 개념에 의해 계산되어진다. 따라서 대략적으로 10점=1승으로 계산된다. \begin{align} Phythagoran\ Winning\ Percentage=RS^2/(RS^2+RA^2) \nonumber \end{align} \begin{center} {\scriptsize (RS: 팀득점, RA: 팀실점)} \end{center} 위와 같이 $WAR_1$은 많은 세이버메트릭스 통계량을 이용한 계산으로 일반적인 선수들의 기본 기록 수치로는 상당히 복잡하고 구하기가 어렵다. 따라서 본 연구에서는 KBreport에 제시되어 있는 세이버메트릭스를 사용하여 $WAR_1$에 가장 근접한 타자의 타격능력지수를 제안하는 것이 목적이다.
2) 선발투수의 WAR ($WAR_2$)
$WAR_2$를 산출하는 방식은 조정 실점 (Adjusted RA) 산출, 1승당 필요한 점수 (Runs to Win), 기대승률 산출 등의 복잡한 과정을 거쳐서 정의된다. 식은 다음과 같다. \begin{align} WAR_2=(Expected\%-0.38)\times IP/9 \end{align} 식 2에서 투수의 기대승률 (Expected\%)은 다음과 같이 정의된다. \begin{align*} Expected\% = (Adjusted\ RA-RA/9)/Runs\ to\ Win +0.5 \end{align*} 기대승률에서 조정 실점 값 (Adjusted RA)은 구장효과 (Park factor), 팀 수비능력 등을 고려한 중립적인 평균 실점 값과 리그평균 자책점과 리그평균 실점의 비를 나눈 값으로 아래의 식과 같다. \begin{align*} Adjusted RA = FIP/(league ERA:league RA) \end{align*} KBreport에서 조정 실점 값은 수비무관 평균자책점 (Fielding Independent Pitching; FIP)에 기반을 두고 있다. Runs per Win은 특정 투수가 등판했을 때 1승당 필요한 점수로 아래의 식과 같다. \begin{align*} Runs\ per\ Win = (((18-IP)\times Adjusted\ RA/9+IP\times RA/9)+2)\times 1.5 \end{align*} Runs per Win은 한 경기에서 양 팀의 공격이 각각 9이닝씩 총 18이닝이 이루어진다고 보았을 때, 특정 투수가 등판한 이닝에서는 그 선수의 이닝당 실점 값을 적용하고 그 외의 이닝에서는 리그의 평균적인 점수, 즉 앞서 산출한 조정 실점만큼의 점수가 발생했다고 가정하고 1승을 올리기 위한 값을 구한다는 개념이다. 마지막으로 기대승률에 더해지는 0.5는 리그 전체의 평균 승률을 의미한다. 이 과정을 통해 산출한 1승당 점수를 바탕으로 투수의 기대 승률 (Expected\%)이 정의된다. 따라서 $WAR_2$는 기대 승률과 투수의 시즌 투구이닝 (IP)을 종합하여 정의된다.
$WAR_2$ 값을 구하려는 선수마다 실점 값이 다르기 때문에 1승당 필요한 점수와 조정 실점 등의 값을 매번 구해야 한다. 이와 같은 이유로 $WAR_2$ 또한 복잡한 계산식으로 이루어지며 조정 실점 (Adjusted RA)에서 구장별 효과 (Park factor)에 대한 기록이 없기 때문에 구하기가 어렵다. 따라서 본 연구에서는 KBreport에 제시되어 있는 세이버메트릭스를 사용하여 $WAR_2$에 가장 근접한 선발투수의 투수능력지수를 제안하는 것이 목적이다.
본 논문의 2장에서는 연구에 사용된 데이터와 세이버메트릭스 변수에 대한 설명 및 주성분 회귀분석방법을 소개한다. 3장에서는 산술평균, 가중평균, 주성분 회귀분석방법들을 KBO 선수들의 데이터에 적용한다. 3.1절에서는 세 가지 방법 각각 타자의 타격능력지수를 개발하고 $WAR_1$과 비교하여 가장 근접한 지수를 최종으로 선택하여 선수를 평가하는 최종적 지수로 제안하고, 3.2절에서는 세 가지 방법 각각 선발투수의 투수능력지수를 개발하고 $WAR_2$와 비교 후 가장 근접한 지수를 최종적 지수로 제안한다. 3.3절에서는 전향적 연구의 일환으로 2016년 타자들의 데이터를 바탕으로 제안된 타격능력지수에 적용하여 해당연도 최고의 타자를 선출한다. 마지막으로 4장에서는 연구의 결과를 요약하고 결론을 맺는다.
Wins above replacement (WAR) is the most common statistics used among many sabermetrics that measure baseball players' abilities. The advantage of a WAR is that it enables to compare performances of players even though they have different roles such as pitcher and hitter. However it is difficult to ...
Wins above replacement (WAR) is the most common statistics used among many sabermetrics that measure baseball players' abilities. The advantage of a WAR is that it enables to compare performances of players even though they have different roles such as pitcher and hitter. However it is difficult to obtain common records because WAR is complicate sabermetrics statistics. Thus, in this paper, we propose the ability index of batting and starting pitcher which is closest to the WAR. We used the data of batter and pitcher which are posted on KBreport records from 2013 to 2016. 14 and 17 sabermetrics statistics were used for batter and pitcher, respectively. As the analysis method, arithmetic mean, weighted mean, principal component analysis and regression analysis by principal component analysis were applied.
The batting ability index of batter was compared with $WAR_1$. Principal component regression method ($ r = 0.944, p <0.0001 $) was presented as the closest approach to the $WAR_1$ and suggested as the final batting ability index (BAI). Also, the starting pitcher ability index was compared with $WAR_2$. Principal component regression method ($ r = 0.941, p <0.0001 $) was presented as the closest approach to the $WAR_2$ and suggested as the final starting pitcher ability index (SPAI). Finally, as a part of prospective study, we computed BAI applying batter data of 2016 and the correlation coefficient between BAI and $ WAR_1 $ was 0.935 which was close to the previous result (r = 0.944).
BAI is an index that evaluates the batting ability of the batter to reflect batting ability (BA), quality of batting (QB) and running ability (RA). And SPAI is an index that evaluates the starting pitcher ability to reflect Hit Suppression Ability (HSA), Control Ability (CA), Long hit Suppression Ability (LSA) and Quality of Pitching (QP). So we can calculate BAI and SPAI more easily and simply than WAR complicately calculated including sabermetrics statistics. Therefore, the BAI and SPAI indexes will be helpful in evaluating players objectively and understanding baseball games.
Wins above replacement (WAR) is the most common statistics used among many sabermetrics that measure baseball players' abilities. The advantage of a WAR is that it enables to compare performances of players even though they have different roles such as pitcher and hitter. However it is difficult to obtain common records because WAR is complicate sabermetrics statistics. Thus, in this paper, we propose the ability index of batting and starting pitcher which is closest to the WAR. We used the data of batter and pitcher which are posted on KBreport records from 2013 to 2016. 14 and 17 sabermetrics statistics were used for batter and pitcher, respectively. As the analysis method, arithmetic mean, weighted mean, principal component analysis and regression analysis by principal component analysis were applied.
The batting ability index of batter was compared with $WAR_1$. Principal component regression method ($ r = 0.944, p <0.0001 $) was presented as the closest approach to the $WAR_1$ and suggested as the final batting ability index (BAI). Also, the starting pitcher ability index was compared with $WAR_2$. Principal component regression method ($ r = 0.941, p <0.0001 $) was presented as the closest approach to the $WAR_2$ and suggested as the final starting pitcher ability index (SPAI). Finally, as a part of prospective study, we computed BAI applying batter data of 2016 and the correlation coefficient between BAI and $ WAR_1 $ was 0.935 which was close to the previous result (r = 0.944).
BAI is an index that evaluates the batting ability of the batter to reflect batting ability (BA), quality of batting (QB) and running ability (RA). And SPAI is an index that evaluates the starting pitcher ability to reflect Hit Suppression Ability (HSA), Control Ability (CA), Long hit Suppression Ability (LSA) and Quality of Pitching (QP). So we can calculate BAI and SPAI more easily and simply than WAR complicately calculated including sabermetrics statistics. Therefore, the BAI and SPAI indexes will be helpful in evaluating players objectively and understanding baseball games.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.