야구선수들의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 대체선수대비승수 (WAR)은 가장 많이 사용되는 통계량이다. WAR의 장점은 투수와 타자처럼 서로 다른 포지션임에도 불구하고 선수들의 WAR을 비교할 수 있다는 점이다. 하지만 WAR은 복잡한 형태로 일반적으로 제공되는 기록만으로 구하기 어렵다. 따라서 본 논문에서는 지난 3년간 (2014-2016년) 한국프로야구 기록 자료를 바탕으로 세이버메트릭스 변수를 계산한 뒤, 이를 이용하여 WAR을 대체할 수 있는 선발투수능력지수를 제안한다. 선발투수능력지수는 산술평균방법, 가중평균방법, 주성분회귀분석 등을 통해 산출한 뒤, WAR과 비교하여 가장 관계가 높은 방법을 선택하였다. 이는 선발투수의 능력을 파악하는데 유용하게 사용될 것이다.
야구선수들의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 대체선수대비승수 (WAR)은 가장 많이 사용되는 통계량이다. WAR의 장점은 투수와 타자처럼 서로 다른 포지션임에도 불구하고 선수들의 WAR을 비교할 수 있다는 점이다. 하지만 WAR은 복잡한 형태로 일반적으로 제공되는 기록만으로 구하기 어렵다. 따라서 본 논문에서는 지난 3년간 (2014-2016년) 한국프로야구 기록 자료를 바탕으로 세이버메트릭스 변수를 계산한 뒤, 이를 이용하여 WAR을 대체할 수 있는 선발투수능력지수를 제안한다. 선발투수능력지수는 산술평균방법, 가중평균방법, 주성분회귀분석 등을 통해 산출한 뒤, WAR과 비교하여 가장 관계가 높은 방법을 선택하였다. 이는 선발투수의 능력을 파악하는데 유용하게 사용될 것이다.
Wins above replacement (WAR) is the most commonly used statistics of the many sabermetrics that measure baseball players' abilities. The advantage of a WAR is that it enables to compare performances of players even though they have different roles such as pitcher and hitter. However, WAR is difficul...
Wins above replacement (WAR) is the most commonly used statistics of the many sabermetrics that measure baseball players' abilities. The advantage of a WAR is that it enables to compare performances of players even though they have different roles such as pitcher and hitter. However, WAR is difficult to obtain with common records. Thus, in this paper, we have calculated the sabermetrics variable based on Korean professional baseball records for the past three years (2014-2016). Using these variables, we suggest starting pitcher ability index that can replace WAR. Starting pitcher ability index was calculated by means of arithmetic mean, weighted average and principal component regression. Then, compared to the WAR, the most relevant method was selected, which would be useful to identify for the starting pitcher ability.
Wins above replacement (WAR) is the most commonly used statistics of the many sabermetrics that measure baseball players' abilities. The advantage of a WAR is that it enables to compare performances of players even though they have different roles such as pitcher and hitter. However, WAR is difficult to obtain with common records. Thus, in this paper, we have calculated the sabermetrics variable based on Korean professional baseball records for the past three years (2014-2016). Using these variables, we suggest starting pitcher ability index that can replace WAR. Starting pitcher ability index was calculated by means of arithmetic mean, weighted average and principal component regression. Then, compared to the WAR, the most relevant method was selected, which would be useful to identify for the starting pitcher ability.
주제어
문제 정의
2 . 연구방법
2절에서는 분석된 결과를 가지고 WAR과 비교하여 가장 근접한 방법을 찾는다. 3.3절에서는 WAR 과 가장 근접한 지수를 선발투수능력지수로 제안한다.
FIP (수비 무관 평균자책점) 투수가 전적으로 책임지는 지표만을 대상으로 고안한 스탯으로, ERA 보다 연도별 변동성도 적고 따라서 예측력도 높은 편이다. cFIP는 FIP값이 ERA와 유사한 범위를 갖도록 고안된 상수값이다.
GO/AO (땅볼-뜬공 비율) 땅볼과 뜬공의 비율을 말한다. GO는 땅볼 AO는 뜬공이다.
PFR (파워-기교 비율) 스트라이크와 볼넷의 합을 이닝수로 나눈 값이다. 이 값이 높을수록 투수가 던진 공이 페어그라운드 안으로 떨어져서 안타나 땅볼 혹은 뜬공이 되는 경우가 적음을 알 수 있다.
FIP (수비 무관 평균자책점) 투수가 전적으로 책임지는 지표만을 대상으로 고안한 스탯으로, ERA보다 연도별 변동성도 적고 따라서 예측력도 높은 편이다. cFIP는 FIP값이 ERA 와 유사한 범위를 갖도록 고안된 상수값이다.
oAVG (피안타율) 상대한 모든 타자들과의 대결에서 안타를 허용한 비율을 의미한다.
oSLG (피장타율) 본래는 타자에게 적용하는 지표인 장타율을 투수를 기준으로 적용한 지표이다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
먼저 산술평균의 상위 10명과 WAR의 상위 10명을 비교했을 때 8명이 동일한 상위권으로 나타났다. 가중평균의 상위 10명과 WAR의 상위 10명을 비교했을 때는 5 명의 선수가 상위권으로 나타났다. 마지막 주성분회귀분석의 경우 상위 10명이 WAR의 상위 10명과 비교했을 때 8명의 선수가 상위권으로 나왔으며 1등이 산술평균과 가중평균 결과와 동일하게 벤덴헐크 (Rick VandenHurk)으로 나타났다.
이 과정을 통해 산출한 1승당 점수를 바탕으로 투수의 기대 승률 (Expected%)이 정의된다. 따라서 WAR은 기대 승률과 투수의 시즌 투구이닝 (IP) 을 종합하여 정의된다. 이와 같이 WAR (1.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
본 연구에서는 KBO 자료로부터 구한 세이버메트릭스 통계량들을 산술평균, 가중평균, 주성분회귀분석 방법을 적용한 뒤 WAR과 비교하여 상관계수가 가장 높은 방법을 채택하고, 최종적으로 선발투수능력지수 (Starting pitcher ability index; SPAI) 로 제안한다. 데이터는 케이비레포트 (www.
세이버메트릭스 변수들 간에 값의 차이가 크기 때문에 표준화를 시킨 후, 작을수록 뛰어난 능력을 나타내는 변수 (ERA, FIP, WHIP, BB/9, HR/9, BABIP, oAVG, oOBP, oSLG, H/9, Ground%, Fly%)들의 경우 -1을 곱해 분석 하였다. 따라서 산술평균에 의해 얻어진 선발투수능력지수 (AV GP 1) 는 다음과 같다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
000)로 가장 근접하고 효율적인 분석방법으로 나타났다. 따라서 주성분분석을 이용하여 총 17개의 변수를 4개의 주성분 변수 (HSA, CA, LSA, QP) 로 축약하고 이를 통해 최종 선발투수능력지수를 제안한다. 식 (3.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
가중평균의 상위 10명과 WAR의 상위 10명을 비교했을 때는 5명의 선수가 상위권으로 나타났다. 마지막 주성분회귀분석의 경우 상위 10명이 WAR의 상위 10명과 비교했을 때 8명의 선수가 상위권으로 나왔으며 1등이 산술평균과 가중평균 결과와 동일하게 벤덴헐크 (Rick VandenHurk) 으로 나타났다. 정확한 비교를 위해 상관분석을 실시한 결과 WAR과 산술평균 사이에는 상관계수 값이 0.
제1주성분의 고유치는 6.809이고 제2주성분은 4 .404, 제3주성분은 2.
Expected% = (Adjusted RA − RA/9)/Runs per Win + 0.5 . (1.
4를 보면 WAR과 다소 차이를 보인다. 먼저 산술평균의 상위 10명과 WAR의 상위 10명을 비교했을 때 8 명이 동일한 상위권으로 나타났다. 가중평균의 상위 10명과 WAR의 상위 10명을 비교했을 때는 5명의 선수가 상위권으로 나타났다.
세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있다. 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermatrician)이라고 부른다 (Hong 등, 2016).
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
I인 확률오차벡터이다 (Bae 등, 2012). 식 (2.1)에서 추정된 y값을 선발투수능력지수로 두고 WAR 과 비교한다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있다. 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermatrician)이라고 부른다 (Hong 등, 2016).
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
본 연구에서는 한국프로야구 선발투수의 능력을 파악하는 지수를 개발 및 제안하기 위해 17 개의 세이버메트릭스 통계량을 이용해서 산술평균방법과 가중평균방법, 주성분 분석방법을 적용하였다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있다. 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermatrician)이라고 부른다 (Hong 등, 2016).
com) 기록실에 게시되어있는 데이터를 이용하였다. 변수는 자주 사용되고 있는 경기력 지수들에 활용되고 있는 개인기록들을 참고하고 (Lee, 2014), 기록 수집 가능 여부를 고려하여 선정하였다 (Lee, 2014) . 분석에 사용된 세이버메트릭스 변수는 다음과 같다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
000)로 가장 근접하고 효율적인 분석방법으로 나타났다. 따라서 주성분분석을 이용하여 총 17개의 변수를 4개의 주성분 변수 (HSA, CA, LSA, QP) 로 축약하고 이를 통해 최종 선발투수능력지수를 제안한다. 식 (3.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다. 지난해에는 한국프로야구 역사상 가장 최대인 800 만 관중을 넘어섰다. 프로야구에 대한 관심이 높아지면서 야구기록에 대한 중요성과 세이버메트릭스 (Sabermatrics)에 대한 관심도 점점 더 커지고 있다.
케이비레포트에서 조정 실점 값은 수비무관 평균자책점 (fielding independent pitching; FIP) 에 기반을 두고 있다. Runs per win은 특정 투수가 등판했을 때 1승당 필요한 점수로 아래의 식과 같다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
본 연구에서는 한국프로야구 선발투수의 능력을 파악하는 지수를 개발 및 제안하기 위해 17개의 세이버메트릭스 통계량을 이용해서 산술평균방법과 가중평균방법, 주성분 분석방법을 적용하였다.
대상 데이터
WHIP (이닝 당 출루 허용) 투수가 한 이닝당 얼마나 많은 주자를 출루시키는지를 나타내는 지표로 1.1이하의 WHIP 수치를 보이는 투수를 특급 투수로 간주할 수 있다.
본 연구에서는 KBO 자료로부터 구한 세이버메트릭스 통계량들을 산술평균, 가중평균, 주성분회귀분석 방법을 적용한 뒤 WAR과 비교하여 상관계수가 가장 높은 방법을 채택하고, 최종적으로 선발투수능력지수 (Starting pitcher ability index; SPAI)로 제안한다. 데이터는 케이비레포트 (www.kbreport. com) 기록실에 있는 자료를 이용하였고, 최근 선발투수의 능력을 분석하기 위한 일환으로 지난 3년간 (2014-2016) 의 데이터를 사용하였다.
본 연구에서는 KBO 자료로부터 구한 세이버메트릭스 통계량들을 산술평균, 가중평균, 주성분회귀분석 방법을 적용한 뒤 WAR과 비교하여 상관계수가 가장 높은 방법을 채택하고, 최종적으로 선발투수능력지수 (Starting pitcher ability index; SPAI)로 제안한다. 데이터는 케이비레포트 (www.kbreport. com) 기록실에 있는 자료를 이용하였고, 최근 선발투수의 능력을 분석하기 위한 일환으로 지난 3년간 (2014-2016)의 데이터를 사용하였다.
이를 바탕으로 유사한 관계에 있는 변수들을 같은 그룹으로 분류하였다. 따라서 17개의 변수를 표준화 시키고 작을수록 뛰어난 능력을 나타내는 변수 (ERA, FIP, WHIP, BB/9, HR/9, BABIP, oAVG, oOBP, oSLG, H/9, Ground%, Fly%)들의 경우 -1을 곱해 6 개의 그룹으로 나누었다. 첫 번째 그룹은 실점에 관련된 변수 (ERA, WHIP, BABIP, oAVG, oOBP, H/9)로 묶었고, 두 번째 그룹은 장타 (FIP, HR/9, oSLG), 세 번째 그룹은 제구 (K/BB, BB/9), 네 번째 그룹은 땅볼유도 (Fly%, Ground%, GO/AO), 다섯 번째 그룹은 스트라이크 능력 (K/9, PFR), 여섯 번째 그룹은 이닝당 투구수를 나타내는 P/IP이다.
첫 번째 그룹은 실점에 관련된 변수 (ERA, WHIP, BABIP, oAVG, oOBP, H/9)로 묶었고, 두 번째 그룹은 장타 (FIP, HR/9, oSLG), 세 번째 그룹은 제구 (K/BB, BB/9), 네 번째 그룹은 땅볼유도 (Fly%, Ground%, GO/AO), 다섯 번째 그룹은 스트라이크 능력 (K/9, PFR), 여섯 번째 그룹은 이닝당 투구수를 나타내는 P/IP이다. 따라서 가중평균에 의해 얻어진 선발투수능력지수 (wAV GP 2) 는 다음과 같다.
산술평균을 사용하는 경우에는 모든 변수들이 같은 가중치를 가지기 때문에 비슷한 성향의 변수인 oSLG, HR/9나, oAVG, H/9 등의 변수 값이 높은 경우 높은 점수를 받을 것이다. 따라서 이러한 문제점을 보완하기 위해 상관계수를 활용한 가중평균을 이용하였다.
이는 단순히 스트라이크 수, 볼넷 수 등으로 선수의 능력을 분석하는 것에서 벗어나 보다 실증적인 연구로 선수의 능력을 평가한다는 점에서 야구 경기 분석의 주류로 자리 잡고 있다 (Seung과 Kang, 2012). 세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12 개가 있다. 특히, 세이버메트릭스 통계량 중에서 대체선수대비승수인 WAR (wins above replacement)은 가장 공신력 있는 통계량이고, 미국프로야구 (major league baseball; MLB)와 KBO에서 선수를 평가함에 있어 가장 많이 사용된다 (http://m.
식 (1.1)에서 투수의 기대승률 (Expected%) 은 다음과 같이 정의된다.
kr/article/G1110627260). 실제로 야구 경기 중계 방송 중에도 포지션 별 WAR 수치를 보여주고 있으며, WAR을 포함한 세이버메트릭스 통계량을 활용하여 선수들의 연봉추정 모형을 제시한 연구도 진행된 바 있다 (Chang과 Zenilman; 2013) . 이러한 WAR의 가장 큰 장점은 투수와 타자 등 모든 포지션의 선수의 어떤 행위도 철저하게 득점과 승리를 위한 수단으로 바라보아 승리기여도라는 단 하나의 숫자로 표현해 주는 것으로 서로 다른 구단, 다른 포지션의 선수들과 비교가 가능하다.
한국프로야구에서도 세이버메트릭스를 통한 연구는 Kim (2012), Lee와 Cho (2009), Lee (2014) 등이 있다. 이는 단순히 스트라이크 수, 볼넷 수 등으로 선수의 능력을 분석하는 것에서 벗어나 보다 실증적인 연구로 선수의 능력을 평가한다는 점에서 야구 경기 분석의 주류로 자리 잡고 있다 (Seung과 Kang, 2012) . 세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12개가 있다.
417에 달한다. 이는 투고타저 시즌인 2005년 ERA (3.744) 에 비해 상당히 높게 나타난 것을 알 수 있다. 결국 투수가 일정하게 던지더라도 상대편의 타자가 얼마나 잘 치느냐에 따라 값이 크게 달라질 수도 있다는 것을 의미한다.
이를 바탕으로 본 연구에서는 고유치가 1이상의 값을 가지는 총 4개의 변수로 축약하였다. 제1주성분의 고유치는 6.809이고 제2주성분은 4.404, 제3주성분은 2.228, 제4주성분은 1.871 의 값을 가졌다. 축약된 4개의 변수가 가지는 누적 설명력은 90.
따라서 17개의 변수를 표준화 시키고 작을수록 뛰어난 능력을 나타내는 변수 (ERA, FIP, WHIP, BB/9, HR/9, BABIP, oAVG, oOBP, oSLG, H/9, Ground%, Fly%)들의 경우 -1을 곱해 6개의 그룹으로 나누었다. 첫 번째 그룹은 실점에 관련된 변수 (ERA, WHIP, BABIP, oAVG, oOBP, H/9)로 묶었고, 두 번째 그룹은 장타 (FIP, HR/9, oSLG), 세 번째 그룹은 제구 (K/BB, BB/9), 네 번째 그룹은 땅볼유도 (Fly%, Ground%, GO/AO), 다섯 번째 그룹은 스트라이크 능력 (K/9, PFR), 여섯 번째 그룹은 이닝당 투구수를 나타내는 P/IP 이다. 따라서 가중평균에 의해 얻어진 선발투수능력지수 (wAV GP 2)는 다음과 같다.
세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12개가 있다. 특히, 세이버메트릭스 통계량 중에서 대체선수대비승수인 WAR (wins above replacement)은 가장 공신력 있는 통계량이고, 미국프로야구 (major league baseball; MLB)와 KBO에서 선수를 평가함에 있어 가장 많이 사용된다 (http://m.mlb.com/news/article/182980276/best-late-round-picks-in-draft-history/, http://osen. mt.co.kr/article/G1110627260) . 실제로 야구 경기 중계 방송 중에도 포지션 별 WAR 수치를 보여주고 있으며, WAR을 포함한 세이버메트릭스 통계량을 활용하여 선수들의 연봉추정 모형을 제시한 연구도 진행된 바 있다 (Chang과 Zenilman; 2013).
따라서 본 논문에서 제안한 SPAI 또한 완벽하게 선발투수의 능력을 파악하기는 힘들다. 하지만 SPAI는 투수의 안타억제능력 (HSA), 제구능력 (CA), 장타억제능력 (LSA), 투구의 구질 (QP) 4 가지를 반영하여 투수의 능력을 파악하는 지수로써 투수가 가져야할 역량을 보다 쉽게 계산할 수 있다. 이를 통해 투수의 능력을 쉽게 파악하여 경기 전략을 짜고, 연봉 협상시 하나의 지표로 적절한 연봉을 매기는데 도움이 될 것이다.
p>한국프로야구 (Korea baseball organization; KBO) 의 연 관중 수는 꾸준히 증가 추세를 보이고 있다. 지난해에는 한국프로야구 역사상 가장 최대인 800만 관중을 넘어섰다.
성능/효과
3.1절에서 산술평균, 가중평균 그리고 주성분회귀분석을 통해 선발투수의 능력을 평가 할 수 있는 지수를 만들었다. 이 결과들을 바탕으로 총 39명의 투수들로부터 WAR과 세가지 방법에 따른 상위 10명의 점수 값과 순위를 비교한 결과는 다음과 같다.
1절에서는 변수들의 단위가 차이나기 때문에 표준화를 시키고 작을수록 뛰어난 능력을 나타내는 변수 (ERA, FIP, WHIP, BB/9, HR/9, BABIP, oAVG, oOBP, oSLG, H/9, Ground%, Fly%)들은 -1을 곱하여 산술평균, 가중평균, 주성분회귀분석을 실시한다. 3.2절에서는 분석된 결과를 가지고 WAR 과 비교하여 가장 근접한 방법을 찾는다. 3.
하지만 SPAI는 투수의 안타억제능력 (HSA), 제구능력 (CA), 장타억제능력 (LSA), 투구의 구질 (QP) 4가지를 반영하여 투수의 능력을 파악하는 지수로써 투수가 가져야할 역량을 보다 쉽게 계산할 수 있다. 이를 통해 투수의 능력을 쉽게 파악하여 경기 전략을 짜고, 연봉 협상시 하나의 지표로 적절한 연봉을 매기는데 도움이 될 것이다 .
BABIP (인플레이 타구 피안타율) ‘Batting average on balls in play’의 약자로 인플레이로 이어진 타구에 대한 타율을 계산하는 용어로 타자와 투수 모두에 적용할 수 있다.
Runs per win은 한 경기에서 양 팀의 공격이 각각 9이닝씩 총 18이닝이 이루어진다고 보았을 때, 특정 투수가 등판한 이닝에서는 그 선수의 이닝당 실점 값을 적용하고 그 외의 이닝에서는 리그의 평균적인 점수, 즉 앞서 산출한 조정 실점만큼의 점수가 발생했다고 가정하고 1 승을 올리기 위한 값을 구한다는 개념이다. 마지막으로 기대승률에 더해지는 0.
본 논문은 선발투수의 능력을 파악하기 위한 선발투수능력지수를 제안하였다. WAR은 MLB 뿐만 아니라 KBO 에서 투수의 능력을 파악하는데 가장 공신력 있는 통계량이다. 하지만 WAR은 구하기 어려 운 세이버메트릭스 통계량이 포함되어 있어 기본적으로 제공되는 기록만으로는 산출하기가 어렵다는 문제점을 가진다.
WAR을 산출하는 방식은 조정 실점 (Adjusted RA) 산출, 1승당 필요한 점수 (Runs to Win), 기대 승률 산출 등의 복잡한 과정을 거쳐서 정의된다. 식은 다음과 같다.
oOBP (피출루율) 타율, 장타율과 함께 타자에게 적용하는 지표지만 투수를 기준으로도 적용이 가능하다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
본 논문은 선발투수의 능력을 평가하는데 있어 WAR과 가장 근접한 방법을 찾기 위해 산술평균방법, 가중평균방법, 주성분 회귀분석 방법을 이용하였다. 각 방법으로부터 얻은 값과 WAR을 비교한 결과 주성분 회귀모형 (PRINP3 )의 상관계수가 0.941 (p = 0.000) 로 가장 근접하고 효율적인 분석방법으로 나타났다. 따라서 주성분분석을 이용하여 총 17개의 변수를 4개의 주성분 변수 (HSA, CA, LSA, QP)로 축약하고 이를 통해 최종 선발투수능력지수를 제안한다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
기대승률에서 조정 실점 값 (adjusted RA)은 구장효과 (park factor), 팀 수비능력 등을 고려한 중립적인 평균 실점 값과 리그평균 자책점과 리그평균 실점의 비를 나눈 값으로 아래의 식과 같다.
000)으로 가장 높게 나온 것을 확인 할 수 있었다. 따라서 WAR과 세가지방법을 비교한 결과 가장 큰 상관계수를 가지는 PRINP3 가 최종 선발투수능력지수로 적합하다고 판단하였다.
세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12개가 있다. 특히, 세이버메트릭스 통계량 중에서 대체선수대비승수인 WAR (wins above replacement)은 가장 공신력 있는 통계량이고, 미국프로야구 (major league baseball; MLB)와 KBO에서 선수를 평가함에 있어 가장 많이 사용된다 (http://m.mlb.
그리고 P/IP, BB/9, HR/9 등의 값들은 의미하는 것이 이닝 당 투구수, 9이닝당 볼넷 수, 9이닝당 홈런 수 인데 이는 작을수록 뛰어난 투수임을 나타내는 변수들이다. 따라서 우리는 선발투수능력지수를 제안하기 위해, 3.1절에서는 변수들의 단위가 차이나기 때문에 표준화를 시키고 작을수록 뛰어난 능력을 나타내는 변수 (ERA, FIP, WHIP, BB/9, HR/9, BABIP, oAVG, oOBP, oSLG, H/9, Ground%, Fly%)들은 -1을 곱하여 산술평균, 가중평균, 주성분회귀분석을 실시한다. 3.
011로 모든 회귀계수값이 유의하게 나타났다. 따라서 우리는 선발투수의 능력을 나타내는 지수 PRINP3 와 앞서 구한 AVGP1 과 wAVGP2 를 WAR 과 다음절에서 비교하였다.
하지만 WAR은 구하기 어려 운 세이버메트릭스 통계량이 포함되어 있어 기본적으로 제공되는 기록만으로는 산출하기가 어렵다는 문제점을 가진다. 따라서 우리는 케이비레포트 기록실에 게시되어있는 2014년부터 2016년까지 규정이닝을 만족한 선발투수 데이터를 사용하여 WAR 에 가장 근접한 선발투수능력지수를 제안하고자 하였다. 선발투수의 능력을 살펴볼 수 있는 기본적인 17개의 세이버메트릭스 변수들을 사용하여 산술평균방법과 가중평균방법 그리고 주성분 분석에 의한 회귀분석을 진행하였다.
주성분 분석을 통해 17개의 변수를 4개의 주성분 변수 (HSA, CA, LSA, QP)로 축약하고 주성분 점수를 계산하여 회귀모형을 구하였다. 마지막으로 각 분석 방법을 통해 얻어진 값과 WAR을 비교하여 상관계수가 가장 높은 주성분분석방법 (r = 0.941, p = 0.000)을 채택하여 최종 선발투수능력지수 (SPAI) 로 제안했다. SPAI지수에 따른 선수들의 결과는 Appendix A의 Table A.
선발투수의 능력을 살펴볼 수 있는 기본적인 17개의 세이버메트릭스 변수들을 사용하여 산술평균방법과 가중평균방법 그리고 주성분 분석에 의한 회귀분석을 진행하였다. 먼저 기초통계량을 확인하여 변수의 단위가 다름을 인지하고 표준화를 통해 분석을 진행하였고, 변수의 값이 작을수록 좋은 값인 경우 표준화시킨 값에 -1을 곱해 클수록 좋은 값으로 바꾼 뒤, 산술평균을 구하고 두 번째로 17개의 변수들의 상관관계를 통해 6 개의 그룹으로 나눈 뒤 가중평균을 계산하였다. 그러나 몇몇 변수들 간의 상관관계가 크고 데이터에 비해 변수가 많아 다중공선성의 문제가 발생하기 때문에 세 번째로 주성분 분석을 실시하였다.
먼저 산술평균방법은 총 17개 변수를 표준화하고 낮을수록 좋은 값인 경우 -1을 곱해 산술평균을 구한 뒤, 각 투수들의 능력을 평가하였다. 여기에서는 모든 변수들이 동일한 가중치 (1/n)로 반영이 되었으므로, oAVG와 H/9와 같은 비슷한 능력을 측정하는 경우 이 부분의 값이 큰 투수가 높은 점수를 받을 것이다.
본 논문은 선발투수의 능력을 평가하는데 있어 WAR과 가장 근접한 방법을 찾기 위해 산술평균방법, 가중평균방법, 주성분 회귀분석 방법을 이용하였다. 각 방법으로부터 얻은 값과 WAR을 비교한 결과 주성분 회귀모형 (PRINP3 )의 상관계수가 0.
본 연구는 선발투수의 능력에 관한 연구를 하기 위하여 2014년부터 2016년까지 한국프로야구의 규정이닝을 만족한 투수 60명 중 동일한 선수의 경우 년도별로 서로 연관이 있을 것이라 생각하여 평균값으로 데이터를 종합해 총 39 명의 선수들에 대한 데이터로 분석하였다. 데이터는 케이비레포트 (www.
세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있다. 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermatrician)이라고 부른다 (Hong 등, 2016).
본 연구에서는 한국프로야구 선발투수의 능력을 파악하는 지수를 개발 및 제안하기 위해 17 개의 세이버메트릭스 통계량을 이용해서 산술평균방법과 가중평균방법, 주성분 분석방법을 적용하였다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
식 (3.1)을 계산하여 상위 10명의 순위를 나타낸 결과와 WAR과의 비교는 3.4 절에서 다루도록 한다.
식 (3.2)를 계산하여 상위 10명의 순위를 나타낸 결과와 WAR과의 비교는 3.4 절에서 다루도록 한다. 가중평균을 사용 시 발생할 수 있는 문제점은 데이터의 개수에 비해 변수의 개수가 많아 변수들 간의 다중공선성이 발생할 수 있다.
식 (3.7)에서 계수들의 유의성을 확인해 본 결과 HSA와 CA, QP의 p값이 0.000으로 매우 유의하게 나왔고, LSA의 p값은 0.011 로 모든 회귀계수값이 유의하게 나타났다. 따라서 우리는 선발투수의 능력을 나타내는 지수 PRINP3 와 앞서 구한 AVGP1 과 wAVGP2 를 WAR과 다음절에서 비교하였다.
식 (3.8)과 WAR의 R2 값은 0.885로 뛰어난 설명력을 가지고 있으며, 투수의 WAR 과 가장 근접한 모형이기에 선발투수의 능력을 파악하는데 있어 부족함이 없다고 판단하였다.
3은 주성분 변수에 의해 얻어진 회전된 고유벡터를 나타낸 표이다. 여기서 회전을 시킨 이유는 하나의 원 변수에 부하값이 큰 요인이 2개 이상 존재하여 VARIMAX 방법을 이용하여 요인 회전을 하였다.
먼저 산술평균방법은 총 17개 변수를 표준화하고 낮을수록 좋은 값인 경우 -1을 곱해 산술평균을 구한 뒤, 각 투수들의 능력을 평가하였다. 여기에서는 모든 변수들이 동일한 가중치 (1/n)로 반영이 되었으므로, oAVG와 H/9 와 같은 비슷한 능력을 측정하는 경우 이 부분의 값이 큰 투수가 높은 점수를 받을 것이다. 이러한 단점을 보완하기 위해서 두 번째로 가중평균방법을 이용하였다.
p>한국프로야구 (Korea baseball organization; KBO)의 연 관중 수는 꾸준히 증가 추세를 보이고 있다 .
1절에서 산술평균, 가중평균 그리고 주성분회귀분석을 통해 선발투수의 능력을 평가 할 수 있는 지수를 만들었다. 이 결과들을 바탕으로 총 39명의 투수들로부터 WAR과 세가지 방법에 따른 상위 10 명의 점수 값과 순위를 비교한 결과는 다음과 같다.
kr/article/G1110627260). 실제로 야구 경기 중계 방송 중에도 포지션 별 WAR 수치를 보여주고 있으며, WAR을 포함한 세이버메트릭스 통계량을 활용하여 선수들의 연봉추정 모형을 제시한 연구도 진행된 바 있다 (Chang과 Zenilman; 2013). 이러한 WAR의 가장 큰 장점은 투수와 타자 등 모든 포지션의 선수의 어떤 행위도 철저하게 득점과 승리를 위한 수단으로 바라보아 승리기여도라는 단 하나의 숫자로 표현해 주는 것으로 서로 다른 구단, 다른 포지션의 선수들과 비교가 가능하다.
세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다. 야구의 통계적인 분석, 수학적 분석 또한 세이버메트릭스라고 볼 수 있다. 이와 같은 방법으로 자료 분석하는 사람을 세이버메트릭션 (Sabermatrician)이라고 부른다 (Hong 등, 2016).
이러한 문제를 해결하기 위해 주성분 분석을 통해 변수를 축약하였다. 주성분법 (요인분석, varimax)을 통해 나온 고유치와 누적 설명력을 활용하여 변수를 축약할 수 있는데, 일반적으로 고유치가 1이상이고 누적 설명력이 80 %이상인 주성분을 선택하는 것이 기본이다. 이를 바탕으로 본 연구에서는 고유치가 1이상의 값을 가지는 총 4개의 변수로 축약하였다.
따라서, 이러한 문제를 해결하기 위해서, 본 논문에서는 주성분분석을 통해 주성분변수를 얻어 이를 설명변수로 이용함으로써 다중공선성 문제를 해결하였다 (Oh 등, 2012). 주성분분석에서는 주성분의 개수를 선택할 때, 상관계수행렬을 이용할 시 일반적으로 고유치 값이 1이상인 주성분과 총 변동의 설명력이 80 %이상인 주성분 변수를 선택할 수 있다. 성분 부하 값이 크다는 것은 그에 대응하는 원 변수의 영향이 크다는 것을 의미하므로 성분 부하 값이 큰 변수를 파악하여 주성분의 이름을 부여하면 된다.
수비의 도움도 필요하고 승리를 따내기 위해서는 타자의 도움도 필요하다. 타고투저 현상은 전체적으로 타격이 우세하고 투수가 열세라는 뜻으로 여러 가지 이유가 있지만 투수의 기록 중 ERA에서만 보더라도 평균값이 4.417 에 달한다. 이는 투고타저 시즌인 2005년 ERA (3.
Adjusted RA = FIP/(league ERA : league RA). (1.3)
세이버메트릭스 통계량은 야구 경기 중에도 흔히 볼 수 있는데 KBO 기록실에서 나타내는 통계량은 타자의 경우 공격공헌도 (OPS), 타율 (AVG), 출루율 (OBP), 순수장타율 (ISOP) 등 11개가 있고, 투수의 경우 평균자책점 (ERA), 이닝당 출루율 (WHIP), 피안타율 (oAVG) 등 12개가 있다. 특히, 세이버메트릭스 통계량 중에서 대체선수대비승수인 WAR (wins above replacement)은 가장 공신력 있는 통계량이고, 미국프로야구 (major league baseball; MLB)와 KBO에서 선수를 평가함에 있어 가장 많이 사용된다 (http://m.mlb.
후속연구
지난해에는 한국프로야구 역사상 가장 최대인 800만 관중을 넘어섰다. 프로야구에 대한 관심이 높아지면서 야구기록에 대한 중요성과 세이버메트릭스 (Sabermatrics) 에 대한 관심도 점점 더 커지고 있다. 세이버메트릭스는 야구에 대한 실증적인 분석을 하는 것을 말한다.
질의응답
핵심어
질문
논문에서 추출한 답변
세이버메트릭스 통계량
세이버메트릭스 통계량에서 가장 많이 사용되는 통계량은 무엇인가?
야구선수들의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 대체선수대비승수 (WAR) 은 가장 많이 사용되는 통계량이다. WAR의 장점은 투수와 타자처럼 서로 다른 포지션임에도 불구하고 선수들의 WAR을 비교할 수 있다는 점이다.
WAR
WAR의 가장 큰 장점은 무엇인가?
실제로 야구 경기 중계 방송 중에도 포지션 별 WAR 수치를 보여주고 있으며, WAR을 포함한 세이버메트릭스 통계량을 활용하여 선수들의 연봉추정 모형을 제시한 연구도 진행된 바 있다 (Chang과 Zenilman; 2013). 이러한 WAR의 가장 큰 장점은 투수와 타자 등 모 든 포지션의 선수의 어떤 행위도 철저하게 득점과 승리를 위한 수단으로 바라보아 승리기여도라는 단 하나의 숫자로 표현해 주는 것으로 서로 다른 구단, 다른 포지션의 선수들과 비교가 가능 하다.
주성분분석
본 논문에서 주성분분석은 어떠한 문제를 해결하기 위해 사용되었나?
상관계수가 높은 세이버 메트릭스 통계량끼리 그룹으로 묶은 후, 각 다른 가중치를 부여함으로써 투수의 능력을 살펴 볼 수 있 다. 그러나 17개의 변수를 모두 사용하여 다중회귀 분석을 하는 경우 설명변수들 사이의 높은 상관관계 에 의해 다중공선성 (multicollinearty) 문제 를 야기 시킬 수 있다 (Kwon, 2008).
참고문헌 (13)
Bae, J. Y., Lee, J. M. and Lee, J. Y. (2012). Predicting Korea pro-baseball rankings by principal component regresstion analysis. The Journal of Korean Statistical Society, 19, 367-379.
Chang, J. and Zenilman, J. (2013). A study of sabermetrics in major league baseball: The impact of moneyball on free agent salaries, Washington University, Saint Louis.
Hong, J. S., Kim, J. Y. and Sin, D. S. (2016). Alternative hitting ability index for KBO. Journal of the Korean Data & Information Science Society, 27, 677-687.
KBO (2017). http://osen.mt.co.kr/article/G1110627260
Kim, H. J. (2012). Effects of on-base and slugging ability on run productivity in Korean professional baseball. Journal of the Korean Data & Information Science Society, 23, 1065-1174.
KBreport (2013-2016), http://www.kbreport.com
Kwon, S. H. (2008). Utilizing and analysis of multivariate data, Freeacademy, Seoul.
Lee, J. T. and Cho, H. S. (2009). Estimation of OBP coefficient in Korean professional baseball. Journal of the Korean Data & Information Science Society, 25, 357-363.
Lee, J. T. (2014). Measurements for hitting ability in the Korean pro-baseball. Journal of the Korean Data & Information Science Society, 25, 349-356.
Lee, S. I. (2014). Development of pitcher's performance index in the Korean professional baseball games, Master's Thesis, Myoungji University, Seoul.
MLB (2017). http://m.mlb.com/news/article/182980276/best-late-round-picks-in-draft-history/
Oh, G. J., An, J. J. and Sim, G. S. (2012). Multicurrencies portfolio strategy using principal component analysis and logistic regression. Journal of the Korean Data & Information Science Society, 23, 151-159.
Seung, H. B. and Kang, G. H. (2012). A study on relationship between the performance of professional baseball players and annual salary. Journal of the Korean Data & Information Science Society, 23, 285-298.
더보기
저자의 다른 논문 :
김현규
(2)
이제영
(85)
※ AI-Helper는 부적절한 답변을 할 수 있습니다.