프로야구는 현재 우리나라에서 가장 많은 관심을 받고 있는 스포츠 중 하나이다. 2012년 최초로 700만 관중을 돌파한데 이어, 2015년 KT위즈 구단이 참여 후 2016년에는 800만 관중을 돌파하는 등 나날이 관심이 커지고 있다. 야구는 한 경기에서도 많은 데이터를 쏟아낸다. 이와 더불어 많은 연구들이 이루어지고 있다. 프로야구 2020년 우승팀 NC다이노스는 데이터를 활용해 우승한 대표적인 사례이다. 본 연구에서는 기계학습 기법을 활용하여 한국 프로야구 승패 ...
프로야구는 현재 우리나라에서 가장 많은 관심을 받고 있는 스포츠 중 하나이다. 2012년 최초로 700만 관중을 돌파한데 이어, 2015년 KT위즈 구단이 참여 후 2016년에는 800만 관중을 돌파하는 등 나날이 관심이 커지고 있다. 야구는 한 경기에서도 많은 데이터를 쏟아낸다. 이와 더불어 많은 연구들이 이루어지고 있다. 프로야구 2020년 우승팀 NC다이노스는 데이터를 활용해 우승한 대표적인 사례이다. 본 연구에서는 기계학습 기법을 활용하여 한국 프로야구 승패 예측 분석에 관한 연구를 했다. 2018년부터 2020년까지 프로야구 10개 구단의 무승부를 제외한 4318개의 팀별 데이터를 활용하여 분석했다. 분석 방법은 투수력 데이터와 타격데이터 전체 총 43개 변수를 사용하였다. 이 중 70%는 학습용 데이터로 활용 하고 나머지 30%는 검증용 데이터로 활용하여 분석해 보았다. 변수선택법을 활용하여 입력변수를 선택하고 그 후 다중공선성이 높은 변수, 유의하지 않는 변수를 제외하고 최종적으로 변수를 선택하였다. 로지스틱 회귀분석, 서포트 벡터머신, 랜덤포레스트, 인공신경망 총 4가지 기법을 활용하여 진행해 보았다. 로지스틱 회귀분석은 96.37%의 정확도를 기록하였고 서포트 벡터머신은 96.22%, 랜덤포레스트는 96.76%, 인공신경망은 95.75%의 정확도를 기록하였다.
프로야구는 현재 우리나라에서 가장 많은 관심을 받고 있는 스포츠 중 하나이다. 2012년 최초로 700만 관중을 돌파한데 이어, 2015년 KT위즈 구단이 참여 후 2016년에는 800만 관중을 돌파하는 등 나날이 관심이 커지고 있다. 야구는 한 경기에서도 많은 데이터를 쏟아낸다. 이와 더불어 많은 연구들이 이루어지고 있다. 프로야구 2020년 우승팀 NC다이노스는 데이터를 활용해 우승한 대표적인 사례이다. 본 연구에서는 기계학습 기법을 활용하여 한국 프로야구 승패 예측 분석에 관한 연구를 했다. 2018년부터 2020년까지 프로야구 10개 구단의 무승부를 제외한 4318개의 팀별 데이터를 활용하여 분석했다. 분석 방법은 투수력 데이터와 타격데이터 전체 총 43개 변수를 사용하였다. 이 중 70%는 학습용 데이터로 활용 하고 나머지 30%는 검증용 데이터로 활용하여 분석해 보았다. 변수선택법을 활용하여 입력변수를 선택하고 그 후 다중공선성이 높은 변수, 유의하지 않는 변수를 제외하고 최종적으로 변수를 선택하였다. 로지스틱 회귀분석, 서포트 벡터머신, 랜덤포레스트, 인공신경망 총 4가지 기법을 활용하여 진행해 보았다. 로지스틱 회귀분석은 96.37%의 정확도를 기록하였고 서포트 벡터머신은 96.22%, 랜덤포레스트는 96.76%, 인공신경망은 95.75%의 정확도를 기록하였다.
Professional baseball is currently one of the most popular sports in our country. After surpassing 7 million spectators for the first time in 2012, KT Wiz's club participated in 2015 and surpassed 8 million spectators in 2016. Baseball spills a lot of data in one game. Along with this, a number ...
Professional baseball is currently one of the most popular sports in our country. After surpassing 7 million spectators for the first time in 2012, KT Wiz's club participated in 2015 and surpassed 8 million spectators in 2016. Baseball spills a lot of data in one game. Along with this, a number of studies are being done. NC Dinos, the winner of the 2020 professional baseball league, is a case in point of winning by utilizing data. In this study, we used machine learning techniques to analyze the prediction of winning or losing of Korean professional baseball. From 2018 to 2020, the team analyzed data from 4318 teams, excluding draws by 10 professional baseball teams. The analysis method used a total of 43 variables, including pitching power data and hitting data. Of these, 70% were used as learning data, and the remaining 30% were used as verification data was analyzed. The variable selection method was utilized to select the input variable, and then finally the variable was selected except for variables with high multicollinearity and non-significant variables. We proceed using a total of four techniques: logistic regression, support vector machines, random forests, and deep neural networks. Logistic regression analysis recorded 96.37% accuracy, support vector machines recorded 96.22%, random forest 96.76% and deep neural networks 95.75%.
Professional baseball is currently one of the most popular sports in our country. After surpassing 7 million spectators for the first time in 2012, KT Wiz's club participated in 2015 and surpassed 8 million spectators in 2016. Baseball spills a lot of data in one game. Along with this, a number of studies are being done. NC Dinos, the winner of the 2020 professional baseball league, is a case in point of winning by utilizing data. In this study, we used machine learning techniques to analyze the prediction of winning or losing of Korean professional baseball. From 2018 to 2020, the team analyzed data from 4318 teams, excluding draws by 10 professional baseball teams. The analysis method used a total of 43 variables, including pitching power data and hitting data. Of these, 70% were used as learning data, and the remaining 30% were used as verification data was analyzed. The variable selection method was utilized to select the input variable, and then finally the variable was selected except for variables with high multicollinearity and non-significant variables. We proceed using a total of four techniques: logistic regression, support vector machines, random forests, and deep neural networks. Logistic regression analysis recorded 96.37% accuracy, support vector machines recorded 96.22%, random forest 96.76% and deep neural networks 95.75%.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.