[논문]머신러닝을 이용한 한국프로야구 관중 수 예측모델

서원빈; 길이만

문제 정의

그래서 이번 연구에서 관중 수를 예측하는 모델을 만들어 보고자 한다. 시계열 모형을 이용하여 년 단위 관중 수를 예측하는 모델은 많이 제시되었지만 본 연구에서는 일일 단위 관중 수를 예측하는 모형을 만들어 보려고 한다.
최종 예측 모델은 두 개 각각의 모델보다 더 좋은 정확성을 가지고 있음을 보였다. 본 연구는 선행 연구에서 부족했던 일일 단위 관중 수 연구를 수행하고 변수 모델을 시계열 모델과 결합하여 최적의 결과를 얻는 데에 의미가 있다. 향후 이것을 활용하여 여러 분야에서 응용이 가능할 것이라고 기대된다.
본 연구와 관련하여 관중 수를 예측하는 연구를 살펴보면 지난 수년간 관중 수 자료를 이용해 ARIMA 모형을 만들어 년 단위 관중 수를 예측하는 것이다. 이 방법은 시계열 자료의 자기상관특성을 이용하는 방식으로 일정한 주기를 가지는 년 단위 모델에 적합하다[1].
그래서 이번 연구에서 관중 수를 예측하는 모델을 만들어 보고자 한다. 시계열 모형을 이용하여 년 단위 관중 수를 예측하는 모델은 많이 제시되었지만 본 연구에서는 일일 단위 관중 수를 예측하는 모형을 만들어 보려고 한다. 년 단위 관중 수 예측보다 일일 단위 예측이 훨씬 많은 활용가치가 있을 거라고 생각된다.
이렇듯 여러 변수 간의 관계를 이용해 MLP 모델을 만들 것이다. 이를 GKFN 모델과 결합해서 최적의 결과를 갖는 모델을 만드는 것이 최종 목표이다.
최소 649부터 최대 28500까지의 넓은 범위의 데이터 값을 re-scaling하기 위해 정규화 과정을 거쳤다. 정규화의 목적은 범위가 너무 큰 데이터 값을 이용하면 노이즈가 들어가거나 overfitting될 확률이 높기 때문에 정규화를 통해 범위를 줄여주는 데 목적이 있다. min-max 정규화를 통해 데이터 값은 0부터 1까지의 값으로 정규화 되게 된다.

가설 설정

년 단위 관중 수 예측보다 일일 단위 예측이 훨씬 많은 활용가치가 있을 거라고 생각된다. 먼저 시계열 조건을 고려해 예측 모델을 만들 것이다. 기존 시계열 분석 방법과 차별화된 GKFN 모델을 이용해 커널을 이용한 분석 모델이 될 것이다.

제안 방법

GKFN, MLP 모델 각각에서 얻어진 RMSE값을 토대로 두 가지 모델을 결합하여 최적의 RMSE값을 갖도록 한다. 각각의 모델에 가중치를 다르게 하여 최적의 값을 갖도록 결합시킨다.
이 은닉층을 지나 최종 출력 1개의 예측값이 나오는 것이다. Python 라이브러리 중 sci-kit learn의 MLPRegressor 를 이용해 MLP 모델을 설계한다. 정규화를 한 관중 수 데이터와 선정된 변수별 데이터를 train data 와 test data로 나누어 MLP 모델의 노드로 입력하고 출력 노드에서 나오는 예측값과 오차를 비교한다.
그리고 MLP 모델을 위해 관중 수에 영향을 미치는 변수를 가지고 관련 자료를 수집하였다. 각 변수 별로 변수와 관중 수의 상관관계를 상관계수를 이용해 수치 비교를 한 후 주요 변수들을 선정하여 활용하였다. 주요 변수로는 공휴일여부, 요일, 경기시작시간, 팀순위, 상대습도가 있다.
202421을 얻었다. 그리고 MLP 모델을 위해 관중 수에 영향을 미치는 변수를 가지고 관련 자료를 수집하였다. 각 변수 별로 변수와 관중 수의 상관관계를 상관계수를 이용해 수치 비교를 한 후 주요 변수들을 선정하여 활용하였다.
19를 얻었다. 두 가지 모델의 결합을 통하여 최종 예측 모델을 생성하였다. 최종 예측 모델은 두 개 각각의 모델보다 더 좋은 정확성을 가지고 있음을 보였다.
그래서 시계열 방법을 적용하기에 커널을 이용한 학습을 이용하기로 한다[2][3]. 먼저 시계열 자료의 경향성을 분석하기 위해 phase space 분석 단계에서 smoothness measure를 구하고 그것을 이용해 어느 위치에 커널을 위치시킬지 결정해 며칠 주기의 자료를 몇 개를 이용하여야 다음 자료를 예측할 수 있는지 알게 되는 것이다. 그리고 전체 자료에서 커널 개수를 조절해가며 커널 함수를 만들어 학습 모델을 완성시킨다.
각각의 변수 별로 구해진 값을 토대로 숫자가 높을수록 상관 관계가 크다는 뜻이므로 큰 순서대로 우선순위를 정해 상위 5개의 변수를 선정하도록 한다. 선정된 변수는 공휴일 여부, 요일, 경기시작시간, 팀순위, 상대습도 5가지이다. 예를 들어 평일과 공휴일은 관중 수에서 엄청난 차이를 보이게 된다.
선행 연구를 참조하여 관중 수에 영향을 미치는 주요 변수들을 선정하여 이들과 관중 수 간의 관계를 수치적으로 보기 위해 상관 계수를 구하는데 이용한다. 각 변수 별로 각각의 날짜에 해당하는 데이터를 기상청과 KBO 홈페이지에서 수집한다.
Python 라이브러리 중 sci-kit learn의 MLPRegressor 를 이용해 MLP 모델을 설계한다. 정규화를 한 관중 수 데이터와 선정된 변수별 데이터를 train data 와 test data로 나누어 MLP 모델의 노드로 입력하고 출력 노드에서 나오는 예측값과 오차를 비교한다. 이 때 RMSE 값은 0.
1000개 이상의 자료가 요구되어 KBO 홈페이지에서 기아 타이거즈의 2010년~2018년까지의 9년도 경기 관중 수 자료를 수집하였다. 최소 649부터 최대 28500까지의 넓은 범위의 데이터 값을 re-scaling하기 위해 정규화 과정을 거쳤다. 정규화의 목적은 범위가 너무 큰 데이터 값을 이용하면 노이즈가 들어가거나 overfitting될 확률이 높기 때문에 정규화를 통해 범위를 줄여주는 데 목적이 있다.
여기서 사용되는 학습 방법은 커널을 이용한 방법을 따른다. 커널 각각에서 벡터를 만들어 앞에서 도출한 E와 tau값을 이용해 최적의 커널 위치에서 커널을 만들어가며 데이터값을 학습시키는 것이다. 커널 개수를 늘려가며 학습시킨다면 training error는 계속하여 떨어지게 된다.
여러 관중 수 예측 연구에서는 구단 별로 년 단위 관중 수를 주로 예측하였다. 하지만 일일 단위 관중 수를 예측한 몇몇 연구를 참고하여 예측 모델을 만들어보려고 한다. 일일 단위 예측을 한 연구들은 주로 관중 수에 영향을 미치는 변수들을 기반으로 인공신경망 모형을 주로 만들었다[4].

대상 데이터

1000개 이상의 자료가 요구되어 KBO 홈페이지에서 기아 타이거즈의 2010년~2018년까지의 9년도 경기 관중 수 자료를 수집하였다. 최소 649부터 최대 28500까지의 넓은 범위의 데이터 값을 re-scaling하기 위해 정규화 과정을 거쳤다.
선행 연구를 참조하여 관중 수에 영향을 미치는 주요 변수들을 선정하여 이들과 관중 수 간의 관계를 수치적으로 보기 위해 상관 계수를 구하는데 이용한다. 각 변수 별로 각각의 날짜에 해당하는 데이터를 기상청과 KBO 홈페이지에서 수집한다.
여러 변수들을 이용해 인공신경망 모형을 만들어서 훈련을 시켰다. 자료를 학습시키기 위한 모델로는 DNN이나 전방향 인공신경망 모델이 있었다. DNN은 입력층과 출력층 사이 여러 개의 은닉층으로 이루어진 인공신경망으로 복잡한 비선형 관계를 모델링하기 좋다.

데이터처리

수집한 변수를 가지고 x를 변수의 값, y를 관중 수로 두고 상관계수 공식을 이용하여 correlation coefficient 값을 구한다. 각각의 변수 별로 구해진 값을 토대로 숫자가 높을수록 상관 관계가 크다는 뜻이므로 큰 순서대로 우선순위를 정해 상위 5개의 변수를 선정하도록 한다.

이론/모형

관중 수 예측 모델은 시계열 분석과 변수 분석 모델을 결합시켜 성능을 향상시켰다. 먼저 시계열 분석 모델은 선행연구를 통해 phase space 분석을 위한 smoothness measure를 구했다. 앞의 결과에서 E=7, tau=4를 얻게 된다.
하지만 test error는 어느 순간 높아지게 되는데 이 때 최적의 test error를 가지는 커널 개수를 토대로 RMSE값을 구할 수 있다. 오차값을 비교하기 위해서는 RMSE(root mean square error)값을 이용한다. 실제로 해보면 커널 개수를 10개부터 늘려가면 training error와 test error가 모두 낮아 지지만 어느 순간 커널이 50개를 넘어가는 지점부터 test error는 상승하기 시작한다.

성능/효과

두 가지 모델의 결합을 통하여 최종 예측 모델을 생성하였다. 최종 예측 모델은 두 개 각각의 모델보다 더 좋은 정확성을 가지고 있음을 보였다. 본 연구는 선행 연구에서 부족했던 일일 단위 관중 수 연구를 수행하고 변수 모델을 시계열 모델과 결합하여 최적의 결과를 얻는 데에 의미가 있다.

후속연구

먼저 시계열 조건을 고려해 예측 모델을 만들 것이다. 기존 시계열 분석 방법과 차별화된 GKFN 모델을 이용해 커널을 이용한 분석 모델이 될 것이다. 이 외에도 관중 수에 영향을 끼치는 여러 변수를 고려한 모델도 있다.
본 연구는 선행 연구에서 부족했던 일일 단위 관중 수 연구를 수행하고 변수 모델을 시계열 모델과 결합하여 최적의 결과를 얻는 데에 의미가 있다. 향후 이것을 활용하여 여러 분야에서 응용이 가능할 것이라고 기대된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

머신러닝을 이용한 한국프로야구 관중 수 예측모델
Prediction Model of the Number of Spectators in Korean Baseball League Using Machine Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

머신러닝을 이용한 한국프로야구 관중 수 예측모델 Prediction Model of the Number of Spectators in Korean Baseball League Using Machine Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

머신러닝을 이용한 한국프로야구 관중 수 예측모델
Prediction Model of the Number of Spectators in Korean Baseball League Using Machine Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper