[논문]혼합형 기계 학습 모델을 이용한 프로야구 승패 예측 시스템

홍석미; 정경숙; 정태충

문제 정의

그리고 새로 생성된 자료와 원시 자료 중 몇 개를 신경회로망 알고리즘의 입력으로 이용하는 예측모델을 제시하고자 한다. 그림 1은 본 논문에서 제안하고 있는 예측 시스템 모델의 구조를 나타낸다.
또한 사용자가 직접 팀을 구성할 수 있어서 보다 흥미로운 경기 진행이 가능하도록 하였다. 경기 환경설정 모드를 이용하여 팀을 구성하고, 간단한 이미지를 이용하여 경기의 진행상황을 보이도록 하였다.
하지만 인터넷을 통하여 프로야구 스타들의 활약상이나 홈페이지의 방문과 자기가 응원하는 팀의 전적을 보기 위해 사이트를 찾는 것은 아주 흔한 일이 되었다. 본 연구에서는 이러한 사람들의 욕구를 보다 흥미 있게 해결하고자 인공지능 기법을 야구 승패 예측 시스템 구현에 활용하여 보았다.
또한 BP를 이용한 경우 많은 자료를 학습에 이용하게 되므로 생성된 학습 네트워크의 복잡도를 증가시키는 등의 문제점을 가지고 있다. 이러한 기존의 방법들이 갖는 문제를 해결하기 위하여 휴리스틱 함수와 신경 회로망 모델을 혼합하는 예측 모형을 만들고자 한다. 그림 2는 본 논문에서 구현한 예측 모듈의 구성도이다.

가설 설정

투수가 경기에 영향을 미치는 기준을 50%정도로 가정하여 실험하였다.

제안 방법

세 번째, BP를 이용하여 학습 모델을 생성한다. BP의 입력 값으로 기록지로부터 얻은 특정 상황에 대한 이닝(현재 이닝), 홈팀의 승리 정도, 상대팀에 대한 평균 숭률, 실제 승률(실제 경기 상에서 해당 이닝까지의 승률)등을 이용하여 학습 모델을 생성한다.
각 팀의 예상득점을 산출하는 부분으로 경기 전 자료와 경기 중 자료를 이용하여 예상 득점을 산출한다. 모든 선수들이 타석에 들어서는 4이닝 이후부터는 과거 기록에 의한 가중치를 감소시킴으로써 현재 경기에서 산출된 실제 기록을 경기 예측에 반영하도록 하였다.
경기 기록 데이타베이스로부터 경기에 영향을 주는 기록 12개를 추출하고, 이 중 중복 요소를 가지고 있는 9개의 자료를 조합하여 새로운 값(홈팀이 승리할 확률) 을 생성하였다. 새로 생성된 값과 나머지 2개(현재 경기이닝, 상대팀에 대한 숭률)를 BP의 입력으로 이용하고 나머지 한 개(홈팀의 실제 기록상 숭률)는 BP에서 연결 강도 조정을 위해 활용될 목표 값으로 활용되었다.
또한 사용자가 직접 팀을 구성할 수 있어서 보다 흥미로운 경기 진행이 가능하도록 하였다. 경기 환경설정 모드를 이용하여 팀을 구성하고, 간단한 이미지를 이용하여 경기의 진행상황을 보이도록 하였다. 경기가 진행되면서 현재 입력 상황에 따라 예측된 경기 승률을 보여준다.
과거 본 연구실에서는 프로야구 승패 예측을 위해 ID3, 통계적 기법, BP에 의한 예측을 수행하였다. 그 결과 ID3는 연속적인 형태를 갖는 경기 자료의 특성을 그대로 반영하지 못했으며, 통계적 방법은 반복적인 수행을 통한 예측으로 많은 시간이 걸렸다.
학습에 사용될 특징의 수가 늘어나게 되면 이러한 문제는 더욱 심화될 것이다. 그래서 연속자료를 이산자료로 바꾸어주는 이산화과정을 거쳐 자료를 변형시킨 후 ID3을 적용하였다. 그로 인해 기록 자체가 지니고 있는 본래의 특성을 시스템에 완전히 반영할 수 없었다.
모든 선수들이 타석에 들어서는 4이닝 이후부터는 과거 기록에 의한 가중치를 감소시킴으로써 현재 경기에서 산출된 실제 기록을 경기 예측에 반영하도록 하였다.
BP에서 은닉층은 1계층인 경우와 2계층인 경우에 대하여 실험하였다. 반복횟수로는 5000, 7000, 10000, 20000, 50000까지 수행하였다. 표 1은 은닉층의 수와 반복 횟수의 변화에 따른 혼합형 모델의 예측률을 보여준다.
두 번째, 예측용 DB 의 값을 휴리스틱 함수에 적용시켜 새로운 예측용 입력자료인 홈팀의 승리 정도를 산출한다. 세 번째, BP를 이용하여 학습 모델을 생성한다. BP의 입력 값으로 기록지로부터 얻은 특정 상황에 대한 이닝(현재 이닝), 홈팀의 승리 정도, 상대팀에 대한 평균 숭률, 실제 승률(실제 경기 상에서 해당 이닝까지의 승률)등을 이용하여 학습 모델을 생성한다.
이러한 과정을 거쳐 생성된 경기 승패 예측용 학습모형은 실제 경기에서 이미 알고있는 과거 기록과 현재 경기에서 발생하는 상황(이닝, 현재 이닝까지의 평균 안타수, 실제 점수 상황)을 학습 모델에 적용시킴으로써 경기 중 예측이 가능하도록 하였다.
이에 본 논문에서는 전문가들의 의견이나 기타 여러 가지 자료들을 통하여 학습 모델 생성에 사용될 자료들을 선택하고, 휴리스틱 함수[5]를 이용하여 선택된 여러 요소(feature)들을 혼합한 새로운 예측용 자료를 생성한다. 그리고 새로 생성된 자료와 원시 자료 중 몇 개를 신경회로망 알고리즘의 입력으로 이용하는 예측모델을 제시하고자 한다.
제안된 모델은 프로야구 경기 승패 예측기 생성에 활용하였다. 기존의 역전파 알고리즘 외에 ID3 알고리즘이나 통계적 방법을 이용한 예측 시뮬레이터보다 더 나은 예측률을 보였다.
생성되어진다. 첫 번째, 휴리스틱 함수 생성과 BP 의 입력으로 사용할 값들을 기록지로부터 추출하여 예측용 DB를 생성한다. 즉, 매 경기마다 생성되는 기록지에는 해당 경기에 대한 모든 상황이 기록되므로 기록지로부터 얻은 값들에 대한 평균이나 합을 구하여 과거 경기기록을 생성한다.

대상 데이터

자료를 사용하였다. 1998년 KBO 경기 자료를 기반으로 1022개의 초기 자료를 생성하였다. 그 중 동일한 패턴이 나타나지 않도록 중복 자료를 제거하였고, 각 이닝별 데이타의 수를 일정하게 맞추기 위하여 각 이닝별로 70개씩 모두 630개의 자료를 추출하였다.
그 중 동일한 패턴이 나타나지 않도록 중복 자료를 제거하였고, 각 이닝별 데이타의 수를 일정하게 맞추기 위하여 각 이닝별로 70개씩 모두 630개의 자료를 추출하였다. 630개의 자료 중 학습 자료로 504개, 테스트 자료로 126개를 사용하였다. BP에서 은닉층은 1계층인 경우와 2계층인 경우에 대하여 실험하였다.
BP를 이용한 예측의 경우, 본 논문에서 제시하고 있는 혼합형 모델 생성에 사용된 12개의 자료들이 입력으로 사용되었다. 이 경우에는 혼합형 모델에 비해 입력의 수는 많으나 자료들 간의 중복 요소로 인해 학습 네트워크의 복잡도만 증가할 뿐 예측률 향상에는 큰 영향을 주지 못하였다.
1998년 KBO 경기 자료를 기반으로 1022개의 초기 자료를 생성하였다. 그 중 동일한 패턴이 나타나지 않도록 중복 자료를 제거하였고, 각 이닝별 데이타의 수를 일정하게 맞추기 위하여 각 이닝별로 70개씩 모두 630개의 자료를 추출하였다. 630개의 자료 중 학습 자료로 504개, 테스트 자료로 126개를 사용하였다.
새로 생성된 값과 나머지 2개(현재 경기이닝, 상대팀에 대한 숭률)를 BP의 입력으로 이용하고 나머지 한 개(홈팀의 실제 기록상 숭률)는 BP에서 연결 강도 조정을 위해 활용될 목표 값으로 활용되었다. 그러므로 혼합형 시스템에서 사용된 자료의 수는 4개지만 실제 예측에 활용된 자료는 12개이다.
본 논문에서 제시한 프로야구 경기의 승패 예측 시스템의 성능 평가를 위해 KBO(한국 야구위원회)의 데이타베이스 자료를 사용하였다. 1998년 KBO 경기 자료를 기반으로 1022개의 초기 자료를 생성하였다.

이론/모형

그러므로 충분한 정보를 제공하면서도 학습용 자료의 수를 줄일 수 있다면 적은 비용으로 더 나은 해를 얻을 수 있다. 본 논문에서는 예측에 사용될 자료의 수를 줄이는 방법으로 휴리스틱 함수를 사용하였다.

성능/효과

많은 경기 자료들을 조합하여 HomeWinRate(x)로 표현함으로써 BP의 입력자료의 수를 현저히 줄이는 효과를 가져왔다. 결과가 음수이면 경기에 패할 가능성이 높아지고, 0이면 무승부 양수면 승리할 가능성이 높아짐을 의미한다.
통계적 기법, BP에 의한 예측을 수행하였다. 그 결과 ID3는 연속적인 형태를 갖는 경기 자료의 특성을 그대로 반영하지 못했으며, 통계적 방법은 반복적인 수행을 통한 예측으로 많은 시간이 걸렸다. 또한 BP를 이용한 경우 많은 자료를 학습에 이용하게 되므로 생성된 학습 네트워크의 복잡도를 증가시키는 등의 문제점을 가지고 있다.
그리고 휴리스틱 함수를 통해 산출된 자료들을 역전파 알고리즘에 의해 일반화시킴으로써 보다 안정적인 예측 시스템을 구현할 수 있었다.
기존의 역전파 알고리즘 외에 ID3 알고리즘이나 통계적 방법을 이용한 예측 시뮬레이터보다 더 나은 예측률을 보였다. 이러한 예측 모듈을 게임 시 적극 활용하여 생동감 있는 경기를 할 수 있게 함으로써 프로야구 게임이 활성화 되도록 할 수 있을 것이며, 그러기 위해서는 실제 경기 상황과 유사한 상황을 전제로 더 많은 자료를 포함할 수 있는 공식을 이끌어 내는 것이 필요하다.
또한 기록지 내의 특정 이닝에서의 상황들(현재 이닝, 안타수 둥)은 학습 모델 생성에 사용할 경기 중 정보로 활용한다. 두 번째, 예측용 DB 의 값을 휴리스틱 함수에 적용시켜 새로운 예측용 입력자료인 홈팀의 승리 정도를 산출한다. 세 번째, BP를 이용하여 학습 모델을 생성한다.
이 값은 BP의 입력 값으로 사용되어진다. 많은 경기 자료들을 조합하여 HomeWinRate(x)로 표현함으로써 BP의 입력자료의 수를 현저히 줄이는 효과를 가져왔다. 결과가 음수이면 경기에 패할 가능성이 높아지고, 0이면 무승부 양수면 승리할 가능성이 높아짐을 의미한다.
승패 예측 시스템 구현에 있어서 가장 중요한 문제인 예측 자료 선택에 있어서는 휴리스틱 함수를 이용하여 보다 많은 의미를 가지면서도 실제 예측 알고리즘에는 적은 수의 자료가 활용되도록 특징의 차원을 감소시킴으로써 예측 모델의 복잡도를 감소시킬 수 있었다. 그리고 휴리스틱 함수를 통해 산출된 자료들을 역전파 알고리즘에 의해 일반화시킴으로써 보다 안정적인 예측 시스템을 구현할 수 있었다.
실험 결과 뉴런의 수가 10개, 은닉충이 2개, 전달함수는 tanh, 반복 횟수가 7000일 때, 84.92%의 가장 높은 예측률을 보임을 알 수 있었다. 표 2는 기존 알고리즘들과 제안된 모델의 결과를 비교한 것이다.
이 경우에는 혼합형 모델에 비해 입력의 수는 많으나 자료들 간의 중복 요소로 인해 학습 네트워크의 복잡도만 증가할 뿐 예측률 향상에는 큰 영향을 주지 못하였다. 혼합형 모델은 휴리스틱 함수를 이용하여 다양한 자료들을 혼합한 학습 요소를 산출해 냄으로써 학습 자료의 수도 줄이고 예측률도 높이는 결과를 보일 수 있었다.

후속연구

이러한 예측 모듈을 게임 시 적극 활용하여 생동감 있는 경기를 할 수 있게 함으로써 프로야구 게임이 활성화 되도록 할 수 있을 것이며, 그러기 위해서는 실제 경기 상황과 유사한 상황을 전제로 더 많은 자료를 포함할 수 있는 공식을 이끌어 내는 것이 필요하다. 또한 휴리스틱 모델 생성 시 사용된 고정된 값들을 특정 상황에 맞게 변형하는 문제와 더욱 세밀한 홈/원정별, 구장별, 수비별 상황을 고려한 사례기반에 의한 예측이 이루어져야 할 것이다.
기존의 역전파 알고리즘 외에 ID3 알고리즘이나 통계적 방법을 이용한 예측 시뮬레이터보다 더 나은 예측률을 보였다. 이러한 예측 모듈을 게임 시 적극 활용하여 생동감 있는 경기를 할 수 있게 함으로써 프로야구 게임이 활성화 되도록 할 수 있을 것이며, 그러기 위해서는 실제 경기 상황과 유사한 상황을 전제로 더 많은 자료를 포함할 수 있는 공식을 이끌어 내는 것이 필요하다. 또한 휴리스틱 모델 생성 시 사용된 고정된 값들을 특정 상황에 맞게 변형하는 문제와 더욱 세밀한 홈/원정별, 구장별, 수비별 상황을 고려한 사례기반에 의한 예측이 이루어져야 할 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

혼합형 기계 학습 모델을 이용한 프로야구 승패 예측 시스템
Win/Lose Prediction System : Predicting Baseball Game Results using a Hybrid Machine Learning Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

혼합형 기계 학습 모델을 이용한 프로야구 승패 예측 시스템 Win/Lose Prediction System : Predicting Baseball Game Results using a Hybrid Machine Learning Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

홍석미 (7) 정경숙 (10) 정태충 (44)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

혼합형 기계 학습 모델을 이용한 프로야구 승패 예측 시스템
Win/Lose Prediction System : Predicting Baseball Game Results using a Hybrid Machine Learning Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper