야구는 매 경기마다 다양한 기록을 생성하며, 이러한 기록을 기반으로 다음 경기에 대한 승패예측이 이루어진다. 프로야구 승패 예측에 대한 연구는 많은 사람들에 의해 행해져 왔으나 아직 이렇다할 결과를 얻지 못하고 있는 상태이다. 이처럼 승패 예측이 어려운 이유는 많은 경기 기록들 중 승패 예측에 영향을 주는 요소의 선별이 어렵고, 예측에 사용된 자료들 간의 중복 요인으로 인해 학습 모델의 복잡도만 증가시킬 뿐 좋은 성능을 보이지 못하고 있다. 이에 본 논문에서는 전문가들의 의견을 바탕으로 학습 요소들을 선택하고, 선택된 자료들을 이용하여 휴리스틱 함수를 구성하였다. 요소들 간의 조합을 통해 예측에 영향을 줄 수 있는 새로운 값을 산출함과 동시에 학습 알고리즘에 사용될 입력 값의 차원을 줄일 수 있는 혼합형 모델을 제안하였다. 그 결과, 학습 알고리즘으로 사용된 역전파 알고리즘의 복잡도를 감소시키고, 프로야구 경기 승패 예측에 있어서도 정확성이 향상되었다.
야구는 매 경기마다 다양한 기록을 생성하며, 이러한 기록을 기반으로 다음 경기에 대한 승패예측이 이루어진다. 프로야구 승패 예측에 대한 연구는 많은 사람들에 의해 행해져 왔으나 아직 이렇다할 결과를 얻지 못하고 있는 상태이다. 이처럼 승패 예측이 어려운 이유는 많은 경기 기록들 중 승패 예측에 영향을 주는 요소의 선별이 어렵고, 예측에 사용된 자료들 간의 중복 요인으로 인해 학습 모델의 복잡도만 증가시킬 뿐 좋은 성능을 보이지 못하고 있다. 이에 본 논문에서는 전문가들의 의견을 바탕으로 학습 요소들을 선택하고, 선택된 자료들을 이용하여 휴리스틱 함수를 구성하였다. 요소들 간의 조합을 통해 예측에 영향을 줄 수 있는 새로운 값을 산출함과 동시에 학습 알고리즘에 사용될 입력 값의 차원을 줄일 수 있는 혼합형 모델을 제안하였다. 그 결과, 학습 알고리즘으로 사용된 역전파 알고리즘의 복잡도를 감소시키고, 프로야구 경기 승패 예측에 있어서도 정확성이 향상되었다.
Every baseball game generates various records and on the basis of those records, win/lose prediction about the next game is carried out. Researches on win/lose predictions of professional baseball games have been carried out, but there are not so good results yet. Win/lose prediction is very difficu...
Every baseball game generates various records and on the basis of those records, win/lose prediction about the next game is carried out. Researches on win/lose predictions of professional baseball games have been carried out, but there are not so good results yet. Win/lose prediction is very difficult because the choice of features on win/lose predictions among many records is difficult and because the complexity of a learning model is increased due to overlapping factors among the data used in prediction. In this paper, learning features were chosen by opinions of baseball experts and a heuristic function was formed using the chosen features. We propose a hybrid model by creating a new value which can affect predictions by combining multiple features, and thus reducing a dimension of input value which will be used for backpropagation learning algorithm. As the experimental results show, the complexity of backpropagation was reduced and the accuracy of win/lose predictions on professional baseball games was improved.
Every baseball game generates various records and on the basis of those records, win/lose prediction about the next game is carried out. Researches on win/lose predictions of professional baseball games have been carried out, but there are not so good results yet. Win/lose prediction is very difficult because the choice of features on win/lose predictions among many records is difficult and because the complexity of a learning model is increased due to overlapping factors among the data used in prediction. In this paper, learning features were chosen by opinions of baseball experts and a heuristic function was formed using the chosen features. We propose a hybrid model by creating a new value which can affect predictions by combining multiple features, and thus reducing a dimension of input value which will be used for backpropagation learning algorithm. As the experimental results show, the complexity of backpropagation was reduced and the accuracy of win/lose predictions on professional baseball games was improved.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그리고 새로 생성된 자료와 원시 자료 중 몇 개를 신경회로망 알고리즘의 입력으로 이용하는 예측모델을 제시하고자 한다. 그림 1은 본 논문에서 제안하고 있는 예측 시스템 모델의 구조를 나타낸다.
또한 사용자가 직접 팀을 구성할 수 있어서 보다 흥미로운 경기 진행이 가능하도록 하였다. 경기 환경설정 모드를 이용하여 팀을 구성하고, 간단한 이미지를 이용하여 경기의 진행상황을 보이도록 하였다.
하지만 인터넷을 통하여 프로야구 스타들의 활약상이나 홈페이지의 방문과 자기가 응원하는 팀의 전적을 보기 위해 사이트를 찾는 것은 아주 흔한 일이 되었다. 본 연구에서는 이러한 사람들의 욕구를 보다 흥미 있게 해결하고자 인공지능 기법을 야구 승패 예측 시스템 구현에 활용하여 보았다.
또한 BP를 이용한 경우 많은 자료를 학습에 이용하게 되므로 생성된 학습 네트워크의 복잡도를 증가시키는 등의 문제점을 가지고 있다. 이러한 기존의 방법들이 갖는 문제를 해결하기 위하여 휴리스틱 함수와 신경 회로망 모델을 혼합하는 예측 모형을 만들고자 한다. 그림 2는 본 논문에서 구현한 예측 모듈의 구성도이다.
가설 설정
투수가 경기에 영향을 미치는 기준을 50%정도로 가정하여 실험하였다.
제안 방법
세 번째, BP를 이용하여 학습 모델을 생성한다. BP의 입력 값으로 기록지로부터 얻은 특정 상황에 대한 이닝(현재 이닝), 홈팀의 승리 정도, 상대팀에 대한 평균 숭률, 실제 승률(실제 경기 상에서 해당 이닝까지의 승률)등을 이용하여 학습 모델을 생성한다.
각 팀의 예상득점을 산출하는 부분으로 경기 전 자료와 경기 중 자료를 이용하여 예상 득점을 산출한다. 모든 선수들이 타석에 들어서는 4이닝 이후부터는 과거 기록에 의한 가중치를 감소시킴으로써 현재 경기에서 산출된 실제 기록을 경기 예측에 반영하도록 하였다.
경기 기록 데이타베이스로부터 경기에 영향을 주는 기록 12개를 추출하고, 이 중 중복 요소를 가지고 있는 9개의 자료를 조합하여 새로운 값(홈팀이 승리할 확률) 을 생성하였다. 새로 생성된 값과 나머지 2개(현재 경기이닝, 상대팀에 대한 숭률)를 BP의 입력으로 이용하고 나머지 한 개(홈팀의 실제 기록상 숭률)는 BP에서 연결 강도 조정을 위해 활용될 목표 값으로 활용되었다.
또한 사용자가 직접 팀을 구성할 수 있어서 보다 흥미로운 경기 진행이 가능하도록 하였다. 경기 환경설정 모드를 이용하여 팀을 구성하고, 간단한 이미지를 이용하여 경기의 진행상황을 보이도록 하였다. 경기가 진행되면서 현재 입력 상황에 따라 예측된 경기 승률을 보여준다.
과거 본 연구실에서는 프로야구 승패 예측을 위해 ID3, 통계적 기법, BP에 의한 예측을 수행하였다. 그 결과 ID3는 연속적인 형태를 갖는 경기 자료의 특성을 그대로 반영하지 못했으며, 통계적 방법은 반복적인 수행을 통한 예측으로 많은 시간이 걸렸다.
학습에 사용될 특징의 수가 늘어나게 되면 이러한 문제는 더욱 심화될 것이다. 그래서 연속자료를 이산자료로 바꾸어주는 이산화과정을 거쳐 자료를 변형시킨 후 ID3을 적용하였다. 그로 인해 기록 자체가 지니고 있는 본래의 특성을 시스템에 완전히 반영할 수 없었다.
모든 선수들이 타석에 들어서는 4이닝 이후부터는 과거 기록에 의한 가중치를 감소시킴으로써 현재 경기에서 산출된 실제 기록을 경기 예측에 반영하도록 하였다.
BP에서 은닉층은 1계층인 경우와 2계층인 경우에 대하여 실험하였다. 반복횟수로는 5000, 7000, 10000, 20000, 50000까지 수행하였다. 표 1은 은닉층의 수와 반복 횟수의 변화에 따른 혼합형 모델의 예측률을 보여준다.
두 번째, 예측용 DB 의 값을 휴리스틱 함수에 적용시켜 새로운 예측용 입력자료인 홈팀의 승리 정도를 산출한다. 세 번째, BP를 이용하여 학습 모델을 생성한다. BP의 입력 값으로 기록지로부터 얻은 특정 상황에 대한 이닝(현재 이닝), 홈팀의 승리 정도, 상대팀에 대한 평균 숭률, 실제 승률(실제 경기 상에서 해당 이닝까지의 승률)등을 이용하여 학습 모델을 생성한다.
이러한 과정을 거쳐 생성된 경기 승패 예측용 학습모형은 실제 경기에서 이미 알고있는 과거 기록과 현재 경기에서 발생하는 상황(이닝, 현재 이닝까지의 평균 안타수, 실제 점수 상황)을 학습 모델에 적용시킴으로써 경기 중 예측이 가능하도록 하였다.
이에 본 논문에서는 전문가들의 의견이나 기타 여러 가지 자료들을 통하여 학습 모델 생성에 사용될 자료들을 선택하고, 휴리스틱 함수[5]를 이용하여 선택된 여러 요소(feature)들을 혼합한 새로운 예측용 자료를 생성한다. 그리고 새로 생성된 자료와 원시 자료 중 몇 개를 신경회로망 알고리즘의 입력으로 이용하는 예측모델을 제시하고자 한다.
제안된 모델은 프로야구 경기 승패 예측기 생성에 활용하였다. 기존의 역전파 알고리즘 외에 ID3 알고리즘이나 통계적 방법을 이용한 예측 시뮬레이터보다 더 나은 예측률을 보였다.
생성되어진다. 첫 번째, 휴리스틱 함수 생성과 BP 의 입력으로 사용할 값들을 기록지로부터 추출하여 예측용 DB를 생성한다. 즉, 매 경기마다 생성되는 기록지에는 해당 경기에 대한 모든 상황이 기록되므로 기록지로부터 얻은 값들에 대한 평균이나 합을 구하여 과거 경기기록을 생성한다.
대상 데이터
자료를 사용하였다. 1998년 KBO 경기 자료를 기반으로 1022개의 초기 자료를 생성하였다. 그 중 동일한 패턴이 나타나지 않도록 중복 자료를 제거하였고, 각 이닝별 데이타의 수를 일정하게 맞추기 위하여 각 이닝별로 70개씩 모두 630개의 자료를 추출하였다.
그 중 동일한 패턴이 나타나지 않도록 중복 자료를 제거하였고, 각 이닝별 데이타의 수를 일정하게 맞추기 위하여 각 이닝별로 70개씩 모두 630개의 자료를 추출하였다. 630개의 자료 중 학습 자료로 504개, 테스트 자료로 126개를 사용하였다. BP에서 은닉층은 1계층인 경우와 2계층인 경우에 대하여 실험하였다.
BP를 이용한 예측의 경우, 본 논문에서 제시하고 있는 혼합형 모델 생성에 사용된 12개의 자료들이 입력으로 사용되었다. 이 경우에는 혼합형 모델에 비해 입력의 수는 많으나 자료들 간의 중복 요소로 인해 학습 네트워크의 복잡도만 증가할 뿐 예측률 향상에는 큰 영향을 주지 못하였다.
1998년 KBO 경기 자료를 기반으로 1022개의 초기 자료를 생성하였다. 그 중 동일한 패턴이 나타나지 않도록 중복 자료를 제거하였고, 각 이닝별 데이타의 수를 일정하게 맞추기 위하여 각 이닝별로 70개씩 모두 630개의 자료를 추출하였다. 630개의 자료 중 학습 자료로 504개, 테스트 자료로 126개를 사용하였다.
새로 생성된 값과 나머지 2개(현재 경기이닝, 상대팀에 대한 숭률)를 BP의 입력으로 이용하고 나머지 한 개(홈팀의 실제 기록상 숭률)는 BP에서 연결 강도 조정을 위해 활용될 목표 값으로 활용되었다. 그러므로 혼합형 시스템에서 사용된 자료의 수는 4개지만 실제 예측에 활용된 자료는 12개이다.
본 논문에서 제시한 프로야구 경기의 승패 예측 시스템의 성능 평가를 위해 KBO(한국 야구위원회)의 데이타베이스 자료를 사용하였다. 1998년 KBO 경기 자료를 기반으로 1022개의 초기 자료를 생성하였다.
이론/모형
그러므로 충분한 정보를 제공하면서도 학습용 자료의 수를 줄일 수 있다면 적은 비용으로 더 나은 해를 얻을 수 있다. 본 논문에서는 예측에 사용될 자료의 수를 줄이는 방법으로 휴리스틱 함수를 사용하였다.
성능/효과
많은 경기 자료들을 조합하여 HomeWinRate(x)로 표현함으로써 BP의 입력자료의 수를 현저히 줄이는 효과를 가져왔다. 결과가 음수이면 경기에 패할 가능성이 높아지고, 0이면 무승부 양수면 승리할 가능성이 높아짐을 의미한다.
통계적 기법, BP에 의한 예측을 수행하였다. 그 결과 ID3는 연속적인 형태를 갖는 경기 자료의 특성을 그대로 반영하지 못했으며, 통계적 방법은 반복적인 수행을 통한 예측으로 많은 시간이 걸렸다. 또한 BP를 이용한 경우 많은 자료를 학습에 이용하게 되므로 생성된 학습 네트워크의 복잡도를 증가시키는 등의 문제점을 가지고 있다.
그리고 휴리스틱 함수를 통해 산출된 자료들을 역전파 알고리즘에 의해 일반화시킴으로써 보다 안정적인 예측 시스템을 구현할 수 있었다.
기존의 역전파 알고리즘 외에 ID3 알고리즘이나 통계적 방법을 이용한 예측 시뮬레이터보다 더 나은 예측률을 보였다. 이러한 예측 모듈을 게임 시 적극 활용하여 생동감 있는 경기를 할 수 있게 함으로써 프로야구 게임이 활성화 되도록 할 수 있을 것이며, 그러기 위해서는 실제 경기 상황과 유사한 상황을 전제로 더 많은 자료를 포함할 수 있는 공식을 이끌어 내는 것이 필요하다.
또한 기록지 내의 특정 이닝에서의 상황들(현재 이닝, 안타수 둥)은 학습 모델 생성에 사용할 경기 중 정보로 활용한다. 두 번째, 예측용 DB 의 값을 휴리스틱 함수에 적용시켜 새로운 예측용 입력자료인 홈팀의 승리 정도를 산출한다. 세 번째, BP를 이용하여 학습 모델을 생성한다.
이 값은 BP의 입력 값으로 사용되어진다. 많은 경기 자료들을 조합하여 HomeWinRate(x)로 표현함으로써 BP의 입력자료의 수를 현저히 줄이는 효과를 가져왔다. 결과가 음수이면 경기에 패할 가능성이 높아지고, 0이면 무승부 양수면 승리할 가능성이 높아짐을 의미한다.
승패 예측 시스템 구현에 있어서 가장 중요한 문제인 예측 자료 선택에 있어서는 휴리스틱 함수를 이용하여 보다 많은 의미를 가지면서도 실제 예측 알고리즘에는 적은 수의 자료가 활용되도록 특징의 차원을 감소시킴으로써 예측 모델의 복잡도를 감소시킬 수 있었다. 그리고 휴리스틱 함수를 통해 산출된 자료들을 역전파 알고리즘에 의해 일반화시킴으로써 보다 안정적인 예측 시스템을 구현할 수 있었다.
실험 결과 뉴런의 수가 10개, 은닉충이 2개, 전달함수는 tanh, 반복 횟수가 7000일 때, 84.92%의 가장 높은 예측률을 보임을 알 수 있었다. 표 2는 기존 알고리즘들과 제안된 모델의 결과를 비교한 것이다.
이 경우에는 혼합형 모델에 비해 입력의 수는 많으나 자료들 간의 중복 요소로 인해 학습 네트워크의 복잡도만 증가할 뿐 예측률 향상에는 큰 영향을 주지 못하였다. 혼합형 모델은 휴리스틱 함수를 이용하여 다양한 자료들을 혼합한 학습 요소를 산출해 냄으로써 학습 자료의 수도 줄이고 예측률도 높이는 결과를 보일 수 있었다.
후속연구
이러한 예측 모듈을 게임 시 적극 활용하여 생동감 있는 경기를 할 수 있게 함으로써 프로야구 게임이 활성화 되도록 할 수 있을 것이며, 그러기 위해서는 실제 경기 상황과 유사한 상황을 전제로 더 많은 자료를 포함할 수 있는 공식을 이끌어 내는 것이 필요하다. 또한 휴리스틱 모델 생성 시 사용된 고정된 값들을 특정 상황에 맞게 변형하는 문제와 더욱 세밀한 홈/원정별, 구장별, 수비별 상황을 고려한 사례기반에 의한 예측이 이루어져야 할 것이다.
기존의 역전파 알고리즘 외에 ID3 알고리즘이나 통계적 방법을 이용한 예측 시뮬레이터보다 더 나은 예측률을 보였다. 이러한 예측 모듈을 게임 시 적극 활용하여 생동감 있는 경기를 할 수 있게 함으로써 프로야구 게임이 활성화 되도록 할 수 있을 것이며, 그러기 위해서는 실제 경기 상황과 유사한 상황을 전제로 더 많은 자료를 포함할 수 있는 공식을 이끌어 내는 것이 필요하다. 또한 휴리스틱 모델 생성 시 사용된 고정된 값들을 특정 상황에 맞게 변형하는 문제와 더욱 세밀한 홈/원정별, 구장별, 수비별 상황을 고려한 사례기반에 의한 예측이 이루어져야 할 것이다.
참고문헌 (10)
H. Almuallim and T. G. Dietterich. Efficient algorithm for identifying relevant features. In Proc. of 9th Canadian Conf. on Artificial Intelligence, Vancouver, Britich Columbia, pages 38-45. Morgan Kaufmann, 1992
서재순, '귀납적 추론을 이용한 프로야구 승패 예측시스템 개발에 관한 연구', 경희대학교, 1994
홍석미, '프로야구 승패 예측을 위한 게임 시뮬레이터 개발에 관한 연구', 경희대학교, 1997
허준희, '프로야구 경기 시뮬레이터에서 데이타마이닝을 이용한 투수 선정 및 투수 교체 시기 선택에 관한 연구', 경희대학교, 1999
P. S. Bradley, O. L. Managasarian, and W. N. Street. Feature selection via mathematical programming. INFORMS Journal on Computing, 10(2):209-217, 1998
W.S.Sarie. Neural networks and statistical models. In Proc. 19th Annual SAS Users Group Internationa Conference, pages 1538-1550. SAS Institute, 1994
M. Riedmiller. Advanced supervised learning in multi-layer perceptrons-from backpropagation to adaptive learning algorithms. International Journal of Computer Standards and Interfaces, 16(5): 265-278, 1994
R. Battiti. Using mutual information for selecting features in supervised neural net learning. IEEE Transaction on Neural Networks, 5(4):537-550, July 1994
C. Guerra-Salcedo, S. Chen, D. Whitley, and S. Smith. Fast and accurate feature selection using hybrid genetic strategies. In Proc. of Genetic and Evolutionary Computation Conference, pages 177-184, Piscataway, NJ, 1999. IEEE Service Center
※ AI-Helper는 부적절한 답변을 할 수 있습니다.