영화 관객 수 예측을 위한 기계학습 기법의 성능 평가 연구
A Study on the Performance Evaluation of Machine Learning for Predicting the Number of Movie Audiences 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.25 no.2, 2020년, pp.49 - 63  

정찬미 (Graduate School(Big Data Analytics), Ewha Womans University) ,  민대기 (School of Business, Ewha Womans University)

영화 제작에 막대한 비용이 투입되지만 관객수요는 매우 불확실하기 때문에 개선된 수요예측은 수익 개선을 위한 의사결정의 중요 수단으로 활용될 수 있다. 본 연구에서는 영화의 개봉 후 수요를 예측함에 있어 기계학습 기법의 적용 타당성을 예측 성능의 관점에서 검증하였다. 분석결과를 종합하면 다음과 같다. 첫째, 대안변수에 대한 통계적 검증 결과 기본 영화 특성(감독, 배우)과 함께 개봉 후 2주차까지의 스크린수, 상영횟수, 관객수, 주요 배우에 대한 관심도 등 시계열 자료가 수요예측에 유의미한 것을 확인하였다. 둘째, Random Forest Classifier와 SVM(Support Vector Machine) 등 분류 기반 기계학습 기법과 Random Forest Regressor와 k-NN Regressor와 같은 회귀모형 기반 기계학습 기법에 적용하여 예측 성능을 평가한 결과, Random Forest 기법이 우수한 결과를 보였다. 셋째, 누적관객수가 1분위보다 작은 영화에서 회귀모형 기반 기법은 낮은 예측 정확도를 보였으며, 분류기반 기법은 반대로 가장 우수한 결과를 얻었다. 즉, 영화 수요의 분포 특성에 따라서 차별화된 기계학습 기법을 적용하는 것이 필요하다.

The accurate prediction of box office in the early stage is crucial for film industry to make better managerial decision. With aims to improve the prediction performance, the purpose of this paper is to evaluate the use of machine learning methods. We tested both classification and regression based ...


문제 정의

  • Random Forest 모형은 영화 관객 수 예측문제에서 성능이 우수한 것으로 알려져 있어 분류기반 모형과 회귀모형 기반 모형에서 모두 사용하였다[33]. K-NN과 SVM 은 다양한 유형의 데이터에 적용하기 쉽고 노이즈(noise)에 대한 영향이 적은 기법으로 노이즈가 존재하는 본 연구 데이터를 대상으로 Random Forest Classifier와 우수한 성능을 갖는지 비교하고자 한다.
  • 본 논문에서는 영화산업에서 개봉 영화의 수익개선을 위한 의사결정을 지원하기 위한 목적에서 개봉 영화의 관객 수 예측 문제를 고려하 였다. 특히, 연속형 종속변수를 위한 회귀모형 기반 기계학습 모형과 범주형 종속변수를 대상 으로 하는 분류 기반 기계학습 모형의 예측성 능을 비교함으로써 의사결정에 유용한 정보의수준에 적합한 기계학습 모형을 확인하고자 한다.
  • 본 논문은 개봉 영화의 관객 수 예측 문제를 대상으로 기존 연구에서 주로 사용했던 분류 기반의 기계학습 모형과 함께 연속형 종속변수를 대상으로 회귀모형 기반의 기계학습 모형의 성능을 비교 평가하는 것을 목적으로 한다. 이번 장에서는 이와 같은 연구목적을 달성하기 위한 연구 수행 절차와 단계별 주요 고려사항을 설명한다.
  • 본 연구는 영화 수익 개선을 위한 의사결정에서 중요한 정보이지만 높은 불확실성으로 정확한 예측이 어려운 개봉 영화의 누적 관객 수예측 문제를 대상으로 기계학습 모형의 성능을 평가하였다. 특히, 기존 연구에서 주로 사용하던분류기반의 기계학습 예측 모형(k-NN, Random Forest Regressor)과 함께 회귀모형 기반의 기계학습 모형(SVM, Random Forest Classifier)의 적용 타당성을 분석하였다.
  • 마지막으로 일부 연구에서 영화의 제작 국가 또는 상영 지역과 관객 수의 차이를 고려하고 있으나 지역별 차이에 의한 효과는 제한적으로 나타나고 있다[27, 31, 35]. 본 연구에서는 한국영화와 해외 영화의 특성 차이를 반영하기 위하여 두 영화를 단일 모형에서 함께 다루지 않고 한국 영화와 외국 영화를 분리한 모형 또한 구축하였다.
  • 본 논문에서는 영화산업에서 개봉 영화의 수익개선을 위한 의사결정을 지원하기 위한 목적에서 개봉 영화의 관객 수 예측 문제를 고려하 였다. 특히, 연속형 종속변수를 위한 회귀모형 기반 기계학습 모형과 범주형 종속변수를 대상 으로 하는 분류 기반 기계학습 모형의 예측성 능을 비교함으로써 의사결정에 유용한 정보의수준에 적합한 기계학습 모형을 확인하고자 한다. 또한 기계학습 모형을 구성함에 있어 관객 수와 같은 시계열 데이터와 함께 영화 특성을 함께 입력변수로 고려함으로써 모형 특성에 따라서 예측성능 개선에 유용한 데이터의 특성을 제시한다.
핵심어 질문 논문에서 추출한 답변
분류 기반 기계학습 기법과 회귀 모형 기반 기계학습 기법의 적용을 특성에 따라 차별화하여 적용해야 하는 이유는 무엇인가? 둘째, Random Forest Classifier와 SVM(Support Vector Machine) 등 분류 기반 기계학습 기법과 Random Forest Regressor와 k-NN Regressor와 같은 회귀모형 기반 기계학습 기법에 적용하여 예측 성능을 평가한 결과, Random Forest 기법이 우수한 결과를 보였다. 셋째, 누적관객수가 1분위보다 작은 영화에서 회귀모형 기반 기법은 낮은 예측 정확도를 보였으며, 분류기반 기법은 반대로 가장 우수한 결과를 얻었다. 즉, 영화 수요의 분포 특성에 따라서 차별화된 기계학습 기법을 적용하는 것이 필요하다.
SVM은 무엇이며 특징은 어떻게 되는가? SVM은 패턴 인식 및 자료 분석을 위한 지도 학습(Supervised Learning) 기법으로, k-NN과 같이 다양한 데이터 유형에 적용하기 쉽고 노이즈에 대한 영향이 적은 장점이 있다. 하지만 최적의 모델을 찾기 위해 Kernel과 매개변수들 사이의 조합에 대한 성능 실험이 필요하며 입 력변수와 데이터가 많은 경우 학습이 오래 걸리는 단점이 있다[8, 9].
Random Forest 기법이 전반적으로 예측 성능이 우수한 이유는 무엇인가? Random Forest 기법이 전반적으로 예측 성능이 우수한 결과는 입력변수가 많고 데이터가 적은 본 연구 데이터 특성에 따라서 다수 표본을 활용한 앙상블 기법 기반의 Random Forest 기법의 예측 정확도가 높게 나온 것으로 판단된다. 따라서 가용 정보가 제한적이고 입력변수가 적은 상황에서 동일한 연구결과를 기대할 수 있는지 추가 실험이 요구된다.
참고문헌 (36)

