[논문]영화 관객 수 예측을 위한 기계학습 기법의 성능 평가 연구

정찬미; 민대기

doi:10.7838/jsebs.2020.25.2.049

영화 관객 수 예측을 위한 기계학습 기법의 성능 평가 연구
A Study on the Performance Evaluation of Machine Learning for Predicting the Number of Movie Audiences 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.25 no.2, 2020년, pp.49 - 63

정찬미 (Graduate School(Big Data Analytics), Ewha Womans University) , 민대기 (School of Business, Ewha Womans University)

초록
AI-Helper

영화 제작에 막대한 비용이 투입되지만 관객수요는 매우 불확실하기 때문에 개선된 수요예측은 수익 개선을 위한 의사결정의 중요 수단으로 활용될 수 있다. 본 연구에서는 영화의 개봉 후 수요를 예측함에 있어 기계학습 기법의 적용 타당성을 예측 성능의 관점에서 검증하였다. 분석결과를 종합하면 다음과 같다. 첫째, 대안변수에 대한 통계적 검증 결과 기본 영화 특성(감독, 배우)과 함께 개봉 후 2주차까지의 스크린수, 상영횟수, 관객수, 주요 배우에 대한 관심도 등 시계열 자료가 수요예측에 유의미한 것을 확인하였다. 둘째, Random Forest Classifier와 SVM(Support Vector Machine) 등 분류 기반 기계학습 기법과 Random Forest Regressor와 k-NN Regressor와 같은 회귀모형 기반 기계학습 기법에 적용하여 예측 성능을 평가한 결과, Random Forest 기법이 우수한 결과를 보였다. 셋째, 누적관객수가 1분위보다 작은 영화에서 회귀모형 기반 기법은 낮은 예측 정확도를 보였으며, 분류기반 기법은 반대로 가장 우수한 결과를 얻었다. 즉, 영화 수요의 분포 특성에 따라서 차별화된 기계학습 기법을 적용하는 것이 필요하다.

Abstract ▼ AI-Helper

The accurate prediction of box office in the early stage is crucial for film industry to make better managerial decision. With aims to improve the prediction performance, the purpose of this paper is to evaluate the use of machine learning methods. We tested both classification and regression based methods including k-NN, SVM and Random Forest. We first evaluate input variables, which show that reputation-related information generated during the first two-week period after release is significant. Prediction test results show that regression based methods provides lower prediction error, and Random Forest particularly outperforms other machine learning methods. Regression based method has better prediction power when films have small box office earnings. On the other hand, classification based method works better for predicting large box office earnings.

주제어

표/그림 (7)

표 Literature on Machine Learning Models
그림 Research Framework
표 Categorized Target Variable
표 Correlation Analysis between Input Variables and Target Variable
표 Cross Validation Results
그림 Predicted and Actual Values of Regression Models
표 Confusion Matrix of Classification Models

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

Random Forest 모형은 영화 관객 수 예측문제에서 성능이 우수한 것으로 알려져 있어 분류기반 모형과 회귀모형 기반 모형에서 모두 사용하였다[33]. K-NN과 SVM 은 다양한 유형의 데이터에 적용하기 쉽고 노이즈(noise)에 대한 영향이 적은 기법으로 노이즈가 존재하는 본 연구 데이터를 대상으로 Random Forest Classifier와 우수한 성능을 갖는지 비교하고자 한다.
본 논문에서는 영화산업에서 개봉 영화의 수익개선을 위한 의사결정을 지원하기 위한 목적에서 개봉 영화의 관객 수 예측 문제를 고려하 였다. 특히, 연속형 종속변수를 위한 회귀모형 기반 기계학습 모형과 범주형 종속변수를 대상 으로 하는 분류 기반 기계학습 모형의 예측성 능을 비교함으로써 의사결정에 유용한 정보의수준에 적합한 기계학습 모형을 확인하고자 한다.
본 논문은 개봉 영화의 관객 수 예측 문제를 대상으로 기존 연구에서 주로 사용했던 분류 기반의 기계학습 모형과 함께 연속형 종속변수를 대상으로 회귀모형 기반의 기계학습 모형의 성능을 비교 평가하는 것을 목적으로 한다. 이번 장에서는 이와 같은 연구목적을 달성하기 위한 연구 수행 절차와 단계별 주요 고려사항을 설명한다.
본 연구는 영화 수익 개선을 위한 의사결정에서 중요한 정보이지만 높은 불확실성으로 정확한 예측이 어려운 개봉 영화의 누적 관객 수예측 문제를 대상으로 기계학습 모형의 성능을 평가하였다. 특히, 기존 연구에서 주로 사용하던분류기반의 기계학습 예측 모형(k-NN, Random Forest Regressor)과 함께 회귀모형 기반의 기계학습 모형(SVM, Random Forest Classifier)의 적용 타당성을 분석하였다.
마지막으로 일부 연구에서 영화의 제작 국가 또는 상영 지역과 관객 수의 차이를 고려하고 있으나 지역별 차이에 의한 효과는 제한적으로 나타나고 있다[27, 31, 35]. 본 연구에서는 한국영화와 해외 영화의 특성 차이를 반영하기 위하여 두 영화를 단일 모형에서 함께 다루지 않고 한국 영화와 외국 영화를 분리한 모형 또한 구축하였다.
본 논문에서는 영화산업에서 개봉 영화의 수익개선을 위한 의사결정을 지원하기 위한 목적에서 개봉 영화의 관객 수 예측 문제를 고려하 였다. 특히, 연속형 종속변수를 위한 회귀모형 기반 기계학습 모형과 범주형 종속변수를 대상 으로 하는 분류 기반 기계학습 모형의 예측성 능을 비교함으로써 의사결정에 유용한 정보의수준에 적합한 기계학습 모형을 확인하고자 한다. 또한 기계학습 모형을 구성함에 있어 관객 수와 같은 시계열 데이터와 함께 영화 특성을 함께 입력변수로 고려함으로써 모형 특성에 따라서 예측성능 개선에 유용한 데이터의 특성을 제시한다.

제안 방법

2장에서 설명한 바와 같이 영화 속성과 시계열데이터로 구성된 28개 잠재 입력변수를 대상으로 예측에 유의미한 입력변수를 선정하기 위한 분석을 수행하였다. 종속변수(즉, 개봉 후 3주차의 누적 관객 수)와 잠재 입력변수 사이의 상관성에 대한 통계적 유의성 검정을 수행하여 최종입력변수를 선정하였다.
영화진흥위원회에서 수집한 영화 182편의 개봉 후 3주차 누적 관객 수는 최소 14만 명, 최대 1,150만 명, 평균 약 268만 명이었다. [Table 2]에 제시한 바와 같이 누적 관객 수의 분포를 고려하여 분류기반 기계학습 모형의 종속변수 (즉, 3주차 누적 관객 수)를 4분위수를 이용하여네 구간(A, B, C, D)으로 범주화하였다.
관객 수를 이용하여 도출한 주연배우의 영향력 점수와 함께 주연배우에 대한 대중의 관심 도를 반영하기 위해 개봉일 전후 3주, 즉 총 6주 동안 구글 트렌드(https:// trends.google.co.kr) 에서 수집한 주연배우 2인의 일별 검색량을 함께 고려하였다. 구글 트렌드의 검색량 데이터는 검색 기간 중 검색 빈도가 가장 높은 값을 100으로 정의하고, 이를 기준으로 일별 검색 빈도를 상대도수로 제시한다.
상영횟수는 영화별로 전국에서 상영된 횟수를 의미하며, 스크린수와 동일하게 개봉일 상영횟수, 개봉 첫 주간 누적 상영횟수, 둘째 주간 누적 상영횟수를 수집하였다. 관객수 또한 영화별로 일별 관객 수를 수집한 후에 이를 이용하여 개봉일과 주간 누적 관객수를 계산하였다.
기계학습 모형의 성능을 최적화하기 위하여 복수의 하이퍼 파라미터 조합에 대한 그리드 탐색(Grid Search) 기법을 적용하여 성능이 가장 우수한 결과를 제공하는 하이퍼 파라미터 조합을 설정하였다. Decision Tree의 개수와 깊이는 각각 100과 5로 결정하였다.
네 가지 기계학습 모형을 이용하여 10-fold cross validation을 수행한 결과를 [Table 4] 에 요약하여 제시하였다. 실험결과 Random Forest Regressor, Random Forest Classifier, SVM, k-NN Regressor 순으로 예측 정확도가 우수한 것으로 확인되었다.
네 가지 기계학습 모형을 이용하여 학습과 검증 실험을 수행하고 예측 성능을 비교 평가 하였다. 수집한 데이터는 학습용 데이터 70%과검증용 데이터 30%로 분류하고 10-fold 교차검 증(cross validation)을 수행하였다.
누적 관객 수의 가중평균을 활용하여 예측 대상 영화의 누적 관객 수를 예측한다. 본 논문에 서는 Euclidian 거리함수를 이용하여 속성간 유사도를 측정하였으며, 근접 이웃의 개수 k는 사전 실험을 통하여 성능이 가장 우수한 값인 5를 선정하였다.
예를 들어, 주연배우의 전작 관객 수를 해당 배우의 영향력 지표로반영한 선행연구들[10, 19]을 참고하여 영화별로 주연배우 2인의 과거 3년간 전작 관객 수 평균을 배우의 영향력 점수로 사용하였다. 동일한 방법으로 감독, 배급사, 제작사, 수입사의 영행력 점수 또한 과거 3년간 전작 관객 수 평균을 이용하여 계산하였다. 애니메이션 장르의경우 배우의 영향력 점수는 제외하였으며, 외화의 제작사 점수와 국내 영화의 수입사 영향력 점수 또한 0점으로 처리하였다.
우선, 개봉 영화의 관객 수 예측을 위한 입력변수 선정과 관련한 문헌 연구를 살펴보고, 이를 기반으로 본 논문에서 수집한 데 이터 및 전처리 과정을 설명한다. 둘째, 수집한데이터를 활용하여 관객 수 예측에 사용한 기계학습 모형의 특성과 성능 평가 방법을 제시 한다. [Figure 1]은 데이터 수집 및 전처리, 기계학습 모형의 구성, 예측 성과 평가 등의 4 단계로 구성된 연구절차를 나타낸다.
특히, 연속형 종속변수를 위한 회귀모형 기반 기계학습 모형과 범주형 종속변수를 대상 으로 하는 분류 기반 기계학습 모형의 예측성 능을 비교함으로써 의사결정에 유용한 정보의수준에 적합한 기계학습 모형을 확인하고자 한다. 또한 기계학습 모형을 구성함에 있어 관객 수와 같은 시계열 데이터와 함께 영화 특성을 함께 입력변수로 고려함으로써 모형 특성에 따라서 예측성능 개선에 유용한 데이터의 특성을 제시한다.
본 논문 또한 개봉 3주차까지의 누적 관객 수 예측을 위하여 앞서 제시한 데이터를 개봉 후 3주차까지 수집하였다. 또한 본 연구에 사용된 데이터는 모두 수치형 자료이며, 원자료의 편차가 매우 큰 문제를 해결하고 학습의 안정적 수렴을 확보하기 위하여 분포가 평균이 0이고 표준편차가 1이 되도록 표준화 스케일링 (Standard Scaling) 전처리 과정을 수행하였다.
특히, 기존 연구에서 주로 사용하던분류기반의 기계학습 예측 모형(k-NN, Random Forest Regressor)과 함께 회귀모형 기반의 기계학습 모형(SVM, Random Forest Classifier)의 적용 타당성을 분석하였다. 또한 영화의 기본 속성 정보와 시계열 데이터로부터 관객수 예측에 유의미한 입력변수를 선정하기 위한데이터 처리 방법과 통계적 검정 분석 결과를 제시하였다.
배우, 감독, 제작사, 수입사 등 영화의 기본 정보를 정량화하기 위하여 관객 수를 이용한 파생 변수를 생성하였다. 예를 들어, 주연배우의 전작 관객 수를 해당 배우의 영향력 지표로반영한 선행연구들[10, 19]을 참고하여 영화별로 주연배우 2인의 과거 3년간 전작 관객 수 평균을 배우의 영향력 점수로 사용하였다.
누적 관객 수의 가중평균을 활용하여 예측 대상 영화의 누적 관객 수를 예측한다. 본 논문에 서는 Euclidian 거리함수를 이용하여 속성간 유사도를 측정하였으며, 근접 이웃의 개수 k는 사전 실험을 통하여 성능이 가장 우수한 값인 5를 선정하였다.
본 연구에서는 개봉 영화의 관객 수 예측과 관련한 기존 문헌에서 사용하고 있는 영화 속성 정보와 이를 정량화한 인터넷 검색량, 그리고 과거 관객 수 등의 시계열 데이터를 잠재 변수로 고려하였다. 다음 절에서는 본 논문에서 고려하고 있는 잠재 변수와 관련한 데이터의 수집 및 전처리 방안을 설명하도록 한다.
따라서 구글 트렌드의 검색량 데이터는 주연배우에 대한 관심도를 절대적으로 단순 비교하는데 적절하지 않다. 본 연구에서는 일별 상대도수 값을 직접 적용 하는 대신에 기간별 누적값을 사용함으로써 검 색 기간 내에서 대중들의 관심이 얼마나 꾸준 하게 지속되었는지 정량적으로 나타내는 지표로 활용하였다.
상영 스크린수는 영화가 1회차 이상 상영된 경우를 대상으로 일별 상영 스크린수를 수집하였으며, 이를 이용하여 개봉일 스크린수, 개봉첫 주간 누적 스크린수, 둘째 주간 누적 스크린수 등 주간 누적 스크린수를 계산하여 예측에 이용하였다. 상영횟수는 영화별로 전국에서 상영된 횟수를 의미하며, 스크린수와 동일하게 개봉일 상영횟수, 개봉 첫 주간 누적 상영횟수, 둘째 주간 누적 상영횟수를 수집하였다.
상영 스크린수는 영화가 1회차 이상 상영된 경우를 대상으로 일별 상영 스크린수를 수집하였으며, 이를 이용하여 개봉일 스크린수, 개봉첫 주간 누적 스크린수, 둘째 주간 누적 스크린수 등 주간 누적 스크린수를 계산하여 예측에 이용하였다. 상영횟수는 영화별로 전국에서 상영된 횟수를 의미하며, 스크린수와 동일하게 개봉일 상영횟수, 개봉 첫 주간 누적 상영횟수, 둘째 주간 누적 상영횟수를 수집하였다. 관객수 또한 영화별로 일별 관객 수를 수집한 후에 이를 이용하여 개봉일과 주간 누적 관객수를 계산하였다.
제 2장에서는 연구문제를 정의하고, 연구방법론을 설명한다. 연구방법론에서는 기계학습 모형과 함께 본 논문에서 고려한 주요 입력변수를 제시한다. 제 3장에서는 수치실험 결과를 통하여 기계학습 모형의 예측 성능을 비교평가하고, 제 4장에서는 본 연구의 결론과 향후 연구주제를 제시한다.
본 연구는 영화 수익 개선을 위한 의사결정에서 중요한 정보이지만 높은 불확실성으로 정확한 예측이 어려운 개봉 영화의 누적 관객 수예측 문제를 대상으로 기계학습 모형의 성능을 평가하였다. 특히, 기존 연구에서 주로 사용하던분류기반의 기계학습 예측 모형(k-NN, Random Forest Regressor)과 함께 회귀모형 기반의 기계학습 모형(SVM, Random Forest Classifier)의 적용 타당성을 분석하였다. 또한 영화의 기본 속성 정보와 시계열 데이터로부터 관객수 예측에 유의미한 입력변수를 선정하기 위한데이터 처리 방법과 통계적 검정 분석 결과를 제시하였다.

대상 데이터

일반적으로 개봉 영화의 흥행여부는 개봉 후첫 3주 기간 내에 결정되는 것으로 알려져 있으 며[17], 다수의 국내연구에서 개봉 후 3주 차 시점에서의 관객 수 예측 문제를 고려하고 있다 [13, 17]. 본 논문 또한 개봉 3주차까지의 누적 관객 수 예측을 위하여 앞서 제시한 데이터를 개봉 후 3주차까지 수집하였다. 또한 본 연구에 사용된 데이터는 모두 수치형 자료이며, 원자료의 편차가 매우 큰 문제를 해결하고 학습의 안정적 수렴을 확보하기 위하여 분포가 평균이 0이고 표준편차가 1이 되도록 표준화 스케일링 (Standard Scaling) 전처리 과정을 수행하였다.
연구수행을 위한 기초 데이터로 2015년부터 2018년 7월까지 국내에서 개봉된 전체 영화들 중에서 최종 누적 관객 수 20,000명 이상이고 총 상영 일수가 21일 이상인 영화 182편을 수집 하였다. 분석 대상인 영화 182편 중에서 한국영화와 외화는 각각 102편과 80편 이었다. 영화의 기본 정보 (배우, 감독, 제작사, 수입사, 배급사 등)와 영화별 상영 스크린수, 상영횟수, 관객 수등의 기초 데이터는 영화진흥위원회 ()가 제공 하는 open API를 이용하여 수집하였다.
연구수행을 위한 기초 데이터로 2015년부터 2018년 7월까지 국내에서 개봉된 전체 영화들 중에서 최종 누적 관객 수 20,000명 이상이고 총 상영 일수가 21일 이상인 영화 182편을 수집 하였다. 분석 대상인 영화 182편 중에서 한국영화와 외화는 각각 102편과 80편 이었다.
분석 대상인 영화 182편 중에서 한국영화와 외화는 각각 102편과 80편 이었다. 영화의 기본 정보 (배우, 감독, 제작사, 수입사, 배급사 등)와 영화별 상영 스크린수, 상영횟수, 관객 수등의 기초 데이터는 영화진흥위원회 ()가 제공 하는 open API를 이용하여 수집하였다.

데이터처리

네 가지 기계학습 모형을 이용하여 학습과 검증 실험을 수행하고 예측 성능을 비교 평가 하였다. 수집한 데이터는 학습용 데이터 70%과검증용 데이터 30%로 분류하고 10-fold 교차검 증(cross validation)을 수행하였다. 회귀모형 기반의 기계학습 모형의 예측 성능은 MAPE (Mean Absolute Percentage Error)와 MASE (Mean Absolute Scaled Error)를 사용하였으 며, 분류기반 모형의 예측성능 평가를 위하여 Confusion matrix를 제시하였다.
2장에서 설명한 바와 같이 영화 속성과 시계열데이터로 구성된 28개 잠재 입력변수를 대상으로 예측에 유의미한 입력변수를 선정하기 위한 분석을 수행하였다. 종속변수(즉, 개봉 후 3주차의 누적 관객 수)와 잠재 입력변수 사이의 상관성에 대한 통계적 유의성 검정을 수행하여 최종입력변수를 선정하였다. 모형에서 사용한 입력변수는 표로 정리하여 Appendix에 제시하였다.
수집한 데이터는 학습용 데이터 70%과검증용 데이터 30%로 분류하고 10-fold 교차검 증(cross validation)을 수행하였다. 회귀모형 기반의 기계학습 모형의 예측 성능은 MAPE (Mean Absolute Percentage Error)와 MASE (Mean Absolute Scaled Error)를 사용하였으 며, 분류기반 모형의 예측성능 평가를 위하여 Confusion matrix를 제시하였다.

이론/모형

개봉 후 3주차 시점에서의 누적 관객 수 예측을 위한 기계학습 모형은 앞서 언급한 바와 같이 종속변수의 유형에 따라서 회귀모형 기반의 k-NN Regressor, Random Forest Regressor와 분류모형 기반의 SVM, Random Forest Classifier를 사용하였다. Random Forest 모형은 영화 관객 수 예측문제에서 성능이 우수한 것으로 알려져 있어 분류기반 모형과 회귀모형 기반 모형에서 모두 사용하였다[33].
[30]은 개봉 영화의 ROI(Return On Investment)를 네 가지 범주로 정의하여 분류모형을 적용하였다. 기존 연구에서는 분류 기반 기계학습 모형으로 ANN[6, 18, 34], Decision Tree(DT)[6, 12, 18], Bayesian Belief Network(BBN)[18], Random Forest(RF) [12], Support Vector Machine (SVM)[12, 30] 등을 활용하였다. 특히, Guo et al.
영화 관객 수 예측과 관련한 기존 연구는 선형 회귀분석 및 확률 모형을 포함한 통계적 모형[4, 8, 19, 23, 31], 확산모형(Diffusion Model) 및 벡터자동회귀(Vector Autoregression; VAR)와 같은 시계열 예측 모형[24, 31, 32], 인공신경망 (Artificial Neural Network; ANN)과 같은 기계 학습(Machine Learning) 모형[6, 18, 26, 34] 등세 가지 유형의 방법론을 활용하였다. 특히, 최근 분류 기반 기계학습 모형과 회귀모형 기반 기계학습 모형을 활용한 연구가 활발하게 진행되고 있다([Table 1] 참조).

성능/효과

MAPE와 MASE를 대상으로 paired t-test를 수행한 결과 Random Forest 모형의 예측 오차가 통계적으로 유의미하게 더 낮은 것을 확인하였다. 이와 같은 성능 차이는 상대적으로 입력변수의 수가 많고 데이터양이 적은 본 연구 데이터의 특성을 고려할 때 다수 샘플을 이용한 앙상블 기반의 Random Forest 모형이 단일 모형을 사용하는 k-NN과 비교하여 우수한 성능을 보인 것으로 판단된다.
Random Forest 기법이 전반적으로 예측 성능이 우수한 결과는 입력변수가 많고 데이터가 적은 본 연구 데이터 특성에 따라서 다수 표본을 활용한 앙상블 기법 기반의 Random Forest 기법의 예측 정확도가 높게 나온 것으로 판단된다. 따라서 가용 정보가 제한적이고 입력변수가 적은 상황에서 동일한 연구결과를 기대할 수 있는지 추가 실험이 요구된다.
[Table 6]은 검증용 데이터를 대상으로 SVM 과 Random Forest Classifier를 적용하여 분류를 실행한 결과를 정리한 confusion matrix이다. SVM과 Random Forest Classifier의 예측 성능을 비교했을 때, 전반적으로 Random Forest Classifier가 모든 범주에서 높은 분류 정확도를 보였다. 또한 적용 기계학습 모형과 관계없이 누적 관객 수가 적은 범주에 대하여 전반적으로 분류 성능이 우수하게 나타났다.
Abel et al.[1]은 영화 흥행 수익과 음반판매량 데이터를 대상으로 8개의 기계학습 기법과 단순 선형회귀모형의 예측성능을 비교하였으며, 기계학습 기법이 선형회귀모형보다 예측성능이 우수함을 확인하였다. Kim et al.
첫째, 개봉 후 3주 차의 누적 관객 수 예측에서는 개봉 후 2주 동 안의 정보(예: 관객수, 스크린수, 배우에 대한 관심도 등)가 유의미한 관계를 보였으며, 개봉이전 및 개봉 당일의 정보에서는 유의미한 관계를 확인할 수 없었다. 둘째, 분류기반 모형과 비교하여 회귀모형 기반의 기계학습 모형이 보다 안정적인 예측 성능을 보였다. 또한 분류 기반과 회귀모형 기반 기계학습 모형에서 모두 Random Forest 기법이 가장 우수한 예측 정확도를 보였다.
둘째, 분류기반 모형과 비교하여 회귀모형 기반의 기계학습 모형이 보다 안정적인 예측 성능을 보였다. 또한 분류 기반과 회귀모형 기반 기계학습 모형에서 모두 Random Forest 기법이 가장 우수한 예측 정확도를 보였다. 마지막으로, 분류기반 기계 학습 모형의 경우 누적 관객 수가 적은 범주에 대하여 전반적으로 분류 성능이 우수하게 나타났다.
SVM과 Random Forest Classifier의 예측 성능을 비교했을 때, 전반적으로 Random Forest Classifier가 모든 범주에서 높은 분류 정확도를 보였다. 또한 적용 기계학습 모형과 관계없이 누적 관객 수가 적은 범주에 대하여 전반적으로 분류 성능이 우수하게 나타났다. 누적 관객 수가 400만 명～600만 명 구간을 의미하는 범주 C의 precision이 가장 낮은 수준을 보이고 있는데, 이는 해당 구간에 속하는 데이터가 다른 범주와 비교하여 상대적으로 매우 적어 학습이 적절하게 이루어지지 이유로 판단된다.
또한 분류 기반과 회귀모형 기반 기계학습 모형에서 모두 Random Forest 기법이 가장 우수한 예측 정확도를 보였다. 마지막으로, 분류기반 기계 학습 모형의 경우 누적 관객 수가 적은 범주에 대하여 전반적으로 분류 성능이 우수하게 나타났다.
실험결과 Random Forest Regressor, Random Forest Classifier, SVM, k-NN Regressor 순으로 예측 정확도가 우수한 것으로 확인되었다. 분류기반 모형과 회귀기반 모형에 대한 전반적인 성능을 비교해볼 때 모두 Random Forest의 성능이 우수한 것으로 나타났다.
[Table 3]은 종속변수와 개별 잠재 입력변수 사이의 상관분석 결과로 도출된 검정통계량및 유의성 결과를 나타낸다. 분석결과 영화 속성및 시계열 데이터와 관련 변수의 경우 배우 1의 영향력 점수(Actor 1), 감독/배급사/제작사의 영향력 점수(Director, Distributor, Producer), 개봉 후 1주차와 2주차의 누적 관객수, 스크린수, 상영횟수(scrnCnt, audiAcc, showCnt) 등이 종속변수와 유의미한 상관성을 갖는 것으로 확인 되었다. 반면에 배우 2의 영향력 점수(Actor 2) 와 개봉일(release)의 관객수, 스크린수, 상영횟 수는 모두 상관관계가 존재하지 않았다.
네 가지 기계학습 모형을 이용하여 10-fold cross validation을 수행한 결과를 [Table 4] 에 요약하여 제시하였다. 실험결과 Random Forest Regressor, Random Forest Classifier, SVM, k-NN Regressor 순으로 예측 정확도가 우수한 것으로 확인되었다. 분류기반 모형과 회귀기반 모형에 대한 전반적인 성능을 비교해볼 때 모두 Random Forest의 성능이 우수한 것으로 나타났다.
한국영화의 경우 누적 관객 수가 적은 범주 A의 분류 성능이 우수한 반면 외화의 경우 누적 관객 수가 많은 범주 C 또는 D에서 분류 성능이 가장 우수하였다. 외화의 경우 검증용 데이터가 많지 않아 실험 결과의 신뢰도가 다소 떨어진다는 한계가 있으나, 한국영화와 비교하여 정보가 제한되어 입력변수를 제한적으로 사용했음에도 불구하고 분류기반 기계학습 모형이 적절하게 적용될 수 있음을 확인하였다.
MAPE와 MASE를 대상으로 paired t-test를 수행한 결과 Random Forest 모형의 예측 오차가 통계적으로 유의미하게 더 낮은 것을 확인하였다. 이와 같은 성능 차이는 상대적으로 입력변수의 수가 많고 데이터양이 적은 본 연구 데이터의 특성을 고려할 때 다수 샘플을 이용한 앙상블 기반의 Random Forest 모형이 단일 모형을 사용하는 k-NN과 비교하여 우수한 성능을 보인 것으로 판단된다.
본 논문의 분석결과 다음과 같은 몇 가지 흥미로운 결과를 도출하였다. 첫째, 개봉 후 3주 차의 누적 관객 수 예측에서는 개봉 후 2주 동 안의 정보(예: 관객수, 스크린수, 배우에 대한 관심도 등)가 유의미한 관계를 보였으며, 개봉이전 및 개봉 당일의 정보에서는 유의미한 관계를 확인할 수 없었다. 둘째, 분류기반 모형과 비교하여 회귀모형 기반의 기계학습 모형이 보다 안정적인 예측 성능을 보였다.

후속연구

Random Forest 기법이 전반적으로 예측 성능이 우수한 결과는 입력변수가 많고 데이터가 적은 본 연구 데이터 특성에 따라서 다수 표본을 활용한 앙상블 기법 기반의 Random Forest 기법의 예측 정확도가 높게 나온 것으로 판단된다. 따라서 가용 정보가 제한적이고 입력변수가 적은 상황에서 동일한 연구결과를 기대할 수 있는지 추가 실험이 요구된다. 또한, 약 3년간 국내에서 개봉한 총 182편의 영화를 대상으로 분석을 수행하였으나 학습모형을 적용함에 있어 데이터가 충분하지 않은 한계가존재하며, 향후 학습과 검증을 위한 데이터를추가로 확보하여 실험을 진행하는 것이 필요하다.
따라서 가용 정보가 제한적이고 입력변수가 적은 상황에서 동일한 연구결과를 기대할 수 있는지 추가 실험이 요구된다. 또한, 약 3년간 국내에서 개봉한 총 182편의 영화를 대상으로 분석을 수행하였으나 학습모형을 적용함에 있어 데이터가 충분하지 않은 한계가존재하며, 향후 학습과 검증을 위한 데이터를추가로 확보하여 실험을 진행하는 것이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	분류 기반 기계학습 기법과 회귀 모형 기반 기계학습 기법의 적용을 특성에 따라 차별화하여 적용해야 하는 이유는 무엇인가?	둘째, Random Forest Classifier와 SVM(Support Vector Machine) 등 분류 기반 기계학습 기법과 Random Forest Regressor와 k-NN Regressor와 같은 회귀모형 기반 기계학습 기법에 적용하여 예측 성능을 평가한 결과, Random Forest 기법이 우수한 결과를 보였다. 셋째, 누적관객수가 1분위보다 작은 영화에서 회귀모형 기반 기법은 낮은 예측 정확도를 보였으며, 분류기반 기법은 반대로 가장 우수한 결과를 얻었다. 즉, 영화 수요의 분포 특성에 따라서 차별화된 기계학습 기법을 적용하는 것이 필요하다.
	SVM은 무엇이며 특징은 어떻게 되는가?	SVM은 패턴 인식 및 자료 분석을 위한 지도 학습(Supervised Learning) 기법으로, k-NN과 같이 다양한 데이터 유형에 적용하기 쉽고 노이즈에 대한 영향이 적은 장점이 있다. 하지만 최적의 모델을 찾기 위해 Kernel과 매개변수들 사이의 조합에 대한 성능 실험이 필요하며 입 력변수와 데이터가 많은 경우 학습이 오래 걸리는 단점이 있다[8, 9].
	Random Forest 기법이 전반적으로 예측 성능이 우수한 이유는 무엇인가?	Random Forest 기법이 전반적으로 예측 성능이 우수한 결과는 입력변수가 많고 데이터가 적은 본 연구 데이터 특성에 따라서 다수 표본을 활용한 앙상블 기법 기반의 Random Forest 기법의 예측 정확도가 높게 나온 것으로 판단된다. 따라서 가용 정보가 제한적이고 입력변수가 적은 상황에서 동일한 연구결과를 기대할 수 있는지 추가 실험이 요구된다.

참고문헌 (36)

Abel, F., Diaz-Aviles, E., Henze, N., Krause, D., and Siehndel, P., "Analyzing the Blogosphere for predicting the success of music and movie products," International Conference on Advances in Social Networks Analysis and Mining, pp. 276-280, 2010.
Breiman, L., Machine Learning 45:5. Kluwer Academic Publishers, 2001.
Brewer, S. M., Kelley, J. M., and Jozefowicz, J. J., "A blueprint for success in the US film industry," Applied Economics, Vol. 41, No. 5, pp. 589-606, 2009.

상세보기
Chintagunta, P. K., Gopinath, S., and Venkataraman, S., "The effects of online user reviews on movie box office performance: Accounting for sequential rollout and aggregation across local markets," Marketing Science, Vol. 29, No. 5, pp. 944-957, 2010.

상세보기
Chong, M., "Evaluating real-time search query variation for intelligent information retrieval service," Journal of Digital Convergence, Vol. 16, No. 12, pp. 335-342, 2018.
Delen, D., Sharda, R., and Kumar, P., "Movie forecast Guru: A Web-based DSS for Hollywood managers," Decision Support Systems, Vol. 43, No. 4, pp. 1151-1170, 2007.

상세보기
Demir, D., Kapralova, O., and Lai, H., "Predicting IMDB movie ratings using Google Trends," 2012.
Eliashberg, J. and Shugan, S. M., "Film Critics: Influencers or Predictors?," Journal of Marketing, Vol. 61, No. 2, pp. 68-78, 1997.

상세보기
Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M., and Brilliant, L., "Detecting influenza epidemics using search engine query data," Nature, Vol. 457, No. 19, pp. 1012-1015, 2009.

상세보기
Gong, J. J., Young, S. M., and der Stede, W. A. V.. "Real options in the motion picture industry: Evidence from film marketing and sequels," Contemporary Accounting Research, Vol. 28, No. 5, pp. 1438-1466, 2011.

상세보기
Gunn, S. R., "Support vector machines for classification and regression," ISIS technical report, Vol. 14, No. 1, pp. 5-16, 1998.
Guo, Z., Zhang, X., and Hou, Y., "Predicting box office receipts of movies with pruned Random Forest," International Conference on Neural Information Processing ICONIP 2015: Neural Information Processing, pp. 55-62, 2015.
Jung, J., Hwang, S., and Kwon, C., "Forecasting Korean Unemployment Rate with Web Queries," Korean Institute of Industrial Engineers, pp. 3373-3377, 2015.
Kim, J. and Kim., J., "Relationship between Internet Buzz Share and Market Share : Movie Ticket Case", The Journal of Society for e-Business Studies, Vol. 18, No. 2, pp. 241-255, 2013.
Kim, T., Hong, J., and Kang, P., "Box office forecasting using machine learning algorithms based on SNS data," International Journal of Forecasting, Vol. 31, pp. 364-390, 2015.

상세보기
Koo, P. and Kim, M., "A Study on the Relationship between Internet Search Trends and Company's Stock Price and Trading Volume", The Journal of Society for e-Business Studies, Vol. 20, No. 2, pp. 1-14, 2015.
Kwon, S. J., "Factors influencing Cinema Success: using News and Online Rates," Review of Culture & Economy, Vol. 17, No. 1, pp. 35-55, 2014.
Lee, K. J. and Chang, W., "Bayesian belief network for box-office performance: A case study on Korean movies," Expert Systems with Applications, Vol. 36, pp. 280-291, 2009.

상세보기
Litman, B. R., "Predicting Success of Theatrical Movies: An Empirical Study," The Journal of Popular Culture, Vol. 16, No. 4, pp. 159-175, 1983.

상세보기
Lovallo, D., Clarke, C., and Camerer, C., "Robust analogizing and the outside view: two empirical tests of case-based decision making," Strategic Management Journal, Vol. 33, No. 5, pp. 496-512, 2012.

상세보기
Preis, T., Moat, H., and Stanley, H., "Quantifying trading behavior in financial markets using Google trends," Science Report, Vol. 3, p. 1684, 2013.

상세보기
Qin, L., "Word-of-Blog for movies: A predictor and an outcome of box office revenue?," Journal of Electronic Commerce Research, Vol. 12, No. 3, pp. 187-198, 2011.
Ravid, S. A., "Information, blockbusters, and stars: A study of the film industry," The Journal of Business, Vol. 72, No. 4, pp. 463-492, 1999.

상세보기
Rogers, E. M., "New product adoption and diffusion," Journal of Consumer Research, Vol. 2, No. 4, pp. 290-301, 1976.

상세보기
Sawhney, M. S. and Eliashberg, J., "A parsimonious model for forecasting gross box-office revenues of motion pictures," Marketing Science, Vol. 15, No. 2, pp. 113-131, 1996.

상세보기
Sharda, R. and Delen, D., "Predicting boxoffice success of motion pictures with neural networks," Expert Systems with Applications, Vol. 30, pp. 243-254, 2006.

상세보기
Simonoff, J. S. and Sparraw, I. R., "Predicting movie grosses: winners and losers, blockbusters and sleepers," Chance, Vol. 13, No. 3, pp. 15-24, 2000.

상세보기
Siroky, D. S., "Navigating Random Forests and related advances in algorithmic modeling," Statistics Survey, Vol. 3, pp. 147-163, 2009.

상세보기
Song, J., Choi., K., and Kim. G., "Development of New Variables Affecting Movie Success and Prediction of Weekly Box Office Using Them Based on Machine Learning," Journal of Intelligent Information System, Vol. 24, No. 4, pp. 67-83, 2018.
Subramaniyaswamy, V., Viginesh, V. M., Vishnu, P. R., and Logesh, R., "Predicting movie box office success using multiple regression and SVM," 2017 International Conference on Intelligent Sustainable Systems(ICISS), pp. 182-186, 2017.
Wang, F., Zhang, Y., Li, X., and Zhu, H., "Why do moviegoers go to the theater? The role of prerelease media publicity and online word of mouth in driving moviegoing behavior," Journal of Interactive Advertising, Vol. 11, No. 1, pp. 50-62, 2010.

상세보기
Wen, K. and Yang, C., "Determinants of the box office performance of motion picture in China-indication for Chinese motion picture market by adapting determinants of the box office(part II)," Journal of Science and Innovation, Vol. 1, No. 4, pp. 17-26, 2011.
Yu, L., Zhao, Y., Tang, L., and Yang, Z., "Online big data-driven oil consumption forecasting with Google trends," International Journal of Forecasting, Vol. 35, pp. 213-223, 2019.

상세보기
Zhang, L., Luo, J., and Yang, S., "Forecasting box office revenue of movies with BP neural network," Expert Systems with Applications, Vol. 36, pp. 6580-6587, 2009.

상세보기
Zhang, W. and Skiena, S., "Improving movie gross prediction through news analysis," 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology-Workshops, pp. 301-304, 2009.
Zhang, Z., Li, B., Deng, Z., Chai, J., Wang, Y., and An, M., "Research on movie box office forecasting based on internet data," 2015 8th International Symposium on Computational Intelligence and Design, 2015.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증