소셜 빅데이터 분석과 기계학습을 이용한 영화흥행예측 기법의 실험적 평가 An Experimental Evaluation of Box office Revenue Prediction through Social Bigdata Analysis and Machine Learning원문보기
인공지능으로 대표되는 4차 산업혁명에 대한 관심이 증가함에 따라 사회 전반에 빅데이터 및 머신러닝 활용하려는 움직임이 활발해지고 있다. 이러한 움직임은 다양한 분야에서의 예측 시스템 개발로 현실화되고 있다. 특히 영화 산업에서는 투자, 마케팅 등에 활용을 위해 흥행 여부를 사전에 예측하고자하는 여러 가지 시도가 있어왔다. 예전에는 영화에 대한 정적 데이터만을 고려한 예측이 주류를 이뤘으나, 최근에는 실시간으로 생성되는 소셜 데이터를 활용하여 예측하고자하는 노력이 진행되고 있다. 본 논문에서는 영화의 정적 데이터와 더불어 기사, 블로그, 영화평 등 다양한 피드백 정보를 활용한 예측 기법을 제안한다. 또한 제안한 기법을 활용하여 상대적으로 흥행에 성공한 영화만을 대상으로 이들의 흥행정도를 정량적으로 추정할 수 있는지의 여부를 실험적으로 평가하였다.
인공지능으로 대표되는 4차 산업혁명에 대한 관심이 증가함에 따라 사회 전반에 빅데이터 및 머신러닝 활용하려는 움직임이 활발해지고 있다. 이러한 움직임은 다양한 분야에서의 예측 시스템 개발로 현실화되고 있다. 특히 영화 산업에서는 투자, 마케팅 등에 활용을 위해 흥행 여부를 사전에 예측하고자하는 여러 가지 시도가 있어왔다. 예전에는 영화에 대한 정적 데이터만을 고려한 예측이 주류를 이뤘으나, 최근에는 실시간으로 생성되는 소셜 데이터를 활용하여 예측하고자하는 노력이 진행되고 있다. 본 논문에서는 영화의 정적 데이터와 더불어 기사, 블로그, 영화평 등 다양한 피드백 정보를 활용한 예측 기법을 제안한다. 또한 제안한 기법을 활용하여 상대적으로 흥행에 성공한 영화만을 대상으로 이들의 흥행정도를 정량적으로 추정할 수 있는지의 여부를 실험적으로 평가하였다.
With increased interest in the fourth industrial revolution represented by artificial intelligence, it has been very active to utilize bigdata and machine learning techniques in almost areas of society. Also, such activities have been realized by development of forecasting systems in various applica...
With increased interest in the fourth industrial revolution represented by artificial intelligence, it has been very active to utilize bigdata and machine learning techniques in almost areas of society. Also, such activities have been realized by development of forecasting systems in various applications. Especially in the movie industry, there have been numerous attempts to predict whether they would be success or not. In the past, most of studies considered only the static factors in the process of prediction, but recently, several efforts are tried to utilize realtime social bigdata produced in SNS. In this paper, we propose the prediction technique utilizing various feedback information such as news articles, blogs and reviews as well as static factors of movies. Additionally, we also experimentally evaluate whether the proposed technique could precisely forecast their revenue targeting on the relatively successful movies.
With increased interest in the fourth industrial revolution represented by artificial intelligence, it has been very active to utilize bigdata and machine learning techniques in almost areas of society. Also, such activities have been realized by development of forecasting systems in various applications. Especially in the movie industry, there have been numerous attempts to predict whether they would be success or not. In the past, most of studies considered only the static factors in the process of prediction, but recently, several efforts are tried to utilize realtime social bigdata produced in SNS. In this paper, we propose the prediction technique utilizing various feedback information such as news articles, blogs and reviews as well as static factors of movies. Additionally, we also experimentally evaluate whether the proposed technique could precisely forecast their revenue targeting on the relatively successful movies.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 표의 정적 데이터 중에서 감독과 배우는 인물명이 아닌 해당 인물이 과거 출연했던 영화에서의 평균관객수로 표현하였다. 감독과 배우의 관객동원 능력을 정량적으로 표현하기 위해서다. 최종 관객수는 예측대상이 되므로 모델 생성을 위한 기계학습과정에서는 종속변수로 활용된다.
본 논문에서는 기존의 연구와 유사하게 영화에 대한 정적 데이터 및 동적 데이터를 모두 활용하고 이들 중에서 어떠한 요소가 흥행에 가장 관련되어 있는지를 탐색하고 예측 정확도를 측정한다. 다만 본 논문에서는 비교적 이름이 알려진 영화만을 대상으로 한다.
본 논문에서는 머신러닝 기법을 이용하여 영화의 흥행성적을 예측하는 기법을 제안하였고 그 결과를 실험적으로 평가하였다. 예측 모델을 생성하기 위해서 영화와 관련된 정적 데이터와 동적 데이터를 수집하였다.
본 논문에서는 머신러닝과 빅데이터 기술을 이용한 여러 가지 예측 가능한 분야 중에서 영화의 흥행성적을 예측하는 기법을 제안한다. 영화산업은 흔히 도박과 유사한 확률 게임이라고 부른다.
이와 같이 기존이 연구들은 국내외를 막론하고 정적 데이터와 동적 데이터를 이용하여 흥행의 인자가 무엇인지를 탐색해왔다. 본 논문에서도 이와 유사한 인자들을 사용하여 흥행예측 가능여부를 실험하였다. 다만 기존연구와는 다르게 특정 기간의 흥행 상위 영화만으로 대상으로 하여, 비교적 흥행에 성공한 영화들 사이에 흥행을 판별하는 요인이 무엇인지를 세밀하게 분석하였다.
제안 방법
독립변수로는 정적 데이터의 조합, 동적 데이터의 조합, 정적/동적 데이터의 조합으로 분류하였다. 각 조합들은 독립변수인 최종 관객 수와의 상관분석을 통하여 비교적 상관관계를 보이는 변수들 위주로 조합하였다. 우선 표 3은 정적 데이터만으로 조합한 독립 변수들이다.
본 논문에서도 이와 유사한 인자들을 사용하여 흥행예측 가능여부를 실험하였다. 다만 기존연구와는 다르게 특정 기간의 흥행 상위 영화만으로 대상으로 하여, 비교적 흥행에 성공한 영화들 사이에 흥행을 판별하는 요인이 무엇인지를 세밀하게 분석하였다.
대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다.
대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다. 독립변수로는 정적 데이터의 조합, 동적 데이터의 조합, 정적/동적 데이터의 조합으로 분류하였다. 각 조합들은 독립변수인 최종 관객 수와의 상관분석을 통하여 비교적 상관관계를 보이는 변수들 위주로 조합하였다.
수집된 100개의 영화에서 최저 관객수는 약 184만 명이고 최고는 1,760만 명이다. 따라서 흥행 등급은 표 2와 같이 5개의 등급으로 분류하여 해당 등급을 예측하는 방식으로 실험을 실시하였다.
마지막으로 표 5는 정적과 동적 데이터를 모두 포함한 조합을 보여준다. 여기서 정적과 동적 데이터는 표3 과 표 4를 이용한 실험에서 비교적 정확도가 높았던 변수 조합을 이용하여 구성하였다. 이와 같이 표 3부터 표 5까지 총 15가지의 변수 조합을 실험을 실시하였으며, 앞서 언급한 바와 같이 분류기법은 나이브베이즈 분류, 신경망을 이용하였다.
우선 [6]에서는 영화개봉일과 개봉 1주일 후를 기준으로, 정적 데이터(배우, 감독, 스크린수, 제작사 등)와 동적 데이터(관련 트위터 수, 관객 평점, 영화평 수 등의 소셜 데이터) 중 어느 정보가 더 흥행에 영향을 미치는가를 분석하였고, 정적 데이터와 동적 데이터와 모두 포함된 결과가 영향력이 크다는 결론을 내렸다. 예측 실험은 특정 시점에 무작위로 영화를 선택하여 실시하였다. 따라서 학습이나 테스트로 활용되는 영화들의 흥행 성적이 서로 간에 격차가 매우 커서 예측 정확도가 비교적 높았으나 상식선에서 판단할 수 있는 정도의 예측력을 벗어나지는 않는다.
예측 모델을 생성하기 위해서 영화와 관련된 정적 데이터와 동적 데이터를 수집하였다. 예측모델은 수집된 데이터의 다양한 조합으로 생성하였으며 나이브베이즈 분류와 신경망을 이용하여 예측 정확도를 평가하였다. 실험 결과 본 논문이 수집한 데이터에 대해서는 신경망이 나이브베이즈 분류보다 더 좋은 정확도를 보였으며, 배우, 감독과 같은 정적 데이터와 영화평 평점, 뉴스기사 수, 블로그 수 등 동적 데이터를 조합한 모델이 가장 좋은 성능을 보였다.
여기서 정적과 동적 데이터는 표3 과 표 4를 이용한 실험에서 비교적 정확도가 높았던 변수 조합을 이용하여 구성하였다. 이와 같이 표 3부터 표 5까지 총 15가지의 변수 조합을 실험을 실시하였으며, 앞서 언급한 바와 같이 분류기법은 나이브베이즈 분류, 신경망을 이용하였다. 또한 실험 평가를 위해 100개의 영화에 대해서 무작위로 70%의 영화를 기계학습을 위한 데이터로 활용하고 나머지 30%를 테스트용으로 사용하였으며, 정확한 실험을 위해 수차례 실험을 반복하여 평균값으로 분류 정확도를 측정하였다.
마지막으로 예측 대상이 되는 최종 관객수는 등급으로 처리되었다. 회귀분석과 같은 예측 기법을 사용한다면 예상 관객 수를 정확한 수치로 추정할 수 있으나 상대적 예측 정확도를 비교할 근거가 부족하여 관객 수에 따라 여러 단계로 등급을 나누어 흥행 등급을 예측하는 방식으로 실험하였다. 수집된 100개의 영화에서 최저 관객수는 약 184만 명이고 최고는 1,760만 명이다.
대상 데이터
그 이외에 다양한 정적, 동적 변수를 활용하였으나, 배우, 개봉 스크린수, 배급사영향력, 온라인 버즈량 등이 흥행 여부와 관련 있다고 결론을 내렸다. 그러나 여기서도 50만 이하의 영화와 500만 이상의 영화 등 영화 종류와 규모에 관계없이 실험데이터를 수집해서 예측에 활용하였다.
본 논문에서는 기존의 연구와 유사하게 영화에 대한 정적 데이터 및 동적 데이터를 모두 활용하고 이들 중에서 어떠한 요소가 흥행에 가장 관련되어 있는지를 탐색하고 예측 정확도를 측정한다. 다만 본 논문에서는 비교적 이름이 알려진 영화만을 대상으로 한다. 즉, 일정기간 동안의 관람객 기준 상위 100개 영화만을 대상으로 예측모델을 생성한다.
표 4는 동적 데이터로 구성된 변수조합을 보여준다. 동적 데이터는 종류가 많지 않아 다양한 조합으로 실험을 실시하였다. 마지막으로 표 5는 정적과 동적 데이터를 모두 포함한 조합을 보여준다.
본 연구에서는 예측 시점을 개봉 1주일 이후로 설정하였다. 따라서 동적 데이터는 수집 시점의 데이터가 아닌 각 영화의 개봉 1주일 후를 기점으로 그 이전에 게시된 데이터만을 사용하였다. 개봉일이나 그 이전에는 사실상 동적 데이터가 거의 없을 뿐만 아니라 어느 정도 존재한다 하더라도 구전효과로 생성된 데이터라기보다는 제작사의 홍보에 의해 생성된 데이터일 가능성이 매우 높다.
본 논문에서는 개봉 1주일후의 스크린 수 와 관객 수도 정적 데이터로 간주하였다.
본 논문에서는 대상 영화 2009년도부터 6년간 국내 박스오피스 최상위 100개의 영화를 대상으로 하였다. 즉 6년 동안 비교적 흥행에 성공한 100개의 영화를 대상으로 예측모델을 생성하여 평가하였다.
회귀분석과 같은 예측 기법을 사용한다면 예상 관객 수를 정확한 수치로 추정할 수 있으나 상대적 예측 정확도를 비교할 근거가 부족하여 관객 수에 따라 여러 단계로 등급을 나누어 흥행 등급을 예측하는 방식으로 실험하였다. 수집된 100개의 영화에서 최저 관객수는 약 184만 명이고 최고는 1,760만 명이다. 따라서 흥행 등급은 표 2와 같이 5개의 등급으로 분류하여 해당 등급을 예측하는 방식으로 실험을 실시하였다.
본 논문에서는 머신러닝 기법을 이용하여 영화의 흥행성적을 예측하는 기법을 제안하였고 그 결과를 실험적으로 평가하였다. 예측 모델을 생성하기 위해서 영화와 관련된 정적 데이터와 동적 데이터를 수집하였다. 예측모델은 수집된 데이터의 다양한 조합으로 생성하였으며 나이브베이즈 분류와 신경망을 이용하여 예측 정확도를 평가하였다.
예측 모델의 생성하기 위한 첫 단계로 기계학습을 위한 데이터들을 수집하였다. 서론에서 언급한 바와 같이 영화와 관련된 데이터는 정적 데이터와 동적 데이터로 나눌 수 있다.
본 논문에서는 대상 영화 2009년도부터 6년간 국내 박스오피스 최상위 100개의 영화를 대상으로 하였다. 즉 6년 동안 비교적 흥행에 성공한 100개의 영화를 대상으로 예측모델을 생성하여 평가하였다. 우선 국내 영화들에 대한 정적 데이터의 대부분은 영화진흥 위원회 홈페이지로 부터 수집하였다.
데이터처리
이와 같이 표 3부터 표 5까지 총 15가지의 변수 조합을 실험을 실시하였으며, 앞서 언급한 바와 같이 분류기법은 나이브베이즈 분류, 신경망을 이용하였다. 또한 실험 평가를 위해 100개의 영화에 대해서 무작위로 70%의 영화를 기계학습을 위한 데이터로 활용하고 나머지 30%를 테스트용으로 사용하였으며, 정확한 실험을 위해 수차례 실험을 반복하여 평균값으로 분류 정확도를 측정하였다.
이론/모형
예측 기법은 대부분 데이터마이닝의 분류기법을 활용하였다. 대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다.
성능/효과
SD4는 감독, 배우, 영화평 평점 등 그림 2와 3에서 중요한 변수로 평가된 것들을 모두 포함한 경우였다. 결론적으로 본 연구에서 실험한 결과로는 주요한 정적 데이터와 동적 데이터를 모두 포함하는 것이 영화흥행을 예측하는 데 가장 좋은 방법이라고 결론을 내릴 수 있다.
이는 신경망이 나이브베이즈 분류에 비해 더 좋은 기법이라는 것을 의미하는 것은 아니고 독립변수들의 데이터 분포가 신경망에 더 적합하게 형성되어 있기 때문인 것으로 판단된다. 구체적으로 그림 2를 보면 나이브베이즈 분류가 39%~46%의 정확도를 보인반면 신경망은 45%~61%의 정확도를 보였다. 특히 신경망의 경우에는 두개의 독립변수인 감독과 배우로 예측하는 것이 61%로 가장 높게 예측되었다.
[10]에서는 구전효과를 흥행요소에 반영하기 위해 온라인 버즈량을 고려하였다. 그 이외에 다양한 정적, 동적 변수를 활용하였으나, 배우, 개봉 스크린수, 배급사영향력, 온라인 버즈량 등이 흥행 여부와 관련 있다고 결론을 내렸다. 그러나 여기서도 50만 이하의 영화와 500만 이상의 영화 등 영화 종류와 규모에 관계없이 실험데이터를 수집해서 예측에 활용하였다.
개봉일이나 그 이전에는 사실상 동적 데이터가 거의 없을 뿐만 아니라 어느 정도 존재한다 하더라도 구전효과로 생성된 데이터라기보다는 제작사의 홍보에 의해 생성된 데이터일 가능성이 매우 높다. 따라서 개봉일 이전의 흥행 예측은 정적 데이터만을 사용한 예측만이 가능하므로 정적/동적 데이터를 모두 활용하기 위해서는 개봉 1주일이 지난 시점에 흥행을 예측하는 것이 가장 적절할 것으로 판단하였다.
실험 결과 본 논문이 수집한 데이터에 대해서는 신경망이 나이브베이즈 분류보다 더 좋은 정확도를 보였으며, 배우, 감독과 같은 정적 데이터와 영화평 평점, 뉴스기사 수, 블로그 수 등 동적 데이터를 조합한 모델이 가장 좋은 성능을 보였다. 또한 실험 데이터 구성에 있어서 규모면에서 유사한 영화들임에도 불구하고 최대 예측 정확도가 68%를 보여 실용적 적용 가능성도 보였다. 하지만 아직까지는 개봉 초기에 흥행정도를 정확히 판단하는 것은 제한적이라고 판단된다.
예측모델은 수집된 데이터의 다양한 조합으로 생성하였으며 나이브베이즈 분류와 신경망을 이용하여 예측 정확도를 평가하였다. 실험 결과 본 논문이 수집한 데이터에 대해서는 신경망이 나이브베이즈 분류보다 더 좋은 정확도를 보였으며, 배우, 감독과 같은 정적 데이터와 영화평 평점, 뉴스기사 수, 블로그 수 등 동적 데이터를 조합한 모델이 가장 좋은 성능을 보였다. 또한 실험 데이터 구성에 있어서 규모면에서 유사한 영화들임에도 불구하고 최대 예측 정확도가 68%를 보여 실용적 적용 가능성도 보였다.
그림 2, 3, 4는 각각 표 3, 4, 5의 조합에 의한 실험 결과이다. 우선 전체적으로는 나이브베이즈 분류 방법에 비해서 신경망을 이용한 예측기법이 평균적으로 약 10%정도 정확도가 높게 측정되었다. 이는 신경망이 나이브베이즈 분류에 비해 더 좋은 기법이라는 것을 의미하는 것은 아니고 독립변수들의 데이터 분포가 신경망에 더 적합하게 형성되어 있기 때문인 것으로 판단된다.
마지막으로 그림 5의 경우에는 나이브베이즈 분류와 신경망이 각각 45%~53%, 46%~68%의 정확도를 보였다. 특히 신경망의 경우 SD4가 68%의 정확도를 보여 실험결과 중에서 가장 좋은 정확도를 보였다. SD4는 감독, 배우, 영화평 평점 등 그림 2와 3에서 중요한 변수로 평가된 것들을 모두 포함한 경우였다.
후속연구
다만 본 논문의 결과가 상업적으로 활용될 수 있으려면 서로 규모가 서로 유사한 영화라 하더라도 이를 예측할 수 있는 독립변수를 최대한 발굴하고, 최신 예측 기술인 딥러닝(deep learning) 기법을 도입하여 예측 정확도를 높이는 것이 필요하다고 판단된다
하지만 아직까지는 개봉 초기에 흥행정도를 정확히 판단하는 것은 제한적이라고 판단된다. 이를 극복하기 위해서는 정교한 예측을 위한 새로운 변수들에 대한 발굴이 필요하며 딥러닝과 같은 최신 예측 기술 적용가능성도 검토해야할 것으로 판단된다.
왜냐하면, 투자 비용 측면에서 투자비나 마케팅 비용이 큰 영화는 손익분기점만큼의 관객을 모으지 못해 흥행에 실패했다하더라도, 마케팅이나 언론에 자주 오르내리기 때문에 개봉초기에 어느 정도 규모의 관객을 모으는 것이 가능하기 때문이다. 하지만 본 논문에서는 상위 100개의 영화만으로 대상으로 하였으므로 흥행요인이 무엇인지를 좀 더 정교하게 분석할 수 있다.
그 이유는 머신러닝(machine learning), 빅데이터(bigdata), IOT 등 지능형 시스템을 위한 기반 연구가 아직 안정화되지 않고 있기 때문이다. 향후 이러한 분야들이 점차 안정화된 기술로 정착된다면 지능형 시스템은 산업 전반에 빠른 속도로 확산될 것이다. 지능형 시스템의 핵심을 구성하는 머신러닝과 빅데이터는 기존의 현상을 분석하는 기술에도 활용되지만 더욱 효과적인 분야는 분류로 대표되는 예측기술이다.
질의응답
핵심어
질문
논문에서 추출한 답변
정적 데이터란 무엇인가?
예전에는 배우, 감독, 제작비 등과 같이 영화의 제작단계부터 개봉직후 까지 해당 영화와 관련된 정적 데이터(static data)만으로 예측이 이루어졌다. 여기서 정적 데이터란 정량적인 변화가 없는 고정된 변수들을 의미한다. 물론 이러한 정적 데이터만으로는 만족스러운 예측은 거의 이루어지지 않았다.
영화흥행 여부를 예측하고자 하는 많은 시도가 있었는데, 결론이 서로 다르고 정확하지 않은 이유는?
하지만 이들의 대부분은 결론이 서로 다르고 정확하지 않다. 그 이유는 영화흥행에 영향을 미치는 변수들이 매우 많을 뿐만 아니라 단기예측의 특성상 영화마다 흥행에 미치는 요소가 서로 다르기 때문이다.
대표적인 분류기법에는 어떤 것이 있는가?
예측 기법은 대부분 데이터마이닝의 분류기법을 활용하였다. 대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다. 독립변수로는 정적 데이터의 조합, 동적 데이터의 조합, 정적/동적 데이터의 조합으로 분류하였다.
참고문헌 (11)
S. Albert, "Movie Stars and the Distribution of Financially Successful Films in the Motion Picture Industry," Journal of Cultural Economics, Vol.22, No.4, pp.249-270, 1998.
G. Mishne and N. S. Glance, "Predicting Movie Sales from Blogger Sentiment," In AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs, pp.155-158, 2006.
L. Lica and M. Tuta, "Predicting Product Performance with Social Media," Informatica Economica , Vol.15, No.2, pp.46-56, 2011.
S. Asur and B. A. Huberman, "Predicting the future with social media," Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. IEEE, 2010. p. 492-499.
J. Yim and B. Hwang, Predicting Movie Success based on Machine Learning Using Twitter, KIPS transactions on Software and Data Engineering, Vol. 3, No. 7, pp.263-270. 2014
O. Lee et al. Movie Box office Analysis using Social Big Data, J. of The Korea Contents Association, Vol. 14, No. 10, 2014
S. Cho et al. Predicting Movie Sales through Online Review Mining, Proceedings of the Korea Society of Management Information Systems Conference, 2014
S. Jeon and Y. Son, Effect of Online Word-of-Mouth variables as Predictors of Box Office, The Korea Journal of Applied Statistics, Vol. 29, No. 4, pp. 657-678, 2016
Y. Kim and J. Hong, A study for the Development of Motion Picture Box-Office Prediction Model, J. of The Korean Statistical Society, Vol. 18, No. 6, pp. 859-869, 2011.
S. Lee, J. Cho, C. Kang, and S. Choi, Study on Prediction for a Film Success Using Data Mining, J. of the Korean Data and Information Science Society, Vol. 26, No. 6, pp.1259-1269, 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.