[논문]소셜 빅데이터 분석과 기계학습을 이용한 영화흥행예측 기법의 실험적 평가

장재영

doi:10.7236/jiibc.2017.17.3.167

문제 정의

이 표의 정적 데이터 중에서 감독과 배우는 인물명이 아닌 해당 인물이 과거 출연했던 영화에서의 평균관객수로 표현하였다. 감독과 배우의 관객동원 능력을 정량적으로 표현하기 위해서다. 최종 관객수는 예측대상이 되므로 모델 생성을 위한 기계학습과정에서는 종속변수로 활용된다.
본 논문에서는 기존의 연구와 유사하게 영화에 대한 정적 데이터 및 동적 데이터를 모두 활용하고 이들 중에서 어떠한 요소가 흥행에 가장 관련되어 있는지를 탐색하고 예측 정확도를 측정한다. 다만 본 논문에서는 비교적 이름이 알려진 영화만을 대상으로 한다.
본 논문에서는 머신러닝 기법을 이용하여 영화의 흥행성적을 예측하는 기법을 제안하였고 그 결과를 실험적으로 평가하였다. 예측 모델을 생성하기 위해서 영화와 관련된 정적 데이터와 동적 데이터를 수집하였다.
본 논문에서는 머신러닝과 빅데이터 기술을 이용한 여러 가지 예측 가능한 분야 중에서 영화의 흥행성적을 예측하는 기법을 제안한다. 영화산업은 흔히 도박과 유사한 확률 게임이라고 부른다.
이와 같이 기존이 연구들은 국내외를 막론하고 정적 데이터와 동적 데이터를 이용하여 흥행의 인자가 무엇인지를 탐색해왔다. 본 논문에서도 이와 유사한 인자들을 사용하여 흥행예측 가능여부를 실험하였다. 다만 기존연구와는 다르게 특정 기간의 흥행 상위 영화만으로 대상으로 하여, 비교적 흥행에 성공한 영화들 사이에 흥행을 판별하는 요인이 무엇인지를 세밀하게 분석하였다.

제안 방법

독립변수로는 정적 데이터의 조합, 동적 데이터의 조합, 정적/동적 데이터의 조합으로 분류하였다. 각 조합들은 독립변수인 최종 관객 수와의 상관분석을 통하여 비교적 상관관계를 보이는 변수들 위주로 조합하였다. 우선 표 3은 정적 데이터만으로 조합한 독립 변수들이다.
본 논문에서도 이와 유사한 인자들을 사용하여 흥행예측 가능여부를 실험하였다. 다만 기존연구와는 다르게 특정 기간의 흥행 상위 영화만으로 대상으로 하여, 비교적 흥행에 성공한 영화들 사이에 흥행을 판별하는 요인이 무엇인지를 세밀하게 분석하였다.
대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다.
대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다. 독립변수로는 정적 데이터의 조합, 동적 데이터의 조합, 정적/동적 데이터의 조합으로 분류하였다. 각 조합들은 독립변수인 최종 관객 수와의 상관분석을 통하여 비교적 상관관계를 보이는 변수들 위주로 조합하였다.
수집된 100개의 영화에서 최저 관객수는 약 184만 명이고 최고는 1,760만 명이다. 따라서 흥행 등급은 표 2와 같이 5개의 등급으로 분류하여 해당 등급을 예측하는 방식으로 실험을 실시하였다.
마지막으로 표 5는 정적과 동적 데이터를 모두 포함한 조합을 보여준다. 여기서 정적과 동적 데이터는 표3 과 표 4를 이용한 실험에서 비교적 정확도가 높았던 변수 조합을 이용하여 구성하였다. 이와 같이 표 3부터 표 5까지 총 15가지의 변수 조합을 실험을 실시하였으며, 앞서 언급한 바와 같이 분류기법은 나이브베이즈 분류, 신경망을 이용하였다.
우선 [6]에서는 영화개봉일과 개봉 1주일 후를 기준으로, 정적 데이터(배우, 감독, 스크린수, 제작사 등)와 동적 데이터(관련 트위터 수, 관객 평점, 영화평 수 등의 소셜 데이터) 중 어느 정보가 더 흥행에 영향을 미치는가를 분석하였고, 정적 데이터와 동적 데이터와 모두 포함된 결과가 영향력이 크다는 결론을 내렸다. 예측 실험은 특정 시점에 무작위로 영화를 선택하여 실시하였다. 따라서 학습이나 테스트로 활용되는 영화들의 흥행 성적이 서로 간에 격차가 매우 커서 예측 정확도가 비교적 높았으나 상식선에서 판단할 수 있는 정도의 예측력을 벗어나지는 않는다.
예측 모델을 생성하기 위해서 영화와 관련된 정적 데이터와 동적 데이터를 수집하였다. 예측모델은 수집된 데이터의 다양한 조합으로 생성하였으며 나이브베이즈 분류와 신경망을 이용하여 예측 정확도를 평가하였다. 실험 결과 본 논문이 수집한 데이터에 대해서는 신경망이 나이브베이즈 분류보다 더 좋은 정확도를 보였으며, 배우, 감독과 같은 정적 데이터와 영화평 평점, 뉴스기사 수, 블로그 수 등 동적 데이터를 조합한 모델이 가장 좋은 성능을 보였다.
여기서 정적과 동적 데이터는 표3 과 표 4를 이용한 실험에서 비교적 정확도가 높았던 변수 조합을 이용하여 구성하였다. 이와 같이 표 3부터 표 5까지 총 15가지의 변수 조합을 실험을 실시하였으며, 앞서 언급한 바와 같이 분류기법은 나이브베이즈 분류, 신경망을 이용하였다. 또한 실험 평가를 위해 100개의 영화에 대해서 무작위로 70%의 영화를 기계학습을 위한 데이터로 활용하고 나머지 30%를 테스트용으로 사용하였으며, 정확한 실험을 위해 수차례 실험을 반복하여 평균값으로 분류 정확도를 측정하였다.
마지막으로 예측 대상이 되는 최종 관객수는 등급으로 처리되었다. 회귀분석과 같은 예측 기법을 사용한다면 예상 관객 수를 정확한 수치로 추정할 수 있으나 상대적 예측 정확도를 비교할 근거가 부족하여 관객 수에 따라 여러 단계로 등급을 나누어 흥행 등급을 예측하는 방식으로 실험하였다. 수집된 100개의 영화에서 최저 관객수는 약 184만 명이고 최고는 1,760만 명이다.

대상 데이터

그 이외에 다양한 정적, 동적 변수를 활용하였으나, 배우, 개봉 스크린수, 배급사영향력, 온라인 버즈량 등이 흥행 여부와 관련 있다고 결론을 내렸다. 그러나 여기서도 50만 이하의 영화와 500만 이상의 영화 등 영화 종류와 규모에 관계없이 실험데이터를 수집해서 예측에 활용하였다.
본 논문에서는 기존의 연구와 유사하게 영화에 대한 정적 데이터 및 동적 데이터를 모두 활용하고 이들 중에서 어떠한 요소가 흥행에 가장 관련되어 있는지를 탐색하고 예측 정확도를 측정한다. 다만 본 논문에서는 비교적 이름이 알려진 영화만을 대상으로 한다. 즉, 일정기간 동안의 관람객 기준 상위 100개 영화만을 대상으로 예측모델을 생성한다.
표 4는 동적 데이터로 구성된 변수조합을 보여준다. 동적 데이터는 종류가 많지 않아 다양한 조합으로 실험을 실시하였다. 마지막으로 표 5는 정적과 동적 데이터를 모두 포함한 조합을 보여준다.
본 연구에서는 예측 시점을 개봉 1주일 이후로 설정하였다. 따라서 동적 데이터는 수집 시점의 데이터가 아닌 각 영화의 개봉 1주일 후를 기점으로 그 이전에 게시된 데이터만을 사용하였다. 개봉일이나 그 이전에는 사실상 동적 데이터가 거의 없을 뿐만 아니라 어느 정도 존재한다 하더라도 구전효과로 생성된 데이터라기보다는 제작사의 홍보에 의해 생성된 데이터일 가능성이 매우 높다.
본 논문에서는 개봉 1주일후의 스크린 수 와 관객 수도 정적 데이터로 간주하였다.
본 논문에서는 대상 영화 2009년도부터 6년간 국내 박스오피스 최상위 100개의 영화를 대상으로 하였다. 즉 6년 동안 비교적 흥행에 성공한 100개의 영화를 대상으로 예측모델을 생성하여 평가하였다.
회귀분석과 같은 예측 기법을 사용한다면 예상 관객 수를 정확한 수치로 추정할 수 있으나 상대적 예측 정확도를 비교할 근거가 부족하여 관객 수에 따라 여러 단계로 등급을 나누어 흥행 등급을 예측하는 방식으로 실험하였다. 수집된 100개의 영화에서 최저 관객수는 약 184만 명이고 최고는 1,760만 명이다. 따라서 흥행 등급은 표 2와 같이 5개의 등급으로 분류하여 해당 등급을 예측하는 방식으로 실험을 실시하였다.
본 논문에서는 머신러닝 기법을 이용하여 영화의 흥행성적을 예측하는 기법을 제안하였고 그 결과를 실험적으로 평가하였다. 예측 모델을 생성하기 위해서 영화와 관련된 정적 데이터와 동적 데이터를 수집하였다. 예측모델은 수집된 데이터의 다양한 조합으로 생성하였으며 나이브베이즈 분류와 신경망을 이용하여 예측 정확도를 평가하였다.
예측 모델의 생성하기 위한 첫 단계로 기계학습을 위한 데이터들을 수집하였다. 서론에서 언급한 바와 같이 영화와 관련된 데이터는 정적 데이터와 동적 데이터로 나눌 수 있다.
본 논문에서는 대상 영화 2009년도부터 6년간 국내 박스오피스 최상위 100개의 영화를 대상으로 하였다. 즉 6년 동안 비교적 흥행에 성공한 100개의 영화를 대상으로 예측모델을 생성하여 평가하였다. 우선 국내 영화들에 대한 정적 데이터의 대부분은 영화진흥 위원회 홈페이지로 부터 수집하였다.

데이터처리

이와 같이 표 3부터 표 5까지 총 15가지의 변수 조합을 실험을 실시하였으며, 앞서 언급한 바와 같이 분류기법은 나이브베이즈 분류, 신경망을 이용하였다. 또한 실험 평가를 위해 100개의 영화에 대해서 무작위로 70%의 영화를 기계학습을 위한 데이터로 활용하고 나머지 30%를 테스트용으로 사용하였으며, 정확한 실험을 위해 수차례 실험을 반복하여 평균값으로 분류 정확도를 측정하였다.

이론/모형

예측 기법은 대부분 데이터마이닝의 분류기법을 활용하였다. 대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다.

성능/효과

SD4는 감독, 배우, 영화평 평점 등 그림 2와 3에서 중요한 변수로 평가된 것들을 모두 포함한 경우였다. 결론적으로 본 연구에서 실험한 결과로는 주요한 정적 데이터와 동적 데이터를 모두 포함하는 것이 영화흥행을 예측하는 데 가장 좋은 방법이라고 결론을 내릴 수 있다.
이는 신경망이 나이브베이즈 분류에 비해 더 좋은 기법이라는 것을 의미하는 것은 아니고 독립변수들의 데이터 분포가 신경망에 더 적합하게 형성되어 있기 때문인 것으로 판단된다. 구체적으로 그림 2를 보면 나이브베이즈 분류가 39%~46%의 정확도를 보인반면 신경망은 45%~61%의 정확도를 보였다. 특히 신경망의 경우에는 두개의 독립변수인 감독과 배우로 예측하는 것이 61%로 가장 높게 예측되었다.
[10]에서는 구전효과를 흥행요소에 반영하기 위해 온라인 버즈량을 고려하였다. 그 이외에 다양한 정적, 동적 변수를 활용하였으나, 배우, 개봉 스크린수, 배급사영향력, 온라인 버즈량 등이 흥행 여부와 관련 있다고 결론을 내렸다. 그러나 여기서도 50만 이하의 영화와 500만 이상의 영화 등 영화 종류와 규모에 관계없이 실험데이터를 수집해서 예측에 활용하였다.
개봉일이나 그 이전에는 사실상 동적 데이터가 거의 없을 뿐만 아니라 어느 정도 존재한다 하더라도 구전효과로 생성된 데이터라기보다는 제작사의 홍보에 의해 생성된 데이터일 가능성이 매우 높다. 따라서 개봉일 이전의 흥행 예측은 정적 데이터만을 사용한 예측만이 가능하므로 정적/동적 데이터를 모두 활용하기 위해서는 개봉 1주일이 지난 시점에 흥행을 예측하는 것이 가장 적절할 것으로 판단하였다.
실험 결과 본 논문이 수집한 데이터에 대해서는 신경망이 나이브베이즈 분류보다 더 좋은 정확도를 보였으며, 배우, 감독과 같은 정적 데이터와 영화평 평점, 뉴스기사 수, 블로그 수 등 동적 데이터를 조합한 모델이 가장 좋은 성능을 보였다. 또한 실험 데이터 구성에 있어서 규모면에서 유사한 영화들임에도 불구하고 최대 예측 정확도가 68%를 보여 실용적 적용 가능성도 보였다. 하지만 아직까지는 개봉 초기에 흥행정도를 정확히 판단하는 것은 제한적이라고 판단된다.
예측모델은 수집된 데이터의 다양한 조합으로 생성하였으며 나이브베이즈 분류와 신경망을 이용하여 예측 정확도를 평가하였다. 실험 결과 본 논문이 수집한 데이터에 대해서는 신경망이 나이브베이즈 분류보다 더 좋은 정확도를 보였으며, 배우, 감독과 같은 정적 데이터와 영화평 평점, 뉴스기사 수, 블로그 수 등 동적 데이터를 조합한 모델이 가장 좋은 성능을 보였다. 또한 실험 데이터 구성에 있어서 규모면에서 유사한 영화들임에도 불구하고 최대 예측 정확도가 68%를 보여 실용적 적용 가능성도 보였다.
그림 2, 3, 4는 각각 표 3, 4, 5의 조합에 의한 실험 결과이다. 우선 전체적으로는 나이브베이즈 분류 방법에 비해서 신경망을 이용한 예측기법이 평균적으로 약 10%정도 정확도가 높게 측정되었다. 이는 신경망이 나이브베이즈 분류에 비해 더 좋은 기법이라는 것을 의미하는 것은 아니고 독립변수들의 데이터 분포가 신경망에 더 적합하게 형성되어 있기 때문인 것으로 판단된다.
마지막으로 그림 5의 경우에는 나이브베이즈 분류와 신경망이 각각 45%~53%, 46%~68%의 정확도를 보였다. 특히 신경망의 경우 SD4가 68%의 정확도를 보여 실험결과 중에서 가장 좋은 정확도를 보였다. SD4는 감독, 배우, 영화평 평점 등 그림 2와 3에서 중요한 변수로 평가된 것들을 모두 포함한 경우였다.

후속연구

다만 본 논문의 결과가 상업적으로 활용될 수 있으려면 서로 규모가 서로 유사한 영화라 하더라도 이를 예측할 수 있는 독립변수를 최대한 발굴하고, 최신 예측 기술인 딥러닝(deep learning) 기법을 도입하여 예측 정확도를 높이는 것이 필요하다고 판단된다
하지만 아직까지는 개봉 초기에 흥행정도를 정확히 판단하는 것은 제한적이라고 판단된다. 이를 극복하기 위해서는 정교한 예측을 위한 새로운 변수들에 대한 발굴이 필요하며 딥러닝과 같은 최신 예측 기술 적용가능성도 검토해야할 것으로 판단된다.
왜냐하면, 투자 비용 측면에서 투자비나 마케팅 비용이 큰 영화는 손익분기점만큼의 관객을 모으지 못해 흥행에 실패했다하더라도, 마케팅이나 언론에 자주 오르내리기 때문에 개봉초기에 어느 정도 규모의 관객을 모으는 것이 가능하기 때문이다. 하지만 본 논문에서는 상위 100개의 영화만으로 대상으로 하였으므로 흥행요인이 무엇인지를 좀 더 정교하게 분석할 수 있다.
그 이유는 머신러닝(machine learning), 빅데이터(bigdata), IOT 등 지능형 시스템을 위한 기반 연구가 아직 안정화되지 않고 있기 때문이다. 향후 이러한 분야들이 점차 안정화된 기술로 정착된다면 지능형 시스템은 산업 전반에 빠른 속도로 확산될 것이다. 지능형 시스템의 핵심을 구성하는 머신러닝과 빅데이터는 기존의 현상을 분석하는 기술에도 활용되지만 더욱 효과적인 분야는 분류로 대표되는 예측기술이다.

핵심어	질문	논문에서 추출한 답변
	정적 데이터란 무엇인가?	예전에는 배우, 감독, 제작비 등과 같이 영화의 제작단계부터 개봉직후 까지 해당 영화와 관련된 정적 데이터(static data)만으로 예측이 이루어졌다. 여기서 정적 데이터란 정량적인 변화가 없는 고정된 변수들을 의미한다. 물론 이러한 정적 데이터만으로는 만족스러운 예측은 거의 이루어지지 않았다.
	영화흥행 여부를 예측하고자 하는 많은 시도가 있었는데, 결론이 서로 다르고 정확하지 않은 이유는?	하지만 이들의 대부분은 결론이 서로 다르고 정확하지 않다. 그 이유는 영화흥행에 영향을 미치는 변수들이 매우 많을 뿐만 아니라 단기예측의 특성상 영화마다 흥행에 미치는 요소가 서로 다르기 때문이다.
	대표적인 분류기법에는 어떤 것이 있는가?	예측 기법은 대부분 데이터마이닝의 분류기법을 활용하였다. 대표적인 분류기법에는 결정트리, KNN(KNearest Neighbor), SVM(Support Vector Machine), 나이브베이즈 분류(Naïve Bayes Classification), 신경망(Neural Network) 등이 있으나, 본 논문에서는 대표적인 확률모델인 나이브베이즈 분류와 요즘 주목받고 있는 신경망을 이용하여 평가하였다. 독립변수로는 정적 데이터의 조합, 동적 데이터의 조합, 정적/동적 데이터의 조합으로 분류하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

소셜 빅데이터 분석과 기계학습을 이용한 영화흥행예측 기법의 실험적 평가
An Experimental Evaluation of Box office Revenue Prediction through Social Bigdata Analysis and Machine Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

소셜 빅데이터 분석과 기계학습을 이용한 영화흥행예측 기법의 실험적 평가 An Experimental Evaluation of Box office Revenue Prediction through Social Bigdata Analysis and Machine Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

장재영 (38)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

소셜 빅데이터 분석과 기계학습을 이용한 영화흥행예측 기법의 실험적 평가
An Experimental Evaluation of Box office Revenue Prediction through Social Bigdata Analysis and Machine Learning 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper