[논문]텍스트 마이닝을 활용한 영화흥행 예측 연구

이상훈; 조장식; 강창완; 최승배

doi:10.7465/jkdi.2015.26.6.1259

[국내논문] 텍스트 마이닝을 활용한 영화흥행 예측 연구
Study on prediction for a film success using text mining 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.26 no.6, 2015년, pp.1259 - 1269

이상훈 ((주) 온솔 커뮤니케이션) , 조장식 (경성대학교 응용통계학과) , 강창완 (동의대학교 데이터정보학과) , 최승배 (동의대학교 데이터정보학과)

초록
AI-Helper

최근 빅 데이터는 학계에서 키워드로 자리매김을 하고 있다. 빅 데이터의 유용성은 학계뿐만 아니라 정부, 지자체 그리고 기업체까지 파급되고 있고, 빅 데이터 속에서 유용한 정보를 도출해 내기 위해 노력하고 있다. 본 연구에서는 영화에 대한 리뷰를 가지고 텍스트 마이닝 (text mining)을 이용한 빅 데이터 분석을 수행한다. 본 연구의 목적은 포털 사이트 'D'사와 영화진흥위원회의 영화에 대한 리뷰 데이터, 그리고 고객들의 평점평균 (score)과 스크린 수 (screen number)를 설명변수로 사용하고, 영화 흥행 여부를 종속변수로 하여 로지스틱 회귀분석을 통한 영화 흥행 예측 모형을 제안하는 것이다. 분석결과, 본 연구에서 제안한 예측모형의 정분류율은 95.74%로 얻어졌다.

Abstract ▼ AI-Helper

Recently, big data is positioning as a keyword in the academic circles. And usefulness of big data is carried into government, a local public body and enterprise as well as academic circles. Also they are endeavoring to obtain useful information in big data. This research mainly deals with analyses of box office success or failure of films using text mining. For data, it used a portal site 'D' and film review data, grade point average and the number of screens gained from the Korean Film Commission. The purpose of this paper is to propose a model to predict whether a film is success or not using these data. As a result of analysis, the correct classification rate by the prediction model method proposed in this paper is obtained 95.74%.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

즉, 네티즌들은 영화를 보기 전 관객들의 반응을 미리 확인하여 조금 더 만족할 만한 영화를 선택하여 관람하기를 원한다. 본 연구의 목적은 영화를 보고자 하는 네티즌들을 만족시키기 위해 영화의 리뷰와 몇 개의 변수를 이용하여 영화 흥행 여부를 판단할 수 있는 예측 모형을 개발하는데 있다.

제안 방법

본 연구의 구성으로 2절에서는 텍스트 마이닝에 대한 개괄적인 소개를 하고, 3절에서는 분석데이터에 대한 소개와 함께 연구방법에 대해서 소개한다. 4절에서 소개된 분석과정에서 얻어진 결과를 이용하여 다양한 분석을 수행한 후 분석 결과를 제시한다. 마지막 절에서는 분석결과와 연구의 한계점 및 향후 연구에 대해서 기술한다.
그리고 본 연구에서의 목적을 달성하기 위해서 1차 정제된 47 × 10 의 데이터 셋을 이용하여 특이값 분해를 적용하여 고유벡터로 구성된 10개의 SVD 변수를 만들었다.
특이값 분해 결과를 통해 얻어진 고유벡터 (빈도로 구성된 변수)을 설명변수로 사용한다 (SAS Institute INC, 2010). 본 연구에서는 영화를 행으로 하고 단어를 변수로 상정하여 열로 하는 행렬을 만들고 이를 특이값 분해를 이용하여 얻어진 고유벡터를 설명변수로 하고, 영화의 흥행여부를 종속변수로 하여 영화 흥행 여부를 예측하는 모형을 구축한다. 이를 위하여 3.
그들은 네티즌들의 상품평을 의도에 따라 순위를 결정하는 기법을 제안하였는데 네티즌들이 검색한 검색어뿐만 아니라 상품평 내에 주관적인 의견의 포함 여부 및 감정 극성의 엔트로피 등을 고려하여 상품평의 가치를 판단하였다. 본 연구에서도 영화와 관련된 네티즌들의 리뷰 데이터에서 감성단어를 추출 또는 긍정과 부정으로 표현된 주요 리뷰를 추출하는 등 오피니언 마이닝 개념을 사용하였다.
세부적으로 포털사이트 ‘D’사에서 제공된 2013년부터 2014년까지 상영된 영화 47편의 평점평균과 댓글 55,028개, 영화진흥위원회에서 제공하고 있는 47편의 영화에 대한 스크린 수로 구성되어 있다. 분석데이터를 구성하기 위해서 먼저 원시데이터인 47편의 영화에 대한 텍스트 문서에서 모든 영화에서 공통적으로 나오는 용어들 중에서 빈도수가 100 이상인 용어를 추출하고 이들 중에서 상위 10개를 선택하여 원시데이터를 1차 가공하였다.
그리고 본 연구에서의 목적을 달성하기 위해서 1차 정제된 47 × 10 의 데이터 셋을 이용하여 특이값 분해를 적용하여 고유벡터로 구성된 10개의 SVD 변수를 만들었다. 이 변수와 2개의 변수 (평점평균과 스크린 수)를 추가하여 설명변수로 하고 영화 흥행여부를 종속변수로 하여 최종 분석데이터 셋을 구성하였다. 단계적 변수선택법을 이용한 로지스틱 회귀분석 결과 얻어진 변수는 SVD1, SVD3 그리고 평점평균 변수가 얻어졌고, 이 변수들은 모두 유의수준 0.

대상 데이터

본 연구에서 사용된 데이터는 포털 사이트 ‘D’사와 ‘영화진흥위원회’의 영화에 대한 55,028개의 리뷰데이터, 평점평균 그리고 스크린 수이다.
본 연구에서 사용된 설명변수를 도출해 내기 위한 데이터 구조는 47편의 영화에 대해서 10개의 변수로 47 × 10 의 행렬구조로 하여 1차 정제된 데이터를 구성하였다.
본 연구에서 사용한 데이터는 포털 사이트 ‘D’사의 2013에서 2014년까지 영화 47편에 대한 55,028개의 리뷰와 영화 평점에 관한 데이터, 그리고 ‘영화진흥위원회’의 스크린 수에 대한 데이터로 구성되어 있다.
예를 들면, 약 5만 5천개의 댓글 중에서 용어 필터 옵션을 이용하여 최소 문서수를 10으로 지정하면 어떤 특정 단어의 수가 9개 이하를 포함하고 있는 문서는 제거된다. 본 연구에서는 전기한 과정을 거쳐 상위 단어의 수는 20,000개로 제한하였다. 추출된 단어와 빈도수의 결과는 Table 3.
세부적으로 포털사이트 ‘D’사에서 제공된 2013년부터 2014년까지 상영된 영화 47편의 평점평균과 댓글 55,028개, 영화진흥위원회에서 제공하고 있는 47편의 영화에 대한 스크린 수로 구성되어 있다.
실제 개봉일이 2014년 12월 24일이고, ‘기술자들’의 영화는 관객 수가 256만 명을 넘어 실제로 흥행을 하였다.
이제 본 연구의 목적인 영화 흥행 여부의 모형을 얻기 위해 로지스틱 회귀분석에 적용될 데이터 셋은 47개의 영화와 SVD1부터 SVD10까지의 변수와 평점평균과 스크린 수 2개의 변수를 추가하여 설명변수로 하고 영화 흥행여부를 종속변수로 구성된 크기 47 × 13 행렬로 최종 데이터 셋으로 구성하였다. 여기서 47편의 영화는 2013년부터 2014년까지 흥행영화 34편과 비 흥행영화 13편을 선정하였다. 영화 흥행 여부는 영화 누적관객 수가 30만 명을 기준으로 하였다.
영화 흥행 여부는 영화 누적관객 수가 30만 명을 기준으로 하였다. 영화 흥행 여부에 대한 기준은 투자 대비수입 등의 문제로 영화 흥행 여부에 대한 절대적이고 객관적인 기준이 없기 때문에 본 연구에서는 영화관람 관객 수가 현저히 떨어지는 30만 명을 기준으로 하였다. 변수들에 대한 설명은 Table 3.
이제 본 연구의 목적인 영화 흥행 여부의 모형을 얻기 위해 로지스틱 회귀분석에 적용될 데이터 셋은 47개의 영화와 SVD1부터 SVD10까지의 변수와 평점평균과 스크린 수 2개의 변수를 추가하여 설명변수로 하고 영화 흥행여부를 종속변수로 구성된 크기 47 × 13 행렬로 최종 데이터 셋으로 구성하였다.

데이터처리

본 연구에서는 영화를 행으로 하고 단어를 변수로 상정하여 열로 하는 행렬을 만들고 이를 특이값 분해를 이용하여 얻어진 고유벡터를 설명변수로 하고, 영화의 흥행여부를 종속변수로 하여 영화 흥행 여부를 예측하는 모형을 구축한다. 이를 위하여 3.1절에 기술한 분석데이터를 가지고 로지스틱 회귀분석을 수행한다. 여기서 변수선택법으로 단계별변수선택법을 사용하였다.

이론/모형

본 연구에서는 SAS Enterprise Miner 13.1의 Text Miner tool을 사용하여 분석하였다.
본 연구에서 사용한 데이터는 포털 사이트 ‘D’사의 2013에서 2014년까지 영화 47편에 대한 55,028개의 리뷰와 영화 평점에 관한 데이터, 그리고 ‘영화진흥위원회’의 스크린 수에 대한 데이터로 구성되어 있다. 분석 방법으로는 SAS Enterprise Miner 13.1의 Text Miner tool을 사용하였다.
1절에 기술한 분석데이터를 가지고 로지스틱 회귀분석을 수행한다. 여기서 변수선택법으로 단계별변수선택법을 사용하였다. 분석 결과는 4.

성능/효과

2에 주어져 있다. 3.1절의 분석데이터에서 기술된 변수들은 43개 영화에서 공통적으로 나오면서 빈도가 100개 이상인 용어들 중 상위 10개이다.
이 변수와 2개의 변수 (평점평균과 스크린 수)를 추가하여 설명변수로 하고 영화 흥행여부를 종속변수로 하여 최종 분석데이터 셋을 구성하였다. 단계적 변수선택법을 이용한 로지스틱 회귀분석 결과 얻어진 변수는 SVD1, SVD3 그리고 평점평균 변수가 얻어졌고, 이 변수들은 모두 유의수준 0.05하에서 유의하였으며 본 연구에서 제안한 영화 흥행 예측모형을 얻었다. 본 연구에서 제안한 예측 모형의 정분류율은 95.
본 연구에서 제안한 모형을 이용하여 미개봉작 영화인 ‘기술자들’에 대한 흥행 여부를 예측 (2014년 12월 18일 기준)한 결과 ‘흥행’으로 얻어졌다.
05하에서 유의하였으며 본 연구에서 제안한 영화 흥행 예측모형을 얻었다. 본 연구에서 제안한 예측 모형의 정분류율은 95.74%로 얻어졌다.
본 연구의 결과는 표본을 어디에서 얼마만큼 텍스트 데이터를 수집하느냐에 따라 분석결과가 달라질 수 있다는 단점이 있다. 그리고 본 연구에서 텍스트 마이닝을 위해 특이값 분해의 적용에 초점을 두었으나 보다 나은 영화 흥행 예측 모형을 도출해 내기 위해서는 다양한 독립변인 (‘별점’, ‘영화의 장르’, ‘개봉시기’ 등)을 고려해야 할 것으로 판단된다.

후속연구

그리고 본 연구에서 텍스트 마이닝을 위해 특이값 분해의 적용에 초점을 두었으나 보다 나은 영화 흥행 예측 모형을 도출해 내기 위해서는 다양한 독립변인 (‘별점’, ‘영화의 장르’, ‘개봉시기’ 등)을 고려해야 할 것으로 판단된다.
그리고 본 연구에서 텍스트 마이닝을 위해 특이값 분해의 적용에 초점을 두었으나 보다 나은 영화 흥행 예측 모형을 도출해 내기 위해서는 다양한 독립변인 (‘별점’, ‘영화의 장르’, ‘개봉시기’ 등)을 고려해야 할 것으로 판단된다. 또한 본 연구에서는 2013년부터 2014년까지의 47편에 대한 영화리뷰 데이터를 이용한 연구결과이기 때문에 영화 흥행 여부에 대한 모형을 구축하는데 한계가 있다. 즉, 영화의 편수를 보다 많이 고려하는 것이 필요로 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	비정형화 데이터의 종류는 무엇이 있는가?	비정형화 데이터의 종류는 사회네트워크 서비스 (social network service; SNS), 각 종 사회미디어(social media), 그리고 어떠한 생각이나 상태를 나타내는 이미지 등 여러 가지 형태로 존재한다. 비정형화 형태의 빅 데이터는 다양한 도구 (예를 들면, 하둡)를 이용하여 정형화하여 분석을 수행한다.
	오피니언 마이닝이 분석하는 내용은?	또한 텍스트 마이닝의 일부분인 오피니언 마이닝 (opinion mining)은 어떤 객체 (상품, 영화 등)에 대한긍정과 부정에 대한 감정에 대해 중요성을 두고 있다. 이는 감성 분석 (sentiment analysis)으로 불리기도 하며 이슈, 사건, 토픽 등 이들의 여러 속성에 대한 사람들의 의견, 태도, 감정 등을 분석한다. 텍스트 마이닝의 경우, 분석대상은 문서 또는 웹상의 문자와 같은 텍스트로써 이러한 텍스트들에 대한 의미를 파악하여 유용한 정보를 획득하는 등 다양한 연구가 수행되어 왔다.
	빅 데이터 분석에 사용되는 대표적인 도구는?	비정형화 데이터의 종류는 사회네트워크 서비스 (social network service; SNS), 각 종 사회미디어(social media), 그리고 어떠한 생각이나 상태를 나타내는 이미지 등 여러 가지 형태로 존재한다. 비정형화 형태의 빅 데이터는 다양한 도구 (예를 들면, 하둡)를 이용하여 정형화하여 분석을 수행한다. 방대한 데이터들 속에서 유용한 정보를 얻기 위한 분석 방법은 데이터의 형태에 따라 여러 가지 분석기법이 있지만, 대표적인 분석 방법으로 데이터 마이닝 (data mining)이 있다.

참고문헌 (14)

An, S. W. and Cho, S. B. (2010). Stock prediction using news text mining and time series analysis. Journal of Computing Science and Engineering, 37, 77-82.
Bae, K. Y., Park, J. H., Kim, J. S. and Lee, Y. S. (2013). Analysis of the abstracts of research articles in food related to climate change using a text-mining algorithm. Journal of the Korean Data & Information Science Society, 24, 1429-1437.

원문보기 상세보기
Baek, G. I., Kim, K. K., Choi, S. B. and Kang, C. W. (2015). Prediction for the Films Success using Stylometry. Journal of the Korean Data Analysis Society, 17, 719-728.
Chun, H. J. and Leem, B. H. (2014). Face/non-face channel fit comparison of life insurance company and non-life insurance company using social network analysis. Journal of the Korean Data & Information Science Society, 25, 1207-1219.

원문보기 상세보기
Jung, K. H. (2010). A study of foresight method based on text mining and complexity network analysis. Korea Institute of S&T Evaluation and Planning, Seoul.
Kang, B. U., Huh, M. K. and Choi, S. B. (2015). Performance analysis of volleyball games using the social network and text mining techniques. Journal of the Korean Data & Information Science Society, 26, 1-12.

원문보기 상세보기
Kim, K. H. and Oh, S. Y. (2009). Methodology for applying text mining techniques to analyzing online customer reviews for market segmentation. International Journal of Contents, 9, 272-284.
Lee. J. Y. and Kim, H. J. (2014). Identification of major risk factors association with respiratory diseases by data mining. Journal of the Korean Data & Information Science Society, 25, 373-384.

원문보기 상세보기
Oh, S. W. and Jin, S. H. (2012). A study on analysis of internet shopping mall customers' reviews by text mining. Journal of the Korean Data Analysis Society, 14, 125-137.
Oh, H. S., Cho, S. K., Kang, C. W. and Lim, D. S. (2010). Fashion Company's Claim Data Analysis Using Text Mining. Journal of the Korean Data Analysis Society, 12, 297-306.
Park, H. W. and Lee, Y. O. (2009). A mixed text analysis of user comments on a portal site : The 'BBK Scandal' in the 2007 presidential election of south korea. Journal of the Korean Data Analysis Society, 11, 731-744.
SAS Korea. (2010). G etting Started with SAS Text Miner 4.2., SAS Siftware Korea Ltd.
Yu, E. J., Kim Y. S., Kim, N. K. and Jung, S. R. (2013). Predicting the direction of the stock index by using a domain-specific sentiment dictionary. Journal of intelligence and information systems, 19, 95-110.

원문보기 상세보기
Yune, H. J., Kim, H. J. and Chang, J. Y. (2010). An efficient search method of product reviews using opinion mining techniques. Journal of Computing Science and Engineering, 16, 222-226.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증