인터넷 포털은 많은 양의 정보를 빠르고 쉽게 이용 할 수 있다는 특성 때문에 지속적으로 영향력이 커지고 있다. 웹 이용자들은 다양한 정보 습득, 네티즌 간의 정보 교환 등 다양한 목적을 위해 포털 사이트를 사용하고 있다. 문화콘텐츠 이용자들은 타인의 경험을 미리 알아보기 위해 포털 사이트에서 정보를 검색한 후 해당콘텐츠를 사용하고 개인적인 의견을 게시하기도 한다. 영화를 보고자 하는 이용자들은 관련 정보를 검색하고 얻는 과정에서 영화에 대한 다른 이용자들이 게시한 다양한 정보들을 접하게 된다. 영화 관련 포털사이트에서는 영화에 대한 제한된 글자수의 리뷰와 평점을 제공하는데 이와 같은 정보의 영향으로 영화에 대한 태도를 형성할 뿐 아니라, 영화 관람 여부를 결정하도록 만들 수 있다. 하지만 영화 리뷰는 사용자가 전체를 읽을 수 없기 때문에 일부 리뷰와 리뷰 개개의 평점보다는 전체 평점을 참고 하여 의사결정을 하는 정도가 대부분이다. 이처럼 전체 평점만을 참고하게 되면 편향적인 정보 습득으로 인하여 잘못된 판단을 할 수 있게 된다. 이러한 리뷰의 특성에도 불구하고 리뷰는 사용자의 의견을 풍부하게 드러내고 영화를 보지 않은 다른 이용자들의 선택에 영향을 미친다는 점에서 다양한 실용적 활용성을 갖는 데이터임은 분명하다. 본 연구에서는 리뷰 데이터를 활용하여 평점을 예측하기 위한 평점예측 연구를 수행하였다. 리뷰테이터를 형태소로 추출하고 형태소별로 극성값을 계산하여 리뷰에 대한 평점을 예측하는 모형으로서, 기존의 긍부정 값만을 근거로 하는 모형에 비해 정확도가 높아진 것을 확인하였다.
인터넷 포털은 많은 양의 정보를 빠르고 쉽게 이용 할 수 있다는 특성 때문에 지속적으로 영향력이 커지고 있다. 웹 이용자들은 다양한 정보 습득, 네티즌 간의 정보 교환 등 다양한 목적을 위해 포털 사이트를 사용하고 있다. 문화콘텐츠 이용자들은 타인의 경험을 미리 알아보기 위해 포털 사이트에서 정보를 검색한 후 해당콘텐츠를 사용하고 개인적인 의견을 게시하기도 한다. 영화를 보고자 하는 이용자들은 관련 정보를 검색하고 얻는 과정에서 영화에 대한 다른 이용자들이 게시한 다양한 정보들을 접하게 된다. 영화 관련 포털사이트에서는 영화에 대한 제한된 글자수의 리뷰와 평점을 제공하는데 이와 같은 정보의 영향으로 영화에 대한 태도를 형성할 뿐 아니라, 영화 관람 여부를 결정하도록 만들 수 있다. 하지만 영화 리뷰는 사용자가 전체를 읽을 수 없기 때문에 일부 리뷰와 리뷰 개개의 평점보다는 전체 평점을 참고 하여 의사결정을 하는 정도가 대부분이다. 이처럼 전체 평점만을 참고하게 되면 편향적인 정보 습득으로 인하여 잘못된 판단을 할 수 있게 된다. 이러한 리뷰의 특성에도 불구하고 리뷰는 사용자의 의견을 풍부하게 드러내고 영화를 보지 않은 다른 이용자들의 선택에 영향을 미친다는 점에서 다양한 실용적 활용성을 갖는 데이터임은 분명하다. 본 연구에서는 리뷰 데이터를 활용하여 평점을 예측하기 위한 평점예측 연구를 수행하였다. 리뷰테이터를 형태소로 추출하고 형태소별로 극성값을 계산하여 리뷰에 대한 평점을 예측하는 모형으로서, 기존의 긍부정 값만을 근거로 하는 모형에 비해 정확도가 높아진 것을 확인하였다.
Currently, the influence of the Internet portal sites that can make it quick and easy to contact the vast amount of information is increasing. Users can connect the Internet through a portal to obtain information, such as communication between Internet users, which can be used to meet a variety of p...
Currently, the influence of the Internet portal sites that can make it quick and easy to contact the vast amount of information is increasing. Users can connect the Internet through a portal to obtain information, such as communication between Internet users, which can be used to meet a variety of purposes. People are exposed to a variety of information from other users in the search for a movie and get information. The impact on the reviews and ratings with the limited number of characters of the film allows users to form a relationship to the movie, decide whether you want to see the movie or find another movie. but, the user can not read the whole movie review. When user see the overall evaluation, the user can receive the correct information. This research conducted a study on the prediction of the rating by the use of review data. Information of reviews, is divided into two main areas: the"fact" and "opinion". "Fact" is to convey the dispassionate information and "Opinion" is, to represent the user's feelings. In this study, we built sentiment dictionary based on the assessment and evaluation of the online review and applied to evaluate other movies. In the comparative study with a simple emotion evaluation technique, we found the suggested algorithm got the more accurate results.
Currently, the influence of the Internet portal sites that can make it quick and easy to contact the vast amount of information is increasing. Users can connect the Internet through a portal to obtain information, such as communication between Internet users, which can be used to meet a variety of purposes. People are exposed to a variety of information from other users in the search for a movie and get information. The impact on the reviews and ratings with the limited number of characters of the film allows users to form a relationship to the movie, decide whether you want to see the movie or find another movie. but, the user can not read the whole movie review. When user see the overall evaluation, the user can receive the correct information. This research conducted a study on the prediction of the rating by the use of review data. Information of reviews, is divided into two main areas: the"fact" and "opinion". "Fact" is to convey the dispassionate information and "Opinion" is, to represent the user's feelings. In this study, we built sentiment dictionary based on the assessment and evaluation of the online review and applied to evaluate other movies. In the comparative study with a simple emotion evaluation technique, we found the suggested algorithm got the more accurate results.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서 제안한 영화리뷰에 나타난 단어의 극성을 계산하고 이를 토대로 평점을 예측하는 알고리즘은 오피니언 마이닝 또는 감성 분석에 속하므로 이에 대해 살펴본다. 그리고 연구의 대상이 상업영화의 리뷰이므로 상업영화에 대한 선행연구를 살펴본다.
오피니언 마이닝은 기존의 텍스트에 나타난 사용자의 의견을 데이터 마이닝 기술을 활용하여 의견을 분류하는 방법이다. 본 논문에서 제안한 영화리뷰에 나타난 단어의 극성을 계산하고 이를 토대로 평점을 예측하는 알고리즘은 오피니언 마이닝 또는 감성 분석에 속하므로 이에 대해 살펴본다. 그리고 연구의 대상이 상업영화의 리뷰이므로 상업영화에 대한 선행연구를 살펴본다.
종합해보면, 기존의 감성분석 연구는 한 문장을 긍정, 중립, 부정으로 문서를 분류하고 문장내 단어가 어떠한 감성의 문장에서 자주 언급되는지를 분석하여 새로운 문장의 판단에 사용하였다. 본 논문에서는 문서의 감성에 대한 예측 정확도를 보다 높이기 위해 긍정 또는 부정으로 단순하게 문서를 분류하는 것이 아니라 1~10점 스케일의 평점의 정보를 반영하여 단어의 극성값을 계산하는 알고리즘을 제안하고자 하는 것이다.
그리고 이전의 연구에서 리뷰의 극성이 긍정인지 부정인지에 대한 예측력을 Precision, Recall, F-score의 평가척도를 사용 하여 검증하였는데, 이와는 다르게 극성값 사전을 구축하고 이것을 이용하여 영화의 평점을 예측했다. 본 연구에서는 10점 스케일의 평점을 단순히 긍정/부정으로 나누어 일부 데이터만 활용 하는 것 보다 모든 평점 갖고 있는 정보에 대해서 모두 활용하는 방법을 제안한다. 리뷰 문장에서 추출된 단어들 중 i번째 단어를 wordi 로 표기하고 wordi의 극성값, wordPolarity(wordi) 는 다음과 같은 수식에 의해 구할 수 있다.
이들 연구는 각 리뷰의 감정분류를 통해, 긍정/중립/부정을 구분하는 특징을 찾아내거나, 텍스트 마이닝 알고리즘의 성능을 비교하는 연구들로 구분할 수 있다. 본 연구에서는 온라인 구전으로서 인터넷 포털의 영화 사이트에 남겨진 리뷰에 대해 오피니언 마이닝 과정을 거쳐 극성을 부여하고 새로운 영화 리뷰를 분석하고 영화의 평점을 예측하고자 한다. 비정형 텍스트 데이터를 유용한 정보로 가공 하기 위해서는 콘텐츠의 자연어 처리가 중요한 요소 중 하나인데 이와 관련한 텍스트 마이닝 연구들이 다수 진행되었다.
분석의 과다함으로 오히려 본래의 기능을 못하게 되거나 속도가 느려지는 단점을 가지게 된다. 본 연구에서는 형태소 분석기의 기능을 감성분석을 통한 극성값 사전을 구성하기 위해서 색인어 추출을 하였다.
감성 분석을 통한 극성값 사전을 구성하기 위해서는 분석 대상이 되는 형태소, 즉 단어 선정이 중요하며 단어에 대한 정보를 태깅 하는 과정이 필요하다. 이 절에서는 형태소 분석과 색인어 추출에 대해 소개한다.
제안 방법
전처리후 리뷰는 형태소 단위로 분할되고 각 형태소에 대한 극성값을 계산하는 감성사전 구축단계를 수행한다. 계산된 극성값을 이용하여 검증용 데이터의 평점을 예측해보고 예측의 정확도를 측정 하였다.
본 연구에서 제시한 극성값 계산 알고리즘은 기존에 긍정/부정 리뷰만을 선별하여 특정 문장의 출현 빈도의 비율을 계산하고 이 결과를 이용해 새로운 리뷰의 긍정/부정을 평가하는 연구와 다르게 평점 1~10점의 전체 리뷰의 정보를 반영하여 극성값 계산 알고리즘을 제안했다. 그리고 긍정/부정으로 분류한 문장을 이용하여 단어의 극성값을 계산하고 두 유형의 극성값 사전을 이용하여 평점을 예측하고 이를 비교했다.
본 논문에서는 단순히 긍정 또는 부정으로 문서를 분류하는 것이 아닌 1~10점 스케일의 평점의 정보를 반영하여 단어의 극성값을 계산하는 알고리즘을 제안한다. 그리고 이전의 연구에서 리뷰의 극성이 긍정인지 부정인지에 대한 예측력을 Precision, Recall, F-score의 평가척도를 사용 하여 검증하였는데, 이와는 다르게 극성값 사전을 구축하고 이것을 이용하여 영화의 평점을 예측했다. 본 연구에서는 10점 스케일의 평점을 단순히 긍정/부정으로 나누어 일부 데이터만 활용 하는 것 보다 모든 평점 갖고 있는 정보에 대해서 모두 활용하는 방법을 제안한다.
다음은 리뷰와 평점 간의 관련성을 잃은 데이터 예시들을 정의하고 필터링을 통한 평점 분포를 분석했다. 첫 번째 영화의 평가 여부를 판단할 수 없고 형태소 분석을 적용 할 수 없는 데이터이다.
다음의 정제된 리뷰데이터를 KLT-Version2.0형태소 분석기를 이용하여 형태소 단위로 분리 했다. 총 5167개의 리뷰를 형태소 분석하여 총 3543개의 단어를 추출하였고 이 결과는 단어의 출현 빈도수가 1인 것들은 삭제한 결과이다.
리뷰의 편향성을 보정하기 위해 상업적 영화 임에도 불구하고 상대적으로 부정적인 평가를 받았던 Dark shadows를 추가하였다. 결과적으로 5개의 영화가 선정되었으며 전체적으로 약 7천 개의 리뷰데이터를 선정했다.
본 논문에서는 단순히 긍정 또는 부정으로 문서를 분류하는 것이 아닌 1~10점 스케일의 평점의 정보를 반영하여 단어의 극성값을 계산하는 알고리즘을 제안한다. 그리고 이전의 연구에서 리뷰의 극성이 긍정인지 부정인지에 대한 예측력을 Precision, Recall, F-score의 평가척도를 사용 하여 검증하였는데, 이와는 다르게 극성값 사전을 구축하고 이것을 이용하여 영화의 평점을 예측했다.
정제된 리뷰는 약 5천개로 형태소 분석결과약 3500개의 단어의 극성값을 계산했다. 본 연구에서 제시한 극성값 계산 알고리즘은 기존에 긍정/부정 리뷰만을 선별하여 특정 문장의 출현 빈도의 비율을 계산하고 이 결과를 이용해 새로운 리뷰의 긍정/부정을 평가하는 연구와 다르게 평점 1~10점의 전체 리뷰의 정보를 반영하여 극성값 계산 알고리즘을 제안했다. 그리고 긍정/부정으로 분류한 문장을 이용하여 단어의 극성값을 계산하고 두 유형의 극성값 사전을 이용하여 평점을 예측하고 이를 비교했다.
총 5167개의 리뷰를 형태소 분석하여 총 3543개의 단어를 추출하였고 이 결과는 단어의 출현 빈도수가 1인 것들은 삭제한 결과이다. 본 연구에서 제안하는 알고리즘은 리뷰 전체에 평점을 변형한 각각의 가중치를 할당하고 단어가 출현한 리뷰들의 가중치 평균을 구하여 극성값을 계산한다.
본 연구에서는 ‘네이버 영화’에 작성된 일반관객들의 온라인 리뷰 중 훈련용 데이터를 이용하여 텍스트 마이닝 과정을 거쳐 형태소 단어들의 극성값을 계산한다.
부정적인 평가를 받은 영화 1개 만을 추가한 것은 가용한 영화 리뷰 정보의 제한으로 인해 다소 부족한 부분도 있었지만 형태소로 분석하는 과정에서 충분한 단어들은 확보되었다. 분석하기에 앞서 사용자가 리뷰를 작성할 때 영화에 대한 리뷰를 작성하는 것과 평점을 부여하는 두 개의 행위가 상호 참조되면서 리뷰와 평점 사이의 관련성을 잃은 리뷰들을 탐색하였고, 사용자에 따라서 서로 다른 기준으로 인해 일관성을 잃은 데이터를 정의하여 필터링하였다.
<그림 1>에서 보는 바와 같이, 우선 수집된 평점과 리뷰데이터 중에서 평점과 리뷰간 정합성이 상당히 떨어지는 즉, 불연속적인 데이터를 제거하는 등의 전처리를 수행하였다. 전처리후 리뷰는 형태소 단위로 분할되고 각 형태소에 대한 극성값을 계산하는 감성사전 구축단계를 수행한다.
오피니언 마이닝은 기존의 다양한 연구 분야와 깊은 연관성을 갖으며 “채굴, 채광”을 의미하는 마이닝 용어를 차용 하여 정보를 추출해 의사 결정에 활용하는 데이터 마이닝 기술을 기반으로 시작하여 좀 더 세분화된 연구 분야로 자리 잡았다.
앞서 언급한 김수민(2004)의 연구는 텍스트의 주관성을 판별하고 사용자의 의견 부분에 대해 긍정, 부정, 중립으로 분류하는 알고리즘을 제안 하였다. 이 알고리즘은 감정을 나타내는 모든 단어를 각각에 대해 극성을 평가하고 결합하여 전체 문장에 대한 의견을 분류했다. 의미 방향을 구분하는 연구에 이어 극성의 정도를 측정하는 연구들이 있다.
온라인 리뷰는 다양한 정보를 포함하고 있기 때문에 평점 예측에 불필요하거나 잘못된 정보를 정제하는 과정이 필요했다. 정제의 과정으로 영화의 평가와 관련 없는 리뷰나 리뷰의 내용과 평점간의 불연속성을 띄는 유형 등을 정의하고 제거하여 데이터의 신뢰성을 확보했다.
종합해보면, 기존의 감성분석 연구는 한 문장을 긍정, 중립, 부정으로 문서를 분류하고 문장내 단어가 어떠한 감성의 문장에서 자주 언급되는지를 분석하여 새로운 문장의 판단에 사용하였다. 본 논문에서는 문서의 감성에 대한 예측 정확도를 보다 높이기 위해 긍정 또는 부정으로 단순하게 문서를 분류하는 것이 아니라 1~10점 스케일의 평점의 정보를 반영하여 단어의 극성값을 계산하는 알고리즘을 제안하고자 하는 것이다.
평점을 예측하기 위해 검증데이터의 리뷰에 대해서 훈련용 데이터와 같은 전처리 과정을 거쳐 500개의 리뷰를 형태소로 분석하고 이를 사용했다. 평점 예측은 형태소 분석을 거친 500개의 리뷰와 제안하는 알고리즘으로 계산된 극성값 사전, 긍정/부정만을 이용하여 계산된 극성값 사전을 이용하여 계산한다. 형태소로 나누어진 단어들과 극성값 사전에 일치하는 단어들을 찾아 극성값을 부여하고 각 문장은 부여된 극성값의 평균을 문장의 극성값으로 부여한다.
훈련용 데이터에서 산출된 극성값을 이용하여 검증용 데이터에 적용하여 영화의 평점을 예측하는데 활용한 후 본 알고리즘의 정확도를 예측한다( 참조).
대상 데이터
이를 검증하기 위해 영화를 선정하여 평점을 예측하고 두 방법으로 계산된 평점이 다르다고 할 근거가 충분한지 T-test로 검증하고 실제 평점과 계산된 평점간의 차이를 MAE를 사용하여 정확도를 통해 성능을 평가하고자 한다. 검증을 위한 데이터는 잭스나이더 감독의 Man Of Steel로서 스크린수 998개, 전국관객수 2.182,229명이고, 분류는 상업 영화이다.
리뷰의 편향성을 보정하기 위해 상업적 영화 임에도 불구하고 상대적으로 부정적인 평가를 받았던 Dark shadows를 추가하였다. 결과적으로 5개의 영화가 선정되었으며 전체적으로 약 7천 개의 리뷰데이터를 선정했다. 부정적인 평가를 받은 영화 1개 만을 추가한 것은 가용한 영화 리뷰 정보의 제한으로 인해 다소 부족한 부분도 있었지만 형태소로 분석하는 과정에서 충분한 단어들은 확보되었다.
온라인 리뷰 마이닝을 수행하기 위한 학습 데이터를 만들기 위하여 2012~13년 영화 중 5개의 액션, SF, 판타지 장르의 영화에 대해 분석하였다. 리뷰 데이터는 누적 관객수 100만 이상, 각각의 리뷰 개수가 500개 이상이고 와이드릴리즈 방식으로 개봉한 스크린수가 80개 이상인, 영화 4개를 선정하였다. 본격적인 분석 이전에 4개 영화 리뷰의 특성을 살펴보니 전반적으로 높은 평점을 가지는 것으로 파악되어 부정적 리뷰의 비율이 상대적으로 적었다.
연구를 위해 확보된 자료는 미래창조과학부, 한국정보화진흥원, 빅데이터 분석활용센터가 빅데이터 경진대회에서 분석용으로 제공한 2012년~2013년 네이버 무비사이트 리뷰데이터이다. 본 논문에서는 훈련용 데이터와 검증 데이터로 와이드릴리즈 방식의 상업영화 5편과 1편을 각각 선정하였다. 분석과정은 크게 두 가지 단계로 구성된다.
본 연구는 와이드릴리즈 방식의 개봉영화를 선정하여 극성값 사전을 구축하고 사전을 구축하는데 기반이 된 5개의 영화와 유사한 장르의 영화를 검증용 데이터로 선정하고 평점을 예측 하였다.
실험을 위한 리뷰 데이터는 미래창조과학부, 한국정보화진흥원, 빅데이터 분석활용센터가 개최한 빅데이터 경진대회에서 분석용으로 제공한 2012년~2013년 영화데이터이다. 이 장에서는 영화에 나타나는 온라인 리뷰의 유형을 정의하고, 또한 온라인 사이트에서 작성되는 리뷰의 유용성과 사용자가 리뷰를 작성을 하는 절차로 인해서 발생되는 문제점에서 살펴본다.
<그림 2>에서 보는 것처럼 전처리 과정을 거친 약 7천개의 리뷰 중 5천여 개가 남았고 전처리 과정 전후의 평점 분포를 비교했다. 그림을 보면 전처리 전의 분포는 평점 1점과 10점의 빈도가 각각 1천 건과 4천 건이다.
연구를 위해 확보된 자료는 미래창조과학부, 한국정보화진흥원, 빅데이터 분석활용센터가 빅데이터 경진대회에서 분석용으로 제공한 2012년~2013년 네이버 무비사이트 리뷰데이터이다. 본 논문에서는 훈련용 데이터와 검증 데이터로 와이드릴리즈 방식의 상업영화 5편과 1편을 각각 선정하였다.
제안된 극성값 사전을 이용한 평점 예측 알고리즘은 다음과 같은 프로세스로 진행된다. 온라인 리뷰 마이닝을 수행하기 위한 학습 데이터를 만들기 위하여 2012~13년 영화 중 5개의 액션, SF, 판타지 장르의 영화에 대해 분석하였다. 리뷰 데이터는 누적 관객수 100만 이상, 각각의 리뷰 개수가 500개 이상이고 와이드릴리즈 방식으로 개봉한 스크린수가 80개 이상인, 영화 4개를 선정하였다.
정제된 리뷰는 약 5천개로 형태소 분석결과약 3500개의 단어의 극성값을 계산했다. 본 연구에서 제시한 극성값 계산 알고리즘은 기존에 긍정/부정 리뷰만을 선별하여 특정 문장의 출현 빈도의 비율을 계산하고 이 결과를 이용해 새로운 리뷰의 긍정/부정을 평가하는 연구와 다르게 평점 1~10점의 전체 리뷰의 정보를 반영하여 극성값 계산 알고리즘을 제안했다.
본 연구에서 제시한 극성값 사전의 성능은 검증 데이터의 텍스트 정보 만을 이용하여 평점을 계산한다. 평점을 예측하기 위해 검증데이터의 리뷰에 대해서 훈련용 데이터와 같은 전처리 과정을 거쳐 500개의 리뷰를 형태소로 분석하고 이를 사용했다. 평점 예측은 형태소 분석을 거친 500개의 리뷰와 제안하는 알고리즘으로 계산된 극성값 사전, 긍정/부정만을 이용하여 계산된 극성값 사전을 이용하여 계산한다.
데이터처리
단순한 실험에서 가장 많이 사용하는 방법으로 두 집단 간의 통계적 차이를 검증하는 모수적 검증 방법 중 하나이다. T-test는 통계패키지인 SPSS를 이용하였다. 표 8에서 평점 집단 1은 본 연구에서 제단된 알고리즘의 예측평점이고 집단 2는 긍정/부정을 문장을 이용한 예측평점이다.
즉, 두 방법으로 구축된 극성값 사전으로 계산한 두 예측평점이 다르다는 근거를 얻었다. 다음은 두 극성값 사전의 성능을 MAE를 이용하여두 평점 결과를 수치적으로 비교했다.
본 연구에서 제시한 극성값 사전의 성능은 검증 데이터의 텍스트 정보 만을 이용하여 평점을 계산한다. 평점을 예측하기 위해 검증데이터의 리뷰에 대해서 훈련용 데이터와 같은 전처리 과정을 거쳐 500개의 리뷰를 형태소로 분석하고 이를 사용했다.
영화 리뷰의 평점에 대해 가중치를 부여하는데 1에서 –1 사이의 값으로 부여하고, 단어가 출현한 문장의 가중치의 평균을 극성값으로 산출하고 각 단어는–1에서 1사이의 값을 갖는다. 이 절에서는 본 연구에서 제안한 알고리즘으로 계산한 결과와 긍정/부정 문장만을 이용하여 극성값을 계산한 극성값 사전의 결과를 비교한다. 표 2와 표3 극성값이 0 이상인 명사 중 출현빈도 상위 5개를 비교한 표이다.
위의 과정은 훈련데이터를 이용하여 두 방법으로 단어의 극성값을 계산하고 이 결과로 구축된 극성값 사전의 결과를 긍정/부정, 명사/동사에 따라서 비교한 훈련 단계이다. 이를 검증하기 위해 영화를 선정하여 평점을 예측하고 두 방법으로 계산된 평점이 다르다고 할 근거가 충분한지 T-test로 검증하고 실제 평점과 계산된 평점간의 차이를 MAE를 사용하여 정확도를 통해 성능을 평가하고자 한다. 검증을 위한 데이터는 잭스나이더 감독의 Man Of Steel로서 스크린수 998개, 전국관객수 2.
각 문장에 대한 극성값은 1~10점의 평점을 –1부터 1 사이의 평점으로 변환하여 예측평점을 얻는데 최종적으로 다음과 같은 두 가지 평점을 계산한다. 제안하는 알고리즘 극성값 사전을 이용한 예측평점과 긍정/부정 문장 극성값 사전을 이용한 예측평점인데 계산된 두 평점 집단 간의 비교를 하기에 앞서 두 집단 간의 유의한 차이가 있는지 T-test를 거쳤다.
이론/모형
본 연구에서는 자연어처리, 한국어 분석기인 KLT-Version2.0을 활용하였다(강승식․이하규,1996). KLT 한국어 분석 모듈은 효율적인 불용어 처리 기능, ASCII 문자가 포함된 복수 질의어 처리 기능을 제공함으로써 실용화된 정보검색 시스템과 기계번역 시스템에서 활용되어 그 성능과 안전성에 대해 검증되었다.
성능/효과
0을 활용하였다(강승식․이하규,1996). KLT 한국어 분석 모듈은 효율적인 불용어 처리 기능, ASCII 문자가 포함된 복수 질의어 처리 기능을 제공함으로써 실용화된 정보검색 시스템과 기계번역 시스템에서 활용되어 그 성능과 안전성에 대해 검증되었다. 현재 연구용으로 KLT-version2.
T-검정 결과 유의확률이 0.000으로 귀무가설을 기각할 만한 근거가 충분하다는 결과를 얻었다. 즉, 두 방법으로 구축된 극성값 사전으로 계산한 두 예측평점이 다르다는 근거를 얻었다.
그러나 제안하는 알고리즘 결과에서 상위 5개의 단어 중 ‘유치’, ‘개연성’, ‘점수’와 같은 단어들은 기존의 알고리즘 결과에서 보이지 않았다.
긍정/부정만을 이용한 알고리즘으로 구한 평점의 정확도는 평균적으로 2의 차이가 났고, 긍정/부정만을 이용한 결과 일치 정도가 70% 이상인 문장의 MAE가 가장 낮은 것을 알 수 있다. 극성값 사전의 정보가 가장 잘 적용된 경우에 성능이 가장 떨어지는 것으로 보아 긍정/부정 문장을 이용한 사전의 경우 사전의 성능이 긍정적 영향을 미치지 않는 것으로 판단된다.
단어 ‘쓰레기’는 되려 제안하는 방법의 극성값이 더 극명하게 나온 것을 알수 있는데 이것은 중립 문장의 정보를 반영하였을 때 모든 단어의 극성값이 0에 가깝게 보정되는 것이 아니고 정보의 반영으로 극성값이 부정이나 긍정에 더 가까워 질 수도 있다는 결과를 얻었다.
<표 4>와 <표 5>는 극성값이 0 이하로 부정적 문장에 출현한 정도가 높은 명사 중 출현빈도 상위 5개를 비교한 표이다. 두 결과가 많이 다른 것을 볼 수 있는데 긍정/부정만을 이용한 계산 결과는 긍정 명사 상위 5개를 비교한 경우에도 극성값이 높은 결과를 얻었고 이와 마찬가지로 부정 명사의 결과에도 극성값이 낮은 것을알 수 있다. 그러나 제안하는 알고리즘 결과에서 상위 5개의 단어 중 ‘유치’, ‘개연성’, ‘점수’와 같은 단어들은 기존의 알고리즘 결과에서 보이지 않았다.
58로서 사전의 정보가 잘 반영된 문장의 경우 성능이 좋은 것을 알 수 있다. 따라서 본 연구에서 제시하는 방법과 긍정/부정 문장만을 활용한 방법을 비교했을 때 본 연구의 알고리즘의 평점 예측의 성능이 높음을 알 수 있다.
극성값 사전의 정보가 가장 잘 적용된 경우에 성능이 가장 떨어지는 것으로 보아 긍정/부정 문장을 이용한 사전의 경우 사전의 성능이 긍정적 영향을 미치지 않는 것으로 판단된다. 반대로 본 연구에서 제안한 방법으로 구축한 극성값 사전은 일치의 정도가 높은 문장의 MAE는 가장 낮은 1.58로서 사전의 정보가 잘 반영된 문장의 경우 성능이 좋은 것을 알 수 있다. 따라서 본 연구에서 제시하는 방법과 긍정/부정 문장만을 활용한 방법을 비교했을 때 본 연구의 알고리즘의 평점 예측의 성능이 높음을 알 수 있다.
리뷰 데이터는 누적 관객수 100만 이상, 각각의 리뷰 개수가 500개 이상이고 와이드릴리즈 방식으로 개봉한 스크린수가 80개 이상인, 영화 4개를 선정하였다. 본격적인 분석 이전에 4개 영화 리뷰의 특성을 살펴보니 전반적으로 높은 평점을 가지는 것으로 파악되어 부정적 리뷰의 비율이 상대적으로 적었다.
2012~2013년 국내 국가별 영화 개봉작은 미국과 한국, 일본 국적의 영화가 70% 이상으로 높은 점유율을 보였다. 상업영화로 볼 수 있는 스크린 수가 80개 이상인 영화는 전체 865개의 영화 중 292개였는데 이 중에 스크린 수 상위 100개의 영화가 총 스크린 89958개 중 62%를 점유하고 있는 것으로 나타났다. 상업영화는 저예산 영화나 독립, 예술, 영화에 비해 많은 리뷰가 생성되어 다양한 의견을 얻을 수 있고 이를 분석 하여 평점을 예측하는데 많은 정보를 반영할 수 있다.
염정근·조성준(2011)은 다른 사람들의 평가와 구전효과를 수치적으로 알아보기 위해서 포털사이트의 영화 평점을 참고하여 연구를 진행하였다. 영화에 대한 평점은 관객을 유치하는데 영향일 미치고 특정 영화에 대한 평점이 높으면 높을수록 영화를 아직 보지 않은 잠재 관객들이 긍정적인 생각을 갖도록 기대치를 상승시키고 따라서 영화의 전체적인 관객수가 증가할 가능성이 높음을 보였다. 하현석 외 3인(2014)는 소셜네트워크 서비스에서의 영화 관련 정량적 데이터를 사용하여 영화평점을 예측하는 연구를 수행하였다.
구전은 두 가지 관점에서 기업의 광고 같은 기존의 다른 정보들과 구분된다. 첫째, 구전이 다른 정보들보다 소비자들에게 더 믿을 수 있고 신뢰할 수 있는 정보라는 것이다. Ulrick(1992)는 구전이 자신과 비슷한 상황에 처한 다른 소비자들로부터의 조언이기 때문에 소비자의 구매결정에 더 큰 힘을 발휘한다고 다른 정보와의 신뢰성 차이를 설명하였다.
0형태소 분석기를 이용하여 형태소 단위로 분리 했다. 총 5167개의 리뷰를 형태소 분석하여 총 3543개의 단어를 추출하였고 이 결과는 단어의 출현 빈도수가 1인 것들은 삭제한 결과이다. 본 연구에서 제안하는 알고리즘은 리뷰 전체에 평점을 변형한 각각의 가중치를 할당하고 단어가 출현한 리뷰들의 가중치 평균을 구하여 극성값을 계산한다.
후속연구
본 연구의 한계로는 제안하는 알고리즘은 영화 도메인에서 평점 예측이라는 목적을 갖고 구축한 극성값 사전이므로 다른 도메인의 극성을 분류하거나 상품의 평점을 예측하는데 부적절하므로 영화 도메인에 한하여 사용해야 한다는 점이 있다. 또한 극성값 사전을 만들기 위해서 거치는 전처리 과정에서 널리 이용 될 수 있는 전처리 기준을 만들어야 하고 같은 단어는 다르지만 뜻은 같은 단어들에 대해서 처리 할 수 있도록 극성값 사전에 의미망 카테고리를 추가하여 사전의 질을 개선할 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
가장 기본적인 수준의 오피니언 마이닝은 무엇으로 이루어지는가?
가장 기본적인 수준의 오피니언 마이닝은 문서 단위로 이루어지고, 이 수준의 연구는 하나의 문서는 하나의 대상에 대한 하나의 감성을 나타낸다는 가정 아래 수행된다(Pang et al, 2002; Turney, 2002). 보다 세부적인 연구는 각 문장을 대상으로 하는데 주관성 분석(Subjectivity Analysis) 또는 주관성 구분(Subjectivity Classification) (Wiebe et al, 1999)과 구와 절 단위의 분석 그리고 극성 분석, 극성의 정도 분석을 주요 이슈로 다루고 있다.
우리나라 와이드릴리즈로 인한 영화 흥행 특징은?
이는 우리나라의 경우도 마찬가지인데 연도별 개봉 영화 스크린 수의 비율을 보면(영화진흥위원회, 2008), 한국영화 시장은 10개 미만의 소규모로 개봉하거나, 그렇지 않으면, 80개 이상의 와이드릴리즈 영화로 크게 양극화되고 있는 경향을 보인다. 이러한 이유로 최근 한국영화에서는 중간 규모의 흥행을 찾아보기 어렵다(김희경, 2005).
오피니언 마이닝이란?
오피니언 마이닝은 감성 분석이라고도 하며 컴퓨팅 언어처리, 자연어처리 그리고 온라인 텍스트 속의 감성과 주관 및 여러 감정을 식별하기 위해 사용된다(Chen & Zimbra 2010). 일반적으로 한 도메인에서 사용자가 보이는 태도를 식별하는 것을 목표로 하는데 예를 들어 온라인 텍스트 속의 감성과 감동 등 여러 가지 감정 상태를 판단하는 것을 말한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.