[논문]온라인 리뷰에서 평점의 분류

최동준; 최호식; 박창이

doi:10.7465/jkdi.2016.27.4.845

온라인 리뷰에서 평점의 분류
Classification of ratings in online reviews 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.27 no.4, 2016년, pp.845 - 854

최동준 (서울시립대학교 통계학과) , 최호식 (경기대학교 응용정보통계학과) , 박창이 (서울시립대학교 통계학과)

초록
AI-Helper

감성분석 (sentiment analysis) 혹은 오피니언 마이닝 (opinion mining)은 블로그, 리뷰, 신문기사나 소셜네트워크 등의 문서에서 개인의 주관적인 정보 혹은 의견을 알아보는데 사용되는 텍스트 마이닝의 기법이다. 평점이 있는 온라인 리뷰에서 리뷰 텍스트에 기반한 평점의 분류문제에 대한 선행연구에서는 이진 분류만을 고려하였다. 그러나 긍정과 부정 외에도 중립적인 의견도 있을 수 있기 때문에 이진 분류보다는 다범주 분류가 더 적합할 것이다. 본 연구에서는 리뷰 텍스트에 기반한 평점의 다범주 분류문제를 고려한다. 전처리에서는 카이제곱 통계량을 이용하여 평점과 연관된 단어들을 추출하고 이를 입력변수로 삼아 지지벡터기계 (support vector machines)와 비례오즈 모형 (proportional odds model) 등 다범주 분류기의 예측력을 비교한다.

Abstract ▼ AI-Helper

Sentiment analysis or opinion mining is a technique of text mining employed to identify subjective information or opinions of an individual from documents in blogs, reviews, articles, or social networks. In the literature, only a problem of binary classification of ratings based on review texts in an online review. However, because there can be positive or negative reviews as well as neutral reviews, a multi-class classification will be more appropriate than the binary classification. To this end, we consider the multi-class classification of ratings based on review texts. In the preprocessing stage, we extract words related with ratings using chi-square statistic. Then the extracted words are used as input variables to multi-class classifiers such as support vector machines and proportional odds model to compare their predictive performances.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 평점이 있는 온라인 리뷰에서 리뷰 텍스트에 기반한 평점의 다범주 분류문제를 고려한다. 관련된 선행 연구로는 다음과 같은 것들이 있다.

제안 방법

본 연구에서는 온라인 리뷰 텍스트에서 평점을 잘 예측하는 단어들을 추출하기 위해 Lee와 Hong (2015)처럼 카이제곱 통계량을 활용하여 평점과 연관성이 높은 단어들을 추출한다. 또한 추출된 단어들을 입력변수로 이용하여 지지벡터기계 (support vector machine)와 비례오즈 모형 (proportional odds model) 등 여러 가지 다범주 분류 알고리즘을 이용하여 평점에 대한 예측력을 비교한다.
본 논문에서는 다범주 지지벡터기계 알고리즘으로 OVR (one versus rest), OVO (one versus one), OVN (one versus the next), OVNF (OVN + forward)을 고려한다. 이들중 OVN과 OVNF는 평점의 순서성을 고려하는 방법이고 OVR과 OVO는 평점의 순서성을 고려하지 않는 방법으로 볼 수 있다.
본 논문에서는 카이제곱 통계량을 이용하여 온라인 리뷰 데이터에서 평점과 연관성이 높은 단어들을 추출한 후 각 리뷰에서 추출된 단어들의 출현빈도를 이용하여 평점을 예측하는 다범주 분류문제를 고려하였다. 우선 분석에 사용된 데이터의 특징을 살펴보면, 긍정과 부정으로 이루어진 이진 분류 보다는 범주의 갯수가 3개 정도의 다범주 분류가 적합한 것으로 보이며, 특정 단어들이 나오는지 여부가 클래스와 연관성이 매우 큰 것으로 보인다.
이 절에서는 모의실험과 실제 온라인 리뷰 데이터에 대하여 2절에서 논의한 다범주 분류방법들의 예측 성능을 비교한다. 모든 데이터 분석은 R을 이용하였다.
우선 분석에 사용된 데이터의 특징을 살펴보면, 긍정과 부정으로 이루어진 이진 분류 보다는 범주의 갯수가 3개 정도의 다범주 분류가 적합한 것으로 보이며, 특정 단어들이 나오는지 여부가 클래스와 연관성이 매우 큰 것으로 보인다. 이범주 지지벡터기계에 기반한 여러 가지 다범주 지지벡터기계와 비례오즈 모형의 성능을 모의실험 및 실제 영화와 게임 리뷰 데이터 분석을 통하여 비교하였다. 모의실험에서는 OVN과 OVR의 성능이 전반적으로 높게 나오는 반면 실제 데이터에서는 비례오즈 모형의 성능이 높게 나온 것으로 보아 예측성능이 데이터의 특성에 따라 달라짐을 알 수 있다.
지지벡터에 대한 자세한 소개는 Vapnik (1995)을 참고할 수 있다. 지지벡터기계를 클래스의 갯수가 세개 이상인 다범주 분류로 확장하는 방법은 여러가지가 있는데, 본 연구에서는 이진 분류의 지지벡터기계를 반복적으로 적용하는 방법만을 고려하기로 한다. 우선 몇 가지 기호를 도입하면 다음과 같다.
본 연구에서의 Lee와 Hong (2015)에서 설명한 방식대로 전처리를 하였다. 첫째, 텍스트 데이터들에 있는 불용어들을 제거하고 남는 단어들에 대하여 형용사, 부사, 동사, 명사의 4품사에 대한 정보를 갖는 범주형 변수를 생성하였다. 둘째, 평점 (= 1, .
이 웹사이트에서 2015년 1월부터 2015년 6월까지 개봉된 영화에 대한 리뷰들을 수집하였다. 평점이 1점에서 3점인 경우를 클래스 1, 4점에서 7점인 경우를 클래스 2, 8점에서 10점을 클래스 3으로 하였고, 각 클래스의 주변확률에 비례하여 총 7,000개의 리뷰들을 가져와 전처리 하였다.
현재 운영되고 있는 웹 사이트로부터 영화, 앱게임 등에 관한 리뷰와 평점을 웹 스크랩 (web scraping) 기법으로 가져와서 2절에 설명된 텍스트에 대한 전처리를 하였다. R을 이용하여 웹 데이터를 스크랩하는 기법은 Munzert 등 (2015)을 참고하기 바란다.
매 분할에서는 전체 리뷰 데이터를 훈련과 시험데이터로 1:1로 랜덤하게 분할하였다. 훈련데이터를 이용하여 카이제곱 검정의 p-값 0.001이하인 단어들을 추출하고, 추출된 단어들이 리뷰에 나오는 횟수와 평점을 각각 입력 및 출력변수로 놓고 다범주 분류방법들을 적용하였다. 시험데이터에서는 각 분류방법에 대하여 M-AUC값을 구하였다.

대상 데이터

모의실험은 각 시나리오별로 다음과 같이 실시하였다. 앞에서 설명한 데이터 생성 방법에 따라 5,000개의 데이터를 생성하여 1,000개는 훈련데이터로 사용하고 나머지는 시험데이터로 사용하였다. 각 방법들의 객관적인 비교를 위하여 데이터 생성 및 분할, 모형 적합 및 예측의 전 과정을 100회 반복하여 M-AUC의 평균과 표준오차를 구하였다.
com에서는 이용자들로부터 얻은 영화들에 대한 10점 척도의 평점과 리뷰를 제공한다. 이 웹사이트에서 2015년 1월부터 2015년 6월까지 개봉된 영화에 대한 리뷰들을 수집하였다. 평점이 1점에서 3점인 경우를 클래스 1, 4점에서 7점인 경우를 클래스 2, 8점에서 10점을 클래스 3으로 하였고, 각 클래스의 주변확률에 비례하여 총 7,000개의 리뷰들을 가져와 전처리 하였다.
com)에서는 이용자들이 구매한 앱게임에 대한 5점 척도의 평점 및 리뷰를 제공한다. 적절성 (relevance), 최신순 (new release)의 정렬 기준에 따라 나오는 143개의 앱게임에서 상위 10개의 리뷰를 각 평점별로 스크랩하여 총 7,150개의 리뷰 데이터를 얻었다.

데이터처리

앞에서 설명한 데이터 생성 방법에 따라 5,000개의 데이터를 생성하여 1,000개는 훈련데이터로 사용하고 나머지는 시험데이터로 사용하였다. 각 방법들의 객관적인 비교를 위하여 데이터 생성 및 분할, 모형 적합 및 예측의 전 과정을 100회 반복하여 M-AUC의 평균과 표준오차를 구하였다. Table 3.
둘째, 평점 (= 1, . . . , J)과 연관성이 높은 단어들을 추출하기 위하여 Table 2.1과 같이 각 단어를 포함하는 리뷰와 포함하지 않는 리뷰에 대하여 2 × J 분할표를 작성하고, 카이제곱 통계량을 활용하여 단어의 출현 유무에 따른 분포의 동일성 검정을 수행하여 특정 단어와 리뷰의 평점간의 연관성을 계량화하였다.
001이하인 단어들을 추출하고, 추출된 단어들이 리뷰에 나오는 횟수와 평점을 각각 입력 및 출력변수로 놓고 다범주 분류방법들을 적용하였다. 시험데이터에서는 각 분류방법에 대하여 M-AUC값을 구하였다. 이러한 전 과정을 100회 반복하여 Table 3.
시험데이터에서는 각 분류방법에 대하여 M-AUC값을 구하였다. 이러한 전 과정을 100회 반복하여 Table 3.5과 Table 3.6와 같이 M-AUC의 평균과 표준오차를 구하였다.
이제 데이터에 대한 랜덤분할을 통하여 여러 가지 지지벡터기계와 비례오즈 모형의 성능을 비교하기로 한다. 매 분할에서는 전체 리뷰 데이터를 훈련과 시험데이터로 1:1로 랜덤하게 분할하였다.

이론/모형

본 연구에서는 다범주 분류문제에서 정분류율보다 더 나은 예측력 평가측도로 알려진 Hand와 Till (2001)의 M-AUC (multi-class area under the curve)를 평가기준으로 사용한다. M-AUC를 정의하기 위해 몇 가지 기호를 도입하면 다음과 같다.
본 연구에서는 온라인 리뷰 텍스트에서 평점을 잘 예측하는 단어들을 추출하기 위해 Lee와 Hong (2015)처럼 카이제곱 통계량을 활용하여 평점과 연관성이 높은 단어들을 추출한다. 또한 추출된 단어들을 입력변수로 이용하여 지지벡터기계 (support vector machine)와 비례오즈 모형 (proportional odds model) 등 여러 가지 다범주 분류 알고리즘을 이용하여 평점에 대한 예측력을 비교한다.
본 연구에서의 Lee와 Hong (2015)에서 설명한 방식대로 전처리를 하였다. 첫째, 텍스트 데이터들에 있는 불용어들을 제거하고 남는 단어들에 대하여 형용사, 부사, 동사, 명사의 4품사에 대한 정보를 갖는 범주형 변수를 생성하였다.

성능/효과

2로부터 모의실험 결과를 해석해 보면 다음과 같다. d값이 커질수록 각 방법간의 예측력 차이가 뚜렷해지며, 클래스간의 비율에서 불균형 (imbalance)이 심해질수록 방법들은 성능이 전반적으로 떨어지는 패턴을 보인다. d값이 작은 경우 (시나리오 A)의 경우에는 클래스 비율이 1:1:1 혹은 1:2:2일 때 비례오즈 모형은 다른 방법에 비하여 성능이 상대적으로 좋게 나타났다.
앱게임 리뷰의 경우 M-AUC는 비례오즈 모형, OVN, OVO, OVR, OVNF 순으로 나타났다. 두 데이터 모두에서 비례오즈 모형의 성능이 제일 좋은 것으로 볼 때, 클래스 간의 분류경계가 절편차이로 평행한 직선으로 비교적 잘 표현된다고 볼 수 있다. 또한 모의실험과 유사 하게 OVO도 비교적 안정적인 성능을 보인다.
1 (b)와 (c)는 각각 적절성, 최신순으로 선택된 리뷰에 대한 워드클라우드를 보여준다. 두 워드클라우드를 비교해 보면 최신순으로 선택된 게임 리뷰에서 추출된 단어들의 갯수가 상대적으로 적다는 것을 확인할 수 있다. 이는 최신 앱게임에 대한 리뷰 문서의 분량이 적절성순으로 정렬한 리뷰들에 비해서 상대적으로 적음을 의미한다.
평점과 내용을 같이 작성하는 리뷰 데이터에서는 텍스트 뿐 만 아니라 선호도를 나타내는 정량적인 평점이 같이 관측된다. 따라서 단어의 출현빈도와 평점과의 연관성을 반영하여 분석에 사용할 적절한 갯수의 단어들을 추출하여 분석하는 것이 효율적이다.
이범주 지지벡터기계에 기반한 여러 가지 다범주 지지벡터기계와 비례오즈 모형의 성능을 모의실험 및 실제 영화와 게임 리뷰 데이터 분석을 통하여 비교하였다. 모의실험에서는 OVN과 OVR의 성능이 전반적으로 높게 나오는 반면 실제 데이터에서는 비례오즈 모형의 성능이 높게 나온 것으로 보아 예측성능이 데이터의 특성에 따라 달라짐을 알 수 있다. 추가적인 모의실험과 실제 데이터의 분석을 통하여 더 연구해 볼 필요가 있을 것으로 생각된다.
본 논문에서는 카이제곱 통계량을 이용하여 온라인 리뷰 데이터에서 평점과 연관성이 높은 단어들을 추출한 후 각 리뷰에서 추출된 단어들의 출현빈도를 이용하여 평점을 예측하는 다범주 분류문제를 고려하였다. 우선 분석에 사용된 데이터의 특징을 살펴보면, 긍정과 부정으로 이루어진 이진 분류 보다는 범주의 갯수가 3개 정도의 다범주 분류가 적합한 것으로 보이며, 특정 단어들이 나오는지 여부가 클래스와 연관성이 매우 큰 것으로 보인다. 이범주 지지벡터기계에 기반한 여러 가지 다범주 지지벡터기계와 비례오즈 모형의 성능을 모의실험 및 실제 영화와 게임 리뷰 데이터 분석을 통하여 비교하였다.
본 연구에 대한 후속 연구 방향으로는 다음과 같은 것들을 생각해 볼 수 있다. 첫째, 비례오즈 모형에 대하여 스플라인 기저 등을 이용한 일반화 가법모형 (generalized additive model)을 고려할 수 있다. 순서성을 반영해야 하므로 추정된 분류경계들간에 엇갈림이 없는 조건 (non-crossing constraint)하에서 추정해야 할 것이다.

후속연구

비선형 비례오즈 모형은 더 다양한 분류경계를 모형화 할 수 있기 때문에 예측력을 더욱 높여줄 수 있을 것으로 기대된다. 둘째, 의사결정 보류 옵션 (reject option)을 가지는 지지 벡터기계나 순위 모형 (ranking model)에 기반한 방법 등도 고려해 볼 수 있을 것이다.
순서성을 반영해야 하므로 추정된 분류경계들간에 엇갈림이 없는 조건 (non-crossing constraint)하에서 추정해야 할 것이다. 비선형 비례오즈 모형은 더 다양한 분류경계를 모형화 할 수 있기 때문에 예측력을 더욱 높여줄 수 있을 것으로 기대된다. 둘째, 의사결정 보류 옵션 (reject option)을 가지는 지지 벡터기계나 순위 모형 (ranking model)에 기반한 방법 등도 고려해 볼 수 있을 것이다.
첫째, 비례오즈 모형에 대하여 스플라인 기저 등을 이용한 일반화 가법모형 (generalized additive model)을 고려할 수 있다. 순서성을 반영해야 하므로 추정된 분류경계들간에 엇갈림이 없는 조건 (non-crossing constraint)하에서 추정해야 할 것이다. 비선형 비례오즈 모형은 더 다양한 분류경계를 모형화 할 수 있기 때문에 예측력을 더욱 높여줄 수 있을 것으로 기대된다.
모의실험에서는 OVN과 OVR의 성능이 전반적으로 높게 나오는 반면 실제 데이터에서는 비례오즈 모형의 성능이 높게 나온 것으로 보아 예측성능이 데이터의 특성에 따라 달라짐을 알 수 있다. 추가적인 모의실험과 실제 데이터의 분석을 통하여 더 연구해 볼 필요가 있을 것으로 생각된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	비례오즈 모형이란?	비례오즈 모형은 출력변수가 순서형일 때 적용 가능한 다범주 로지스틱 회귀모형이다. 순서형 출력변수 Y 가 j (= 1, .
	오피니언 마이닝은 무엇인가?	감성분석 (sentiment analysis) 혹은 오피니언 마이닝 (opinion mining)은 블로그, 리뷰, 신문기사나 소셜네트워크 등의 문서에서 개인의 주관적인 정보 혹은 의견을 알아보는데 사용되는 텍스트 마이닝의 기법이다. 평점이 있는 온라인 리뷰에서 리뷰 텍스트에 기반한 평점의 분류문제에 대한 선행연구에서는 이진 분류만을 고려하였다.
	운라인 리뷰의 평점 분류에서 리뷰 텍스트에 기반한 평점의 다범주 분류문제를 사용하는것이 더 적합한 이유는?	평점이 있는 온라인 리뷰에서 리뷰 텍스트에 기반한 평점의 분류문제에 대한 선행연구에서는 이진 분류만을 고려하였다. 그러나 긍정과 부정 외에도 중립적인 의견도 있을 수 있기 때문에 이진 분류보다는 다범주 분류가 더 적합할 것이다. 본 연구에서는 리뷰 텍스트에 기반한 평점의 다범주 분류문제를 고려한다.

참고문헌 (13)

Agresti, A. (2002). Categorical data analysis, 2nd Ed., Wiley, New Jersey
Bae, K. Y., Park, J.-H., Kim, J. S., and Chae, M., Kang, M., and Lee, Y.-S. (2013). Analysis of the abstracts of research articles in food related to climate change using a text-mining algorithm. Journal of the Korean Data & Information Science Society, 24, 1429-1437.

원문보기 상세보기
Chae, M., Kang, M., and Kim, Y. (2013). Documents recommendation using large citation data. Journal of the Korean Data & Information Science Society, 24, 999-1011.

원문보기 상세보기
Hand, D. J. and Till, R. J. (2001). A simple generalisation of the area under the ROC curve for multiple class classification problems. Machine Learning, 45, 171-186.
Hsu, C.-W. and Lin, C.-J. (2002). A comparison of methods for multiclass support vector machines, IEEE Transactions on neural networks, 13, 415-425.

상세보기
Kim, K.-J. and Ahn, H.C. (2010). Customer level classification model usings ordinal multiclass support vector machines. Asia Pacific Journal of Information Systems, 20, 23-37.
Kim, S. O., Lee, S. Y., Lee, S. J., and Lee, H. C. (2013). A study of development for movie recommendation system algorithm using filtering. Journal of the Korean Data & Information Science Society, 24, 803-813.

원문보기 상세보기
Kim, S. and Kim, N. (2014). A Study on the effect of using sentiment lexicon in opinion classification. Journal of Intelligence and Information Systems, 20, 133-148.
Lee, H and Hong, T. (2015). Terms based sentiment classification for online review using support vector machine. Information Systems Review, 17, 49-64.
Lee, H. and Suh, Y. (2014). Social media comparative analysis based on multidimensional scaling. Journal of the Korean Data & Information Science Society, 25, 665-676.

원문보기 상세보기
Liu, B. (2012). Sentiment analysis and opinion mining, Morgan & Claypool Publishers, San Bernardino, California.
Munzert, S., Rubba, C., Meissner, P. and Nyhuis, D. (2015). Automated data collecction with R, Wiley, West Sussex, United Kingdom.
Vapnik, V. (1995). The nature of statistical learning, Springer, New York.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증