[논문]대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법

홍소라; 정연오; 이지형

doi:10.5391/jkiis.2014.24.5.482

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법
Semi-supervised learning for sentiment analysis in mass social media 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.24 no.5, 2014년, pp.482 - 488

홍소라 (성균관대학교 정보통신대학) , 정연오 (성균관대학교 정보통신대학) , 이지형 (성균관대학교 정보통신대학)

초록
AI-Helper

대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

Abstract ▼ AI-Helper

This paper aims to analyze user's emotion automatically by analyzing Twitter, a representative social network service (SNS). In order to create sentiment analysis models by using machine learning techniques, sentiment labels that represent positive/negative emotions are required. However it is very expensive to obtain sentiment labels of tweets. So, in this paper, we propose a sentiment analysis model by using self-training technique in order to utilize "data without sentiment labels" as well as "data with sentiment labels". Self-training technique is that labels of "data without sentiment labels" is determined by utilizing "data with sentiment labels", and then updates models using together with "data with sentiment labels" and newly labeled data. This technique improves the sentiment analysis performance gradually. However, it has a problem that misclassifications of unlabeled data in an early stage affect the model updating through the whole learning process because labels of unlabeled data never changes once those are determined. Thus, labels of "data without sentiment labels" needs to be carefully determined. In this paper, in order to get high performance using self-training technique, we propose 3 policies for updating "data with sentiment labels" and conduct a comparative analysis. The first policy is to select data of which confidence is higher than a given threshold among newly labeled data. The second policy is to choose the same number of the positive and negative data in the newly labeled data in order to avoid the imbalanced class learning problem. The third policy is to choose newly labeled data less than a given maximum number in order to avoid the updates of large amount of data at a time for gradual model updates. Experiments are conducted using Stanford data set and the data set is classified into positive and negative. As a result, the learned model has a high performance than the learned models by using "data with sentiment labels" only and the self-training with a regular model update policy.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

Bo Pang 외 2인은 영화 리뷰에 나타난 감정을 자동으로 긍정/부정으로 분류하고자 하였다[1]. 감정분류에 효율적인 특징들을 알고자 하며, SVM, Maximum entropy, Naive Bayes의 3가지 ML 기법을 사용하여 각각의 장단점을 비교해 보고자 하였다. 특징들의 조합을 비교분석 하여 해당 단어의 존재 여부를 특징으로 사용하는 것이 제일 좋은 결과를 보인다.
모델에 의해 긍정 또는 부정의 감성으로 분류되어서 예측된 레이블을 붙여 “감성 레이블이 있는 데이터”에 추가할 데이터를 선택할 때, 한 쪽 감성에만 국한된 학습하는 것을 방지하기 위하여 긍정과 부정의 개수를 맞추어 선택하고자 하는 정책이다.
본 논문에서는 "감성 레이블이 있는 데이터"뿐만 아니라 "감성 레이블이 없는 데이터"도 활용하기 위하여 "감성 레이블이 있는 데이터"로 모델을 생성하고, 생성된 모델로 "감성 레이블이 없는 데이터"의 감성 레이블을 예측한다.
본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 성능의 감성 분석 모델을 생성하기 위하여, “감성 레이블이 있는 데이터”를 확장하기 위한 3가지 정책을 제시하고 이에 따라 생성된 감성 분석 모델의 성능을 비교 분석하였다.
본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 “감성 레이블이 없는 데이터”의 레이블을 결정하여 “감성 레이블이 있는 데이터”로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다.
본 논문에서는 적은 양의 “감성 레이블이 있는 데이터”와 방대한 양의 “감성 레이블이 없는 데이터”를 가지고 감성 분석 모델을 생성하고자 한다.
bag of words 모델이란 글에 포함된 단어의 분포를 보기 위한 기법이다. 본 연구에서는 학습에 사용된 트윗에 나타난 단어들을 기반으로 단어 사전을 구축한다. 트윗에 나타난 단어의 존재 유무에 따라 단어가 있으면 1로 표현하고, 단어가 없으면 0으로 표현한다.
본 절에서는 "감성 레이블이 있는 데이터"를 이용하여 모델을 생성하고, 생성된 모델을 통해 "감성 레이블이 없는 데이터"를 학습 하는 방법에 대해 기술하고, self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위한 방법을 제안한다.
예측된 결과 중 다른 데이터들보다 긍정 또는 부정의 감성이 확실하다고 판단되는 데이터들을 "감성 레이블이 있는 데이터"에 추가하고자 한다.
감성단어사전인 SentiWordNet을 기반으로 단어의 의미별, 품사별 극성을 측정하여 고려/비고려에 따른 4가지 경우를 비교실험 하였다. 이 연구는 문장에서 특징을 추출하는 과정을 세분화함에 따라 더 향상된 정확도를 보이는 감성분석을 하고자 하였다. 하지만 감성단어사전에 존재하지 않는 단어에 대한 극성정보(감성 레이블)를 알 수 없다.
이러한 3가지 정책에 기반하여 데이터를 선택하여 “감성 레이블이 있는 데이터”에 추가함으로써 감성 분석 모델의 분류 성능을 향상시키고자 하였다.

제안 방법

“감성 레이블이 없는 데이터”에 감성 레이블을 부여한 후, 이 중에서 어떤 데이터를 “감성 레이블이 있는 데이터”에 추가할 것인가를 결정할 때, 논문에서 제시한 3가지 정책을 선택적으로 사용하였다.
“감성 레이블이 있는 데이터”와 “감성 레이블이 없는 데이터“를 모두 활용할 수 있는 기계학습 기법인 self-training 알고리즘을 이용하여 트위터에 나타난 감성을 분석하고자 한다.
강인수는 단어의 의미나 품사의 차이에 따라 감성 분석의 정확도가 얼마나 향상되는지 알아보는 연구를 하였다[4]. 감성단어사전인 SentiWordNet을 기반으로 단어의 의미별, 품사별 극성을 측정하여 고려/비고려에 따른 4가지 경우를 비교실험 하였다. 이 연구는 문장에서 특징을 추출하는 과정을 세분화함에 따라 더 향상된 정확도를 보이는 감성분석을 하고자 하였다.
또한 감성 분석모델의 성능을 높이기 위하여 생성된 감성 분석 모델에 의해 예측된 결과에 따라 "감성 레이블이 없는 데이터"를 "감성 레이블이 있는 데이터"로 추가하고자 하는 3가지 정책을 제시하고 검증하였다.
예측된 결과를 기반으로 “감성 레이블이 없는 데이터”를 선별하여 선택하여 "감성 레이블이 있는 데이터"에 추가하고자 하는 판단을 도울 수 있는 3가지 정책을 제안한다.
위의 3가지 정책에 의해 업데이트 되는 데이터의 개수가 상이하게 달라지며, 실험에서는 이러한 3가지 방법을 적용/미적용에 따라 8번의 실험에 의해 성능을 비교하였다. 제안 기법은 self-training 알고리즘에 적용하여 실험하였다.
이모티콘이 존재하면 감성 단어에 대한 감성 점수는 고려하지 않고, 이모티콘이 없으면 감성 단어에 대한 감성 점수만을 적용하여 한 문장이나 문단에 대한 감성을 분류한다. 이 연구는 이모티콘의 유무에 따라 감성을 판단하는 방식이 다르며 문장 단위의 감성분석과 문단 단위의 감성분석을 하였다. 문단 단위의 감성 분류가 잘 된 것으로 봐서, 긴 문장 혹은 여러 단락으로 구성된 글귀에 대한 감성을 잘 분류하는 것으로 보인다.
추가하여 업데이트된 “레이블이 있는 데이터”를 이용하여 학습하여 모델을 업데이트하고, “레이블이 없는 데이터”의 레이블을 예측하는 과정을 반복함으로써 학습 모델을 수정해 나가는 것이다.
세 번째 정책으로는 최대 개수를 고려하는 방법이다. 한 번에 많은 양의 데이터가 추가 되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수를 제한하여 업데이트하고자 하였다. 그림 6의 세번째 그림이며, 최대 개수를 5로 정하였다.

대상 데이터

트윗 데이터는 2009년 4월 6일부터 6월 25일까지 수집된 Stanford data set을 사용하였다. 긍정과 부정으로 분류되어 있는 트위터 데이터 셋으로, Stanford data set중 학습 데이터에서 긍정 5,000개, 부정 5,000개의 데이터를 선택하였다. 선택된 학습 데이터는 “감성 레이블이 있는 데이터” 200개와 “감성 레이블이 없는 데이터” 9,800개로 구성하였으며, 학습에서 생성된 모델은 Stanford data set중 테스트 데이터에 해당하는 “감성 레이블이 있는 데이터” 498개의 데이터 중에서 중립에 해당하는 데이터를 제외한 359개의 데이터로 검증하였다.
선택된 학습 데이터는 “감성 레이블이 있는 데이터” 200개와 “감성 레이블이 없는 데이터” 9,800개로 구성하였으며, 학습에서 생성된 모델은 Stanford data set중 테스트 데이터에 해당하는 “감성 레이블이 있는 데이터” 498개의 데이터 중에서 중립에 해당하는 데이터를 제외한 359개의 데이터로 검증하였다.
실험에서, 감성 분석 모델은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set 중에서 추출한 200개의 “감성 레이블이 있는 데이터”와 9,800개의 “감성 레이블이 없는 데이터”로 생성하였으며, 모델의 성능은 359개의 “감성 레이블이 있는 데이터”를 사용하여 검증하였다.
트윗 데이터는 2009년 4월 6일부터 6월 25일까지 수집된 Stanford data set을 사용하였다. 긍정과 부정으로 분류되어 있는 트위터 데이터 셋으로, Stanford data set중 학습 데이터에서 긍정 5,000개, 부정 5,000개의 데이터를 선택하였다.

데이터처리

그리고 Recall은 정답이라고 한 것 중에 실제 정답의 비율을 나타낸다. F-measure는 Precision과 Recall을 이용한 식 (2*Precision*Recall) / (Precision+Recall)로 나타내며, Precision과 Recall이 모두 높은 모델을 선택하고자 F-measure값을 사용하여 성능을 비교하였다.

이론/모형

3단계에서는 “감성 레이블이 있는 데이터”를 사용하여 감성 분석 모델을 생성한다. 감성 분석 모델은 기계학습 기법인 SVM 을 이용하여 생성한다.
그래서 “감성 레이블이 있는 데이터”를 활용해 “감성 레이블이 없는 데이터”에 감성 레이블을 매겨 사용하기 위해 self-training 알고리즘을 사용하였다.
본 연구에서는 생성된 모델을 이용해 “감성 레이블이 없는 데이터”에 감성 레이블을 매기어 나감으로써 감성 분석 모델을 개선하는 self-training 알고리즘을 사용한다.
생성된 모델은 별도의 “감성 레이블이 있는 데이터”로 검증한다. 성능지표는 Accuracy, Recall, Precision, F-measure를 사용한다. 성능지표는 Accuracy는 정답을 맞춘 것들의 비율이고, Precision은 결과가 나올 것이라 예측한 값 중에 실제 정답의 비율을 나타낸다.
위의 3가지 정책에 의해 업데이트 되는 데이터의 개수가 상이하게 달라지며, 실험에서는 이러한 3가지 방법을 적용/미적용에 따라 8번의 실험에 의해 성능을 비교하였다. 제안 기법은 self-training 알고리즘에 적용하여 실험하였다. 그림7은 제안하는 방법론의 처리 프로세스를 보여준다.

성능/효과

같은 개수를 업데이트 하고자 하는 정책인 'Same number: O'의 F-measure는 같은 개수를 고려하지 않은 정책인 'Same number: X'의 F-measure에 비해 3.7%의 성능 향상을 보였으며, 이는 긍정과 부정의 균형을 맞추어 업데이트하여 이루어진 결과로 보인다.
그 결과 학습모델은 실제 답이 매겨진 “감성 레이블이 있는 데이터”만으로 모델을 생성한 것 보다 감성 분석의 성능이 향상되었다.
데이터를 선택하기 위한 3가지 정책을 적용했을 때의 F-measure는 각각 59.0%, 61.2%, 60.4%로 Baseline의 F-measure인 56.8%보다 높은 결과를 도출하였다. 임계치와 같은 개수, 최대 개수를 적용하여 self-training 알고리즘에 적용한 결과는 Baseline보다 좋은 결과를 보였다.
AGARWAL외 4인은 트위터에 나타난 감정을 분석하고자 이모티콘과 줄임말 등의 특징들을 정의하였다[3]. 모든 분류는 SVM으로 이루어졌고 데이터를 unigram 모델상에서 감정을 분석한 결과가 성능이 좋았다. 하지만 특징의 값이 감정 표현 단어들의 개수나 이모티콘의 개수로 정의함으로서 감정 표현단어의 강도를 고려하지 않으므로, good과 excellent의 감정 분석 결과는 동등하다.
5로 두었으며 세 번째 정책의 최대 개수는 1,000개로 두었다. 이러한 8개의 실험은 성능 지표인 F-measure 값이 Baseline보다 대체로 높아졌다.
또한 감성 분석모델의 성능을 높이기 위하여 생성된 감성 분석 모델에 의해 예측된 결과에 따라 "감성 레이블이 없는 데이터"를 "감성 레이블이 있는 데이터"로 추가하고자 하는 3가지 정책을 제시하고 검증하였다. 임계치, 같은 개수, 최대 개수의 측면에서 업데이트할 데이터를 선택하여 감성 분석 모델을 업데이트한 결과, 200개의 "감성 레이블이 있는 데이터"만을 이용하여 감성 분석 모델을 생성한 Baseline의 성능보다 향상되었다.
8%보다 높은 결과를 도출하였다. 임계치와 같은 개수, 최대 개수를 적용하여 self-training 알고리즘에 적용한 결과는 Baseline보다 좋은 결과를 보였다.
최대 개수를 업데이트 하고자 하는 정책인 'Max number: O'의 F-measure는 최대 개수를 고려하지 않은 정책인 'Max number: X'의 F-measure에 비해 2.0%의 성능 향상을 보였으며, 이는한 번에 많은 개수의 데이터가 업데이트 되는 것보다 학습의 효과가 좋다는 것을 보여준다.

질의응답

핵심어	질문	논문에서 추출한 답변
	트위터는 무엇인가?	트위터는 웹상에서 이용자들이 인적 네트워크를 형성할 수 있게 해주는 서비스를 제공하는 소셜 네트워크 서비스 (SNS)의 하나이다. 트위터는 정보 공유와 자신의 감성을 표현하는 수단으로 이용되기도 한다.
	Self-training 알고리즘은 초기의 오류가 계속해서 학습에 영향을 미치게 되는 이유는 무엇인가?	Self-training 알고리즘은 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 “감성 레이블이 있는 데이터”로 업데이트 할 필요성이 있다.
	단어 사전을 구축할 때 추출된 모든 단어들을 대문자에서 소문자로 치환하는 이유는 무엇인가?	2단계로는 추출된 모든 단어들을 대문자에서 소문자로 치환하는 작업을 한다. 이 작업은 같은 단어이지만 대문자와 소문자의 차이로 다른 단어로 인식될 수 있기 때문에 수행한다. 3단계로는 특수문자와 URL을 제거하는 작업을 한다.

참고문헌 (14)

B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up? Sentiment classification using machine learning techniques," In Proceeding of the ACL-02 conference on Empirical methods in natural language processing. Volume 10. Association for Computational Linguistics, pp. 79-86, 2002.
H. H. Kang, S. J. Yoo, and D. I. Han, "Design and Implementation of System for Classifying Review of Product Attribute to Positive/Negative," In proceeding of The 36th KIISE Fall Conference, vol. 36, no. 2, pp. 1-6, 2009.
A. Agarwal, B. Xie, I. Vovsha, O. Rambow, and R. Passonneau, "Sentiment analysis of twitter data," In Proceeding of the Workshop on Languages in Social Media. Association for Computational Linguistics, pp.30-38. 2011,
I. S. Kang, "A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis," Journal of The Korean Institute of Intelligent System, vol. 23, no. 4, pp. 384-388, 2013.

원문보기 상세보기
A. Hogenboom, D. Bal, F. Frasincar, M. Bal, F. de Jong, and U. Kaymak, "Exploiting Emoticons in Sentiment Analysis," In Proceeding of the 28th Annual ACM Symposium on Applied Computing ACM, pp. 703-710, 2013.
J. H. Yeon, D. J. Lee, J. H. Shim, and S. G. Lee, "Product Review Data and Sentiment Analytical Processing Modeling," The Journal of Society for e-Business Studies, vol. 16, no. 4, pp. 125-137, 2011.

원문보기 상세보기
H. J. Yune, H. J. Kim, and J. Y. Chang, "An Eficient Search Method of Product Reviews using Opinion Mining Technique," The Journal of KIISE, vol. 16, no. 2, pp. 222-226, 2010.
C. CORTES, V. VAPNIK, "Support-vector networks," Machine learning, vol. 20, no. 3, pp. 273-297, 1995.

상세보기
K. M. Kim, J. D. Lee, and J. H. Lee, "Sentiment Classification using Extracted Rationale Words by Genetic Algorithm," In Proceeding of the 14th International Symposium on Advanced Intelligent Systems, pp. 36-43, 2013.
H. G. Yeom, S. M. Park, J. J. Park, and K. B. Sim, "Superiority Demonstration of Variance-Considered Machines by Comparing Error Rate with Support Vector Machines," International Journal of Control, Automation, and Systems, vol. 9, no. 3, pp. 595-600, 2011.

원문보기 상세보기
H. J. Lee, H. J. Shin, S. Z. Cho, and D. MacLachlan, "Semi-supervised response modeling," Journal of Interactive Marketing, vol. 24, no. 1, pp. 42-54, 2010.

상세보기
K. Soranaka, M. Matsushita, "Relationship Between Emotional Words and Emoticons in Tweets," In Proceeding of Technologies and Application of Artificial Intelligence, pp.262-265, 2012.
C. Li, K. Liu, and H. Wang, "The incremental learning algorithm with support vector machine based on hyperplane-distance," Applied Intelligence, pp.19-27, 2011.
Yun, "Evolution of big data - The future of IT services to resemble a human," Available: http://cfono1.tistory.com/704, 2013, [Accessed: August 1, 2014].

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증