$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법
Semi-supervised learning for sentiment analysis in mass social media 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.24 no.5, 2014년, pp.482 - 488  

홍소라 (성균관대학교 정보통신대학) ,  정연오 (성균관대학교 정보통신대학) ,  이지형 (성균관대학교 정보통신대학)

초록
AI-Helper 아이콘AI-Helper

대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

Abstract AI-Helper 아이콘AI-Helper

This paper aims to analyze user's emotion automatically by analyzing Twitter, a representative social network service (SNS). In order to create sentiment analysis models by using machine learning techniques, sentiment labels that represent positive/negative emotions are required. However it is very ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • Bo Pang 외 2인은 영화 리뷰에 나타난 감정을 자동으로 긍정/부정으로 분류하고자 하였다[1]. 감정분류에 효율적인 특징들을 알고자 하며, SVM, Maximum entropy, Naive Bayes의 3가지 ML 기법을 사용하여 각각의 장단점을 비교해 보고자 하였다. 특징들의 조합을 비교분석 하여 해당 단어의 존재 여부를 특징으로 사용하는 것이 제일 좋은 결과를 보인다.
  • 모델에 의해 긍정 또는 부정의 감성으로 분류되어서 예측된 레이블을 붙여 “감성 레이블이 있는 데이터”에 추가할 데이터를 선택할 때, 한 쪽 감성에만 국한된 학습하는 것을 방지하기 위하여 긍정과 부정의 개수를 맞추어 선택하고자 하는 정책이다.
  • 본 논문에서는 "감성 레이블이 있는 데이터"뿐만 아니라 "감성 레이블이 없는 데이터"도 활용하기 위하여 "감성 레이블이 있는 데이터"로 모델을 생성하고, 생성된 모델로 "감성 레이블이 없는 데이터"의 감성 레이블을 예측한다.
  • 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 성능의 감성 분석 모델을 생성하기 위하여, “감성 레이블이 있는 데이터”를 확장하기 위한 3가지 정책을 제시하고 이에 따라 생성된 감성 분석 모델의 성능을 비교 분석하였다.
  • 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 “감성 레이블이 없는 데이터”의 레이블을 결정하여 “감성 레이블이 있는 데이터”로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다.
  • 본 논문에서는 적은 양의 “감성 레이블이 있는 데이터”와 방대한 양의 “감성 레이블이 없는 데이터”를 가지고 감성 분석 모델을 생성하고자 한다.
  • bag of words 모델이란 글에 포함된 단어의 분포를 보기 위한 기법이다. 본 연구에서는 학습에 사용된 트윗에 나타난 단어들을 기반으로 단어 사전을 구축한다. 트윗에 나타난 단어의 존재 유무에 따라 단어가 있으면 1로 표현하고, 단어가 없으면 0으로 표현한다.
  • 본 절에서는 "감성 레이블이 있는 데이터"를 이용하여 모델을 생성하고, 생성된 모델을 통해 "감성 레이블이 없는 데이터"를 학습 하는 방법에 대해 기술하고, self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위한 방법을 제안한다.
  • 예측된 결과 중 다른 데이터들보다 긍정 또는 부정의 감성이 확실하다고 판단되는 데이터들을 "감성 레이블이 있는 데이터"에 추가하고자 한다.
  • 감성단어사전인 SentiWordNet을 기반으로 단어의 의미별, 품사별 극성을 측정하여 고려/비고려에 따른 4가지 경우를 비교실험 하였다. 이 연구는 문장에서 특징을 추출하는 과정을 세분화함에 따라 더 향상된 정확도를 보이는 감성분석을 하고자 하였다. 하지만 감성단어사전에 존재하지 않는 단어에 대한 극성정보(감성 레이블)를 알 수 없다.
  • 이러한 3가지 정책에 기반하여 데이터를 선택하여 “감성 레이블이 있는 데이터”에 추가함으로써 감성 분석 모델의 분류 성능을 향상시키고자 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
트위터는 무엇인가? 트위터는 웹상에서 이용자들이 인적 네트워크를 형성할 수 있게 해주는 서비스를 제공하는 소셜 네트워크 서비스 (SNS)의 하나이다. 트위터는 정보 공유와 자신의 감성을 표현하는 수단으로 이용되기도 한다.
Self-training 알고리즘은 초기의 오류가 계속해서 학습에 영향을 미치게 되는 이유는 무엇인가? Self-training 알고리즘은 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 “감성 레이블이 있는 데이터”로 업데이트 할 필요성이 있다.
단어 사전을 구축할 때 추출된 모든 단어들을 대문자에서 소문자로 치환하는 이유는 무엇인가? 2단계로는 추출된 모든 단어들을 대문자에서 소문자로 치환하는 작업을 한다. 이 작업은 같은 단어이지만 대문자와 소문자의 차이로 다른 단어로 인식될 수 있기 때문에 수행한다. 3단계로는 특수문자와 URL을 제거하는 작업을 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up? Sentiment classification using machine learning techniques," In Proceeding of the ACL-02 conference on Empirical methods in natural language processing. Volume 10. Association for Computational Linguistics, pp. 79-86, 2002. 

  2. H. H. Kang, S. J. Yoo, and D. I. Han, "Design and Implementation of System for Classifying Review of Product Attribute to Positive/Negative," In proceeding of The 36th KIISE Fall Conference, vol. 36, no. 2, pp. 1-6, 2009. 

  3. A. Agarwal, B. Xie, I. Vovsha, O. Rambow, and R. Passonneau, "Sentiment analysis of twitter data," In Proceeding of the Workshop on Languages in Social Media. Association for Computational Linguistics, pp.30-38. 2011, 

  4. I. S. Kang, "A Comparative Study on Using SentiWordNet for English Twitter Sentiment Analysis," Journal of The Korean Institute of Intelligent System, vol. 23, no. 4, pp. 384-388, 2013. 

  5. A. Hogenboom, D. Bal, F. Frasincar, M. Bal, F. de Jong, and U. Kaymak, "Exploiting Emoticons in Sentiment Analysis," In Proceeding of the 28th Annual ACM Symposium on Applied Computing ACM, pp. 703-710, 2013. 

  6. J. H. Yeon, D. J. Lee, J. H. Shim, and S. G. Lee, "Product Review Data and Sentiment Analytical Processing Modeling," The Journal of Society for e-Business Studies, vol. 16, no. 4, pp. 125-137, 2011. 

  7. H. J. Yune, H. J. Kim, and J. Y. Chang, "An Eficient Search Method of Product Reviews using Opinion Mining Technique," The Journal of KIISE, vol. 16, no. 2, pp. 222-226, 2010. 

  8. C. CORTES, V. VAPNIK, "Support-vector networks," Machine learning, vol. 20, no. 3, pp. 273-297, 1995. 

  9. K. M. Kim, J. D. Lee, and J. H. Lee, "Sentiment Classification using Extracted Rationale Words by Genetic Algorithm," In Proceeding of the 14th International Symposium on Advanced Intelligent Systems, pp. 36-43, 2013. 

  10. H. G. Yeom, S. M. Park, J. J. Park, and K. B. Sim, "Superiority Demonstration of Variance-Considered Machines by Comparing Error Rate with Support Vector Machines," International Journal of Control, Automation, and Systems, vol. 9, no. 3, pp. 595-600, 2011. 

  11. H. J. Lee, H. J. Shin, S. Z. Cho, and D. MacLachlan, "Semi-supervised response modeling," Journal of Interactive Marketing, vol. 24, no. 1, pp. 42-54, 2010. 

  12. K. Soranaka, M. Matsushita, "Relationship Between Emotional Words and Emoticons in Tweets," In Proceeding of Technologies and Application of Artificial Intelligence, pp.262-265, 2012. 

  13. C. Li, K. Liu, and H. Wang, "The incremental learning algorithm with support vector machine based on hyperplane-distance," Applied Intelligence, pp.19-27, 2011. 

  14. Yun, "Evolution of big data - The future of IT services to resemble a human," Available: http://cfono1.tistory.com/704, 2013, [Accessed: August 1, 2014]. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로