$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로
Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.2, 2018년, pp.59 - 83  

박현정 (이화여자대학교 경영연구소) ,  송민채 (이화여자대학교 빅데이터분석학) ,  신경식 (이화여자대학교 경영대학)

초록
AI-Helper 아이콘AI-Helper

고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

Abstract AI-Helper 아이콘AI-Helper

With the increasing importance of sentiment analysis to grasp the needs of customers and the public, various types of deep learning models have been actively applied to English texts. In the sentiment analysis of English texts by deep learning, natural language sentences included in training and tes...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 한국어 감성분석에 딥러닝 모델을 적용하기 위한 기초 연구로서, 예비 분석을 통해 조율한 비정태적 CNN 모델을 기반으로 다양한 형태소 벡터 도출 대안의 효과성을 검증하였다. 그리고 전형적인 교착어이면서 동음이의어 비중이 높은 한국어인 경우에도 만족할만한 정확도를 얻을 수 있는 가능성을 확인하였다.
  • 본 연구에서는 감성분석 딥러닝 모델에 한국어 형태소 벡터를 어떻게 도출하여 입력하는 것이 효과적인가에 대해 검증하기 위해 다양한 형태소 벡터 도출 대안들을 선정하였다. 이들은 입력 텍스트, 문장 분리 및 맞춤법 교정 등의 텍스트 전처리, 포함되는 품사의 범위, 품사 태그 부착 여부 등의 기준에 따라 달라진다.
  • 품사 태그를 부착하지 않고 무조건 ‘~다’를 붙이게 되면, 예를 들어, ‘~을 보다’의‘보다’와 비교를 나타내는 부사격 조사 ‘보다’가 같은 형태를 갖게 되기 때문에 구별이 어려워진다. 이렇게 품사 태그를 부착하는 방법은 단어 형태를 기준으로 하는 기존 단어 벡터 모델의 동음이의어 문제를 완화하기 위한 대안으로 본 연구에서 고안한 것이다. 전체 한국어 어휘에서 동음이의어가 차지하는 비율은 꽤 높으며 한국어 어휘의 중의성은 영어에 비하여 훨씬 높다고 할 수 있다(Kang, 2005).
  • 이와 같이 본 연구는 다양한 딥러닝 모델을 한국어 텍스트에 적용할 때 가장 먼저 부딪히게 되는 기본적인 이슈들에 대한 실증적인 해답을 찾고자 한다. 본 연구에서 이러한 이슈들을 정리하여 도출한 세 가지 주요 연구 질문은 다음과 같다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
단어 벡터란 무엇인가? , 2016). 단어 벡터는 주로 문장을 공백문자(space)를 기준으로 분리한 어절에 해당하는 단어(word)에 대한 벡터(vector) 표현을 말한다. 단어 벡터를 도출하는 방식은 다양하지만, 한 가지만 예로 들면, 구글(Google)이 천억 개의 단어로 이루어진 구글 뉴스 데이터를 기반으로 도출한 300차원의 Word2Vec 단어 벡터가 있다(Mikolov et al.
단어 벡터를 도출하는 방식의 예는 무엇이 있는가? 단어 벡터는 주로 문장을 공백문자(space)를 기준으로 분리한 어절에 해당하는 단어(word)에 대한 벡터(vector) 표현을 말한다. 단어 벡터를 도출하는 방식은 다양하지만, 한 가지만 예로 들면, 구글(Google)이 천억 개의 단어로 이루어진 구글 뉴스 데이터를 기반으로 도출한 300차원의 Word2Vec 단어 벡터가 있다(Mikolov et al., 2013a; Mikolov et al.
CBOW의 예시는 무엇이 있는가? CBOW는 컨텍스트 단어들로부터 타겟 단어를 예측한다. 예를 들어, “This lipstick is beautiful in ______ and has a good sustainability.”라는 문장에서 ______ 앞 뒤에 나오는 컨텍스트 단어들로부터 ______에 해당되는 ‘color’와 같은 타겟 단어를 예측하는 방식이다. Skip-Gram 구조는 타겟 단어로부터 컨텍스트 단어들을 역으로 예측한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (41)

  1. An, J.-y., J.-w. Bae, N.-g. Han, and M. Song, "A Study of 'Emotion Trigger' by Text Mining Techniques," Journal of Intelligence and Information Systems, Vol.21, No.2(2015), 69-92. 

  2. Chen, P., Z. Sun, L. Bing, and W. Yang, "Recurrent Attention Network on Memory for Aspect Sentiment Analysis," Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, (2017). 

  3. Cho, K., van M. Bart, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, "Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation," arXiv preprint arXiv:1406.1078, (2014). 

  4. Collobert, R., J. Weston, L. Bottou, M. Karlen, K. Kavukcuglu, and P. Kuksa, "Natural Language Processing (Almost) from Scratch," Journal of Machine Learning Research, Vol.12, (2011), 2493-2537. 

  5. Cui, M.-n., Y.-s. Jin, and O.-b. Kwon, "A Method of Analyzing Sentiment Polarity of Multilingual Social Media: A Case of Korean-Chinese Languages," Journal of Intelligence and Information Systems, Vol.22, No.3(2016), 91-111. 

  6. Dhanush, D. and A. K. Thakur, "Aspect-based Sentiment Summarization with Deep Neural Networks," International Journal of Engineering Research and Technology, Vol.5, No.5(2016), 371-375. 

  7. Guan, Z., L. Chen, W. Zhao, Y. Zheng, S. Tan, and D. Cai, "Weakly-supervised Deep Learning for Customer Review Sentiment Classification," Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI'16), (2016), 3719-3725. 

  8. Hochreiter, S. and J. Schmidhuber, "Long Short-Term Memory," Neural Computation, Vol.9, No.8(1997), 1735-1780. 

  9. Hong, T.-h., T.-w. Lee, and J.-g. Li, "Development of Sentiment Analysis Model for the Hot Topic Detection of Online Stock Forums," Journal of Intelligence and Information Systems, Vol.22, No.1(2016), 187-204. 

  10. Jebbara, S. and P. Cimiano, "Aspect-Based Relational Sentiment Analysis Using a Stacked Neural Network Architecture," arXiv preprint arXiv:1709.06309, (2017). 

  11. Jebbara, S. and P. Cimiano, "Aspect-Based Sentiment Analysis Using a Two-Step Neural Network Architecture," arXiv preprint arXiv:1709.06311, (2017). 

  12. Jeong, J. S., D. S. Kim, and J. W. Kim, "Influence Analysis of Internet Buzz to Corporate Performance: Individual Stock Price Prediction Using Sentiment Analysis of Online News," Journal of Intelligence and Information Systems, Vol.21, No.4(2015), 37-51. 

  13. Joulin, A., E. Grave, P. Bojanowski, and T. Mikolov, "Bag of Tricks for Efficient Text Classification," arXiv preprint arXiv, (2016). 

  14. Kang, B.-m., "Aspects of the Use of Homonyms," Language Research, Vol.41, No.1(2005), 1-29. 

  15. Kim, B. G., "A Study on the Homonym in Korean," Our Language Study, Vol., No.45 (2013), 181-200. 

  16. Kim, J. H., Understanding Linguistics, Yeog-Lag, 2004. 

  17. Kim, S. I., D. S. Kim, and J. W. Kim, "Public Sentiment Analysis of Korean Top-10 Companies: Big Data Approach Using Multi-Categorical Sentiment Lexicon," Journal of Intelligence and Information Systems, Vol.22, No.3(2016), 45-69. 

  18. Kim, Y., "Convolutional Neural Networks for Sentence Classi?cation," Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP), (2014), 1746-1751. 

  19. Liu, B., Sentiment Analysis: Mining Opinions, Sentiments, and Emotions, The Cambridge University Press, 2015. 

  20. Ma, D., S. Li, X. Zhang, and H. Wang, "Interactive Attention Networks for Aspect-Level Sentiment Classification," Proceedings of the Internal Joint Conference on Artificial Intelligence(IJCAI 2017), (2017). 

  21. Mikolov, T., I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," Advances in Neural Information Processing Systems, (2013a), 3111-3119. 

  22. Mikolov, T., K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," arXiv preprint arXiv:1301.3781, (2013b). 

  23. Nam, G.-l. and E.-g. Jo., Korean Text Sentiment Analysis, Communication-Books, 2017. 

  24. Ouyang, X., P. Zhou, C. H. Li, and L. Liu, "Sentiment Analysis Using Convolutional Neural Network," 2015 IEEE International Conference on Computer and Information Technology; Ubiquitous Computing and Communications; Dependable, Autonomic and Secure Computing; Pervasive Intelligence and Computing, (2015), 2359-2364. 

  25. Pang, B. and L. Lee, "Opinion Mining and Sentiment Analysis," Foundations and Trends in Information Retrieval, Vol.2, No.1-2(2008), 11-35. 

  26. Pennington, J., R. Socher, and C. D. Manning, "GloVe: Global Vectors for Word Representation," Proceedings of the Conference on Empirical Methods on Natural Language Processing(EMNLP 2014), (2014). 

  27. Ruder, S., P. Ghaffari, and J. G. Breslin, "A Hierarchical Model of Reviews for Aspect-based Sentiment Analysis," Proceedings of the Conference on Empirical Methods on Natural Language Processing(EMNLP 2016), (2016a). 

  28. Ruder, S., P. Ghaffari, and J. G. Breslin, "INSIGHT-1 at SemEval-2016 Task 5: Deep Learning for Multilingual Aspect-based Sentiment Analysis," Proceedings of SemEval, (2016b), 330-336. 

  29. Schuster, M. and K. K. Paliwal, "Bidirectional Recurrent Neural Networks," IEEE Transactions on Signal Processing, Vol.45, No.11(1997), 2673-2681. 

  30. Shin, B., T. Lee, and J. D. Choi, "Lexicon Integrated CNN Models with Attention for Sentiment Analysis," Proceedings of the EMNLP Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis of WASSA'17, (2017). 

  31. Shirani-Mehr, H., "Applications of Deep Learning to Sentiment Analysis of Movie Reviews," Technical Report, Stanford University, (2015). 

  32. Socher, R., C. Lin, A. Y. Ng, and C. D. Manning, "Parsing Natural Scenes and Natural Language with Recursive Neural Networks," Proceedings of the 28th International Conference on Machine Learning(ICML-11), (2011). 

  33. Stevenson, M., Word Sense Disambiguation: The Case for Combinations of Knowldedge Sources, Stanford: CSLI Publications, 2003. 

  34. Tang, D., B. Qin, X. Feng, and T. Liu, "Effective LSTMs for target-dependent sentiment classification," Proceedings of the International Conference on Computational Linguistics (COLING 2016), (2016). 

  35. Tay, Y., L. A. Tuan, and S. C. Hui, "Dyadic Memory Networks for Aspect-based Sentiment Analysis," Proceedings of the International Conference on Information and Knowledge Management(CIKM 2017), (2017). 

  36. Wang, B. and M. Liu, "Deep Learning for Aspect-Based Sentiment Analysis," Stanford University Report, 2015. Available at https://cs224d.stanford.edu/reports/WangBo (Downloaded 19 May, 2018). 

  37. Wang, Y., M. Huang, X. Zhu, and L. Zhao, "Attention-based LSTM for Aspect-level Sentiment Classification," Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, (2016), 606-615. 

  38. Wiebe, J., T. Wilson, R. Bruce, M. Bell, and M. Martin, "Learning Subjective Language," Computational Linguistics, Vol.30, No.3 (2004), 277-308. 

  39. Wikibaeggwa, Available at https://ko.wikipedia.org/wiki/%EB%82%B1%EB%A7%90/ (Downloa ded 20 March, 2018). 

  40. Yang, Z., D. Yang, C. Dyer, X. He, A. J. Smola, and E. H. Hovy, "Hierarchical Attention Networks for Document Classification," HLT-NAACL(North American Chapter of the Association for Computational Linguistics: Human Language Technologies), (2016). 

  41. Zhang, L., S. Wang, and B. Liu, "Deep Learning for Sentiment Analysis: A Survey," arXiv preprint arXiv:1801.07883, (2018). 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로