$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안
Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity 원문보기

지능정보연구 = Journal of intelligence and information systems, v.25 no.4, 2019년, pp.105 - 122  

이민석 (가톨릭대학교 경영학전공) ,  양석우 (가톨릭대학교 심리학전공) ,  이홍주 (가톨릭대학교 경영학전공)

초록
AI-Helper 아이콘AI-Helper

텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

Abstract AI-Helper 아이콘AI-Helper

Dimensionality reduction is one of the methods to handle big data in text mining. For dimensionality reduction, we should consider the density of data, which has a significant influence on the performance of sentence classification. It requires lots of computations for data of higher dimensions. Eve...

주제어

표/그림 (10)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • Minimum-redundancy-maximum-relevance(mR MR)(Peng et al., 2005) 또한 정보 이론을 기초로 하며 데이터의 불필요한 중복을 줄이고, 데이터 간의 상관성을 높이는 것을 목적으로 한다. 데이 터의 중복성과 상관성은 피어슨 상관계수와 정보 이득을 통해 정의되고, 탐욕 알고리즘(Greedy Algorithm)을 통해 특징을 선택한다.
  • 반면 Word2Vec은 단어 간의 유사도 측정이 가능하지만 연구자가 지정한 윈도우 규모 내에서 학습을 하기 때문에 말뭉치 전체의 통계적 정보를 반영하기 어렵다. 결과적으로 GloVe는 두 단어의 벡터 내적이 유사도가 아니라 동시 출 현(co-occurrence) 확률의 로그 값이 되도록 목적 함수를 갖는다
  • 뿐만 아니라 유용하지 않은 리뷰를 판별하여 해당 리뷰를 덜 노출시켜 소비자로 하여금 바람직한 구매의사결정을 내리는데 기여할 수 있다. 문장 분류 엔진을 설계하는 엔지니어들은 본 연구 결과를 활용하여 기존 엔진의 성과를 높이는 방안을 시도해 볼 수 있다
  • 본 연구는 문장 분류에서 문장의 특징을 어떻 게 선택할 것인 지가 분류 모형의 성능에 많은 영향을 미치기에, 선택적으로 단어 제거를 수행 하고 임베딩을 적용하여 문장 분류 정확도를 향 상시키는 두 가지 방안을 제안하였다. 텍스트 데 이터에서 정보 이득 값이 낮은 단어들을 선택하 여 문장에서 제거하거나, 해당 단어와 코사인 유사도가 높은 단어들을 함께 제거하여 문장의 특 징을 선택하고 단어 임베딩을 생성한 점에서 기 존 연구와 차별점을 갖는다.
  • 본 연구는 문장의 특징을 선택하고 단어 임베딩하는 과정에서 분류 성과 증대를 위해 두 가지 방안을 제안한다. 첫 번째 방안은 정보 이득 알 고리즘을 사용하여 정보 이득 값이 낮은 단어를 파악한 뒤, 정보 이득 값이 상대적으로 낮은 단어들을 텍스트 데이터에서 제거하고 단어 임베 딩을 구성하는 것이다.
  • 실무적 관점에서 제안한 방법론은 다음과 같이 적용할 수 있다. 본 연구는 사용자들이 작성한 리뷰 데이터를 활용하여 리뷰의 유용여부나, 긍정/부정 같은 감성 분류를 판별함에 있어 분류 정확도를 높이는 방법론을 제안하였다. 이는 서 비스 기획 및 마케팅 관련 종사자로 하여금 자사가 제공하는 재화나 서비스에 대해 소비자들이 어떻게 인지하고 있는지 파악할 수 있는 자료로 활용 가능하다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
특 징 추출이란 무엇인가? , 2016). 특 징 추출은 고차원 데이터의 특징을 선형 혹은 비선형의 결합으로 보다 낮은 차원으로 투영시키는 방식이다. 
특징 선택의 목적은 무엇인가? 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다.
Locally Linear Embedding의 장점은 무엇인가? 그 과정은 각 데이터에서 이웃을 구하고 가중치 행렬을 구성하여 이 가중 치를 유지하며 저차원의 형태로 변환하는 형식이다. LLE의 장점은 기본적으로 고차원의 데이 터를 저차원으로 매핑이 가능하며 다루기 쉽고 비선형 임베딩이 가능하다는 점이다. 
질의응답 정보가 도움이 되었나요?

참고문헌 (31)

  1. Azhagusundari, B. and A.S. Thanamani, "Feature Selection based on Information Gain," International Journal of Innovative Technology and Exploring Engineering (IJITEE), Vol.2, No.2(2013), 18-21. 

  2. Barkan, O., "Bayesian Neural Word Embedding," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), (2017) 

  3. Barkan, O. and N. Koenigstein."Item2Vec: Neural Item Embedding for Collaborative Filtering," arXiv Preprint arXiv:1603.04259 (2016). 

  4. Bojanowski, P., E. Grave, A. Joulin, and T. Mikolov, "Enriching word vectors with subword information," CoRR abs/1607.04606, (2016) 

  5. Deerwester, S., S.T. Dumais, T.K. Landauer, G.W. Furnas, and R. Harshman. "Indexing by latent semantic analysis," Journal of the American Society of Information Science, Vol.41, No.6(1990), 391-407. 

  6. Duda, R.O., P.E. Hart, and D.G. Stork. Pattern classification, Wiley, 2000. 

  7. Frome, A., G. Corrado, and J. Shlens, "Devise: A Deep Visual-Semantic Embedding Model," Advances in Neural Information Processing Systems, 26(2013) 1-11. 

  8. Joachims, T., "Text categorization with support vector machines," Technical report, University of Dortmund, (1997). 

  9. Jolliffe, I.T., Principal Component Analysis, Springer-Verlag New York, Secaucus, NJ, (1989) 

  10. Kim, Y., "Convolutional neural networks for sentence classification," Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, 1746-1751. 

  11. Lee, M. and H. J. Lee, "Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms," Journal of Intelligent Information Systems, Vol.22, No.3(2016), 129-142. 

  12. Lee, M. and H. J. Lee, "Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach," Journal of Intelligent Information Systems, Vol.23, No.2(2017), 123-138. 

  13. Lewis, D.D., "Naive (Bayes) at forty: The independence assumption in information retrieval," Proceedings of ECML-98, 10th European Conference on Machine Learning, (1998), 4-15. 

  14. Lewis, D.D., "Feature selection and feature extraction for text categorization," Proceddings Speech and Natural Language Workshop, San Francisco, (1992), 212-217. 

  15. Li, J., K. Cheng, S. Wang, F. Morstatter, R. P. Trevino, J. Tang, and H. Liu, "Feature Selection: a data perspective," ACM Computing Surveys(CSUR), Vol.50, No.6(2017), 94:1-94:45. 

  16. Landauer, T.K., P. W. Foltz, and D. Laham, "Introduction to Latent Semantic Analysis," Discourse Processes, Vol.25(1998), 259-84. 

  17. Mika, S., G. Ratsch, J. Weston, B. Scholkopf and K. -R. Muller, "Fisher discriminant analysis with kernels," Proceedings, IEEE Workshop on Neural Network for Signal Processing, (1999). 

  18. Mohan, P., I. Paramasivam, "A study on impact of dimensionality reduction on Naive Bayes classifier," Indian Journal of Science and Technology, Vol.10, No. 20(2017). 

  19. Peng, H., F. Long, C. Dong, "Feature selection based on mutual information: Criteria of maxdependence, max-relevance, min-redundancy", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.27, No.8(2005). 

  20. Pennington, J., R. Socher, and C. D. Manning. "Glove: Global vectors for word representation", EMNLP, (2014). 

  21. Peters, M., M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer. "Deep contextualized word representations", NAACL, (2018). 

  22. Rapp, M., F.-J. Lubken, P. Hoffmann, R. Latteck, G. Baumgarten, and T. A. Blix, "PMSE dependence on aerosol charge, number density and aerosol size," Journal of Geophysical Research, Vol.108, No.D8(2003), 1-11. 

  23. Roweis, S.T. and Saul, L.K., "Nonlinear dimensionality reduction by Locally Linear Embedding," Science, Vol.290, No.5500(2000), 2323-2326. 

  24. Mika, S., G. Ratsch, J. Weston, B. Scholkopf, and K. -R Muller, "Fisher discriminant analysis with kernels," Proceedings of IEEE Workshop on Neural Networks for Signal Processing, (1999). 

  25. Sahami, M., "Learning limited dependence Bayesian classifiers". Proceedings 2nd International Conference on Knowledge Discovery and Data Mining, (1996), 334-338. 

  26. Sahlgren, M., "The distributional hypothesis," Italian Journal of Linguistics, Vol.20, No.1 (2008), 33-53. 

  27. Mikolov, T., K. Chen, G. Corrado, and Jeffrey Dean. "Efficient estimation of word representations in vector space", ICLR Workshop, (2013). 

  28. Yu, L.C., J. Wang, K. R. Lai, and X. Zhang, "Refining word embeddings for sentiment analysis", Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, (2017), 545-550. 

  29. Zhang, R. and T. Tran, "An Information gainbased approach for recommending useful product reviews", Knowledge Information Systems, Vol.26, No.3(2011), 419-434. 

  30. Zhou, P., W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, and B. Xu. "Attention-based bidirectional long short-term memory networks for relation classification", The 54th Annual Meeting of the Association for Computational Linguistics, (2016), 207-213. 

  31. Zhu, L., G. Wang, and X. Zou, "Improved information gain feature selection method for Chinese text classification based on word embedding", proceedings of the 6th International Conference on Software and Computer Applications, (2017), 72-76. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로