$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여
Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach 원문보기

지능정보연구 = Journal of intelligence and information systems, v.26 no.1, 2020년, pp.97 - 117  

이지현 (한양대학교 철학과) ,  정상형 (한양대학교 경영학부) ,  김준호 (한양대학교 수학과) ,  민은주 (한양대학교 파이낸스경영학과) ,  여운영 (한양대학교 비즈니스인포매틱스학과) ,  김종우 (한양대학교 경영대학 경영학부)

초록
AI-Helper 아이콘AI-Helper

상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.

Abstract AI-Helper 아이콘AI-Helper

Product evaluation criteria is an indicator describing attributes or values of products, which enable users or manufacturers measure and understand the products. When companies analyze their products or compare them with competitors, appropriate criteria must be selected for objective evaluation. Th...

주제어

표/그림 (11)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이러한 문제 해결을 위해 본 연구에서는 리뷰에서 상품 평가 기준에 적합한 단어를 반자동으로 추출해내는 모델을 제시한다. 본 모델은 사전에 상위 상품 카테고리 수준에서 사례 베이스를 구축하여 이를 기반으로 하위 상품 카테고리 리뷰 데이터에서 평가 기준으로 적합한 단어를 분류해내는 방식이다. 제시하는 모델은 토픽모델링 기법인 LDA로 리뷰의 특징 단어들을 추출하고 k-최근접 이웃 접근법(k-Nearest Neighbor Aproach, k-NN)을 평가 기준 분류에 활용한다.
  • 본 연구는 기업의 상품에 대한 평가 기준을 LDA와 k-NN을 이용해 온라인 리뷰에서 추출하는 방안을 제시한다. 기존 사전 기반 추출 방식이 사용자의 의견을 반영하지 못하는 한계를 극복하기 위해 본 연구는 LDA 기법으로 평가 기준 후보군을 추출했다.
  • 정리하면 기존의 온라인 리뷰로부터 상품 평가 기준을 추출하는 연구들은 기준을 추출할 때 주관이 과도하게 개입되거나, 불용어 사전을 활용한다는 한계를 보인다. 본 연구에서는 이러한 한계를 극복하기 위해 LDA를 실시한 결과에 대해 k-NN을 활용해 기계학습을 실시한다. 이전 연구들과는 다르게 불용어 사전을 활용하지 않고 k-NN을 통해 반자동적으로 상품 평가 기준을 도출해 내어 주관적인 판단을 최소화 했다는 것에 주요한 차이점이 있다.
  • 본 연구에서는 토픽 모델링 기법 중 LDA를 활용하여 상품별 리뷰를 분석하고 리뷰의 잠재된 주제, 주제가 언급하는 내용 및 중요 단어를 파악한다.
  • 기존 연구에서는 LDA를 통해 특정 주제와 해당 주제를 구성하는 내부 단어들을 추출할 수 있었다. 본 연구에서는 특정 주제를 뽑는 것보다 상품 평가 기준이 될 수 있는 단어들을 뽑는 데에 중점을 두었다. LDA는 토픽 수, 단어 수, 랜덤 시드(Random Seed) 등의 매개 변수가 변화하면 추출되는 토픽 내 단어도 변화한다.
  • 각기 다른 이유로 제품에 만족한 고객들이 동일한 평점을 준다면 기업은 제품의 장단점을 구체적으로 파악할 수 없다. 이 문제를 보완하기 위한 방안으로 상품에 대한 평가를 사전에 정한 평가 기준 별로 하도록 유도하거나 리뷰를 기초로 평가 기준을 추출하는 것이다. 평가 기준 추출 방법으로는 형태소 분석을 통해 명사를 추출해내거나(Son et al.
  • 이러한 문제 해결을 위해 본 연구에서는 리뷰에서 상품 평가 기준에 적합한 단어를 반자동으로 추출해내는 모델을 제시한다. 본 모델은 사전에 상위 상품 카테고리 수준에서 사례 베이스를 구축하여 이를 기반으로 하위 상품 카테고리 리뷰 데이터에서 평가 기준으로 적합한 단어를 분류해내는 방식이다.
  • 2013). 추출한 상품 평가 기준에 해당하는 리뷰에 대해 해당하는 리뷰에 대해 감성 분석을 실시하여 소비자에게 도움이 될 만한 리뷰를 분류하는 연구이다. 또한 아마존에 존재하는 두 상품의 영어 리뷰를 대상으로 LDA를 실시한 후, 두 상품에 대한 비교 기준을 추출해 내는 연구가 있다(Wang et al.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
잠재 디리클레 할당의 사용으로 극복한 문제점은? 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다.
최근접 이웃 접근법이란? 최근접 이웃 접근법(Nearest Neighbor Aproach,NN)은 분류되지 않은 새로운 관측 값을 이전에 분류된 값들의 집합 중 가장 가까운 집합으로 분류하는 방법이다(Cover et al. 1967).
리뷰의 어떠한 점이 기업의 중요한 자원이 되는가? 리뷰는 소비자들의 구매 의사결정에 중요한 요소이며 이커머스 시장의 고성장과 함께 그 양도 방대해지고 있다. 한편, 리뷰는 고객의 잠재된 니즈를 담고 있다는 점에서 기업의 마켓 센싱 측면에서도 중요한 자원이다. 기업은 리뷰로부터 제품 개선 방향에 대한 아이디어를 얻고(Cha et al.
질의응답 정보가 도움이 되었나요?

참고문헌 (39)

  1. Blei, D. M., A. Y. Ng and M. I. Jordan, "Latent Dirichlet Allocation." Journal of Machine Learning Research, Vol.3, Jan(2003), 993-1022. 

  2. Blei, D. M., "Probabilistic Topic Models" Communications of the ACM, Vol.55, No.4 (2012), 77-84. 

  3. Bojanowski, P., E. Grave, A. Joulin and T. Mikolov, "Enriching Word Vectors with Subword Information." Transactions of the Association for Computational Linguistics, Vol. 5, No.10(2017), 135-146. 

  4. Chae, S. H., J. I. Lim and J. Y. Kang, "A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce." Journal of Intelligence and Information Systems, Vol.21, No.4(2015), 53-77. 

  5. Cover, T. M. and P. Hart, "Nearest Neighbor Pattern Classification." IEEE Transactions On Information Theory, Vol.13, No.1(1967), 21-27. 

  6. Dai, X., I. Spasic and F. Andres, "A Framework for Rating Online Reviews: Topic Modelling, Text Classification and Sentiment Analysis." ACMSE 2017 The Annual ACM Southeast Conference Featuring Multidisciplinary and Interdisciplinary Computing, At Kennesaw State University, Georgia, 2017. 

  7. Dong, R., M. Schaal, M. P. O'Mahony and B. Smyth "Topic Extraction from Online Reviews for Classification and Recommendation." Proceeding of the Twenty-Third International Joint Conference on Artificial Intelligence, (2013), 1310-1316. 

  8. Dudani, S. A., "The Distance-Weighted k-Nearest-Neighbor Rule." IEEE Transactions on Systems, Man, and Cybernetics, Vol.SMC-6, No.4(1976), 325-327. 

  9. Fix, E. and J. L. Hodges, "Nonparametric Discrimination: Consistency Properties." Report for the USAF School of Aviation Medicine, Randolph Field Report Number 4, Texas, 1951. 

  10. Griffiths, T. L. and M. Steyvers, "Finding Scientific Topics." Proceedings of the National Academy of Sciences, (2004), 5228-5235. 

  11. Jang, K. R., K. W. Lee and S. H. Myaeng, "Extracting Implicit Customer Viewpoints from Product Review Text." Journal of KISS : Software and Applications, Vol.41, No.5 (2014), 376-386. 

  12. Jin, J., P. Ji and R. Gu, "Identifying Comparative Customer Requirements from Product Online Reviews for Competitor Analysis." Engineering Applications of Artificial Intelligence, Vol.49, No.3(2016), 61-73. 

  13. Jo, H. S. and S. G. Lee, "Korean Word Embedding Using FastText." Journal of Korea Information Science Society, Vol.2017, No.12(2017), 705-707. 

  14. Keller, J. M., M. R. Gray and J. A. Givens, "A Fuzzy k-Nearest Neighbor Algorithm." IEEE Transactions On systems, Man, and Cybernetics, Vol.SMC-15, No.4(1985), 580-585. 

  15. Kim, H. W., H. C. Chan and S. Gupta, "Social Media for Business and Society," Asia Pacific Journal of Information Systems, Vol.25, No.2(2015), 211-233. 

  16. Kim, M. J., E. J. Song and Y. H. Kim, "A Design of Satisfaction Analysis System for Content Using Opinion Mining of Online Review Data." Journal of Internet Computing and Services, Vol.17, No.3(2016), 107-113. 

  17. Kim, S. W. and N. G. Kim, "A Study on the Effect of Using Sentiment Lexicon in Opinion Classification." Journal of Intelligence and Information Systems, Vol.20, No.1(2014), 133-148. 

  18. Kwon, J. Y. and M. Y. Lee, "A Study on the Determining Factors of Online Review Helpfulness." Journal of Korea Intelligent information Systems Society, Vol.2012, No.12 (2012), 205-211. 

  19. Lee, H. A., W. C. Lee and K. J. Lee, "Antomatic Product Feature Extraction for Efficient Analysis of Product Reviews Using Term Statistics." The KIPS Transactions : Part B, Vol.16, No.6(2009), 497-502. 

  20. Lee, J. E., H. K. Seo, and K. Y. Han, "Refined IPC Classification System Based on KNN Using Patent Search Results." Journal of KIISE Academic Publications, Vol.38, No.2A (2011), 256-259. 

  21. Lee, M., and H. J. Lee, "Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms." Journal of Intelligence and Information Systems, Vol.22, No.3(2016), 129-142. 

  22. Lee, S. H., J. Cui and J. W. Kim. "Sentiment Analysis on Movie Review through Building Modified Sentiment Dictionary by Movie Genre." Journal of Intelligence and Information Systems, Vol.22, No.2(2016), 97-113. 

  23. Lim, B. H. and K. H. Um, "A Study of the Comparison of Product Quality Competitiveness of Consumer Electronics among Major Countries." Korean Corporation Management Review, Vol.43, No.3(2012), 131-151. 

  24. Ma, B., D. Zhang, Z.Yan and T. Kim, "An LDA and Synonym Lexicon based Approach to Product Feature Extraction from Online Consumer Product Reviews." Journal of Electronic Commerce Research, Vol.14, No.4 (2013), 304. 

  25. Mikolov, T., E. Grave, P. Bojanowski and C. Puhrsch, "Advances in Pre-Training Distributed Word Representations." arXiv preprint arXiv: 1712.09405 (2017). 

  26. Mikolov, T., I. Sutskever, K. Chen, G. S. Corrado and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality." arXiv preprint arXiv:1310.4546 (2013). 

  27. Mikolov, T., K. Chen, G. Corrado and J. Dean, "Efficient Estimation of Word Representations in Vector Space." arXiv preprint arXiv:1301.3781, (2013). 

  28. Patrick, E. A. and F. P. Fischer III, "A Generalized k-Nearest Neighbor Rule." Information and Control, Vol.16, No.2(1970), 128-152. 

  29. Rasyidi, M. A., J. M. Kim and K. R. Ryu, "Short-term Prediction of Vehicle Speed on Main City Roads Using the K-Nearest Neighbor Algorithm." Journal of Intelligence and Information Systems, Vol.20, No.1(2014), 121-131. 

  30. Santosh, D. T., B. V. Vardhan and D. Ramesh, "Extracting Product Features from Reviews Using Feature Ontology Tree Applied on LDA Topic Clusters." 2016 IEEE 6th International Conference on Advanced Computing, IEEE, Bhimavaram, 2016. 

  31. Sim, J.S. and H. J. Kim, "A Searching Method for Legal Case Using LDA Topic Modeling" Journal of the Institute of Electronics and Information Engineers, Vol.54, No.9(2017), 67-75. 

  32. Son, S. B. and J. H. Chun, "Product Feature Extraction and Rating Distribution Using User Reviews." The Journal of Society for e-Business Studies, Vol.22, No.1(2017), 65-87. 

  33. Song, J. S. and S. W. Lee, " Automatic Construction of Positive/Negative Feature-Predicate Dictionary for Polarity Classification of Product Reviews." Journal of KIISE: Software and Applications, Vol.38, No.3 (2011), 157-168. 

  34. Steyvers, M. and T. L. Griffiths, "Probabilistic Topic Models." Handbook of Latent Semantic Analysis, Vol.427, No.7(2007), 424-440. 

  35. Wang, W., Y. Feng and W. Dai, "Topic Analysis of Online Reviews for Two Competitive Products Using Latent Dirichlet Allocation." Electronic Commerce Research and Applications, Vol.29, No.13(2018), 142-156. 

  36. Xu, K., S. S. Liao, J. Li and Y. Song, "Mining Comparative Opinions from Customer Reviews for Competitive Intelligence." Decision Support Systems, Vol.50, No.4(2011), 743-754. 

  37. Xu, X., X. Wang, Y. Li and M. Haghighi, "Business Intelligence in Online Customer Textual Reviews: Understanding Consumer Perceptions and Influential Factors." International Journal of Information Management, Vol.37, No.6(2017), 673-683. 

  38. Yagci, I. A. and S. Das, "Measuring Design-Level Information Quality in Online Reviews." Electronic Commerce Research and Applications, Vol.30, No.10(2018), 102-110. 

  39. You, E. S., G. H. Choi and S. H. Kim "Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels." Journal of the Korea Society of Computer and Information, Vol.20, No.2(2015), 121-129. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로