[논문]텍스트 마이닝을 이용한 소비자 소비패턴 분석 기법 설계

정은희; 이병관

doi:10.17661/jkiiect.2018.11.2.181

텍스트 마이닝을 이용한 소비자 소비패턴 분석 기법 설계
An Analysis Scheme Design of Customer Spending Pattern using Text Mining 원문보기

한국정보전자통신기술학회논문지 = Journal of Korea institute of information, electronics, and communication technology, v.11 no.2, 2018년, pp.181 - 188

정은희 (Department of Regional Economics, Kangwon National University) , 이병관 (Department of Software, Catholic Kwandong University)

초록
AI-Helper

본 논문에서는 텍스트 마이닝을 이용한 소비자의 소비패턴 분석 기법을 제안하였다. 제안하는 소비패턴 분석기법에서는 첫째, 피어슨의 상관계수를 이용하여 사용자의 평가점수에 대한 유사도를 분석하고, 둘째, 텍스트 마이닝 기법 중의 하나의 TD-IDF의 코사인 유사도를 이용하여 사용자의 리뷰들간의 유사도를 분석하고, 셋째, Sentiwordnet를 이용하여 평가점수와 리뷰의 일치성을 분석하였다. 그리고 제안하는 소비패턴 분석 기법은 평가점수의 유사도와 리뷰의 유사도를 이용하여 근접이웃들을 선정하고, 선정된 이웃에 소비패턴에 적합한 추천리스트를 제공하였다. 추천리스트의 정확도는 피어슨 상관계수가 0.79, TD-IDF가 0.73, 그리고 제안하는 소비패턴분석기법이 0.82로 나타났다. 즉, 제안하는 소비패턴분석기법은 소비자의 정량적인 평가점수와 정성적인 리뷰를 모두 이용하므로 소비 패턴을 좀 더 정확하게 분석할 수 있었다.

Abstract ▼ AI-Helper

In this paper, we propose an analysis scheme of customer spending pattern using text mining. In proposed consumption pattern analysis scheme, first we analyze user's rating similarity using Pearson correlation, second we analyze user's review similarity using TF-IDF cosine similarity, third we analyze the consistency of the rating and review using Sendiwordnet. And we select the nearest neighbors using rating similarity and review similarity, and provide the recommended list that is proper with consumption pattern. The precision of recommended list are 0.79 for the Pearson correlation, 0.73 for the TF-IDF, and 0.82 for the proposed consumption pattern. That is, the proposed consumption pattern analysis scheme can more accurately analyze consumption pattern because it uses both quantitative rating and qualitative reviews of consumers.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 정량적인 평가점수와 정성적인 사용자의 리뷰를 분석하는 소비자의 소비패턴 분석 기법을 제안하였다. 제안하는 소비패턴 분석기법에서는 피어슨의 상관계수를 이용하여 정량적인 평가점수를 분석하였고, 텍스트 마이닝 기법 중의 하나의 TD-IDF의 코사인 유사도를 이용하여 사용자의 리뷰를 정량적으로 분석하 였다.
본 논문에서는 정성적인 사용자의 리뷰를 정량적으로 분석하기 위해 텍스트 마이닝 기술을 사용하는 소비자의 소비 패턴 분석기법을 설계하여 추천시스템이 갖는 의문점을 해결하고, 설계된 소비패턴 분석 기법을 이용하여 소비자에게 좀 더 정확한 소비패턴을 추천함으로써 소비자의 만족도를 향상시킬 뿐만 아니라 기업의 경쟁력을 강화시키고자 한다.

제안 방법

3.1절의 절차에 따라 사용자간 평가점수 유사도를 분석하기 위해 동일한 제품들을 구매한 사용자들을 추출하여 표 2와 같은 사용자간 평가점수표를 생성하였다. 사용자간의 평가점수 유사도는 피어슨의 상관계수를 이용하였고, 사용자간의 좀 더 정확한 유사도를 측정하기 위해 동일한 품목에 대한 평가값을 추출하여 사용자간 평가점수 유사도를 계산하였다.
3.2절의 절차에 따라 TF-IDF의 코사인 유사성을 분석하였다. 사용자간의 리뷰 유사도 측정을 위해, 동일한 제품에 대한 사용자의 리뷰를 TF-IDF로 분석하여 키워드를 추출하고, 키워드들에 대한 코사인 유사성을 측정하였다.
제안하는 소비패턴분석기법에서는 사용자간 평가점수 유사도 분석결과와 사용자간 리뷰 유사도 분석 결과를 합산하여 최종적으로 사용자간 유사도를 산출한다. 그리고 사용자간 유사도가 임계치보다 높은 N개의 사용자들을 선택하여 이웃으로 선정하고, 이웃들의 선호 아이템을 사용자가에 추천하도록 설계한다.
표 7에서 볼 수 있듯이 사용자 A의 이웃으로 B, D를 선정하였고, 사용자 B의 이웃으로 A, C, E를 선정하였고, 사용자 C의 이웃으로 B, D, E를 선정하였고, 사용자 D의 이웃으로 A, C를 선정하였고, 사용자 E의 이웃으로 B, C를 선정하였다. 그리고 이 이웃들이 구매한 제품들을 사용자 A, B, C, D, E에게 추천하도록 하였다.
사용자의 소비 패턴을 분석하기 위해서는 사용자의 성향을 분석할 필요가 있다. 그리하여 영화 리뷰 전체를 이용하지 않고, 100건 이상 리뷰를 등록한 사용자들을 추출하여 사용자의 성향을 분석하였다.
2절의 절차에 따라 TF-IDF의 코사인 유사성을 분석하였다. 사용자간의 리뷰 유사도 측정을 위해, 동일한 제품에 대한 사용자의 리뷰를 TF-IDF로 분석하여 키워드를 추출하고, 키워드들에 대한 코사인 유사성을 측정하였다.
본 논문에서 제안하는 소비패턴 분석 기법은 사용자 기반 협업적 필터링과 텍스트 마이닝을 결합시킨 기법이다. 제안하는 소비패턴 분석 기법은 사용자들이 등록한 평가점수로 유사도를 산출하고, 텍스트 마이닝 기법인 TF-IDF의 코사인 유사도를 산출하여 사용자들을 필터링 하고, 사용자의 리뷰와 평가점수를 비교하여 소비자의 소비패턴을 생성하여 추천리스트를 생성하여 이웃들에게 추천함으로써 추천리스트의 정확도를 향상 시키고자 한다
제안하는 소비패턴분석기법에서는 사용자간 평가점수 유사도 분석결과와 사용자간 리뷰 유사도 분석 결과를 합산하여 최종적으로 사용자간 유사도를 산출한다. 그리고 사용자간 유사도가 임계치보다 높은 N개의 사용자들을 선택하여 이웃으로 선정하고, 이웃들의 선호 아이템을 사용자가에 추천하도록 설계한다.
제안하는 소비패턴분석기법에서는 사용자들간의 구매상품에 대한 평점을 분석하고, 사용자들간의 평점 유사도를 산출한다. 이때, 평점 유사도는 피어슨 상관계수를 이용하여 계산한다.
제안하는 소비패턴분석기법에서는 사용자의 리뷰에서 키워드를 추출하여 사용자간의 리뷰 유사도를 계산한다. 사용자들의 리뷰에서 키워드를 추출하는 절차는 다음과 같다.

대상 데이터

[단계 2] 상품에 대한 평점 등록 횟수가 기준치 이하인 사용자들은 사용자-상품 평점 목록에서 삭제한다. 본 논문에서는 평점 등록 횟수가 100건 이상인 사용자 정보들을 사용하였다.
제안하는 소비패턴분석기법의 성능을 검증하기 위해 본 연구에서는 아마존 영화 리뷰 데이터셋을 이용하였다. 아마존 영화 리뷰 데이터셋은 SNAP( Stanford Network Analysis Project)에서 제공하는 데이터셋 으로 1997년 8월부터 2012년 10월까지 등록된 영화 리뷰 데이터이다[10].
제안하는 소비패턴분석기법의 성능을 검증하기 위해 본 연구에서는 아마존 영화 리뷰 데이터셋을 이용하였다. 아마존 영화 리뷰 데이터셋은 SNAP( Stanford Network Analysis Project)에서 제공하는 데이터셋 으로 1997년 8월부터 2012년 10월까지 등록된 영화 리뷰 데이터이다[10].

데이터처리

1절의 절차에 따라 사용자간 평가점수 유사도를 분석하기 위해 동일한 제품들을 구매한 사용자들을 추출하여 표 2와 같은 사용자간 평가점수표를 생성하였다. 사용자간의 평가점수 유사도는 피어슨의 상관계수를 이용하였고, 사용자간의 좀 더 정확한 유사도를 측정하기 위해 동일한 품목에 대한 평가값을 추출하여 사용자간 평가점수 유사도를 계산하였다.
사용자들의 리뷰에 대한 긍정과 부정은 Sentiwordnet를 이용하여 분석하였다. 표 8은 사용자 중에 User B의 결과이다.
본 논문에서는 정량적인 평가점수와 정성적인 사용자의 리뷰를 분석하는 소비자의 소비패턴 분석 기법을 제안하였다. 제안하는 소비패턴 분석기법에서는 피어슨의 상관계수를 이용하여 정량적인 평가점수를 분석하였고, 텍스트 마이닝 기법 중의 하나의 TD-IDF의 코사인 유사도를 이용하여 사용자의 리뷰를 정량적으로 분석하 였다. 또한, 리뷰의 긍정 및 부정의 일치성 분석에는 Sentiwordnet를 이용하였다.
제안하는 소비패턴분석기법은 Python을 이용하여 구현하였고, 소비패턴분석기법에 의해 추천된 상품이 사용자의 성향에 맞는 상품이었는지를 평가하여 제안하는 소비패턴분석기법의 정확도를 분석하였다.

이론/모형

제안하는 소비패턴 분석기법에서는 피어슨의 상관계수를 이용하여 정량적인 평가점수를 분석하였고, 텍스트 마이닝 기법 중의 하나의 TD-IDF의 코사인 유사도를 이용하여 사용자의 리뷰를 정량적으로 분석하 였다. 또한, 리뷰의 긍정 및 부정의 일치성 분석에는 Sentiwordnet를 이용하였다.

성능/효과

표 9는 사용자들의 평가점수와 리뷰의 긍정값 및 부정값의 일치성을 평가한 결과이다. 가장 높은 일치성을 보인 사용자는 User A로 0.9이고, 나머지 사용자들은 거의 비슷한 일치성으로 나타났다. 즉 대부분의 사용자들이 평가점수와 다르게 리뷰를 등록하므로 평가점수만으로 제품에 대해 평가하는 것은 사용자의 의도를 정확하게 평가하기 어렵다는 것을 알 수 있다.
그 결과, 제안하는 소비패턴 분석 기법으로 이웃을 선정하고, 선정된 이웃에 추천한 추천리스트의 정확도가 피어슨의 상관계수와 TD-IDF의 코사인 유사도를 이용하여 생성한 추천리스트 보다 높았다.
표 10은 추천리스트의 정확도를 비교한 결과이다. 사용자들간의 유사도로 선정된 이웃들의 구매품목을 참조하여 생성한 추천리스트를 제공한 결과, 피어슨의 상관계수의 정확도는 0.79이고, TF- IDF의 정확도는 0.73, 그리고 제안하는 소비패턴분석기법의 정확도는 0.82로 나타났다.
즉, 제안하는 소비패턴분석기법은 평가점수 분석결과와 리뷰 분석 결과를 모두 반영하여 추천리스트를 작성하였기 때문에 정확도가 가장 높은 것으로 나타났다.
표 3과 표 6의 결과를 비교해볼 때, 사용자간 평가점수 유사도는 사용자 A와 C가 가장 낮은 것으로 나타 났었는데, 사용자간 리뷰 유사도는 사용자 A와 E가 가장 낮은 것으로 나타났으며, 전체적으로 평가점수 유사도가 낮으면, 리뷰 유사도도 낮게 나타남을 알 수 있다. 그리고 사용자간 리뷰 유사도는 하나의 rating 점수가 아닌 여러개의 키워드들을 이용하여 유사도를 평가하기 때문에 사용자간 평가점수 유사도와 다르게 최고값과 최저값의 차이가 크지 않음을 알 수 있다.
표 3의 사용자간 평가점수 유사도 분석 결과에서 알 수 있듯이 사용자 A와 B의 유사도가 가장 큰 것으로 나타났으며, 사용자 C와 D, 사용자 A와 D 순으로 나타났다.

후속연구

즉, 제안하는 소비패턴 분석 기법을 이용하여 소비자에게 좀 더 정확한 소비패턴을 추천함으로써 소비자의 만족도를 향상시킬 뿐만 아니라 기업의 경쟁력을 강화시킬 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	텍스트 마이닝은 언제 사용하는가?	텍스트 마이닝은 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾고자 할 때 사용한다. 이때, TF-IDF(Term Frequency - Inverse Document Frequency)를 이용하는데, TF-IDF는 문서내에서 단어의 중요도를 빈도(Frequency)를 사용해서 계산하는 방법이다.
	추천 시스템이란 무엇인가?	추천 시스템(recommended system)이란 특정 사용자를 위한 Top-N 추천 상품 목록을 생성하거나 추천 대상 상품들에 대한 해당 사용자의 평가 점수를 예측하는 방법을 통해, 그들이 전자상거래 사이트에서 구매를 희망하는 상품을 쉽게 찾을 수 있도록 도와주는 데이터 분석기반의 정보 여과(information filtering) 시스템을 말한다[3,7,8].
	텍스트 마이닝은 어떤 방법을 사용하는가?	텍스트 마이닝은 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾고자 할 때 사용한다. 이때, TF-IDF(Term Frequency - Inverse Document Frequency)를 이용하는데, TF-IDF는 문서내에서 단어의 중요도를 빈도(Frequency)를 사용해서 계산하는 방법이다.

참고문헌 (10)

Shin, C. H., J.W. Lee, H.N. Yang, and I.Y. Choi, "The research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis," Journal of Intelligence and Information Systems, vol.18, no.4, pp.19-42, 2012.
Chen, P.Y., S. Dhanasobhon, and M.D. Smith, "An Analysis of the Differential Impact of Reviews and Reviewers at Amazon.com," Proceedings of International Conference on Information Systems(ICIS), 94, 2007.
B. K. Jeon, H. C. Ahn, "A Collaborative Filtering System Combined with User's Review Mining : Application to the Recommendation of Smartphone Apps," Journal of Intelligence and Information Systems, vol.21, no.2, pp.1-18, 2015.
B. K. Jeon, "A Study on the Combination of Collaborative Filtering and User's Review Mining," Kookmin University Graduate School of Business IT, Master thesis, 2016.02.
Zhang, Z., D. Zhang, and J. Lai, "urCF: User Review Enhanced Collaborative Filtering," Proceedings of the 20th Americas Conference on Information Systems, 2014.
S. J. Lee, H. J. Kim, "Keyword Extraction from News Corpus using Modified TF-IDF," The Journal of Society for e-Business Studies, vol.14, no.4, pp.59-73, 2009.
Choeh, J.Y., S.L. Lee and Y.B. Cho, "Applying Rating Score's Reliability of Customers to Enhance Prediction Accuracy in Recommender System," Journal of Digital Contents Society, vol.13, no.7, pp.379-385, 2013.
Sarwar, B., Karypis, G., Konstan, J. and Riedl, J.,"Item-based collaborative filtering recommendation algorithms," Proceedings of the 10th International Conference on World Wide Web, pp.285-295, 2001.
Jeong, E.H, and Lee, B.K., "A Design of Customized Market Analysis Scheme Using SVM and Collaboration Filtering Scheme," The Journal of Korea Institute of Information, Electronics, and Communication Technology, vol.9, no.6, pp.609-616, 2016.

원문보기 상세보기
Amazon movies review dataset, https://snap.stanford.edu/data/web-Movies.html

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증