최근 온라인 시장의 급격한 성장에 따른 대용량의 고객 데이터가 발생함에 따라 이들 데이터들에 대한 연구적 이슈가 대두되고 있다. 아마존에서는 자사의 고객 리뷰 및 제품 데이터를 공유함으로써 데이터 안에 내포된 유의미한 지식 발견, 리뷰 텍스트 및 제품 분석 등에 대한 연구가 데이터마이닝을 기반으로 활발하게 진행되고 있다. 하지만, 기존의 연구들은 텍스트 데이터 리뷰에 대한 연구가 대부분을 차지하고 있으며, 이는 주관적인 판단에 의한 감정적 의견이 포함될 가능성이 높다. 즉, 감정적 결정에 따른 데이터의 편향 및 분석 결과의 신뢰성에 부정적 영향을 야기할 수 있다. 이들 문제를 해결하기 위해 이 연구에서는 딥 러닝 기반의 고객 성향 인식 연구를 제안한다. 제안된 연구 ...
최근 온라인 시장의 급격한 성장에 따른 대용량의 고객 데이터가 발생함에 따라 이들 데이터들에 대한 연구적 이슈가 대두되고 있다. 아마존에서는 자사의 고객 리뷰 및 제품 데이터를 공유함으로써 데이터 안에 내포된 유의미한 지식 발견, 리뷰 텍스트 및 제품 분석 등에 대한 연구가 데이터마이닝을 기반으로 활발하게 진행되고 있다. 하지만, 기존의 연구들은 텍스트 데이터 리뷰에 대한 연구가 대부분을 차지하고 있으며, 이는 주관적인 판단에 의한 감정적 의견이 포함될 가능성이 높다. 즉, 감정적 결정에 따른 데이터의 편향 및 분석 결과의 신뢰성에 부정적 영향을 야기할 수 있다. 이들 문제를 해결하기 위해 이 연구에서는 딥 러닝 기반의 고객 성향 인식 연구를 제안한다. 제안된 연구 프레임워크는 두 단계로 구성된다. 첫 번째 단계에서는 새로운 고객 군집을 생성한다. 두 번째 단계에서는 생성된 고객 군집을 인식 할 수 있는 예측 모델을 생성한다. 이 연구에서는 데이터에 신뢰성 향상을 위해 높은 빈발이 발생하는 제품 217개와 5회 이상 구매 이력이 있는 고객 데이터 4,047을 실험 데이터로 정의하였다. 고객 성향 군집 생성에서는 실제 데이터들에 내포하고 있는 다양한 군집을 고려하기 위해 하이브리드군집화 방법론을 적용하였다. 첫 번째 단계에서는 circle 기반의 작은 군집들을 생성한다. 두 번째 단계에서는 작은 군집들의 상호 연관성을 self-organizing map (SOM)알고리즘을 사용하여 큰 군집을 구성한다. 군집의 유효성 평가는 silhouette coefficient와 calinski-harabaz index 평가 하였으며 그 결과 k-means 기반의 SOM 방법론이 가장 좋은 성능을 보였다. 고객 성향 인식 모델 생성을 위해 deep neural network (DNN)을 적용하였다. 아울러, 모델의 객관적인 신뢰성 확보를 위해 10-fold cross validation과 stratified k-fold을 기반으로 support vector machine, random forest, k-nearest neighbors, decision tree, stochastic gradient descent, adaboost, quadratic discriminant analysis 방법론과 성능평가를 진행하였다. 그 결과 DNN 방법론이 전체적으로 다른 알고리즘들 보다 높은 성능을 보였다. 이 연구에서는 아마존에서 제공하는 un-class label 데이터를 기반으로 한, 새로운 군집을 생성하였으며, 이를 효과적으로 예측할 수 있는 고객 성향 인식 모델을 제안하였다. 이를 통해 급격하게 증가하는 대용량 고객 데이터들의 고도화된 지식 마케팅에 활용 될 수 있을 것으로 기대한다.
최근 온라인 시장의 급격한 성장에 따른 대용량의 고객 데이터가 발생함에 따라 이들 데이터들에 대한 연구적 이슈가 대두되고 있다. 아마존에서는 자사의 고객 리뷰 및 제품 데이터를 공유함으로써 데이터 안에 내포된 유의미한 지식 발견, 리뷰 텍스트 및 제품 분석 등에 대한 연구가 데이터마이닝을 기반으로 활발하게 진행되고 있다. 하지만, 기존의 연구들은 텍스트 데이터 리뷰에 대한 연구가 대부분을 차지하고 있으며, 이는 주관적인 판단에 의한 감정적 의견이 포함될 가능성이 높다. 즉, 감정적 결정에 따른 데이터의 편향 및 분석 결과의 신뢰성에 부정적 영향을 야기할 수 있다. 이들 문제를 해결하기 위해 이 연구에서는 딥 러닝 기반의 고객 성향 인식 연구를 제안한다. 제안된 연구 프레임워크는 두 단계로 구성된다. 첫 번째 단계에서는 새로운 고객 군집을 생성한다. 두 번째 단계에서는 생성된 고객 군집을 인식 할 수 있는 예측 모델을 생성한다. 이 연구에서는 데이터에 신뢰성 향상을 위해 높은 빈발이 발생하는 제품 217개와 5회 이상 구매 이력이 있는 고객 데이터 4,047을 실험 데이터로 정의하였다. 고객 성향 군집 생성에서는 실제 데이터들에 내포하고 있는 다양한 군집을 고려하기 위해 하이브리드 군집화 방법론을 적용하였다. 첫 번째 단계에서는 circle 기반의 작은 군집들을 생성한다. 두 번째 단계에서는 작은 군집들의 상호 연관성을 self-organizing map (SOM)알고리즘을 사용하여 큰 군집을 구성한다. 군집의 유효성 평가는 silhouette coefficient와 calinski-harabaz index 평가 하였으며 그 결과 k-means 기반의 SOM 방법론이 가장 좋은 성능을 보였다. 고객 성향 인식 모델 생성을 위해 deep neural network (DNN)을 적용하였다. 아울러, 모델의 객관적인 신뢰성 확보를 위해 10-fold cross validation과 stratified k-fold을 기반으로 support vector machine, random forest, k-nearest neighbors, decision tree, stochastic gradient descent, adaboost, quadratic discriminant analysis 방법론과 성능평가를 진행하였다. 그 결과 DNN 방법론이 전체적으로 다른 알고리즘들 보다 높은 성능을 보였다. 이 연구에서는 아마존에서 제공하는 un-class label 데이터를 기반으로 한, 새로운 군집을 생성하였으며, 이를 효과적으로 예측할 수 있는 고객 성향 인식 모델을 제안하였다. 이를 통해 급격하게 증가하는 대용량 고객 데이터들의 고도화된 지식 마케팅에 활용 될 수 있을 것으로 기대한다.
The recent surge in online market growth has led to research issues with large amounts of customer data. Amazon is actively conducting research on data mining based on review text, and product analysis to uncover knowledge embedded in the data. It is also engaging global data scientists in the proce...
The recent surge in online market growth has led to research issues with large amounts of customer data. Amazon is actively conducting research on data mining based on review text, and product analysis to uncover knowledge embedded in the data. It is also engaging global data scientists in the process by sharing its customer reviews and product data. A sheer amount of the recent literature, however, have been focusing on text data reviews only which is likely to include emotional opinions based on subjective judgments. Namely, it would affect the analytical results by the bias of the data to the emotional decision. To overcome these issues, this dissertation proposes customer propensity identification based on Deep Learning that consists clustering for customer propensity (CP) and generation of predictive model using deep learning. Customer propensity identification is defined as the act of grouping customers based specifically on how they act as customers when making purchasing decisions. Some customer propensities that marketers look at when segmenting customers include readiness to purchase, frequency of interactions such as review and rating of products, and other factors. When conducting a propensity analysis, researchers are interested in finding the propensity for a customer to perform a certain action; for example, to give a rating to product. In other words, the researchers’ task is to predict how likely it is that a customer will perform a particular action. In the experimental part of this dissertation, Amazon ratings were analyzed for grouping customers who have casted their ratings on Amazon’s electronic products. Customer ratings of 4,047 customers were used to predict new customer propensity. The analyzed dataset includes the most frequented 217 products (50 ratings are used as threshold) and most promoted 4,047 customers (5 ratings are used as threshold). Ten-fold cross validation was used in order to evaluate a deep-learning classification model. Self-Organizing Maps (SOM) was used to group customers by propensity. It projects input space on prototypes of a low-dimensional regular grid where it can effectively analyze both the map and the data. In the process, similar units need to be grouped, or clustered. In this work, different approaches to clustering of the SOM are considered. In particular, the use of hierarchical agglomerative clustering and partitional clustering using K-means are investigated. The K-means method performs well when compared with other clustering of the data. Silhouette Coefficient and Calinski-Harabaz index were used to choose optimal number of clusters and evaluate the clustering methods. Ten-fold cross validation and the stratified ten-fold cross validation were used to evaluate the prediction accuracy with metrics such as precision, recall, and F-score. Deep learning (DL) architectures were compared with traditional machine learning multi-label classification methods. Preliminary results suggest that Deep Neural Networks (DNN), a DL architecture, when applied to multi-label classification of customers, produced accuracy that was comparable to that of common methods such as Support Vector Machines and Decision Tree. Deep Learning architectures have the potential of inferring more information about the patterns of customer propensity data than common classification methods. Advanced techniques of Deep Learning can be used to identify the significance of different features from customer rating data as well as to learn the contributions of each feature that impact most frequently rated products.
The recent surge in online market growth has led to research issues with large amounts of customer data. Amazon is actively conducting research on data mining based on review text, and product analysis to uncover knowledge embedded in the data. It is also engaging global data scientists in the process by sharing its customer reviews and product data. A sheer amount of the recent literature, however, have been focusing on text data reviews only which is likely to include emotional opinions based on subjective judgments. Namely, it would affect the analytical results by the bias of the data to the emotional decision. To overcome these issues, this dissertation proposes customer propensity identification based on Deep Learning that consists clustering for customer propensity (CP) and generation of predictive model using deep learning. Customer propensity identification is defined as the act of grouping customers based specifically on how they act as customers when making purchasing decisions. Some customer propensities that marketers look at when segmenting customers include readiness to purchase, frequency of interactions such as review and rating of products, and other factors. When conducting a propensity analysis, researchers are interested in finding the propensity for a customer to perform a certain action; for example, to give a rating to product. In other words, the researchers’ task is to predict how likely it is that a customer will perform a particular action. In the experimental part of this dissertation, Amazon ratings were analyzed for grouping customers who have casted their ratings on Amazon’s electronic products. Customer ratings of 4,047 customers were used to predict new customer propensity. The analyzed dataset includes the most frequented 217 products (50 ratings are used as threshold) and most promoted 4,047 customers (5 ratings are used as threshold). Ten-fold cross validation was used in order to evaluate a deep-learning classification model. Self-Organizing Maps (SOM) was used to group customers by propensity. It projects input space on prototypes of a low-dimensional regular grid where it can effectively analyze both the map and the data. In the process, similar units need to be grouped, or clustered. In this work, different approaches to clustering of the SOM are considered. In particular, the use of hierarchical agglomerative clustering and partitional clustering using K-means are investigated. The K-means method performs well when compared with other clustering of the data. Silhouette Coefficient and Calinski-Harabaz index were used to choose optimal number of clusters and evaluate the clustering methods. Ten-fold cross validation and the stratified ten-fold cross validation were used to evaluate the prediction accuracy with metrics such as precision, recall, and F-score. Deep learning (DL) architectures were compared with traditional machine learning multi-label classification methods. Preliminary results suggest that Deep Neural Networks (DNN), a DL architecture, when applied to multi-label classification of customers, produced accuracy that was comparable to that of common methods such as Support Vector Machines and Decision Tree. Deep Learning architectures have the potential of inferring more information about the patterns of customer propensity data than common classification methods. Advanced techniques of Deep Learning can be used to identify the significance of different features from customer rating data as well as to learn the contributions of each feature that impact most frequently rated products.
주제어
#Customer Propensity Identification Hybrid Clustering Self-Organizing Maps Deep Learning Deep Neural Networks Machine Learning 고객 성향 인식 하이브리드 군집화 딥 러닝 딥 뉴럴 네트워크 기계학습
학위논문 정보
저자
권태일
학위수여기관
충북대학교
학위구분
국내박사
학과
정보산업공학과(원)
지도교수
류근호
발행연도
2018
총페이지
xi,115 p.
키워드
Customer Propensity Identification Hybrid Clustering Self-Organizing Maps Deep Learning Deep Neural Networks Machine Learning 고객 성향 인식 하이브리드 군집화 딥 러닝 딥 뉴럴 네트워크 기계학습
※ AI-Helper는 부적절한 답변을 할 수 있습니다.