$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝
Clickstream Big Data Mining for Demographics based Digital Marketing 원문보기

지능정보연구 = Journal of intelligence and information systems, v.22 no.3, 2016년, pp.143 - 163  

박지애 (국민대학교 데이터사이언스학과) ,  조윤호 (국민대학교 경영대학 경영학부)

초록
AI-Helper 아이콘AI-Helper

인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

Abstract AI-Helper 아이콘AI-Helper

The demographics of Internet users are the most basic and important sources for target marketing or personalized advertisements on the digital marketing channels which include email, mobile, and social media. However, it gradually has become difficult to collect the demographics of Internet users be...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • SVM(support vector machine)은 선형, 비선형을 가리지 않고 데이터를 분류할 수 있는 기법이다. 기본 원리는 목표값을 분류할 때 기준이 되는 최적의 분리경계면(hyperplane)을 찾는 것을 목적으로 한다. SVM은 일반적으로 이진 분류(binary classification) 알고리즘으로 사용되나 다분형 SVM(multi-class support vector machine)을 이용하여 다항 분류(multinominal classification)도 가능하다.
  • 일반적으로 다분형보다 이분형 종속변수에 대한 예측 모델의 정확도가 우수하지만 온라인과 오프라인 마케팅 모두 각각의 고객에 대한 타겟 마케팅 및 개인화 서비스의 수요가 증가하고 있으며 고객의 다양한 정보를 활용해 가장 확실한 가치를 찾는 핀셋 마케팅 또는 극세분화 마케팅이 떠오르는 현재 시점에서 인터넷 사용자의 인구통계특성을 이분형 종속변수로 설정하여 예측하는 것은 실무적 활용성이 현저히 낮을 것이라 판단된다. 따라서 본 연구는 De Bock and Van den Poel(2009)의 연구를 중점으로 앞의 모든 선행연구를 활용하여 클릭스트림 데이터에서 인터넷 사용자의 온라인 행위 정보를 추출하고 이를 사용하여 이분형 및 다분형으로 표현되는 해당 사용자의 인구통계특성을 예측하고자 한다.
  • 이때, 훈련용 데이터의 크기가 64개의 설명변수를 이용하여 예측 모델을 학습하기에 매우 적은 양으로 차원의 저주 및 과적합 문제가 발생할 수 있다. 따라서 본 연구는 차원의 저주 및 과적합 문제를 해결하기 위해서 총 3가지의 변수축소 방법을 적용한 예측 모델을 모두 생성하고 정확도(accuracy)를 이용하여 예측 모델의 성능을 비교 평가한다. 정확도는 모델의 성능을 단 하나의 수치로 표현되며 측정하기가 쉽기 때문에 분류 모델의 평가 척도로 널리 사용되는 모델 성능 측정방법이다.
  • 또한 불필요한 변수의 사용으로 인해 모델의 과적합 문제가 발생할 가능성이 높다. 따라서 본 연구에서는 (1) 의사결정나무를 이용한 변수축소, (2)주성분분석을 이용한 변수축소, (3)군집분석을 활용한 변수축소 방법들을 제안하고 이에 대한 모델 성능을 평가하기 위해 정확도를 이용하였다. 그 결과 클래스의 수가 많은 다분형 종속변수에 대한 예측모델은 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용하였을 때 예측 모델의 정확도가 가장 높았다.
  • 사용자 프로파일 중 온라인 행위 정보에 관한 64개의 모든 변수를 이용하여 예측 모델을 학습할 경우 차원의 저주 및 과적합 문제가 발생할 가능성이 높다. 따라서 본 연구에서는 차원의 저주 및 과적합 문제를 해결하기 위해 (1)의사결정나무를 이용한 변수축소, (2)주성분분석을 이용한 변수축소, (3)군집분석을 활용한 변수축소 방법을 제안한다.
  • 본 연구는 클릭스트림 데이터(clickstream data)에서 추출한 온라인 행위 정보를 이용한 인터넷 사용자의 인구통계특성 예측에 관한 연구로 실험을 위해 클릭스트림 데이터를 활용하여 인터넷 사용자의 온라인 행위 정보와 인구통계특성 정보를 포함하는 사용자 프로파일(profile)을 생성하였다.
  • 본 연구는 클릭스트림 데이터를 이용하여 사용자의 인구통계특성을 예측하였고 예측 모델 생성 시 발생하는 차원의 저주 및 과적합 문제를 해결하기 위해 총 3가지 관점의 변수축소 방법을 제시하였다. 하지만 3가지 관점의 방법론 중 군집분석을 활용한 변수축소 방법은 예측 모델의 정확도 개선에 도움이 되지 않았다.
  • 본 연구에서는 군집분석을 활용한 데이터의 변수축소 방법을 새롭게 제시한다. 군집분석을 활용하여 여러 개의 연속형 변수를 하나의 범주형 변수로 축약하는 방법이다.
  • 본 연구에서는 예측 모델 생성 시 발생하는 차원의 저주 및 과적합 문제를 해결하기 위해 총 3가지 관점의 변수축소 방법을 제안하였다. 각각의 종속변수와 변수축소 방법에 따른 예측 모델의 최대 정확도는 [Table 6]과 같다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
클릭스트림 데이터에는 어떤 것들이 기록되어 있는가? 이러한 인터넷 사용자의 온라인 행위 정보는 사용자가 하나 또는 그 이상의 웹사이트를 방문한 경로를 기록한 클릭스트림 데이터를 이용하여 보다 객관적이고 정확하게 확인할 수 있으며 클릭스트림 데이터는 설문조사에서 얻을 수 없는 정보까지도 포함하고 있다는 장점을 가지고 있다. 다시 말해, 클릭스트림 데이터에는 인터넷 사용자가 어떤 사이트를 방문했는지, 특정 웹사이트를 얼마나 자주 방문했는지 등에 대한 일련의 온라인 활동들이 기록되어있다(Lourenco et al., 2011).
웹서핑은 무엇인가? 일반적으로 웹서핑(web surfing)으로 표현되는 온라인 행위는 인터넷 사용자가 정보탐색, 온라인 구매 등의 활동을 위해 웹사이트를 방문하는 행위를 의미한다. 이러한 인터넷 사용자의 온라인 행위 정보는 사용자가 하나 또는 그 이상의 웹사이트를 방문한 경로를 기록한 클릭스트림 데이터를 이용하여 보다 객관적이고 정확하게 확인할 수 있으며 클릭스트림 데이터는 설문조사에서 얻을 수 없는 정보까지도 포함하고 있다는 장점을 가지고 있다.
SVM의 목적은 무엇인가? SVM(support vector machine)은 선형, 비선형을 가리지 않고 데이터를 분류할 수 있는 기법이다. 기본 원리는 목표값을 분류할 때 기준이 되는 최적의 분리경계면(hyperplane)을 찾는 것을 목적으로 한다. SVM은 일반적으로 이진 분류(binary classification) 알고리즘으로 사용되나 다분형 SVM(multi-class support vector machine)을 이용하여 다항 분류(multinominal classification)도 가능하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (26)

  1. Ban, H. and Y. Kwon, "The Study of the Usage Correlation between Portal and Traditional News Media", Korean Journal of Journalism & Communication Studies, Vol.51, No.1 (2007), 399-426. 

  2. Banlioni and Miriam, et al., "Preprocessing and mining web log data for web personalization", Congress of the Italian Association for Artificial Intelligence. Springer Berlin Heidelberg, 2003, 237-249. 

  3. Boutsidis, Christos, M. W. Mahoney and P. Drineas, "Unsupervised feature selection for principal components analysis", Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008, 61-69. 

  4. Bucklin. Randolph E et al., "Choice and the Internet: From clickstream to research stream", Marketing Letters(2002), 245-258. 

  5. Cho, K. and H. Park, "A study on 3-step complex data mining in society indicator survey", Journal of the Korean Data & Information Science Society, Vol.23, No.5(2012), 983-992. 

  6. Choi, S., Y. Hyun and N. Kim, "Improving Performance of Recommendation Systems Using Topic Modeling", Journal of Intelligence and Information Systems, Vol.22, No.1(2015), 77-93. 

  7. De Bock, W. Koen and V. D. Poel, "Predicting website audience demographics for web advertising targeting using multi-website clickstream data", Fundamenta Informaticae, Vol.98, No.1(2010), 49-70. 

  8. Eleonora Ivanova, "Predicting website audience demographics based on browsing history", Master's Thesis, Information and Service Management, Aalto University, 2013. 

  9. Foody, M. Giles and A. Mathur, "A relative evaluation of multiclass image classification by support vector machines", IEEE, Transactions on geoscience and remote sensing, Vol.42, No.6(2004), 1335-1343. 

  10. Gallagher, K. and J. Parsons, "A framework for targeting banner advertising on the Internet", Proc. 30th Hawaii International Conference on System Sciences(HICSS 30), 1997. 

  11. Goel, Sharad, M. Jake, Hofman and M. I. Sirer, "Who Does What on the Web: A Large-Scale Study of Browsing Behavior." ICWSM, 2012. 

  12. Han, S et al. "Real-Time Purchase Probability Prediction Using Clickstream Data of Internet Storefronts", Entrue Journal of Information Technology, Vol.11, No.1(2012), 101-110. 

  13. Huang, Zan et al., "Credit rating analysis with support vector machines and neural networks: a market comparative study", Decision support systems, Vol.37, No.4(2004), 543-558. 

  14. Jones et al., "I know what you did last summer: query logs and user privacy", Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007, 909-914. 

  15. Kaufman, Leonard, J. Peter and Rousseeuw, "Finding groups in data: an introduction to cluster analysis", Vol. 344. John Wiley & Sons, 2009. 

  16. Kim, I., "Predicting audience demographics of web sites using local cues", Doctoral dissertation, David Eccles School of Business, The University of Utah, 2011. 

  17. Kim, T. and H. Ahn, "A Hybrid Under-sampling Approach for Better Bankruptcy Prediction", Journal of Intelligence and Information Systems, Vol.21, No.2(2015), 173-190. 

  18. Kim, Y. et al., "A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data", The Journal of Society for e-Business Studies, Vol.21, No.1(2016), 147-163. 

  19. Lee, K. and H. Lee, "A Study on the Combined Decision Tree(C4.5) and Neural Network Algorithm for Classification of Mobile Telecommunication Customer", Journal of Intelligence and Information Systems, Vol.9, No. 1(2003). 

  20. Moe and W. Wendy, "Buying, searching, or browsing: Differentiating between online shoppers using in-store navigational clickstream", Journal of consumer psychology, Vol.13, No.1(2003), 29-39. 

  21. Montgomery, A. L et al., "Modeling online browsing and path analysis using clickstream data", Marketing Science, Vol.23, No.4 (2004), 579-595. 

  22. Murray, D. and K. Durrell, "Inferring demographic attributes of anonymous internet users", Web usage Analysis and User Profiling Workshop, Springer, 2000, 7-20. 

  23. Park, Y.-H. and S. F. Peter, "Modeling browsing behavior at multiple websites", Marketing Science, Vol.23, No.3(2004), 280-303. 

  24. Poindexter, M. Paula and E. M. Maxwell, "Revisiting the civic duty to keep informed in the new media environment", Journalism & Mass Communication Quarterly, Vol.78, No.1(2001), 113-126. 

  25. Provost, Foster and T. Fawcett, "Data Science for Business: What you need to know about data mining and data-analytic thinking", O'Reilly Media, Inc., 2013. 

  26. Rumelhart, David E., E. Geoffrey, Hinton and R. J. Williams, "Learning internal representations by error propagation", No. ICS-8506. CALIFORNIA UNIV SAN DIEGO LA JOLLA INST FOR COGNITIVE SCIENCE, 1985. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로