[논문]인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝

박지애; 조윤호

doi:10.13088/jiis.2016.22.3.143

문제 정의

SVM(support vector machine)은 선형, 비선형을 가리지 않고 데이터를 분류할 수 있는 기법이다. 기본 원리는 목표값을 분류할 때 기준이 되는 최적의 분리경계면(hyperplane)을 찾는 것을 목적으로 한다. SVM은 일반적으로 이진 분류(binary classification) 알고리즘으로 사용되나 다분형 SVM(multi-class support vector machine)을 이용하여 다항 분류(multinominal classification)도 가능하다.
일반적으로 다분형보다 이분형 종속변수에 대한 예측 모델의 정확도가 우수하지만 온라인과 오프라인 마케팅 모두 각각의 고객에 대한 타겟 마케팅 및 개인화 서비스의 수요가 증가하고 있으며 고객의 다양한 정보를 활용해 가장 확실한 가치를 찾는 핀셋 마케팅 또는 극세분화 마케팅이 떠오르는 현재 시점에서 인터넷 사용자의 인구통계특성을 이분형 종속변수로 설정하여 예측하는 것은 실무적 활용성이 현저히 낮을 것이라 판단된다. 따라서 본 연구는 De Bock and Van den Poel(2009)의 연구를 중점으로 앞의 모든 선행연구를 활용하여 클릭스트림 데이터에서 인터넷 사용자의 온라인 행위 정보를 추출하고 이를 사용하여 이분형 및 다분형으로 표현되는 해당 사용자의 인구통계특성을 예측하고자 한다.
이때, 훈련용 데이터의 크기가 64개의 설명변수를 이용하여 예측 모델을 학습하기에 매우 적은 양으로 차원의 저주 및 과적합 문제가 발생할 수 있다. 따라서 본 연구는 차원의 저주 및 과적합 문제를 해결하기 위해서 총 3가지의 변수축소 방법을 적용한 예측 모델을 모두 생성하고 정확도(accuracy)를 이용하여 예측 모델의 성능을 비교 평가한다. 정확도는 모델의 성능을 단 하나의 수치로 표현되며 측정하기가 쉽기 때문에 분류 모델의 평가 척도로 널리 사용되는 모델 성능 측정방법이다.
또한 불필요한 변수의 사용으로 인해 모델의 과적합 문제가 발생할 가능성이 높다. 따라서 본 연구에서는 (1) 의사결정나무를 이용한 변수축소, (2)주성분분석을 이용한 변수축소, (3)군집분석을 활용한 변수축소 방법들을 제안하고 이에 대한 모델 성능을 평가하기 위해 정확도를 이용하였다. 그 결과 클래스의 수가 많은 다분형 종속변수에 대한 예측모델은 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용하였을 때 예측 모델의 정확도가 가장 높았다.
사용자 프로파일 중 온라인 행위 정보에 관한 64개의 모든 변수를 이용하여 예측 모델을 학습할 경우 차원의 저주 및 과적합 문제가 발생할 가능성이 높다. 따라서 본 연구에서는 차원의 저주 및 과적합 문제를 해결하기 위해 (1)의사결정나무를 이용한 변수축소, (2)주성분분석을 이용한 변수축소, (3)군집분석을 활용한 변수축소 방법을 제안한다.
본 연구는 클릭스트림 데이터(clickstream data)에서 추출한 온라인 행위 정보를 이용한 인터넷 사용자의 인구통계특성 예측에 관한 연구로 실험을 위해 클릭스트림 데이터를 활용하여 인터넷 사용자의 온라인 행위 정보와 인구통계특성 정보를 포함하는 사용자 프로파일(profile)을 생성하였다.
본 연구는 클릭스트림 데이터를 이용하여 사용자의 인구통계특성을 예측하였고 예측 모델 생성 시 발생하는 차원의 저주 및 과적합 문제를 해결하기 위해 총 3가지 관점의 변수축소 방법을 제시하였다. 하지만 3가지 관점의 방법론 중 군집분석을 활용한 변수축소 방법은 예측 모델의 정확도 개선에 도움이 되지 않았다.
본 연구에서는 군집분석을 활용한 데이터의 변수축소 방법을 새롭게 제시한다. 군집분석을 활용하여 여러 개의 연속형 변수를 하나의 범주형 변수로 축약하는 방법이다.
본 연구에서는 예측 모델 생성 시 발생하는 차원의 저주 및 과적합 문제를 해결하기 위해 총 3가지 관점의 변수축소 방법을 제안하였다. 각각의 종속변수와 변수축소 방법에 따른 예측 모델의 최대 정확도는 [Table 6]과 같다.

제안 방법

군집분석을 적용하여 57개의 연속형 변수를 축소시킨 5개의 범주형 변수와 군집분석을 적용하지 않은 7개의 연속형 변수를 예측 모델의 설명변수로 사용하였다. 이를 사용한 각각의 인구통계특성 예측에 대한 실험 결과는 [Table 5]와 같다.
첫째, 클릭스트림 데이터에서 분석을 토대로 인터넷 사용자들의 온라인 행위 정보를 추출하고 이를 이용하여 해당 사용자의 인구통계특성을 예측하고자 한다. 둘째, 예측 모델 생성 시 발생 가능한 차원의 저주(curse of dimensionality) 및 과적합(overfitting) 문제를 해결하기 위해 여러 변수축소 방법들을 적용하고 각각의 예측 모델의 성능을 비교하고자 한다.
다시 말해 익명의 온라인 활동이 점자 증가하고 있는 현재시점에서 인터넷 사용자의 온라인 활동 기록만으로도 인구통계특성을 예측할 수 있다는 점에서 의의가 있다. 둘째, 예측 모델 생성 시 발생할 수 있는 차원의 저주 및 과적합 문제를 해결할 수 있는 여러 가지 변수축소 방법들을 제안하였다. 이를 통해 어떤 종속변수에 대해 어느 변수축소 방법을 사용하는 것이 효과적인지를 제시하였다는 점에서 의의가 있다.
(2015)의 연구에서도 인터넷 사용자의 관심사를 측정하기 위해 뉴스기사 접속 기록을 사용하였다. 따라서 본 연구에서는 사용자의 관심사를 측정하기 위한 척도로 뉴스사이트의 카테고리별 페이지뷰 비율을 사용하였고 뉴스사이트는 속보, 정치, 경제 등 총 12개의 카테고리로 분류하였다. 뉴스사이트의 카테고리별 페이지뷰 비율은 0과 1사이의 값을 가지며 연속형 변수로 표현되며 큰 값을 가질수록 해당 카테고리의 뉴스 사이트에 대한 선호도가 높다는 것을 의미한다.
따라서 향후 연구에서는 군집분석을 활용하여 연속형 변수를 범주형 변수로 축소시킴에 있어 어떤 변수에 대한 변수축소가 예측 모델의 성능을 저하시키는지, 몇 개의 연속형 변수를 범주형 변수로 축소시켜야 예측 모델의 성능이 개선되는지에 대한 확장 연구가 가능하다. 또한 본 연구에서는 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용함에 있어 예측 모델 학습 시 사용된 설명변수의 개수를 5단위로 변화시켜가며 예측 모델의 정확도를 측정하였다. 이에 향후 연구에서는 더 세분화된 단위의 사용하여 예측모델의 정확도 개선에 대한 구체적인 기준점을 찾을 수 있을 것이라 기대된다.
5와 k-최근접 이웃(k-nearest neighbors)을 사용하였다. 또한, 나이브 베이즈(naive bayes)를 기준으로 향상도(lift)를 이용하여 각각의 예측 모델의 성능을 측정하였다. 실험 결과, 향상도는 10.
본 연구는 모든 설명변수를 사용하여 이분형 종속변수에 대한 예측 모델 생성 시 가장 적합한 분류 기법은 SVM 분류 기법이며 변수축소 방법을 적용하여 다분형 종속변수에 대한 예측 모델 생성 시 가장 적합한 분류 기법은 신경망 분류 기법으로 확인되었다. 또한, 본 연구에서는 클래스의 수가 많은 다분형 종속변수에 대해 의사결정나무나 주성분분석을 이용한 변수축소 방법을 적용하여 가장 높은 정확도를 가지는 예측 모델을 생성하였다. 그리고 종속변수의 클래스의 수가 많아질수록 변수축소 방법을 적용하는 것이 예측 모델의 정확도를 높이는 방법임을 확인하였다.
마지막으로 변수축소 방법을 적용하기 위해 인터넷 사용자를 기준으로 웹사이트 카테고리, 시간대, 요일, 월, 뉴스사이트 카테고리 페이지뷰 비율에 대해 각각 군집분석을 시행하였다. 실험에 사용된 군집분석 알고리즘은 k-평균(k-means)이며 군집 개수를 결정하기 위해 각 객체가 적절한 군집에 배치되었는지를 측정하는 평균 실루엣(silhouette)을 참고하였다(Kaufman and Rousseeuw, 2009).
마지막으로 사용자의 관심사를 측정하기 위한 변수로 뉴스사이트 카테고리별 페이지뷰 비율을 사용하였다. 뉴스기사의 독자들은 그들의 관심사에 따라 특정 뉴스기사를 선택하고(Poindexter et al.
먼저 사용자의 온라인 행위 정보를 나타내는 64개의 설명변수로 SVM, 신경망, 로지스틱회귀 분류 기법을 이용하여 각각의 인구통계특성에 대한 예측 모델을 생성하였다. 하지만 온라인 행위 정보를 나타내는 모든 설명변수를 사용하여 예측 모델을 학습할 경우 데이터 차원이 증가하여 모델의 정확도를 유지하기 위해 필요한 데이터의 수가 기하급수적으로 증가하는 차원의 저주에 대한 문제가 발생 할 수 있다.
본 실험에서는 변수축소를 위한 방법 중 하나로 의사결정나무 기법의 알고리즘 중 하나인 C5.0을 사용하였고 출력 유형으로 부스팅 10회, 교차 타당성 10회를 적용하였다. C5.
군집분석(cluster analysis)은 각 객체의 유사성을 측정하고 유사성이 높은 객체끼리 집단을 형성하는 방법이며 주로 세분화, 이상치 탐지(anomaly detection) 등에 사용된다(Cho and Park, 2012). 본 연구에서는 변수축소의 방법으로 군집분석을 활용하여 여러 개의 연속형 변수를 하나의 명목형 변수로 축소시켰다.
본 연구에서는 선행연구를 토대로 클릭스트림 데이터로부터 사용자의 온라인 행위 정보와 인구통계특성 정보를 추출하여 사용자 프로파일을 생성하였다. 본 연구의 실험에서 사용되는 사용자 프로파일은 [Table 2]에 요약되어있다.
시간대별 페이지뷰 비율, 요일별 페이지뷰 비율, 월별 페이지뷰 비율은 0과 1사이의 값을 가지며 연속형 변수로 표현되며 큰 값을 가질수록 해당 시간대, 요일, 월에 대한 방문 선호도가 높다는 것을 의미한다. 여기서 시간대은 24시간을 00~05시, 06~11시, 12~17시, 18~23시 4개로 구분하여 사용하였고 요일과 월은 7개의 요일과 12개의 월을 사용하였다. 시간대, 요일, 월에 대한 변동계수는 클릭 스트림 데이터를 수집한 1년의 기간 동안 사용자가 각각의 시간대, 요일, 월에 대해 얼마나 다양하게 이용을 하였는지에 대한 것으로 해당 값들에 대한 표준편차를 평균으로 나눈 값을 의미하며 값이 클수록 특정 시간대, 요일, 월에 대한 온라인 활동이 활발한 것을 의미한다.
클릭스트림 데이터를 활용하여 생성한 사용자 프로파일은 인터넷 사용자(패널)를 기준으로 5,000개의 행(rows)과 온라인 행위 정보에 대한 64개의 열(columns)과 인구통계특성 정보에 대한 5개의 열로 구성되어 있다. 예측모델 생성을 위해 온라인 행위 정보에 관한 64개의 열을 설명변수로 사용하고 인구통계특성 정보에 대한 5개의 열을 종속변수로 사용한다.
사용자 프로파일의 인터넷 사용자별 선호사이트는 Eleonora(2013)의 연구에서 사용된 웹사이트 방문 선호도의 변수와 같은 맥락으로 사용자가 어떤 카테고리의 웹사이트에 자주 접속하는지를 나타낸다. 웹사이트를 22개의 카테고리로 구분하고 각각의 카테고리별 사용자의 페이지뷰 비율과 카테고리에 대한 변동계수(coefficient of variance)로 표현했고 22개의 카테고리는 건강/의학, 게임, 금융/부동산, 뉴스미디어 등으로 분류하였다. 카테고리별 페이지뷰 비율은 0과 1사이의 값을 가지며 연속형 변수로 표현되며 큰 값을 가질수록 해당 웹사이트 카테고리에 대한 방문 선호도가 높다는 것을 의미한다.
본 연구에서는 주성분분석은 변수축소를 위한 방법으로 사용되었으며 주성분분석을 위해 상관계수 행렬을 사용하였다. 주성분분석을 이용한 변수축소 방법은 주성분의 개수를 5개에서 40개까지 5단위로 늘려가며 예측 모델의 설명변수로 사용하였다. 추출된 주성분을 이용하여 각각의 종속변수를 예측한 결과는 [Figure 4]와 같다.
본 연구의 목적은 다음과 같다. 첫째, 클릭스트림 데이터에서 분석을 토대로 인터넷 사용자들의 온라인 행위 정보를 추출하고 이를 이용하여 해당 사용자의 인구통계특성을 예측하고자 한다. 둘째, 예측 모델 생성 시 발생 가능한 차원의 저주(curse of dimensionality) 및 과적합(overfitting) 문제를 해결하기 위해 여러 변수축소 방법들을 적용하고 각각의 예측 모델의 성능을 비교하고자 한다.
본 연구의 실험에 사용된 데이터는 국내의 한 인터넷 사이트 순위 분석 전문업체로부터 패널 5,000명에 대해 2012년 7월 1일부터 2013년 6월 30일까지 1년 동안의 온라인 활동 기록을 제공받은 패널 데이터 형태의 클릭스트림 데이터이다. 해당 데이터는 패널 5,000명의 인구통계특성에 관한 정보 5항목(성별, 연령, 혼인여부, 거주지, 직업)과 해당 패널에 대한 해당 기간 동안의 온라인 활동 기록 16,962,705건에 대한 상세항목 6항목(방문 사이트, 접속 날짜, 접속 시각, 페이지뷰, 검색키워드)으로 구성된다. 클릭스트림 데이터를 활용하여 생성한 사용자 프로파일은 인터넷 사용자(패널)를 기준으로 5,000개의 행(rows)과 온라인 행위 정보에 대한 64개의 열(columns)과 인구통계특성 정보에 대한 5개의 열로 구성되어 있다.

대상 데이터

본 연구의 실험에 사용된 데이터는 국내의 한 인터넷 사이트 순위 분석 전문업체로부터 패널 5,000명에 대해 2012년 7월 1일부터 2013년 6월 30일까지 1년 동안의 온라인 활동 기록을 제공받은 패널 데이터 형태의 클릭스트림 데이터이다. 해당 데이터는 패널 5,000명의 인구통계특성에 관한 정보 5항목(성별, 연령, 혼인여부, 거주지, 직업)과 해당 패널에 대한 해당 기간 동안의 온라인 활동 기록 16,962,705건에 대한 상세항목 6항목(방문 사이트, 접속 날짜, 접속 시각, 페이지뷰, 검색키워드)으로 구성된다.
실험을 위해 사용자 프로파일은 예측 모델의 학습을 위한 훈련용 데이터와 예측 모델의 성능 측정을 위한 검증용 데이터로 분할하여 사용하였다. 또한, 본 연구결과에 대한 신뢰성을 높이기 위해 각각의 분류 기법에 대해 5-fold cross-validation을 사용하였다.
90%로 가장 높음을 알 수 있다. 이 경우 사용된 주성분의 개수는 40개이다. 마찬가지로 직업의 경우에도 주성분분석을 이용한 변수축소 방법을 적용하고 신경망 분류 기법을 이용하였을 때 예측 모델의 정확도가 38.
또한 거주지는 서울, 경기, 충청 등 총 13개 클래스로 분류되며 직업은 방송/예술/스포츠, 자영업, 학생 등 20개 클래스로 나뉜다. 이에 따라 본 연구에 사용된 사용자 프로파일은 온라인 행위 정보에 관한 64개의 변수와 인구통계특성 정보에 관한 5개의 변수로 구성된다.

데이터처리

Eleonora(2013)는 클릭스트림 데이터를 사용하여 광고 노출 수, 광고 링크를 클릭한 수, 방문 웹사이트 다양성, 시간대 및 요일별 방문횟수에 대한 온라인 행위 정보를 추출하고 이를 설명변수로 사용하였다. 또한, 로지스틱회귀(logistic regression)를 이용하여 이분형(binary)으로 측정된 사용자의 인구통계특성을 예측하고 모델의 평가 척도로 정확도를 사용하였다.
실험을 위해 사용자 프로파일은 예측 모델의 학습을 위한 훈련용 데이터와 예측 모델의 성능 측정을 위한 검증용 데이터로 분할하여 사용하였다. 또한, 본 연구결과에 대한 신뢰성을 높이기 위해 각각의 분류 기법에 대해 5-fold cross-validation을 사용하였다. 사용자 프로파일을 사용자를 기준으로 5개의 동일한 크기의 그룹(fold)으로 분할하여 4개의 그룹은 학습용 데이터로, 나머지 1개의 그룹은 검증용 데이터로 사용한다.
주성분분석(principal component analysis)은 고차원 데이터 집합을 저차원으로 축소시키는 대표적인 차원축소 방법으로 상관관계가 높은 변수들의 선형결합을 통해 p개의 변수들을 m(m<p) 개의 주성분으로 변환시킨다. 본 연구에서는 예측 모델 학습 시 차원의 저주 및 과적합 문제를 해결하고자 주성분분석을 사용하였다.

이론/모형

본 연구의 실험에 사용된 분류 기법은 SVM, 신경망, 로지스틱 회귀이다. SVM을 이용한 예측모델 학습 시 커널 함수로서 RBF(radial basis function)함수를 사용하였다. 신경망을 이용한 예측 모델은 다중 레이어 퍼셉트론 구조를 기반으로 학습되었으며 훈련용 데이터에 대해 신경망 모델을 기저 학습법으로 사용하는 배깅(bagging)을 적용하였다.
, 2008). 따라서 본 연구에서는 변수축소 방법 중 하나로 주성분분석을 이용하였다.
정확도는 모델의 성능을 단 하나의 수치로 표현되며 측정하기가 쉽기 때문에 분류 모델의 평가 척도로 널리 사용되는 모델 성능 측정방법이다. 또한 본 연구에서는 실험을 위해 데이터마이닝 도구인 SPSS Modeler 17.0을 사용하였다.
본 연구에서는 주성분분석은 변수축소를 위한 방법으로 사용되었으며 주성분분석을 위해 상관계수 행렬을 사용하였다. 주성분분석을 이용한 변수축소 방법은 주성분의 개수를 5개에서 40개까지 5단위로 늘려가며 예측 모델의 설명변수로 사용하였다.
본 연구의 실험에 사용된 분류 기법은 SVM, 신경망, 로지스틱 회귀이다. SVM을 이용한 예측모델 학습 시 커널 함수로서 RBF(radial basis function)함수를 사용하였다.
SVM을 이용한 예측모델 학습 시 커널 함수로서 RBF(radial basis function)함수를 사용하였다. 신경망을 이용한 예측 모델은 다중 레이어 퍼셉트론 구조를 기반으로 학습되었으며 훈련용 데이터에 대해 신경망 모델을 기저 학습법으로 사용하는 배깅(bagging)을 적용하였다. 다음은 본 연구에서 제안한 각각의 변수축소 방법에 대한 실험 결과이다.
마지막으로 변수축소 방법을 적용하기 위해 인터넷 사용자를 기준으로 웹사이트 카테고리, 시간대, 요일, 월, 뉴스사이트 카테고리 페이지뷰 비율에 대해 각각 군집분석을 시행하였다. 실험에 사용된 군집분석 알고리즘은 k-평균(k-means)이며 군집 개수를 결정하기 위해 각 객체가 적절한 군집에 배치되었는지를 측정하는 평균 실루엣(silhouette)을 참고하였다(Kaufman and Rousseeuw, 2009).
,(2003)의 연구는 인터넷 사용자가 방문한 URL에 포함된 단어와 방문 URL의 구조로부터 구문과 의미에 대한 정보를 추출하여 해당 사용자의 성별을 예측하는데 사용하였다. 예측 모델을 학습하기 위한 분류 기법으로 의사결정나무(decision tree)의 알고리즘 중 하나인 C4.5와 k-최근접 이웃(k-nearest neighbors)을 사용하였다. 또한, 나이브 베이즈(naive bayes)를 기준으로 향상도(lift)를 이용하여 각각의 예측 모델의 성능을 측정하였다.
De Bock and Van den Poel(2009)는 클릭스트림 데이터에서 추출한 온라인 행위 정보를 웹사이트에 대한 방문빈도(visit frequency)와 체류시간 및 페이지뷰로 설명되는 방문강도(visit intensity)로 구분하여 설명변수로 사용하였다. 의사결정나무 알고리즘 중 하나인 랜덤포레스(random forest)를 이용하여 사용자들의 성별, 연령, 최종학력, 직업을 예측하였고 예측 모델의 성능 평가를 위해 mAUC와 정확도(accuracy)를 사용하였다. Eleonora(2013)는 클릭스트림 데이터를 사용하여 광고 노출 수, 광고 링크를 클릭한 수, 방문 웹사이트 다양성, 시간대 및 요일별 방문횟수에 대한 온라인 행위 정보를 추출하고 이를 설명변수로 사용하였다.
,(2000)의 연구로 인터넷 사용자들이 검색엔진과 방문 웹페이지 등에서 검색한 검색 키워드를 이용하여 해당 사용자들의 성별과 연령 등을 예측했다. 이때 사용한 알고리즘은 LSA와 신경망이며 모델 성능 측정을 위해 향상도(lift)를 사용하였다. Baglioni et al.

성능/효과

[Table 5]의 굵은 수치는 모든 설명변수를 사용한 예측 모델보다 군집분석을 활용한 변수축소 방법을 적용한 예측 모델의 정확도가 높은 것이다. 각각의 종속변수에 대해 모든 설명변수를 사용한 예측 모델의 정확도보다 군집분석을 활용한 변수축소 방법을 적용한 예측 모델의 정확도가 대부분 낮음을 알 수 있다. 이는 군집분석을 활용한 변수축소 방법은 여러 개의 연속형 변수를 하나의 범주형 변수로 축소시켰기 때문에 데이터의 정보 손실율이 높았기 때문인 것으로 판단된다.
[Table 4]는 웹사이트 카테고리별 페이지뷰 비율 변수 22개, 시간대별 페이지뷰 비율 변수 4개, 요일별 페이지뷰 비율 변수 7개, 월별 페이지뷰 비율 변수 12개, 뉴스사이트 카테고리별 페이지뷰 비율 변수 12개에 대해 각각 군집분석을 적용한 결과를 나타낸 것이다. 구체적으로 [Table 4]를 통해 웹사이트 카테고리별 페이지뷰 비율 변수는 5개, 시간대별 페이지뷰 비율 변수는 2개, 요일별 페이지뷰 비율 변수는 2개, 월별 페이지뷰 비율 변수 2개, 뉴스사이트 카테고리별 페이지뷰 비율 변수는 10개의 군집으로 구분 가능함을 알 수 있다.
따라서 본 연구에서는 (1) 의사결정나무를 이용한 변수축소, (2)주성분분석을 이용한 변수축소, (3)군집분석을 활용한 변수축소 방법들을 제안하고 이에 대한 모델 성능을 평가하기 위해 정확도를 이용하였다. 그 결과 클래스의 수가 많은 다분형 종속변수에 대한 예측모델은 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용하였을 때 예측 모델의 정확도가 가장 높았다. 반면, 군집분석을 활용한 변수축소 방법을 적용한 예측 모델의 정확도는 모든 설명변수를 사용한 예측 모델의 정확도보다 낮았다.
또한, 본 연구에서는 클래스의 수가 많은 다분형 종속변수에 대해 의사결정나무나 주성분분석을 이용한 변수축소 방법을 적용하여 가장 높은 정확도를 가지는 예측 모델을 생성하였다. 그리고 종속변수의 클래스의 수가 많아질수록 변수축소 방법을 적용하는 것이 예측 모델의 정확도를 높이는 방법임을 확인하였다. 반면, 각 종속변수에 대해 모든 설명변수를 사용한 예측 모델보다 군집분석을 활용한 변수축소 방법을 적용한 예측 모델이 낮은 정확도를 보였다.
이분형 종속변수인 성별과 혼인여부 그리고 다분형 종속변수이지만 클래스의 개수가 비교적 적은 연령은 주성분을 이용한 변수축소 방법을 적용한 예측 모델의 정확도보다 모든 설명변수를 사용한 예측 모델의 정확도가 높은 것을 알 수 있다. 다분형 종속변수인 거주지와 직업에 대한 예측 모델은 설명변수로 사용된 주성분의 개수가 25개 이상일 때 모든 설명변수를 사용한 예측 모델의 정확도보다 높아짐을 알 수 있다. 이는 의사결정나무를 이용한 변수축소 방법과 같은 맥락으로 주성분분석을 이용한 변수축소 방법도 다분형 변수 종속변수에 대한 예측 모델의 성능을 높이는데 효과가 있음을 의미한다.
이는 군집분석을 활용한 변수축소 방법은 여러 개의 연속형 변수를 하나의 범주형 변수로 축소시켰기 때문에 데이터의 정보 손실율이 높았으며 이로 인해 예측 모델이 훈련용 데이터에 부적합(underfitting)되었기 때문이라 판단된다. 따라서 무조건적인 변수축소는 예측 모델의 성능을 개선시키는 방법이 아니지만 일정 수준 이상의 클래스를 가지는 다분형 종속변수에 대해 변수축소 방법을 적용하는 것은 예측 모델의 차원의 저주 및 과적합의 문제를 해결할 수 있으며 예측 모델의 정확도와 신뢰성을 높일 수 있음을 확인하였다.
또한 각각 13개, 20개로 많은 수의 클래스를 가지는 다분형 종속변수인 거주지와 직업에 대한 예측 모델은 주성분분석을 이용한 변수축소 방법을 적용하고 신경망 분류 기법을 이용한 예측 모델의 정확도가 가장 높음을 알 수 있다. 구체적으로 거주지의 경우 주성분분석을 이용한 변수축소 방법을 적용하고 신경망 분류 기법을 이용하였을 때 예측 모델의 정확도가 41.
이 경우 사용된 주성분의 개수는 40개이다. 마찬가지로 직업의 경우에도 주성분분석을 이용한 변수축소 방법을 적용하고 신경망 분류 기법을 이용하였을 때 예측 모델의 정확도가 38.25%로 가장 높은 것을 확인하였으며 이 경우 사용된 주성분 개수는 40개이다.
그리고 종속변수의 클래스의 수가 많아질수록 변수축소 방법을 적용하는 것이 예측 모델의 정확도를 높이는 방법임을 확인하였다. 반면, 각 종속변수에 대해 모든 설명변수를 사용한 예측 모델보다 군집분석을 활용한 변수축소 방법을 적용한 예측 모델이 낮은 정확도를 보였다. 이는 군집분석을 활용한 변수축소 방법은 여러 개의 연속형 변수를 하나의 범주형 변수로 축소시켰기 때문에 데이터의 정보 손실율이 높았으며 이로 인해 예측 모델이 훈련용 데이터에 부적합(underfitting)되었기 때문이라 판단된다.
그 결과 클래스의 수가 많은 다분형 종속변수에 대한 예측모델은 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용하였을 때 예측 모델의 정확도가 가장 높았다. 반면, 군집분석을 활용한 변수축소 방법을 적용한 예측 모델의 정확도는 모든 설명변수를 사용한 예측 모델의 정확도보다 낮았다. 이는 무조건적인 변수축소 방법은 예측모델의 성능 향상에 영향을 미치지 않음을 의미한다.
본 연구는 모든 설명변수를 사용하여 이분형 종속변수에 대한 예측 모델 생성 시 가장 적합한 분류 기법은 SVM 분류 기법이며 변수축소 방법을 적용하여 다분형 종속변수에 대한 예측 모델 생성 시 가장 적합한 분류 기법은 신경망 분류 기법으로 확인되었다. 또한, 본 연구에서는 클래스의 수가 많은 다분형 종속변수에 대해 의사결정나무나 주성분분석을 이용한 변수축소 방법을 적용하여 가장 높은 정확도를 가지는 예측 모델을 생성하였다.
사용자의 인구통계특성 중 성별, 연령, 혼인여부는 SVM을 적용하여 예측 모델을 학습한 결과, 정확도가 각각 71.53%, 43.09%, 63.94%로 가장 높음을 알 수 있다. 거주지는 로지스틱 회귀모형을 적용했을 때 정확도가 36.
실험 결과 각 종속변수의 클래스 개수에 따라 예측 모델의 정확도에 차이가 존재함을 알 수 있다. 먼저 이분형 변수인 성별과 혼인여부 그리고 다분형 변수이지만 상대적으로 클래스의 수가 적은 연령은 의사결정나무를 이용한 변수축소 방법을 적용한 예측 모델의 정확도가 모든 설명 변수를 적용한 예측 모델의 정확도보다 낮거나 미비한 차이가 존재한다.
또한, 나이브 베이즈(naive bayes)를 기준으로 향상도(lift)를 이용하여 각각의 예측 모델의 성능을 측정하였다. 실험 결과, 향상도는 10.2%로 다소 낮게 측정되었으며 연구자는 이를 예측 모델 학습 시 지나치게 일반적인 알고리즘을 사용했기 때문이라고 설명했다. 성별과 연령 예측에 대한 또 다른 연구로 Jones et al.
이분형 종속변수인 성별과 혼인여부 그리고 다분형 종속변수이지만 클래스의 개수가 비교적 적은 연령은 주성분을 이용한 변수축소 방법을 적용한 예측 모델의 정확도보다 모든 설명변수를 사용한 예측 모델의 정확도가 높은 것을 알 수 있다. 다분형 종속변수인 거주지와 직업에 대한 예측 모델은 설명변수로 사용된 주성분의 개수가 25개 이상일 때 모든 설명변수를 사용한 예측 모델의 정확도보다 높아짐을 알 수 있다.
본 연구는 이론적인 측면에서 2가지 의의가 있다. 첫째, 클릭스트림 데이터를 활용하여 인터넷 사용자의 인구통계특성을 예측할 수 있다는 것이다. 다시 말해 익명의 온라인 활동이 점자 증가하고 있는 현재시점에서 인터넷 사용자의 온라인 활동 기록만으로도 인구통계특성을 예측할 수 있다는 점에서 의의가 있다.
먼저 이분형 변수인 성별과 혼인여부 그리고 다분형 변수이지만 상대적으로 클래스의 수가 적은 연령은 의사결정나무를 이용한 변수축소 방법을 적용한 예측 모델의 정확도가 모든 설명 변수를 적용한 예측 모델의 정확도보다 낮거나 미비한 차이가 존재한다. 클래스의 수가 상대적으로 많은 거주지와 직업에 대한 실험 결과 모든 설명변수를 사용했을 때보다 의사결정나무를 이용한 변수축소 방법을 적용하여 설명변수가 각각 30개, 35개 일 때 예측모델의 정확도가 가장 높은 것을 알 수 있다. 이는 클래스가 많은 다분형 변수는 모든 설명변수를 사용하여 예측 모델 학습 시 과적합 문제가 발생하며 의사결정나무를 이용한 변수축소 방법은 클래스가 많은 다분형 종속변수에 대한 예측 모델의 성능을 높이는데 효과가 있음을 의미한다.

후속연구

이는 여러 개의 연속형 변수를 하나의 범주형 변수로 축소시켰기 때문에 정보의 손실율이 커져 예측 모델의 성능이 개선되지 않은 것으로 판단된다. 따라서 향후 연구에서는 군집분석을 활용하여 연속형 변수를 범주형 변수로 축소시킴에 있어 어떤 변수에 대한 변수축소가 예측 모델의 성능을 저하시키는지, 몇 개의 연속형 변수를 범주형 변수로 축소시켜야 예측 모델의 성능이 개선되는지에 대한 확장 연구가 가능하다. 또한 본 연구에서는 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용함에 있어 예측 모델 학습 시 사용된 설명변수의 개수를 5단위로 변화시켜가며 예측 모델의 정확도를 측정하였다.
또한 본 연구에서는 의사결정나무와 주성분분석을 이용한 변수축소 방법을 적용함에 있어 예측 모델 학습 시 사용된 설명변수의 개수를 5단위로 변화시켜가며 예측 모델의 정확도를 측정하였다. 이에 향후 연구에서는 더 세분화된 단위의 사용하여 예측모델의 정확도 개선에 대한 구체적인 기준점을 찾을 수 있을 것이라 기대된다.
이를 통해 어떤 종속변수에 대해 어느 변수축소 방법을 사용하는 것이 효과적인지를 제시하였다는 점에서 의의가 있다. 향후 다양한 변수축소 방법 및 분류 기법을 활용한 예측 모델 성능 개선 연구에 본 연구에서 제안한 변수축소 방법을 결합하여 보다 높은 정확도를 가지는 예측 모델을 생성할 수 있을 것이다. 이러한 이론적 의의들을 토대로 익명의 인터넷 사용자에 대한 인구통계특성은 클릭스트림 데이터를 통해 확인 가능하며 이를 타겟 마케팅, 개인화된 광고 등에 활용 가능하다는 점에서 실무적 시사점이 있다.

핵심어	질문	논문에서 추출한 답변
	클릭스트림 데이터에는 어떤 것들이 기록되어 있는가?	이러한 인터넷 사용자의 온라인 행위 정보는 사용자가 하나 또는 그 이상의 웹사이트를 방문한 경로를 기록한 클릭스트림 데이터를 이용하여 보다 객관적이고 정확하게 확인할 수 있으며 클릭스트림 데이터는 설문조사에서 얻을 수 없는 정보까지도 포함하고 있다는 장점을 가지고 있다. 다시 말해, 클릭스트림 데이터에는 인터넷 사용자가 어떤 사이트를 방문했는지, 특정 웹사이트를 얼마나 자주 방문했는지 등에 대한 일련의 온라인 활동들이 기록되어있다(Lourenco et al., 2011).
	웹서핑은 무엇인가?	일반적으로 웹서핑(web surfing)으로 표현되는 온라인 행위는 인터넷 사용자가 정보탐색, 온라인 구매 등의 활동을 위해 웹사이트를 방문하는 행위를 의미한다. 이러한 인터넷 사용자의 온라인 행위 정보는 사용자가 하나 또는 그 이상의 웹사이트를 방문한 경로를 기록한 클릭스트림 데이터를 이용하여 보다 객관적이고 정확하게 확인할 수 있으며 클릭스트림 데이터는 설문조사에서 얻을 수 없는 정보까지도 포함하고 있다는 장점을 가지고 있다.
	SVM의 목적은 무엇인가?	SVM(support vector machine)은 선형, 비선형을 가리지 않고 데이터를 분류할 수 있는 기법이다. 기본 원리는 목표값을 분류할 때 기준이 되는 최적의 분리경계면(hyperplane)을 찾는 것을 목적으로 한다. SVM은 일반적으로 이진 분류(binary classification) 알고리즘으로 사용되나 다분형 SVM(multi-class support vector machine)을 이용하여 다항 분류(multinominal classification)도 가능하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝
Clickstream Big Data Mining for Demographics based Digital Marketing 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (26)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 Clickstream Big Data Mining for Demographics based Digital Marketing 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (26)

이 논문을 인용한 문헌

저자의 다른 논문 :

박지애 (1) 조윤호 (29)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝
Clickstream Big Data Mining for Demographics based Digital Marketing 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper