그동안의 고객 행동에 대한 예측은 주로 고객이 가지는 고정적인 특성을 이용해왔다. 최근에는 점차 고객들의 활동이 오프라인에서 온라인으로 이동하면서 각 고객의 웹 로그를 추적하는 일이 가능해졌다. 그러나 방대한 양의 웹 로그 데이터를 수집할 수 있게 된 반면, 이에 대한 연구는 로그 데이터를 정리하거나 기술적인 특성만을 설명하는 것에 그쳤다. 본 연구에서는 웹사이트 Kaggle에서 제공하는 Airbnb 고객들의 성별, 연령 등의 기본 정보 및 웹 로그가 포함된 데이터셋을 이용하여 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하였다. Lasso, SVM, Random Forest, XGBoost 등 다양한 방법론을 활용하여 최적의 모형을 찾고, 웹 로그 데이터의 유무에 따른 예측 오차를 비교하여 웹 로그의 효용성을 확인하였다. 결과적으로 오분류율이 약 20%로 낮은 랜덤 포레스트 분류모형을 최적모형으로 선택하였다. 또한, 웹 로그 데이터를 이용하여 고객 개개인의 행동을 예측한 결과 사용하지 않은 경우와 비교해 예측의 정확도가 최대 두 배 더 높아진 것을 확인할 수 있었다.
그동안의 고객 행동에 대한 예측은 주로 고객이 가지는 고정적인 특성을 이용해왔다. 최근에는 점차 고객들의 활동이 오프라인에서 온라인으로 이동하면서 각 고객의 웹 로그를 추적하는 일이 가능해졌다. 그러나 방대한 양의 웹 로그 데이터를 수집할 수 있게 된 반면, 이에 대한 연구는 로그 데이터를 정리하거나 기술적인 특성만을 설명하는 것에 그쳤다. 본 연구에서는 웹사이트 Kaggle에서 제공하는 Airbnb 고객들의 성별, 연령 등의 기본 정보 및 웹 로그가 포함된 데이터셋을 이용하여 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하였다. Lasso, SVM, Random Forest, XGBoost 등 다양한 방법론을 활용하여 최적의 모형을 찾고, 웹 로그 데이터의 유무에 따른 예측 오차를 비교하여 웹 로그의 효용성을 확인하였다. 결과적으로 오분류율이 약 20%로 낮은 랜덤 포레스트 분류모형을 최적모형으로 선택하였다. 또한, 웹 로그 데이터를 이용하여 고객 개개인의 행동을 예측한 결과 사용하지 않은 경우와 비교해 예측의 정확도가 최대 두 배 더 높아진 것을 확인할 수 있었다.
Customers' fixed characteristics have often been used to predict customer behavior. It has recently become possible to track customer web logs as customer activities move from offline to online. It has become possible to collect large amounts of web log data; however, the researchers only focused on...
Customers' fixed characteristics have often been used to predict customer behavior. It has recently become possible to track customer web logs as customer activities move from offline to online. It has become possible to collect large amounts of web log data; however, the researchers only focused on organizing the log data or describing the technical characteristics. In this study, we predict the decision-making time until each customer makes the first reservation, using Airbnb customer data provided by the Kaggle website. This data set includes basic customer information such as gender, age, and web logs. We use various methodologies to find the optimal model and compare prediction errors for cases with web log data and without it. We consider six models such as Lasso, SVM, Random Forest, and XGBoost to explore the effectiveness of the web log data. As a result, we choose Random Forest as our optimal model with a misclassification rate of about 20%. In addition, we confirm that using web log data in our study doubles the prediction accuracy in predicting customer behavior compared to not using it.
Customers' fixed characteristics have often been used to predict customer behavior. It has recently become possible to track customer web logs as customer activities move from offline to online. It has become possible to collect large amounts of web log data; however, the researchers only focused on organizing the log data or describing the technical characteristics. In this study, we predict the decision-making time until each customer makes the first reservation, using Airbnb customer data provided by the Kaggle website. This data set includes basic customer information such as gender, age, and web logs. We use various methodologies to find the optimal model and compare prediction errors for cases with web log data and without it. We consider six models such as Lasso, SVM, Random Forest, and XGBoost to explore the effectiveness of the web log data. As a result, we choose Random Forest as our optimal model with a misclassification rate of about 20%. In addition, we confirm that using web log data in our study doubles the prediction accuracy in predicting customer behavior compared to not using it.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구에서는 각 고객의 개인적 특성뿐만 아니라 웹 로그 데이터를 추가적인 정보로 이용하여 각 고객의 특정 행동까지 걸리는 시간을 예측하고, 더 나아가 그를 이용해 고객 분류 모형을 개발하고자 한다. 2장에서는 분석에 사용된 데이터에 대해 자세히 소개하고, 웹 로그 정보를 예측 모형에 반영하기 위해 생성한 파생 변수에 대해 기술하였다.
본 연구에서는 각 고객의 정보가 포함되어 있는 데이터 테이블 및 각 고객이 온라인에서 활동한 웹 로그 자료를 이용하여 ‘첫 숙소 예약’까지 걸리는 개인의 의사 결정 시간을 예측하기로 한다.
본 연구에서는 웹사이트 Kaggle에서 제공한 Airbnb 데이터 셋(https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data)을 이용하여 개별 고객 행동에 대한 예측 모형에서의 웹 로그 데이터의 효용성에 대하여 고찰하였다. 해당 데이터셋은 고객들의 성별, 연령 등의 기본 정보 및 웹 로그 기록을 포함하며, 우리는 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하고자 한다.
해당 데이터셋은 고객들의 성별, 연령 등의 기본 정보 및 웹 로그 기록을 포함하며, 우리는 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하고자 한다. 이 과정에서 데이터를 사전에 적절하게 가공하고 반응변수와 밀접하게 관련 있는 파생변수를 가능한 많이 생성하려는 시도를 통해 예측력을 높이려 하였다. 또한 Lasso (Tibshirani, 1996), SVM (Hearst 등, 1998), RandomForest (Breiman, 2001), GBM (Friedman, 2001), XGBoost (Chen과 Guestrin, 2016) 등 다양한 방법론을 활용하여 방법론에 따른 예측 오차의 차이를 비교하여 최적의 모형을 찾고자 한다.
com/c/airbnb-recruiting-new-user-bookings/data)을 이용하여 개별 고객 행동에 대한 예측 모형에서의 웹 로그 데이터의 효용성에 대하여 고찰하였다. 해당 데이터셋은 고객들의 성별, 연령 등의 기본 정보 및 웹 로그 기록을 포함하며, 우리는 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하고자 한다. 이 과정에서 데이터를 사전에 적절하게 가공하고 반응변수와 밀접하게 관련 있는 파생변수를 가능한 많이 생성하려는 시도를 통해 예측력을 높이려 하였다.
제안 방법
1. Duration: Airbnb 데이터셋에 포함된 date-first-booking(처음 예약한 날짜) 변수와 timestamp-first-active(첫 온라인 활동 날짜 및 시간) 변수의 차이를 이용하여 Duration(온라인 활동 시작 후 처음으로 예약하는 데까지 걸리는 시간) 변수를 생성하였다. date-first-booking이 결측치인 경우는 데이터에서 제외하였다.
2. Duration group: 고객 분류를 하기 위하여 고객 그룹을 Duration을 기준으로 2개로 나누었다. Fast (2일 이내), Slow (2일 이상)으로 분류하였다.
분석 순서는 다음과 같다. Train 및 Test Dataset을 7 : 3의 비율로 나누어, Train Set에서 10-fold Cross-Validation Error를 구하였다. 이 때 Error는 root mean squared error (RMSE)이다.
웹 로그 기록이 5개 이하인 고객은 정보가 불충분하다고 생각하여 분석 대상에서 제외하였다. 각 웹 로그 활동 소요시간이 24시간 초과인 경우도 일반적이지 않다고 생각하여, 그러한 웹 로그 기록의 경우 소요시간을 24시간으로 치환하였다.
고객 그룹 간 유의한 차이를 보이는 상세활동들을 선별하기 위하여 차집합을 이용하였다. 먼저 각 그룹별로 빈도가 높은 상위 50개의 활동들을 선택한 후, 의사결정이 빠른 그룹의 활동들을 기준으로 상대적으로 의사결정이 느린 그룹이 하지 않은 활동들을 선별하고 반대의 경우도 같은 방식으로 진행하였다.
고객 웹 로그 정보 테이블에서 303개의 활동에 대한 정보를 추가적으로 반영하기 위하여 고객별로 각 활동에 대한 횟수를 세어 303개 활동의 이름을 열로 가지는 테이블을 만들었다. 그리고 주성분 분석(principal component analysis; PCA)를 이용하여 분산비가 각각 0.
고객들의 기본 정보 외에 웹 로그 데이터를 통계 모형에 반영하기 위하여 상세활동에 대한 파생 변수를 생성하기로 하였다. 고객의 duration별로 다른 값을 가지는 파생변수들을 생성하기 위해서 많은 시도를 하였고, 그 중에서 총 5가지 방법을 선별하여 모형의 예측력을 높이는 데에 기여하는 파생변수들을 생성하였다.
고객들의 기본 정보 외에 웹 로그 데이터를 통계 모형에 반영하기 위하여 상세활동에 대한 파생 변수를 생성하기로 하였다. 고객의 duration별로 다른 값을 가지는 파생변수들을 생성하기 위해서 많은 시도를 하였고, 그 중에서 총 5가지 방법을 선별하여 모형의 예측력을 높이는 데에 기여하는 파생변수들을 생성하였다. 각 파생 변수들의 생성 과정은 아래와 같다.
이 때 Error는 root mean squared error (RMSE)이다. 그리고 Train Set을 이용하여 적합한 모형으로 Test Set에서의 RMSE를 계산하였다.
이때의 ‘Error’는 오분류율(misclassification rate)이다. 그리고 Train Set을 이용하여 적합한 모형으로 Test Set에서의 오분류율을 계산하였다.
고객 웹 로그 정보 테이블에서 303개의 활동에 대한 정보를 추가적으로 반영하기 위하여 고객별로 각 활동에 대한 횟수를 세어 303개 활동의 이름을 열로 가지는 테이블을 만들었다. 그리고 주성분 분석(principal component analysis; PCA)를 이용하여 분산비가 각각 0.4955, 0.4273로 전체 분산의 약 92%를 설명하는 2개의 주성분(PC1과 PC2)을 모형의 변수로 사용하였다.
다음으로는 각 고객이 어느 Duration Group에 속하는 지를 예측하기 위한 분류 모형을 상정하였다. 분류를 위한 모형으로는 다항(multinomial) 분류모형, 라소 모형, 서포트 벡터 기계, 랜덤 포레스트 및 그래디언트 부스팅 모형, 그리고 XGBoost 모형까지 총 7가지의 모형을 고려하였다.
따라서 본 프로젝트에서는 126가지의 상세활동을 각각의 열로, 20,559개의 ID를 행으로 하는 20559 × 127 크기의 테이블을 생성하였고 (ID 열 포함, ID 열 제외시 20559 ×126), 그 값으로는 각 개인이 특정 상세활동을 한 횟수를 넣었다.
그렇다면 어떤 고객을 두 개의 그룹 중 하나로 분류하는데 있어서 상세활동 A를 한 횟수가 적을수록 상대적으로 Fast에 속할 가능성이 커질 것이고, 반대로 상세활동 A를 한 횟수가 많을수록 Slow 그룹에 속할 가능성이 높아질 것이다. 따라서 아래와 같은 알고리즘을 통해 126개 상세활동 중 그룹 별로 유의한 횟수 차이를 가질 것으로 기대되는 상세활동만을 선택하였고, 이를 최종 모형에 반영하였다.
다시 말해 고객의 예약까지 걸리는 시간이 빠를 수록 Score값이 커지는 경향이 있었다. 따라서 이 파생변수가 각 고객군의 차이를 반영한다고 판단하여 예측 모형에 사용하기로 하였다.
이 과정에서 데이터를 사전에 적절하게 가공하고 반응변수와 밀접하게 관련 있는 파생변수를 가능한 많이 생성하려는 시도를 통해 예측력을 높이려 하였다. 또한 Lasso (Tibshirani, 1996), SVM (Hearst 등, 1998), RandomForest (Breiman, 2001), GBM (Friedman, 2001), XGBoost (Chen과 Guestrin, 2016) 등 다양한 방법론을 활용하여 방법론에 따른 예측 오차의 차이를 비교하여 최적의 모형을 찾고자 한다.
본 연구에서는 각 고객의 정보가 포함되어 있는 데이터 테이블 및 각 고객이 온라인에서 활동한 웹 로그 자료를 이용하여 ‘첫 숙소 예약’까지 걸리는 개인의 의사 결정 시간을 예측하기로 한다. 또한 각 시간을 반응변수로 하는 회귀 모형과 각 고객 그룹을 반응변수로 하는 분류 모형을 상정해 다각도로 고객 행동에 대해 분석을 시도하였다. 이에 따라 먼저 회귀 및 분류 모형에 대한 반응 변수를 아래와 같이 각각 생성하였다.
고객 그룹 간 유의한 차이를 보이는 상세활동들을 선별하기 위하여 차집합을 이용하였다. 먼저 각 그룹별로 빈도가 높은 상위 50개의 활동들을 선택한 후, 의사결정이 빠른 그룹의 활동들을 기준으로 상대적으로 의사결정이 느린 그룹이 하지 않은 활동들을 선별하고 반대의 경우도 같은 방식으로 진행하였다. 이 때 선별된 12가지 활동들은 각 그룹별로 다른 특성들을 반영하는 중요 변수로 고려하였다.
본 연구에서는 주어진 웹 로그 데이터에 대한 횟수 및 소요 시간에 대한 정보는 이용하였으나, 일련의 웹 로그 활동들의 발생을 독립적으로 상정하여 각 로그 활동이 갖는 순서적 흐름(sequence)의 정보는 고려하지 않았다. 따라서 앞으로의 연구에서는 일련의 웹 로그 활동의 순서적 흐름에 대한 정보를 반영한 모형을 고려할 수 있을 것이며, 이것이 모형의 예측력을 더욱 높일 것으로 생각된다.
다음으로는 각 고객이 어느 Duration Group에 속하는 지를 예측하기 위한 분류 모형을 상정하였다. 분류를 위한 모형으로는 다항(multinomial) 분류모형, 라소 모형, 서포트 벡터 기계, 랜덤 포레스트 및 그래디언트 부스팅 모형, 그리고 XGBoost 모형까지 총 7가지의 모형을 고려하였다. 회귀 모형과 마찬가지로 각 모형에 대해 고객의 기본 정보만 이용하였을 때와 기본 정보 및 웹 로그 정보 모두를 이용하였을 때를 구분하여 결과를 정리하였으며, 분석 순서는 다음과 같다.
추가적으로 그래디언트 부스팅의 응용 모형인 XGBoost 까지 이용하여 도합 6가지의 모형을 적합하였다. 웹 로그 정보의 효용성을 알아보기 위해, 각 모형에 대해 고객의 기본 정보만 이용하였을 때와 기본 정보 및 웹 로그 정보 모두를 이용하였을 때의 두 경우로 나누어 결과를 정리하였다. 분석 순서는 다음과 같다.
기록된 웹 로그 파일에는 하나의 세션에서 얼마나 많은 시간을 보냈는 지에 대한 정보인 ‘time-elapsed’라는 변수가 존재한다. 이를 모형에 반영하기 위하여 개인이 하나의 웹 로그 상세활동을 몇 번 했는지에 대한 값에 시간을 가중치(weight)로 줄 수 있는 방법을 고안하였다. 이를 이용하여 파생 변수를 생성하는 방법은 아래와 같다.
참고로 303개의 웹 로그 활동에 대한 PC 파생 변수들이 높은 중요도를 보였기 때문에, 126개의 웹 로그 상세활동에도 PCA를 취하여서 파생변수로 추가한 후 분석해 보았다. 그 결과 Test Set에서의 오분류율이 0.
먼저 개별 고객이 최종 숙소 예약을 할 때까지 걸리는 시간을 예측하기 위해 다중 선형 회귀 모형, 라소(Lasso) 모형, 서포트 벡터 기계(support vector machine; SVM), 랜덤 포레스트(random forest) 및 그래디언트 부스팅(gradient boosting) 모형을 고려하였다. 추가적으로 그래디언트 부스팅의 응용 모형인 XGBoost 까지 이용하여 도합 6가지의 모형을 적합하였다. 웹 로그 정보의 효용성을 알아보기 위해, 각 모형에 대해 고객의 기본 정보만 이용하였을 때와 기본 정보 및 웹 로그 정보 모두를 이용하였을 때의 두 경우로 나누어 결과를 정리하였다.
• Step 3. 추출된 상세활동의 평균 횟수를 그룹별로 비교하여 선택하는데, 다음 조건 중 하나라도 만족하면 해당 상세활동을 선택한다.
분류를 위한 모형으로는 다항(multinomial) 분류모형, 라소 모형, 서포트 벡터 기계, 랜덤 포레스트 및 그래디언트 부스팅 모형, 그리고 XGBoost 모형까지 총 7가지의 모형을 고려하였다. 회귀 모형과 마찬가지로 각 모형에 대해 고객의 기본 정보만 이용하였을 때와 기본 정보 및 웹 로그 정보 모두를 이용하였을 때를 구분하여 결과를 정리하였으며, 분석 순서는 다음과 같다. Train 및 Test Dataset을 7 : 3의 비율로 나누어, Train Set에서 10-fold Cross-Validation Error를 구하였다.
대상 데이터
본 연구에서는 Kaggle에서 제공하는 Airbnb에 관한 데이터셋을 이용하였으며, 이 자료는 성별, 연령 등 각 고객의 고정적인 특성 및 각 고객의 웹 로그 기록을 모두 포함하는 자료이다 (https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data). 이 자료는 총 두 개의 데이터 테이블을 포함하고 있으며, 각 데이터 테이블에 속한 변수를 Table 2.
총 28,409명의 개별 고객 중, 기본 정보 및 웹 로그 세션 정보를 포함하며 이상치를 제외한 20,559명의 개별 고객의 데이터를 분석에 사용하였다. 기본 정보는 Table 2.
이론/모형
먼저 개별 고객이 최종 숙소 예약을 할 때까지 걸리는 시간을 예측하기 위해 다중 선형 회귀 모형, 라소(Lasso) 모형, 서포트 벡터 기계(support vector machine; SVM), 랜덤 포레스트(random forest) 및 그래디언트 부스팅(gradient boosting) 모형을 고려하였다. 추가적으로 그래디언트 부스팅의 응용 모형인 XGBoost 까지 이용하여 도합 6가지의 모형을 적합하였다.
반면 분류모형의 경우 회귀 모형과 마찬가지로 모형 간의 예측력이 큰 차이는 없었으나, 2개 범주에 대한 분류 모형 문제에서 예측치에 대해 무작위로 하나의 범주를 부여할 시 오분류율의 기댓값이 50% 인 것을 고려했을 때 예측 모형의 성과가 있다고 말할 수 있다. 우리는 최종모형으로 랜덤 포레스트 분류모형을 선택하였으며, 이 때 오분류율은 20.85%였다. 그리고 변수 중요도 그림을 통해 활동 정보를 활용한 것이 모형 예측력 향상에 도움이 되고, 생성한 Scores 파생변수 역시 고객 그룹을 분류하는 데에 주요 변수로 작용한 것을 확인할 수 있었다.
성능/효과
9355로 가장 낮다. Stepwise Regression을 이용하여 다중 선형 회귀분석을 한 결과, at-checkpoint와 p5의 상세활동을 많이 할수록 예약을 빠른 시일 내에 하는 경향이 있었다. 반대로 message-to-host-focus, manage-listing, list-yourspace, listing-reviews-page, create-phone-numbers의 상세활동을 많이 할수록 예약을 결정할 때까지 시간이 더 많이 걸리는 경향이 있는 것을 알 수 있었다.
참고로 303개의 웹 로그 활동에 대한 PC 파생 변수들이 높은 중요도를 보였기 때문에, 126개의 웹 로그 상세활동에도 PCA를 취하여서 파생변수로 추가한 후 분석해 보았다. 그 결과 Test Set에서의 오분류율이 0.2049로 1% 미만의 미미한 향상력을 보였다. 또한, 상세활동에 대한 다른 파생변수를 사용하지 않고, 웹 로그 상세활동 및 활동속성에 대한 PC 파생 변수들만 사용한 경우의 오분류율은 0.
85%였다. 그리고 변수 중요도 그림을 통해 활동 정보를 활용한 것이 모형 예측력 향상에 도움이 되고, 생성한 Scores 파생변수 역시 고객 그룹을 분류하는 데에 주요 변수로 작용한 것을 확인할 수 있었다. 또한 적극적인 행동과 관련된 상세활동들이 의사결정을 빨리 하는 그룹의 특징을 잘 보여주는 변수임을 확인하였다.
1의 변수 중요도 그림에서 상위 5개의 변수가 모두 웹 로그 활동 또는 이에 대한 파생변수라는 점이다. 그리고 웹 로그 데이터를 이용하여 고객 개개인의 행동을 예측한 결과 웹 로그를 사용하지 않은 경우와 비교해 예측의 정확도가 최대 두 배 더 높아졌다. 이는 웹 로그가 개개인 행동 양상을 파악하여 의사결정을 예측하는 데에 중요하게 활용될 수 있음을 시사한다.
그리고 변수 중요도 그림을 통해 활동 정보를 활용한 것이 모형 예측력 향상에 도움이 되고, 생성한 Scores 파생변수 역시 고객 그룹을 분류하는 데에 주요 변수로 작용한 것을 확인할 수 있었다. 또한 적극적인 행동과 관련된 상세활동들이 의사결정을 빨리 하는 그룹의 특징을 잘 보여주는 변수임을 확인하였다.
2049로 1% 미만의 미미한 향상력을 보였다. 또한, 상세활동에 대한 다른 파생변수를 사용하지 않고, 웹 로그 상세활동 및 활동속성에 대한 PC 파생 변수들만 사용한 경우의 오분류율은 0.2258로 모형의 예측력이 다소 하락한 것을 확인하였다.
따라서 모형의 종류와 상관없이 웹 로그 정보는 예측 정확도를 향상시킨다고 할 수 있다. 모형에 따른 RMSE를 비교한 결과 Train Set에서 GBM의 10-Fold CV RMSE가 83.9581로 가장 낮고, Test Set에서는 Multiple Linear의 RMSE가 84.9355로 가장 낮다. Stepwise Regression을 이용하여 다중 선형 회귀분석을 한 결과, at-checkpoint와 p5의 상세활동을 많이 할수록 예약을 빠른 시일 내에 하는 경향이 있었다.
Stepwise Regression을 이용하여 다중 선형 회귀분석을 한 결과, at-checkpoint와 p5의 상세활동을 많이 할수록 예약을 빠른 시일 내에 하는 경향이 있었다. 반대로 message-to-host-focus, manage-listing, list-yourspace, listing-reviews-page, create-phone-numbers의 상세활동을 많이 할수록 예약을 결정할 때까지 시간이 더 많이 걸리는 경향이 있는 것을 알 수 있었다.
서포트 벡터 기계의 경우는 Train Data와 Test Data 모두에서 다중 선형 회귀 모형의 RMSE보다 높은 RMSE값을 보였다. 반면 분류모형의 경우 회귀 모형과 마찬가지로 모형 간의 예측력이 큰 차이는 없었으나, 2개 범주에 대한 분류 모형 문제에서 예측치에 대해 무작위로 하나의 범주를 부여할 시 오분류율의 기댓값이 50% 인 것을 고려했을 때 예측 모형의 성과가 있다고 말할 수 있다. 우리는 최종모형으로 랜덤 포레스트 분류모형을 선택하였으며, 이 때 오분류율은 20.
2는 웹 로그 정보를 이용하였을 때와 그렇지 않았을 때 Train Set과 Test Set에서 각 모형의 오분류율을 정리한 결과이다. 여기서 주목할 만한 점은 고객 기본 정보만 모형을 적합한 경우는 Test Set에서 모형에 상관없이 오분류율이 40% 이상인 것에 비해 고객 기본 정보에 추가적으로 웹 로그 데이터까지 추가적으로 이용하여 모형을 적합한 경우, 모형의 종류에 상관없이 오분류율이 23% 미만으로 이전보다 최소 17% 이상, 최대 두 배 정도 감소한다는 점이다. 따라서 분류 모형에서도 모형의 종류와 상관없이 웹 로그 정보는 예측 정확도를 향상시킨다고 할 수 있다.
이를 살펴보면 실제 2476명의 ‘Fast’ 그룹 고객 중 64.62%를 ‘Fast’ 그룹으로 제대로 분류하였고, 35.38%를 ‘Slow’ 그룹으로 잘못 분류한 것을 알 수 있다.
그러나 모형 간에 큰 차이가 없었으며, 이를 통해 이 데이터를 이용하여 회귀 모형을 적합하여 예측하는 것에는 한계가 있다고 판단하였다. 특히 부스팅 모형과 같이 복잡한 모형이 Test Data에서는 다중 선형 회귀 모형 보다도 성능이 더 안 좋은 것을 통해 모형의 복잡성이 이 데이터에서 예측의 정확도에 기여하지 않는다는 것을 알 수 있었다. 서포트 벡터 기계의 경우는 Train Data와 Test Data 모두에서 다중 선형 회귀 모형의 RMSE보다 높은 RMSE값을 보였다.
후속연구
본 연구에서는 주어진 웹 로그 데이터에 대한 횟수 및 소요 시간에 대한 정보는 이용하였으나, 일련의 웹 로그 활동들의 발생을 독립적으로 상정하여 각 로그 활동이 갖는 순서적 흐름(sequence)의 정보는 고려하지 않았다. 따라서 앞으로의 연구에서는 일련의 웹 로그 활동의 순서적 흐름에 대한 정보를 반영한 모형을 고려할 수 있을 것이며, 이것이 모형의 예측력을 더욱 높일 것으로 생각된다.
본 분석에서는 반응변수로 ‘예약까지 걸리는 시간’을 설정하였지만 기업의 필요에 따라 원하는 반응변수를 매번 새로 설정하는 것이 가능하므로 개인의 행동을 예측하는 측면에 있어서는 더 많은 분야에서 활용이 가능하다.
본 분석에서는 반응변수로 ‘예약까지 걸리는 시간’을 설정하였지만 기업의 필요에 따라 원하는 반응변수를 매번 새로 설정하는 것이 가능하므로 개인의 행동을 예측하는 측면에 있어서는 더 많은 분야에서 활용이 가능하다. 이를 통해 기업은 특정 고객을 상대(예. 의사 결정에 소요되는 시간이 애매한 고객들)로 더 활발한 프로모션을 진행하는 등 더욱 생산적인 마케팅 전략을 세울 수 있을 것이다. 또한 각 웹 로그 기록 시각, 예약의 목적, 예약 기간 등 다양하고 많은 정보를 가지고 있는 고질의 데이터가 아닌 한정적인 양의 정보를 지닌 데이터만을 이용하여 예측력을 개선하였다는 점에서도 의의를 갖는다.
질의응답
핵심어
질문
논문에서 추출한 답변
구글 플루 트렌드가 실패한 원인은 무엇인가?
이는 2008년 구글에 의하여 처음으로 시작된 프로젝트로 온라인 사용자들의 검색 기록을 이용하여 플루에 대한 예측을 하고자 하는 좋은 시도였지만 실제보다 두 배 이상 과대추정(overestimation)하는 등 목적에 걸맞은 정확한 예측을 하지 못하고 막을 내렸다. GFT의 실패의 원인으로는 플루(Flu)와 연결된 적절한 검색어를 사용하지 못한 것이 언급된다(Harford, 2014).
전통적으로 고객 행동에 대한 예측 대상은 무엇이었는가?
전통적으로 고객 행동에 대한 예측은 주로 고객이 가지는 고정적인 특성을 이용해왔으며, 예측의 대상은 고객의 특성에 따라 분류되는 ‘평균적인 고객’의 행동이었다. 그러나 빅데이터 시대가 도래하면서 방대한 양의 정보가 사용 가능해지고 각 고객 정보에 대한 기록이 용이해짐에 따라, 마케팅 분야에서 고객 행동에 대한 예측이 새로운 화두로 떠올랐다 (Pandagre와 Veenadhari, 2017).
웹 로그 데이터란 무엇인가?
웹 로그 데이터는 고객이 웹사이트에 접속하여 클릭함으로써 생성되는 모든 데이터에 대한 기록이다. 기록되는 형식에 따라 차이는 있지만, 일반적으로는 언제 접속했는지, 어디에서 접속했는지(IP주소), 어떤 방법으로 방문했는지, 어떤 브라우저(사파리, 익스플로러 등)를 통해 접속했는지, 어떤 페이지를 로딩했는지 등의 정보를 포함한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.