본 연구의 목적은 효과적인 마케팅전략 수립에 도움이 되는 정보를 제공하는 데 있다. 이를 위하여 화장품구매 자료로부터 고객 구매형태와 재구매 간의 관계를 분석하여 고객충성도 예측모형을 개발하였다. 고객충성도는 재구매 가능성으로 측정하였다. 본 연구에서 사용된 자료는 국내의 한 화장품회사 고객들의 2000년부터 2008년까지 9년간의 구매자료 (432,528명, 2,440,107건)이다. 예측모형의 목표변수는 재구매 유무이고, 설명변수는 구매수량, 구매액, 휴면기간 등의 기본변수와 구매횟수와 거래 일자를 이용한 가공변수들이다. 충성도 예측모형은 데이터마이닝 기법인 로지스틱회귀, 의사결정나무 및 신경망모형을 사용하였다. 예측모형평가의 측도로는 하이드게 점수를 사용하였으며, 최대의 하이드게 점수를 가지는 분계점을 선택하였다. 각예측모형에서 선택된 변수는 유사하며, 모형비교 결과 세 모형의 효율과 평가측도의 차이는 크지 않았다. 정분류율이 다소 높고 해석과 활용이 쉬운 의사결정나무모형을 최종모형으로 선택했다.
본 연구의 목적은 효과적인 마케팅전략 수립에 도움이 되는 정보를 제공하는 데 있다. 이를 위하여 화장품구매 자료로부터 고객 구매형태와 재구매 간의 관계를 분석하여 고객충성도 예측모형을 개발하였다. 고객충성도는 재구매 가능성으로 측정하였다. 본 연구에서 사용된 자료는 국내의 한 화장품회사 고객들의 2000년부터 2008년까지 9년간의 구매자료 (432,528명, 2,440,107건)이다. 예측모형의 목표변수는 재구매 유무이고, 설명변수는 구매수량, 구매액, 휴면기간 등의 기본변수와 구매횟수와 거래 일자를 이용한 가공변수들이다. 충성도 예측모형은 데이터마이닝 기법인 로지스틱회귀, 의사결정나무 및 신경망모형을 사용하였다. 예측모형평가의 측도로는 하이드게 점수를 사용하였으며, 최대의 하이드게 점수를 가지는 분계점을 선택하였다. 각예측모형에서 선택된 변수는 유사하며, 모형비교 결과 세 모형의 효율과 평가측도의 차이는 크지 않았다. 정분류율이 다소 높고 해석과 활용이 쉬운 의사결정나무모형을 최종모형으로 선택했다.
In micro marketing promotion, it is important to know the behavior of customers. In this study we are interested in the forecasting of repurchase of customers from customers' behavior. By analyzing the cosmetic transaction data we derive some variables which play an important role in the knowledge o...
In micro marketing promotion, it is important to know the behavior of customers. In this study we are interested in the forecasting of repurchase of customers from customers' behavior. By analyzing the cosmetic transaction data we derive some variables which play an important role in the knowledge of the customers' behavior and in the modeling of repurchase. As modeling tools we use the decision tree, logistic regression and neural network model. Finally we decide to use the decision tree as a final model since it yields the smallest RASE (root average squared error) and the greatest correct classification rate.
In micro marketing promotion, it is important to know the behavior of customers. In this study we are interested in the forecasting of repurchase of customers from customers' behavior. By analyzing the cosmetic transaction data we derive some variables which play an important role in the knowledge of the customers' behavior and in the modeling of repurchase. As modeling tools we use the decision tree, logistic regression and neural network model. Finally we decide to use the decision tree as a final model since it yields the smallest RASE (root average squared error) and the greatest correct classification rate.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
고객 데이터 분석을 위한 중요 기술 중 하나가 데이터마이닝 기법이다. 이 기법을 통하여 기업이 보유하고 있는 일일 거래자료, 고객자료, 상품자료, 마케팅활동의 피드백 자료와 기타 외부자료를 포함하여 사용 가능한 데이터를 기반으로 숨겨진 지식, 패턴, 법칙과 관계를 발견하고 이를 실제 경영에서 의사결정을 위한 정보로 활용하고자 하는 것이다 (백신정, 2004). 또 다른 데이터마이닝과 CRM에 관한 연구로는 전성해 등 (2008)과 이도현 (2000) 등이 있다.
본 연구에서는 화장품회사의 고객 구매자료를 이용하여 제품을 한번 혹은 그 이상 구매를 일으킨 기존고객을 대상으로 고객 구매행태와 재구매 간의 관계를 분석하여 얻어진 결과, 재구매 가능성 즉, 충성도를 예측하는 충성도 예측모형을 개발하여 효과적인 마케팅 수립에 도움이 되는 정보를 제공하고자 한다.
제안 방법
원 자료는 2000년부터 2008년까지 9년간의 구매정보로 고객 구매자료 (432,528명, 2,440,107건)와 제품에 대한 정보를 나타내는 제품자료로 구성되어있다. 분석에 사용된 자료는 고객 구매자료를 기준으로 하되 제품자료로부터 고객이 구매한 제품품목에 대한 정보를 추가하였다. 분석용 자료의 변수는 크게 고객 신상정보와 구매정보로 나누어지며 표 2.
원 자료에서 구매액이 음의 값을 갖는 경우는 환불 혹은 오기로 판단하여 제거하였다. 또한 고객을 기준으로 평균 구매수량, 총 구매수량, 평균 구매금액, 총 구매금액이 각 변수의 상위 0.5%인 8.80, 63개, 980,000원, 6,963,000원을 초과하는 조건 중 하나라도 만족하게 되면 비정상적인 구매로 판단하여 제거하였다. 제거된 결과 제거된 고객 수는 2,431명이고 남은 고객 수는 430,076로 전체고객 수의 약 0.
원 자료로부터 분석에 사용할 자료와 변수를 생성하였다. 분석에 사용할 자료는 기준시점을 정하고, 기준시점 이전 3년간의 고객들을 대상으로 구매행태 및 나이와 기준시점 이후 1년간의 재구매 여부를 나타내는 변수로 구성하였다. 기준시점은 화장품의 특성상 계절효과를 고려한 2004년 6월 30일부터 2007년 3월 30일까지 3개월 단위로 정하였으며, 전부 12개의 시점, 각 분기당 3개의 시점이다.
또한 군집분석을 통하여 지역변수를 생성하였다. 지역변수 (region)는 17개의 지역으로 구분되어 있는 범주형 변수이다.
지역변수 (region)는 17개의 지역으로 구분되어 있는 범주형 변수이다. 지역의 경제적 특성과 지리적 특성 등으로 구매형태가 다를 것으로 예상하여 비슷한 특성을 지닌 지역끼리 묶어 분석을 용이하게 하고자 군집분석 (허명회 등, 2007)을 이용해 항목을 줄였으며 구매형태에 관련된 평균 구매수량, 평균구매액, 총구매액, 나이 및 ratio가 사용되었다. ratio는 지역별 총 인구 중 제품을 구매한 인구가 얼마나 되는지에 대한 비를 나타내며 지역이 결측값을 갖는 경우는 “ratio=결측을 제외한 구매고객 수/전체 인구 수 ”로 계산하였으며, 지역별 총 인구 수는 2008년 통계청 홈페이지에서 제공한 자료를 이용하였다.
분석자료에 포함된 변수들을 이용하여 재구매 유무를 예측할 수 있는 모형을 개발하였다. 구매횟수가 1회인 경우 변수 생성과정에서 구매행태에 대한 변수가 결측이 많이 나타나고 있어 좋은 예측모형을 기대할 수 없으므로 총 구매횟수가 2회 이상인 고객들을 대상으로 예측모형을 개발하기로 한다.
예측모형으로는 의사결정나무모형과 로지스틱회귀모형 및 신경망모형을 사용하였다. 전체 자료를 훈련용 40%, 검증용 30%, 평가용 30%로 분할하여 모형의 훈련과 검증 및 모형비교를 위한 평가용으로 활용하였다.
각 모형에서 재구매 확률 또는 점수를 계산하고 주어진분계점에 따라 표 3.1과 같이 정오분류표를 작성하여 예측성평가를 하였다. 본 연구에서는 Sohn과 Lee (2006)에서 언급한 하이드게 점수인 HSS (Heidke, 1926)가 최대가 되도록 분계점을 정하였다.
HSS는 모형에 의한 예측이 임의예측보다 나은 정도를 나타내는 값이다. 본 연구에서는 검증용 자료를 사용하여 HSS를 최대로 하는 분계점을 선택하였다.
본 연구는 화장품 구매자료를 이용하여 과거 3년의 구매행태를 분석하여 이를 바탕으로 향후 1년 이내의 재구매 여부를 예측하는 모형을 개발하기 위해 의사결정나무모형과 로지스틱회귀모형 및 신경망모형을 이용하였다.
2와 같다. 각 변수들에 대한 특징을 살펴보고, 재구매 유무에 따른 평균비교와 상관분석을 통하여 재구매에 유의한 영향을 주는 변수를 살펴보았다. 로지스틱회귀모형과 신경망 모형을 위해 그래프를 이용하여 선형화 한 변수를 사용하였으며 세 모형에서 재구매에 유의한 영향을 주는 변수는 비슷한 것으로 나타났다.
각 모형별로 재구매자를 재구매자로 분류하는 비율은 신경망모형이 우수하게 나타났다. 세 모형비교에서 결과적으로 각 측도간의 차이는 크지 않게 나타나지만 의사결정나무모형이 다소 우수한 것으로 나타났고 해석과 활용이 쉬운 모형이므로 최종모형으로 선택하였다.
대상 데이터
원 자료는 2000년부터 2008년까지 9년간의 구매정보로 고객 구매자료 (432,528명, 2,440,107건)와 제품에 대한 정보를 나타내는 제품자료로 구성되어있다. 분석에 사용된 자료는 고객 구매자료를 기준으로 하되 제품자료로부터 고객이 구매한 제품품목에 대한 정보를 추가하였다.
분석에 사용할 자료는 기준시점을 정하고, 기준시점 이전 3년간의 고객들을 대상으로 구매행태 및 나이와 기준시점 이후 1년간의 재구매 여부를 나타내는 변수로 구성하였다. 기준시점은 화장품의 특성상 계절효과를 고려한 2004년 6월 30일부터 2007년 3월 30일까지 3개월 단위로 정하였으며, 전부 12개의 시점, 각 분기당 3개의 시점이다. 12개의 기준시점 각각에 따라 만들어진 자료를 합하여 구성한 분석자료의 자료 수는 2,526,550건으로 총 구매횟수가 1인 고객에 대한 자료의 수가 1,451,264명이고, 총 구매횟수가 2회 이상인 고객에 대한 자료의 수는 1,075,286건이다.
모형개발을 위해 사용된 자료는 총 9년간의 고객 구매자료이며, 이용된 변수는 표 2.2와 같다. 각 변수들에 대한 특징을 살펴보고, 재구매 유무에 따른 평균비교와 상관분석을 통하여 재구매에 유의한 영향을 주는 변수를 살펴보았다.
데이터처리
43%로서 카이제곱 통계량과 지니지수인 경우 같게 나왔으며 엔트로피지수를 사용할 경우 다소 나쁘게 나타났다. 이를 토대로 보편적으로 사용되고 있는 카이제곱 통계량을 분리기준으로 사용하였으며 분리를 위한 유의수준은 0.2로 하였다.
각 모형에서 재구매에 대한 점수를 계산하고 최적의 분계점은 찾기 위해 HSS를 이용하였으며, 검증용자료에서 HSS 값을 최대로 하는 분계점을 기준으로 평가용자료에 적용하여 정분류표를 작성하였고, 예측성 평가를 하였다. 세 모형의 분계점을 의사결정나무모형과 신경망 모형이 0.
이론/모형
구매횟수가 1회인 경우 변수 생성과정에서 구매행태에 대한 변수가 결측이 많이 나타나고 있어 좋은 예측모형을 기대할 수 없으므로 총 구매횟수가 2회 이상인 고객들을 대상으로 예측모형을 개발하기로 한다. 예측모형으로는 의사결정나무모형과 로지스틱회귀모형 및 신경망모형을 사용하였다. 전체 자료를 훈련용 40%, 검증용 30%, 평가용 30%로 분할하여 모형의 훈련과 검증 및 모형비교를 위한 평가용으로 활용하였다.
1과 같이 정오분류표를 작성하여 예측성평가를 하였다. 본 연구에서는 Sohn과 Lee (2006)에서 언급한 하이드게 점수인 HSS (Heidke, 1926)가 최대가 되도록 분계점을 정하였다. HSS는 다음과 같은 식으로 정의된다.
신경망모형의 구조는 하나의 입력층과 하나의 은닉층 그리고 하나의 출력층으로 구성하였으며 활성함수 (activation function)는 Hyperbolic Tangent함수를 사용하였다. 은닉층의 뉴런수를 결정하기 위해 여러 뉴런 수에 대해 신경망에 적합시킨 결과는 표 3.
성능/효과
80, 63개, 980,000원, 6,963,000원을 초과하는 조건 중 하나라도 만족하게 되면 비정상적인 구매로 판단하여 제거하였다. 제거된 결과 제거된 고객 수는 2,431명이고 남은 고객 수는 430,076로 전체고객 수의 약 0.56%가 제거되었다. 원 자료로부터 분석에 사용할 자료와 변수를 생성하였다.
59원으로 나타났다. 제품별 총 구매수량의 평균은 Basic이 2.78로 가장 높고 제품별 마지막 구매 시 구매수량 또한 Basic이 1.03으로 가장 높게 나타났다. 평균 휴면기간은 약 355.
의사결정나무모형 구축을 위해서 분리기준으로 카이제곱 통계량과 엔트로피 지수 및 지니지수를 사용해 본 결과 정분류율이 각각 74.43%, 74.02%, 74.43%로서 카이제곱 통계량과 지니지수인 경우 같게 나왔으며 엔트로피지수를 사용할 경우 다소 나쁘게 나타났다. 이를 토대로 보편적으로 사용되고 있는 카이제곱 통계량을 분리기준으로 사용하였으며 분리를 위한 유의수준은 0.
1은 분석결과의 나무구조를 나타내며, distance, total_acount, cy가 재구매를 예측하는데 중요한 변수임을 알 수 있다. 훈련용 자료, 검증용 자료에서 HSS를 최대로 하는 분계점은 모두 0.39로 동일했으며, 정분류율은 훈련용 자료에서 약 74.42%, 검증용 자료의 분계점을 토대로 한 평가용 자료에서 약 74.43%였다. 평가용 자료에 대한 재구매 유무 예측결과는 표 3.
3과 같이 변수를 생성하였다. 휴면기간은 지수함수로 적합하였으며 총 구매수량은 2차함수로, 구매횟수와 나이는 각각 지수함수와 4차함수로 적합하였다. 구매주기는 다른 변수와 달리 두 부분으로 나눠지는 것을 그림을 통해 확인하였고, 1차와 3차로 기준을 달리하여 적합 한 뒤 SSE의 합이 가장 적은 40.
휴면기간은 지수함수로 적합하였으며 총 구매수량은 2차함수로, 구매횟수와 나이는 각각 지수함수와 4차함수로 적합하였다. 구매주기는 다른 변수와 달리 두 부분으로 나눠지는 것을 그림을 통해 확인하였고, 1차와 3차로 기준을 달리하여 적합 한 뒤 SSE의 합이 가장 적은 40.5세를 기준으로 40세보다 작거나 같은 쪽은 1차로 적합하고 40세보다 큰 쪽은 3차로 적합하였다.
훈련용 자료와 검증용 자료에서의 HSS를 최대로 하는 분계점은 각각 0.44와 0.43이었으며, 훈련용 자료에서 정분류율은 73.76%였으며, 검증용 자료의 분계점을 토대로 한 평가용 자료에 대한 재구매 유무를 예측한 결과는 표 3.5의 정오분류표와 같고 정분류율은 73.64%이다.
최종 신경망모형에 대한 적합결과 훈련용자료, 검증용자료에서 HSS를 최대로 하는 분계점은 각각 0.42, 0.41이며, 훈련용자료에서 정분류율 약 74.11%, 검증용자료의 분계점을 토대로 한 평가용자료에서의 정분류율은 약 73.94%로 나타났다. 평가용자료에 대한 재구매 유무를 예측한 결과 정오분류표는 표 3.
8과 같다. 각 모형의 HSS를 최대로 하는 검증용자료의 분계점은 각각 0.40, 0.43 그리고 0.40으로 의사결정나무모형과 신경망 모형이 같으며 로지스틱회귀모형이 약간 높게 나타나고 있지만 크게 차이가 나지 않게 선택되었다. 세 모형의 평가용자료로부터 제곱근평균제곱오차 (Root ASE)를 비교해 보면 의사결정나무모형이 0.
40으로 의사결정나무모형과 신경망 모형이 같으며 로지스틱회귀모형이 약간 높게 나타나고 있지만 크게 차이가 나지 않게 선택되었다. 세 모형의 평가용자료로부터 제곱근평균제곱오차 (Root ASE)를 비교해 보면 의사결정나무모형이 0.4201로 로지스틱회귀모형 (0.4315)와 신경망모형 (0.4303)보다 작으므로 조금 우수한 것으로 나오며, 평가용자료의 정분류율 또한 의사결정나무모형에서 약74.43%로 다른 두 모형 보다 우수한 것으로 나타났다. 신경망모형의 성능은 각 측도에서 중간을 차지하고 있다.
각 변수들에 대한 특징을 살펴보고, 재구매 유무에 따른 평균비교와 상관분석을 통하여 재구매에 유의한 영향을 주는 변수를 살펴보았다. 로지스틱회귀모형과 신경망 모형을 위해 그래프를 이용하여 선형화 한 변수를 사용하였으며 세 모형에서 재구매에 유의한 영향을 주는 변수는 비슷한 것으로 나타났다.
각 모형에서 재구매에 대한 점수를 계산하고 최적의 분계점은 찾기 위해 HSS를 이용하였으며, 검증용자료에서 HSS 값을 최대로 하는 분계점을 기준으로 평가용자료에 적용하여 정분류표를 작성하였고, 예측성 평가를 하였다. 세 모형의 분계점을 의사결정나무모형과 신경망 모형이 0.40으로 동일하며 로지스틱 모형이 0.43으로 나타났다.
세 모형을 비교해 보면 HSS는 검증용자료와 평가용자료 모두 의사결정나무모형이 높게 나왔으며, 검증용자료의 분계점을 기준으로 평가용자료의 정분류율은 의사결정나무모형이 약 74.43%로 가장 높고, 다음으로 신경망모형이 약 73.74%로 나왔고 로지스틱회귀모형이 약 73.64%로 가장 낮게 나타났다. 각 모형별로 재구매자를 재구매자로 분류하는 비율은 신경망모형이 우수하게 나타났다.
후속연구
현재 고객이 미래에 다시 제품을 구매할 가능성을 고객의 충성도라고 정의할 때 고객의 충성도는 고객의 구매행태나 인구통계학적 특성에 따라 결정될 것이다. 기업이 각 고객의 충성도인 재구매 가능성 여부에 따른 차별화된 마케팅 전략을 사용함으로써 비용을 줄임은 물론 보다 좋은 판매효과를 통한 이익의 극대화를 기대해 볼 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
고객의 충성도는 어떤 특성에 따라 결정되나요?
고객유지를 위해서는 고객정보 혹은 고객의 구매행태로부터 고객들을 잘 파악하여 그에 맞는 마케팅 적용이 필요하다. 현재 고객이 미래에 다시 제품을 구매할 가능성을 고객의 충성도라고 정의할 때 고객의 충성도는 고객의 구매행태나 인구통계학적 특성에 따라 결정될 것이다. 기업이 각 고객의 충성도인 재구매 가능성 여부에 따른 차별화된 마케팅 전략을 사용함으로써 비용을 줄임은 물론 보다 좋은 판매효과를 통한 이익의 극대화를 기대해 볼 수 있을 것이다.
CRM 활동의 구체적 목표는 어떻게 나눌 수 있나요?
CRM 활동의 구체적 목표는 고객정보의 체계적 분석과 이에 근거한 영업 및 마케팅 활용시스템의 구축을 통해 기존고객의 유지, 신규고객 확보, 고객의 평생가치 극대화로 나눌 수 있다 (당현준, 2003; Ko와 Lee, 2006). 기존고객과의 좋은 관계유지를 통해 얻을 수 있는 이익이 신규고객으로부터 얻는 이익에 비해 매우 크므로 CRM의 주된 대상은 기존고객이라고 할 수 있다.
데이터마이닝 기법을 통해 무엇을 발견하고, 실제 경영에서 어덯게 활용하고자 하나요?
고객 데이터 분석을 위한 중요 기술 중 하나가 데이터마이닝 기법이다. 이 기법을 통하여 기업이 보유하고 있는 일일 거래자료, 고객자료, 상품자료, 마케팅활동의 피드백 자료와 기타 외부자료를 포함하여 사용 가능한 데이터를 기반으로 숨겨진 지식, 패턴, 법칙과 관계를 발견하고 이를 실제 경영에서 의사결정을 위한 정보로 활용하고자 하는 것이다 (백신정, 2004). 또 다른 데이터마이닝과 CRM에 관한 연구로는 전성해 등 (2008)과 이도현 (2000) 등이 있다.
참고문헌 (12)
김순귀, 정동빈, 박영술 (2003). , SPSS 아카데미, 서울.
당현준 (2003). , 석사학위논문, 이화여자대학교, 서울.
백신정 (2004). , 석사학위논문, 고려대학교, 서울.
이도현 (2000). 데이터마이닝을 이용한 CRM, , 18, 4-11.
전성해, 김승화, 전홍석 (2008). , 자유아카데미, 서울.
최종후, 한상태, 강현철, 김은석 (1998). , 고려정보산업, 서울.
허명회, 양경숙 (2007). , SPSS 아카데미, 서울.
Cho, M. H. and Park, E. S. (2008). Analyzing customer management data by data mining: Case study on churn prediction models for insurance company in Korea. Journal of the Korean Data & Information Science Society, 19, 1007-1018.
Strauss, J., Ansary, A. E. and Frost, R. (2001). E-Marketing, Prentice Hall.
Ko, B. S. and Lee, S. W. (2006). Customer behavior analysis on mobile advertisement. Journal of the Korean Data & Information Science Society, 17, 1251-1259.
Sohn, K. T. and Lee, E. H. (2006). Guidance on choice of skill score for determination of thresholds in ternary forecast. Journal of the Korean Data Analysis Society, 8, 2553-2565.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.