본 연구에서는 RFM 분석을 통하여 전체 고객들을 점수화(scoring)하고 이를 다시 5개의 그룹 (최우수그룹, 우수그룹, 일반그룹, 하위그룹, 최하위그룹)으로 세분화하고, 세분그룹별 유의성을 검정한다. 이렇게 분류된 5개의 세분화그룹들은 연관분석과 의사결정나무 등을 통하여 고객들의 인구학적 변수와 자 그룹별 유의한 변수들의 패턴을 찾아냄으로써 우수 고객들을 유지하기 위해 서는 어떻게 해야 하며, 경쟁업체로 떠날 가능성이 높은 고객은 누구이며, 이러한 이유가 무엇인지에 대하여 효과적인 분석을 할 수 있는 기반이 조성된다. 본 연구의 목적은 통하여 연관규칙(association rules)과 의사결정나무(decision tree)를 비친 분석을 함으로써, 이론적으로 설명할 수 없는 복잡한 세분그룹의 특성들에 대해 효과적으로 파악하는 방법을 제시하는 것이다.
본 연구에서는 RFM 분석을 통하여 전체 고객들을 점수화(scoring)하고 이를 다시 5개의 그룹 (최우수그룹, 우수그룹, 일반그룹, 하위그룹, 최하위그룹)으로 세분화하고, 세분그룹별 유의성을 검정한다. 이렇게 분류된 5개의 세분화그룹들은 연관분석과 의사결정나무 등을 통하여 고객들의 인구학적 변수와 자 그룹별 유의한 변수들의 패턴을 찾아냄으로써 우수 고객들을 유지하기 위해 서는 어떻게 해야 하며, 경쟁업체로 떠날 가능성이 높은 고객은 누구이며, 이러한 이유가 무엇인지에 대하여 효과적인 분석을 할 수 있는 기반이 조성된다. 본 연구의 목적은 통하여 연관규칙(association rules)과 의사결정나무(decision tree)를 비친 분석을 함으로써, 이론적으로 설명할 수 없는 복잡한 세분그룹의 특성들에 대해 효과적으로 파악하는 방법을 제시하는 것이다.
Huge information has been made due to the current computing environment and could not be acceptable. People want the information which they can understand and accept easily. They may want not only simple information but also knowledge. That is why data mining becomes a center of information. We use ...
Huge information has been made due to the current computing environment and could not be acceptable. People want the information which they can understand and accept easily. They may want not only simple information but also knowledge. That is why data mining becomes a center of information. We use RFM analysis in order to create customer score. Customers are classified into five groups(most oxcellenrexcellenycommoflowerilowest) for a various marketing activities. We can found the significant patterns in each group, and classify customers from loyal customers to leaving customers in the near future by the indirect data mining(e.g. association analysis) and the direct data mining(e.g. decision tree, logistic regression analysis, etc.), which are named in this study. Our research focuses on the advanced models by applying the association rules in data mining. Our results indicate that the indirect data mining and the direct data mining seem to have same outputs, but the former shows more clear pattern then the latter one.
Huge information has been made due to the current computing environment and could not be acceptable. People want the information which they can understand and accept easily. They may want not only simple information but also knowledge. That is why data mining becomes a center of information. We use RFM analysis in order to create customer score. Customers are classified into five groups(most oxcellenrexcellenycommoflowerilowest) for a various marketing activities. We can found the significant patterns in each group, and classify customers from loyal customers to leaving customers in the near future by the indirect data mining(e.g. association analysis) and the direct data mining(e.g. decision tree, logistic regression analysis, etc.), which are named in this study. Our research focuses on the advanced models by applying the association rules in data mining. Our results indicate that the indirect data mining and the direct data mining seem to have same outputs, but the former shows more clear pattern then the latter one.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
, 2001). RFM 분석을 통하여 고객을 세분화한 자료를 기초로 데이터마이닝 기법들을 통하여 추론규칙(induction rule)에 의해서 분류(classification)를 수행한 결과물을 갖고 고객 프로파일링을 실시하고자 한다.
본 연구에서 사용되는 자료는 K기관에서 운영하고 있는 홈페이지의 고객자료를 바탕으로 고객분석을 실시하고, 분석된 고객들의 인구학적 특성을 통하여 고객 세분화를 함으로써 효율적인 마케팅 전략을 돕고자 한다. 특히 본 연구는 RFM과 연관분석기법을 함께 적용함으로써 보다 효율적인 모형을 구축함을 목적으로 한다.
전략을 돕고자 한다. 특히 본 연구는 RFM과 연관분석기법을 함께 적용함으로써 보다 효율적인 모형을 구축함을 목적으로 한다.
제안 방법
직 . 간접적 데이터마이닝 기법인 연관분석과 의사결정나무를 이용하여, 다섯 개의 세분화된 고객그룹에 대한 분석을 했다. 우선 본 연구에서 실험한 두 종류의 기법에 사용된 변수들을 살펴보면, 연관분석에서는 이용가능한 모든 변수(결측치가 너무 많은 일부 변수 제외)를 활용하여 분석을 시행하였고, 의사결정나무 분석은 평균과 교차분석을 통하여 유의수준 5% 이내에서 유의하다고 판단되는 변수들만을 입력변수로 활용하였다.
또한 자식마디가 형성될 때 고려될 최대의 분리 개수는 이지분리를 사용하였으며, 나무의 최대 깊이는 6으로 설정하였다. 그리고 4, 397개의 전체 변수에 대한 모형을 구축하기 위하여 분석용(Training)자료와 평가용(Validation)자료를 각각 50%로 할당하여 분석을 수행하였다. 그리고 의사결정나무모형과의 비교를 위해 로지스틱 회귀분석도 함께 시행하였다.
목표변수가 범주형인 5개의 고객 서분화 그룹이므로 분석에서는 엔트로피 지수(entropy index)를 이용하였으며, 끝마디에 포함될 관측 개체의 최소 개수를 10개로 하고, 임의의 분리기준에 의해 부모마디가 자식마디로 분리되기 위해 요구되는 관측개체의 수를 40개로 지정하였다. 또한 자식마디가 형성될 때 고려될 최대의 분리 개수는 이지분리를 사용하였으며, 나무의 최대 깊이는 6으로 설정하였다. 그리고 4, 397개의 전체 변수에 대한 모형을 구축하기 위하여 분석용(Training)자료와 평가용(Validation)자료를 각각 50%로 할당하여 분석을 수행하였다.
연관관계를 가지는 지지도의 수준을 5%로 설정하였다. 목표변수가 2개 이상인 연관규칙을 채택하였으며, 임계치(threshold)는 지지도 5%, 신뢰도 50%로 지정하여 규칙을 도출하였다. 그 결과 총 70, 506개의 연관규칙이 도출되었고, 임계치를 만족하는 연관규칙은 4, 592개이다.
의사결정나무 분석을 위해서는 먼저 분리기준과 정지기준을 설정해 주어야 한다. 목표변수가 범주형인 5개의 고객 서분화 그룹이므로 분석에서는 엔트로피 지수(entropy index)를 이용하였으며, 끝마디에 포함될 관측 개체의 최소 개수를 10개로 하고, 임의의 분리기준에 의해 부모마디가 자식마디로 분리되기 위해 요구되는 관측개체의 수를 40개로 지정하였다. 또한 자식마디가 형성될 때 고려될 최대의 분리 개수는 이지분리를 사용하였으며, 나무의 최대 깊이는 6으로 설정하였다.
부여하는 것을 말한다. 본 연구에서는 RFM 분석결과에 K기관의 특수성을 고려하여 각각의 R값, F값, M값에 가중치를 주어 스코어 링 함수를 산출하였으며 공식은 아래의 식과 같다.
간접적 데이터마이닝 기법인 연관분석과 의사결정나무를 이용하여, 다섯 개의 세분화된 고객그룹에 대한 분석을 했다. 우선 본 연구에서 실험한 두 종류의 기법에 사용된 변수들을 살펴보면, 연관분석에서는 이용가능한 모든 변수(결측치가 너무 많은 일부 변수 제외)를 활용하여 분석을 시행하였고, 의사결정나무 분석은 평균과 교차분석을 통하여 유의수준 5% 이내에서 유의하다고 판단되는 변수들만을 입력변수로 활용하였다.
위의 가중치를 통하여 얻어진 점수는 최저 20점에서 최고 100점까지의 점수로 환산되어지는데 본 연구에서는 5개의 세분화 그룹으로 분류하기 위하여 80점에서 100점 사이의 고객을 최우수그룹으로 분류하고, 60점에서 79점 사이의 고객을 우수그룹으로, 40점에서 59점 사이의 고객을 일반 그룹으로, 21점에서 39점 사이의 고객을 하위그룹으로, 그리고 20점인 고객을 최하위그룹으로 분류하였다. 5개 세분 그룹은[표 6]과 같이 나타나 있다.
대상 데이터
고객 분석 및 세분화를 위해 사용된 자료는 2003년에서 2004년까지 두 해 동안 고객으로부터 수집된 자료이며 크게, 고객데이터와 거래 데이터로 구성되어 있다. 먼저 고객 데이터란 회원고객들의 정보로써 고객 ID, 나이, 성별, 직장, SSO 가입사이트 수, 회원구분, 지역, 주 이용 메일 호스트, 부서, 학위, 전공, 세부 전공분야 등으로 구성되어 있으며, 거래 데이터란 각 회원 고객들의 거래 내역에 관한 정보로써 구매일자, 구매건수, 구매금액, 신청방법 등으로 구성되어 있으며, 이용된 자료는 4, 397건이다.
자료이며 크게, 고객데이터와 거래 데이터로 구성되어 있다. 먼저 고객 데이터란 회원고객들의 정보로써 고객 ID, 나이, 성별, 직장, SSO 가입사이트 수, 회원구분, 지역, 주 이용 메일 호스트, 부서, 학위, 전공, 세부 전공분야 등으로 구성되어 있으며, 거래 데이터란 각 회원 고객들의 거래 내역에 관한 정보로써 구매일자, 구매건수, 구매금액, 신청방법 등으로 구성되어 있으며, 이용된 자료는 4, 397건이다.[표 2]는 분석에 사용된 변수들로 고객들의 인구통계학적인 요소 및 구매자료를 요약한 표이다.
나타낸 변수들을 제외하였다. 이렇게 하여 최종적으로 분석에 사용될 변수의 선정은 성별 (A2), 직업(A5), 신청방법(A6), SSO 총 가입 수(All)의 4개 변수로 결정되었다. 이와 같이 생성된 의사결정 나무 모형에 따르는 그룹별 세부특성은[표 12]과 같다.
데이터처리
그리고 4, 397개의 전체 변수에 대한 모형을 구축하기 위하여 분석용(Training)자료와 평가용(Validation)자료를 각각 50%로 할당하여 분석을 수행하였다. 그리고 의사결정나무모형과의 비교를 위해 로지스틱 회귀분석도 함께 시행하였다.
성능/효과
이와 같이 생성된 의사결정 나무 모형에 따르는 그룹별 세부특성은[표 12]과 같다. 각각의 고객 그룹에 있어 특성을 가장 잘 나타낼 수 있는 변수로는 뿌리마디(root node)에 해당되는 변수로 신청방법이 각각의 그룹에 가장 큰 영향을 주는 요소로 평가되었다.
목표변수가 2개 이상인 연관규칙을 채택하였으며, 임계치(threshold)는 지지도 5%, 신뢰도 50%로 지정하여 규칙을 도출하였다. 그 결과 총 70, 506개의 연관규칙이 도출되었고, 임계치를 만족하는 연관규칙은 4, 592개이다. 임계치를 만족하는 연관규칙이 적은 이유는 연관규칙은 설명변수와 목적변수의 구별이 없이 규칙들을 추출하기 때문이다.
또한 연관분석에서는 RFM의 대략적인 점수를 구할 수 있었다. 그리고 데이터마이닝 분석을 통하여 밝혀진 중요한 사실은 상위계층(최우수그룹, 우수그룹)과 하위계층(일반그룹, 하위그룹, 최하위그룹)간 뚜렷한 경계를 긋는 중요한 변수를 찾아내었다는 것이다. 이러한 변수는 신청방법으로, 상위계층은 검색을 활용한 원문복사 신청을 많이 하고 있으며, 하위계층은 웹을 통한 원문복사 신청을 많이 하고 있다는 것이다.
따라서 연관분석이 의사결정나무에 비해 많은 세분그룹별 규칙과 특성을 제공하여 보다 직관적으로 이해하기 쉽게 도와주는 도구임을 알 수 있었다. 따라서 폭넓은 이해를 바탕으로 정확하고 효과적인 전략을 구사할 수 있을 것이다.
본 연구에서는 각각의 R값, F값, M값을 5개의 세그먼트로 분류하여 전체 고객을 125개의 서그먼트(계층)로 나누려고 하였으나, 빈도가 1 이상인 유효한 세그먼트 계층은 82개가 생성되었으며, 가장 낮은 RFM값은 111이며, 가장 높은 RFM값은 555를 가지고 있다.
분산분석을 통해 5개 세분그룹간 차이에 대한 유의수준이 .000임을 알 수 있으며, Tukey나 LSD 를 이용한 그룹 차이도 유의한 것으로 나타났다.
연관분석 결과 전체 5개의 세분화된 그룹들에 대하여 유의한 연관규칙이 도출된 그룹은 최우수그룹, 우수그룹, 일반그룹, 하위그룹 이였으며 최하위그룹에 대한 연관규칙은 도출되지 않았다.
우수그룹에 대한 분석 결과는 검색방법을 통하여 원문을 신청하고, 직업이 공공부문, 교육/연구기관, 전문직 및 기타에 속하며, K기관에서 주로 이용하는 사이트는 3개 이하인 고객들은 우수그룹으로 분류될 확률은 21.9%로 나타났다. 그리고 일반그룹과 하위그룹, 최하위그룹에 대한 분석 결과는 서로 비슷하였다.
의사결정나무 분석을 통하여 얻어진 세분화된 5개의 고객그룹에 대한 특성을 살펴보면, 검색 방법을 통하여 원문을 신청하고, 직업이 대기업, 중소기업 의료/제약 분야에 속하며, K기관에서 주로 이용하는 사이트의 수는 3개 이상인 고객들이 최우수그룹으로 분류될 확률은 52.6%로 나타났다.
그리고 일반그룹과 하위그룹, 최하위그룹에 대한 분석 결과는 서로 비슷하였다. 즉, 웹 방법을 통하여 원문을 신청하고, K기관에서 주로 이용하는 사이트는 3개 이하의 고객들인 것으로 분석되었다.
후속연구
이해하기 쉽게 도와주는 도구임을 알 수 있었다. 따라서 폭넓은 이해를 바탕으로 정확하고 효과적인 전략을 구사할 수 있을 것이다.
여기에서는 의사결정나무 분석을 통한 고객 프로파일링을 실시할 것이다. 의사결정나무 분석을 위해서는 먼저 분리기준과 정지기준을 설정해 주어야 한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.