[논문]연관분석을 이용한 데이터마이닝 기법에 관한 사례연구

류귀열; 문영수; 최승두

문제 정의

, 2001). RFM 분석을 통하여 고객을 세분화한 자료를 기초로 데이터마이닝 기법들을 통하여 추론규칙(induction rule)에 의해서 분류(classification)를 수행한 결과물을 갖고 고객 프로파일링을 실시하고자 한다.
본 연구에서 사용되는 자료는 K기관에서 운영하고 있는 홈페이지의 고객자료를 바탕으로 고객분석을 실시하고, 분석된 고객들의 인구학적 특성을 통하여 고객 세분화를 함으로써 효율적인 마케팅 전략을 돕고자 한다. 특히 본 연구는 RFM과 연관분석기법을 함께 적용함으로써 보다 효율적인 모형을 구축함을 목적으로 한다.
전략을 돕고자 한다. 특히 본 연구는 RFM과 연관분석기법을 함께 적용함으로써 보다 효율적인 모형을 구축함을 목적으로 한다.

제안 방법

직 . 간접적 데이터마이닝 기법인 연관분석과 의사결정나무를 이용하여, 다섯 개의 세분화된 고객그룹에 대한 분석을 했다. 우선 본 연구에서 실험한 두 종류의 기법에 사용된 변수들을 살펴보면, 연관분석에서는 이용가능한 모든 변수(결측치가 너무 많은 일부 변수 제외)를 활용하여 분석을 시행하였고, 의사결정나무 분석은 평균과 교차분석을 통하여 유의수준 5% 이내에서 유의하다고 판단되는 변수들만을 입력변수로 활용하였다.
또한 자식마디가 형성될 때 고려될 최대의 분리 개수는 이지분리를 사용하였으며, 나무의 최대 깊이는 6으로 설정하였다. 그리고 4, 397개의 전체 변수에 대한 모형을 구축하기 위하여 분석용(Training)자료와 평가용(Validation)자료를 각각 50%로 할당하여 분석을 수행하였다. 그리고 의사결정나무모형과의 비교를 위해 로지스틱 회귀분석도 함께 시행하였다.
목표변수가 범주형인 5개의 고객 서분화 그룹이므로 분석에서는 엔트로피 지수(entropy index)를 이용하였으며, 끝마디에 포함될 관측 개체의 최소 개수를 10개로 하고, 임의의 분리기준에 의해 부모마디가 자식마디로 분리되기 위해 요구되는 관측개체의 수를 40개로 지정하였다. 또한 자식마디가 형성될 때 고려될 최대의 분리 개수는 이지분리를 사용하였으며, 나무의 최대 깊이는 6으로 설정하였다. 그리고 4, 397개의 전체 변수에 대한 모형을 구축하기 위하여 분석용(Training)자료와 평가용(Validation)자료를 각각 50%로 할당하여 분석을 수행하였다.
연관관계를 가지는 지지도의 수준을 5%로 설정하였다. 목표변수가 2개 이상인 연관규칙을 채택하였으며, 임계치(threshold)는 지지도 5%, 신뢰도 50%로 지정하여 규칙을 도출하였다. 그 결과 총 70, 506개의 연관규칙이 도출되었고, 임계치를 만족하는 연관규칙은 4, 592개이다.
의사결정나무 분석을 위해서는 먼저 분리기준과 정지기준을 설정해 주어야 한다. 목표변수가 범주형인 5개의 고객 서분화 그룹이므로 분석에서는 엔트로피 지수(entropy index)를 이용하였으며, 끝마디에 포함될 관측 개체의 최소 개수를 10개로 하고, 임의의 분리기준에 의해 부모마디가 자식마디로 분리되기 위해 요구되는 관측개체의 수를 40개로 지정하였다. 또한 자식마디가 형성될 때 고려될 최대의 분리 개수는 이지분리를 사용하였으며, 나무의 최대 깊이는 6으로 설정하였다.
부여하는 것을 말한다. 본 연구에서는 RFM 분석결과에 K기관의 특수성을 고려하여 각각의 R값, F값, M값에 가중치를 주어 스코어 링 함수를 산출하였으며 공식은 아래의 식과 같다.
간접적 데이터마이닝 기법인 연관분석과 의사결정나무를 이용하여, 다섯 개의 세분화된 고객그룹에 대한 분석을 했다. 우선 본 연구에서 실험한 두 종류의 기법에 사용된 변수들을 살펴보면, 연관분석에서는 이용가능한 모든 변수(결측치가 너무 많은 일부 변수 제외)를 활용하여 분석을 시행하였고, 의사결정나무 분석은 평균과 교차분석을 통하여 유의수준 5% 이내에서 유의하다고 판단되는 변수들만을 입력변수로 활용하였다.
위의 가중치를 통하여 얻어진 점수는 최저 20점에서 최고 100점까지의 점수로 환산되어지는데 본 연구에서는 5개의 세분화 그룹으로 분류하기 위하여 80점에서 100점 사이의 고객을 최우수그룹으로 분류하고, 60점에서 79점 사이의 고객을 우수그룹으로, 40점에서 59점 사이의 고객을 일반 그룹으로, 21점에서 39점 사이의 고객을 하위그룹으로, 그리고 20점인 고객을 최하위그룹으로 분류하였다. 5개 세분 그룹은[표 6]과 같이 나타나 있다.

대상 데이터

고객 분석 및 세분화를 위해 사용된 자료는 2003년에서 2004년까지 두 해 동안 고객으로부터 수집된 자료이며 크게, 고객데이터와 거래 데이터로 구성되어 있다. 먼저 고객 데이터란 회원고객들의 정보로써 고객 ID, 나이, 성별, 직장, SSO 가입사이트 수, 회원구분, 지역, 주 이용 메일 호스트, 부서, 학위, 전공, 세부 전공분야 등으로 구성되어 있으며, 거래 데이터란 각 회원 고객들의 거래 내역에 관한 정보로써 구매일자, 구매건수, 구매금액, 신청방법 등으로 구성되어 있으며, 이용된 자료는 4, 397건이다.
자료이며 크게, 고객데이터와 거래 데이터로 구성되어 있다. 먼저 고객 데이터란 회원고객들의 정보로써 고객 ID, 나이, 성별, 직장, SSO 가입사이트 수, 회원구분, 지역, 주 이용 메일 호스트, 부서, 학위, 전공, 세부 전공분야 등으로 구성되어 있으며, 거래 데이터란 각 회원 고객들의 거래 내역에 관한 정보로써 구매일자, 구매건수, 구매금액, 신청방법 등으로 구성되어 있으며, 이용된 자료는 4, 397건이다.[표 2]는 분석에 사용된 변수들로 고객들의 인구통계학적인 요소 및 구매자료를 요약한 표이다.
나타낸 변수들을 제외하였다. 이렇게 하여 최종적으로 분석에 사용될 변수의 선정은 성별 (A2), 직업(A5), 신청방법(A6), SSO 총 가입 수(All)의 4개 변수로 결정되었다. 이와 같이 생성된 의사결정 나무 모형에 따르는 그룹별 세부특성은[표 12]과 같다.

데이터처리

그리고 4, 397개의 전체 변수에 대한 모형을 구축하기 위하여 분석용(Training)자료와 평가용(Validation)자료를 각각 50%로 할당하여 분석을 수행하였다. 그리고 의사결정나무모형과의 비교를 위해 로지스틱 회귀분석도 함께 시행하였다.

성능/효과

이와 같이 생성된 의사결정 나무 모형에 따르는 그룹별 세부특성은[표 12]과 같다. 각각의 고객 그룹에 있어 특성을 가장 잘 나타낼 수 있는 변수로는 뿌리마디(root node)에 해당되는 변수로 신청방법이 각각의 그룹에 가장 큰 영향을 주는 요소로 평가되었다.
목표변수가 2개 이상인 연관규칙을 채택하였으며, 임계치(threshold)는 지지도 5%, 신뢰도 50%로 지정하여 규칙을 도출하였다. 그 결과 총 70, 506개의 연관규칙이 도출되었고, 임계치를 만족하는 연관규칙은 4, 592개이다. 임계치를 만족하는 연관규칙이 적은 이유는 연관규칙은 설명변수와 목적변수의 구별이 없이 규칙들을 추출하기 때문이다.
또한 연관분석에서는 RFM의 대략적인 점수를 구할 수 있었다. 그리고 데이터마이닝 분석을 통하여 밝혀진 중요한 사실은 상위계층(최우수그룹, 우수그룹)과 하위계층(일반그룹, 하위그룹, 최하위그룹)간 뚜렷한 경계를 긋는 중요한 변수를 찾아내었다는 것이다. 이러한 변수는 신청방법으로, 상위계층은 검색을 활용한 원문복사 신청을 많이 하고 있으며, 하위계층은 웹을 통한 원문복사 신청을 많이 하고 있다는 것이다.
따라서 연관분석이 의사결정나무에 비해 많은 세분그룹별 규칙과 특성을 제공하여 보다 직관적으로 이해하기 쉽게 도와주는 도구임을 알 수 있었다. 따라서 폭넓은 이해를 바탕으로 정확하고 효과적인 전략을 구사할 수 있을 것이다.
본 연구에서는 각각의 R값, F값, M값을 5개의 세그먼트로 분류하여 전체 고객을 125개의 서그먼트(계층)로 나누려고 하였으나, 빈도가 1 이상인 유효한 세그먼트 계층은 82개가 생성되었으며, 가장 낮은 RFM값은 111이며, 가장 높은 RFM값은 555를 가지고 있다.
분산분석을 통해 5개 세분그룹간 차이에 대한 유의수준이 .000임을 알 수 있으며, Tukey나 LSD 를 이용한 그룹 차이도 유의한 것으로 나타났다.
연관분석 결과 전체 5개의 세분화된 그룹들에 대하여 유의한 연관규칙이 도출된 그룹은 최우수그룹, 우수그룹, 일반그룹, 하위그룹 이였으며 최하위그룹에 대한 연관규칙은 도출되지 않았다.
우수그룹에 대한 분석 결과는 검색방법을 통하여 원문을 신청하고, 직업이 공공부문, 교육/연구기관, 전문직 및 기타에 속하며, K기관에서 주로 이용하는 사이트는 3개 이하인 고객들은 우수그룹으로 분류될 확률은 21.9%로 나타났다. 그리고 일반그룹과 하위그룹, 최하위그룹에 대한 분석 결과는 서로 비슷하였다.
의사결정나무 분석을 통하여 얻어진 세분화된 5개의 고객그룹에 대한 특성을 살펴보면, 검색 방법을 통하여 원문을 신청하고, 직업이 대기업, 중소기업 의료/제약 분야에 속하며, K기관에서 주로 이용하는 사이트의 수는 3개 이상인 고객들이 최우수그룹으로 분류될 확률은 52.6%로 나타났다.
그리고 일반그룹과 하위그룹, 최하위그룹에 대한 분석 결과는 서로 비슷하였다. 즉, 웹 방법을 통하여 원문을 신청하고, K기관에서 주로 이용하는 사이트는 3개 이하의 고객들인 것으로 분석되었다.

후속연구

이해하기 쉽게 도와주는 도구임을 알 수 있었다. 따라서 폭넓은 이해를 바탕으로 정확하고 효과적인 전략을 구사할 수 있을 것이다.
여기에서는 의사결정나무 분석을 통한 고객 프로파일링을 실시할 것이다. 의사결정나무 분석을 위해서는 먼저 분리기준과 정지기준을 설정해 주어야 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

연관분석을 이용한 데이터마이닝 기법에 관한 사례연구 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

연관분석을 이용한 데이터마이닝 기법에 관한 사례연구 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper