전통적인 방식의 예측모형 구축에서 사용되는 데이터는 주로 데이터베이스에 잘 보관되어 있는 정형데이터를 사용하였다. 하지만 지금의 상황은 스마트 시대의 도래로 인한 통신수단의 획기적인 발달로 비정형 데이터가 전체데이터의 80%를 상회하는 현실이다. 이러한 현실에서 기존의 방법대로 정형데이터 만을 이용하여 예측모형을 개발하면 예측모형의 신뢰성에 문제가 있을 것이다. 즉 전체데이터의 80%에 해당하는 비정형(SNS, 페이스북, 트위트, 이미지, 동영상 등)과 반정형(로그데이터)데이터를 반드시 포함하여 모형을 구축해야 만이 신뢰성을 현실화 시킬 수 있을 것이다. 본 논문에서는 예측모형 개발시 빅데이타 방법론을 적용하여 예측 모형의 신뢰성을 높이고, 데이터를 이용하여 제안된 방법과 전통적인 방법의 예측모형의 신뢰도를 비교 분석 하였다.
전통적인 방식의 예측모형 구축에서 사용되는 데이터는 주로 데이터베이스에 잘 보관되어 있는 정형데이터를 사용하였다. 하지만 지금의 상황은 스마트 시대의 도래로 인한 통신수단의 획기적인 발달로 비정형 데이터가 전체데이터의 80%를 상회하는 현실이다. 이러한 현실에서 기존의 방법대로 정형데이터 만을 이용하여 예측모형을 개발하면 예측모형의 신뢰성에 문제가 있을 것이다. 즉 전체데이터의 80%에 해당하는 비정형(SNS, 페이스북, 트위트, 이미지, 동영상 등)과 반정형(로그데이터)데이터를 반드시 포함하여 모형을 구축해야 만이 신뢰성을 현실화 시킬 수 있을 것이다. 본 논문에서는 예측모형 개발시 빅데이타 방법론을 적용하여 예측 모형의 신뢰성을 높이고, 데이터를 이용하여 제안된 방법과 전통적인 방법의 예측모형의 신뢰도를 비교 분석 하였다.
Traditional method of establishing prediction model is usually using formal data stored in Data Base. However, nowadays advent of "smart" era brought by ground-breaking development of communication system makes informal data to dominate overall data, such 80% in total. Therefore, conventional method...
Traditional method of establishing prediction model is usually using formal data stored in Data Base. However, nowadays advent of "smart" era brought by ground-breaking development of communication system makes informal data to dominate overall data, such 80% in total. Therefore, conventional method using formal data as establishing predicting model would be untrustworthy means in present. In other words, it is indispensible to make prediction model credible including informal data(SNS, image, video) and semi-formal data(log data). In this study, we increase credibility of predicting model adapting Bigdata method and comparing reliability of conventional measurement to real-data.
Traditional method of establishing prediction model is usually using formal data stored in Data Base. However, nowadays advent of "smart" era brought by ground-breaking development of communication system makes informal data to dominate overall data, such 80% in total. Therefore, conventional method using formal data as establishing predicting model would be untrustworthy means in present. In other words, it is indispensible to make prediction model credible including informal data(SNS, image, video) and semi-formal data(log data). In this study, we increase credibility of predicting model adapting Bigdata method and comparing reliability of conventional measurement to real-data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 빅데이터 분석방법론을 근거한 해지예측 모델인 하이브리드 모형을 제안하였다. 일반적으로 빅 데이터의 가치는 사용자가 원하는 것이 생기면 거기에 해당하는 데이터를 찾아서 분석하여 필요한 정보를 제공하는 것이다.
본 논문에서는 통신에서 발생하는 해지예측 모형을 구축하는 과정을 축적된 데이터를 이용하여 분석하고자 한다. 구축하는 과정은 본 논문에서 전술한 절차를 따른다.
본 논문에서 사용한 빅데이터 해지예측 모형 개발 방법론은 하이브리드 형태이다. 즉 기존의 DB에 저장된 정형화된 데이터와 비정형 데이터를 함께 사용하여 해지 예측모형을 개발하는 것이다.<참고문헌 6참조>
제안 방법
본 모델에서 데이터의 분석 과정은 각 단위 과정에 표시된 숫자의 순서대로이다. [Fig. 3]은 [Fig. 2]의 프로세스와 시소러스(Thesaurus) 검색 방법론을 적용하여 분석한 결과를 콜 센타, e-Mail, SNS 등에서 크롤링 하여 축적한 비정형 데이터에서 핵심 단어를 추출 하고 군집 (Clustering) 방법을 사용하여 유사한 속성을 나타내는 것을 그룹핑 하였으며, 그룹핑 할 때는 표준코드 매핑을 사용 하여 분류하였다.<참고문헌 1참조>
이 때 과거자료를 분석하기 위해 특정한 시점을 기준월로 정하고 기준월이후 몇 개월 관찰 영역 간의 행동여부(예: 해지여부)를 관찰하게 된다. 그리고 기준시점 전의 몇 개월(분석 영역)의 정보를 분석하여 모형을 개발하게 된다. 그러나 적용시점 즉, 모형을 개발하고 현재 활동 하고 있는 고객에 대해 모형을 적용하는 시점의 경우에는 기준시점은 현재의 월이 된다.
5월에 해지한 경우 추출기준월은 4월이 되며, 6월에 해지한 고객은 5월로 7월에 해지한 고객은 6월로 기준 월을 정하였다. 그리고 정상을 유지하고 있는 고객의 추출은 5, 6, 7월해지 고객의 비율에 맞게 하였다.<참고문헌 5참조>
결과치를 반영할 때에는 전통적인 예측방법에서 선정된 변수와 빅데이터 분석론에 의하여 선택된 인자(Factor)들에서 공통의 변수를 선택한다. 그리고, 이 변수들이 해지예측 모형에 영향을 미치는 관계를 상관분석을 통하여 상관의 정도를 파악 한다. 상관(Correlation)의 정도가 파악이 되면 그것을 크기순으로 나열하여 차등 하게 가중치를 부여한다.
파생변수의 생성에 있어서 핵심은 업무의 속성을 이해하고 이것이 예측모형에 영향을 미칠 것이라 예상되는 요인을 유추해 내야 한다. 다음으로는 데이터웨어하우스에 있는 데이터 현황과 이밴트 정의를 위한 주요 쟁점을 파악하고 고객 세분화를 위한 고객특성을 분석한다.
본 논문에서 제안한 하이브리드(Hybrid)형 예측모형은, 전통적으로 예측에 많이 사용 되고 있는 로지스틱회귀 모형에서 모형에 영향을 미치는 최종적인 독립변수를 정형 데이터만 사용하는 전통적인 예측 방법론에 의하여 선정을 한다. 다음은 비정형 데이터를 기반으로 해지예측에 영향을 미치는 인자를 시소러스 검색 분석론을 사용하여 변수관의 상관관계를 파악한다. 결과치를 반영할 때에는 전통적인 예측방법에서 선정된 변수와 빅데이터 분석론에 의하여 선택된 인자(Factor)들에서 공통의 변수를 선택한다.
본 논문에서 제안한 하이브리드(Hybrid)형 예측모형은, 전통적으로 예측에 많이 사용 되고 있는 로지스틱회귀 모형에서 모형에 영향을 미치는 최종적인 독립변수를 정형 데이터만 사용하는 전통적인 예측 방법론에 의하여 선정을 한다. 다음은 비정형 데이터를 기반으로 해지예측에 영향을 미치는 인자를 시소러스 검색 분석론을 사용하여 변수관의 상관관계를 파악한다.
가중치를 부여하고 반영하는 방법은 다양하다. 본 논문에서는 독립변수(Independent)와 종속변수(Dependent)의 관계에서 모형의 적합도를 최대화 시키는 범위에서 조정하여 반영하였다.
이것을 설정할 때는 업무 전문가들의 의견을 청취하고 통신사의 마케팅 정책을 고려하여 설정하여야 한다. 본 논문에서는 전술한 상황을 종합하여 관찰 영역은 3개월로 분석 분석영역은 4개월로 설정하기로 한다.<참고문헌 4참조>
본 연구를 통해 정형 데이터뿐만 아니라 비 정형데이터도 예측 모형 개발에 활용하여 모형의 정확도를 제고함으로서 기존의 모형과 차이점을 분석하였다.
업무적으로 해지에 영향을 미치는 요인들을 정리한 [Table 6]에 정리된 업무 전문가의 의견을 반영하여 초기변수 선정하고 탐색적 자료 분석을 통하여 2차 변수를 확정 하였다. 업무적 연관성과 상관관계를 고려하여 파생변수를 생성하였다. 전술한 절차를 반영하여 최종적으로 선택된 변수는 다음과 같이 [Table 8]에 요약정리 하였다.
업무적으로 해지에 영향을 미치는 요인들을 정리한 [Table 6]에 정리된 업무 전문가의 의견을 반영하여 초기변수 선정하고 탐색적 자료 분석을 통하여 2차 변수를 확정 하였다. 업무적 연관성과 상관관계를 고려하여 파생변수를 생성하였다.
전통적인 방법은 정형데이터를 사용하여 해지예측 모형을 개발 하였고, 개발하는 과정은 앞에서 기술한 방법 론을 적용하였다.
특히 변수간의 관계를 이용한 파생변수 생성은 관련분야의 업무를 잘 이해해야만 의미 있는 변수의 생성이 가능하다. 제시한 후보변수리스트와 자사의 현황에서 중요하다고 생각 되어지는 변수들을 탐색적 자료 분석(Exploratory Data Analysis)을 통하여 정의하고 이를 추출 데이터베이스를 이용하여 추출하게 된다. 데이터베이스에서 처리하기 어려운 변수들은 되도록이면 원(Raw) 자료 정보를 그대로 가지고 있고, 이를 통계 분석 툴을 이용하여 변환하는 것도 고려해 볼 만하다.
즉 필요한 의사결정 정보를 도출 하는데 있어서 규모(Volume), 변화속도(Velocity), 다양성(Variety)이 라는 3가지 속성을 고려하여 적기에 생산해 내는 것이다. 제안한 예측모형은 장점은 첫째, 정보의 활용측면에서 정형과 비정형 데이터를 모두 사용함으로써 정보의 원천을 다양화 하여 향후 모형의 정확도를 높일 수 있다, 둘째, 정형 데이터로 모형을 개발 할 때 표본데이터가 아닌 전수 데이터를 모두 사용하여 표본 추출의 오류로 인하여 예측모형의 신뢰도가 감소하는 현상을 방지하는 것이다. 한편, 예측 모형을 개발 할 때 중요한 전제가 되는 것은 무엇보다도 예측의 오류율을 줄이는 것이다.
대상 데이터
전통적인 방식의 예측모형 구축에서 사용되는 데이터는 주로 데이터베이스에 잘 보관되어 있는 정형데이터를 사용하였다. 하지만 지금의 상황은 스마트 시대의 도래로 인한 통신수단의 획기적인 발달로 비정형 데이터가 전체데이터의 80%를 상회하는 현실이다.
데이터처리
라. Validation Data를 이용해 Score Model 검증한다.
해지 예측 모형에서 모형의 평가는 개발되어진 예측 Score 모형을 실제 정상유지하고 있는 고객에 대해 모형을 적용 시키고 이를 관찰하여 실제 해지여부를 파악하고 그 결과를 평가하는 것을 말한다. 두 예측모형의 신뢰도를 평가하기 위하여 평가 측도인 리프트 값을 구하여 비교하였다. [Fig.
본 연구에서 전통적인 해지예측모형과 제안된 빅데이터 방법론을 이용한 모형을 비교 분석 평가 하였다. 해지 예측 모형에서 모형의 평가는 개발되어진 예측 Score 모형을 실제 정상유지하고 있는 고객에 대해 모형을 적용 시키고 이를 관찰하여 실제 해지여부를 파악하고 그 결과를 평가하는 것을 말한다.
통계 분석 툴을 사용 하여 데이터웨어하우즈 테이블에서 자료를 추출하여 마스터 테이블을 만든다. 각 프로세스별 상세 설명 및 스크립트를 정리하면 다음과 같이 요약할 수 있다.
이론/모형
[Table 8]의 변수는 로지스틱 회귀분석 알고리즘을 사용 하여 해지 예측 모형을 구축했을 때 최종적으로 선정된 변수들이다. 로지스틱 회귀분석 알고리즘을 적용했을 때 이것을 해석하기 위해서 오츠비(Odds ratio) 를 활용하게 된다. 오츠비는 정상 유지할 가능성에 대한 해지할 가능성의 비율Odds 로 표시되며 아래와 같은 형태를 나타낸다.
모형 평가의 기준은 리프트 차트(Lift Chart)를 사용한다. 리프트는 기준선 반응률에 비해 각 등급에서의 반응 률이 얼마나 높은지를 나타낸다.
본 논문에서 사용한 빅데이터 해지예측 모형 개발 방법론은 하이브리드 형태이다. 즉 기존의 DB에 저장된 정형화된 데이터와 비정형 데이터를 함께 사용하여 해지 예측모형을 개발하는 것이다.
성능/효과
[Fig. 3]의 결과를 보면 고객해지에 영향을 미치는 주요 요인(Factor)를 살펴보면 기존의 단말기의 기기 변경시 특히 스마트폰으로의 변경시 해지가 많이 발생하는 현상이 발견되었으며, 그 외 가족권유, 통신사 이동, 서비스 품질, 부가서비스의 다양성, 스마트폰과 호환되는 어플리케이션의 개수 등 의 인자들과 상관관계가 높이 나타났다.
일반적으로 리프,트 값이 5를 초과하는 경우에는 모형이 과대 적합 (Over fitting)되었다고 볼 수 있다. 본 연구에서 특히 강조하고자 하는 사항은 두 해지예측모형의 비교에서 물론 모형의 평가(Validation)측도인 리프트 값이 크게 나오는 것도 의미가 있겠지만 예측모형을 개발할 때에 다양한 기초 데이터를 활용한다는 측면과 집단의 내부 데이터뿐만 아니라 필요한 외부 자료도 같이 포함 시켜 예측의 오류율을 줄이고 정확도를 높인다는 것이다.
후속연구
개발된 예측 모형은 실 데이터의 분석을 통하여 비정형 정보도 활용목적에 부합되게 잘 가공하여 사용하면 의미있는 정보로 활용할 수 있는 가능성을 확인해 볼 수 있었으며 향후 지속적인 연구를 통해 모형의 정확도를 향상 시키는 노력을 꾸준히 전개할 필요가 있고, 동시에 본 연구가 예측정보를 활용하여 의사결정에 반영하고자 하는 데 조금이나마 보템이 되기를 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
추출시점을 이동시키는 방법의 장점은 무엇인가?
추출시점을 고정시키는 방법을 사용하면 비교적 가입기간이 긴 고객만을 분석대상에 포함시키므로 가입기간이 짧은 고객은 분석모형에서 제외되는 단점이 있다. 반면에 추출시점을 이동시키는 방법은 즉 추출기준시점을 변동하는 경우에는 비교적 최근에 가입한 즉 가입기간이 길지 않은 대상자들도 구축모형에 반영할 수 있는 장점이 있다. 추출시점의 고정과 변동의 결정은 구축하고자 하는 대상의 축적 데이터의 상황 등을 고려하여 적절한 방안 선택하는 것이 합리적일 것이다.
오류율을 줄인다는 것은 어떤 것을 내포하는가?
한편, 예측 모형을 개발 할 때 중요한 전제가 되는 것은 무엇보다도 예측의 오류율을 줄이는 것이다. 오류율을 줄인다는 것은 의사 결정을 계속해서 개선시켜 나갈 수 있다는 의미를 내포하고 있다. 지금 빅데이터 분석 방법론이 힘을 얻고 있는 핵심요인은 정보의 다양한 소스와 형태로부터 의미 있는 의사결정 정보를 도출해 낼 수 있다는 것이다.
예측 스코어모형의 데이터 추출에서 주의해야할 점은 무엇인가?
예측 스코어모형의 경우 데이터 추출은 크게 2번(모형 개발단계, 모형적용단계) 발생한다. 이 때 주의해야 할 점은 데이터 추출 기준시점을 설정하는 것이다. 예측 모형 설정은 과거에서 현재 시점까지의 이력 데이터 바탕으로 미래의 상황을 예측하는 방법론이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.