대부분의 은행은 고객 세분화를 위해 성별, 나이, 직업, 주소 등 인구통계정보만을 사용하고 있으나, 이는 고객의 다양한 금융행동 패턴을 반영하지 못하는 단점이 있다. 본 연구에서는 은행 내 다양한 빅데이터를 융합하여 문제점을 해결함과 동시에 향후 많은 은행에서 폭넓게 활용될 수 있는 고객 세분화 방법을 개발하는 것을 목표로 한다. 본 연구에서 제안한 블록을 만들어 이 블록을 클러스터링하는 상향식 방식의 세분화는 기법을 제안한다. 이 방식은 기존의 인구통계정보 뿐만 아니라 다양한 거래패턴, 채널접촉패턴에 기반을 둔 고객의 다양한 금융니즈를 정교하게 반영할 수 있다는 장점이 있다. 세분화를 통해 고객의 금융니즈를 보다 정교하게 반영한 적정 동료그룹을 찾아 이를 기반으로 상품추천, 금융니즈 등급 산출, 고객이탈 예측 등 다양한 마케팅 모델을 개발하여 실제 농협은행 마케팅에 활용할 것이다.
대부분의 은행은 고객 세분화를 위해 성별, 나이, 직업, 주소 등 인구통계정보만을 사용하고 있으나, 이는 고객의 다양한 금융행동 패턴을 반영하지 못하는 단점이 있다. 본 연구에서는 은행 내 다양한 빅데이터를 융합하여 문제점을 해결함과 동시에 향후 많은 은행에서 폭넓게 활용될 수 있는 고객 세분화 방법을 개발하는 것을 목표로 한다. 본 연구에서 제안한 블록을 만들어 이 블록을 클러스터링하는 상향식 방식의 세분화는 기법을 제안한다. 이 방식은 기존의 인구통계정보 뿐만 아니라 다양한 거래패턴, 채널접촉패턴에 기반을 둔 고객의 다양한 금융니즈를 정교하게 반영할 수 있다는 장점이 있다. 세분화를 통해 고객의 금융니즈를 보다 정교하게 반영한 적정 동료그룹을 찾아 이를 기반으로 상품추천, 금융니즈 등급 산출, 고객이탈 예측 등 다양한 마케팅 모델을 개발하여 실제 농협은행 마케팅에 활용할 것이다.
Most banks use only demographic information such as gender, age, occupation and address to segment customers, but they do not reflect financial behavior patterns of customers. In this study, we aim to solve the problems by using various big data in a bank and to develop customer segmentation method ...
Most banks use only demographic information such as gender, age, occupation and address to segment customers, but they do not reflect financial behavior patterns of customers. In this study, we aim to solve the problems by using various big data in a bank and to develop customer segmentation method which can be widely used in many banks in the future. In this paper, we propose an approach of segmenting clustering blocks with bottom-up method. This method has an advantage that it can accurately reflect various financial needs of customers based on various transaction patterns, channel contact patterns, and existing demographic information. Based on this, we will develop various marketing models such as product recommendation, financial need rating calculation, and customer churn-out prediction based on this, and we will adapt this models for the marketing strategy of NH Bank.
Most banks use only demographic information such as gender, age, occupation and address to segment customers, but they do not reflect financial behavior patterns of customers. In this study, we aim to solve the problems by using various big data in a bank and to develop customer segmentation method which can be widely used in many banks in the future. In this paper, we propose an approach of segmenting clustering blocks with bottom-up method. This method has an advantage that it can accurately reflect various financial needs of customers based on various transaction patterns, channel contact patterns, and existing demographic information. Based on this, we will develop various marketing models such as product recommendation, financial need rating calculation, and customer churn-out prediction based on this, and we will adapt this models for the marketing strategy of NH Bank.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
고객 세분화는 고객에 대한 이해도를 제고하여 새로운 고객을 유치하거나 기존 고객의 만족도 및 충성도를 높이기 위한 마케팅 분야의 핵심적 개념이다[1]. 다양한 빅데이터를 활용하여 고객의 니즈를 정교하게 반영한 은행권의 새로운 고객 세분화 모형을 제시하고자 한다.
본 세분화의 목표는 은행 내 다양한 데이터를 활용하여 고객의 니즈를 보다 정교하게 반영한 적정 Peer Group을 찾아 개인 고객에 대한 이해를 제고하는 것이다. 특히 타 은행에서는 시도할 수 없는 카드데이터를 활용하여 세분화의 차별성을 높였다.
본 연구는 고객의 다양한 금융행동패턴의 유사성을 기반으로 고객을 세분화하여 고객의 금융니즈를 보다 정확하게 파악하기 위한 분석 기반을 마련하였다. 이를 통해 향후 상품추천, EBM 등 마케팅 실행 시 타겟 고객 정교화와 차별화된 고객관리 기반을 통해 고객의 만족도를 향상시키는 것이 목표이다.
본 연구는 농협은행의 실제 다양한 데이터를 활용하여 고객 세분화에 대한 실증 연구를 진행했다. 인구통계정보 외에 요구불 거래내역, Web/App Log, 카드데이터 등을 다양하게 활용하였다.
본 연구에서는 고객에 대한 심층적 이해를 위해 은행권에서 활용할 수 있는 다양한 정형 및 비정형 데이터를 활용하여 고객세분화를 실시하였다. 이 과정에서 특정 고객군에 대한 잘못된 인식을 확인할 수 있었고, 이에 대한 대응책도 제시하는 계기가 되었다.
본 연구는 고객의 다양한 금융행동패턴의 유사성을 기반으로 고객을 세분화하여 고객의 금융니즈를 보다 정확하게 파악하기 위한 분석 기반을 마련하였다. 이를 통해 향후 상품추천, EBM 등 마케팅 실행 시 타겟 고객 정교화와 차별화된 고객관리 기반을 통해 고객의 만족도를 향상시키는 것이 목표이다.
인구통계정보 외에 요구불 거래내역, Web/App Log, 카드데이터 등을 다양하게 활용하였다. 특히 타행과 달리 카드사가 분리되지 않았기 때문에 타행과의 차별화를 위해 카드데이터를 적극 활용하고자 하였다.
제안 방법
고객 프로파일과 각 프로파일의 상태 정의에 따라 고객 블록을 구분한 이후 각 블록을 클러스터링한다. 다시 말하면 각 블록 간의 유사도를 기반으로 유사도가 높은 블록들을 하나로 통합하는 과정이다.
블록을 생성하는 이유는 개인 단위로 세그먼트화할 경우 개별 고객의 데이터 존재유무에 따라 고객 세그먼트가 이뤄질 가능성이 커서 정확한 고객 금융 유사그룹 산출이 어렵기 때문이다. 따라서 생성된 금융 프로파일을 기반으로 개인과 가장 비슷하게 만들기 위해 블록을 만들었으며, 이 과정에서는 변수 선택이 전체 세분화에미치는 영향이 클 수 있어 변수의 분포 및 상관계수 등을 면밀히 검토한 후 블록변수를 선택하였다[9,10].
또한 농협은행 2,200만 유효고객 중 200만 고객을 층화추출하여 분석에 활용하였으며, 전체 고객과의 인구통계학적 구성비가 유사함을 확인하여 층화추출에 대한 정확성을 검증하였다.
본 연구는 보안 문제에 대해 매우 엄격한 은행 내부 규정상 Python과 R과 같은 오픈소스 프로그램 사용이 금지되어있는 관계로 주 분석 솔루션인 SAS Enterprise Guide, Viya와 Text Analytics(TA)를 활용하여 데이터 핸들링 및 분석을 실시하였다.
수집한 데이터를 기반으로 인구통계, 저축성향, 소득소비성향, 접촉성향, 대출성향의 5가지 이력 구분을 만들어 개인별 금융 프로파일을 정의하였다. 정의한 내역은 아래와 같다.
본 연구에서 실제 활용한 데이터는 농협은행에서 자체적으로 구축하여 운영하는 시스템에서 관리하는 데이터로 정보보호를 위해 철저한 접근 통제가 이루어지고 있다. 실제 마케팅에 활용할 모형을 만들 목적으로 데이터에 접근이 허용되었으며, 농협은행 DW 및 계정계에 있는 데이터를 수집 및 전처리 후 임시서버에 저장하고 고객별로 데이터를 통합하여 분석을 진행하였다.
우선 생성된 블록의 금융활동 유사성을 판단하기 위해 총 6개(여유자금, 목돈마련, 대출, 외화, 카드, 요구불) 영역에서의 고객의 성향을 기반으로 변수를 추출하였다. 여유자금 7개, 목돈마련 13개, 대출 19개, 외화 2개, 카드 6개, 요구불 4개의 후보변수를 만든 후 이 변수들 간의 상관계수를 확인하여 클러스터링에 활용할 최종 변수를 22개를 산정하였으며, 현황은 표 5와 같다.
우선 생성된 블록의 금융활동 유사성을 판단하기 위해 총 6개(여유자금, 목돈마련, 대출, 외화, 카드, 요구불) 영역에서의 고객의 성향을 기반으로 변수를 추출하였다. 여유자금 7개, 목돈마련 13개, 대출 19개, 외화 2개, 카드 6개, 요구불 4개의 후보변수를 만든 후 이 변수들 간의 상관계수를 확인하여 클러스터링에 활용할 최종 변수를 22개를 산정하였으며, 현황은 표 5와 같다.
최종 선택 변수에 대해서 표준화 작업을 진행한 후 SOM 알고리즘 기반의 클러스터링 작업을 진행하였다. 여기서 적절한 k값(군집수)을 찾기 위한 성능판단지표로 CCC(Cubic Clustering Criterion), 군집 간 표준편차(Total STD), 군집 내 표준편차(Within STD), R-Squared(RSQ), RSQRatio를 활용했다.
클러스터링 결과를 기반으로 각 군집별로 어떤 채널 및 상품을 선호하는지를 알아보기 위해 고등학생 이하, 농협 임직원, 외국인, 공무원/군인 군집을 제외한 57개 군집을 대면/비대면 채널 선호 여부와, 상품선호를 기준으로 군집 특성을 정의하였다. 표 7은 정리한 결과이다.
클러스터링 기법 중 Self-Organizing Map 기법을 활용하여 다양한 군집개수를 테스트하여 활용도와 성능면을 충분히 고려하여 세그먼트수를 결정하였다.
대상 데이터
데이터 종류에는 인구통계정보, 거래 및 접촉이력, 카드데이터 등이 있으며, 인구통계정보는 CRM시스템에서 기본적으로 관리되는 정보가 모두 포함되었다. 은행업에서 판매되는 모든 상품군에 대한 거래정보를 반영하였으며, 채널접촉정보로는 업무원가 산정을 위한 사무량 데이터를 비롯하여 Web/App 로그데이터, 캠페인 정보 등을 수집하였다.
데이터의 기간은 2015년 1월 1일부터 2016년 12월 31일까지로 2년 치를 활용하였다. 데이터 수집 과정에서 고객의 채널접촉정보를 파악할 수 있는 Web/App 로그데이터는 데이터 용량이 방대하여 정보계의 효율적인 운영 상 3개월 보관 후 삭제하고 있었다.
본 연구에서 실제 활용한 데이터는 농협은행에서 자체적으로 구축하여 운영하는 시스템에서 관리하는 데이터로 정보보호를 위해 철저한 접근 통제가 이루어지고 있다. 실제 마케팅에 활용할 모형을 만들 목적으로 데이터에 접근이 허용되었으며, 농협은행 DW 및 계정계에 있는 데이터를 수집 및 전처리 후 임시서버에 저장하고 고객별로 데이터를 통합하여 분석을 진행하였다.
우선 18.478개의 블록을 만든 후 생성된 블록 중 활동 고객이 30명 이상인 6,459개 블록을 클러스터링 대상으로 선정하였다. 여기서 활동고객은 은행에서 총수신 및 외화저축성 평잔과방카슈랑스 보험료의 합산 금액이 30만원 이상인 경우이거나 총 여신 평잔이 0원 이상인 고객을 말한다.
데이터 종류에는 인구통계정보, 거래 및 접촉이력, 카드데이터 등이 있으며, 인구통계정보는 CRM시스템에서 기본적으로 관리되는 정보가 모두 포함되었다. 은행업에서 판매되는 모든 상품군에 대한 거래정보를 반영하였으며, 채널접촉정보로는 업무원가 산정을 위한 사무량 데이터를 비롯하여 Web/App 로그데이터, 캠페인 정보 등을 수집하였다. 데이터수집 현황은 표 2와 같다.
본 연구는 농협은행의 실제 다양한 데이터를 활용하여 고객 세분화에 대한 실증 연구를 진행했다. 인구통계정보 외에 요구불 거래내역, Web/App Log, 카드데이터 등을 다양하게 활용하였다. 특히 타행과 달리 카드사가 분리되지 않았기 때문에 타행과의 차별화를 위해 카드데이터를 적극 활용하고자 하였다.
직업군별 연령대, 거주지역, 거래성향 등을 고려하였으며, 채널접촉성향 등 은행이 보유하고 있는 다양한 데이터를 융합하여 생성하였다.
해당 데이터 중에는 농협은행 데이터 구조적인 문제로 사망자(21,575명)와 연령 미상의 고객(7,305명)이 있어서 이를 제외한 1,971,120명을 대상으로 분석을 실시하였다.
활용한 데이터는 앞서 밝힌 바와 같이 농협은행 200만 고객을 대상으로 하였다. 성별, 나이, 직업, 하나로 등급 등이 샘플고객의 분포와 전체고객의 분포가 동일하도록 설계하였으며, 전체고객 구성비와의 비교 검증을 통해 분포가 거의 유사함을 확인 후 확정하였다.
데이터처리
최종 선택 변수에 대해서 표준화 작업을 진행한 후 SOM 알고리즘 기반의 클러스터링 작업을 진행하였다. 여기서 적절한 k값(군집수)을 찾기 위한 성능판단지표로 CCC(Cubic Clustering Criterion), 군집 간 표준편차(Total STD), 군집 내 표준편차(Within STD), R-Squared(RSQ), RSQRatio를 활용했다. 군집 내 표준편차는 작을수록 좋으며, 그 외 지표는 클수록 클러스터링이 잘 되었다고 판단할 수 있다.
이론/모형
다시 말하면 각 블록 간의 유사도를 기반으로 유사도가 높은 블록들을 하나로 통합하는 과정이다. 본 연구에서는 Kohonen SOM기법을 활용하여 클러스터링을 실시하였다.
클러스터링은 계층적 클러스터링과 비계층적 클러스터링으로 나누며, 차이점은 자료의 크기에 있다. 본 연구에서는 자료의 크기에 제한이 없는 비계층적 클러스터링을 활용하였으며, 이 중 인공신경망 기법의 학습 방법론을 보유하여 보다 심층적인 클러스터링이 가능한 Self-Organizing Map 기법을 활용하였다.
성능/효과
k값은 마케팅 관점에서 활용하는데 유용할 것으로 판단되는 세분화 개수인 50~80개 사이에서 처음에는 10개부터 10개 단위로 클러스터링을 해보았을 때 70개 내외에서 판단지표가 가장 좋게 나오는 것을 확인하고 70개 전후에서는 k값을 1씩 조정하며 클러스터링했다. 그 결과 70개일 때 성능판단지표가 고르게 좋게 나와 선택하였다. k값별로 각 지표의 값은 표 6과 같다.
본 연구의 결과 몇몇 세그먼트에서 그 동안 인지하지 못했던 고객군의 특성을 알아낼 수 있었다. 대출 니즈가 많은 고객은 비대면 채널을 선호하는 집단으로 분류되었는데, 비대면 채널도 많이 선호하는 것을 알 수 있었다. 이 결과를 통해 은행은 고객이 편의성을 고려하여 인터넷이나 스마트뱅킹으로 대출할 수 있도록 기반을 신속하게 만들어야 경쟁에서 앞설 수 있다는 것을 보여준다.
SOM은 고차원으로 표현된 데이터를 저차원으로 변환해서 보는데 유용하며, 군집화와 시각화의 특성을 갖는다. 또한 인공신경망 기법의 학습 방법론을 보유하여 연속적인 학습이 가능하고 시간에 따라 입력 데이터의 분포가 변해도 변화에 잘 적응한다는 장점이 있다. 이에 따라 Micro 단위의 세밀한 고객 세분화와 시각화가 가능하고, 여러 변수를 활용한 Density Plot을 통해 잠재적 유사고객 파악이 가능하다는 장점이 있어 은행권 고객 세분화에 유용하게 활용될 수 있다.
활용한 데이터는 앞서 밝힌 바와 같이 농협은행 200만 고객을 대상으로 하였다. 성별, 나이, 직업, 하나로 등급 등이 샘플고객의 분포와 전체고객의 분포가 동일하도록 설계하였으며, 전체고객 구성비와의 비교 검증을 통해 분포가 거의 유사함을 확인 후 확정하였다.
후속연구
이번 연구는 상향식방식의 세분화로 하향식 방식에서 변수의 유무에 따라 군집화되는 단점을 극복했다는 점에 의의가 있다. 또한 금융행동패턴이 유사한 고객 집단을 인구통계학적인 일반변수를 기준으로 세분화시킬 수 있기 때문에 향후 많은 은행권에서 폭넓은 활용이 가능할 것으로 기대한다.
또한 세분화와 금융니즈 등급 산출을 발전시켜 궁극적으로는 개인 맞춤형 상품추천 모형 및 고객이탈 예측 등 다양한 모형을 개발하여 농협은행 마케팅 전략에 실제 활용할 예정이다.
특히 타 은행에서는 시도할 수 없는 카드데이터를 활용하여 세분화의 차별성을 높였다. 세분화 결과를 토대로 금융니즈 등급 산정 모형, 맞춤형 상품추천 모형, 고객 이탈 예측 모형 등을 개발하여 농협은행 마케팅에 직접 활용할 예정이다.
이번 세분화는 다양한 개인 맞춤형 분석모델로 활용이 가능하다. 향후 연구계획으로는 세분화 기준에 따라 고객 금융니즈 유형을 정의하고, 세그먼트별 금융니즈 분포에 따라 금융니즈 등급을 산출하는 모형을 개발할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
클러스터링이란 무엇인가?
클러스터링은 주어진 항목들을 성격이 비슷한 것들끼리 모으는 작업을 말한다. 즉 동일한 그룹의 개체가 다른 그룹의 개체보다 서로 더 유사하도록 개체 집합을 그룹화하는 작업이다.
기존의 세분화가 가지는 한계는 무엇인가?
기존 은행권의 세분화를 살펴보면 변수로써 성별, 나이, 직업, 거주지 등 인구통계정보만 활용한 것이 대부분이었다[2]. 하지만 이러한 세분화는 고객의 선호채널, 선호상품, 금융니즈 등을 반영하지 못한 한계를 갖고 있으며, 인터넷뱅킹 및 스마트뱅킹 등 비대면 거래가 은행 전체 거래의 대부분을 차지하는 현 상황에서 고객에 대한 이해를 왜곡시킬 가능성이 크다.
클러스터링하는 상향식 방식의 세분화 기법의 장점은 무엇이 있는가?
본 연구에서 제안한 블록을 만들어 이 블록을 클러스터링하는 상향식 방식의 세분화는 기법을 제안한다. 이 방식은 기존의 인구통계정보 뿐만 아니라 다양한 거래패턴, 채널접촉패턴에 기반을 둔 고객의 다양한 금융니즈를 정교하게 반영할 수 있다는 장점이 있다. 세분화를 통해 고객의 금융니즈를 보다 정교하게 반영한 적정 동료그룹을 찾아 이를 기반으로 상품추천, 금융니즈 등급 산출, 고객이탈 예측 등 다양한 마케팅 모델을 개발하여 실제 농협은행 마케팅에 활용할 것이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.