반응/미반응 목표변수를 갖는 모집단에서 관심 목표범주의 빈도가 극히 작을 경우, 즉 희귀할(rare) 경우, 모형 구축을 위한 데이터마트를 형성할 때 반응/미반응 범주 구성비는 구축된 모형의 성능에 영향을 준다. 본 연구는 이러한 점에 착안하여 반응/미반응 범주 구성비와 모형성능의 관련성을 모형평가 통계량에 기반하여 판단한다. 이로써 데이터마트 형성에 이상적인 반응/미반응 범주 구성비를 탐지하려는데 본 연구의 목적을 두고 있다. 또한 일반적으로 목표범주의 빈도가 희귀할 경우, 분할 표본추출에 의하여 희귀사건(rare event)을 과대표본추출(oversampling)하는 것이 일반적이며, 이로부터 기인하는 사후확률에 대한 편향을 조정하게 된다. 본 연구에서는 사후확률 조정방법으로 오프셋(offset) 방법과 가중치 방법(sampling weights)을 적용하고 이를 비교하였다.
반응/미반응 목표변수를 갖는 모집단에서 관심 목표범주의 빈도가 극히 작을 경우, 즉 희귀할(rare) 경우, 모형 구축을 위한 데이터마트를 형성할 때 반응/미반응 범주 구성비는 구축된 모형의 성능에 영향을 준다. 본 연구는 이러한 점에 착안하여 반응/미반응 범주 구성비와 모형성능의 관련성을 모형평가 통계량에 기반하여 판단한다. 이로써 데이터마트 형성에 이상적인 반응/미반응 범주 구성비를 탐지하려는데 본 연구의 목적을 두고 있다. 또한 일반적으로 목표범주의 빈도가 희귀할 경우, 분할 표본추출에 의하여 희귀사건(rare event)을 과대표본추출(oversampling)하는 것이 일반적이며, 이로부터 기인하는 사후확률에 대한 편향을 조정하게 된다. 본 연구에서는 사후확률 조정방법으로 오프셋(offset) 방법과 가중치 방법(sampling weights)을 적용하고 이를 비교하였다.
When an event of target variable is rare, a widespread strategy is to build a model on the sample that disproportionally over-represents the events, that is over-sampled. Using the data over-sampled from the original data set, the predicted values would be biased; however, it can be easily corrected...
When an event of target variable is rare, a widespread strategy is to build a model on the sample that disproportionally over-represents the events, that is over-sampled. Using the data over-sampled from the original data set, the predicted values would be biased; however, it can be easily corrected to represent the population. In this study, we investigate into the relationship between the proportion of rare event on a data-mart and the model performance using real world data of a Korean credit card company. Also, we use the methods for adjusting of posterior probability for over-sampled data of the offset method and the weighted method. Finally, we compare the performance of the methods using real data sets.
When an event of target variable is rare, a widespread strategy is to build a model on the sample that disproportionally over-represents the events, that is over-sampled. Using the data over-sampled from the original data set, the predicted values would be biased; however, it can be easily corrected to represent the population. In this study, we investigate into the relationship between the proportion of rare event on a data-mart and the model performance using real world data of a Korean credit card company. Also, we use the methods for adjusting of posterior probability for over-sampled data of the offset method and the weighted method. Finally, we compare the performance of the methods using real data sets.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문의 연구 목적은 반응/미반응 목표변수를 갖는 모집단에서 목표범주의 빈도가 희귀한 경우 데이터마트의 반응/미반응 범주 구성비에 의존하는 구축모형의 성능을 비교 실험함으로써 바람직한 구축모형을 도출하기 위한 시사점을 도출하고자 한다. 예를 들어, 신용불량 고객들의 특성을 파악하기 위해 자료를 수집하면 대개 정상적인 고객은 95% 이상을 차지하고 불량인 고객은 5% 미만일 때가 많다.
본 연구에서는 반응/미반응 목표변수를 갖는 모집단에서 모형 구축을 위한 데이터마트를 형성할 때 데이터마트의 반응/미반응 구성비는 구축된 모형의 성능에 영향을 준다는 점에 착안하여 모형 성능 비교 실험을 하였다. 그 결과 분류기준값을 기준으로 데이터마트 구성비가 원시자료에서 1 : 1 표본추출에 가깝게 갈수록 정확도와 특이도는 떨어지고 민감도는 높아지는 양상을 보이고 있었다.
이에 본 연구에서는 반응/미반응 목표변수를 갖는 모집단에서 데이터마트 구성비에 따라 모형 성능 비교 실험을 함으로써 바람직한 모형을 구축하기 위한 데이터마트 구성에 대한 시사점을 도출하고자 한다. 모형으로는 의사결정나무모형, 로지스틱 회귀모형, 신경망모형이 활용되며, 모형 평가를 위한 통계량은 정확도(accuracy), 특이도(specificity), 민감도(sensitivity)를 사용하였다.
제안 방법
각 데이터마트의 검증용 자료 30%에 대한 오분류표를 기초로 분류기준값(cut off 또는 threshold)에 따라 정확도, 민감도, 특이도를 비교하였다. 분류 기준값으로는 0.
반응/미반응 범주의 데이터마트 구성비에 따른 구축모형의 정확도, 민감도, 특이도를 비교해 보고자 반응 고객은 전체를 추출하고 미반응 고객은 반응 고객의 20배, 15배, 10배, 8배, 6배, 4배, 2배, 1배를 표본으로 추출하여 데이터마트를 형성하였다. 표본추출방법으로는 목표변수 각 범주에 대하여 단순임의 추출법(simple random sampling)을 사용하였다.
의사결정나무는 CHAID 알고리즘, 유의수준 0.20를 적용하여 모형을 구축하였고, 로지스틱 회귀는 단계적 방법을 사용하여 모형을 구축하였다. 단계적 방법의 매 단계에서 유의수준 0.
본 연구를 위하여 사용된 자료는 A카드사에서 교차판매(cross-sell)를 위하여 TM(tele-marketing)을 수행한 2008년 8월부터 2009년 1월까지 6개월간 대상 고객자료이다. 자료에서 목표변수는 TM 대상 고객의 캠페인 반응/미반응의 이분형 변수(binary variable)이다. 본 연구에 사용된 원시자료의 크기는 표 2.
대상 데이터
모형에 고려된 설명변수는 A카드사의 내부정보와 은행연합회(KFB), 한국신용평가(KIS), 한국신용정보(NICE), 한국개인신용(KCB) 등의 외부정보이며, 분석에 이용되는 변수는 총 198개이다.
본 연구를 위하여 사용된 자료는 A카드사에서 교차판매(cross-sell)를 위하여 TM(tele-marketing)을 수행한 2008년 8월부터 2009년 1월까지 6개월간 대상 고객자료이다. 자료에서 목표변수는 TM 대상 고객의 캠페인 반응/미반응의 이분형 변수(binary variable)이다.
5이다. 사례분석을 위해 사용된 자료는 2절에서 사용된 자료와 동일하며, 2008년 8월, 9월, 10월, 11월 자료는 분석용 자료로 사용하였고, 2008년 12월, 2009년 1월 자료는 검증용 자료로 사용하였다. 표 3.
데이터처리
과대표본추출에 대한 사후확률을 오프셋 방법과 가중치 방법으로 각각 조정하고, 로지스틱 회귀모형을 적용하여 데이터마트 구성비에 따른 정확도를 비교하였다. 이때 분리 기준값은 0.
이론/모형
이에 본 연구에서는 반응/미반응 목표변수를 갖는 모집단에서 데이터마트 구성비에 따라 모형 성능 비교 실험을 함으로써 바람직한 모형을 구축하기 위한 데이터마트 구성에 대한 시사점을 도출하고자 한다. 모형으로는 의사결정나무모형, 로지스틱 회귀모형, 신경망모형이 활용되며, 모형 평가를 위한 통계량은 정확도(accuracy), 특이도(specificity), 민감도(sensitivity)를 사용하였다.
분석 모형으로는 의사결정나무(decision tree), 로지스틱 회귀(logistic regression), 신경망(neural network)을 각각 적용하여 모형을 구축한다. 이때 분석용 자료(training data) 70%, 검증용 자료(Validation Data) 30%로 분할하였다.
05하에서 유의하지 않은 변수는 제거되도록 지정하였다. 신경망은 MLP 모형(1개 은닉층, 3개 은닉노드)을 적용하였다.
반응/미반응 범주의 데이터마트 구성비에 따른 구축모형의 정확도, 민감도, 특이도를 비교해 보고자 반응 고객은 전체를 추출하고 미반응 고객은 반응 고객의 20배, 15배, 10배, 8배, 6배, 4배, 2배, 1배를 표본으로 추출하여 데이터마트를 형성하였다. 표본추출방법으로는 목표변수 각 범주에 대하여 단순임의 추출법(simple random sampling)을 사용하였다.
성능/효과
결과를 살펴보면, 각 모형별로 데이터마트 구성비가 원시자료 구성비에서 멀어질수록 정확도와 특이도는 낮아지고 민감도는 높아짐을 알 수 있다. 각 분류기준값에 대하여 0.
본 연구에서는 반응/미반응 목표변수를 갖는 모집단에서 모형 구축을 위한 데이터마트를 형성할 때 데이터마트의 반응/미반응 구성비는 구축된 모형의 성능에 영향을 준다는 점에 착안하여 모형 성능 비교 실험을 하였다. 그 결과 분류기준값을 기준으로 데이터마트 구성비가 원시자료에서 1 : 1 표본추출에 가깝게 갈수록 정확도와 특이도는 떨어지고 민감도는 높아지는 양상을 보이고 있었다. 또한, 분류기준값 0.
자료에서 목표변수는 TM 대상 고객의 캠페인 반응/미반응의 이분형 변수(binary variable)이다. 본 연구에 사용된 원시자료의 크기는 표 2.1과 같고, 반응/미반응의 비율이 3.0%/97.0%로 TM에 반응한 고객의 비율이 매우 낮아 미반응의 비율이 반응의 약 32.4배를 차지하고 있다.
표 3.1의 결과를 보면 오프셋 방법으로 조정된 사후확률의 정확도가 가중치 방법으로 조정된 사후확률의 정확도 보다 높음을 알 수 있다. 이와 같은 사례분석에서 볼 수 있듯이 과대표본추출의 문제에서 사후확률의 조정 절차가 필요하다고 하겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
분할 표본추출은 어떻게 추출하는 방법인가?
1과 같이 표본추출을 설계할 때 결합 표본추출(joint sampling)은 설명변수-목표변수(input-target) 쌍이 결합 분포로부터 랜덤하게 표본추출 된다. 반면, 분할 표본추출(separate sampling)은 목표 집단 각 범주의 분포로부터 각각 독립적으로 표본추출 된다.
결합 표본추출은 어떻게 표본추출 되는가?
아래의 그림 3.1과 같이 표본추출을 설계할 때 결합 표본추출(joint sampling)은 설명변수-목표변수(input-target) 쌍이 결합 분포로부터 랜덤하게 표본추출 된다. 반면, 분할 표본추출(separate sampling)은 목표 집단 각 범주의 분포로부터 각각 독립적으로 표본추출 된다.
희귀사건 데이터를 단순임의추출하는 경우 분석용 데이터마트가 미반응 값으로 대부분 구성되기 때문에 발생하는 문제는 무엇인가?
희귀사건 데이터를 단순임의추출하면 그 사건의 수가 다른 집단에 비해서 상대적으로 더 적어지기 때문에 해당 사건을 파악하기가 더욱 어려워진다. 이 경우 분석용 데이터마트는 미반응 값으로 대부분 구성되기 때문에 반응과 미반응을 판별해 주는 모형 구축을 위해 필요한 데이터의 구성비가 한쪽으로 편향(bias)되는 문제가 발생하게 된다. 따라서 이런 상황에서 표본추출은 추가적으로 반응 표본을 충분히 가질 수 있도록 미반응과 비교해서 상대적으로 반응에게 더 많은 비중을 부여하는 표본추출과정이 필요하다.
Galit, S., Nitin, R. P. and Peter, C. B. (2006). Data Mining for Business Intelligence, John Wiley & Sons, New York.
Scott, A. J. and Wild, C. J. (1986). Fitting logistic regression models under case-control or choice based sampling, Journal of the Royal Statistical Society B, 48, 170-182.
Scott, A. J. and Wild, C. J. (1997). Fitting regression models to case-control data by maximum likelihood, Biometrika, 84, 57-71.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.