불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점
On sampling algorithms for imbalanced binary data: performance comparison and some caveats 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.5, 2017년, pp.681 - 690  

김한용 (인하대학교 통계학과) ,  이우주 (인하대학교 통계학과)

파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

Various imbalanced binary classification problems exist such as fraud detection in banking operations, detecting spam mail and predicting defective products. Several sampling methods such as over sampling, under sampling, SMOTE have been developed to overcome the poor prediction performance of binar...


문제 정의

  • 특히 이 과정에서 우리는 기존의 많은 문헌들이 위의 3가지 샘플링 기법을 잘못 적용하는 여러 사례를 살펴볼 수 있었다 (Ren 등, 2015). 따라서, 본 논문에서는 실제 샘플링 방법을 사용할 때 쉽게 실수할 수 있는 부분을 먼저 지적하고, 잘못 적용되었을 때 나타나는 문제점에 대해 논의하고자 한다. 이는 네 개의 실제 이항 자료 분류 문제를 통해서 구체적으로 설명될 것이다.
  • 본 연구에서는 이항 자료 분류 모형으로 많이 사용되는 기계 학습모형인 로지스틱 회귀모형, Lasso, 랜덤 포레스트, 부스팅, 서포트 벡터 머신(support vector machine; SVM)에 위의 3가지 샘플링 기법을 적용하여 분류 성능의 개선 여부를 사례 연구를 통해 살펴보고자 한다. 특히 이 과정에서 우리는 기존의 많은 문헌들이 위의 3가지 샘플링 기법을 잘못 적용하는 여러 사례를 살펴볼 수 있었다 (Ren 등, 2015).
