[논문]불균형 데이터 분류를 위한 딥러닝 기반 오버샘플링 기법

손민재; 정승원; 황인준

doi:10.3745/ktsde.2019.8.7.311

불균형 데이터 분류를 위한 딥러닝 기반 오버샘플링 기법
A Deep Learning Based Over-Sampling Scheme for Imbalanced Data Classification 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.8 no.7, 2019년, pp.311 - 316

손민재 (고려대학교 전기전자공학과) , 정승원 (고려대학교 전기전자공학과) , 황인준 (고려대학교 전기전자공학과)

초록
AI-Helper

분류 문제는 주어진 입력 데이터에 대해 해당 데이터의 클래스를 예측하는 문제로, 자주 쓰이는 방법 중의 하나는 주어진 데이터셋을 사용하여 기계학습 알고리즘을 학습시키는 것이다. 이런 경우 분류하고자 하는 클래스에 따른 데이터의 분포가 균일한 데이터셋이 이상적이지만, 불균형한 분포를 가지고 경우 제대로 분류하지 못하는 문제가 발생한다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 Generative Adversarial Networks(GAN)에서 파생된 생성 모델로, 데이터의 특징을 학습하여 실제 데이터와 유사한 데이터를 생성할 수 있다. 따라서 CGAN이 데이터 수가 적은 클래스의 데이터를 학습하고 생성함으로써 불균형한 클래스 비율을 맞추어 줄 수 있으며, 그에 따라 분류 성능을 높일 수 있다. 실제 수집된 데이터를 이용한 실험을 통해 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다.

Abstract ▼ AI-Helper

Classification problem is to predict the class to which an input data belongs. One of the most popular methods to do this is training a machine learning algorithm using the given dataset. In this case, the dataset should have a well-balanced class distribution for the best performance. However, when the dataset has an imbalanced class distribution, its classification performance could be very poor. To overcome this problem, we propose an over-sampling scheme that balances the number of data by using Conditional Generative Adversarial Networks (CGAN). CGAN is a generative model developed from Generative Adversarial Networks (GAN), which can learn data characteristics and generate data that is similar to real data. Therefore, CGAN can generate data of a class which has a small number of data so that the problem induced by imbalanced class distribution can be mitigated, and classification performance can be improved. Experiments using actual collected data show that the over-sampling technique using CGAN is effective and that it is superior to existing over-sampling techniques.

주제어

표/그림 (7)

그림 Fig. 1. CGAN Training Process
그림 Fig. 2. Classification Training Process
그림 Fig. 3. Data Distribution Generated by Cgan
표 Table 1. Used Datasets
그림 Fig. 4. AUC Comparison of Classification Models
표 Table 2. Performance Comparison of Over-sampling Methods and Classification Models
표 Table 3. Result of Wilcoxon signed-rank test

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

CGAN은 사용자가 원하는 특징을 반영하여 데이터를 생성할 수 있다. 따라서 본 논문에서는 이를 활용해 소수 클래스 데이터를 생성하도록 하였다. 데이터 생성 과정은 Fig.
본 논문에서는 데이터 클래스 불균형을 해결하기 위한 새로운 방법으로 CGAN(Conditional Generative Adversarial Networks)[10] 기반의 오버샘플링 기법을 제안한다. CGAN은 GAN(Generative Adversarial Networks)[11]에서 발전된 모델로 GAN과의 차이점은 사용자가 원하는 특징을 반영하여 학습시켜 원하는 방향대로 데이터를 생성할 수 있다는 것이다.
본 논문에서는 클래스 분포가 불균형한 데이터의 분류를 위해 클래스별 특징을 반영하여 데이터를 생성할 수 있는 CGAN을 활용한 오버샘플링 기법을 제안하였다. 적절한 CGAN의 학습 횟수를 도출하기 위해 주성분을 뽑아 시각화했으며, 생성된 데이터의 유의미함을 검증하기 위해 SVM, RF, MLP분류기를 사용해 분류 학습을 진행하였다.

제안 방법

데이터 특징을 학습한 CGAN을 활용하여 오버샘플링하고 분류기의 학습을 진행하며 그 진행 과정은 Fig. 2와 같다. 학습된 CGAN의 생성기에 노이즈와 소수 클래스라는 클래스 정보를 입력하면, 생성기는 소수 클래스 데이터와 유사한 데이터를 생성한다.
학습 초기에는 원래 데이터 분포와 다른 데이터들이 생성되지만, 학습 중반과 후반에는 기존 분포와 유사하게 생성하고 있는 것을 확인할 수 있다. 데이터셋마다 유사한 분포를 생성할 수 있을 때까지 최대 13,000 Epoch만큼 학습을 진행하였다. 하지만 E-mail 데이터셋의 경우 학습 횟수를 더욱 늘려도 기존 데이터의 분포에서 벗어난 데이터를 생성하였다.
본 논문에서 제안하는 CGAN을 활용한 오버샘플링 기법을 검증하기 위해 불균형한 데이터셋을 수집하고 데이터셋 내 클래스를 분류하는 실험을 진행하였다. 실험에 사용된 데이터 집합은 세 종류로, 첫 번째 데이터는 카드 사기 데이터(Card)[22], 두 번째는 이메일 마케팅 데이터(E-mail)[23], 세 번째는 텔레마케팅 데이터(Tel)[24]이다.
GAN과 CGAN의 경우 생성기, 분류기 모두 Hidden Layer 2층으로 구성되었고 Activation Function과 Optimizer는 각각 ReLU[27], Adam[28]을 사용하였다. 분류기로 사용된 SVM은 C=1.0, 커널(Kernel)은 Radial Basis Function으로 설정하였고, RF는 100개 트리, gini index를 불순도 지표로 설정하였다. MLP 모델의 Activation Function과 Optimizer는 CGAN과 동일하나 은닉층은 3층으로 구성하였다.
이를 학습 데이터의 다수 클래스 샘플 수와 소수 클래스의 샘플 수 차이만큼 반복하여 실제 소수 클래스 데이터와 생성한 소수 클래스 데이터를 합한 수가 다수 클래스의 수와 같아지도록 만든다. 생성된 데이터와 학습 데이터를 합쳐 데이터 집합을 구성한 후 이 집합을 기계학습 및 딥러닝 알고리즘의 학습 데이터로 사용해 분류를 수행한다.
3은 CGAN이 실제 데이터 분포를 제대로 학습하는지 확인하기 위해 학습 진행에 따라 CGAN에서 생성된 데이터 분포를 시각화한 그림이다. 시각화를 위해 주성분 분석(Principal Component Analysis)[29]으로 주성분을 추출하고, x축에 첫 번째 주성분을, y축에 두 번째 주성분을 표시한 것이다. (a), (b), (c)는 차례로 각각 CGAN 학습 초반, 학습 중반, 학습 후 반 데이터 분포를 나타내며, (d)는 원 데이터의 분포이다.
CGAN은 GAN(Generative Adversarial Networks)[11]에서 발전된 모델로 GAN과의 차이점은 사용자가 원하는 특징을 반영하여 학습시켜 원하는 방향대로 데이터를 생성할 수 있다는 것이다. 이러한 점을 활용하여 CGAN 모델에 소수 클래스 샘플의 특징을 학습시키고 가상의 소수 클래스 샘플을 합성함으로써 다수 클래스와 소수 클래스의 샘플 수 차이를 없앤다.
학습된 CGAN의 생성기에 노이즈와 소수 클래스라는 클래스 정보를 입력하면, 생성기는 소수 클래스 데이터와 유사한 데이터를 생성한다. 이를 학습 데이터의 다수 클래스 샘플 수와 소수 클래스의 샘플 수 차이만큼 반복하여 실제 소수 클래스 데이터와 생성한 소수 클래스 데이터를 합한 수가 다수 클래스의 수와 같아지도록 만든다. 생성된 데이터와 학습 데이터를 합쳐 데이터 집합을 구성한 후 이 집합을 기계학습 및 딥러닝 알고리즘의 학습 데이터로 사용해 분류를 수행한다.
본 논문에서는 클래스 분포가 불균형한 데이터의 분류를 위해 클래스별 특징을 반영하여 데이터를 생성할 수 있는 CGAN을 활용한 오버샘플링 기법을 제안하였다. 적절한 CGAN의 학습 횟수를 도출하기 위해 주성분을 뽑아 시각화했으며, 생성된 데이터의 유의미함을 검증하기 위해 SVM, RF, MLP분류기를 사용해 분류 학습을 진행하였다. 실험 결과 기존의 오버샘플링 기법 대비 우수한 분류 성능을 보였고, Wilcoxon signed-rank test를 통해 성능 향상의 유의미함을 입증하였다.

대상 데이터

클래스는 이메일을 받은 후의 방문 여부로, 64,000개 중 9,394개만이 방문한 데이터다. 마지막으로 텔레마케팅 데이터셋은 총 41,188개의 데이터로, 나이, 성별, 적금 유무, 연락 일자 등 20개의 특징으로 구성되어 있다. 클래스는 구매 여부로, 4,640개만 구매 데이터이고 나머지는 비구매 데이터다.
본 논문에서 제안하는 CGAN을 활용한 오버샘플링 기법을 검증하기 위해 불균형한 데이터셋을 수집하고 데이터셋 내 클래스를 분류하는 실험을 진행하였다. 실험에 사용된 데이터 집합은 세 종류로, 첫 번째 데이터는 카드 사기 데이터(Card)[22], 두 번째는 이메일 마케팅 데이터(E-mail)[23], 세 번째는 텔레마케팅 데이터(Tel)[24]이다. 카드 사기 데이터셋은 총 284,807개의 데이터로 구성되어 있고, 보안상 처리된 28개의 변수와 금액과 시간을 포함한 총 30개의 변수를 데이터 특징으로, 사기 여부를 클래스로 가진다.
클래스 분포는 사기 492건, 비사기 284,315건으로 매우 불균형하다. 이메일 마케팅 데이터셋은 쇼핑몰 사이트에서 수집한 64,000개의 데이터로, 사이트에서 지출한 총 금액, 신규 가입 여부, 홍보 이메일 종류 등 9개의 특징으로 구성되어있다. 클래스는 이메일을 받은 후의 방문 여부로, 64,000개 중 9,394개만이 방문한 데이터다.
실험에 사용된 데이터 집합은 세 종류로, 첫 번째 데이터는 카드 사기 데이터(Card)[22], 두 번째는 이메일 마케팅 데이터(E-mail)[23], 세 번째는 텔레마케팅 데이터(Tel)[24]이다. 카드 사기 데이터셋은 총 284,807개의 데이터로 구성되어 있고, 보안상 처리된 28개의 변수와 금액과 시간을 포함한 총 30개의 변수를 데이터 특징으로, 사기 여부를 클래스로 가진다. 클래스 분포는 사기 492건, 비사기 284,315건으로 매우 불균형하다.
마지막으로 텔레마케팅 데이터셋은 총 41,188개의 데이터로, 나이, 성별, 적금 유무, 연락 일자 등 20개의 특징으로 구성되어 있다. 클래스는 구매 여부로, 4,640개만 구매 데이터이고 나머지는 비구매 데이터다. 이러한 데이터 특성은 Table 1에 요약되어 있다.
이메일 마케팅 데이터셋은 쇼핑몰 사이트에서 수집한 64,000개의 데이터로, 사이트에서 지출한 총 금액, 신규 가입 여부, 홍보 이메일 종류 등 9개의 특징으로 구성되어있다. 클래스는 이메일을 받은 후의 방문 여부로, 64,000개 중 9,394개만이 방문한 데이터다. 마지막으로 텔레마케팅 데이터셋은 총 41,188개의 데이터로, 나이, 성별, 적금 유무, 연락 일자 등 20개의 특징으로 구성되어 있다.

데이터처리

좀 더 세밀한 비교를 위해 Wilcoxon signedrank test[30]를 진행하였다. Wilcoxon signed-rank test는 두 분류기 사이에 유의한 차이가 있는지 판단하기 위해 차이가 없다는 것을 귀무가설로 설정한 후 이를 검증하는데 이용되었다. p-value 값이 유의수준 보다 작을 경우에는 귀무가설을 기각하며 두 분류기는 유의한 차이가 있다고 판단하게 된다.
특히, RF와 MLP에서 CGAN을 활용한 오버샘플링이 효과적이며, SVM에서도 안정된 분류성능을 보였다. 좀 더 세밀한 비교를 위해 Wilcoxon signedrank test[30]를 진행하였다. Wilcoxon signed-rank test는 두 분류기 사이에 유의한 차이가 있는지 판단하기 위해 차이가 없다는 것을 귀무가설로 설정한 후 이를 검증하는데 이용되었다.

이론/모형

CGAN을 활용한 오버샘플링 기법과의 비교를 위해 본 논문에서 고려한 기법으로는 Random Over-sampling(ROS), SMOTE, Borderline-SMOTE(B-SMOTE), ADASYN, GAN을 활용한 오버샘플링(GAN-OS) 등이 있다. 한편, 분류 모델로는 SVM, Random Forest(RF)[25], 그리고 Multi-Layer Perceptron(MLP)[26]을 사용하였다.
K-NN 기반인 SMOTE와 Borderline-SMOTE, ADASYN 모두 k=5를 사용하였다. GAN과 CGAN의 경우 생성기, 분류기 모두 Hidden Layer 2층으로 구성되었고 Activation Function과 Optimizer는 각각 ReLU[27], Adam[28]을 사용하였다. 분류기로 사용된 SVM은 C=1.
분류기의 정확도를 측정하기 위한 평가 척도는 클래스 불균형 데이터에 가장 많이 이용되는 Area Under the ROC Curve(AUC)를 사용하였다[2]. ROC Curve는 x축을 False positive rate, y축을 True positive rate로 두고, 문턱값 변화에 따라 False positive rate와 True positive rate의 변화를 그린 그래프를 의미하며, ROC Curve의 아래 면적을 AUC라 한다.
생성기 역시 y의 성질을 가지도록 데이터를 생성하도록 학습한다. 이러한 CGAN의 특징을 활용하여 소수 클래스의 특징을 갖는 샘플을 생성하는 오버샘플링 모델로 활용한다.
CGAN을 활용한 오버샘플링 기법과의 비교를 위해 본 논문에서 고려한 기법으로는 Random Over-sampling(ROS), SMOTE, Borderline-SMOTE(B-SMOTE), ADASYN, GAN을 활용한 오버샘플링(GAN-OS) 등이 있다. 한편, 분류 모델로는 SVM, Random Forest(RF)[25], 그리고 Multi-Layer Perceptron(MLP)[26]을 사용하였다. 실험은 모두 Python 3.

성능/효과

데이터의 경우 모든 분류기에서 평균 4%의 AUC 향상을 보였고, E-mail 데이터의 경우 SVM에서 27%, MLP에서 13%로 대폭 향상되었다.
기계학습 알고리즘들은 각 클래스의 비율이 비슷한 상황을 가정하기 때문에, 클래스가 불균형한 데이터셋의 경우 전체적인 데이터에 대해 제대로 학습하지 못하고 큰 비중을 차지하는 클래스에 편향되어 학습한다[1]. 그 결과 전체적인 정확도는 높으나 정작 원하는 항목에 대해서는 분류해내지 못하는 클래스 불균형 현상이 발생된다.
Liu 등[21]은 SMOTE로 소수 클래스 샘플을 일정 수 오버샘플링한 후 다수 클래스 샘플을 언더샘플링하여 두 클래스 샘플 수의 균형을 맞추는 방식을 제안하였다. 본 논문에서는 딥러닝 생성 모델 중 하나인 CGAN을 활용하여, 소개한 기존 기법들과 다르게 오버샘플링하였으며 기존 기법들보다 뛰어난 분류 성능을 보였다.
적절한 CGAN의 학습 횟수를 도출하기 위해 주성분을 뽑아 시각화했으며, 생성된 데이터의 유의미함을 검증하기 위해 SVM, RF, MLP분류기를 사용해 분류 학습을 진행하였다. 실험 결과 기존의 오버샘플링 기법 대비 우수한 분류 성능을 보였고, Wilcoxon signed-rank test를 통해 성능 향상의 유의미함을 입증하였다.
표에서 볼 수 있듯이 본 논문에서 제안하는 오버샘플링 기법이 기존 오버샘플링 기법들에 비해 전반적으로 우수한 성능을 보임을 확인할 수 있다. 특히, RF와 MLP에서 CGAN을 활용한 오버샘플링이 효과적이며, SVM에서도 안정된 분류성능을 보였다. 좀 더 세밀한 비교를 위해 Wilcoxon signedrank test[30]를 진행하였다.
Table 2는 기존 오버샘플링 기법과의 성능을 비교한 표이다. 표에서 볼 수 있듯이 본 논문에서 제안하는 오버샘플링 기법이 기존 오버샘플링 기법들에 비해 전반적으로 우수한 성능을 보임을 확인할 수 있다. 특히, RF와 MLP에서 CGAN을 활용한 오버샘플링이 효과적이며, SVM에서도 안정된 분류성능을 보였다.

후속연구

향후 연구에서는 CGAN의 샘플을 생성하는데 있어, 보다 유의미한 소수 클래스 샘플을 찾아내 그를 대상으로 샘플링하는 연구를 진행할 것이다. 또한 다른 더 많은 불균형 데이터에 실험을 통해 보다 최적화된 모델을 구축할 계획이다.
향후 연구에서는 CGAN의 샘플을 생성하는데 있어, 보다 유의미한 소수 클래스 샘플을 찾아내 그를 대상으로 샘플링하는 연구를 진행할 것이다. 또한 다른 더 많은 불균형 데이터에 실험을 통해 보다 최적화된 모델을 구축할 계획이다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증