[논문]머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로

이규남; 임종태; 복경수; 유재수

doi:10.5392/jkca.2019.19.11.567

머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로
Handling Method of Imbalance Data for Machine Learning : Focused on Sampling 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.19 no.11, 2019년, pp.567 - 577

이규남 (충북대학교 빅데이터학과) , 임종태 (충북대학교 정보통신공학과) , 복경수 (원광대학교 SW융합학과) , 유재수 (충북대학교 정보통신공학과)

초록
AI-Helper

최근 학계, 산업계 등에서 접하는 기존의 문제를 머신러닝을 통해 해결하려는 시도가 증가하고 있다. 이에 따라 이탈, 사기탐지, 장애탐지 등 일반적이지 않은 상황을 머신러닝으로 해결하기 위한 다양한 연구가 이어지고 있다. 대부분의 일반적이지 않은 환경에서는 데이터가 불균형하게 분포하며, 이러한 불균형한 데이터는 머신러닝의 수행과정에서 오류를 야기하므로 이를 해결하기 위한 불균형 데이터 처리 기법이 필요하다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문에서는 성능평가를 통해 제안하는 기법이 기존 기법에 비해 성능이 우수함을 보인다.

Abstract ▼ AI-Helper

Recently, more and more attempts have been made to solve the problems faced by academia and industry through machine learning. Accordingly, various attempts are being made to solve non-general situations through machine learning, such as deviance, fraud detection and disability detection. A variety of attempts have been made to resolve the non-normal situation in which data is distributed disproportionately, generally resulting in errors. In this paper, we propose handling method of imbalance data for machine learning. The proposed method to such problem of an imbalance in data by verifying that the population distribution of major class is well extracted. Performance Evaluations have proven the proposed method to be better than the existing methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안했다. 제안하는 기법은 샘플링 방법을 중심으로 다수 클래스의 모집단 분포를 잘 추출하도록 검증하여 불균형 데이터를 처리하는 방법이다.
본 논문에서는 머신러닝을 위한 불균형 데이터 처리방법을 제안한다. 제안하는 기법은 데이터 레벨 접근 방법을 개선한 실무에 적합한 샘플링 방법을 제안한다.

가설 설정

데이터 불균형 문제의 가장 큰 문제는 데이터 분류 예측 시 기계 학습에 부정적인 영향을 준다는 것이다. 의사 결정모형이나 신경망 모형은 훈련 데이터 셋이 등급 간 균일하게 분포한다고 가정한다[1]. 그러나 위에서 서술한대로 사기 탐지, 허가되지 않은 네트워크 침입 탐지, 장애 탐지, 의료 진단 등 실제 세상에서 발생하는 많은 분류 예측 문제들은 등급 간 데이터가 균일하게 분포하지 않으며 비율 또한 매우 낮은 경우가 대다수이다.

제안 방법

본 논문에서 측정하는 모델의 성능은 Precision(정확도), Recall(재현율), Error ratio(에러 비율), F score로 측정하였다. Precision, Recall, Error ratio은 F score가 같을 경우 참고하기 위함이며 최종적으로 모델의 성능은 F score를 기반으로 측정하였다. 모델의 Precision은 (식 1)과 같고 Recall은 (식 2)와 같으며 Error ratio은 (식 3)과 같으며 F score는 (식 4)와 같다.
[표 2]는 17개 기법 별 10개 데이터의 정확도, 재현율, 에러비율, F1 점수의 평균 테이블이다. 각 데이터 별로 기법을 적용하여 나온 정확도와 재현율, 에러 비율과 F1 score를 평균을 낸 것이다. [표 2]에 대한 세부 내용은 부록 1에서 보다 자세히 확인할 수 있다.
성능평가를 위해 2/3은 train data set으로 1/3은 test data set으로 분할하였다. 본 논문에서 측정하는 모델의 성능은 Precision(정확도), Recall(재현율), Error ratio(에러 비율), F score로 측정하였다. Precision, Recall, Error ratio은 F score가 같을 경우 참고하기 위함이며 최종적으로 모델의 성능은 F score를 기반으로 측정하였다.
세 번째 방법은 ALLKNN 방법[13]으로 ENN을 변형한 방식으로 k값을 설정하여 1<= i <= k 범위의 모든 i-NN을 수행한다.
본 논문에서는 머신러닝을 위한 불균형 데이터 처리방법을 제안한다. 제안하는 기법은 데이터 레벨 접근 방법을 개선한 실무에 적합한 샘플링 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다.
본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안했다. 제안하는 기법은 샘플링 방법을 중심으로 다수 클래스의 모집단 분포를 잘 추출하도록 검증하여 불균형 데이터를 처리하는 방법이다. 제안하는 방법은 샘플링 방법을 통해 데이터 불균형으로부터 초래되는 오류를 해결했다.
이는 잘못된 데이터를 활용하게 되었을 때, Class를 분할하기 위해 경계선을 찾는 과정에서 오류를 야기할 수 있다. 제안하는 기법은 샘플링을 통해 축약한 분포가 이전의 데이터 분포를 잘 축약하는지 검증을 수행하여 잘못된 샘플링을 할 가능성을 감소시킨다. 샘플링한 것이 데이터 분포를 잘 축약하였는지 검증을 통해 잘 축약하지 못하였다고 판단될 경우 해당 샘플링을 배제한다.
제안하는 기법은 언더 샘플링 접근 방법으로 훈련 데이터 셋의 다수 클래스를 학습을 통해 제거하는 방법이다. [그림 1]은 학습에 사용할 데이터 셋이다.
따라서 분석가의 경험에 비추어 방법을 선택하거나 가장 논리적인 방법을 선택해야한다. 제안하는 기법은 훈련 검증을 통해 다수 클래스의 데이터를 샘플링한 것이 다수 클래스를 대표한다고 가정하여 자원이 제약적인 상황에서 빠르게 분석해야만 하는 상황에 활용할 수 있다. 그리고 다수 클래스만을 이용해서 훈련 검증을 진행하면서 분석가가 휴리스틱하게 정확도를 조정하면서 수행 시간을 보다 단축할 수 있다.
제안하는 기법은 데이터 레벨 접근 방법을 개선한 실무에 적합한 샘플링 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다.
제안하는 기법은 샘플링 방법을 중심으로 다수 클래스의 모집단 분포를 잘 추출하도록 검증하여 불균형 데이터를 처리하는 방법이다. 제안하는 방법은 샘플링 방법을 통해 데이터 불균형으로부터 초래되는 오류를 해결했다. 16가지 기존 기법들과 10개의 데이터 셋으로 검증해본 결과 제안하는 기법이 우수한 기법임을 성능평가를 통해 검증하였다.
이 때, 그림과 같이 다수 클래스는 소수 클래스보다 크기가 큰 불균형 데이터이다. 제안하는 훈련 검증 방법은 다수 클래스를 소수 클래스 와 비중을 같게 언더 샘플링 하는 방법이다.
언더 샘플링의 방법에는 크게 11가지가 존재한다. 첫 번째로, ENN(Editetd Nearest Neighbours)방법은 KNN을 사용해 다수 클래스 데이터를 축소. 이웃한 데이터 중 자신과 같은 클래스보다 다른 클래스의 데이터가 많을 경우 해당 데이터는 제외하는 방법이다[12].

대상 데이터

[그림 1]은 학습에 사용할 데이터 셋이다. 데이터 셋은 모델 학습에 사용할 Train data set과 성능 평가에 사용할 Test data set으로 구성되어 있다. 그리고 각 데이터 셋은 다수 클래스와 소수 클래스로 분할되어 있다.
1로 구현됐다. 제안하는 기법의 성능평가를 위해 [9]에서 사용된 데이터 셋[22] 중 k-fold과 유사한 데이터 등을 제외하고 성능평가에 사용하였다. [표 1]은 성능평가에 사용된 데이터의 정보이다.

데이터처리

제안하는 방법은 샘플링 방법을 통해 데이터 불균형으로부터 초래되는 오류를 해결했다. 16가지 기존 기법들과 10개의 데이터 셋으로 검증해본 결과 제안하는 기법이 우수한 기법임을 성능평가를 통해 검증하였다. 본 논문에서 제안된 방법은 데이터가 불균형한 환경에서의 이탈, 사기탐지, 장애탐지 등에 활용될 수 있다.

성능/효과

성능평가 결과, 제안하는 기법이 F1 점수가 가장 높아서 가장 우수한 기법으로 측정되었다. 특히, 제안하는 기법은 Random Under Sampling 기법을 기반으로 하는 방법으로 기존의 Random Under Sampling 기법보다 정확도, 재현율, 에러 비율 모두 성능이 우수하게 측정되었다.
일반적인 샘플링 기법은 어떤 샘플링 기법이 성능을 올릴 수 있는지 모든 샘플링 방법에 대한 조합을 검토해야한다. 우측의 붉은 부분의 제안하는 기법의 모델링은 샘플링 된 데이터가 전체 모집단을 대표한다고 주장할 수 있으므로 모든 조합을 검토해보는 시간이 감소하여 빠르게 모델링이 가능하다.
기존 기법들은 샘플링 후 훈련, validation data set을 통해 정확도 상승을 확인할 수밖에 없다. 제안하는 기법을 사용하면 샘플링 후 훈련 셋으로만 검증을 통해 주장할 수 있으며 특히, 소수 클래스 데이터를 사용하지 않고 다수 클래스만을 이용해 타 기법들 대비 빠르게 훈련 검증을 통해 주장할 수 있다.
성능평가 결과, 제안하는 기법이 F1 점수가 가장 높아서 가장 우수한 기법으로 측정되었다. 특히, 제안하는 기법은 Random Under Sampling 기법을 기반으로 하는 방법으로 기존의 Random Under Sampling 기법보다 정확도, 재현율, 에러 비율 모두 성능이 우수하게 측정되었다.

후속연구

향후 연구에서는 현재 성능평가를 수행한 F지표 이외에도 다양한 성능 평가를 통해 제안하는 기법의 우수성을 증명할 것이다. 또한 현재 본 논문에서는 샘플링 기법을 통해 불균형 문제는 해결하였는데, 불균형 데이터 셋을 모델링 방법으로 해결하는 기법을 연구하여 성능을 향상시킬 예정이다.
16가지 기존 기법들과 10개의 데이터 셋으로 검증해본 결과 제안하는 기법이 우수한 기법임을 성능평가를 통해 검증하였다. 본 논문에서 제안된 방법은 데이터가 불균형한 환경에서의 이탈, 사기탐지, 장애탐지 등에 활용될 수 있다. 향후 연구에서는 현재 성능평가를 수행한 F지표 이외에도 다양한 성능 평가를 통해 제안하는 기법의 우수성을 증명할 것이다.
본 논문에서 제안된 방법은 데이터가 불균형한 환경에서의 이탈, 사기탐지, 장애탐지 등에 활용될 수 있다. 향후 연구에서는 현재 성능평가를 수행한 F지표 이외에도 다양한 성능 평가를 통해 제안하는 기법의 우수성을 증명할 것이다. 또한 현재 본 논문에서는 샘플링 기법을 통해 불균형 문제는 해결하였는데, 불균형 데이터 셋을 모델링 방법으로 해결하는 기법을 연구하여 성능을 향상시킬 예정이다.

참고문헌 (22)

Shaza M. Abd Elrahman and Ajith Abraham, "A review of class imbalance problem," Journal of Network and Innovative Computing, Vol.1, pp.332-340, 2013.
Haibo He and Edwardo A. Garcia, "Learning from imbalanced data," IEEE Transactions on Knowledge & Data Engineering, Vol.21, No.9, pp.1263-1284, 2009.

상세보기
Arpit Singh and Anuradha Purohit, "A survey on methods for solving data imbalance problem for classification," International Journal of Computer Applications, Vol.127, No.15, pp.37-41, 2015.
Rushi Longadge, Snehlata S. Dongre, and Latesh Malik, "Class imbalance problem in data mining review," Internation Journal of Computer Science and Network, Vol.2, No.1, pp.1-6, 2013.
Joffrey L. Leevy, Taghi M. Khoshgoftaar, Richard A. Bauder, and Naeem Seliya, "A survey on addressing high-class imbalance in big data," Journal of Big Data, Vol.5, No.1, pp.1-30, 2018.

상세보기
Zhaohui Zheng, Xiaoyun Wu, and Rohini Srihari, "Feature selection for text categorization on imbalanced data," ACM Sigkdd Explorations Newsletter, Vol.6, No.1, pp.80-89, 2004.

상세보기
Peng Cao, Dazhe Zhao, and Osmar Zaiane, "An optimized cost-sensitive SVM for imbalanced data learning," Proc. Pacific-Asia conference on knowledge discovery and data mining, pp.280-292, 2013.
Peng Cao, Dazhe Zhao, and Osmar R. Zaiane, "A PSO-based cost-sensitive neural network for imbalanced data classification," Proc. Pacific-Asia conference on knowledge discovery and data mining, pp.452-463, 2013.
Alberto Fernandeza, Salvador Garcia, Maria Jose del Jesus, and Francisco Herrera, "A study of the behaviour of linguistic fuzzy rule based classification systems in the framework of imbalanced data-sets," Fuzzy Sets and Systems, Vol.159, No.18, pp.2378-2398, 2008.

상세보기
S. Picek, A. Heuser, A. Jovic, S. Bhasin, and F. Regazzoni, "The curse of class imbalance and conflicting metrics with machine learning for side-channel evaluations," 2018.
Z. Chen, Q. Yan, H. Han, S. Wang, L. Peng, L. Wang, and B. Yang, "Machine learning based mobile malware detection using highly imbalanced network traffic," Information Sciences, Vol.433, pp.346-364, 2018.

상세보기
Dennis L. Wilson, "Asymptotic properties of nearest neighbor rules using edited data," IEEE Transactions on Systems, Man, and Cybernetics, Vol.3, pp.408-421, 1972.
I. Tomek, "An experiment with the edited nearest-neighbor rule," IEEE Transactions on systems, Man, and Cybernetics, Vol.6, No.6, pp.448-452, 1976.

상세보기
I. Tomek, "Two Modifications of CNN," IEEE Transactions on Systems, Man and Cybernetics, Vol.6, No.11, pp.769-772, 1976.

상세보기
Kubat, Miroslav, and Stan Matwin, "Addressing the curse of imbalanced training sets: one-sided selection," Proc. International Conference on Machine Learning, Vol.97, pp.179-186, 1997.
J. Laurikkala, "Improving identification of difficult small classes by balancing class distribution," Proc. Conference on Artificial Intelligence in Medicine in Europe - Artificial Intelligence in Medicine, pp.63-66, 2001.
Mani, Inderjeet and I. Zhang, "kNN approach to unbalanced data distributions: a case study involving information extraction," Proc. workshop on learning from imbalanced datasets, Vol.126, 2003.
N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique," Journal of artificial intelligence research, Vol.16, No.1, pp.321-357, 2002.

상세보기
H. He, Y. Bai, E. A. Garcia, and S. Li, "ADASYN: Adaptive synthetic sampling approach for imbalanced learning," Proc. IEEE International Joint Conference on Neural Networks, pp.1322-1328, 2008.
Batista, Gustavo EAPA, Ana LC Bazzan, and Maria Carolina Monard, "Balancing Training Data for Automated Annotation of Keywords: a Case Study," Proc. Workshop on Bioinformatics, 2003.
Batista, Gustavo EAPA, Ronaldo C. Prati and Maria Carolina Monard, "A study of the behavior of several methods for balancing machine learning training data," SIGKDD Explorations, Vol.6, No.1, pp.20-29, 2004.

상세보기
https://sci2s.ugr.es/keel/imbalanced.php?orderir#sub10, 2019.8.18.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증