[논문]네트워크 트래픽 데이터의 희소 클래스 분류 문제 해결을 위한 전처리 연구

류경준; 신동일; 신동규; 박정찬; 김진국

doi:10.3745/ktsde.2020.9.12.411

네트워크 트래픽 데이터의 희소 클래스 분류 문제 해결을 위한 전처리 연구
A Pre-processing Study to Solve the Problem of Rare Class Classification of Network Traffic Data 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.12, 2020년, pp.411 - 418

류경준 (세종대학교 컴퓨터공학과) , 신동일 (세종대학교 컴퓨터공학과) , 신동규 (세종대학교 컴퓨터공학과) , 박정찬 (국방과학연구소) , 김진국 (국방과학연구소)

초록
AI-Helper

정보보안을 위한 IDS(Intrusion Detection Systems)는 통상적으로 서명기반(signature based) 침입탐지시스템과 이상기반(anomaly-based) 침입 탐지시스템으로 분류한다. 이 중에서도 네트워크에서 발생하는 트래픽 데이터를 기계학습으로 분석하는 이상기반 IDS 연구가 활발하게 진행됐다. 본 논문에서는 공격 유형 학습에 사용되는 데이터에 존재하는 희소 클래스 문제로 인한 성능 저하를 해결하기 위한 전처리 방안에 대해 연구했다. 희소 클래스(Rare Class)와 준 희소 클래스(Semi Rare Class)를 기준으로 데이터를 재구성하여 기계학습의 분류 성능의 개선에 대하여 실험했다. 재구성된 3종의 데이터 세트에 대하여 Wrapper와 Filter 방식을 연이어 적용하는 하이브리드 특징 선택을 수행한 이후에 Quantile Scaler로 정규화를 처리하여 전처리를 완료한다. 준비된 데이터는 DNN(Deep Neural Network) 모델로 학습한 후 TP(True Positive)와 FN(False Negative)를 기준으로 분류 성능을 평가했다. 이 연구를 통해 3종류의 데이터 세트에서 분류 성능이 모두 개선되는 결과를 얻었다.

Abstract ▼ AI-Helper

In the field of information security, IDS(Intrusion Detection System) is normally classified in two different categories: signature-based IDS and anomaly-based IDS. Many studies in anomaly-based IDS have been conducted that analyze network traffic data generated in cyberspace by machine learning algorithms. In this paper, we studied pre-processing methods to overcome performance degradation problems cashed by rare classes. We experimented classification performance of a Machine Learning algorithm by reconstructing data set based on rare classes and semi rare classes. After reconstructing data into three different sets, wrapper and filter feature selection methods are applied continuously. Each data set is regularized by a quantile scaler. Depp neural network model is used for learning and validation. The evaluation results are compared by true positive values and false negative values. We acquired improved classification performances on all of three data sets.

주제어

표/그림 (13)

표 Table 1. The Number of Classes and Samples in the Reconstructed Data Set
그림 Fig. 1. Feature Importance Score using RandomForest for Set A, Set B, Set C and Set D
그림 Fig. 2. Feature Correlation Score using Pearson for Set A, Set B, Set C and Set D
그림 Fig. 3. Proposed Architecture for Solving Unbalanced Data Problems with Rare Classes
표 Table 2. Experimental Environment
표 Table 3. Hyper Parameter of DNN Classifier
표 Table 4. Comparison of Rare Class TP performance of Origin Data (Set A) and Merge Data (Set B)
그림 Fig. 4. Confusion Matrix of Set A
그림 Fig. 5. Confusion Matrix of Set B
표 Table 5. Comparison of Rare Class TP Performance of Origin Data (Set A) and Delete Data (Set C)
표 Table 6. Comparison of Rare Class TP Performance of Origin Data (Set A) and Merge & Delete Data (Set D)
그림 Fig. 6. Confusion Matrix of Set C
그림 Fig. 7. Confusion Matrix of Set D

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

데이터 정제는 먼저, 학습 성능의 일반화 또는 기계학습에서 중요하게 다루는 과적합(Overfitting)을 방지하기 위해 수행했다. CSE-CIC-IDS 2018 데이터 세트는 적지 않은 데이터양을 가지고 있다고 판단하여, 충분한 테스트 셋을 주기 위해 훈련 세트와 테스트 세트를 7:3의 비율로 분할 했다.
본 논문에서는 네트워크 정상 트래픽과 비정상 트래픽으로 구성된 데이터 세트의 희소 클래스(Rare Class)에 해당하는 공격 트래픽 데이터의 분류 성능을 높이기 위한 연구에 초점을 두고 데이터 구성 및 데이터 전처리와 딥러닝 분류 알고리즘을 통한 성능 개선 실험을 진행했다.
이 연구를 통해 많은 양의 데이터와 데이터의 특징 정보로부터 불필요한 정보를 제거하고 유의미한 정보만을 가지고학습하여 희소 클래스에 대한 분류 성능을 개선하고자 했다. 중요도와 상관관계를 통해 유의미한 특징을 선택하는 전처리과정을 통해 데이터를 정제하고 이를 통해 분류 성능을 높이는 결과를 얻었다.

제안 방법

CSE-CIC-IDS 2018 데이터 세트는 적지 않은 데이터양을 가지고 있다고 판단하여, 충분한 테스트 셋을 주기 위해 훈련 세트와 테스트 세트를 7:3의 비율로 분할 했다. Null 값을 포함한 레코드는 삭제하고 inf 값은 데이터 세트 내의최댓값으로 변경하였으며, 데이터형은 모두 float type으로변환했다.
Set C는 Set A에서 잡음이라고 판단할 수 있을 만큼 적은 데이터샘플을 가진 희소 클래스인 Heart bleed, Infiltration, Web Attack Sql Injection을 삭제해서 구성한 데이터 세트로 잡음을 제거했을 때, 준 희소 클래스라고 정의한 클래스들의 성능을 TP 증감율로 비교했다. Bote 591개에서 836개으로 약 41% 증가(▲), DoS Slowhttptest는 1, 532개에서 1, 610개로 약 5% 증가(▲), DoS slowloris는 1, 680개에서 1, 713개로 약 1% 증가(▲), FTP-Patator는 1, 532개에서 2, 342개로 약 52% 증가(▲), SSH-Patator는 1, 775개에서 1, 789개로 약 0.
본 논문에서는 1,500개 미만의 샘플을 가진 클래스의 데이터를 희소 클래스(Rare Class)라고 정의하고[2], 10, 000개미만의 샘플을 준 희소 클래스(Semi-Rare Class)로 구분하여해당 클래스에 대한 분류 성능을 개선하기 위해 [Table 1]과 같이 각각의 희소 클래스에 초점을 맞추고 유사 공격 데이터 합치는 방식으로 데이터를 재구성했다. 희소 클래스와 준 희소 클래스를 기준으로 클래스 병합 및 제거를 통해 4개의 데이터 세트를 구성했다.
Set A는 31 Features, Set B는 28 Features, Set C는 33 Features, Set D는 32 Feature를 얻게 된다. 새로운 Feature로 재구성된 데이터는 마지막 전처리 과정인 Quantile Normalization으로 데이터 정규화를 수행한 후, Table 3에 명시된 DNN(Deep Neural Network) Classifier를 통해 4개의 Subset에 대해 학습 및 분류를 수행한다.
두 번째, 삭제 데이터(Set C)는 원본 샘플이 적어 정상적으로 분류되지않고, 다른 클래스에 잡음으로 작용해서 분류 성능 저하의 원인으로 의심되는 3개의 희소 클래스(Infiltration, Hearbleed, Web Attack Sql Injection)를 제거한 데이터 세트로, 총 12 개의 클래스로 구성했다. 세 번째, 병합&삭제 데이터(Set D) 는 첫 번째와 두 번째 개념을 결합한 방법으로, ‘DoS’ 계열과 ‘Web Attack’ 계열을 그룹화하고, 나머지 희소 클래스인 ‘Infiltration’과 ‘Heartbleed’를 제거하여 총 8개의 클래스로 구성했다.
중요도와 상관관계를 통해 유의미한 특징을 선택하는 전처리과정을 통해 데이터를 정제하고 이를 통해 분류 성능을 높이는 결과를 얻었다. 실험에서는 유사한 데이터 분류에 가장 널리 사용되는 딥러닝 모델인 DNN Classifier를 구현하여 새로 구성한 3가지 데이터 세트의 각 공격 유형별 분류를 수행했다. 그 결과, 3개의 데이터 세트 모두 개선된 모습을 보였고 특히, 잡음으로 분류될 가능성이 있는 희소 클래스를 제거하고 준 희소(Semi Rare) 클래스로 정의한 클래스의 성능을개선하기 위해 구성한 데이터인 Delete Set(Set C)의 분류성능이 가장 눈에 띄게 개선되었다.
TP는 혼동행렬(Confusion Matrix)을 통해 알 수 있으며, 이는 단순한 정확도 측정보다 실제 정답을 정답으로 정확히 판별했는지, 각 데이터의 유형별로 알 수 있는 지표다. 해당 지표를 통해 앞서 구성한 4가지 데이터 세트의 희소 클래스 및 준 희소 클래스의 정확한 분류 성능을 측정하고 TP 개수에 따른 증감율을 백분율로 계산하여 원본 데이터에 대해 TP 개수가 얼마나 달라졌는지 나타냈다. 증가(▲)는 성능이 원본 데이터와 비교해 개선되었음을 나타내고, 감소(▼)는 원본 데이터와 비교해 저하되었음을 나타낸다.
희소 클래스에 대한 분류 성능을 개선하기 위해 데이터 세트를 재구성하고 Fig. 3의 구조를 제안했다. Fig.

대상 데이터

CSE-CIC-IDS 2018 데이터 세트는 ‘금요일 오전, 오후’, ‘월요일 오전, 오후’, ‘목요일’, ‘수요일’로 구성되었고 모든 요일의 공격 데이터는 같은 특성의 각기 다른 공격 유형으로 구성되었다.
그룹화하여 총 10개의 클래스로 구성했다. 두 번째, 삭제 데이터(Set C)는 원본 샘플이 적어 정상적으로 분류되지않고, 다른 클래스에 잡음으로 작용해서 분류 성능 저하의 원인으로 의심되는 3개의 희소 클래스(Infiltration, Hearbleed, Web Attack Sql Injection)를 제거한 데이터 세트로, 총 12 개의 클래스로 구성했다. 세 번째, 병합&삭제 데이터(Set D) 는 첫 번째와 두 번째 개념을 결합한 방법으로, ‘DoS’ 계열과 ‘Web Attack’ 계열을 그룹화하고, 나머지 희소 클래스인 ‘Infiltration’과 ‘Heartbleed’를 제거하여 총 8개의 클래스로 구성했다.
본 연구에서는 UNB(University of New brunswick)에서 고안한 CSE-CIC-IDS 2018 데이터 세트를 사용했다 [13]. CSE-CIC-IDS 2018 데이터 세트는 ‘금요일 오전, 오후’, ‘월요일 오전, 오후’, ‘목요일’, ‘수요일’로 구성되었고 모든 요일의 공격 데이터는 같은 특성의 각기 다른 공격 유형으로 구성되었다.
첫 번째, 병합 데이터(Set B)는 ‘DoS’ 계열과 ‘Web Attack’ 계열로 그룹화하여 총 10개의 클래스로 구성했다. 두 번째, 삭제 데이터(Set C)는 원본 샘플이 적어 정상적으로 분류되지않고, 다른 클래스에 잡음으로 작용해서 분류 성능 저하의 원인으로 의심되는 3개의 희소 클래스(Infiltration, Hearbleed, Web Attack Sql Injection)를 제거한 데이터 세트로, 총 12 개의 클래스로 구성했다.
방식으로 데이터를 재구성했다. 희소 클래스와 준 희소 클래스를 기준으로 클래스 병합 및 제거를 통해 4개의 데이터 세트를 구성했다.

데이터처리

Fig. 2는 특징 선택을 위해 Filter 방식으로 Pearson 통계방식을 사용하였고, Feature 간 상관관계를 분석하고 점수를행렬로 나타낸 것이다. 두 Feature 상관관계 점수가 0.
Table 4는 Set A와 Set B의 성능을 Web Attack 계열과 DoS 계열을 포함한 모든 클래스에 대한 결과를 혼동행렬에서의 TP(True Positive) 증감율로 비교했다. BENIGN의 TP 는 805020개에서 805605개로 0.

이론/모형

Qazi [12]은 네트워크 트래픽 데이터인 KDD CUP99의 데이터 불균형 문제로 인한 성능 저하를 해결하기 위해 SMOTE (Synthetic Minority Oversampling Technique) 기법을 사용했다.
Corelation 분석에 기반한 Filter 방식은 종속변수와 상관관계에 의해 Feature의 관련성을 측정하는 방식으로 모델을 학습하지 않기 때문에 Wrapper 방식보다 속도가 빠르다는 장점이 있지만, 통계 방법으로 Feature의 부분집합을 만들어 항상 최적의 Feature 부분집합을 선택하지 못한다. 따라서 본 연구에서는 Wrapper와 Filter의 2가지 방식을 순차적으로 적용하는 하이브리드 특징 선택 방법을 적용했다[14, 15].
이문제는 기계학습을 사용하기 전, 데이터를 정규화 과정으로 해결해야 하는 문제이다. 본 연구에서 정규화 방법은 Equation (3)의 Quantile Scaler를 사용하여 해결했다[2].
서로 다른 단위를 통일시켜주는 정규화 방법이 학습 성능에 미치는 영향과 우수한 정규화 방법을 알아보기 위해 ABDULAHEEM[2]은 Equation (1), (2), (3)의 3가지 정규화 방법에 대해서 실험을 진행했다.
실험 결과의 성능지표는 TP(True Positive)를 사용한다. TP는 혼동행렬(Confusion Matrix)을 통해 알 수 있으며, 이는 단순한 정확도 측정보다 실제 정답을 정답으로 정확히 판별했는지, 각 데이터의 유형별로 알 수 있는 지표다.

성능/효과

TP(True Positive) 증감율로 비교했다. BENIGN의 TP 는 805020개에서 805605개로 0.07% 증가(▲), Bote 591 개에서 762개로 28.9% 증가(▲), DDoS는 76523개에서 76780개로 증가(▲), DoS 계열의 TP의 전체 합은 75, 540개에서 75, 522로 약 0.02%로 감소(▼), FTP-Patator는 2366 개에서 2387개로 0.88% 증가(▲), Heartbleed는 4개에서 3 개로 25% 감소(▼), Infiltratione 8개에서 9개로 12.5% 증가(▲), PortScane 995585개에서 95090개로 0.51% 감소 (▼), SSH-Patator는 1755개에서 1767개로 0.45% 감소 (▼) Web Attack 계열은 410개에서 624개로 약 52% 증가 (▲)했다. 재구성 데이터 Set B는 희소 클래스가 포함된 데이터 유형의 전체적인 TP 비율이 원본 데이터와 비교했을 때, 0.
Set C는 Set A에서 잡음이라고 판단할 수 있을 만큼 적은 데이터샘플을 가진 희소 클래스인 Heart bleed, Infiltration, Web Attack Sql Injection을 삭제해서 구성한 데이터 세트로 잡음을 제거했을 때, 준 희소 클래스라고 정의한 클래스들의 성능을 TP 증감율로 비교했다. Bote 591개에서 836개으로 약 41% 증가(▲), DoS Slowhttptest는 1, 532개에서 1, 610개로 약 5% 증가(▲), DoS slowloris는 1, 680개에서 1, 713개로 약 1% 증가(▲), FTP-Patator는 1, 532개에서 2, 342개로 약 52% 증가(▲), SSH-Patator는 1, 775개에서 1, 789개로 약 0.7% 증가(▲), Web Attack Brute Force는 409개에서 439개로 약 7% 증가했고(▲), Web Attack XSS 는 0개에서 3개로 증가(▲)했다.
실험에서는 유사한 데이터 분류에 가장 널리 사용되는 딥러닝 모델인 DNN Classifier를 구현하여 새로 구성한 3가지 데이터 세트의 각 공격 유형별 분류를 수행했다. 그 결과, 3개의 데이터 세트 모두 개선된 모습을 보였고 특히, 잡음으로 분류될 가능성이 있는 희소 클래스를 제거하고 준 희소(Semi Rare) 클래스로 정의한 클래스의 성능을개선하기 위해 구성한 데이터인 Delete Set(Set C)의 분류성능이 가장 눈에 띄게 개선되었다.
2는 특징 선택을 위해 Filter 방식으로 Pearson 통계방식을 사용하였고, Feature 간 상관관계를 분석하고 점수를행렬로 나타낸 것이다. 두 Feature 상관관계 점수가 0.95 이상이면 두 Feature 중, 하나의 Feature만 존재해도 모델의학습 성능에 영향을 주지 않는다고 판단했다. 이는 학습 효율즉, 학습 시간을 개선할 수 있다고 판단하여 하나의 Feature 만 선택했다.
4~7은 Set A, Set B, Set C, Set D를 DNN Classifier를 통해 분류한 실험 결과이다. 성능이 우수함을 TP로 평가했지만 앞서 혼동 행렬(Confusion Matrix)을 통해 False Negative, False Positive의 값을 통해 각 데이터 셋의 성능을 확인할 수 있었다.
45% 감소 (▼) Web Attack 계열은 410개에서 624개로 약 52% 증가 (▲)했다. 재구성 데이터 Set B는 희소 클래스가 포함된 데이터 유형의 전체적인 TP 비율이 원본 데이터와 비교했을 때, 0.06% 증가(▲)했으므로 성능이 개선되었다고 할 수 있다.
희소 클래스에 대한 분류 성능을 개선하고자 했다. 중요도와 상관관계를 통해 유의미한 특징을 선택하는 전처리과정을 통해 데이터를 정제하고 이를 통해 분류 성능을 높이는 결과를 얻었다. 실험에서는 유사한 데이터 분류에 가장 널리 사용되는 딥러닝 모델인 DNN Classifier를 구현하여 새로 구성한 3가지 데이터 세트의 각 공격 유형별 분류를 수행했다.

후속연구

클래스도 있기에 적합하지 않다. 따라서, 향후 연구로 각 데이터 셋의 훈련을 통해 얻은 모델의 가중치를 이용하는방법으로 개선된 모델 구현이 가능할 것이라 기대된다.

참고문헌 (15)

V. Kanimozhi, and T. P. Jacob, "Artificial intelligence based network intrusion detection with hyper-parameter optimization tuning on the realistic cyber dataset CSECIC-IDS2018 using cloud computing," In: 2019 International Conference on Communication and Signal Processing (ICCSP). IEEE, pp.0033-0036, 2019.
J. H. Seo, "A comparative study on the classification of the imbalanced intrusion detection dataset based on deep learning," Journal of Korean Institute of Intelligent Systems, Vol.28, No.2, pp.152-159, 2018.

상세보기
M. H. Abdulraheem and N. B. Ibraheem, "A detailed analysis of new intrusion detection dataset," Journal of Theoretical and Applied Information Technology, Vol.97, No.17, 2019.
B. Alsughayyir, A. M. Qamar, and R. Khan, "Developing a Network Attack Detection System Using Deep Learning," In: 2019 International Conference on Computer and Information Sciences (ICCIS). IEEE. pp.1-5, 2019.
Q. Zhou and D. Pezaros, "Evaluation of Machine Learning Classifiers for Zero-Day Intrusion Detection--An Analysis on CIC-AWS-2018 dataset," arXiv preprint arXiv: 1905.03685, 2019.
B. K. Singh, K. Verma, and A. S. Thoke, "Investigations on impact of feature normalization techniques on classifier's performance in breast tumor classification," International Journal of Computer Applications, Vol.116, No.19, 2015.
Z. Liu and W. Li, "A method of SVM with normalization in intrusion detection," Procedia Environmental Sciences, Vol.11, pp.256-262, 2011.

상세보기
scikit-learn.org [Internet], https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
S. C. Hicks and R. A. Irizarry, "When to use quantile normalization?," BioRxiv, 2014.
scikit-learn.org [Internet], https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.quantile_transform.html
P. Devan and N. Khare, "An efficient XGBoost-DNN-based classification model for network intrusion detection system," Neural Computing and Applications, 1-16, 2020.
N. Qazi and K. Raza, "Effect of feature selection, SMOTE and under sampling on class imbalance classification," In: 2012 UKSim 14th International Conference on Computer Modelling and Simulation. IEEE. pp.145-150, 2012.
I. Sharafaldin, A. H. Lashkari, and A. A. Ghorbani, "Toward generating a new intrusion detection dataset and intrusion traffic characterization," In: ICISSP. pp.108-116, 2018.
J. M. Cadenas, M. C. Garrido, and R. MartiNez, "Feature subset selection filter-wrapper based on low quality data," Expert Systems with Applications, Vol.40, No.16, pp.6241-6252, 2013.

상세보기
H. Min and Wu. Fangfang, "Filter-wrapper hybrid method on feature selection," In: 2010 Second WRI Global Congress on Intelligent Systems. IEEE. pp.98-101, 2010.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증