Hybrid Feature Selection과 Data Balancing을 통한 효율적인 네트워크 침입 탐지 모델 Improved Network Intrusion Detection Model through Hybrid Feature Selection and Data Balancing원문보기
최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며, 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델인 HFS-DNN을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 기존 분류 모델들과 성능 비교를 수행한다. 본 연구에서 제안된 Hybrid Feature Selection 알고리즘이 학습 모델의 성능을 왜곡 시키지 않는 것을 확인하였으며, 불균형을 해소한 학습 모델들간 실험에서 본 논문에서 제안한 학습 모델이 가장 좋은 성능을 보였다.
최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며, 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델인 HFS-DNN을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 기존 분류 모델들과 성능 비교를 수행한다. 본 연구에서 제안된 Hybrid Feature Selection 알고리즘이 학습 모델의 성능을 왜곡 시키지 않는 것을 확인하였으며, 불균형을 해소한 학습 모델들간 실험에서 본 논문에서 제안한 학습 모델이 가장 좋은 성능을 보였다.
Recently, attacks on the network environment have been rapidly escalating and intelligent. Thus, the signature-based network intrusion detection system is becoming clear about its limitations. To solve these problems, research on machine learning-based intrusion detection systems is being conducted ...
Recently, attacks on the network environment have been rapidly escalating and intelligent. Thus, the signature-based network intrusion detection system is becoming clear about its limitations. To solve these problems, research on machine learning-based intrusion detection systems is being conducted in many ways, but two problems are encountered to use machine learning for intrusion detection. The first is to find important features associated with learning for real-time detection, and the second is the imbalance of data used in learning. This problem is fatal because the performance of machine learning algorithms is data-dependent. In this paper, we propose the HSF-DNN, a network intrusion detection model based on a deep neural network to solve the problems presented above. The proposed HFS-DNN was learned through the NSL-KDD data set and performs performance comparisons with existing classification models. Experiments have confirmed that the proposed Hybrid Feature Selection algorithm does not degrade performance, and in an experiment between learning models that solved the imbalance problem, the model proposed in this paper showed the best performance.
Recently, attacks on the network environment have been rapidly escalating and intelligent. Thus, the signature-based network intrusion detection system is becoming clear about its limitations. To solve these problems, research on machine learning-based intrusion detection systems is being conducted in many ways, but two problems are encountered to use machine learning for intrusion detection. The first is to find important features associated with learning for real-time detection, and the second is the imbalance of data used in learning. This problem is fatal because the performance of machine learning algorithms is data-dependent. In this paper, we propose the HSF-DNN, a network intrusion detection model based on a deep neural network to solve the problems presented above. The proposed HFS-DNN was learned through the NSL-KDD data set and performs performance comparisons with existing classification models. Experiments have confirmed that the proposed Hybrid Feature Selection algorithm does not degrade performance, and in an experiment between learning models that solved the imbalance problem, the model proposed in this paper showed the best performance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 기계학습 모델에 불필요한 속성들과 중첩속성들을 제거하기 위해서 HFS (Hybrid Feature Selection) 기법을 제안하며, 이를 심층 신경망에 이용한 HFS-DNN (Deep Neural Network) 모델을 제안한다. 기존의 많은 입력 속성 값들을 모두 학습에 사용하는 것과 달리 HFS 기법을 통해 32% 규모의 입력만을 사용해 동일한 학습 효과를 보장하는 것을 실험을 통해 검증하며, 학습에 사용된 NSL-KDD 데이터 셋의 불균형 문제로 인한 소수 클래스(Minor Class)들의 저조한 탐지율을 개선하고자 SMOTE (Synthetic Minority Over sampling Technique)[10]기법과 RUS (Random Under Sampling) 기법들을 활용하여 불균형 문제를 다루었다.
본 논문에서는 네트워크 침입 탐지의 성능 개선을 위해 Hybrid Feature Selection 기법을 제안하였으며, 이를 심층 신경망에 이용한 HFS-DNN (Deep Neural Network) 모델을 제안하였다. 또한 학습에 사용된 NSL-KDD 데이터셋의 불균형 문제를 해소하기 위해 SMOTE와 RUS 기법을 사용한다.
본 절에서는 4.1절에서 아직 해소하지 못한 불균형 문제를 Table 4에 제시된 밸런싱을 진행한 데이터 셋을 통해 실험을 진행하고, 다른 기계학습 모델들과 성능을 비교하여 보고한다. Fig.
제안 방법
특징 선택을 진행하였다. 0.9 임계값을 사용하여 특징들의 관계를 분석하였으며, 이들의 관계를 무방향 그래프 자료구조로 표현하였다. 이렇게 표현된 그래프 안에서 최소수 하위 특징 집합을 선택할 경우 입력 특징 집합의 크기를 최소화 할 수 있으며, 이는 최소 지배 집합 문제(Minimum dominating set)로 귀결된다[1].
Neural Network) 모델을 제안한다. 기존의 많은 입력 속성 값들을 모두 학습에 사용하는 것과 달리 HFS 기법을 통해 32% 규모의 입력만을 사용해 동일한 학습 효과를 보장하는 것을 실험을 통해 검증하며, 학습에 사용된 NSL-KDD 데이터 셋의 불균형 문제로 인한 소수 클래스(Minor Class)들의 저조한 탐지율을 개선하고자 SMOTE (Synthetic Minority Over sampling Technique)[10]기법과 RUS (Random Under Sampling) 기법들을 활용하여 불균형 문제를 다루었다. 실험에 사용된 평가 지표는 Accuracy, Precision, Recall, F1-Score이며, 실험 결과는 Decision Tree, Random Forest, KNN (K-Nearest Neighbor), SVM (Support Vector Machine), Multinomial Naive Bayes 모델들과 비교하였다.
데이터의 절반에 해당하는 Normal 클래스는 다수 클래스로 RUS (Random Under Sampling) 기법을 통해 데이터를 샘플 수를 축소하였으며, 상대적으로 소수 클래스에 해당하는 Probe, U2R, R2Le SMOTE (Synthetic Minority Over Sampling Technique) 기법을 통해 샘플 수를 비슷한 수준의 크기로 늘려주었다. Table 4를 참조하면 불균형을 해소한 데이터 셋의 샘플수와 비율을 확인할 수 있으며, 분류 모델의 소수 클래스들의 탐지율 개선을 기대할 수 있다.
이는 전체 샘플 중 옳게 평가된 샘플 수의 비율을 의미하기에 모델의 출력이 모두 다수 클래스로 예측하더라도 높은 결과를 보이기 때문이다. 따라서 Recall, Precision, F1-Score와 같은 불균형 데이터에서의 많이 사용되는 지표들과 함께 성능을 비교한다. 학습모델의 실험 결과는 Decision Tree, Random Forest, KNN (K-Nearest Neighbor), SVM (Support Vector Machine), Multinomial Naive Bayes 모델과 비교 및 분석한다.
제안된 Hybrid Feature Selection을 통해 32% 규모로 입력 차원을 축소할 수 있었으며, 실험을 통해 축소된 입력 차원으로 기존과 동일한 성능을 보장하는 것을 확인할 수 있었다. 또한 오버 샘플링 기법을 통해 소수 클래스의 탐지율 개선을 실험을 통해 확인할 수 있었다. 하지만 U2R 클래스는 탐지율이 개선되지 않았는데, 이는 학습 데이터 셋과 테스트 데이터 셋의 간극이 너무 큰 것으로 분석된다.
따라서 이러한 문제를 해결한 He Initializer를사용하여 신경망의 초기값을 설정한다. 또한 학습 데이터에 과적합이 되는 것을 방지하기 위해서 L2 규제를 사용하였다.
이는 노드의 중요도 값이 클수록 해당 노드에서의 불순도가 크게 감소하는 것을 의미한다. 본 논문에서는 Random Forest 학습모델을 통해 이러한 특징 중요도를 추출한 뒤 정렬하여, 임계 값 0.0001값을 통해 상위 55개의 특징을 선출하였다.
Nutan 외[3]는 Hybrid Feature Selection 방법을 제안하였다. 서로 다른 특징 선택 알고리즘으로부터 중복 제거합집합으로 표현하여 학습에 사용하였다.
Table 5를 통해 제안된 심층 신경망 네트워크의 구조를 확인할 수 있으며, 은닉 계층(Hidden layer) 의활성 함수로 relu를 사용하였다. 신경망의 입력 계층은 3.1 절의 전처리 과정과 3.2절의 특징 선택 과정을 통해 39개이입력 크기를 가지며, Fully Connected Network를 사용하였다. 신경망의 학습에서 초기 가중치 설정은 매우 중요한 역할을 하는데, 이는 기울기 소실(Gradient vanishing)과 같은 문제로 이어질 수 있기 때문이다.
본 논문에서 학습에 사용하는 NSL-KDD 데이터 셋 또한 Table 4 와 같이 클래스 간 샘플 수의 차이가 매우 크다. 이러한 문제를 해결하기 위해서 본 논문에서는 오버샘플링(Over sampling) 기법과 언더 샘플링 기법(Under sampling)을 통해 불균형문제를 해소한다.
3절에서 소개된 Data Balancing 단계를 거쳐 Table 4의 Balanced KDD Train 과 같이 변경 후 사용하며, 전체 학습 데이터 중 30%를 검증용 데이터(Validation set)로 사용하여 심층 신경망 모델의 학습 과정에서 과적합 여부를 판단한다. 이를 통해 검증 오류율(Validation loss)이 10 epoch 이상 증가할 경우 조기 멈춤 하였으며, 이후 학습에서 가장 검증 오류율이 낮았던 모델을 테스트에 사용하였다. 전체 epoche 50을 사용하였으며, batch size는 64를 사용하였다.
본 논문에서 제시하는 HFS는 이러한 두 가지 관점의 특징들을 모두 걸러낼 수 있다. 이와 같이 위에 제시된 3가지 특징 선택 기법의 교집합을 통해, 단일 특징 선택에 비해 더 작으면서 학습 성능을 저해하지 않는 입력 특징 집합을 획득하였다. 최종적으로 Table 3에서 제시된 39개의 특징을 사용한다.
강승호 외[1]는 NSL-KDD 데이터로부터 Pearson 상관계수 기반의 특징 선택 알고리즘을 제안하였다. 주어진 임계치 이상의 상관계수를 갖는 특징 집합을 그래프 자료구조로 표현한 뒤, 최소 지배 집합(Minimum dominating set)문제로 정의하였으며 이를 해결하는 휴리스틱 알고리즘을 제안하였다. 최희수 외 [2]는 NSL-KDD 데이터로부터 특징들의 빈도수와 평균값을 통한 새로운 특징 선택 기법 AR (Attribute Ratio)을 제안하였다.
2절에서 언급한 특징 선택 기법들을 통해 선택된 특징 하위 집합들의 크기와 그에 따른 성능을 비교하고 있다. 학습에 사용된 심층 신경망은 Table 5에서 언급한 네트워크와 동일한 구조를 가지고 있으며, 오버 샘플링을 하지 않았기에 데이터 수가 적은 것을 감안하여 20% 만을 검증용 데이터로 사용하여 조기 멈춤을 실행하였다. 각 특징 선택들의 임계값은 3.
대상 데이터
NSL-KDD 데이터 셋은 1999년 DARPA 침입탐지 평가프로그램을 통해 만들어진 KDD CUP 99 데이터 셋을 M. Tavallaee 외 [12]가 개선하여 제안한 데이터 셋으로, 미 공군의 네트워크를 모델링하여 38가지의 네트워크 침입 탐지 공격 시뮬레이션을 통해 만들어 졌다. M.
본 연구에서는 실험을 위해 NSL-KDD 데이터 셋에서 학습과 테스트를 위해 제공되는 KDDTrain+, KDDTest+ 데이터를 사용한다. 학습 데이터는 3.
따라서 본 논문에서는 Table 2의 각 행의 맨 앞 4가지 속성만을 사용하며, 나머지 중첩 특징들은 제거한다. 이를 통해 113개의 특징을 선출하였다.
이를 통해 검증 오류율(Validation loss)이 10 epoch 이상 증가할 경우 조기 멈춤 하였으며, 이후 학습에서 가장 검증 오류율이 낮았던 모델을 테스트에 사용하였다. 전체 epoche 50을 사용하였으며, batch size는 64를 사용하였다.
사용한다. 학습 데이터는 3.3절에서 소개된 Data Balancing 단계를 거쳐 Table 4의 Balanced KDD Train 과 같이 변경 후 사용하며, 전체 학습 데이터 중 30%를 검증용 데이터(Validation set)로 사용하여 심층 신경망 모델의 학습 과정에서 과적합 여부를 판단한다. 이를 통해 검증 오류율(Validation loss)이 10 epoch 이상 증가할 경우 조기 멈춤 하였으며, 이후 학습에서 가장 검증 오류율이 낮았던 모델을 테스트에 사용하였다.
데이터처리
기존의 많은 입력 속성 값들을 모두 학습에 사용하는 것과 달리 HFS 기법을 통해 32% 규모의 입력만을 사용해 동일한 학습 효과를 보장하는 것을 실험을 통해 검증하며, 학습에 사용된 NSL-KDD 데이터 셋의 불균형 문제로 인한 소수 클래스(Minor Class)들의 저조한 탐지율을 개선하고자 SMOTE (Synthetic Minority Over sampling Technique)[10]기법과 RUS (Random Under Sampling) 기법들을 활용하여 불균형 문제를 다루었다. 실험에 사용된 평가 지표는 Accuracy, Precision, Recall, F1-Score이며, 실험 결과는 Decision Tree, Random Forest, KNN (K-Nearest Neighbor), SVM (Support Vector Machine), Multinomial Naive Bayes 모델들과 비교하였다.
따라서 Recall, Precision, F1-Score와 같은 불균형 데이터에서의 많이 사용되는 지표들과 함께 성능을 비교한다. 학습모델의 실험 결과는 Decision Tree, Random Forest, KNN (K-Nearest Neighbor), SVM (Support Vector Machine), Multinomial Naive Bayes 모델과 비교 및 분석한다.
이론/모형
따라서 모두 정수형으로 인코딩 한 뒤 one-hot 벡터로 변환하였다. numeric type 데이터들에 대해서는 속성 값들의 범위의 차이를 왜곡하지 않고 공통 스케일로 변경하기 위해 최소 최대 정규화 (Min-max Normalization)를 진행하였으며, binary type 데이터들의 경우 모두 0과 1로 구성되기 때문에 별다른 전처리 과정을 수행하지 않았다. 이를 통해 41 입력차원에서 122 입력차원으로 변환되었으며, nominal 데이터들의 one-hot 표현에 따라 입력차원이 증가하였다.
일반적으로 많이 사용되는 Xavier Initializer는 relu 함수와 같이 사용할 경우 레이어의 깊이가 깊어질수록 출력값이 0에 가까워지는 문제가 발생한다[15]. 따라서 이러한 문제를 해결한 He Initializer를사용하여 신경망의 초기값을 설정한다. 또한 학습 데이터에 과적합이 되는 것을 방지하기 위해서 L2 규제를 사용하였다.
제안하였다. 또한 학습에 사용된 NSL-KDD 데이터셋의 불균형 문제를 해소하기 위해 SMOTE와 RUS 기법을 사용한다. 제안된 Hybrid Feature Selection을 통해 32% 규모로 입력 차원을 축소할 수 있었으며, 실험을 통해 축소된 입력 차원으로 기존과 동일한 성능을 보장하는 것을 확인할 수 있었다.
본 논문에서는 네트워크 침입 탐지 분류 모델로 심층 신경망을 사용한다. Table 5를 통해 제안된 심층 신경망 네트워크의 구조를 확인할 수 있으며, 은닉 계층(Hidden layer) 의활성 함수로 relu를 사용하였다.
성능/효과
4가지 성능 지표 모두 본 논문에서 제안한 심층 신경망 모델이 가장 좋은 것을 확인하였으며, 눈에띄는 성능 상의 차이는 보이지 않고 있다. 이 외에 심층 신경망을 제외한 나머지 결과에서는 Random Forest 모델이 비교적 우수한 결과를 보였다.
클래스들의 성능 개선을 확인할 수 있다. precision 점수는 불균형 해소 전과 비교해 낮아졌지만 recall 점수가 오른 것을 통해 모델의 출력이 소수 클래스라 예측하는 빈도가 비교적 상승했으며, 전체 소수 클래스들의 탐지 성능이 개선되었음을 알 수 있다. 또한 R2L 클래스의 탐지 성능의 경우 F1-score 기준 32%의 큰 상승폭을 가지는 것을 알 수 있다.
학습에 사용된 심층 신경망은 Table 5에서 언급한 네트워크와 동일한 구조를 가지고 있으며, 오버 샘플링을 하지 않았기에 데이터 수가 적은 것을 감안하여 20% 만을 검증용 데이터로 사용하여 조기 멈춤을 실행하였다. 각 특징 선택들의 임계값은 3.2절에 언급된 값을 사용하였으며, 전체 121 입력차원을 사용한 것(Vanilla model)과 큰 차이를 보이지 않는 것을 확인할 수 있다. 심층 신경망에서 입력 차원의 축소는 학습해야 될 가중치가 더 줄어든 것을 의미하며, 이는 계산 효율성과 연결된다.
그럼에도 불구하고 U2R 클래스의 분류 성능은 여전히 낮은 것을 확인할 수 있는데, 이는 학습 데이터 셋에서 제공되는 데이터양이 52개인 반면에 테스트 데이터 셋에서 제공되는 양은 200개로 학습에 사용되는 샘플 수가 더 적은 것을 알 수 있다. 따라서 학습 데이터 셋의 샘플들과 테스트 데이터 셋의 샘플들 사이의 간극이 큰 것으로 판단되며, 이러한 유형의 문제는 오버샘플링 기법을 통해 극복하기에 부적절하다.
또한 본 논문에서 제안한 두 가지 특징 선택과 데이터 불균형 해소 방법은 SVM, KNN 모델에서도 좋은 성능 개선 효과를 보였다. 향후 연구로는 VAE, GAN과 같은 생성모델들을 통해 오버 샘플링을 진행하는 연구를 진행할 수 있으며, 이는 SMOTE 알고리즘을 대체할 수 있을 것으로 사료된다.
본 논문에서 제안된 HFS-DNN의 성능은 Hybrid Feature Selection과 Data Balancing을 적용할 경우 F1-score 기준 6% 성능 개선이 있었으며, Decision Tree, Random Forest, K-Nearest Neighbor, SVM, Multinomial Naive Bayes 모델들과 비교해 4가지 지표 모두 앞서는 것으로 나왔다. 또한 본 논문에서 제안한 두 가지 특징 선택과 데이터 불균형 해소 방법은 SVM, KNN 모델에서도 좋은 성능 개선 효과를 보였다.
한다. 본 논문에서는 HFS (Hybrid Feature Selection) 기법을 제안하며, 단일 특징 선택 알고리즘들에 비해 더 적은 하위 속성 집합으로 학습 모델의 정확도를 유지할 수 있음을 보인다. HFS 기법은 단일 특징 선택 알고리즘들의 출력 결과인 각 하위 속성 집합들을 구한 뒤, 이들의 교집합을 사용하는 것으로 비교적 간단한 방법으로 효율성을 증대할 수 있다.
심층 신경망에서 입력 차원의 축소는 학습해야 될 가중치가 더 줄어든 것을 의미하며, 이는 계산 효율성과 연결된다. 이러한 결과를 통해 본 논문에서 제안한 HFS 알고리즘이 단일 특징 선택 알고리즘들과 비교해, 실시간 탐지를 위한 효율적인 입력 특징 집합을 찾을 수 있는 것을 확인하였다.
numeric type 데이터들에 대해서는 속성 값들의 범위의 차이를 왜곡하지 않고 공통 스케일로 변경하기 위해 최소 최대 정규화 (Min-max Normalization)를 진행하였으며, binary type 데이터들의 경우 모두 0과 1로 구성되기 때문에 별다른 전처리 과정을 수행하지 않았다. 이를 통해 41 입력차원에서 122 입력차원으로 변환되었으며, nominal 데이터들의 one-hot 표현에 따라 입력차원이 증가하였다. 이후 데이터를 관측한 결과 num_outbound_cmds 특징은 표준편차가 0으로 모든 데이터의 값이 동일하기 때문에 학습에 불필요하다 판단되어 사전에 제거하였다.
또한 학습에 사용된 NSL-KDD 데이터셋의 불균형 문제를 해소하기 위해 SMOTE와 RUS 기법을 사용한다. 제안된 Hybrid Feature Selection을 통해 32% 규모로 입력 차원을 축소할 수 있었으며, 실험을 통해 축소된 입력 차원으로 기존과 동일한 성능을 보장하는 것을 확인할 수 있었다. 또한 오버 샘플링 기법을 통해 소수 클래스의 탐지율 개선을 실험을 통해 확인할 수 있었다.
이렇게 표현된 그래프 안에서 최소수 하위 특징 집합을 선택할 경우 입력 특징 집합의 크기를 최소화 할 수 있으며, 이는 최소 지배 집합 문제(Minimum dominating set)로 귀결된다[1]. 최소 지배 집합 문제는 NP-Hard에 해당하는 문제지만[13], 본 실험에서는 Table 2와 같이 4쌍의 완전 그래프 결과를 획득하였으며, 이에 따라 어떠한 속성만을 한 가지 사용하여도 최소수가 보장되는 것을 알 수 있다. 따라서 본 논문에서는 Table 2의 각 행의 맨 앞 4가지 속성만을 사용하며, 나머지 중첩 특징들은 제거한다.
테스트에 사용되는 데이터 셋은 Table 10의 support를 참고할 경우 클래스간 불균형을 확인할 수 있으며, 이러한 불균형 데이터를 평가하는데 일반적으로 사용되는 Accuracy 만으로 평가하는 것은 적절하지 않다. 이는 전체 샘플 중 옳게 평가된 샘플 수의 비율을 의미하기에 모델의 출력이 모두 다수 클래스로 예측하더라도 높은 결과를 보이기 때문이다.
2와 Table 9를 참조하면 각 모델들의 성능을 비교할 수 있으며, 각 모델들이 불균형 문제를 해소하였음에도 불구하고 Decision Tree, Random Forest, Multinomial NB 알고리즘에서는 precision과 recall의 조화 평균인 F1-score 기준으로 평가할 시 유의미한 성능 개선이 이루어지지 않은 것을 알 수 있다. 하지만 KNN, SVM, DNN 모델은 모두 F1-score 기준으로 6~8% 정도의 큰 폭의 성능 개선이 이루어졌으며, 본 논문에서 제시한 심층 신경망이 가장 좋은 성능을 보이고 있다.
후속연구
또한 본 논문에서 제안한 두 가지 특징 선택과 데이터 불균형 해소 방법은 SVM, KNN 모델에서도 좋은 성능 개선 효과를 보였다. 향후 연구로는 VAE, GAN과 같은 생성모델들을 통해 오버 샘플링을 진행하는 연구를 진행할 수 있으며, 이는 SMOTE 알고리즘을 대체할 수 있을 것으로 사료된다. 또한 다른 네트워크 침입 탐지 데이터 셋에 대해서 실험을 확장시킬 수 있다.
참고문헌 (15)
S. H. Kang, I. S. Jeong, and H. S. Lim, "A feature set selection approach based on pearson correlation coefficient for real time attack detection," Convergence Security Journal, Vol.18, No.5_1, pp.59-66, 2018.
H. S. Chae, B. O. Jo, S. H. Choi, and T. K. Park, "Feature selection for intrusion detection using NSL-KDD," Recent Advances in Computer Science, pp.184-187, 2013.
N. F. Haq, A. R. Onik, and F. M. Shah, "An ensemble framework of anomaly detection using hybridized feature selection approach (HFSA)," In 2015 SAI Intelligent Systems Conference, pp.989-995, 2015.
R, Longadge and S, Dongre, "Class imbalance problem in data mining review," arXiv preprint arXiv:1305.1707, 2013.
T. H. Kim, S. H. Kang, "An Intrusion Detection System based on the Artificial Neural Network for Real Time Detection," Convergence Security Journal, Vol.17, No.1, pp.31-38, 2017.
J. Song, H. Takakura, Y. Okabe, and Y. Kwon, "Correlation analysis between honeypot data and IDS alerts using one-class SVM," Intrusion Detection Systems, pp.173-192, 2011.
A. Tesfahun and D. L. Bhaskari, "Intrusion detection using random forests classifier with SMOTE and feature reduction," International Conference on Cloud & Ubiquitous Computing & Emerging Technologies, pp.127-132, 2013.
I. Guyon and A. Elisseeff, "An introduction to variable and feature selection," Journal of Machine Learning Research, Vol.3, pp.1157-1182, 2003.
H. He, Y. Bai, E. A. Garcia, and S. Li, "ADASYN: Adaptive synthetic sampling approach for imbalanced learning," IEEE international joint conference on neural networks, pp.1322-1328, 2008.
N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique," Journal of Artificial Intelligence Research, Vol.16, pp.321-357, 2002.
Y. Yang, K. Zheng, C. Wu, and Y. Yang, "Improving the classification effectiveness of intrusion detection by using improved conditional variational autoencoder and deep neural network," Sensors, Vol.19, No.11 pp.2528. 2019.
M. Tavallaee, E. Bagheri, W. Lu, and A. A. Ghorbani, "A detailed analysis of the KDD CUP 99 data set," IEEE Symposium on Computational Intelligence for Security and Defense Applications, pp.1-6, 2009.
H. Jiang, J. Nagra, and P. Ahammad, "Sok: Applying machine learning in security-a survey," arXiv preprint arXiv:1611.03186, 2016.
S. Barua, M. M. Islam, X. Yao, and K. Murase, "MWMOTE--majority weighted minority oversampling technique for imbalanced data set learning," IEEE Transactions on Knowledge and Data Engineering, Vol.26, No.2, pp.405-425, 2012.
K. He, X. Zhang, S. Ren, and J. Sun, "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification," Proceedings of the IEEE International Conference on Computer Vision, pp.1026-1034, 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.