이상 탐지는 일반적인 사용자들의 데이터 집합 속에서 비정상적인 데이터 흐름을 파악하여 미리 차단하는 방법이다. 기존에 알려진 방식은 이미 알려진 공격의 시그니처를 활용하여 시그니처 기반으로 공격을 탐지 및 방어하는 방식인데, 이는 오탐율이 낮다는 장점이 있지만 제로 데이 취약점 공격이나 변형된 공격에 대해서는 매우 취약하다는 점이 문제점이다. 하지만 이상 탐지의 경우엔 오탐율이 높다는 단점이 존재하지만 제로 데이 취약점 공격이나 변형된 공격에 대해서도 식별하여 탐지 및 차단할 수 있다는 장점이 있어 관련 연구들이 활발해지고 있는 중이다. 본 연구에서는 이 중 이상 탐지 메커니즘에 대해 다뤘다. 앞서 말한 단점인 높은 오탐율을 보완하며 그와 더불어 이상 탐지와 분류를 동시에 수행하는 새로운 메커니즘을 제안한다. 본 연구에서는 여러 알고리즘의 특성을 고려하여 5가지의 구성으로 실험을 진행하였다. 그 결과로 가장 우수한 정확도를 보이는 모델을 본 연구의 결과로 제안하였다. Extra Tree와 Three layer ANN을 동시에 적용하여 공격 여부를 탐지한 후 공격을 분류된 데이터에 대해서는 Extra Tree를 활용하여 공격 유형을 분류하게 된다. 본 연구에서는 NSL-KDD 데이터 세트에 대해서 검증을 진행하였으며, Accuracy는 Normal, Dos, Probe, U2R, R2L에 대하여 각각 99.8%, 99.1%, 98.9%, 98.7%, 97.9%의 결과를 보였다. 본 구성은 다른 모델에 비해 우수한 성능을 보였다.
이상 탐지는 일반적인 사용자들의 데이터 집합 속에서 비정상적인 데이터 흐름을 파악하여 미리 차단하는 방법이다. 기존에 알려진 방식은 이미 알려진 공격의 시그니처를 활용하여 시그니처 기반으로 공격을 탐지 및 방어하는 방식인데, 이는 오탐율이 낮다는 장점이 있지만 제로 데이 취약점 공격이나 변형된 공격에 대해서는 매우 취약하다는 점이 문제점이다. 하지만 이상 탐지의 경우엔 오탐율이 높다는 단점이 존재하지만 제로 데이 취약점 공격이나 변형된 공격에 대해서도 식별하여 탐지 및 차단할 수 있다는 장점이 있어 관련 연구들이 활발해지고 있는 중이다. 본 연구에서는 이 중 이상 탐지 메커니즘에 대해 다뤘다. 앞서 말한 단점인 높은 오탐율을 보완하며 그와 더불어 이상 탐지와 분류를 동시에 수행하는 새로운 메커니즘을 제안한다. 본 연구에서는 여러 알고리즘의 특성을 고려하여 5가지의 구성으로 실험을 진행하였다. 그 결과로 가장 우수한 정확도를 보이는 모델을 본 연구의 결과로 제안하였다. Extra Tree와 Three layer ANN을 동시에 적용하여 공격 여부를 탐지한 후 공격을 분류된 데이터에 대해서는 Extra Tree를 활용하여 공격 유형을 분류하게 된다. 본 연구에서는 NSL-KDD 데이터 세트에 대해서 검증을 진행하였으며, Accuracy는 Normal, Dos, Probe, U2R, R2L에 대하여 각각 99.8%, 99.1%, 98.9%, 98.7%, 97.9%의 결과를 보였다. 본 구성은 다른 모델에 비해 우수한 성능을 보였다.
Anomaly detection is a method to detect and block abnormal data flows in general users' data sets. The previously known method is a method of detecting and defending an attack based on a signature using the signature of an already known attack. This has the advantage of a low false positive rate, bu...
Anomaly detection is a method to detect and block abnormal data flows in general users' data sets. The previously known method is a method of detecting and defending an attack based on a signature using the signature of an already known attack. This has the advantage of a low false positive rate, but the problem is that it is very vulnerable to a zero-day vulnerability attack or a modified attack. However, in the case of anomaly detection, there is a disadvantage that the false positive rate is high, but it has the advantage of being able to identify, detect, and block zero-day vulnerability attacks or modified attacks, so related studies are being actively conducted. In this study, we want to deal with these anomaly detection mechanisms, and we propose a new mechanism that performs both anomaly detection and classification while supplementing the high false positive rate mentioned above. In this study, the experiment was conducted with five configurations considering the characteristics of various algorithms. As a result, the model showing the best accuracy was proposed as the result of this study. After detecting an attack by applying the Extra Tree and Three-layer ANN at the same time, the attack type is classified using the Extra Tree for the classified attack data. In this study, verification was performed on the NSL-KDD data set, and the accuracy was 99.8%, 99.1%, 98.9%, 98.7%, and 97.9% for Normal, Dos, Probe, U2R, and R2L, respectively. This configuration showed superior performance compared to other models.
Anomaly detection is a method to detect and block abnormal data flows in general users' data sets. The previously known method is a method of detecting and defending an attack based on a signature using the signature of an already known attack. This has the advantage of a low false positive rate, but the problem is that it is very vulnerable to a zero-day vulnerability attack or a modified attack. However, in the case of anomaly detection, there is a disadvantage that the false positive rate is high, but it has the advantage of being able to identify, detect, and block zero-day vulnerability attacks or modified attacks, so related studies are being actively conducted. In this study, we want to deal with these anomaly detection mechanisms, and we propose a new mechanism that performs both anomaly detection and classification while supplementing the high false positive rate mentioned above. In this study, the experiment was conducted with five configurations considering the characteristics of various algorithms. As a result, the model showing the best accuracy was proposed as the result of this study. After detecting an attack by applying the Extra Tree and Three-layer ANN at the same time, the attack type is classified using the Extra Tree for the classified attack data. In this study, verification was performed on the NSL-KDD data set, and the accuracy was 99.8%, 99.1%, 98.9%, 98.7%, and 97.9% for Normal, Dos, Probe, U2R, and R2L, respectively. This configuration showed superior performance compared to other models.
본 연구는 네트워크상에서 비정상적인 데이터를 탐지하고 분류하기 위한 방법에 대한 연구를 수행하였다. 제안하는 모델의 프레임워크는 아래 그림 1과 같이 4단계로 구성하였다.
기존의 방식에서는 새로운 형식의 알고리즘이 개발되지 않는 한 성능 개선에 많은 제약사항이 존재한다. 본 연구에서는 이런 문제를 해결하고자 네트워크 이상 탐지를 새롭게 융합한 방식을 제안하였다.
제안 방법
그에 따라 본 연구에서는 NSL-KDD 데이터를 활용하여 네트워크 내에서의 이상 탐지를 식별하고 분류하는 2단계 이상 탐지 메커니즘을 제안한다. 본 연구에서 5가지의 다양한 알고리즘을 조합을 통해 실험하여 우수한 성능을 검증하는 과정을 보였다.
결과로는 Extra Tree와 ANN을 조합하여 좋은 성능을 내는 모델을 제안했다. 그 결과 Accuracy는 Normal, Dos, Probe, U2R, R2L에 대하여 각각 99.
머신러닝 방식은 일반적으로 규칙을 기반으로 구성하는 경우가 대부분이기에 네트워크상에서 Instance 속성을 잘못 지정할 수 있다는 문제점이 있다. 그 불확실성을 해결하기 위해 분류기를 통합하여 함께 사용하는 방법을 제안한다.
여러 조합에서 41가지의 특징을 활용하여 공격을 식별해본 후, 특정 15가지의 특징만으로 공격을 식별하는 실험을 추가적으로 진행한 결과 특정 특징만을 활용하여 공격을 식별 및 분류한 결과가 비교적 우수한 성능을 보였다. 본 연구에서는 Extra Tree + ANN, LSTM, SVM + SVM, Regression + ANN, MLP 총 5가지의 알고리즘 조합을 활용하여 결과를 비교하는 실험을 진행했다.
해당 데이터 세트에서 특성 열에 존재하는 공격 라벨과 공격 유형을 따로 분리해서 훈련에 정답 라벨로 활용하여 훈련했다. 또한 머신러닝 알고리즘에 데이터를 주입하기 위해서 열 데이터 유형을 정수 혹은 실수 데이터로 변환한 후 One-Hot Encoding을 통해 전처리했다.
해당 데이터 세트에서 특성 열에 존재하는 공격 라벨과 공격 유형을 따로 분리해서 훈련에 정답 라벨로 활용하여 훈련했다. 또한 머신러닝 알고리즘에 데이터를 주입하기 위해서 열 데이터 유형을 정수 혹은 실수 데이터로 변환한 후 One-Hot Encoding을 통해 전처리했다.
해당 연구에서는 앞서 선별한 알고리즘 조합 5가지를 활용하여 실험을 진행하였으며 최상의 결과를 낼 수 있는 조합을 실험 결과로 제공하고자 한다.
첫 번째는 효과적인 이상 탐지를 위하여 여러 알고리즘을 비교하여 가장 우수한 성능을 보인 조합을 찾았다. 총 5가지의 조합 중 Extra Tree + ANN을 통해 가장 우수한 성능을 확인할 수 있었다.
대상 데이터
본 연구를 수행함에 있어 다음과 같은 실험 환경으로 실험을 수행했다. 실험 환경의 운영체제는 Windows 10 Pro였고, 자세한 실험 환경은 Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz의 CPU, NVIDIA GeForce GTX 1050 Ti의 GPU, 16GB RAM 환경 등에서 수행했다.
본 논문의 제안 모델은 Extra Tree와 ANN을 융합한 모델로 그림 2와 같은 구성을 보인다. 이는 전반적으로 우수한 성능을 보였으며 모든 특성을 활용하여 탐지를 진행하는 것보다 일부 특성들을 활용하여 얻은 결과가 더 좋은 결과를 보였다.
성능/효과
결과로는 Extra Tree와 ANN을 조합하여 좋은 성능을 내는 모델을 제안했다. 그 결과 Accuracy는 Normal, Dos, Probe, U2R, R2L에 대하여 각각 99.8%, 99.1%, 98.9%, 98.7%, 97.9%의 결과를 도출했다. 본 조합의 경우 다른 조합에 비해 우수한 결과를 보였다.
여러 조합에서 41가지의 특징을 활용하여 공격을 식별해본 후, 특정 15가지의 특징만으로 공격을 식별하는 실험을 추가적으로 진행한 결과 특정 특징만을 활용하여 공격을 식별 및 분류한 결과가 비교적 우수한 성능을 보였다. 본 연구에서는 Extra Tree + ANN, LSTM, SVM + SVM, Regression + ANN, MLP 총 5가지의 알고리즘 조합을 활용하여 결과를 비교하는 실험을 진행했다.
본 논문의 제안 모델은 Extra Tree와 ANN을 융합한 모델로 그림 2와 같은 구성을 보인다. 이는 전반적으로 우수한 성능을 보였으며 모든 특성을 활용하여 탐지를 진행하는 것보다 일부 특성들을 활용하여 얻은 결과가 더 좋은 결과를 보였다. 따라서 본 연구에서 해당 조합을 제안하였으며, 앞서 설명한 것처럼 그림 2와 같은 구성을 보인다.
MLP 알고리즘의 경우 모델링의 완성도에 따라 성능의 차이가 발생하기에 우수한 정확도를 기대하였으나, 타 알고리즘 조합에 비해 좋지 못한 결과를 도출하였다. 대용량 데이터 처리 및 많은 변수를 활용한 빠른 학습을 위하여 조합한 Regression과 ANN의 조합은 예상보다 우수한 정확도를 확인할 수 없었다. 분류 및 예측을 동시에 적용하기에 적합한 SVM의 경우엔 예상한대로 높은 정확도를 보였으나 모델 구축에 시간이 오래 걸린다는 단점이 존재하였다.
분류 및 예측을 동시에 적용하기에 적합한 SVM의 경우엔 예상한대로 높은 정확도를 보였으나 모델 구축에 시간이 오래 걸린다는 단점이 존재하였다. 시계열 데이터에 다양하게 적용 가능한 LSTM 알고리즘은 예상보다 높은 정확도를 확인할 수 있었다.
첫 번째는 효과적인 이상 탐지를 위하여 여러 알고리즘을 비교하여 가장 우수한 성능을 보인 조합을 찾았다. 총 5가지의 조합 중 Extra Tree + ANN을 통해 가장 우수한 성능을 확인할 수 있었다. 제안된 모델은 앞서 소개한 NSL-KDD 데이터 세트에 대하여 검증되었다.
참고문헌 (10)
K. Kug, B. Gong, "Security technology development trend using artificial intelligence", Institute of Information and Communication Planning and Evaluation Weekly Technology Trend, pp. 2-15, 2019. https://www.iitp.kr/kr/1/knowledge/periodicalViewA.it?searClassCodeB_ITA_01&masterCodepublication&identifier1095
G. Creech and J. Hu, "A Semantic Approach to Host-Based Intrusion Detection Systems Using Contiguousand Discontiguous System Call Patterns", IEEE Transactions on Computers, vol. 63, no. 4, pp. 807-819, 2014. https://doi.org/10.1109/TC.2013.13
N. Moustafa and, J. Slay, "A hybrid feature selection for network intrusion detection systems: Central points", 16th Australian Information Warfare Conference, pp. 5-13, 2015. http://dx.doi.org/10.13140/RG.2.1.3905.5122
Y. Mirsky, T. Doitshman, Y. Elovici and A. Shabtai, "Kitsune: An Ensemble of Autoencoders for Online Network Intrusion Detection", Network and Distributed Systems Security Symposium(NDSS), 2018. https://doi.org/10.48550/arXiv.1802.09089
S. Ahn, H. Yi, Y. Lee, W. R. Ha, G. Kim and Y. Paek, "Hawkware: Network Intrusion Detection based on Behavior Analysis with ANNs on an IoT Device" 57th ACM/IEEE Design Automation Conference (DAC), pp. 1-6, 2020. https://doi.org/10.1109/DAC18072.2020.9218559
M. Tavallaee, E. Bagheri, W. Lu and A. Ghorbani, "A Detailed Analysis of the KDD CUP 99 Data Set", 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications, pp. 1-6, 2009. https://doi.org/10.1109/CISDA.2009.5356528
M. Tavallaee, E. Bagheri, W. Lu and A. Ghorbani, "Nsl-kdd dataset", 2012. http://www.unb.ca/research/iscx/dataset/iscx-NSL-KDDdataset.html
X. Li, D. Chang, T. Tian and J. Cao, "Large-Margin Regularized Softmax Cross-Entropy Loss.", IEEE Access, vol. 7, pp. 19572-19578, 2019. https://doi.org/10.1109/ACCESS.2019.2897692
A. Liu, Y. Wang and T. Li, "SFE-GACN: A novel unknown attack detection under insufficient data via intra categories generation in embedding space", Computers & Security, vol. 105, 2021. https://doi.org/10.48550/arXiv.2004.05693
Y. Kim, "Self-supervised auto-encoder for anomaly detection", Master's diss, Pohang University of Science and Technology, 2019.2. http://www.riss.kr/link?idT15273279
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.