기계학습 기반 IDS 보안이벤트 분류 모델의 정확도 및 신속도 향상을 위한 실용적 feature 추출 연구 A Practical Feature Extraction for Improving Accuracy and Speed of IDS Alerts Classification Models Based on Machine Learning원문보기
인터넷의 성장과 함께 각종 취약점을 악용한 사이버 공격들이 지속적으로 증가하고 있다. 이러한 행위를 탐지하기 위한 방안으로 침입탐지시스템(IDS; Intrusion Detection System)이 널리 사용되고 있지만, IDS에서 발생하는 많은 양의 오탐(정상통신을 공격행위로 잘못 탐지한 보안이벤트)은 여전히 해결되지 않은 문제로 남아있다. IDS 오탐 문제를 해결하기 위한 방법으로 기계학습 알고리즘을 통한 자동분류 연구가 진행되고 있지만 실제 현장 적용을 위해서는 정확도와 데이터 처리속도 향상을 위한 연구가 더 필요하다. 기계학습 기반 분류 모델은 다양한 요인에 의해서 그 성능이 결정된다. 최적의 feature를 선택하는 것은 모델의 분류 성능 및 정확성 향상에 크게 영향을 미치기 때문에 기계학습에서 매우 중요한 부분을 차지한다. 본 논문에서는 보안이벤트 분류 모델의 성능 향상을 위해 기존 연구에서 제안한 기본 feature에 추가로 10종의 신규 feature를 제안한다. 본 논문에서 제안하는 10종의 신규 feature는 실제 보안관제센터 전문 인력의 노하우를 기반으로 고안된 것으로, 모델의 분류 성능을 향상시킬 뿐만 아니라 단일 보안이벤트에서 직접 추출 가능하기 때문에 실시간 모델 구축도 가능하다. 본 논문에서는 실제 네트워크 환경에서 수집된 데이터를 기반으로 제안한 신규 feature들이 분류 모델 성능 향상에 미치는 영향을 검증하였으며, 그 결과, 신규 feature가 모델의 분류 정확도를 향상시키고 오탐지율을 낮춰주는 것을 확인할 수 있었다.
인터넷의 성장과 함께 각종 취약점을 악용한 사이버 공격들이 지속적으로 증가하고 있다. 이러한 행위를 탐지하기 위한 방안으로 침입탐지시스템(IDS; Intrusion Detection System)이 널리 사용되고 있지만, IDS에서 발생하는 많은 양의 오탐(정상통신을 공격행위로 잘못 탐지한 보안이벤트)은 여전히 해결되지 않은 문제로 남아있다. IDS 오탐 문제를 해결하기 위한 방법으로 기계학습 알고리즘을 통한 자동분류 연구가 진행되고 있지만 실제 현장 적용을 위해서는 정확도와 데이터 처리속도 향상을 위한 연구가 더 필요하다. 기계학습 기반 분류 모델은 다양한 요인에 의해서 그 성능이 결정된다. 최적의 feature를 선택하는 것은 모델의 분류 성능 및 정확성 향상에 크게 영향을 미치기 때문에 기계학습에서 매우 중요한 부분을 차지한다. 본 논문에서는 보안이벤트 분류 모델의 성능 향상을 위해 기존 연구에서 제안한 기본 feature에 추가로 10종의 신규 feature를 제안한다. 본 논문에서 제안하는 10종의 신규 feature는 실제 보안관제센터 전문 인력의 노하우를 기반으로 고안된 것으로, 모델의 분류 성능을 향상시킬 뿐만 아니라 단일 보안이벤트에서 직접 추출 가능하기 때문에 실시간 모델 구축도 가능하다. 본 논문에서는 실제 네트워크 환경에서 수집된 데이터를 기반으로 제안한 신규 feature들이 분류 모델 성능 향상에 미치는 영향을 검증하였으며, 그 결과, 신규 feature가 모델의 분류 정확도를 향상시키고 오탐지율을 낮춰주는 것을 확인할 수 있었다.
With the development of Internet, cyber attack has become a major threat. To detect cyber attacks, intrusion detection system(IDS) has been widely deployed. But IDS has a critical weakness which is that it generates a large number of false alarms. One of the promising techniques that reduce the fals...
With the development of Internet, cyber attack has become a major threat. To detect cyber attacks, intrusion detection system(IDS) has been widely deployed. But IDS has a critical weakness which is that it generates a large number of false alarms. One of the promising techniques that reduce the false alarms in real time is machine learning. However, there are problems that must be solved to use machine learning. So, many machine learning approaches have been applied to this field. But so far, researchers have not focused on features. Despite the features of IDS alerts are important for performance of model, the approach to feature is ignored. In this paper, we propose new feature set which can improve the performance of model and can be extracted from a single alarm. New features are motivated from security analyst's know-how. We trained and tested the proposed model applied new feature set with real IDS alerts. Experimental results indicate the proposed model can achieve better accuracy and false positive rate than SVM model with ordinary features.
With the development of Internet, cyber attack has become a major threat. To detect cyber attacks, intrusion detection system(IDS) has been widely deployed. But IDS has a critical weakness which is that it generates a large number of false alarms. One of the promising techniques that reduce the false alarms in real time is machine learning. However, there are problems that must be solved to use machine learning. So, many machine learning approaches have been applied to this field. But so far, researchers have not focused on features. Despite the features of IDS alerts are important for performance of model, the approach to feature is ignored. In this paper, we propose new feature set which can improve the performance of model and can be extracted from a single alarm. New features are motivated from security analyst's know-how. We trained and tested the proposed model applied new feature set with real IDS alerts. Experimental results indicate the proposed model can achieve better accuracy and false positive rate than SVM model with ordinary features.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
기계학습 모델의 분류 정확도 향상과 신속한 분석을 위해 본 논문에서 제안하는 신규 feature 10종에 대해 소개한다. 10종의 feature 목록은 Table 1에서 확인할 수 있으며, 각 feature에 대한 설명은 아래에서 확인할 수 있다.
기계학습은 컴퓨터가 기존 데이터에 대한 학습을 통해 신규 데이터에 대한 분류작업을 수행할 수 있도록 해주는 기술이다. 기계학습을 이용하는 이 연구들의 목표는 기계학습모델을 학습시켜 신규 발생 보안이벤트를 자동으로 분류하게 하는 것이다. 기계학습 알고리즘을 통해 복잡한 데이터의 패턴을 파악하고 자동으로 보안이벤트를 처리할 수 있기 때문에 그 활용이 매우 기대되고 있다.
또한 일부 연구에서 사용한 보안이벤트 간 상관관계 관련 feature는 사후 분석으로 사용해야하기 때문에 보안사고 발생에 즉각 대응할 수 없다. 따라서 본 논문에서는 IDS 보안이벤트의 feature에 집중하여 실시간 보안이벤트 분류에 적합하면서 기계학습 알고리즘의 분류 정확도를 높일 수 있는 feature를 제안하고 성능을 확인해보고자 한다.
본 논문에서는 기계학습 기반 실시간 보안이벤트 분류 모델을 위한 새로운 feature 10종을 제안하였다. 제안한 feature는 IP, Port, 프로토콜, 위험도 등 기존 연구에서 사용하였던 feature 외에 단일 보안이벤트에서 직접 추출 가능하며 모델의 분류 성능도 높일 수 있도록 고안되었다.
feature는 기계학습 모델이 데이터를 분류하기 위해 사용하는 데이터의 정보 혹은 속성으로, 사용하는 feature에 따라 기계학습 알고리즘의 분류 성능이 크게 달라진다. 본 논문에서는 기존 논문에서 사용하지 않았던 새로운 feature를 제안한다. 제안하는 feature는 실시간 단일 보안이벤트에서도 쉽게 추출이 가능하도록 고안되었고, 분류 성능을 높일 수 있도록 보안관제요원의 노하우를 기반으로 만들어졌다.
본 논문에서는 이러한 문제점들을 극복하고 향후 실시간 분류가 가능한 기계학습 모델 구축을 위해 feature에 주목한다. feature는 기계학습 모델이 데이터를 분류하기 위해 사용하는 데이터의 정보 혹은 속성으로, 사용하는 feature에 따라 기계학습 알고리즘의 분류 성능이 크게 달라진다.
가설 설정
1. Is source IP in the target network?
2. Is destination IP in the target Network?
제안 방법
그들은 먼저 6가지 기계학습 모델을 선택하여 모델들의 보안이벤트 분류 성능을 테스트하였다. 6가지 모델 중 보안이벤트 분류에 가장 좋은 성능을 보인 kNN, Decision Tree, SVM 3가지 지도학습 모델을 사용하여 지속적인 성능 모니터링을 통해 상황별로 가장 성능이 우수한 알고리즘을 선택하는 방식을 사용하였다. 실험을 통해 그들은 상황별로 적합한 모델을 선택하는 것이 전체적인 분류 성능을 유지하는 데 도움을 준다는 것을 보여주었다.
1과 같다. 먼저 수집된 IDS 보안이벤트 데이터를 모델 학습용 데이터와 모델 테스트용 데이터로 분류한다. 이후 학습 및 테스트 데이터에서 feature를 추출한다.
모델의 최적 파라미터를 선택하기 위해 학습 데이터와 n-fold cross validation 방법을 사용하여 c와 gamma를 바꿔가며 반복적으로 정확도를 확인하였다. 이때 n은 10으로 하였다.
이상의 10가지 feature는 보안관제요원의 보안이벤트 분류 업무 수행 시 사용되는 정보로 이루어져 있다. 분류 업무 수행 시 사용하는 정보 중 단일 보안이벤트에서 추출 가능한 정보로 feature를 구성했고, 모델에 입력 가능하도록 수치적으로 표현하였다. 제안한 feature의 성능을 확인하기 위해 직접 모델에 적용하고 분류 성능을 실험하였으며, 실험 방법과 결과를 4절과 5절에서 기술한다.
제안하는 feature는 실시간 단일 보안이벤트에서도 쉽게 추출이 가능하도록 고안되었고, 분류 성능을 높일 수 있도록 보안관제요원의 노하우를 기반으로 만들어졌다. 제안 feature의 모델 개선 효과를 증명하기 위해 새로운 feature를 적용한 SVM 모델과 기존 feature만을 적용한 SVM 모델의 비교 결과도 제시한다.
제안한 feature는 IP, Port, 프로토콜, 위험도 등 기존 연구에서 사용하였던 feature 외에 단일 보안이벤트에서 직접 추출 가능하며 모델의 분류 성능도 높일 수 있도록 고안되었다. 제안 feature의 분류 성능을 확인하기 위해 기존 사용되던 feature에 새로운 feature를 추가 적용하여 SVM 모델을 구축하고 분류 실험을 수행하였다. 모델 실험 결과를 통해 기존 feature만 사용한 모델보다 정확도와 오탐지율 측면에서 성능이 향상된 것을 확인할 수 있었다.
본 논문에서는 기존 논문에서 사용하지 않았던 새로운 feature를 제안한다. 제안하는 feature는 실시간 단일 보안이벤트에서도 쉽게 추출이 가능하도록 고안되었고, 분류 성능을 높일 수 있도록 보안관제요원의 노하우를 기반으로 만들어졌다. 제안 feature의 모델 개선 효과를 증명하기 위해 새로운 feature를 적용한 SVM 모델과 기존 feature만을 적용한 SVM 모델의 비교 결과도 제시한다.
분류 업무 수행 시 사용하는 정보 중 단일 보안이벤트에서 추출 가능한 정보로 feature를 구성했고, 모델에 입력 가능하도록 수치적으로 표현하였다. 제안한 feature의 성능을 확인하기 위해 직접 모델에 적용하고 분류 성능을 실험하였으며, 실험 방법과 결과를 4절과 5절에서 기술한다.
RBF 커널은 전반적인 분야에서 타 커널에 비해 좋은 성능을 가지고 있으며, 사용하기도 용이한 편이다[24]. 파라미터인 c와 gamma 값은 모델 학습 과정 중 n-fold cross validation을 적용한 여러 번의 실험을 수행하여 가장 성능이 우수한 값으로 선택하였다.
성능 평가 단계에서는 학습된 모델에 테스트 데이터를 입력하여 분류된 결과를 확인한다. 학습된 모델의 최종적인 분류 성능을 평가하기 위해 정확도, 탐지율, 오탐지율, F1 score 총 4가지 평가지수를 활용하였다. 각 데이터는 데이터의 실제 클래스와 학습된 모델이 분류한 클래스에 따라 Table 3과 같이 구분된다.
대상 데이터
과학기술사이버안전센터는 약 3,000개의 탐지룰을 적용하여 국내 연구기관들에서 발생하는 보안이벤트를 24시간 모니터링하고 있으며 TMS(Threat Management System)라는 IDS를 사용하고 있다. 과학기술사이버안전센터에서 분석한 실제 IDS 보안이벤트 중 분석이 완료된 2017년 7월 1일과 2일 보안이벤트 데이터 일부를 이번 실험에 사용하였다. 과학기술사이버안전센터에서는 매일 탐지룰이 업데이트되기 때문에 비교적 동일한 탐지룰이 적용된 1일과 2일 데이터를 사용하였다.
과학기술사이버안전센터에서 분석한 실제 IDS 보안이벤트 중 분석이 완료된 2017년 7월 1일과 2일 보안이벤트 데이터 일부를 이번 실험에 사용하였다. 과학기술사이버안전센터에서는 매일 탐지룰이 업데이트되기 때문에 비교적 동일한 탐지룰이 적용된 1일과 2일 데이터를 사용하였다. 일자별로 각각 학습용, 테스트용 데이터로 사용하였고, 각 일자별 정탐과 오탐 개수는 Table 4와 같다.
본 논문에서 사용한 IDS 보안이벤트 데이터는 과학기술사이버안전센터에서 탐지하고 분석한 결과 데이터이다. 과학기술사이버안전센터는 약 3,000개의 탐지룰을 적용하여 국내 연구기관들에서 발생하는 보안이벤트를 24시간 모니터링하고 있으며 TMS(Threat Management System)라는 IDS를 사용하고 있다.
이후 학습 및 테스트 데이터에서 feature를 추출한다. 이 때 feature는 IDS 기본 feature 7개에 신규 feature 10개를 추가하여 총 17개를 사용한다. 각 데이터에서 추출한 feature는 정규화를 거친다.
수집/분류 단계에서는 IDS에서 탐지된 raw 데이터를 확보하고 모델 학습에 사용할 데이터와 테스트에 사용할 데이터로 분류한다. 이 때 raw 데이터는 실제 네트워크에서 탐지된 데이터를 사용하였다. 데이터에 대한 자세한 내용은 5.
과학기술사이버안전센터에서는 매일 탐지룰이 업데이트되기 때문에 비교적 동일한 탐지룰이 적용된 1일과 2일 데이터를 사용하였다. 일자별로 각각 학습용, 테스트용 데이터로 사용하였고, 각 일자별 정탐과 오탐 개수는 Table 4와 같다. 학습 및 테스트 전체 데이터는 각 보안이벤트별로 앞서 설명하였던 17개의 feature를 추출한 후, 정규화를 시켜주었고, 정규화 과정에 필요한 평균과 표준편차는 학습 데이터와 테스트 데이터 모두 동일하게 7월 1일 데이터 세트의 값을 사용하였다.
추출 단계에서는 각각의 보안이벤트에서 보안이벤트가 가지고 있는 feature를 추출해낸다. 추출할 feature는 앞서 3절에서 설명한 10개 신규 feature와 보안이벤트가 기본적으로 가지고 있는 feature 7개이다. 기본 feature 7개는 Table 2에서 확인할 수 있다.
일자별로 각각 학습용, 테스트용 데이터로 사용하였고, 각 일자별 정탐과 오탐 개수는 Table 4와 같다. 학습 및 테스트 전체 데이터는 각 보안이벤트별로 앞서 설명하였던 17개의 feature를 추출한 후, 정규화를 시켜주었고, 정규화 과정에 필요한 평균과 표준편차는 학습 데이터와 테스트 데이터 모두 동일하게 7월 1일 데이터 세트의 값을 사용하였다.
본 논문에서 제안한 feature와 최적 파라미터 분석을 통해 나온 파라미터를 적용하여 학습된 모델이 최종적으로 테스트 데이터를 분류한 결과는 Table 5에서 볼 수 있다. 학습된 모델은 2,462개 정탐 중에서 2,314개를 정탐으로 정확히 분류했고, 148개를 오탐으로 잘못 분류하였다. 96,446개 오탐 중에서는 95,934개를 오탐으로 정확히 분류했고, 512개를 정탐으로 잘못 분류하였다.
데이터처리
제안모델의 최종결과를 기본 feature만 사용한 SVM 모델과 비교하였다. 비교에 사용된 자료는 Meng과 Kwok[15]이 그들의 논문에서 제시한 결과이고, 그들의 논문에서 사용한 지수를 통해 성능을 비교하였다. 비교결과는 Table 7에서 확인할 수 있다.
제안모델의 최종결과를 기본 feature만 사용한 SVM 모델과 비교하였다. 비교에 사용된 자료는 Meng과 Kwok[15]이 그들의 논문에서 제시한 결과이고, 그들의 논문에서 사용한 지수를 통해 성능을 비교하였다.
학습이 완료된 모델에 테스트 데이터를 넣고 분류된 결과를 확인한다. 최종적인 분류 결과는 정확도, 오탐지율 등의 평가지수를 통해 기존 feature만을 적용한 모델 결과와 비교한다. 4.
이론/모형
이번 실험에 사용하는 기계학습 모델은 SVM으로, SVM 또한 데이터 간의 거리를 통해 각 데이터의 클래스를 나누는 모델이기 때문에 데이터를 모델에 적용하기 전 정규화는 필수적인 작업이다. 본 논문에서 데이터 정규화를 위해 사용한 방식은 standard score이다. standard score 방식은 임의의 변수가 해당 feature 집합의 평균에서 얼마나 떨어져 있는지를 보여주는 지수로, 계산식은 식(1)과 같다.
SVM 모델을 학습시키기 위해서는 커널과 파라미터를 먼저 선택하여야 한다. 본 논문에서 사용한 커널은 RBF(Radial Basis Function) 커널이다. RBF 커널은 전반적인 분야에서 타 커널에 비해 좋은 성능을 가지고 있으며, 사용하기도 용이한 편이다[24].
본 논문에서는 SVM 모델을 사용하기 위해 LIBSVM 라이브러리를 참고하였다[25]. LIBSVM은 다양한 형태의 SVM 모델을 사용할 수 있는 소프트웨어로 클래스 분류를 위한 SVC(Support Vector Classification)나 회귀분석을 위한 SVR(Support Vector Regression) 등 SVM 관련 여러 가지 기능을 제공한다.
본 논문에서는 신규 feature의 성능을 확인하기 위한 모델로 SVM(Support Vector Machine)을 사용하였다. SVM은 데이터를 두 가지 클래스로 분류하는 모델로, Vapnik에 의해 처음 제안되었다[23].
성능/효과
전체적인 그림은 그래프의 중앙과 중앙 우측에서 높은 정확도를 보이고, 외부로 갈수록 정확도가 저하되는 형태를 보였다. c와 gamma를 변형해가며 정확도를 확인해본 결과, c가 2048, gamma가 0.0078125일 때 정확도가 99.1231%로 가장 높았다.
한편, 준지도 학습 모델은 클래스가 분류된 데이터와 분류되지 않은 데이터를 모두 사용할 수 있기 때문에 많은 데이터를 학습에 사용할 수 있다는 장점이 있다. 그들의 실험 결과는 클래스가 분류된 데이터를 많이 사용하지 않는 준지도 학습 알고리즘이 오탐 감소 측면에서 지도학습 모델보다 좋은 성능을 보일 수 있다는 가능성을 보여주었다. 준지도 학습 방법은 Li 등[19]에 의해 다시 활용되었으며, multi-view 방식과 결합한 그들의 준지도 학습 모델은 기존 모델들에 비해 향상된 분류 정확도를 보여주었다.
0 데이터와 snort를 사용하여 실험 데이터를 구축하였고, 2가지 클러스터링 알고리즘을 테스트하였다. 그들의 실험 결과는 클러스터링 알고리즘의 활용이 오탐 감소에 매우 효과적임을 보여주고 있다.
제안 feature의 분류 성능을 확인하기 위해 기존 사용되던 feature에 새로운 feature를 추가 적용하여 SVM 모델을 구축하고 분류 실험을 수행하였다. 모델 실험 결과를 통해 기존 feature만 사용한 모델보다 정확도와 오탐지율 측면에서 성능이 향상된 것을 확인할 수 있었다.
6가지 모델 중 보안이벤트 분류에 가장 좋은 성능을 보인 kNN, Decision Tree, SVM 3가지 지도학습 모델을 사용하여 지속적인 성능 모니터링을 통해 상황별로 가장 성능이 우수한 알고리즘을 선택하는 방식을 사용하였다. 실험을 통해 그들은 상황별로 적합한 모델을 선택하는 것이 전체적인 분류 성능을 유지하는 데 도움을 준다는 것을 보여주었다.
평가지수를 통해 성능을 비교해보았을 때 10가지 신규 feature를 적용한 모델의 분류 성능이 기존 feature만을 적용한 모델보다 정확도 및 오탐지율에서 더 향상된 결과를 보여주었다. 이로써 제안한 feature가 모델의 분류 성능을 향상시키는 것을 알 수 있다.
각 선은 두 개 변수에 의해 동일 정확도가 나타나는 지점을 선으로 연결한 것이다. 전체적인 그림은 그래프의 중앙과 중앙 우측에서 높은 정확도를 보이고, 외부로 갈수록 정확도가 저하되는 형태를 보였다. c와 gamma를 변형해가며 정확도를 확인해본 결과, c가 2048, gamma가 0.
88로 나타났다. 정탐과 오탐 각각에 대한 분류 성능을 비교해보면, 제안 모델은 정탐보다 오탐에 대한 분류 성능이 더 좋았다.
본 논문에서는 기계학습 기반 실시간 보안이벤트 분류 모델을 위한 새로운 feature 10종을 제안하였다. 제안한 feature는 IP, Port, 프로토콜, 위험도 등 기존 연구에서 사용하였던 feature 외에 단일 보안이벤트에서 직접 추출 가능하며 모델의 분류 성능도 높일 수 있도록 고안되었다. 제안 feature의 분류 성능을 확인하기 위해 기존 사용되던 feature에 새로운 feature를 추가 적용하여 SVM 모델을 구축하고 분류 실험을 수행하였다.
평가지수 산출결과는 Table 6에서 볼 수 있다. 평가지수 분석 결과, 정확도는 99.33%로 나타났고, 탐지율은 93.99%, 오탐지율은 0.53%로 나타났다. F1 score는 0.
비교결과는 Table 7에서 확인할 수 있다. 평가지수를 통해 성능을 비교해보았을 때 10가지 신규 feature를 적용한 모델의 분류 성능이 기존 feature만을 적용한 모델보다 정확도 및 오탐지율에서 더 향상된 결과를 보여주었다. 이로써 제안한 feature가 모델의 분류 성능을 향상시키는 것을 알 수 있다.
후속연구
따라서 여러 종류의 모델에 적용해보고 성능을 확인해볼 필요가 있을 것이다. 또한, 보안이벤트 분류 완전 자동화를 위한 정확한 보안이벤트의 분류를 위해서는 새로운 feature들의 지속적인 제안과 feature별 영향분석을 수행하여 최적의 feature들을 선택하는 연구가 수행되어야할 것이다. 비록 이번 실험의 결과가 99% 이상의 정확도를 보이긴 했지만, 실제 현장에서는 1건의 보안이벤트가 치명적인 사고를 초래할 수 있기 때문에 이에 대한 지속적인 연구를 수행할 계획이다.
또한, 보안이벤트 분류 완전 자동화를 위한 정확한 보안이벤트의 분류를 위해서는 새로운 feature들의 지속적인 제안과 feature별 영향분석을 수행하여 최적의 feature들을 선택하는 연구가 수행되어야할 것이다. 비록 이번 실험의 결과가 99% 이상의 정확도를 보이긴 했지만, 실제 현장에서는 1건의 보안이벤트가 치명적인 사고를 초래할 수 있기 때문에 이에 대한 지속적인 연구를 수행할 계획이다.
제안한 feature는 모델의 분류 성능을 높일 뿐만 아니라 단일 보안이벤트에서 추출되었기 때문에 다른 기계학습 기반 보안이벤트 분류 모델 연구에도 쉽게 적용 가능하며 다양하게 활용될 수 있다. 따라서 여러 종류의 모델에 적용해보고 성능을 확인해볼 필요가 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
최적의 feature를 선택하는 것이 기계학습에서 매우 중요한 부분을 차지하는 이유는 무엇인가?
기계학습 기반 분류 모델은 다양한 요인에 의해서 그 성능이 결정된다. 최적의 feature를 선택하는 것은 모델의 분류 성능 및 정확성 향상에 크게 영향을 미치기 때문에 기계학습에서 매우 중요한 부분을 차지한다. 본 논문에서는 보안이벤트 분류 모델의 성능 향상을 위해 기존 연구에서 제안한 기본 feature에 추가로 10종의 신규 feature를 제안한다.
인터넷의 성장과 함께 각종 취약점을 악용한 사이버 공격을 탐지하기 위한 방안으로 무엇을 널리 사용하고 있는가?
인터넷의 성장과 함께 각종 취약점을 악용한 사이버 공격들이 지속적으로 증가하고 있다. 이러한 행위를 탐지하기 위한 방안으로 침입탐지시스템(IDS; Intrusion Detection System)이 널리 사용되고 있지만, IDS에서 발생하는 많은 양의 오탐(정상통신을 공격행위로 잘못 탐지한 보안이벤트)은 여전히 해결되지 않은 문제로 남아있다. IDS 오탐 문제를 해결하기 위한 방법으로 기계학습 알고리즘을 통한 자동분류 연구가 진행되고 있지만 실제 현장 적용을 위해서는 정확도와 데이터 처리속도 향상을 위한 연구가 더 필요하다.
침입탐지시스템을 사용함에 있어 여전히 해결되지 않은 문제는 무엇인가?
인터넷의 성장과 함께 각종 취약점을 악용한 사이버 공격들이 지속적으로 증가하고 있다. 이러한 행위를 탐지하기 위한 방안으로 침입탐지시스템(IDS; Intrusion Detection System)이 널리 사용되고 있지만, IDS에서 발생하는 많은 양의 오탐(정상통신을 공격행위로 잘못 탐지한 보안이벤트)은 여전히 해결되지 않은 문제로 남아있다. IDS 오탐 문제를 해결하기 위한 방법으로 기계학습 알고리즘을 통한 자동분류 연구가 진행되고 있지만 실제 현장 적용을 위해서는 정확도와 데이터 처리속도 향상을 위한 연구가 더 필요하다.
참고문헌 (25)
K. Scarfone and M. Peter, "Guide to intrusion detection and prevention systems (IDPS)," NIST Special Publication-800-94, Feb. 2007.
T. Pietraszek, "Using adaptive alert classification to reduce false positive in intrusion detection," Recent Advances in Intrusion Detection, pp. 102-124, 2004.
N. Hubballi and S. Vinoth, "False alarm minimization techniques in sig- nature-based intrusion detection sys- tems: A survey," Computer Communications, vol. 49, pp. 1-17, Aug. 2014.
G. Spathoulas and K. Sokratis, "Methods for post-processing of alerts in intrusion detection: A survey," International Journal of Information Security Science, vol. 2, no. 2, pp. 64-80, June 2013.
R. Sommer and P. Vern. "Enhancing byte-level network intrusion detection signatures with context," Proceedings of the 10th ACM conference on Computer and communications security. ACM, pp. 262-271, Oct. 2003.
S.J. Yang, A. Stotz, J. Holsopple, M. Sudit, and M. Kuhl, "High level information fusion for tracking and projection of multistage cyber attacks," Information Fusion, vol. 10, issue. 1, pp. 107-121, Jan. 2009.
E. Raftopoulos and D. Xenofontas, "Detecting, validating and characterizing computer infections in the wild," Proceedings of the 2011 ACM SIGCOMM conference on Internet measurement conference. ACM, pp. 29-44, Nov. 2011.
G. Spathoulas and K. Sokratis, "Enhancing IDS performance through comprehensive alert post-processing," Computers & Security, vol. 37, pp. 176-196, Sep. 2013.
M.S. Shin, E.H. Kim, and K.H. Ryu, "False alarm classification model for net- work-based intrusion detection system," International Conference on Intelligent Data Engineering and Automated Learning, pp. 259-265, Aug. 2004.
T. Pietraszek and A. Tanner, "Data mining and machine learning-Towards reducing false positives in intrusion detection," Information Security Technical Report, vol. 10, pp. 169-183, 2005.
C. Thomas and N. Balakrishnan, "Performance enhancement of intrusion detection systems using advances in sensor fusion," pp. 1-7, July 2008.
G. Tjhai, S. Furnell, M. Papadaki, and N. Clarke, "A preliminary two-stage alarm correlation and filtering system using SOM neural network and K-means algorithm," Computers & Security, vol. 29, pp. 712-723, Sep. 2010.
N. Hubballi, S. Biswas, and S. Nandi, "Network specific false alarm reduction in intrusion detection system," Security and Communication Networks, vol. 4, pp. 1339-1349, Nov. 2011.
C. Chiu, Y. Lee, C Chang, W. Luo, and H Huang, "Semi-supervised learning for false alarm reduction," Industrial conference on data mining, pp. 595-605, 2010.
Y. Meng and L. Kwok, "Adaptive false alarm filter using machine learning in intrusion detection," Practical applications of intelligent systems, pp. 573-584, 2011.
S. Benferhat, A. Boudjelida, K. Tabia, and H. Drias, "An intrusion detection and alert correlation approach based on revising probabilistic classifiers using expert knowledge," Applied Intelligence, vol. 38, pp. 520-540, 2013.
Y. Meng and L. Kwok, "Intrusion detection using disagreement-based semi-supervised learning: detection enhancement and false alarm reduction," Cyberspace Safety and Security, pp. 483-497, 2012.
Y. Meng and L. Kwok, "Enhancing false alarm reduction using pool-based active learning in network intrusion detection," International Conference on Information Security Practice and Experience 2013, pp. 1-15, 2013.
W. Li, W. Meng, X. Luo, and L. Kwok, "MVPSys: Towards practical multi-view based false alarm reduction system in network intrusion detection," Computers & Security, vol. 60, pp. 177-192, 2016.
H. Liang, L. Taihui, X. Nannan, and H. Jiejun, "False positive elimination in in- trusion detection based on clustering," 12th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD), pp. 519-523, Aug. 2015.
T. Alapaholuoma, J. Nieminen, J. Ylinen, T. Seppala, and P. Loula, "A behavior-based method for rationalizing the amount of ids alert data," ICCGI 2012, The Seventh International Multi-Conference on Computing in the Global Information Technology, June 2012.
J.O. Nehinbe, "Automated method for reducing false positives," 2010 International Conference on Intelligent Systems, Modelling and Simulation, pp. 54-59, Jan. 2010.
V. Vapnik, "The nature of statistical learning theory," Springer science & business media, 2013.
C.W. Hsu, C.C. Chang, and C.J. Lin, "A practical guide to support vector classification," pp. 1-16, 2003.
C.C. Chang and C.J. Lin, " LIBSVM: a library for support vector machines," ACM transactions on intelligent systems and technology, vol. 2, issue. 3, Apr. 2011.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.