기계 학습을 응용한 많은 침입 탐지 시스템들은 n-그램 접근 방법을 주로 쓰고 있다. 그러나, n-그램 접근 방법은 주어진 시퀀스에서 획득한 n-그램들이 서로 겹치는 문제들을 가지고 있다. 본 연구에서는 이러한 문제들을 해결하기 위해, n-그램 증강 나이브 베이스 (n-gram augmented naive Bayes) 알고리즘을 침입 시퀀스의 분류에 적용하였다. 제안된 시스템의 성능을 평가하기 위해 n-그램 특징들을 사용하는 일반 나이브 베이스 (naive Bayes) 알고리즘과 서포트 벡터 머신 (support vector machines) 알고리즘과 본 연구에서 제안한 n-그램 증강 나이브 베이스 알고리즘을 비교하였다. 뉴 멕시코 대학의 벤치마크 데이터에 적용해 본 결과에 따르면, n-그램 증강 방법이, n-그램이 나이브 베이스에 직접 적용되는 경우(예: n-그램 특징을 사용하는 일반 나이브 베이스), 생기는 독립성 가정에 대한 위배 문제도 해결하면서, 동시에 n-그램 특징을 사용하는 일반 나이브 베이스보다 더 정확하며, n-그램 특징을 사용하는 SVM과 필적할만한 수준의 침입 탐지기를 생성해 내었다.
기계 학습을 응용한 많은 침입 탐지 시스템들은 n-그램 접근 방법을 주로 쓰고 있다. 그러나, n-그램 접근 방법은 주어진 시퀀스에서 획득한 n-그램들이 서로 겹치는 문제들을 가지고 있다. 본 연구에서는 이러한 문제들을 해결하기 위해, n-그램 증강 나이브 베이스 (n-gram augmented naive Bayes) 알고리즘을 침입 시퀀스의 분류에 적용하였다. 제안된 시스템의 성능을 평가하기 위해 n-그램 특징들을 사용하는 일반 나이브 베이스 (naive Bayes) 알고리즘과 서포트 벡터 머신 (support vector machines) 알고리즘과 본 연구에서 제안한 n-그램 증강 나이브 베이스 알고리즘을 비교하였다. 뉴 멕시코 대학의 벤치마크 데이터에 적용해 본 결과에 따르면, n-그램 증강 방법이, n-그램이 나이브 베이스에 직접 적용되는 경우(예: n-그램 특징을 사용하는 일반 나이브 베이스), 생기는 독립성 가정에 대한 위배 문제도 해결하면서, 동시에 n-그램 특징을 사용하는 일반 나이브 베이스보다 더 정확하며, n-그램 특징을 사용하는 SVM과 필적할만한 수준의 침입 탐지기를 생성해 내었다.
In many intrusion detection applications, n-gram approach has been widely applied. However, n-gram approach has shown a few problems including double counting of features. To address those problems, we applied n-gram augmented Naive Bayes directly to classify intrusive sequences and compared perform...
In many intrusion detection applications, n-gram approach has been widely applied. However, n-gram approach has shown a few problems including double counting of features. To address those problems, we applied n-gram augmented Naive Bayes directly to classify intrusive sequences and compared performance with those of Naive Bayes and Support Vector Machines (SVM) with n-gram features by the experiments on host-based intrusion detection benchmark data sets. Experimental results on the University of New Mexico (UNM) benchmark data sets show that the n-gram augmented method, which solves the problem of independence violation that happens when n-gram features are directly applied to Naive Bayes (i.e. Naive Bayes with n-gram features), yields intrusion detectors with higher accuracy than those from Naive Bayes with n-gram features and shows comparable accuracy to those from SVM with n-gram features.
In many intrusion detection applications, n-gram approach has been widely applied. However, n-gram approach has shown a few problems including double counting of features. To address those problems, we applied n-gram augmented Naive Bayes directly to classify intrusive sequences and compared performance with those of Naive Bayes and Support Vector Machines (SVM) with n-gram features by the experiments on host-based intrusion detection benchmark data sets. Experimental results on the University of New Mexico (UNM) benchmark data sets show that the n-gram augmented method, which solves the problem of independence violation that happens when n-gram features are directly applied to Naive Bayes (i.e. Naive Bayes with n-gram features), yields intrusion detectors with higher accuracy than those from Naive Bayes with n-gram features and shows comparable accuracy to those from SVM with n-gram features.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
우리는 우선, n-그램 특징을 사용하는 나이브베이스 (NB n-gram)과 n-그램 증강 나이브 베이스, 그리고 n-그램 특징을 사용하는 SVM (SVM n-gram) 에 대해 설명하고자 한다. 각 방법들을 설명하기 전에, 호스트 기반 침입 탐지 문제를 형식적으로 정의해보고자 한다.
가설 설정
3. 만일 생성된 침입 탐지 시스템이, 예를 들면나이브 베이스 알고리즘과 같이, 특징들 간의 통계적인 독립성에 대한 가정에 의지한다면, 2에서 언급한 n-그램 특징 생성 방법은 근본적으로 이러한 가정을 위배한다.
호스트 기반 침입 탐지기로서의 나이브 베이스 분류기의 중요한 가정 중 하나는, 주어진 클래스에 대해 시퀀스의 각 시스템 콜이 서로 독립적이라는 것이다. 그러므로, 나이브 베이스의 경우 새로운 시퀀스에 대한 분류는 다음과 같이 형식화될 수 있다.
제안 방법
n-그램 증강 나이브 베이스의 성능을 다른 데이터 마이닝 알고리즘과 비교해 보기 위해, 우리는 n-그램 특징들을 사용하는 SVM을 고려해보았다. 즉, 우리는 원래의 프로그램 트레이스에서 n-그램 특징들이 구하고, 구해진 특징들은 선형커널을 사용하는 SVM 알고리즘의 입력으로 사용하였다.
n-그램 증강 나이브 베이스의 성능을 평가하기 위해, 우리는 그 성능을 n-그램 특징을 사용하는나이브 베이스와 n-그램 특징을 사용하는 SVM과 비교하였다. 실험을 위한 데이터로 공개적으로 사용 가능한 뉴 멕시코 대학■(University of New Mexico)의 “UNM live 切” 시스템 콜 트레이스들을 사용하였다.
n.그램 특징을 사용하는 SVM과 비교하였다.
대상 데이터
실험을 위한 데이터로 공개적으로 사용 가능한 뉴 멕시코 대학■(University of New Mexico)의 “UNM live 切” 시스템 콜 트레이스들을 사용하였다.
데이터처리
시퀀스의 분류에 적용하였다. 제안된 시스템의 성능을 평가하기 위해 n-그램 특징들을 사용하는 일반 나이브 베이스 (naive Bayes) 알고리즘과 서포트 벡터 머신 (support vector machines) 알고리즘과 본 연구에서 제안한 n-그램 증강 나이브 베이스 알고리즘을 비교하였다. 뉴 멕시코대학의 벤치마크 데이터에 적용해 본 결과에 따르면, n-그램 증강 방법이, n-그램이 나이브 베이스에 직접 적용되는 경우(예: n-그램 특징을 사용하는 일반 나이브 베이스), 생기는 독립성 가정에 대한 위배 문제도 해결하면서, 동시에 n-그램 특징을 사용하는 일반 나이브 베이스보다 더 정확하며, n-그램 특징을 사용하는 SVM과 필적할만한 수준의 침입 탐지기를 생성해 냄을 알 수 있었다.
이론/모형
본 연구에서는 n-그램 증강 나이브 베이스 (n-gram augmented naive Bayes) 알고리즘을 침입 시퀀스의 분류에 적용하였다. 제안된 시스템의 성능을 평가하기 위해 n-그램 특징들을 사용하는 일반 나이브 베이스 (naive Bayes) 알고리즘과 서포트 벡터 머신 (support vector machines) 알고리즘과 본 연구에서 제안한 n-그램 증강 나이브 베이스 알고리즘을 비교하였다.
즉, 우리는 원래의 프로그램 트레이스에서 n-그램 특징들이 구하고, 구해진 특징들은 선형커널을 사용하는 SVM 알고리즘의 입력으로 사용하였다.
성능/효과
1. 운영 체제에서 시스템 콜의 개수는 약 200 여 개이므로, n-그램 방식의 특징들의 개수는 n이 증가하면 빠르게 증가한다. 예를 들면, 뉴 멕시코 대학의 벤치마크 데이터로 사용된 SunOS의시스템 콜의 개수는 183개인데, 만일 20-그램이 사용되었다면 그 개수는 1, 774, 278, 518, 944, 245, 232, 888, 176, 323, 498, 992, 582, 5 62, 189, 601이나 되므로, 실제 응용에는 실용적이지 못하다.
표 1의 “UNM live lprz/ 데이터를 보면, n-그램 증강 나이브 베이스와 n-그램 특징을 사용하는 나이브 베이스는 둘 다 n 이 6에서 8일때, 최적의 성능을 보였다. n-그램 증강나이브 베이스가 보인 최고의 정확도와 거짓 양성율은 100.00과 0.00이고, n-그램 특징을 사용하는 나이브 베이스의 최고의 정확도와 거짓 양성율은 99.87과 0.24이었다.
나타낸 것이다. 결론부터 말하면, n-그램 증강 나이브 베이스는 n이 6에서 8일 때 가장 좋은 성능을 보였다. 보여준 성능은 S필적할 만경우와 필적할만 했다.
제안된 시스템의 성능을 평가하기 위해 n-그램 특징들을 사용하는 일반 나이브 베이스 (naive Bayes) 알고리즘과 서포트 벡터 머신 (support vector machines) 알고리즘과 본 연구에서 제안한 n-그램 증강 나이브 베이스 알고리즘을 비교하였다. 뉴 멕시코대학의 벤치마크 데이터에 적용해 본 결과에 따르면, n-그램 증강 방법이, n-그램이 나이브 베이스에 직접 적용되는 경우(예: n-그램 특징을 사용하는 일반 나이브 베이스), 생기는 독립성 가정에 대한 위배 문제도 해결하면서, 동시에 n-그램 특징을 사용하는 일반 나이브 베이스보다 더 정확하며, n-그램 특징을 사용하는 SVM과 필적할만한 수준의 침입 탐지기를 생성해 냄을 알 수 있었다.
전체적으로 n-그램 증강 나이브 베이스는 n-그램 특징을 사용하는 나이브 베이스보다 더 나은 성능을 보였다. 표 1의 “UNM live lprz/ 데이터를 보면, n-그램 증강 나이브 베이스와 n-그램 특징을 사용하는 나이브 베이스는 둘 다 n 이 6에서 8일때, 최적의 성능을 보였다.
호스트 기반 침입 탐지 벤치마크 데이터에 대해 행한 실험 결과에 따르면, 본 연구에서 응용한 n-그램 증강 나이브 베이스가 m 그램 특징을 사용하는 나이브 베이스보다 더 좋은 결과를 보였으며, n-그램 특징을 사용하는 SVM 와 비슷한 정확도를 보였다.
후속연구
차후 연구 방향으로, 우리는 DARPA 1998/1999 데이터μ1] 와 같은 더 많은 데이터 집합들에 대해 실험을 확장할 계획이다. 가능한 다른 연구 방향으로는 n-그램 표현을 시스템 콜의 매개 변수들에 대해 확장하는 것[12]이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.