탐지 모델은 인공지능 기법들이나 데이터 마이닝 기법, 또는 지능형 알고리즘들을 이용하여 어떠한 목적에 맞는 결과를 찾고자 하는 모델들이다. 사이버 보안에서는 주로 침입탐지, 악성코드 탐지, 침해사고 탐지, 공격 탐지로 활용되고 있다. 보안데이터와 같은 실제 환경에 수집되는 데이터들을 레이블이 되지 않은 데이터들이 많다. 클래스 레이블이 정해지지 않아 유형을 알 수 없는 데이터가 많아 정확한 탐지 및 분석을 하기 위해서는 레이블 결정과정이 필요하다. 본 논문에서 제안하는 방법은 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정할 수 있는 KDFL(K-means and D-S Fusion based Labeling)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈다. 또한 오류율도 크게 개선된 결과를 나타내어 제안하는 방법의 성능을 검증할 수 있었다.
탐지 모델은 인공지능 기법들이나 데이터 마이닝 기법, 또는 지능형 알고리즘들을 이용하여 어떠한 목적에 맞는 결과를 찾고자 하는 모델들이다. 사이버 보안에서는 주로 침입탐지, 악성코드 탐지, 침해사고 탐지, 공격 탐지로 활용되고 있다. 보안데이터와 같은 실제 환경에 수집되는 데이터들을 레이블이 되지 않은 데이터들이 많다. 클래스 레이블이 정해지지 않아 유형을 알 수 없는 데이터가 많아 정확한 탐지 및 분석을 하기 위해서는 레이블 결정과정이 필요하다. 본 논문에서 제안하는 방법은 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정할 수 있는 KDFL(K-means and D-S Fusion based Labeling)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈다. 또한 오류율도 크게 개선된 결과를 나타내어 제안하는 방법의 성능을 검증할 수 있었다.
The Detection Model is the model to find the result of a certain purpose using artificial intelligent, data mining, intelligent algorithms In Cyber Security, it usually uses to detect intrusion, malwares, cyber incident, and attacks etc. There are an amount of unlabeled data that are collected in a ...
The Detection Model is the model to find the result of a certain purpose using artificial intelligent, data mining, intelligent algorithms In Cyber Security, it usually uses to detect intrusion, malwares, cyber incident, and attacks etc. There are an amount of unlabeled data that are collected in a real environment such as security data. Since the most of data are not defined the class labels, it is difficult to know type of data. Therefore, the label determination process is required to detect and analysis with accuracy. In this paper, we proposed a KDFL(K-means and D-S Fusion based Labeling) method using D-S inference and k-means(unsupervised) algorithms to decide label of data records by fusion, and a detection model architecture using a proposed labeling method. A proposed method has shown better performance on detection rate, accuracy, F1-measure index than other methods. In addition, since it has shown the improved results in error rate, we have verified good performance of our proposed method.
The Detection Model is the model to find the result of a certain purpose using artificial intelligent, data mining, intelligent algorithms In Cyber Security, it usually uses to detect intrusion, malwares, cyber incident, and attacks etc. There are an amount of unlabeled data that are collected in a real environment such as security data. Since the most of data are not defined the class labels, it is difficult to know type of data. Therefore, the label determination process is required to detect and analysis with accuracy. In this paper, we proposed a KDFL(K-means and D-S Fusion based Labeling) method using D-S inference and k-means(unsupervised) algorithms to decide label of data records by fusion, and a detection model architecture using a proposed labeling method. A proposed method has shown better performance on detection rate, accuracy, F1-measure index than other methods. In addition, since it has shown the improved results in error rate, we have verified good performance of our proposed method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 탐지모델에서 분류 기반 모델을 사용하기 위해 레이블 되지 않은 데이터에 대해 레이블을 결정해줄 수 있는 방법을 제안하였다. 탐지 및 분석 모델에서 비교사 방법은 정확도 및 오류 성능을 향상시키는데 주요한 방법이다.
[5]에서는 Naive Bayes 분류기로 알려진 베이지안 네트워크 형식의 모델을 사용하였다. 이 실험에서는 KDD 1999 데이터 셋을 사용하였고 3개로 분류한 카테고리를 공격 시나리오와 성능 측정을 반영하기 위해서 그룹화하였다. 하나의 공격과 정상적인 데이터는 첫 번째 데이터 셋에 포함되었으며, 두 번째 데이터 셋에는 KDD 1999 데이터 셋에 있는 4가지 공격 타입을 포함하였고, 오용탐지를 위한 다중 클래스 분류를 수행하였다.
제안 방법
결정된 레이블을 학습셋으로 394,021개, 테스트 셋으로 100,000개로 분리하여 학습을 통해 분류 기반 탐지 실험을 수행하였다. D-S의 초기 파라미터 값으로 특징 선택으로 선택된 각 특징들의 최소값, 최대값, 평균값을 설정하여, 레코드별 추론을 수행하였다. (표 2)는 D-S 레이블링 방법 기반의 분류 기반 탐지 성능 실험 결과를 나타내고 있다.
본 논문에서는 탐지성능을 측정하기 위해 F1-measure는 데이터 분류, 문서 분류, 분류탐지에서 단순 정확도나 탐지율 등의 성능평가 방법을 개선한 방법이다. TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)으로 precision과 recall값을 구하면 각 값의 비중을 동일하게 하여 조화 평균을 구한다[17]. 높을수록 분류 탐지기의 성능이 높다고 평가한다.
따라서 본 논문에서는 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정해주는 알고리즘을 제안하였다. 제안하는 방법은 두개의 알고리즘에서 각각 추론과 비교사 방법으로 결정된 데이터의 레이블 값들을 융합하여 더 좋은 레이블 값을 얻고자 하였다.
레이블이 알려지지 않은 데이터로부터 공격 행위를 탐지가 가능하며, 새로운 데이터에 대해서도 탐지가 가능하다. 또한 새로운 공격 유형에 대한 대처도 가능하도록 적응형 구조로 구성하였다.
이미 레이블을 알고 있는 데이터 셋을 적용한 결과와는 성능이 비교적 좋지 않게 보일 수 있으나 레이블이 되지 않은 데이터들을 사용해야하는 경우를 가정할 때, 레이블을 결정하고 이를 분류 기반으로 탐지하는 성능에 대한 평가는 충분한 성능 결과를 나타낸 것으로 판단된다. 또한 이를 적용한 공격 탐지 및 분석 모델을 제시하여 실제적인 적용 방안을 모색하였다.
또한 탐지 시스템의 전체적인 정확도, 탐지율(DR: Detection Rate), 잘못허용율(FAR:False Accept Rate)=미탐율, 거절 실패율(FRR:False Reject Rate)=오탐율을 측정하여 성능 지표를 확인하도록 한다.
100% 정확한 정답을 찾아주지는 못하지만 어느 정도 예상되는 데이터 레이블을 식별해주기 때문에 레이블이 없는 데이터의 레이블을 결정하는데 적용할 수 있다. 레이블 추론 단계에서는 기존의 공격 또는 정상 데이터 등을 토대 초기 D-S의 BPA를 할당한 뒤 레이블이 필요한 데이터를 알고리즘에 적용하여 각 데이터의 레이블을 추론한다. D-S 알고리즘은 구조상 데이터가 계속적으로 알고리즘의 입력으로 사용되고 레이블을 추론함에 따라 점차 BPA와 조합규칙이 데이터 셋의 특성을 반영하여 세밀하게 확률 구간이 조정될 수 있다.
레이블되지 않은 데이터들로부터 공격 및 정상 시그니처들을 추출하기 위한 과정으로 본 논문에서는 추론을 사용하여 알지 못하는 데이터의 레이블을 결정할 수 있다. 실제 환경에서 수집되는 데이터들을 보통 레이블되지 않은 데이터인 경우가 보통이며 이를 학습 및 분류를 통해 더 정확한 탐지를 하기 위해서는 레이블 결정과정이 필요하다.
레이블링 알고리즘의 성능을 검증하기 위해 각 레이블링 알고리즘의 결과를 학습하여 분류 기반 탐지를 수행하였다. 먼저 naive bayes 분류기 자체 성능을 검증하기 위해 실험에 사용한 kdd 데이터 셋의 원본 클래스 레이블을 학습하여 naive bayes 모델로 분류 기반 탐지를 수행한 실험 결과는 아래와 같다.
비교사 방법인 k-means 알고리즘으로 레이블을 결정한 결과를 학습하여 naive bayes 분류 기반으로 탐지를 수행한 결과는 아래와 같다. 마찬가지로 전체 데이터 셋에 대해 레이블을 결정하고, 학습셋으로 394,021개, 테스트 셋으로 100,000개의 레코드로 분리하여 분류 기반 탐지 실험을 수행하였다. k값은 2로 지정하였으며 군집에 사용된 특징들은 특징 선택으로 선택된 각 특징들이 입력으로 사용되었다.
대부분 10% 데이터 셋을 활용하여 실험을 수행하며, 본 실험에서도 10% 데이터셋인 494,021개의 레코드를 사용하였다. 본 논문에서 KDD` cup 데이터 셋을 사용한 이유는 이 데이터 셋의 경우 이미 레이블이 결정이 되어 있어 답을 알 수 있는 데이터로 레이블링 알고리즘으로 결정된 레이블 값으로 분류 기반 탐지를 수행한 결과 값을 원본의 답과 비교하여 성능을 검증할 수 있기 때문에 실험에 사용하였다. 특징 선택의 경우 41개의 모든 특징을 사용하지 않고 특징선택을 수행한 결과로 결정된 7개의 주요 수치형 특징들만을 사용하여 실험하였다.
본 논문에서 제안하는 방법은 레이블 결정을 위해 D-S(Dampster-Shafer) 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정해주는 방법을 제안하였다. D-S 레이블링을 단독으로 사용한 방법은 탐지율이 높지만 오탐율이 너무 높아 오류가 크며, k-means 레이블링을 단독으로 사용한 방법은 오탐율은 낮지만 탐지율이 낮아 정확도가 떨어진다는 단점이 있다.
범주형 속성과 수치형 속성은 각 유형에 맞게 전처리과정이 다르게 적용된다. 본 논문의 실험에서는 이미 정규화까지 완료된 데이터셋으로부터 7개의 특징을 선택하여 전처리를 하였다.
44로 설정하였으며, rate는 높아질수록 D-S의 레이블 결과의 중요도가 높아져 D-S 결과가 더 크게 반영 되었다. 본 실험에서는 두 방법의 비중을 같게 하여 레이블을 결함하여 분류 기반 탐지를 수행하였다. 실험 결과는 위 (표 4)와 같다.
높을수록 분류 탐지기의 성능이 높다고 평가한다. 본 평가에서는 탐지 성능을 체크하기 위해서 positive 클래스를 attack로 정하고 성능평가를 한다. P는 precision, R은 recall이며 각 식 (7)에 의해 구해지며 F1-measure는 식 (8)과 같다.
탐지 및 분석 모델에서 비교사 방법은 정확도 및 오류 성능을 향상시키는데 주요한 방법이다. 비교사 방법을 활용하기 위해서는 입력 데이터의 클래스 레이블이 필요하기 때문에 자동으로 레이블을 결정할 수 있는 방법을 제안하였다.
하나의 공격과 정상적인 데이터는 첫 번째 데이터 셋에 포함되었으며, 두 번째 데이터 셋에는 KDD 1999 데이터 셋에 있는 4가지 공격 타입을 포함하였고, 오용탐지를 위한 다중 클래스 분류를 수행하였다. 세 번째 셋에는 정상 데이터와 첫 번째 카테고리를 포함한 4가지 공격 타입을 포함하였고, 여기에선 이상 탐지를 수행하였다. 이 실험에서는 Normal, DoS, R2L, U2R, Probe or Scan에 대해서 97%, 96%, 9%, 12%, 88%의 정확성을 보여줬으며, 오경보도 나타나지 않았다.
D-S 레이블링을 단독으로 사용한 방법은 탐지율이 높지만 오탐율이 너무 높아 오류가 크며, k-means 레이블링을 단독으로 사용한 방법은 오탐율은 낮지만 탐지율이 낮아 정확도가 떨어진다는 단점이 있다. 이를 개선하기 위해 두 결과를 융합하는 KDFL(K-means and D-S Fusion based Labeling algorithm)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 각 알고리즘의 단점을 상호보완하여 레이블링을 수행하였으며, 레이블링 결과를 분류기반 탐지를 수행하였을 때 정확도와 오류 성능을 개선 할 수 있었다.
제안하는 방법은 각각의 장점을 활용하여 결과를 융합하여 레이블링을 수행하면 단점을 보완하고, 더 좋은 성능 결과를 얻을 수 있을 것으로 판단된다. 이를 검증하기 위해 각 D-S와 k-means 알고리즘이 전체 데이터 셋에 대해 결정한 각 레코드에 대한 레이블들에 대해 결합하는 방법 적용하여 새로운 레이블들을 결정하였고, 결정한 레이블로 구성된 데이터 셋을 학습 셋으로 394,021개, 테스트 셋으로 100,000개의 레코드로 분리하여 분류 기반 탐지 실험을 수행하였다. 알고리즘에 사용되는 fusion rate 파라미터 값은 0.
추론된 레이블 값들을 데이터의 레이블로 결정하여 데이터의 클래스를 선정한다. 이를 기반으로 수집된 데이터 셋에서 테스트 셋을 만들고 선택된 특징들을 기반으로 학습을 통해 공격 탐지 모델을 구축한다. 이를 통해 새로 유입되는 데이터에 대해 공격탐지를 수행한다.
이를 기반으로 수집된 데이터 셋에서 테스트 셋을 만들고 선택된 특징들을 기반으로 학습을 통해 공격 탐지 모델을 구축한다. 이를 통해 새로 유입되는 데이터에 대해 공격탐지를 수행한다.
따라서 본 논문에서는 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정해주는 알고리즘을 제안하였다. 제안하는 방법은 두개의 알고리즘에서 각각 추론과 비교사 방법으로 결정된 데이터의 레이블 값들을 융합하여 더 좋은 레이블 값을 얻고자 하였다. 그림 2는 제안하는 알고리즘 과정을 나타내고 있다.
제안하는 알고리즘을 적용한 공격 분류 및 탐지 시스템 구조는 CRISP-DM의 모델[10]을 기반하여 데이터 마이닝 기반의 공격 탐지 프레임워크를 구성하였다. Data Collection 단계에서는 분석 및 비즈니스 목적에 맞게 각 채널로부터 데이터를 수집하는 과정이다.
이 실험에서는 KDD 1999 데이터 셋을 사용하였고 3개로 분류한 카테고리를 공격 시나리오와 성능 측정을 반영하기 위해서 그룹화하였다. 하나의 공격과 정상적인 데이터는 첫 번째 데이터 셋에 포함되었으며, 두 번째 데이터 셋에는 KDD 1999 데이터 셋에 있는 4가지 공격 타입을 포함하였고, 오용탐지를 위한 다중 클래스 분류를 수행하였다. 세 번째 셋에는 정상 데이터와 첫 번째 카테고리를 포함한 4가지 공격 타입을 포함하였고, 여기에선 이상 탐지를 수행하였다.
대상 데이터
결정된 레이블을 학습셋으로 394,021개, 테스트 셋으로 100,000개로 분리하여 학습을 통해 분류 기반 탐지 실험을 수행하였다.
약 490만개의 레코드가 존재하며, 41개의 특징(feature)으로 구성되어있다. 대부분 10% 데이터 셋을 활용하여 실험을 수행하며, 본 실험에서도 10% 데이터셋인 494,021개의 레코드를 사용하였다. 본 논문에서 KDD` cup 데이터 셋을 사용한 이유는 이 데이터 셋의 경우 이미 레이블이 결정이 되어 있어 답을 알 수 있는 데이터로 레이블링 알고리즘으로 결정된 레이블 값으로 분류 기반 탐지를 수행한 결과 값을 원본의 답과 비교하여 성능을 검증할 수 있기 때문에 실험에 사용하였다.
D-S 알고리즘으로 레이블을 결정한 결과를 학습하여 naive bayes 분류 기반으로 탐지를 수행한 결과는 다음과 같다. 레이블 결정 과정에서는 총 데이터 셋인 494,021개를 입력하여 모든 레코드에 대해 레이블을 결정하였다. 결정된 레이블을 학습셋으로 394,021개, 테스트 셋으로 100,000개로 분리하여 학습을 통해 분류 기반 탐지 실험을 수행하였다.
주요 특징 선택 기준은 [13]에서 제안한 방법에 의해 결정된 특징들을 사용하였다. 실험에 사용한 데이터의 클래스 분포는 공격 396,743개, 정상 92,278개의 레코드를 사용하였다.
실험을 위해 사용된 데이터 셋은 anomaly detection dataset 중 가장 대표적인 KDD` cup 99 데이터 셋[16] 을 사용하였다. 이 데이터 셋은 정형화된 데이터로 MIT Lincoln Lab에서 이상탐지를 실험하기 위해 미 공군 LAN으로부터 수집한 공격 및 정상 데이터이다.
실험을 위해 사용된 데이터 셋은 anomaly detection dataset 중 가장 대표적인 KDD` cup 99 데이터 셋[16] 을 사용하였다. 이 데이터 셋은 정형화된 데이터로 MIT Lincoln Lab에서 이상탐지를 실험하기 위해 미 공군 LAN으로부터 수집한 공격 및 정상 데이터이다. 많은 IDS 연구에서 실험용 데이터 셋으로 널리 사용되고 있는 데이터 셋이다.
본 논문에서 KDD` cup 데이터 셋을 사용한 이유는 이 데이터 셋의 경우 이미 레이블이 결정이 되어 있어 답을 알 수 있는 데이터로 레이블링 알고리즘으로 결정된 레이블 값으로 분류 기반 탐지를 수행한 결과 값을 원본의 답과 비교하여 성능을 검증할 수 있기 때문에 실험에 사용하였다. 특징 선택의 경우 41개의 모든 특징을 사용하지 않고 특징선택을 수행한 결과로 결정된 7개의 주요 수치형 특징들만을 사용하여 실험하였다. 주요 특징 선택 기준은 [13]에서 제안한 방법에 의해 결정된 특징들을 사용하였다.
먼저 naive bayes 분류기 자체 성능을 검증하기 위해 실험에 사용한 kdd 데이터 셋의 원본 클래스 레이블을 학습하여 naive bayes 모델로 분류 기반 탐지를 수행한 실험 결과는 아래와 같다. 학습셋으로 394,021개, 테스트 셋으로 100,000개의 레코드를 사용하였다.
이론/모형
교사학습 기반의 공격 탐지 연구들에서는 기존의 알려진 데이터의 레이블을 학습하여 분류를 기반으로 공격을 탐지하는 방법을 연구하였다. [5]에서는 Naive Bayes 분류기로 알려진 베이지안 네트워크 형식의 모델을 사용하였다. 이 실험에서는 KDD 1999 데이터 셋을 사용하였고 3개로 분류한 카테고리를 공격 시나리오와 성능 측정을 반영하기 위해서 그룹화하였다.
이를 통해 새로운 데이터에 대한 공격 판단이 가능하며 새로운 레이블들을 생성하여 모델을 갱신할 수 있는 적응형 공격 탐지 시스템을 구현할 수 있다. 본 논문에서는 분류기로 naive bayes를 사용하였다.
02이다. 분류기인 naive bayes 알고리즘은 각각 R 패키지로 구현되어 있는 e1071 [15] 패키지를 사용하여 실험을 수행하였다.
제안하는 방법은 각 알고리즘의 단점을 상호보완하여 레이블링을 수행하였으며, 레이블링 결과를 분류기반 탐지를 수행하였을 때 정확도와 오류 성능을 개선 할 수 있었다. 성능 평가를 위해 naive bayes 분류기 기반의 탐지 모델을 이용하여 kdd cup`99(이미 클래스 레이블의 답이 알려져 있는)에 제안하는 방법을 적용하여 실험을 수행하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈으며, 오류율도 크게 개선한 결과를 나타내어 성능을 검증할 수 있었다.
특징 선택의 경우 41개의 모든 특징을 사용하지 않고 특징선택을 수행한 결과로 결정된 7개의 주요 수치형 특징들만을 사용하여 실험하였다. 주요 특징 선택 기준은 [13]에서 제안한 방법에 의해 결정된 특징들을 사용하였다. 실험에 사용한 데이터의 클래스 분포는 공격 396,743개, 정상 92,278개의 레코드를 사용하였다.
성능/효과
(표 1)에 나타나있는 실험결과를 보면 kdd 데이터 셋에 대해 naive bayes 분류기는 정확도는 0.979, f1-measure 지표는 0.9871, 탐지율은 0.9805로 전체적인 지표에서 우수한 성능을 나타내고 오탐과 미탐 오류도 적게 나타난 것을 볼 수 있다. 따라서 탐지 시스템에서 사용하기 적합한 분류 모델이라고 볼 수 있어 본 실험에 검증 모델로 활용 할 수 있음을 판단할 수 있다.
0826으로 낮게 나타났다. D-S는 FRR, k-means은 FAR이 제안하는 방법보다는 낮게 나타났지만 다른 오류 수치에서 아주 좋지 않은 성능 지표를 보여주고 있기 때문에 단독으로 사용하기에는 부족하다는 것을 실험을 통해 알 수 있었다.
또한 [4]에서는 익명성이 존재하는 트래픽 데이터에 대해 레이블링하기위해 D-S 추론 알고리즘을 사용하기도 하였다. 각 방법들은 레이블을 결정해 줄 수 있지만 결과들을 학습하여 분류 및 탐지를 수행했을 경우 정확도 성능과 오류 성능에서 부족한 부분이 나타났다. 추론 중 D-S를 사용한 방법은 미탐율이 높고, 비교사 학습 중 k-means를 사용한 방법은 정확도가 낮고, 오탐율이 높게 나타나 각각을 단일로 사용하기에는 부족한 부분이 있어 이를 개선할 방법이 필요하다.
(그림 3)은 D-S와 k-means 방법과 제안하는 방법과의 정확도 관련 성능 수치를 비교한 결과이다. 결과에서 볼 수 있듯이 제안하는 방법은 전체적인 성능이 F1-measure는 0.9378, 정확도는 0.9040, 탐지율은 0.9007로 다른 방법들에 비해 높게 나타난 것을 볼 수 있다. 특히 정확도 성능은 다른 알고리즘에 비해 상당히 개선된 것을 볼 수 있다.
결론적으로, 레이블을 알고 있는 경우에 비해서는 성능이 비교적 낮게 보일 수 있으나 레이블이 되지 않은 데이터에 대해 레이블을 결정하고, 이를 분류 기반으로 탐지하는 성능에 대한 평가는 충분히 공격 탐지 또는 분석 시스템에 적용할만한 성능 결과를 나타낸 것으로 판단된다. 제안하는 방법은 레이블이 결정되지 않은 데이터에 대해서 자동으로 레이블을 결정할 수 있으며, 적응형으로 레이블 학습과 새로운 데이터에 대한 분류, 새로운 레이블 생성, 학습과 모델 갱신들이 가능하기 때문에 점진적인 성능 개선이 나타날 수 있을 것으로 판단된다.
그림 2는 제안하는 알고리즘 과정을 나타내고 있다. 데이터 셋으로부터 각 추론알고리즘인 D-S알고리즘과 비교사 방법인 k-means clustering 방법이 각각의 레이블링 결과를 발생시키고, 그 결과 값들을 비교하여 서로 다른 결과를 산출하였을 경우 fusioner를 통해 결과를 융합한다. 여기서 fr(fusion rate)는 두 개의 알고리즘의 결과값을 융합할 때 비율을 조정하기 위한 파라미터 값으로 값이 높아질수록 추론 결과가, 낮아질수록 비교사 방법의 결과가 레이블을 결정하는데 더 반영되도록 하였다.
D-S에 비해 비중이 높은 데이터에 대한 분류율이 낮다. 따라서 제안하는 방법은 D-S 알고리즘 결과와 k-means 결과의 장점들을 반영할 수 있는 적절한 융합알고리즘을 적용하여 레이블을 결정하고, 이를 통해 각 알고리즘의 레이블링 결정방법이 갖고 있는 단점들을 개선하여 정확도를 높이고 오류율을 낮출 수 있었다.
제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈으며, 오류율도 크게 개선한 결과를 나타내어 성능을 검증할 수 있었다. 또한 레이블 되지 않은 데이터에 대해 제안하는 방법에 의해 자동으로 레이블링한 결과를 탐지모델에서 사용할 수 있는 가능성을 확인할 수 있었다.
7636으로 낮게 나와서 단독으로 탐지 시스템에 적용하기는 어렵다는 것을 알 수 있었다. 또한 실험 데이터 셋의 경우 공격 클래스가 더욱 많이 분포되어 있는데, D-S의 경우 클래스 비중에 높은 데이터에 대해 더욱 정확한 레이블을 결정을 하지만 적은 데이터에 대한 레이블 추론은 정확도가 떨어진다는 것을 볼 수 있었다.
실험 결과들을 분석해본 결과, D-S와 k-means을 단독으로 사용한 것에 비해 상당한 성능 개선이 되었다는 것을 알 수 있다. 제안하는 알고리즘은 fusion 방식을 통해 각 알고리즘의 단점이 개선되어 종합적인 성능을 개선시켰음을 판단할 수 있었다.
실험 결과를 보면 탐지율(DR)은 0.9387로 높게 나타났으며 그에 따라 FRR, 즉 미탐율은 0.0608로 낮게 나타났다. 반대로 공격이 아닌 것에 대한 탐지는 상당히 낮게 오탐율도 0.
실험 결과는 위 (표 4)와 같다. 실험 결과를 보면, 보편적 성능 지표들이 F1-measure는 0.9378, 정확도는 0.904, 탐지율이 0.9007로 좋은 결과를 나타내었다. 또한 오류관련 지표인 FRR과 FAR도 각 0.
(표 3)은 k-means 레이블링 방법 기반의 분류 기반 탐지 성능 실험 결과를 나타내고 있다. 실험 결과를 보면, 오탐율(FAR)은 0.0001로 낮게 나타나는 것을 볼 수 있는데 이는 정상에 대한 분류는 정확히 하는 것이라고 판단할 수 있다. 반대로 공격에 대한 탐지율은 0.
이를 검증하기 위해 각 D-S와 k-means 알고리즘이 전체 데이터 셋에 대해 결정한 각 레코드에 대한 레이블들에 대해 결합하는 방법 적용하여 새로운 레이블들을 결정하였고, 결정한 레이블로 구성된 데이터 셋을 학습 셋으로 394,021개, 테스트 셋으로 100,000개의 레코드로 분리하여 분류 기반 탐지 실험을 수행하였다. 알고리즘에 사용되는 fusion rate 파라미터 값은 0.44로 설정하였으며, rate는 높아질수록 D-S의 레이블 결과의 중요도가 높아져 D-S 결과가 더 크게 반영 되었다. 본 실험에서는 두 방법의 비중을 같게 하여 레이블을 결함하여 분류 기반 탐지를 수행하였다.
(그림 4)는 k-means 방법과 제안하는 방법과의 오류 관련 성능 수치를 비교한 결과이다. 오탐과 미탐율의 평균적인 성능 수치에서는 제안하는 방법이 FRR(오탐율)은 0.0993, FAR(미탐율)은 0.0826으로 낮게 나타났다. D-S는 FRR, k-means은 FAR이 제안하는 방법보다는 낮게 나타났지만 다른 오류 수치에서 아주 좋지 않은 성능 지표를 보여주고 있기 때문에 단독으로 사용하기에는 부족하다는 것을 실험을 통해 알 수 있었다.
세 번째 셋에는 정상 데이터와 첫 번째 카테고리를 포함한 4가지 공격 타입을 포함하였고, 여기에선 이상 탐지를 수행하였다. 이 실험에서는 Normal, DoS, R2L, U2R, Probe or Scan에 대해서 97%, 96%, 9%, 12%, 88%의 정확성을 보여줬으며, 오경보도 나타나지 않았다. 하지만 일반적으로 97% 정도만이 수행되기 때문에 FAR가 3%다 작다고는 확실하게 이야기할 수 없으며, 이상 탐지 실험은 정상과 비정상에 대해서 98%, 89%의 정확성을 보였다.
제안하는 방법은 추론과 비교사 학습 기반의 레이블링 방법들의 결과를 융합하는 형태로 더 좋은 레이블 값을 얻을 수 있었다. 이는 실험을 통해 분류 및 탐지 성능이 우수하게 나타난 것을 검증할 수 있었으며, 기존 방법들의 단점들을 개선하고 상호 보완할 수 있는 방법임을 알 수 있었다. 이미 레이블을 알고 있는 데이터 셋을 적용한 결과와는 성능이 비교적 좋지 않게 보일 수 있으나 레이블이 되지 않은 데이터들을 사용해야하는 경우를 가정할 때, 레이블을 결정하고 이를 분류 기반으로 탐지하는 성능에 대한 평가는 충분한 성능 결과를 나타낸 것으로 판단된다.
이는 실험을 통해 분류 및 탐지 성능이 우수하게 나타난 것을 검증할 수 있었으며, 기존 방법들의 단점들을 개선하고 상호 보완할 수 있는 방법임을 알 수 있었다. 이미 레이블을 알고 있는 데이터 셋을 적용한 결과와는 성능이 비교적 좋지 않게 보일 수 있으나 레이블이 되지 않은 데이터들을 사용해야하는 경우를 가정할 때, 레이블을 결정하고 이를 분류 기반으로 탐지하는 성능에 대한 평가는 충분한 성능 결과를 나타낸 것으로 판단된다. 또한 이를 적용한 공격 탐지 및 분석 모델을 제시하여 실제적인 적용 방안을 모색하였다.
9482로 높게 나왔다. 전체적인 정확도도 0.7636으로 낮게 나와서 단독으로 탐지 시스템에 적용하기는 어렵다는 것을 알 수 있었다. 또한 실험 데이터 셋의 경우 공격 클래스가 더욱 많이 분포되어 있는데, D-S의 경우 클래스 비중에 높은 데이터에 대해 더욱 정확한 레이블을 결정을 하지만 적은 데이터에 대한 레이블 추론은 정확도가 떨어진다는 것을 볼 수 있었다.
이를 개선하기 위해 두 결과를 융합하는 KDFL(K-means and D-S Fusion based Labeling algorithm)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 각 알고리즘의 단점을 상호보완하여 레이블링을 수행하였으며, 레이블링 결과를 분류기반 탐지를 수행하였을 때 정확도와 오류 성능을 개선 할 수 있었다. 성능 평가를 위해 naive bayes 분류기 기반의 탐지 모델을 이용하여 kdd cup`99(이미 클래스 레이블의 답이 알려져 있는)에 제안하는 방법을 적용하여 실험을 수행하였다.
성능 평가를 위해 naive bayes 분류기 기반의 탐지 모델을 이용하여 kdd cup`99(이미 클래스 레이블의 답이 알려져 있는)에 제안하는 방법을 적용하여 실험을 수행하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈으며, 오류율도 크게 개선한 결과를 나타내어 성능을 검증할 수 있었다. 또한 레이블 되지 않은 데이터에 대해 제안하는 방법에 의해 자동으로 레이블링한 결과를 탐지모델에서 사용할 수 있는 가능성을 확인할 수 있었다.
제안하는 방법은 추론과 비교사 학습 기반의 레이블링 방법들의 결과를 융합하는 형태로 더 좋은 레이블 값을 얻을 수 있었다. 이는 실험을 통해 분류 및 탐지 성능이 우수하게 나타난 것을 검증할 수 있었으며, 기존 방법들의 단점들을 개선하고 상호 보완할 수 있는 방법임을 알 수 있었다.
실험 결과들을 분석해본 결과, D-S와 k-means을 단독으로 사용한 것에 비해 상당한 성능 개선이 되었다는 것을 알 수 있다. 제안하는 알고리즘은 fusion 방식을 통해 각 알고리즘의 단점이 개선되어 종합적인 성능을 개선시켰음을 판단할 수 있었다.
이 실험에서는 Normal, DoS, R2L, U2R, Probe or Scan에 대해서 97%, 96%, 9%, 12%, 88%의 정확성을 보여줬으며, 오경보도 나타나지 않았다. 하지만 일반적으로 97% 정도만이 수행되기 때문에 FAR가 3%다 작다고는 확실하게 이야기할 수 없으며, 이상 탐지 실험은 정상과 비정상에 대해서 98%, 89%의 정확성을 보였다.
후속연구
9805로 전체적인 지표에서 우수한 성능을 나타내고 오탐과 미탐 오류도 적게 나타난 것을 볼 수 있다. 따라서 탐지 시스템에서 사용하기 적합한 분류 모델이라고 볼 수 있어 본 실험에 검증 모델로 활용 할 수 있음을 판단할 수 있다.
제안하는 방법은 레이블이 결정되지 않은 데이터에 대해서 자동으로 레이블을 결정할 수 있으며, 적응형으로 레이블 학습과 새로운 데이터에 대한 분류, 새로운 레이블 생성, 학습과 모델 갱신들이 가능하기 때문에 점진적인 성능 개선이 나타날 수 있을 것으로 판단된다. 또한 fusion rate 파라미터를 최적화된 값을 찾아내거나 fusion 방식을 추가적으로 개선하면 더 좋은 결과를 얻을 수 있을 것이다.
제안하는 방법은 각각의 장점을 활용하여 결과를 융합하여 레이블링을 수행하면 단점을 보완하고, 더 좋은 성능 결과를 얻을 수 있을 것으로 판단된다.
제안하는 방법은 레이블이 결정되지 않은 데이터에 대해서 자동으로 레이블을 결정할 수 있으며, 적응형으로 레이블 학습과 새로운 데이터에 대한 분류, 새로운 레이블 생성, 학습과 모델 갱신들이 가능하기 때문에 점진적인 성능 개선이 나타날 수 있을 것으로 판단된다.
각 방법들은 레이블을 결정해 줄 수 있지만 결과들을 학습하여 분류 및 탐지를 수행했을 경우 정확도 성능과 오류 성능에서 부족한 부분이 나타났다. 추론 중 D-S를 사용한 방법은 미탐율이 높고, 비교사 학습 중 k-means를 사용한 방법은 정확도가 낮고, 오탐율이 높게 나타나 각각을 단일로 사용하기에는 부족한 부분이 있어 이를 개선할 방법이 필요하다. 이를 개선하기 위해 알고리즘간 단점을 상호보완할 수 있는 융합형태의 레이블링 방법이 필요하다.
향후 연구로는 탐지 및 분석 성능 개선을 위해 제안한 알고리즘의 파라미터 값 등의 레이블링 성능을 개선하고, 연속적으로 유입되는 데이터 및 시계열 분석 처리가 가능한 탐지 및 분석 모델에 대해 연구하도록 하겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
유형을 알 수 없는 데이터에서 레이블 결정 과정이 필요한 이유는?
즉, 해당 데이터는 클래스 레이블이 정해지지 않아 유형을 알 수 없는 데이터인 경우가 많다. 이러한 데이터들을 학습 및 분류를 통해 더 정확한 탐지 및 분석을 하기 위해서는 레이블 결정 과정이 필요하다. 레이블 결정은 전문가와 경험에 의해 수동으로 수행할 수 있지만 데이터량이 많고 전체 데이터 셋을 직관적으로 분석하기 어려운 경우 데이터 셋일 경우에는 이 방법을 활용하기는 어렵다.
제안하는 KDFL 기법의 이점은?
제안하는 KDFL(K-means and D-S Fusion based Labeling)를 적용한 공격 분류 및 탐지 시스템의 구조는 (그림 1)과 같다. 레이블이 알려지지 않은 데이터로부터 공격 행위를 탐지가 가능하며, 새로운 데이터에 대해서도 탐지가 가능하다. 또한 새로운 공격 유형에 대한 대처도 가능하도록 적응형 구조로 구성하였다.
탐지 모델이란?
탐지 모델은 인공지능 기법들이나 데이터 마이닝 기법, 또는 지능형 알고리즘들을 이용하여 어떠한 목적에 맞는 결과를 찾고자 하는 모델들이다. 사이버 보안에서는 주로 침입탐지, 악성코드 탐지, 침해사고 탐지, 공격 탐지, 사기 탐지로[1, 2] 활용되고 있으며 공격 또는 악성 패턴이나 시그니처들을 미리 학습하여 탐지하는 오용탐지(misuse detection)과 정상상태를 학습하여 발견되는 이상치를 탐지하는 이상탐지(anomaly)이 있다.
참고문헌 (18)
Anna L. Buczak, Erhan Guven, "A Survey of Data Mining and Machine Learning Methods for Cyber Security Intrusion Detection," IEEE COMMUNICATIONS SURVEYS & TUTORIALS, Vol.18, No.2, 2016. https://doi.org/10.1109/comst.2015.2494502
R. Hendry and S. J. Yang, "Intrusion signature creation via clustering anomalies," Proc. SPIE Defense Secur. Symp. Int. Soc. Opt. Photonics, pp.69730C- 69730C, 2008. https://doi.org/10.1117/12.775886
Claudio Mazzariello, "Multiple classifier Systems for Network Security from data collection to attack detection," Universita degli Studi di Napoli Federico Il Open Archive, Doctor Thesis, 2008.
N. B. Amor, S. Benferhat, and Z. Elouedi, "Naive Bayes vs. decision trees in intrusion detection systems," in Proc ACM Symp. Appl. Comput., pp.420-424, 2004. https://doi.org/10.1145/967900.967989
Bass, Tim, "Intrusion detection systems and multisensor data fusion," Communications of the ACM, Vol.43, No.4, pp.99-105, 2000. https://doi.org/10.1145/332051.332079
MLA Deng, Xinyang, and Yong Deng, "Multisensor Information Fusion Based on Dempster-shafer Theory and Power Average Operator," Journal of Computational Information Systems, Vol.9, No.16 pp.6417-6424, 2013. https://doi.org/10.12733/jcis7841
Seo, Young Mi Jee, Hong Ke and Soontak Lee, "Rainfall Frequency Analysis and Uncertainty Quantification Using Dempster-Shafer Theory," Korea Water Resources Association 2010 KWRA conference, pp.1390-1394, 2010.
Burroughs, Daniel J., Linda F. Wilson and George V. Cybenko, "Analysis of distributed intrusion detection systems using Bayesian methods. Performance," The 21st IEEE International Computing, and Communications, 2002. https://doi.org/10.1109/ipccc.2002.995166
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C. and Wirth, R, "CRISP-DM 1.0 Step-by-step data mining guide", IBM, 2000.
Soukaena Hassan Hashem, "Efficiency of SVM and PCA to Enhance Intrusion Detection System," Journal of Asian Scientific Research, Vol.3, No.4, pp.381-395, 2013.
Hong, Sung-Sam, Wanhee Lee, and Myung-Mook Han, "The Feature Selection Method based on Genetic Algorithm for Efficient of Text Clustering and Text classification," International Journal of Advances in Soft Computing & Its Applications, Vol.7, No.1, 2015.
Rampure, Vinod, and Akhilesh Tiwari. "A Rough Set Based Feature Selection on KDD CUP 99 Data Set." International Journal of Database Theory and Application, Vol.8, No.1, pp.149-156, 2015. https://doi.org/10.14257/ijdta.2015.8.1.16
KDD' cup 99, "Knowledge discovery in databases DARPA archive," http://www.kdd.ics.uci.edu/databases/kddcup99/task.html, 1999.
Monowar H. Bhuyan, D. K. Bhattacharyya, and J. K. Kalita, "Network Anomaly Detection: Methods, Systems and Tools," IEEE Communications Surveys & Tutorials, Vol.16, No.1, pp.303-336, 2014. https://doi.org/10.1109/surv.2013.052213.00046
Syarif, A. Prugel-Bennett, G. Wills, "Unsupervised clustering approach for network anomaly detection," Networked digital technologies communications in computer and information science, Vol.293, Springer, pp.135-145, 2012. https://doi.org/10.1007/978-3-642-30507-8_13
※ AI-Helper는 부적절한 답변을 할 수 있습니다.