데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.
데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.
Feature selection, one of data preprocessing techniques, is one of major research areas in many applications dealing with large dataset. It has been used in pattern recognition, machine learning and data mining, and is now widely applied in a variety of fields such as text classification, image retr...
Feature selection, one of data preprocessing techniques, is one of major research areas in many applications dealing with large dataset. It has been used in pattern recognition, machine learning and data mining, and is now widely applied in a variety of fields such as text classification, image retrieval, intrusion detection and genome analysis. The proposed method is based on a genetic algorithm which is one of meta-heuristic algorithms. There are two methods of finding feature subsets: a filter method and a wrapper method. In this study, we use a wrapper method, which evaluates feature subsets using a real classifier, to find an optimal feature subset. The training dataset used in the experiment has a severe class imbalance and it is difficult to improve classification performance for rare classes. After preprocessing the training dataset with SMOTE, we select features and evaluate them with various machine learning algorithms.
Feature selection, one of data preprocessing techniques, is one of major research areas in many applications dealing with large dataset. It has been used in pattern recognition, machine learning and data mining, and is now widely applied in a variety of fields such as text classification, image retrieval, intrusion detection and genome analysis. The proposed method is based on a genetic algorithm which is one of meta-heuristic algorithms. There are two methods of finding feature subsets: a filter method and a wrapper method. In this study, we use a wrapper method, which evaluates feature subsets using a real classifier, to find an optimal feature subset. The training dataset used in the experiment has a severe class imbalance and it is difficult to improve classification performance for rare classes. After preprocessing the training dataset with SMOTE, we select features and evaluate them with various machine learning algorithms.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
하지만, 실제 분류시의 성능이 우수한 특징 부분 집합을 찾는데 유리하다. 본 연구에서는 침입탐지 데이터셋을 사용한 래퍼 방법 기반의 특징 선택을 통하여 네트워크 침입 탐지 데이터셋 분류 성능을 높이고 침입탐지 시스템의 성능을 개선하고자 한다.
실험에 사용하는 KDD CUP 1999 침입탐지 데이터셋[13]은 이다. 이 데이터셋은 제 3 회 국제 지식 발견 및 데이터 마이닝 도구 공모전(The Third International Knowledge Discovery and Data Mining Tools Competition)에 사용된 데이터셋으로 고성능의 네트워크침입 탐지 시뮬레이션을 목적으로 한다. 이 데이터셋은 군사 네트워크 환경에서 시뮬레이션 된 다양한 공격 유형을 포함한다.
제안 방법
KDD 1999 침입탐지 데이터셋을 사용하여 희소 클래스인 U2R, R2L 및 Probe 클래스의 성능 개선에 목표를 둔 특징선택을 시도한다. 원래 데이터셋과 SMOTE 전처리한 데이터셋을 사용한다.
이 방법은 이진 및 다중 클래스 분류 문제에 적용된다. KDD CUP 1999 벤치 마크 데이터를 사용하여 효율성을 테스트한다. 다른 방법 및 KDD 수상자의 연구들과 비교 연구를 한다.
저자는 네 가지의 텍스처 모델을 사용한다. SAR 위성 이미지를 사용하여 토지 이용 분류를 위한 최적의 특징 집합을 도출한다. 다른 텍스처 모델에서 도출된 풀링 특징들 (poolingfeatures)은 높은 분류 정밀도를 보인다.
가장 범용적인 특징선택 방법인 주성분 분석법 (PCA,Principal Components Analysis)과 유전알고리즘을 사용한 래퍼 특징선택 방법으로 주요 특징들을 선택하고, 선택한 특징을 사용하여 k-NN, 의사결정트리(DT, Decision Tree) 및 SVM 알고리즘을 적용하여 성능을 비교·분석한다.
KDD CUP 1999 벤치 마크 데이터를 사용하여 효율성을 테스트한다. 다른 방법 및 KDD 수상자의 연구들과 비교 연구를 한다. 도출된 결과는 제안 방법의 타당성을 보여주고, 대부분의 경우에 더 나은 성능을 달성하면서도 특징의 수를 80 % 이상 줄였다.
첫 번째 단계에서는 원래의 고차원 데이터에서 쓸모없는 정보를 제거하기 위해 상관 기반 특징 선택 알고리즘을 개발한다. 다음으로 제한적이고 모호한 정보로 인한 불확실성 문제를 해결하기 위해 침입 탐지 방법을 설계한다. 실험에서 평가 도구로 6 개의 UCI 데이터베이스와 DARPA KDD 1999 침입 탐지 데이터 세트를 사용한다.
5 및 베이지안 네트워크를 적용한다. 선택된 특징을사용하여 분류 정확도를 테스트한다. 제안 방법은 많은 잉여 특징들을 제거하면서도 최상 우선 및 유전 알고리즘 기반의 탐색 전략을 능가한다.
대부분 다수클래스(majority class)로 모든 분류가 이루어지는 경향이 있다. 이러한 클래스 불균형을 완화하기 위해 SMOTE 데이터셋을 사용한 비교를 한다.
선택된 특징을사용하여 분류 정확도를 테스트한다. 제안 방법은 많은 잉여 특징들을 제거하면서도 최상 우선 및 유전 알고리즘 기반의 탐색 전략을 능가한다. 또한, 분류 정확도는 동일하거나 더 나은 성능을 보인다.
Chou 등[12]은 침입 탐지 설계에서 두 단계 접근 방식을 제안한다. 첫 번째 단계에서는 원래의 고차원 데이터에서 쓸모없는 정보를 제거하기 위해 상관 기반 특징 선택 알고리즘을 개발한다. 다음으로 제한적이고 모호한 정보로 인한 불확실성 문제를 해결하기 위해 침입 탐지 방법을 설계한다.
침입탐지 데이터셋의 희소 클래스에 대한 분류 성능개선을 위해 주성분 분석법과 유전 알고리즘 기반의 래퍼 특징선택 기법을 적용하여 탐지 성능을 비교 연구하였다. SMOTE 전처리 여부에 따른 실험에서 SMOTE를 적용한 경우에 더 정확한 결과를 도출할 수 있었다.
혼합 0-1 선형프로그래밍 문제는 분기 한정법 (branch and bound) 알고리즘을 사용하여 해결한다. 특징 선택 알고리즘인 최상우선 기반 CFS와 유전 알고리즘 기반 CFS 방법을 사용한 비교 실험을 한다. KDD CUP 1999 침입탐지 데이터셋에 C4.
대상 데이터
실험에 사용하는 KDD CUP 1999 침입탐지 데이터셋[13]은 이다. 이 데이터셋은 제 3 회 국제 지식 발견 및 데이터 마이닝 도구 공모전(The Third International Knowledge Discovery and Data Mining Tools Competition)에 사용된 데이터셋으로 고성능의 네트워크침입 탐지 시뮬레이션을 목적으로 한다.
다음으로 제한적이고 모호한 정보로 인한 불확실성 문제를 해결하기 위해 침입 탐지 방법을 설계한다. 실험에서 평가 도구로 6 개의 UCI 데이터베이스와 DARPA KDD 1999 침입 탐지 데이터 세트를 사용한다. 경험적 연구에 따르면 저자의 특징 선택알고리즘은 데이터 세트의 크기를 줄일 수 있음을 보인다.
실험을 위해 KDD CUP 1999 침입탐지 데이터셋 중 라벨(label)이 있는 데이터를 사용한다. 훈련 데이터는kddcup.
실험을 위해 KDD CUP 1999 침입탐지 데이터셋 중 라벨(label)이 있는 데이터를 사용한다. 훈련 데이터는kddcup.data.gz의 10%에 해당하는 데이터를 사용하고 테스트 데이터는 corrected.gz를 사용한다. 실험에 사용하는 공격 유형은 두 데이터셋에 모두 있는 24가지 공격으로 한정하고 Table 2의 네 가지 공격 카테고리 중 하나에 속한다.
이론/모형
Table 3은 원래 훈련 데이터셋의 분포를 나타낸다. Table 4는 SMOTE (Synthetic Minority Over-sampling Technique) [14] 기법을 사용하여 훈련데이터를 전처리를 한 후의 비율을 나타낸다. Table 3에서 0.
Jain과 Zongker [6]는 Pudil 등이 제안한 SFFS(sequential forward floating selection) 알고리즘[9]이 다른 알고리즘들보다 우수하다는 것을 보인다. 저자는 네 가지의 텍스처 모델을 사용한다. SAR 위성 이미지를 사용하여 토지 이용 분류를 위한 최적의 특징 집합을 도출한다.
k-NN의 k는 3으로 한다. 특징 분석을 위해 대표적인 데이터마이닝 소프트웨어 중의 하나인 WEKA(Waikato Environment for Knowledge Analysis) [15]를 사용한다.
성능/효과
침입탐지 데이터셋의 희소 클래스에 대한 분류 성능개선을 위해 주성분 분석법과 유전 알고리즘 기반의 래퍼 특징선택 기법을 적용하여 탐지 성능을 비교 연구하였다. SMOTE 전처리 여부에 따른 실험에서 SMOTE를 적용한 경우에 더 정확한 결과를 도출할 수 있었다. 이전연구와의 비교에서 제안하는 방법의 탐지 성능이 더 우수하였다.
다른 방법 및 KDD 수상자의 연구들과 비교 연구를 한다. 도출된 결과는 제안 방법의 타당성을 보여주고, 대부분의 경우에 더 나은 성능을 달성하면서도 특징의 수를 80 % 이상 줄였다.
Table 12는 SMOTE가 적용된 훈련 데이터셋을 사용한 실험 결과이다. 의사결정트리를 사용한 실험 결과가 다른 실험들에 비해 우수함을 알 수 있다. Table 13은 가장 좋은 결과를 보인 의사결정트리 실험의 혼동행렬을 나타낸다.
3은 이전연구[17]의 실험 결과와 비교한 그래프이다. 의사결정트리를 사용한 실험에서 R2L 클래스 탐지 성능이 두드러지게 향상됨을 알 수 있다.
Table 14와 Table 15는 특징선택을 하지 않고 SMOTE 전처리만 수행한 이전 연구[17]의 실험 결과이다. 이전 연구와 제안 방법의 희소 클래스에 대한 분류성능 비교에서 U2R은 0.46에서 0.487로, R2L은 0.19에서 0.777로, Probe는 0.92에서 0.997로 각각 성능이 개선되어 유전 알고리즘 기반의 특징선택 실험 결과가 이전 연구에 비해 상당히 개선되었음을 알 수 있다. Fig.
후속연구
이전연구와의 비교에서 제안하는 방법의 탐지 성능이 더 우수하였다. 제안하는 특징선택 기법은 기계학습을 사용한 네트워크 공격, 차량 해킹 및 비정상 행위 탐지 등에 사용 가능할 것으로 보인다. 특히, 네트워크 보안 분야에서 다양한 공격 데이터의 특징을 추출하는데 활용될 것으로 생각한다.
제안하는 특징선택 기법은 기계학습을 사용한 네트워크 공격, 차량 해킹 및 비정상 행위 탐지 등에 사용 가능할 것으로 보인다. 특히, 네트워크 보안 분야에서 다양한 공격 데이터의 특징을 추출하는데 활용될 것으로 생각한다.
향후, 네트워크 침입 탐지에 대한 효율 개선을 위해 새로운 데이터 전처리 방법 및 특징 선택 기법을 제시하고자 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
필터 방법의 특징은?
특징 선택 과정에서 특징 부분 집합을 생성 및 평가하는 방법 [8]은 필터 (filter) 방법과 래퍼 (wrapper) 방법으로 구분할 수 있다. 필터 방법은 특징 부분 집합에 대한 평가 기준이 독립적인 방법이기 때문에 어떤 특징을 어떠한 방법으로 평가하는지에 따라 실제 평가 성능이 많이 달라질 수 있다. 이 방법은 특징 부분 집합을 평가하는 시간은 빠르지만, 실제 분류기를 사용할 때 많은 성능 차이를 보일 수 있는 단점이 있다.
특징 부분 집합을 생성 및 평가하는 방법은 어떻게 구분할 수 있는가?
특징 선택 과정에서 특징 부분 집합을 생성 및 평가하는 방법 [8]은 필터 (filter) 방법과 래퍼 (wrapper) 방법으로 구분할 수 있다. 필터 방법은 특징 부분 집합에 대한 평가 기준이 독립적인 방법이기 때문에 어떤 특징을 어떠한 방법으로 평가하는지에 따라 실제 평가 성능이 많이 달라질 수 있다.
특징 선택을 사용함으로서 얻을 수 있는 장점은 무엇인가?
데이터 마이닝 (data mining) 분야의 데이터 전처리기법 중 하나인 특징 선택 (feature selection)[1-2]은 중요하고 자주 사용되는 기술이다. 목표로 하는 결과를 도출하는데 있어서 중복 및 잡음(noise) 데이터 등을 제거하여 연산시간을 줄이고 예측 정확도를 높일 수 있다. 일반적으로 특징 선택은 예측 성능 향상 및 예측 시간 단축을 목표로 한다.
참고문헌 (17)
H. Liu & L. Yu. (2005). Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on knowledge and data engineering, 17(4), 491-502.
I. Guyon & A. Elisseeff. (2003). An introduction to variable and feature selection. Journal of machine learning research, 3(Mar), 1157-1182.
E. M. Yang, H. J. Lee & C. H. Seo. (2017). Comparison of Detection Performance of Intrusion Detection System Using Fuzzy and Artificial Neural Network. Journal of Digital Convergence, 15(6), 391-398.
H. Y. Lee & H. S. Y. (2014). Quality Evaluation Model for Intrusion Detection System based on Security and Performance. Journal of Digital Convergence, 12(6), 289-295.
H. Y. Lee & H. S. Y. (2015). Convergence Performance Evaluation Model for Intrusion Protection System based on CC and ISO Standard. Journal of Digital Convergence, 13(5), 251-257.
A. Jain & D. Zongker. (1997). Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence, 19(2), 153-158.
V. Bolon-Canedo, N. Sanchez-Marono & A. Alonso- Betanzos. (2011). Feature selection and classification in multiple class datasets: An application to KDD Cup 99 dataset. Expert Systems with Applications, 38(5), 5947-5957.
H. Nguyen, K. Franke & S. Petrovic. (2010, February). Improving effectiveness of intrusion detection by correlation feature selection. In Availability, Reliability, and Security, 2010. ARES'10 International Conference on, 17-24.
T. S. Chou, K. K. Yen & J. Luo. (2008). Network intrusion detection design using feature selection of soft computing paradigms. International journal of computational intelligence, 4(3), 196-208.
KDD Cup 1999 Data, http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
N. V. Chawla, K. W. Bowyer, L. O. Hall & W. P. Kegelmeyer. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
D. E. Goldberg. (1989). Genetic Algorithms in Search, Optimization & Machine Learning. Addison. Wesely Publishing Co., Inc, 1998(3), 25.
J. H. Seo. (2015). A study on the performance evaluation of unbalanced intrusion detection dataset classification based on machine learning. Journal of the Korean Institute of Intelligence Systems, 27, 466-474.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.