$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

다양한 데이터 전처리 기법과 데이터 오버샘플링을 적용한 GRU 모델 기반 이상 탐지 성능 비교
Comparison of Anomaly Detection Performance Based on GRU Model Applying Various Data Preprocessing Techniques and Data Oversampling 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.32 no.2, 2022년, pp.201 - 211  

유승태 (아주대학교 대학원 지식정보공학과) ,  김강석 (아주대학교 사이버보안학과)

초록
AI-Helper 아이콘AI-Helper

최근 사이버보안 패러다임의 변화에 따라, 인공지능 구현 기술인 기계학습딥러닝 기법을 적용한 이상탐지 방법의 연구가 증가하고 있다. 본 연구에서는 공개 데이터셋인 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 GRU(Gated Recurrent Unit) 신경망 기반 침입 탐지 모델의 이상(anomaly) 탐지 성능을 향상시킬 수 있는 데이터 전처리 기술에 관한 비교 연구를 수행하였다. 또한 정상 데이터와 공격 데이터 비율에 따른 클래스 불균형 문제를 해결하기 위해 DCGAN(Deep Convolutional Generative Adversarial Networks)을 적용한 오버샘플링 기법 등을 사용하여 오버샘플링 비율에 따른 탐지 성능을 비교 및 분석하였다. 실험 결과, 시스템 콜(system call) 특성과 프로세스 실행패스 특성에 Doc2Vec 알고리즘을 사용하여 전처리한 방법이 좋은 성능을 보였고, 오버샘플링별 성능의 경우 DCGAN을 사용하였을 때, 향상된 탐지 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

According to the recent change in the cybersecurity paradigm, research on anomaly detection methods using machine learning and deep learning techniques, which are AI implementation technologies, is increasing. In this study, a comparative study on data preprocessing techniques that can improve the a...

주제어

표/그림 (15)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • NGIDS-DS[12]는 호스트 로그 데이터 셋으로 총 90, 054, 160개 중 7개 범주의 공격 클래스로 구성된 1, 262, 426개의 데이터가 있으며 속성으로 로그 발생 시간, 프로세스 ID, 시스템 콜(systemcall), 이벤트 ID, 프로세스 실행 패스(executionpath), 클래스 레이블 등으로 구성되어 있다. NGIDS 데이터 셋을 구성하는 속성들 중 정상과 공격을 판별하는데 유용하리라 판단되는 시스템 꼴과 프로세스 실행 패스 를 분류 기반 탐지 모델의 특성으로 선택하였다. 기존 연구에서는 프로세스 실행 패스 특성을 사용하지 않았 기 때문에 이 특성을 사용할 것인지에 대하여 판단한 기 위하여 CramerV 계수[13]를 사용하여 상관분 석을 진행하였다.
  • 기계학습 모델의 경우 선형회귀, 나이브 베이즈 분류 (Naïve Bayes Classification), K-최근접 이웃 (K-Nearest Neighbor), 결정 트리(Decision Tree), 랜덤 포레스트(Random Forest)와 같은 알고리즘을 사용하였고, 딥러닝의 경우 DNN 알고리즘을 사용하여 은닉층의 개수, 활성화 함수, 에폭 (epoch)과 같은 하이퍼 파라미터 (Hyperpara- meter)를 조정하면서 실험하였으며, 각각의 하이퍼 파라미터에 대하여 성능과의 상관성을 연구하였다
  • 본 연구에서는 공개 데이터인 NGIDS 데이터 셋을 사용하여 이상 탐지(anomalydetection)를 위 한 GRU 기반 딥러닝 모델을 구축하였다. 딥러닝 모델에 적용하기 위하여 사용된 전처리방법으로 첫 번째는 슬라의 싱과 제로 패딩을, 두 번째 방법은 Doc2Vec을, 세 번째 방법은 두 번째 방법에 데이터 특성을 추가하는 방법으로 수행하였다. 또한 클래 스 불균형 문제를 해결하기 위하여 SMOTE와 DCGAN을 적용하여 오버 샘플링을 하였다.
  • 딥러닝 모델에 적용하기 위하여 사용된 전처리방법으로 첫 번째는 슬라의 싱과 제로 패딩을, 두 번째 방법은 Doc2Vec을, 세 번째 방법은 두 번째 방법에 데이터 특성을 추가하는 방법으로 수행하였다. 또한 클래 스 불균형 문제를 해결하기 위하여 SMOTE와 DCGAN을 적용하여 오버 샘플링을 하였다.
  • NGIDS-DS는 순차적인 속성을 가지는 로그들을 저장한 데이터로써, 딥러닝 기반 분류 학습에 적용하기 위해서는 각 샘플이 일정한 길이가 되도록 전처리 하는 것이 필요하다. 먼저 로그 데이터수집 시간의 최소단위인 1초를 기준으로 각각 하나의 행(샘플) 으 로 기공하였으며, 또한 각행을 일정한 길이로 변환하기 위하여 세 가지 전처리방법을 사용하였다. 첫 번째는 샘플들을 일정한 길이로 슬라의 싱(slicing) 하고, 나머지는 제로 패딩(zero padding)을 하였으며, 슬라의 싱 길이를 100과 400으로 실험을 진행하였다.
  • 이와 같이 DCGAN은 2차원 데이터를 오버 샘플링하는 알고리즘이다. 본 연구에서는 DCGAN을 변형시켜 1차원 데이터를 오버 샘플링하는데 적용하였다.
  • 본 연구에서는 공개 데이터인 NGIDS 데이터 셋을 사용하여 이상 탐지(anomalydetection)를 위 한 GRU 기반 딥러닝 모델을 구축하였다. 딥러닝 모델에 적용하기 위하여 사용된 전처리방법으로 첫 번째는 슬라의 싱과 제로 패딩을, 두 번째 방법은 Doc2Vec을, 세 번째 방법은 두 번째 방법에 데이터 특성을 추가하는 방법으로 수행하였다.
  • 0으로 선정하였고, 각각의 경우에 대한 성능을 비교하였다. 분류를 진행할 때는 이진 분류를 진행할 예정이나, 오버 샘플링을 진행할 때는 각 7개의 공격 데이터 수의 비율에 비례하여 오버 샘플링을 하였다. 두 가지 오버 샘플링 방법을 사용하였다.
  • 2는 실험에 사용된 DCGAN의 생성자이다. 실험에서는 1차원 데이터를 학습시키기 위하여 2개의 1D Convolution layer를 배치하여 생성자 (generator)와 반별자(discriminator)를 구축하였다. Convolution layer를 두 개의 층으로 구현한 이유는 DCGAN의 생성자는 Up sampling으로 노이즈의 데이터 형태가 2배씩 증가하기 때문이다.
  • 또한, NGIDS 데이터셋은 정상 데이터와 공격 데이터의 비율이 불균형을 이루고 있다. 이와 같은 클래스 불균형 문제를 해결하기 위하여 SMOTE(Synthetic Minority Oversampling TEchnique)[4]와 DCGAN(DeepConvolutional GenerativeAdversarialNetworks)[5]을 사용하여 오버 샘플링(Oversampling)을 수행하였다. 전처리 후, 일반적인 특성을 가진 데이터는 DNN (DeepNeuralNetwork) 모델을 사용하였고, 순차적인 특징을 가진 데이터는 GRU(Gated Recurrent Units) 모델을 사용하여 분류 학습을 진행하였다.
  • 이와 같은 클래스 불균형 문제를 해결하기 위하여 SMOTE(Synthetic Minority Oversampling TEchnique)[4]와 DCGAN(DeepConvolutional GenerativeAdversarialNetworks)[5]을 사용하여 오버 샘플링(Oversampling)을 수행하였다. 전처리 후, 일반적인 특성을 가진 데이터는 DNN (DeepNeuralNetwork) 모델을 사용하였고, 순차적인 특징을 가진 데이터는 GRU(Gated Recurrent Units) 모델을 사용하여 분류 학습을 진행하였다.
  • 기존의 연구들은 이러한 문제를 빈도수를 통한 전처리를 통하여 문제를 해결한다. 하지만 이 실험에 서는 자연어를 처리하듯이 전처리하여 이 문제를 해결하였고, 세 가지 전처리 방법을 사용하여 실험을 진행하였다. 또한, NGIDS 데이터셋은 정상 데이터와 공격 데이터의 비율이 불균형을 이루고 있다.
  • 훈련, 검증, 테스트 데이터 셋의 적절한 비율을 위해 충분한 데이터 셋이 있을 때는 훈련 데이터를 많이 사용할 수도 있으나[15] 본 실험에서는 오버 샘플링 후 전형적으로 사용되는 훈련:검증:테스트 데이터를 6:2:2 정도의 비율로 나누어 실험을 진행하였다

대상 데이터

  • NGIDS-DS[12]는 호스트 로그 데이터 셋으로 총 90, 054, 160개 중 7개 범주의 공격 클래스로 구성된 1, 262, 426개의 데이터가 있으며 속성으로 로그 발생 시간, 프로세스 ID, 시스템 콜(systemcall), 이벤트 ID, 프로세스 실행 패스(executionpath), 클래스 레이블 등으로 구성되어 있다. NGIDS 데이터 셋을 구성하는 속성들 중 정상과 공격을 판별하는데 유용하리라 판단되는 시스템 꼴과 프로세스 실행 패스 를 분류 기반 탐지 모델의 특성으로 선택하였다.
  • 두 가지 오버 샘플링 방법을 사용하였다. 첫 번째는 DCGAN 을 사용한 오버 샘플링이다. DCGAN은 2차원 Convolution Layer와 배치 정규화 계층의 조합으로 생성자와 판별자를 구축하는 모델로 본 연구에서는 1차원 데이터를 오버 샘플링 하는데 사용하였다.

데이터처리

  • NGIDS 데이터 셋을 구성하는 속성들 중 정상과 공격을 판별하는데 유용하리라 판단되는 시스템 꼴과 프로세스 실행 패스 를 분류 기반 탐지 모델의 특성으로 선택하였다. 기존 연구에서는 프로세스 실행 패스 특성을 사용하지 않았 기 때문에 이 특성을 사용할 것인지에 대하여 판단한 기 위하여 CramerV 계수[13]를 사용하여 상관분 석을 진행하였다. 시스템 콜 특성과 종속변수(정상, 공격) 간의 CramerV 계수가 0.

이론/모형

  • [8]의 논문은 KDDCUP99데이터 셋을 사용하여 딥러닝 모델에 적용하여 침입탐지 모델 실험을 진행하였다. DNN과 LSTM(Long Short-TermMemory) 알고리즘을 사용하여 분류를 진행하였고, SMOTE로 오버 샘플링을 수행하였다. 실험 결과 LSTM을 사용한 분류 모델이 가장 좋은 성능을 보였다.
  • 순차 데이터를 1초 기준으로 하나의 시퀀스(샘플)를 가지는 데이터로 가고 하였을 때, 공격 데이터 시퀀스 길이를 기준으로 시퀀스의 분포가 길이 100과 길이 400 이하에 많이 분포되어, 슬라의 싱 길이를 100과 400으로 선정 후, 임 베딩을 적용하여 행은 샘플 수, 열은 시퀀스 길이, 깊이는 임베딩 벡터 길이로 구성된 3차원 데이터로 가공했다. Doc2Vec을 적용한 전처리 방법에서는, 각각 다른 길이의 특성을 Doc2Vec 알고리즘을 사용하여 일정 길이의 벡터로 변환하였다. 이때 벡터의 길이를 100, 200, 300으로 적용하여 길이에 따른 변화를 실험하였다.
  • [7]의 논문은 NSL-KDD 데이터 셋을 사용하여 기계학습 알고리즘과 논문에서 제시한 딥러닝 기반의 RNN-IDS 알고리즘의 분류 성능을 비교하였다. 기계학습 알고리즘은 나이브 베이즈, 랜덤 포레스트 등과 같은 알고리즘을 사용하였고, RNN-IDS의 경우 은닉 노드(hidden node)와 학습률 (learningrate)을 조정하면서 실험을 진행하였고, 은닉 노드 수를 80개, 학습률을 0.5로 설정한 RNN-IDS 알고리즘을 사용하여 정확도 97.09%의 성능을 보였다. [8]의 논문은 KDDCUP99데이터 셋을 사용하여 딥러닝 모델에 적용하여 침입탐지 모델 실험을 진행하였다.
  • 분류를 진행할 때는 이진 분류를 진행할 예정이나, 오버 샘플링을 진행할 때는 각 7개의 공격 데이터 수의 비율에 비례하여 오버 샘플링을 하였다. 두 가지 오버 샘플링 방법을 사용하였다. 첫 번째는 DCGAN 을 사용한 오버 샘플링이다.
  • 두 번째는 Doc2Vec 알고리즘을 사용하여 일정한 길이로 전처리하였다. Doc2Vec 알고리즘은 한 문장의 특징을 추출하여 일정한 벡터 길이(vector size)로 나타내는 임베딩 알고리즘이다.
  • 딥러닝 기반 이상 탐지 모델에 입력으로 주입하기 위한 시퀀스 데이터 전처리방법으로 슬라의 싱 과제로 패딩을 적용한 방법과 Doc2Vec을 적용한 방법을 사용하였다. 슬라의 싱의 길이로는 100일 때와 400일 때를 비교하였다.
  • 본 실험에서는 딥러닝 모델을 구축하기 위하여 텐서 플로[14] 라이브러리를 활용하였다. Fig.
  • 문장의 고유한 벡터 값을 문장에 따라 업데이트하여 임베딩을 진행한다[11]. 본 연구에서는 전처리 과정에서 발생하는 행(row)의 길이가 일정하지 않은 문제를 해결하기 위하여 Doc2Vec 기법을 사용하였다.
  • 일정한 길이로 가공한 후 정규화를 통하여 특성의 스케일을 조정한 다음 임베딩(embedding) 을 하여 각 데이터의 특성을 분산 표현(distributed representation)으로 나타내도록 하였다. 이렇게 전 처리된 데이터는 순차 데이터 학습에 특화된 GRU(Gated Recurrent Unit) 알고리즘을 사용하여 분류 모델을 구축하였다.
  • Doc2Vec 알고리즘은 한 문장의 특징을 추출하여 일정한 벡터 길이(vector size)로 나타내는 임베딩 알고리즘이다. 임베딩 변환 후에 정규화를 진행하였고, Doc2Vec을 사용하여 전처리된 데이터는 일반적인 특성을 가진 데이터로 변환되기 때문에 DNN(Deep Neural Network) 알고리즘을 활용하여 분류 학습을 진행하였다. 첫 번째와 두 번째에서 제시된 모델의 학습 속 도는 두 실험에서 전처리한 데이터의 차원 수가 상이 하여 큰 차이가 있을 것으로 예상한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (16)

  1. Kyung-hyun Han and Seong-oun Hwang, "Development of firewall system for automated policy rule generation based on machine learning," Journal of The Institute of Internet, Broadcasting and Communication, 20(2), pp. 29-37, April 2020. 

  2. K. Rahul-Vigneswaran, P. Poornachandran, and KP. Soman, "Acompendium on network and host based intrusion detection systems," Proceedings of the 1st International Conference on Data Science, Machine Learning and Applications, pp. 23-30, May 2020. 

  3. Yun-gyung Cheong, Ki-namPark,Hyun-joo Kim, Jong-hyun Kim and Sang-won Hyun, "Machine learning based intrusion detection systems for class imbalanced datasets," Electronics and Telecommunications Research Institute, 27(6), pp. 1385-1395, Dec. 2017. 

  4. S. Mishra, "Handling imbalanced data: SMOTE vs. random under sampling," International Research Journal of Engineering and Technology, vol. 4, no. 8, pp. 317-320, Aug. 2017. 

  5. A. Radford, L. Metz and S. Chintala,"Unsupervised representation learning with deep convolutional generative adversarial networks," International Conference on Learning Representations, pp. 1-16, Jan. 2016. 

  6. Hyun Kwon, Seung-ho BangandKi-woong Park, "A design of deep neural network-based network intrusion detection system," Journal of KING Computing, 16(1), pp. 7-18, Feb. 2020. 

  7. C. Yin, Y. Zhu, J. Fei and X. He, "A deep learning approach for intrusion detection using recurrent neural networks," IEEE Access, vol. 5, pp. 21954-21961, Nov. 2017. 

  8. Jae-hyun Seo, "A comparative study on the classification of the imbalanced intrusion detection dataset based on deep learning," Journal of Korean Institute of Intelligent System, 28(2), pp. 152-159, April 2018. 

  9. M. Ramaiah, V. Chandrasekaran, V. Ravi and N. Kumar, "An intrusion detection system using optimized deep neural network architecture," Transactions on Emerging Telecommunications Technologies, vol. 32, no. 4, pp. 1-17, Feb. 2021. 

  10. R. Corizzo, E. Zdravevski, M. Russell, A. Vagliano and N. Japkowicz, "Feature extraction based on word embedding models for intrusion detection in network traffic," Journal of Surveillance, Security and Safety, vol. 1, pp. 140-150, Dec. 2020. 

  11. A. M. Dai, C. Olah, and Q. V. Le, "Document embedding with paragraph vectors," arXiv:1507.07998, 2015. 

  12. W. Haider, J. Hu, J. Slay, B.P. Turnbull and Y. Xie, "Generating realistic intrusion detection system dataset based on fuzzy qualitative modeling," Journal of Network and Computer Applications, vol. 87, no. 1, pp. 185-192, June 2017. 

  13. H. Akoglu, "User's guide to correlation coefficients," Turkish Journal of Emergency Medicine, vol. 18, no. 3, pp. 91-93, Aug. 2018. 

  14. N. Quang-Hung, H. Doan and N.Thoai, "Performance evaluation of distributed training in tensorflow 2," International Conference on Advanced Computing and Applications, pp.155-159, Nov. 2020. 

  15. A. Ng, "Sizeof dev and test sets(C3W1L06)," 2017. https://github.com/hithesh111/Hith100/blob/master/100Days/day035.ipynb 

  16. R. A. Maxion and R. R. Roberts,"Proper Use of ROC Curves in Intrusion / Anomaly Detection," University of Newcastle upon Tyne, Computing Science Tyne, UK, p. 33, 2004. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로