정보통신기술은 4차 산업혁명의 중심기술로 산업 전반에 영향을 미치고 있지만, 고도화된 사이버 공격으로 인해 네트워크에 의존하는 현대의 컴퓨터 시스템은 무분별한 사이버 공격에 노출되고 있다. 이에 대응하기 위해 정보통신기술은 시그니쳐 기반의 EPP(Endpoint Protection Platform)를 사용하였으나, APT(Advanced Persistent Threat)와 같은 신규 공격에 관한 피해 사례가 증가하고 있다. 이러한 상황에 대해 시그니쳐 기반의 한계를 보완할 수 있는 실제 상황의 행위 정보에 기반을 둔 ...
정보통신기술은 4차 산업혁명의 중심기술로 산업 전반에 영향을 미치고 있지만, 고도화된 사이버 공격으로 인해 네트워크에 의존하는 현대의 컴퓨터 시스템은 무분별한 사이버 공격에 노출되고 있다. 이에 대응하기 위해 정보통신기술은 시그니쳐 기반의 EPP(Endpoint Protection Platform)를 사용하였으나, APT(Advanced Persistent Threat)와 같은 신규 공격에 관한 피해 사례가 증가하고 있다. 이러한 상황에 대해 시그니쳐 기반의 한계를 보완할 수 있는 실제 상황의 행위 정보에 기반을 둔 EDR(Endpoint Detection and Response)에 대한 수요가 증가하고 있으며, 이와 함께 데이터를 분석할 수 있는 기계 학습 및 딥러닝이 융합된 시스템들이 활발하게 연구되고 있다. 이에 본 연구에서는 데이터 생성 프레임워크와 딥러닝 기반 이상 탐지를 결합한 모델에 관해서 연구한다. 해당 모델은 실제 상황에서 발생하는 행위기반 데이터를 생성 및 수집하기 위해서 Atomic Red Team과 CICFlowMeter-V4가 결합한 Adversary Emulation Framework를 사용하였으며, 수집된 데이터들의 실제 네트워크 환경에서 발생하는 데이터 불균형 문제에 대해 GAN(Generative Adversarial Network) 모델의 데이터 증감(Data Augmentation)을 통해 해소한다. 또한, 점진적 학습(Incremental Learning)을 통해 Adversary Emulation Framework에서 실시간으로 수집되는 데이터를 지속해서 학습할 수 있는 시스템을 구성하였다. 제안된 시스템의 유효성을 확인하기 위해서 CSE-CIC-IDS 2018과 Adversary Emulation Framework에서 수집되는 데이터를 사용하여 제안된 시스템의 각 모델에 대한 성능 평가를 진행하였다. 실험결과 점진적 학습을 사용하는 것으로 일반적인 학습 모델보다 효율적으로 학습할 수 있는 것을 확인할 수 있었으며, 특히 학습 시간에 있어 일반적인 학습 모델보다 월등하게 빠른 속도를 보였다. 또한, GAN 모델을 통해 인스턴스가 적은 소수 클래스(Minor Class) 데이터를 증감시키는 것으로, 모델의 분류 성능이 개선되는 것을 확인할 수 있었다. Adversary Emulation Framework에서 수집된 데이터를 사용한 결과, One-Class Learning 기반의 이상 탐지 모델에서 전통적인 기계 학습 기반의 침입 탐지 모델보다 좋은 성능을 보였다. 그중에서 One-Class Autoencoder 모델의 정확도가 96.5%로 가장 높은 성능을 보였으며, 테스트 데이터에 대한 비정상 점수 분포 히스토그램을 통해 정상 행위와 비정상 행위가 명확하게 구분되는 것을 확인할 수 있었다.
정보통신기술은 4차 산업혁명의 중심기술로 산업 전반에 영향을 미치고 있지만, 고도화된 사이버 공격으로 인해 네트워크에 의존하는 현대의 컴퓨터 시스템은 무분별한 사이버 공격에 노출되고 있다. 이에 대응하기 위해 정보통신기술은 시그니쳐 기반의 EPP(Endpoint Protection Platform)를 사용하였으나, APT(Advanced Persistent Threat)와 같은 신규 공격에 관한 피해 사례가 증가하고 있다. 이러한 상황에 대해 시그니쳐 기반의 한계를 보완할 수 있는 실제 상황의 행위 정보에 기반을 둔 EDR(Endpoint Detection and Response)에 대한 수요가 증가하고 있으며, 이와 함께 데이터를 분석할 수 있는 기계 학습 및 딥러닝이 융합된 시스템들이 활발하게 연구되고 있다. 이에 본 연구에서는 데이터 생성 프레임워크와 딥러닝 기반 이상 탐지를 결합한 모델에 관해서 연구한다. 해당 모델은 실제 상황에서 발생하는 행위기반 데이터를 생성 및 수집하기 위해서 Atomic Red Team과 CICFlowMeter-V4가 결합한 Adversary Emulation Framework를 사용하였으며, 수집된 데이터들의 실제 네트워크 환경에서 발생하는 데이터 불균형 문제에 대해 GAN(Generative Adversarial Network) 모델의 데이터 증감(Data Augmentation)을 통해 해소한다. 또한, 점진적 학습(Incremental Learning)을 통해 Adversary Emulation Framework에서 실시간으로 수집되는 데이터를 지속해서 학습할 수 있는 시스템을 구성하였다. 제안된 시스템의 유효성을 확인하기 위해서 CSE-CIC-IDS 2018과 Adversary Emulation Framework에서 수집되는 데이터를 사용하여 제안된 시스템의 각 모델에 대한 성능 평가를 진행하였다. 실험결과 점진적 학습을 사용하는 것으로 일반적인 학습 모델보다 효율적으로 학습할 수 있는 것을 확인할 수 있었으며, 특히 학습 시간에 있어 일반적인 학습 모델보다 월등하게 빠른 속도를 보였다. 또한, GAN 모델을 통해 인스턴스가 적은 소수 클래스(Minor Class) 데이터를 증감시키는 것으로, 모델의 분류 성능이 개선되는 것을 확인할 수 있었다. Adversary Emulation Framework에서 수집된 데이터를 사용한 결과, One-Class Learning 기반의 이상 탐지 모델에서 전통적인 기계 학습 기반의 침입 탐지 모델보다 좋은 성능을 보였다. 그중에서 One-Class Autoencoder 모델의 정확도가 96.5%로 가장 높은 성능을 보였으며, 테스트 데이터에 대한 비정상 점수 분포 히스토그램을 통해 정상 행위와 비정상 행위가 명확하게 구분되는 것을 확인할 수 있었다.
Information and communication technology is a central technology of the 4th industrial revolution and is affecting the overall industry. However, due to advanced cyber attacks, modern computer systems that depend on networks are exposed to reckless cyber attacks. To respond to this, information and ...
Information and communication technology is a central technology of the 4th industrial revolution and is affecting the overall industry. However, due to advanced cyber attacks, modern computer systems that depend on networks are exposed to reckless cyber attacks. To respond to this, information and communication technology used a signature-based EPP (Endpoint Protection Platform), but damage cases related to new attacks such as APT (Advanced Persistent Threat) are increasing. In this situation, the demand for EDR systems based on behavioral information that can compensate for the limitations of signature-based systems is increasing, and machine learning and deep learning that can analyze data are actively studied and combined with this. have. Therefore, in this study, we propose an EDR system that combines behavior-based data generation framework and deep learning-based anomaly detection. The proposed system uses the Adversary Emulation Framework combined with Atomic Red Team and CICFlowMeter-V4 to generate and collect behavior-based data that occur in real situations. It solves the data imbalance problem that occurs in the actual network environment of the collected data through data augmentation of the GAN (Generative Adversarial Network) model. In addition, a system that can continuously learn data collected in real time from the Adversary Emulation Framework through incremental learning was constructed. To verify the validity of the proposed system, performance evaluation was performed for each module of the proposed system using data collected from CSE-CIC-IDS 2018 and Adversary Emulation Framework. As a result of the experiment, it was confirmed that it was possible to learn more efficiently than the general learning model by using the gradual learning, and in particular, the learning time was significantly faster than the general learning model. In addition, it was confirmed that the classification performance of the model was improved by increasing or decreasing the minor class data with few instances through the GAN model. As a result of using the data collected from the Adversary Emulation Framework, the One-Class Learning-based anomaly detection model showed better performance than the traditional machine learning-based intrusion detection model. Among them, the accuracy of the One-Class Autoencoder model was 96.5%, showing the highest performance, and it was confirmed that the normal behavior and the abnormal behavior were clearly distinguished through the histogram of the distribution of abnormal scores for the test data.
Information and communication technology is a central technology of the 4th industrial revolution and is affecting the overall industry. However, due to advanced cyber attacks, modern computer systems that depend on networks are exposed to reckless cyber attacks. To respond to this, information and communication technology used a signature-based EPP (Endpoint Protection Platform), but damage cases related to new attacks such as APT (Advanced Persistent Threat) are increasing. In this situation, the demand for EDR systems based on behavioral information that can compensate for the limitations of signature-based systems is increasing, and machine learning and deep learning that can analyze data are actively studied and combined with this. have. Therefore, in this study, we propose an EDR system that combines behavior-based data generation framework and deep learning-based anomaly detection. The proposed system uses the Adversary Emulation Framework combined with Atomic Red Team and CICFlowMeter-V4 to generate and collect behavior-based data that occur in real situations. It solves the data imbalance problem that occurs in the actual network environment of the collected data through data augmentation of the GAN (Generative Adversarial Network) model. In addition, a system that can continuously learn data collected in real time from the Adversary Emulation Framework through incremental learning was constructed. To verify the validity of the proposed system, performance evaluation was performed for each module of the proposed system using data collected from CSE-CIC-IDS 2018 and Adversary Emulation Framework. As a result of the experiment, it was confirmed that it was possible to learn more efficiently than the general learning model by using the gradual learning, and in particular, the learning time was significantly faster than the general learning model. In addition, it was confirmed that the classification performance of the model was improved by increasing or decreasing the minor class data with few instances through the GAN model. As a result of using the data collected from the Adversary Emulation Framework, the One-Class Learning-based anomaly detection model showed better performance than the traditional machine learning-based intrusion detection model. Among them, the accuracy of the One-Class Autoencoder model was 96.5%, showing the highest performance, and it was confirmed that the normal behavior and the abnormal behavior were clearly distinguished through the histogram of the distribution of abnormal scores for the test data.
주제어
#기계학습 딥러닝 점진적학습 이상탐지 Adversary Emulation Framework GAN One-Class Learning
학위논문 정보
저자
유지훈
학위수여기관
세종대학교 대학원
학위구분
국내박사
학과
컴퓨터공학과 데이터 마이닝
지도교수
신동일
발행연도
2022
총페이지
77
키워드
기계학습 딥러닝 점진적학습 이상탐지 Adversary Emulation Framework GAN One-Class Learning
※ AI-Helper는 부적절한 답변을 할 수 있습니다.