침입 탐지시스템 (Intrusion Detection System: IDS)은 기존의 수동적인 탐지 기능에서 벗어나, 보다 다양한 형태와 방법론으로 연구되고 있다. 특히, 최근에는 대용량의 시스템 감사 데이터를 빠르게 처리하고 변형된 형태의 공격에 대비한 수 있는 내구력을 가진 형태의 방법론들이 요구되고 있으며, 이러한 조건을 만족하는 데이터마이닝이나 신경망을 이용한 침입 탐지 시스템에 대한 연구가 활발해 지고 있다. 본 논문에서는 우선. 최근의 다양한 형태의 침입경향들을 분석하고, 보다 효과적인 침입탐지를 위한 방안으로 신경망 기반의 역전파 알고리즘을 이용한 침입 탐지 시스템을 설계$.$구현 하였다. 본 연구의 시스템은 비정상행위 탐지(Anomoly Defection)와 오용탐지 (Misuse Detection)의 두 가지 방법론을 모두 수용하는 방법론을 사용하였으며, 신뢰성있는 KDD Cup ‘99의 데이터를 통한 침입패턴의 분석 및 실험을 수행 하였다. 또한 객체지향적인 네트워크 설계를 통하여 역전파 알고리즘 이외의 다른 알고리즘도 쉽게 적용이 가능하도록 하였다.
침입 탐지시스템 (Intrusion Detection System: IDS)은 기존의 수동적인 탐지 기능에서 벗어나, 보다 다양한 형태와 방법론으로 연구되고 있다. 특히, 최근에는 대용량의 시스템 감사 데이터를 빠르게 처리하고 변형된 형태의 공격에 대비한 수 있는 내구력을 가진 형태의 방법론들이 요구되고 있으며, 이러한 조건을 만족하는 데이터마이닝이나 신경망을 이용한 침입 탐지 시스템에 대한 연구가 활발해 지고 있다. 본 논문에서는 우선. 최근의 다양한 형태의 침입경향들을 분석하고, 보다 효과적인 침입탐지를 위한 방안으로 신경망 기반의 역전파 알고리즘을 이용한 침입 탐지 시스템을 설계$.$구현 하였다. 본 연구의 시스템은 비정상행위 탐지(Anomoly Defection)와 오용탐지 (Misuse Detection)의 두 가지 방법론을 모두 수용하는 방법론을 사용하였으며, 신뢰성있는 KDD Cup ‘99의 데이터를 통한 침입패턴의 분석 및 실험을 수행 하였다. 또한 객체지향적인 네트워크 설계를 통하여 역전파 알고리즘 이외의 다른 알고리즘도 쉽게 적용이 가능하도록 하였다.
The main function of the intrusion Detection System (IDS) usee to be more or less passive detection of the intrusion evidences, but recently it is developed with more diverse types and methodologies. Especially, it is required that the IDS should process large system audit data fast enough. Therefor...
The main function of the intrusion Detection System (IDS) usee to be more or less passive detection of the intrusion evidences, but recently it is developed with more diverse types and methodologies. Especially, it is required that the IDS should process large system audit data fast enough. Therefore the data mining or neural net algorithm is being focused on, since they could satisfy those situations. In this study, we first surveyed and analyzed the several recent intrusion trends and types. And then we designed and implemented an IDS using back-propagation algorithm of the neural net, which could provide more effective solution. The distinctive feature of our study could be stated as follows. First, we designed the system that allows both the Anomaly dection and the Misuse detection. Second, we carried out the intrusion analysis experiment by using the reliable KDD Cup ‘99 data, which would provide us similar results compared to the real data. Finally, we designed the system based on the object-oriented concept, which could adapt to the other algorithms easily.
The main function of the intrusion Detection System (IDS) usee to be more or less passive detection of the intrusion evidences, but recently it is developed with more diverse types and methodologies. Especially, it is required that the IDS should process large system audit data fast enough. Therefore the data mining or neural net algorithm is being focused on, since they could satisfy those situations. In this study, we first surveyed and analyzed the several recent intrusion trends and types. And then we designed and implemented an IDS using back-propagation algorithm of the neural net, which could provide more effective solution. The distinctive feature of our study could be stated as follows. First, we designed the system that allows both the Anomaly dection and the Misuse detection. Second, we carried out the intrusion analysis experiment by using the reliable KDD Cup ‘99 data, which would provide us similar results compared to the real data. Finally, we designed the system based on the object-oriented concept, which could adapt to the other algorithms easily.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 다양한 최근의 침입에 대한 경향을 분석하고 이를 해결하기 위한 여러가지 방안들을 살펴보았다. 그리고 이러한 문제를 해결하기 위한 방안으로써 신경망 기반의 침입 탐지 시스템을 설계.
본 논문에서는 이와 같은 대용량의 감사 데이터 처리와 변형된 형태의 공격에 내구력을 가지기 위해 신경망을 이용한 침입 탐지 시스템을 설계 .구현하였다.
인터넷의 보급으로 인한 부정적인 측면은 시스템에 대한 악의적인 침입행위라 할수 있으며, 침입 행위의 형태 및 방법은 나날이 다양해져 가고 있다 이러한 침입에 의한 피해를 최소화 하기 위한 기술로 침입탐지 시스템(Intrusion Detection System: IDS)들이 연구되었으며, 그 목적은 시스템이나 네트워크의 다양한 감사 데이터를 이용하여 침입 행위를 탐지 하고 시스템 관리자나 시스템이 이에 대한조치를 취할수 있게 하는 데 있다.
제안 방법
KDD Cup, 99 데이터에서 훈련 데이터 집합에 포함된 공격의 유형은 총 14가지이므로 출력 노드가 바이너리 출력을 내는 것을 고려하여 4개의 출력 노드로 하나의 공격을 표현하였다. 바이너리 코드에서 가장 앞자리는 첫 번째 출력 노드의 출력 값을 의미하고 마지막 자리는 4번째 출력 노드의 출력 값을 의미한다.
그리고 이러한 문제를 해결하기 위한 방안으로써 신경망 기반의 침입 탐지 시스템을 설계.구현하였다.
본 시스템은 학습을 위해 훈련 데이터 집합을, 탐지 시뮬레이션을 위해서 시험 데이터 집합을 가지고 있다. 두 가지 데이터는 모두 동일한 41개의 필드를 가지고 있으며, 방대한 데이터에 대한 용이한 접근과 분석을 위해서 질의를 통해 데이터베이스에 접근하여 결과를 확인할 수 있게 하였다. 아래 그림 10은 시스템에서 전체 훈련 데이터의 집합을 호출한 결과이다.
KDD Cup, 99 의 데이터를 통한 실험 결과는 실생활의 감사 데이터를 처리할 때와 비슷한 결과를 산출할 것을 예상할 수 있다. 둘째, 대표적인 두 가지 형태의 침입 탐지 방법론을 모두 수용하는 모델을 구현하였다. 비정상 행위 탐지와 오용 탐지에서의 단점들을 해결하고 장점들을 부각시키기 위해서 두 가지 방법론을 병용하는 방법을 사용하였다.
본 연구의 시스템은 비정상 탐지와 오용 탐지를 모두 수용할 수 있게 설계되었으며, 신경망 자체의 변형 감내 (Transformation Tolerance) 적인 성질을 이용하여 변형된 형태의 공격에도 대응할 수 있게 하였다. 또한 신뢰성 있는 데이터를 통한 시뮬레이션을 수행함으로써 실제 데이터에 대한 적응력을 높였다. 이시스템에서 사용된 신경망 학습 알고리즘은 역전파 알고리즘으로써 비선형적인 문제에 대해 효과적인 분류가 가능한 특징을 가진다.
분류하고자 하는 패턴의 분포가 복잡할수록 더 많은 하이퍼플레인이 필요하며 너무 많은 수의 하이퍼플레 인을 나누게 되면 과적합(overfitting)의 문제점 때문에 패턴의 분포에 맞는 은닉층 노드 개수 설정이 중요하다. 본 논문에서는 데이터 집합에 대한 패턴의 분포를 알 수 없으므로 반복적 인 실험으로 적절한 노드의 수를 구성 하였다.
본 논문에서는 학습이 진행되는 과정에서 매 10 번의 반복마다 반복 회수와 에 러값을 저장하여 학습이 종료되었을 때 그래프 형태로 제시하였다[그림 13], 그래프의 X축은 반복 횟수를 Y축은 MSE(Mean Square Error)를 의미한다. 이 그래프는 1000개의 훈련 데이터를 기반으로 660번의 반복 학습 동안의 에러값의 변화를 보여준다.
구현하였다. 본 연구의 시스템은 비정상 탐지와 오용 탐지를 모두 수용할 수 있게 설계되었으며, 신경망 자체의 변형 감내 (Transformation Tolerance) 적인 성질을 이용하여 변형된 형태의 공격에도 대응할 수 있게 하였다. 또한 신뢰성 있는 데이터를 통한 시뮬레이션을 수행함으로써 실제 데이터에 대한 적응력을 높였다.
본 연구의 시스템은 비정상탐지와 오용탐지를 병행하도록 하기 위해서 다음 몇 가지 주요 관점을 가지고 설계하였다. 첫째, 본 연구에서는 KDD Cup, 99 데이터로 시뮬레이션 함으로써 비정상 탐지와 오용탐지를 병행할 수 있도록 설계하였다.
둘째, 대표적인 두 가지 형태의 침입 탐지 방법론을 모두 수용하는 모델을 구현하였다. 비정상 행위 탐지와 오용 탐지에서의 단점들을 해결하고 장점들을 부각시키기 위해서 두 가지 방법론을 병용하는 방법을 사용하였다. 셋째, 과적합을 방지하기 위하여 모든 공격 유형에 대해 통합적인 네트워크를 구성하였으며, 훈련 데이터와 시험 데이터를 신경망의 입출력에 맞게 가공하였다.
비정상 행위 탐지와 오용 탐지에서의 단점들을 해결하고 장점들을 부각시키기 위해서 두 가지 방법론을 병용하는 방법을 사용하였다. 셋째, 과적합을 방지하기 위하여 모든 공격 유형에 대해 통합적인 네트워크를 구성하였으며, 훈련 데이터와 시험 데이터를 신경망의 입출력에 맞게 가공하였다. 또한 객체 지향적인 네트워크 설계를 통해서 본 논문에서 사용된 역전파 알고리즘 이외의 알고리즘도 쉽게 적용이 가능하며, 데이터 전처리부의 교체를 통한 실제 데이터 처리도 가능하다.
즉, 비 정상탐지의 경우 공격일 경우 1에 가까운 출력을 정상 패턴일 경우 0에 가까운 출력을 나타내도록 구성하였다. 오용탐지의 경우는 교사학습 시의 출력 노드의 비교를 위해 각 공격의 형태를 나타내는 바이너리 코드를 사용하였다. 마지막으로 신경망에서 학습효율을 높이기 위해 부가적으로 관성 알고리즘을 사용하였다 [15-16].
마지막으로 입출력 노드에 이산형, 연속형 변수 사용이 가능하며 기법을 적용할 수 있는 영역이 넓다. 이러한 특징을 기반으로 본 논문에서는 다양한 신경망 알고리즘 중에서 널리 사용되어 검증되어 있고 교사학습 기반의 알고리즘인 역전파 알고리즘을 이용하여 침입 패턴을 분류하였다.
설계하였다. 첫째, 본 연구에서는 KDD Cup, 99 데이터로 시뮬레이션 함으로써 비정상 탐지와 오용탐지를 병행할 수 있도록 설계하였다. 둘째, 입력데이터와 출력 데이터를 다음과 같이 구성하였다.
첫째, 신뢰성 있는 시뮬레이션 데이터를 통한 침입패턴의 분석 및 실험을 수행하였다. KDD Cup, 99 의 데이터를 통한 실험 결과는 실생활의 감사 데이터를 처리할 때와 비슷한 결과를 산출할 것을 예상할 수 있다.
출력 노드는 비정상 탐지의 경우 공격과 정상만을 구별하기 위하여 한 개의 노드를 사용하였고, 오용탐지의 경우는 12개의 공격 형태를 분류하기 위해 4개의 출력 노드를 사용하였다. 생성된 네트워크의 가중치 값은 모두 0~1사이의 임의의 수가 설정 되어있다.
할 필요성을 가지고 있다. 특히, 오용탐지에서의 출력 데이터를 정의하기 위해서 표 2와 같이 바이너리 코드 형태로 인코딩하였다.
대상 데이터
KDD Cup, 99데이터는 1998년에 DARPA에서 침입 탐지를 시뮬레이션 하기 위해 제공된 것이며, 미 공군에서 사용되는 지역 네트워크에서의 TCP/IP dump 데이터로 구성되었다. 이 데이터는 각 TCP/IP 연결에 대해서 41개의 필드를 가지고 있으며, 크게 4 가지 형태의 공격 유형을 가지며 세부적으로 13가지의 공격으로 이루어져 있다.
감사 데이터(Audit Data)에 해당하는 것은 KDD Cup, 99에서 제공되는 텍스트 기반의 원시 데이터이다. 이 데이터는 데이터 자체에 몇몇의 잘못된 형식의 데이터를 포함하고 있기 때문에, 데이터 전처리부에서는 이러한 오류들을 제거하고 42개의 데이터베이스 필드로써 저장하는 과정을 거친다.
이 시스템은 비정상 탐지와 오용탐지 두 가지의 네 트워크 위상이 필요하므로 그림 12와 같이 위상을 구 성하였다. 두개의 네트워크 모두 6개의 입력을 사용하고 비정상 탐지의 경우 5개의 은닉층 노드를 오용 탐지의 경우 10개의 은닉층 노드를 사용하였다. 이렇게 은닉층 노드의 차이를 두는 이유는 비정상 탐지의 경우 정상과 공격 두 가지 출력에 대한 분류만을 하는데 비해서 오용탐지는 12가지의 분류를 필요로 하므로 더 많은 하이퍼플레인이 요구되기 때문이다.
본 논문에서는 침입 패턴을 시뮬레이션 하기 위한 데이터로써 KDD Cup 99의 감사 데이터를 사용하였다.
69%가 정상 패턴을 가지고 나머지 영역에서는 다양한 공격의 형태를 명시하는 레이블이 존재한다. 시험 집합은 전체가 430Mbyte 크기이고, 훈련 데이터와 같이 10%인 1.4Mbyte만을 실험 데이터로 사용하였으며, 총 311, 029개의 레코드로 이루어진다.
데이터로 구성되었다. 이 데이터는 각 TCP/IP 연결에 대해서 41개의 필드를 가지고 있으며, 크게 4 가지 형태의 공격 유형을 가지며 세부적으로 13가지의 공격으로 이루어져 있다. 이 데이터에서의 공격형 태는 크게 4가지 형태로 나누어 볼 수 있다.
훈련 집합은 743MByte 크기 의 약 5, 000, 000개의 레코드로 이루어져 있다. 이 중에서 본 논문에서는 실험의 용이성을 고려하여 이 중에서 10%정도를 훈련 데이터로 사용하며, 이것은 75Mbyte의 크기로 총 494, 021개의 레코드를 포함한다. 이러한 10%의 데이터는 19.
이론/모형
오용탐지의 경우는 교사학습 시의 출력 노드의 비교를 위해 각 공격의 형태를 나타내는 바이너리 코드를 사용하였다. 마지막으로 신경망에서 학습효율을 높이기 위해 부가적으로 관성 알고리즘을 사용하였다 [15-16].
성능/효과
첫째, 특별한 규칙을 가지고 있지 않으므로 명령을 내리기 어려운 상황에서 유용하게 사용될 수 있다. 둘째, 학습 능력을 가지므로 특정 패턴을 인식하거나 특정 데이터에 대한 학습을 기반으로 한 문제 해결에 용이하다. 셋째, 네트워크 일부가 문제를 가질 경우 전체적으로 미치는 영향이 적다.
셋째, 과적합을 방지하기 위하여 모든 공격 유형에 대해 통합적인 네트워크를 구성하였으며, 훈련 데이터와 시험 데이터를 신경망의 입출력에 맞게 가공하였다. 또한 객체 지향적인 네트워크 설계를 통해서 본 논문에서 사용된 역전파 알고리즘 이외의 알고리즘도 쉽게 적용이 가능하며, 데이터 전처리부의 교체를 통한 실제 데이터 처리도 가능하다.
본 논문에서 사용된 데이터는 상당히 많은 양을 가지고 있어 모든 데이터에 대한 학습에 있어서 상당히 많은 시간이 요구되었다. 최적의 결과를 내는 네트워크를 발견하기 위해서는 다양한 네트워크를 구성하고 반복적인 실험이 요구되지만 시간상의 제약으로 인해 향후 연구과제로 남겨두기로 한다.
둘째, 학습 능력을 가지므로 특정 패턴을 인식하거나 특정 데이터에 대한 학습을 기반으로 한 문제 해결에 용이하다. 셋째, 네트워크 일부가 문제를 가질 경우 전체적으로 미치는 영향이 적다. 마지막으로 입출력 노드에 이산형, 연속형 변수 사용이 가능하며 기법을 적용할 수 있는 영역이 넓다.
후속연구
최적의 결과를 내는 네트워크를 발견하기 위해서는 다양한 네트워크를 구성하고 반복적인 실험이 요구되지만 시간상의 제약으로 인해 향후 연구과제로 남겨두기로 한다. 마지막으로 신뢰적인 데이터를 사용하기는 했지만 실제 네트워크 데이터와는 다른 점들이 존재하므로 네트워크상의 원형의 감사 데이터들을 수집/가공하여 시스템에 적용하기 위한 연구가 요구된다.
있다. 설계에서 잠시 언급하였던 노드의 개수와 계층에 따른 수학적인 분석들이 보다 현실화 될 때 신경망을 이용한 침입 탐지 시스템의 활용도는 더욱 높아 질 수 있을 것이다.
구별되는 장점을 가지고 있다. 첫째, 특별한 규칙을 가지고 있지 않으므로 명령을 내리기 어려운 상황에서 유용하게 사용될 수 있다. 둘째, 학습 능력을 가지므로 특정 패턴을 인식하거나 특정 데이터에 대한 학습을 기반으로 한 문제 해결에 용이하다.
시간이 요구되었다. 최적의 결과를 내는 네트워크를 발견하기 위해서는 다양한 네트워크를 구성하고 반복적인 실험이 요구되지만 시간상의 제약으로 인해 향후 연구과제로 남겨두기로 한다. 마지막으로 신뢰적인 데이터를 사용하기는 했지만 실제 네트워크 데이터와는 다른 점들이 존재하므로 네트워크상의 원형의 감사 데이터들을 수집/가공하여 시스템에 적용하기 위한 연구가 요구된다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.