[논문]역전파 알고리즘 기반의 침입 패턴 분석

우종우; 김상영

문제 정의

본 논문에서는 다양한 최근의 침입에 대한 경향을 분석하고 이를 해결하기 위한 여러가지 방안들을 살펴보았다. 그리고 이러한 문제를 해결하기 위한 방안으로써 신경망 기반의 침입 탐지 시스템을 설계.
본 논문에서는 이와 같은 대용량의 감사 데이터 처리와 변형된 형태의 공격에 내구력을 가지기 위해 신경망을 이용한 침입 탐지 시스템을 설계 .구현하였다.
인터넷의 보급으로 인한 부정적인 측면은 시스템에 대한 악의적인 침입행위라 할수 있으며, 침입 행위의 형태 및 방법은 나날이 다양해져 가고 있다 이러한 침입에 의한 피해를 최소화 하기 위한 기술로 침입탐지 시스템(Intrusion Detection System: IDS)들이 연구되었으며, 그 목적은 시스템이나 네트워크의 다양한 감사 데이터를 이용하여 침입 행위를 탐지 하고 시스템 관리자나 시스템이 이에 대한조치를 취할수 있게 하는 데 있다.

제안 방법

KDD Cup, 99 데이터에서 훈련 데이터 집합에 포함된 공격의 유형은 총 14가지이므로 출력 노드가 바이너리 출력을 내는 것을 고려하여 4개의 출력 노드로 하나의 공격을 표현하였다. 바이너리 코드에서 가장 앞자리는 첫 번째 출력 노드의 출력 값을 의미하고 마지막 자리는 4번째 출력 노드의 출력 값을 의미한다.
그리고 이러한 문제를 해결하기 위한 방안으로써 신경망 기반의 침입 탐지 시스템을 설계.구현하였다.
본 시스템은 학습을 위해 훈련 데이터 집합을, 탐지 시뮬레이션을 위해서 시험 데이터 집합을 가지고 있다. 두 가지 데이터는 모두 동일한 41개의 필드를 가지고 있으며, 방대한 데이터에 대한 용이한 접근과 분석을 위해서 질의를 통해 데이터베이스에 접근하여 결과를 확인할 수 있게 하였다. 아래 그림 10은 시스템에서 전체 훈련 데이터의 집합을 호출한 결과이다.
KDD Cup, 99 의 데이터를 통한 실험 결과는 실생활의 감사 데이터를 처리할 때와 비슷한 결과를 산출할 것을 예상할 수 있다. 둘째, 대표적인 두 가지 형태의 침입 탐지 방법론을 모두 수용하는 모델을 구현하였다. 비정상 행위 탐지와 오용 탐지에서의 단점들을 해결하고 장점들을 부각시키기 위해서 두 가지 방법론을 병용하는 방법을 사용하였다.
본 연구의 시스템은 비정상 탐지와 오용 탐지를 모두 수용할 수 있게 설계되었으며, 신경망 자체의 변형 감내 (Transformation Tolerance) 적인 성질을 이용하여 변형된 형태의 공격에도 대응할 수 있게 하였다. 또한 신뢰성 있는 데이터를 통한 시뮬레이션을 수행함으로써 실제 데이터에 대한 적응력을 높였다. 이시스템에서 사용된 신경망 학습 알고리즘은 역전파 알고리즘으로써 비선형적인 문제에 대해 효과적인 분류가 가능한 특징을 가진다.
분류하고자 하는 패턴의 분포가 복잡할수록 더 많은 하이퍼플레인이 필요하며 너무 많은 수의 하이퍼플레 인을 나누게 되면 과적합(overfitting)의 문제점 때문에 패턴의 분포에 맞는 은닉층 노드 개수 설정이 중요하다. 본 논문에서는 데이터 집합에 대한 패턴의 분포를 알 수 없으므로 반복적 인 실험으로 적절한 노드의 수를 구성 하였다.
본 논문에서는 학습이 진행되는 과정에서 매 10 번의 반복마다 반복 회수와 에 러값을 저장하여 학습이 종료되었을 때 그래프 형태로 제시하였다[그림 13], 그래프의 X축은 반복 횟수를 Y축은 MSE(Mean Square Error)를 의미한다. 이 그래프는 1000개의 훈련 데이터를 기반으로 660번의 반복 학습 동안의 에러값의 변화를 보여준다.
구현하였다. 본 연구의 시스템은 비정상 탐지와 오용 탐지를 모두 수용할 수 있게 설계되었으며, 신경망 자체의 변형 감내 (Transformation Tolerance) 적인 성질을 이용하여 변형된 형태의 공격에도 대응할 수 있게 하였다. 또한 신뢰성 있는 데이터를 통한 시뮬레이션을 수행함으로써 실제 데이터에 대한 적응력을 높였다.
본 연구의 시스템은 비정상탐지와 오용탐지를 병행하도록 하기 위해서 다음 몇 가지 주요 관점을 가지고 설계하였다. 첫째, 본 연구에서는 KDD Cup, 99 데이터로 시뮬레이션 함으로써 비정상 탐지와 오용탐지를 병행할 수 있도록 설계하였다.
둘째, 대표적인 두 가지 형태의 침입 탐지 방법론을 모두 수용하는 모델을 구현하였다. 비정상 행위 탐지와 오용 탐지에서의 단점들을 해결하고 장점들을 부각시키기 위해서 두 가지 방법론을 병용하는 방법을 사용하였다. 셋째, 과적합을 방지하기 위하여 모든 공격 유형에 대해 통합적인 네트워크를 구성하였으며, 훈련 데이터와 시험 데이터를 신경망의 입출력에 맞게 가공하였다.
비정상 행위 탐지와 오용 탐지에서의 단점들을 해결하고 장점들을 부각시키기 위해서 두 가지 방법론을 병용하는 방법을 사용하였다. 셋째, 과적합을 방지하기 위하여 모든 공격 유형에 대해 통합적인 네트워크를 구성하였으며, 훈련 데이터와 시험 데이터를 신경망의 입출력에 맞게 가공하였다. 또한 객체 지향적인 네트워크 설계를 통해서 본 논문에서 사용된 역전파 알고리즘 이외의 알고리즘도 쉽게 적용이 가능하며, 데이터 전처리부의 교체를 통한 실제 데이터 처리도 가능하다.
즉, 비 정상탐지의 경우 공격일 경우 1에 가까운 출력을 정상 패턴일 경우 0에 가까운 출력을 나타내도록 구성하였다. 오용탐지의 경우는 교사학습 시의 출력 노드의 비교를 위해 각 공격의 형태를 나타내는 바이너리 코드를 사용하였다. 마지막으로 신경망에서 학습효율을 높이기 위해 부가적으로 관성 알고리즘을 사용하였다 [15-16].
마지막으로 입출력 노드에 이산형, 연속형 변수 사용이 가능하며 기법을 적용할 수 있는 영역이 넓다. 이러한 특징을 기반으로 본 논문에서는 다양한 신경망 알고리즘 중에서 널리 사용되어 검증되어 있고 교사학습 기반의 알고리즘인 역전파 알고리즘을 이용하여 침입 패턴을 분류하였다.
설계하였다. 첫째, 본 연구에서는 KDD Cup, 99 데이터로 시뮬레이션 함으로써 비정상 탐지와 오용탐지를 병행할 수 있도록 설계하였다. 둘째, 입력데이터와 출력 데이터를 다음과 같이 구성하였다.
첫째, 신뢰성 있는 시뮬레이션 데이터를 통한 침입패턴의 분석 및 실험을 수행하였다. KDD Cup, 99 의 데이터를 통한 실험 결과는 실생활의 감사 데이터를 처리할 때와 비슷한 결과를 산출할 것을 예상할 수 있다.
출력 노드는 비정상 탐지의 경우 공격과 정상만을 구별하기 위하여 한 개의 노드를 사용하였고, 오용탐지의 경우는 12개의 공격 형태를 분류하기 위해 4개의 출력 노드를 사용하였다. 생성된 네트워크의 가중치 값은 모두 0~1사이의 임의의 수가 설정 되어있다.
할 필요성을 가지고 있다. 특히, 오용탐지에서의 출력 데이터를 정의하기 위해서 표 2와 같이 바이너리 코드 형태로 인코딩하였다.

대상 데이터

KDD Cup, 99데이터는 1998년에 DARPA에서 침입 탐지를 시뮬레이션 하기 위해 제공된 것이며, 미 공군에서 사용되는 지역 네트워크에서의 TCP/IP dump 데이터로 구성되었다. 이 데이터는 각 TCP/IP 연결에 대해서 41개의 필드를 가지고 있으며, 크게 4 가지 형태의 공격 유형을 가지며 세부적으로 13가지의 공격으로 이루어져 있다.
감사 데이터(Audit Data)에 해당하는 것은 KDD Cup, 99에서 제공되는 텍스트 기반의 원시 데이터이다. 이 데이터는 데이터 자체에 몇몇의 잘못된 형식의 데이터를 포함하고 있기 때문에, 데이터 전처리부에서는 이러한 오류들을 제거하고 42개의 데이터베이스 필드로써 저장하는 과정을 거친다.
이 시스템은 비정상 탐지와 오용탐지 두 가지의 네 트워크 위상이 필요하므로 그림 12와 같이 위상을 구 성하였다. 두개의 네트워크 모두 6개의 입력을 사용하고 비정상 탐지의 경우 5개의 은닉층 노드를 오용 탐지의 경우 10개의 은닉층 노드를 사용하였다. 이렇게 은닉층 노드의 차이를 두는 이유는 비정상 탐지의 경우 정상과 공격 두 가지 출력에 대한 분류만을 하는데 비해서 오용탐지는 12가지의 분류를 필요로 하므로 더 많은 하이퍼플레인이 요구되기 때문이다.
본 논문에서는 침입 패턴을 시뮬레이션 하기 위한 데이터로써 KDD Cup 99의 감사 데이터를 사용하였다.
69%가 정상 패턴을 가지고 나머지 영역에서는 다양한 공격의 형태를 명시하는 레이블이 존재한다. 시험 집합은 전체가 430Mbyte 크기이고, 훈련 데이터와 같이 10%인 1.4Mbyte만을 실험 데이터로 사용하였으며, 총 311, 029개의 레코드로 이루어진다.
데이터로 구성되었다. 이 데이터는 각 TCP/IP 연결에 대해서 41개의 필드를 가지고 있으며, 크게 4 가지 형태의 공격 유형을 가지며 세부적으로 13가지의 공격으로 이루어져 있다. 이 데이터에서의 공격형 태는 크게 4가지 형태로 나누어 볼 수 있다.
훈련 집합은 743MByte 크기 의 약 5, 000, 000개의 레코드로 이루어져 있다. 이 중에서 본 논문에서는 실험의 용이성을 고려하여 이 중에서 10%정도를 훈련 데이터로 사용하며, 이것은 75Mbyte의 크기로 총 494, 021개의 레코드를 포함한다. 이러한 10%의 데이터는 19.

이론/모형

오용탐지의 경우는 교사학습 시의 출력 노드의 비교를 위해 각 공격의 형태를 나타내는 바이너리 코드를 사용하였다. 마지막으로 신경망에서 학습효율을 높이기 위해 부가적으로 관성 알고리즘을 사용하였다 [15-16].

성능/효과

첫째, 특별한 규칙을 가지고 있지 않으므로 명령을 내리기 어려운 상황에서 유용하게 사용될 수 있다. 둘째, 학습 능력을 가지므로 특정 패턴을 인식하거나 특정 데이터에 대한 학습을 기반으로 한 문제 해결에 용이하다. 셋째, 네트워크 일부가 문제를 가질 경우 전체적으로 미치는 영향이 적다.
셋째, 과적합을 방지하기 위하여 모든 공격 유형에 대해 통합적인 네트워크를 구성하였으며, 훈련 데이터와 시험 데이터를 신경망의 입출력에 맞게 가공하였다. 또한 객체 지향적인 네트워크 설계를 통해서 본 논문에서 사용된 역전파 알고리즘 이외의 알고리즘도 쉽게 적용이 가능하며, 데이터 전처리부의 교체를 통한 실제 데이터 처리도 가능하다.
본 논문에서 사용된 데이터는 상당히 많은 양을 가지고 있어 모든 데이터에 대한 학습에 있어서 상당히 많은 시간이 요구되었다. 최적의 결과를 내는 네트워크를 발견하기 위해서는 다양한 네트워크를 구성하고 반복적인 실험이 요구되지만 시간상의 제약으로 인해 향후 연구과제로 남겨두기로 한다.
둘째, 학습 능력을 가지므로 특정 패턴을 인식하거나 특정 데이터에 대한 학습을 기반으로 한 문제 해결에 용이하다. 셋째, 네트워크 일부가 문제를 가질 경우 전체적으로 미치는 영향이 적다. 마지막으로 입출력 노드에 이산형, 연속형 변수 사용이 가능하며 기법을 적용할 수 있는 영역이 넓다.

후속연구

최적의 결과를 내는 네트워크를 발견하기 위해서는 다양한 네트워크를 구성하고 반복적인 실험이 요구되지만 시간상의 제약으로 인해 향후 연구과제로 남겨두기로 한다. 마지막으로 신뢰적인 데이터를 사용하기는 했지만 실제 네트워크 데이터와는 다른 점들이 존재하므로 네트워크상의 원형의 감사 데이터들을 수집/가공하여 시스템에 적용하기 위한 연구가 요구된다.
있다. 설계에서 잠시 언급하였던 노드의 개수와 계층에 따른 수학적인 분석들이 보다 현실화 될 때 신경망을 이용한 침입 탐지 시스템의 활용도는 더욱 높아 질 수 있을 것이다.
구별되는 장점을 가지고 있다. 첫째, 특별한 규칙을 가지고 있지 않으므로 명령을 내리기 어려운 상황에서 유용하게 사용될 수 있다. 둘째, 학습 능력을 가지므로 특정 패턴을 인식하거나 특정 데이터에 대한 학습을 기반으로 한 문제 해결에 용이하다.
시간이 요구되었다. 최적의 결과를 내는 네트워크를 발견하기 위해서는 다양한 네트워크를 구성하고 반복적인 실험이 요구되지만 시간상의 제약으로 인해 향후 연구과제로 남겨두기로 한다. 마지막으로 신뢰적인 데이터를 사용하기는 했지만 실제 네트워크 데이터와는 다른 점들이 존재하므로 네트워크상의 원형의 감사 데이터들을 수집/가공하여 시스템에 적용하기 위한 연구가 요구된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

역전파 알고리즘 기반의 침입 패턴 분석
An Analysis of Intrusion Pattern Based on Backpropagation Algorithm 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

역전파 알고리즘 기반의 침입 패턴 분석 An Analysis of Intrusion Pattern Based on Backpropagation Algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

우종우 (18)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

역전파 알고리즘 기반의 침입 패턴 분석
An Analysis of Intrusion Pattern Based on Backpropagation Algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper