[논문]N-grams를 사용한 CNN 기반의 악성코드탐지 기법 연구

허정원; 문봉교

N-grams를 사용한 CNN 기반의 악성코드탐지 기법 연구
Malware Detection Based on CNN with N-grams 원문보기

허정원 (동국대학교 컴퓨터공학과) , 문봉교 (동국대학교 컴퓨터공학과)

본 논문에서는 악성코드탐지 기법으로 n-grams를 사용한 특징 추출을 통해 이미지 인식 분야에서 널리 쓰이는 Convolutional Neural Network로 학습하는 프레임워크를 제안한다. 윈도우즈 실행 파일의 PE 포맷에서 특징을 추출하여 6-grams 확률을 구하고 grayscale 을 통해 이미지로 변환한다. 이것을 기존에 연구된 탐지방법과 비교하여 우수함을 보인다. 학습에 사용된 데이터는 총 55,000개로 5-folds 교차검증을 하였으며 예측 정확도는 98.87%였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

PE 포맷은 ( 그림 2 )와 같이 크게 DOS header, Commom Object File Format(COOFF), optional header, import tables로 나뉜다. 본 연구는 PE 포맷에서 DOS header, COFF Optional header 부분을 추출해 총 328 bytes 배열을 얻게 된다. 이것은 실행 파일의 핵심적인 특징이며, 적은 분량이고, 일정한 크기를 가진다.
[2]은 파일의 시작과 끝만을 n-framming 하여 정보를 추출한다. 본 연구도 유용한 부분만을 살펴보고, 특정 길이를 얻기 위해 PE 헤더만을 특징 추출에 사용한다.
본 연구에서는 2개의 convolution layer를 사용하며 각각 32,64개의 3×3필터 합성곱을 연산한다.
이 방법은 대상에 대한 사전 지식이 필요 없이 특징의 자동적인 추출이 가능하다는 장점이 있다. 본 연구에서는 6-grams로 13500개의 정상코드의 문맥을 학습시켜 byte의 등장 확률을 구한다.
본 연구에서는 n-grams 특징 추출과 CNN 학습기법을 동시에 사용해 기존 연구 결과와 탐지 정확도를 비교한다. 결과로 얻은 탐지 정확도는 98.
Raff도 PE 포맷을 특징으로 추출해 악성코드를 탐지한다. 이것에 대해 Extra Random Trees(ET), Random Forests(RF), Logistic Regression(LR), Fully Connected Neural Network(FC), Long Short-Term Memory(LSTM) 다섯 가지 학습 기법을 적용하고 탐지 성능을 비교한다. 다양한 탐지 기법에 소개가 있지만 역시 CNN에 대한 논의가 부족하다.

대상 데이터

사용된 데이터는 KISA에서 수집한 윈도우즈 실행 파일 정상코드 13,500개 악성코드 41,500개 총 5,500개의 데이터를 사용하였다. 이 데이터를 사용할 때 5-fold cross vaildation 기법을 적용하여 검증하였다.
실험 환경은 윈도우즈 10(64blt) 운영체제에서 Tensorflow backed keras로 실험하였다.

데이터처리

는 Raff 가 industry patner에게 받은 데이터(Group B)를 사용해 얻은 모델 정확도와 제안하는 모델의 정확도를 비교한다.

이론/모형

사용된 데이터는 KISA에서 수집한 윈도우즈 실행 파일 정상코드 13,500개 악성코드 41,500개 총 5,500개의 데이터를 사용하였다. 이 데이터를 사용할 때 5-fold cross vaildation 기법을 적용하여 검증하였다. 실험 환경은 윈도우즈 10(64blt) 운영체제에서 Tensorflow backed keras로 실험하였다.
하지만 모델성능을 정확도로만 판별하는 것은 위험하다. 이 맹점을 해결하기 위해 Receiver Operating Characteristic(ROC)을 사용한다. (그림 5)는 6-grams로 전처리를 한 ROC 그래프이고 (그림 6)은 Raff의 모델에 대한 ROC 그래프이다.

성능/효과

결과로 얻은 탐지 정확도는 98.87%로 기존 연구 결과보다 우수한 악성코드탐지에 기법임을 보인다.
본 연구는 배경 지식 없이 적절한 특징 추출 기법과 빅데이터만으로도 효과적인 학습을 수행할 수 있음을 보여준다.
[5]은 문자열을 추출해 효과적으로 악성 코드 분류법을 제안한다. 이 논문에서 보이는 분류 정확도는 98.8%로 상당한 정확도로 분류 가능함을 보인다. 이러한 밥벙을 응용해 효과적으로 파일의 실행 가능한 운영체제나 포맷, 유형에 따라 분류하고, 각각에 적절한 특징 추출 기법을 연구한다면 변형 악성코드에도 빠르게 대처할 수 있을 것이다.

후속연구

8%로 상당한 정확도로 분류 가능함을 보인다. 이러한 밥벙을 응용해 효과적으로 파일의 실행 가능한 운영체제나 포맷, 유형에 따라 분류하고, 각각에 적절한 특징 추출 기법을 연구한다면 변형 악성코드에도 빠르게 대처할 수 있을 것이다.
이점은 다른 운영체제의 실행 파일에 적용할 수 없다는 명확한 한계점을 지닌다. 이를 개선하기 위해 악성 코드 분류와 통합 플랫폼을 만들 수 있을 것이다. Islam et al.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

N-grams를 사용한 CNN 기반의 악성코드탐지 기법 연구
Malware Detection Based on CNN with N-grams 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

N-grams를 사용한 CNN 기반의 악성코드탐지 기법 연구 Malware Detection Based on CNN with N-grams 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

N-grams를 사용한 CNN 기반의 악성코드탐지 기법 연구
Malware Detection Based on CNN with N-grams 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper