적층 콘볼루션 오토엔코더를 활용한 악성코드 탐지 기법
Technique for Malicious Code Detection using Stacked Convolution AutoEncoder 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.20 no.2, 2020년, pp.39 - 44  

최현웅 (한성대학교 컴퓨터공학부) ,  허준영 (한성대학교 컴퓨터공학부)

AI-Helper 아이콘AI-Helper

악성코드는 탐지 프로그램을 피해 기기들에게 피해를 유발한다. 기존의 악성코드 탐지 기법으로 이러한 새로운 악성코드를 탐지하는데 어려움을 겪는 이유는 서명 기반의 탐지 기법을 사용하기 때문이다. 이 기법은 기존 악성코드들은 효과적으로 탐지하지만, 새로운 악성코드에 대해서는 탐지가 어렵다. 이러한 문제점을 인식하여, 휴리스틱 기법을 추가적으로 사용한다. 이 논문에서는 딥러닝을 활용하여 악성코드를 탐지하는 기술에 대해 소개하여 새로운 악성코드를 탐지하는 기술에 대해서 제안한다. 또한, 악성코드를 탐지한다는 것은, 기기에서 실행 가능한 파일의 개수는 무수히 많으므로, 지도학습 방식(Supervisor Learning)으로는 분명한 한계가 존재한다. 그렇기 때문에, 준지도 학습으로 알려진 SCAE(Stacked Convolution AutoEncoder)를 활용한다, 파일들의 바이트 정보들을 추출하여, 이미지화를 진행하고, 이 이미지들을 학습을 시켜, 학습 시키지 않은 10,869개의 악성코드, 3,442개의 비악성코드를 모델에 추론한 결과 정확도를 98.84%을 달성하였다.

Abstract AI-Helper 아이콘AI-Helper

Malicious codes cause damage to equipments while avoiding detection programs(vaccines). The reason why it is difficult to detect such these new malwares using the existing vaccines is that they use "signature-based" detection techniques. these techniques effectively detect already known malicious co...


문제 정의

  • 또한, AE는 대표적인 준지도학습(Semi-supervisorLearning) 방법으로 항등함수의 가장 근사한 값을 학습하는 것이 목적이다. 즉, 입력값과 출력값이 가장 유사한형태를 갖게 하는 것이 목적이다.
  • 먼저 실험하기에 앞서 데이터를 전처리 하는 것이 가장 중요하다. 해당 실험에서는 이미지화 기법을 통해서악성코드 탐지 가능성에 대해 알아보고자 한다. 데이터 셋은 Kaggle Microsoft Malware ClassificationChallenge Dataset를 이용하였다.
