[논문]기계 학습을 활용한 변종 악성코드 식별 연구 동향 분석

유정빈; 신민식; 권태경

문제 정의

기계 학습을 활용한 악성코드 식별 연구의 동향 분석을 수행하기 전 문헌 연구에 요구되는 기반 기술을 소개한다.
본 논문에서는 다양한 기계 학습을 활용한 변종 악성 코드 식별 연구를 분류하여 살펴보았다. 초기에는 정적/ 동적 개별 분석을 기반으로 변종 악성코드 식별 연구가 발전해 왔으며, 최근에는 각 분석 방식의 한계를 극복하기 위해 하이브리드 분석 방식이 제안되고 있다 [12, 13, 14, 15].
최근 연구에서는 변종 식별이 어려운 악성코드를 더욱 정확하게 식별하기 위해 다양한 기계 학습을 적용하는 추세이다. 본 논문에서는 변종 악성코드 식별을 위해 각 연구에서 활용한 기계 학습 기술과 사용한 악성코드 특징을 중심으로 변종 악성코드 식별 연구를 분류 및 분석한다.
본 문단에서는 그림 2와 같이 지도/비지도 학습을 기반으로 정적 분석을 활용한 변종 악성코드 식별 연구를 살펴본다.
본 문단에서는 그림 6과 같이 지도/비지도 학습을 기반으로 동적 분석을 활용한 변종 악성코드 식별 연구를 살펴본다.
본 문단에서는 그림 7과 같이 지도/비지도 학습을 기반으로 하이브리드 분석을 활용한 변종 악성코드 식별 연구를 살펴본다.
분류되지 않은 데이터 셋을 사용하는 머신러닝 알고리즘이다. 클러스터링 (Clustering) 알고리즘이 이에 해당하며, 거리 기반 알고리즘 (예: Euclidean, Cosine)으로 알려지지 않은 데이터 간 특징을 계산해 분리된 데이터 구조로 나누는 것을 목표로 한다. 지도 학습 알고리즘을 적용한 연구와는 달리 신뢰할 수 있는 레이블링 정보가 없더라도 변종 악성코드를 식별할 수 있다.

제안 방법

‘차원의 저주’ 문제를 해결하기 위해 경험적 결과를 활용하여 악성코드 특징들을 카테고리로 분류했다 (정적 특징 86 개, 동적 특징 94 개).
Karim 등은 악성코드에서 추출한 어셈블리 명령어 (x86)를 활용해 정상/악성코드 식별 연구를 진행했다 [5]. 12 개의 정상프로그램과 155개의 악성코드를 토대로 10-gram과 10-perm을 적용해 각 악성코드에서 사용 되는 어셈블리 명령어의 빈도수 테이블을 생성했다. 생성된 빈도수 테이블을 토대로 CLUTO 군집 클러스터링을 적용하여 그림 4와 같이 dendogram을 생성해 식별한 결과, 97%의 정확도를 보였다.
4,821 (20family)개의 악성코드를 토대로 4-gram 정보를 추출했으며, ‘차원의 저주 (Curse of dimensionality)’ 문제를 해결하기 위해 Feature Hashing을 적용했다.
Eskandari 등은 1,000개의 정상 프로그램과 1,000개의 악성코드에서 추출한 mnemonic 코드 정적 특징과 API 시퀀스 동적 특징을 활용해 악성코드 식별 연구를 진행했다 [14]. Mnemonic 코드를 활용해 제어 흐름 그래프를 생성하고 CALL/RET 명령어를 JMP 명령어로 변경, 제어 흐름 그래프 내에서 발생하는 API 호출을 기준으로 동적 특징을 결합하여 추상화했다. 추상화한 정상/악성코드 특징을 토대로 Naive Bayes 분류 알고리즘을 적용하여 10-fold cross validation으로 성능을 측정한 결과, 92.
541개 정상 프로그램과 2,398개 악성코드의 경험적 결과를 토대로 함수 길이 (50으로 설정), 문자열 정보 (1,742,490 개) 이진 테이블, API 빈도 테이블 (72,259 개)을 설정했다. 선정한 악성코드 특징을 토대로 그림 8과 같이 SVM, IB1 (Instance based along with Boosting technique), Decision Tree, Random Forest 분류 알고리즘을 적용해 프레임워크에 가장 적합한 알고리즘을 선정했다. 10-fold cross validation을 활용해 각 알고리즘의 성능을 측정한 결과 Random Forest가 97.
악성코드를 실행하지 않고 사용하는 PE (Portable Executable) 정보, 동적 라이브러리 정보 (DLL;Dynamic Linking Library), Opcode 시퀀스, 바이트 시퀀스, 어셈블리 명령어 (x86), API 함수 이름, ASCII 포맷 16진수 코드, 제어 흐름 그래프 (CFG; Control Flow Graph), 디스어셈블 된 바이너리, 시스템 명령어 추적, 정적 바이너리 정보, 문자열 정보, 섹션 정보, Entropy, 파일크기 등을 활용해 악성코드의 구조를 분석한다 [2,3,4,5,6]. 정적 특징을 사용한 정적 분석은 악성코드를 빠르게 식별할 수 있다는 장점이 있지만 난독화 (Obfuscation), 패킹 (Packing) 등이 적용된 변종 악성코드를 정확하게 식별할 수 없다는 한계가 있다.
통제가 가능한 가상 환경 (예: 가상 머신, 시뮬레이터, 샌드박스 등)에서 악성코드를 직접 실행시켜 사용하는 API 함수, 네트워크 활동, 프로세스, 윈도우 서비스, 파일 시스템 변화, 레지스트리 키, Mutex, 실행되는 명령어, 파일 읽기 정보 등을 활용해 악성코드의 행위를 분석 한다 [7,8,9,10,11]. 동적 특징을 사용한 동적 분석은 다형성 악성코드와 변성 악성코드에 어느 정도 유연하다는 장점을 갖고 있지만 시간 비용이 높다는 한계가 있다.
476 개의 정상프로그램과 561 개의 악성코드를 토대로 가장 많이 사용되는 500 개의 4-gram 정보를 선정했으며, 이를 포함한 1,971 개의 정상 프로그램과 1,651 개의 악성코드가 프레임워크 성능측정에 사용 했다. 프레임워크 성능을 극대화하기 위해 총 7개의 분류 (classification) 알고리즘 가운데 가장 좋은 성능을 보이는 알고리즘을 선정했다 (Boosted J48, SVM, IBk (k=5), Boosted SVM, Boosted Naive Bayes, J48, Naive Bayes). 10-fold cross validation을 활용해 각 분류 알고리즘을 적용한 프레임워크 성능을 측정한 결과, Boosted J48이 98.

대상 데이터

Kolter 등은 Hexdump 도구를 이용해 ASCII 형태의 16진수 코드를 추출하여 정상/악성코드 식별 연구를 진행했다 [3]. 476 개의 정상프로그램과 561 개의 악성코드를 토대로 가장 많이 사용되는 500 개의 4-gram 정보를 선정했으며, 이를 포함한 1,971 개의 정상 프로그램과 1,651 개의 악성코드가 프레임워크 성능측정에 사용 했다. 프레임워크 성능을 극대화하기 위해 총 7개의 분류 (classification) 알고리즘 가운데 가장 좋은 성능을 보이는 알고리즘을 선정했다 (Boosted J48, SVM, IBk (k=5), Boosted SVM, Boosted Naive Bayes, J48, Naive Bayes).
Islam 등은 IDA Pro를 이용해 추출한 정적 특징 (함수 길이 빈도수, 문자열 정보)와 샌드박스를 이용해 추출한 동적 특징 (API, API가 사용하는 인자)를 활용해 정상/악성코드 식별 연구를 진행했다 [15]. 541개 정상 프로그램과 2,398개 악성코드의 경험적 결과를 토대로 함수 길이 (50으로 설정), 문자열 정보 (1,742,490 개) 이진 테이블, API 빈도 테이블 (72,259 개)을 설정했다. 선정한 악성코드 특징을 토대로 그림 8과 같이 SVM, IB1 (Instance based along with Boosting technique), Decision Tree, Random Forest 분류 알고리즘을 적용해 프레임워크에 가장 적합한 알고리즘을 선정했다.

이론/모형

Wang 등은 740개의 정상 프로그램과 407개의 악성 코드에서 추출한 5번 이상 사용된 import table 정적 정보와 Windows XP에서 동적으로 추출한 시스템 상태, 네트워크 상태정보를 활용해 정상/악성코드 식별 연구를 진행했다 [12]. Information Gain (IG) 알고리즘을 적용해 최적의 특징 조합을 선정했으며 (67 개의 정적 특징, 14 개의 동적 특징), SVM 분류 알고리즘을 적용 했다. k-fold cross validation (k = 2, 5, 10, 100)을 활용해 성능을 측정한 결과 96.
Ahmadi 등은 IDA Pro를 이용해 추출한 disassembled 기반 (MD1은 file 크기, 제 1 바이트 시퀀스 주소, 1G은 바이너리 파일의 16 진수 값을 의미한다), hex dump 기반 악성코드 특징 (SEC은 섹션정보, DP는 Data definition Proportion 정보를 의미한다)을 활용해 악성코드 식별연구를 진행했다 [4]. 특히 Microsoft Kaggle 변종 악성코드 식별 대회에서 제공한 21,741 (9 family)개의 악성코드를 대상으로 추출한 특징 가운데 악성코드를 효율적으로 식별할 수 있는 조합을 선정하기 위해 forward stepwise selection 알고리즘을 적용했다. Forward stepwise selection 알고리즘은 각 특징을 순차적으로 대입해가면서 최적의 특징 조합을 선정하는 알고리즘이다.

성능/효과

프레임워크 성능을 극대화하기 위해 총 7개의 분류 (classification) 알고리즘 가운데 가장 좋은 성능을 보이는 알고리즘을 선정했다 (Boosted J48, SVM, IBk (k=5), Boosted SVM, Boosted Naive Bayes, J48, Naive Bayes). 10-fold cross validation을 활용해 각 분류 알고리즘을 적용한 프레임워크 성능을 측정한 결과, Boosted J48이 98.36%의 정확도로 가장 높은 성능을 보였다. 제안하는 방식을 토대로 실제 업계에서 사용할 수 있는 프로토타입을 만들었다는 장점이 있지만, 학습된 정적 특징 (가장 많이 사용되는 500 개의 4-gram)에 의존한다는 한계가 있다.
선정한 악성코드 특징을 토대로 그림 8과 같이 SVM, IB1 (Instance based along with Boosting technique), Decision Tree, Random Forest 분류 알고리즘을 적용해 프레임워크에 가장 적합한 알고리즘을 선정했다. 10-fold cross validation을 활용해 각 알고리즘의 성능을 측정한 결과 Random Forest가 97.055%로 가장 성능이 좋았다. 또한.
Mohaisen 등은 연구를 통해 제작한 악성코드 동적 행위 분석도구 (AMAL)을 활용해 악성코드 식별 연구를 진행했다 [11]. 115,157 개의 악성코드로 부터 추출 시스템 상태 변화 (파일 시스템 정보, 레지스트리 키, 네트워크 정보 등)를 추출해 정규화하고 수직형 (Hierarchical) 클러스터링과 SVM 분류 알고리즘을 적용한 결과, 95.56%의 정확도를 보였다. 자체 제작한 동적 분석 도구를 활용해 악성코드를 식별했다는 장점이 있지만 가상 환경을 탐지하는 변종 악성코드에 유연하지 못하다는 한계가 있다.
4,821 (20family)개의 악성코드를 토대로 4-gram 정보를 추출했으며, ‘차원의 저주 (Curse of dimensionality)’ 문제를 해결하기 위해 Feature Hashing을 적용했다. Feature Hashing을 적용한 악성코드의 4-gram 정보를 토대로 프로토타입 기반 클러스터링 (Prototype-based clustering) 알고리즘을 적용하여 악성코드를 식별한 결과, 82%의 정확도를 보였다. 프레임워크의 시간 비용 문제를 해소하기 위해 Feature Hashing과 프로토타입 기반 클러스터링 알고리즘 적용을 시도했다는 장점이 있지만 바이너리/명령어 레벨 난독화에 취약하다는 한계가 있다.
결과적으로 그림 3과 같이 각 악성코드 특징의 중요도를 산정했다. XGBoost 분류 알고리즘을 적용해 악성코드를 식별한 결과, 99.42%의 정확도를 보였다. 정적 특징을 활용해 악성 코드를 식별했지만 다형성 악성코드에 어느 정도 유연 하다는 장점이 있지만 Kaggle 대회에서 제공한 악성코드만을 대상으로 성능을 측정했다는 한계가 있다.
Information Gain (IG) 알고리즘을 적용해 최적의 특징 조합을 선정했으며 (67 개의 정적 특징, 14 개의 동적 특징), SVM 분류 알고리즘을 적용 했다. k-fold cross validation (k = 2, 5, 10, 100)을 활용해 성능을 측정한 결과 96.43% 정확도를 보였다. 다른 AV 벤더 (예: Kaspersky, Norton, Pccillin, Nod32) 보다 높은 정확도를 보였다는 장점이 있지만, 감시 스파이웨어 (Surveillance spyware)만을 대상으로 했기 때문에 다른 유형의 악성코드에 유연하지 못하다는 한계가 있다.
‘차원의 저주’ 문제를 해결하기 위해 경험적 결과를 활용하여 악성코드 특징들을 카테고리로 분류했다 (정적 특징 86 개, 동적 특징 94 개). 분류한 악성코드 특징들을 토대로 SVM 분류 알고리즘을 적용하여 10-fold cross validation으로 성능을 측정한 결과, 98.07%의 정확도를 보였다. 새로운 악성코드 특징을 쉽게 추가할 수 있다는 점에서 확장성이 높다는 장점이 있지만, 악성코드 특징을 모두 추출하는데 약 5분 (303.
12 개의 정상프로그램과 155개의 악성코드를 토대로 10-gram과 10-perm을 적용해 각 악성코드에서 사용 되는 어셈블리 명령어의 빈도수 테이블을 생성했다. 생성된 빈도수 테이블을 토대로 CLUTO 군집 클러스터링을 적용하여 그림 4와 같이 dendogram을 생성해 식별한 결과, 97%의 정확도를 보였다. 재정렬 엔진 (예:명령어, 블록 서브루틴 등)이 적용된 변성 악성코드에 유연하고 새로운 악성코드가 유입되었을 때 계통을 파악하는데 효율적이라는 장점이 있지만, UPX 패킹이 적용된 악성코드나 패킹이 적용되지 않은 악성코드를 대상으로 성능을 측정했기 때문에 다형성 악성코드에 유연하지 못하다.
Bayer 등은 ANUBIS 샌드박스를 활용해 2,658개의 악성코드로부터 추출한 시스템 콜 시퀀스, 네트워크 접속 정보를 활용해 악성코드 식별 연구를 진행했다 [9]. 악성코드로부터 추출한 시스템 콜 시퀀스를 대상으로 taint tracking을 수행해 시스템 함수가 사용하는 인자, 반환 값들의 후속호출 정보를 추적해 프로필 정보를 생성하고 수직형 클러스터링 알고리즘을 적용한 결과, 98.4%의 정확도를 보였다. Taint tracking을 통해 악성 코드의 행위를 정확하게 식별할 수 있다는 장점이 있지만, 추적 의존성 (Trace dependence) 문제로 특정 시간이 지정된 시한폭탄 (Time-bomb) 악성코드를 정확히 식별할 수 없다는 한계가 있다.
지도 학습을 활용한 연구 Scultz 등은 1,001개의 정상 프로그램과 3,265개의 악성코드를 대상으로 추출한 PE 정보 (예: 파일 크기, DLL 이름, API 이름), 문자열 정보, Hexdump 도구를 이용해 추출한 특징을 토대로 악성코드 식별 연구를 진행했다[2]. 전통적인 시그니쳐 식별 방식, RIPPER, Naive Bayes, Multi Naive Bayes 분류 알고리즘을 각기 프레임워크에 적용해 성능을 측정한 결과, Multi-Naive Bayes 분류 알고리즘을 적용했을 때97.76%의 정확도로 가장 성능이 좋았다. 전통적인 시그니쳐 방식 (49.
Mnemonic 코드를 활용해 제어 흐름 그래프를 생성하고 CALL/RET 명령어를 JMP 명령어로 변경, 제어 흐름 그래프 내에서 발생하는 API 호출을 기준으로 동적 특징을 결합하여 추상화했다. 추상화한 정상/악성코드 특징을 토대로 Naive Bayes 분류 알고리즘을 적용하여 10-fold cross validation으로 성능을 측정한 결과, 92.68% 정확도를 보였다.
Bailey 등은 Windows XP 가상화 환경에서 3,387개의 악성코드로부터 추출한 시스템 상태 변화 (프로세스 이름, 레지스트리 키) 정보를 활용해 악성코드 식별 연구를 진행했다 [8]. 추출한 악성코드 특징의 빈도수 테이블을 생성하고 pairwise single-linkage 클러스터링 알고리즘을 적용한 결과 91.6%의 정확도를 보였다. 난독화가 적용된 악성코드에 유연하다는 장점이 있지만 확장성 문제 (악성코드 한 개를 식별하는데 5분의 시간 소요)와 가상화 환경을 탐지하는 변종 악성코드에 유연 하지 못하다는 한계가 있다.
Rieck 등은 CWSandbox를 활용해 3,139 개의 악성 코드로부터 추출한 API 함수 호출, 시스템 상태 변화 (예: 파일 시스템, 레지스트리 키), 프로세스 정보, 네트워크 활동, 윈도우 서비스 정보 등을 활용해 악성코드 식별 연구를 진행했다 [7]. 추출한 악성코드의 특징들을 key, value 쌍의 빈도수 테이블로 표현해 SVM 분류 알고리즘을 적용한 결과, 88%의 정확도를 보였다. 난독화가 적용된 악성코드에 유연하다는 장점이 있지만 확장성 문제와 가상화 환경을 탐지하는 변종 악성코드에 유연하지 못하다는 한계가 있다.

핵심어	질문	논문에서 추출한 답변
	2017 년 AV-Test 악성코드 동향 보고서에 따르면 DDoS (Distributed Denial of Service), 스팸 발송, APT (Advanced Persistent Threat) 공격 등에 사용된 악성코드의 수는 얼마인가?	자동화된 악성코드 생성도구 (Automatic malware creation toolkit)가 인터넷을 통해 유포됨에 따라 악성 코드 출현 개수가 기하급수적으로 증가하고 있다. 2017 년 AV-Test 악성코드 동향 보고서에 따르면 DDoS (Distributed Denial of Service), 스팸 발송, APT (Advanced Persistent Threat) 공격 등에 사용된 악성코드는 연간 기준 약 60억 개에 달한다 [1]. 그러나 그림 1과 같이 전체 악성코드 가운데 신종 악성코드는 6억개 미만으로 대부분의 악성코드가 기존 악성코드의 변종 (Mutant)임을 알 수 있다.
	변종 악성코드란 무엇인가?	변종 악성코드는 패턴매칭 (Pattern matching)을 기반으로 한 악성코드 탐지 방식을 회피하기 위해 기존 악성코드를 변형한 악성코드이다. 변종 악성코드는 변형 엔진 (Mutation engine) 복잡도에 따라 다형성 (Polymorphic) 악성코드, 변성 (Metamorphic) 악성코드로 분류된다.
	다형성 (Polymorphic) 악성코드, 변성 (Metamorphic) 악성코드의 차이점은 무엇인가?	변종 악성코드는 변형 엔진 (Mutation engine) 복잡도에 따라 다형성 (Polymorphic) 악성코드, 변성 (Metamorphic) 악성코드로 분류된다. 다형성 악성코드는 단순히 외형을 변형하기 위해 암호화 또는 데이터 확장을 기존 악성코드에 적용한다. 반면, 변성 악성코드는 다형성 악성코드보다 진보된 형태로 유포될 때마다 기존 악성코드가 사용하는 명령어 코드 재정렬, 레지스터 변경, 난독화 (Obfuscation), 의미 없는 명령어 및 분기문 등을 추가해 코드가 다시 작성된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

기계 학습을 활용한 변종 악성코드 식별 연구 동향 분석
Analysis of Research Trend on Machine Learning Based Malware Mutant Identification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

기계 학습을 활용한 변종 악성코드 식별 연구 동향 분석 Analysis of Research Trend on Machine Learning Based Malware Mutant Identification 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

유정빈 (2) 신민식 (2) 권태경 (49)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

기계 학습을 활용한 변종 악성코드 식별 연구 동향 분석
Analysis of Research Trend on Machine Learning Based Malware Mutant Identification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper