[논문]API 콜 시퀀스와 Locality Sensitive Hashing을 이용한 악성코드 클러스터링 기법에 관한 연구

고동우; 김휘강

doi:10.13089/jkiisc.2017.27.1.91

문제 정의

같은 기능을 수행하는 API를 같은 의미로 처리하지 않을 경우에는 유사도 측정에 영향을 끼칠 수 있다. 따라서 같은 기능을 수행하는 API는 같은 의미로 인식할 수 있도록 추상화 해 주는 방식을 채용하여 유사도 측정 시 발생할 수 있는 문제를 줄이고자 한다. 기영준 외 2인이 연구한 논문에서도 추상화 기법이 적용되어 있는데[10], 해당 논문에서는 MSDN 정보를 이용하여 API 추상화를 수행하였지만 본 논문에서는 cuckoo sandbox에서 정의한 API 카테고리를 이용하여 추상화 테이블을 생성하여 추상화를 수행하였다.
본 논문에서는 다량의 악성코드 유포에 따른 기존 분석 방식의 어려움을 극복할 수 있는 악성코드 자동화 분석 방식 중의 하나인 API 콜 시퀀스를 이용한 악성코드 클러스터링 기법을 제안하였다. 본 연구는 LSH 기법을 이용하여 유사한 행위를 수행하는 악성코드를 클러스터링 하는 데 목적을 두고 있고, API 추상화를 통해 기존 API 콜 시퀀스 기반의 악성코드 탐지 기법의 문제점을 극복하려 하였다.
본 논문에서는 다량의 악성코드 유포에 따른 기존 분석 방식의 어려움을 극복할 수 있는 악성코드 자동화 분석 방식 중의 하나인 API 콜 시퀀스를 이용한 악성코드 클러스터링 기법을 제안하였다. 본 연구는 LSH 기법을 이용하여 유사한 행위를 수행하는 악성코드를 클러스터링 하는 데 목적을 두고 있고, API 추상화를 통해 기존 API 콜 시퀀스 기반의 악성코드 탐지 기법의 문제점을 극복하려 하였다.
본 연구에서 제안하는 악성코드 클러스터링 기법은 다음과 같은 기존 연구의 문제점을 극복하는 데 주안점을 두었다.

제안 방법

API 추상화로 인한 성능 증가가 얼마나 이루어지는지 확인하고자 API 추상화를 적용한 데이터와 적용하지 않은 두 가지 경우의 클러스터링 결과를 비교하는 실험을 수행하였다.
API 콜 시퀀스 획득을 위해 샌드박스 기반의 동적 분석 도구인 cuckoo sandbox를 사용하였고, 해당 도구를 통해 악성코드를 실행시켜 API 콜 시퀀스를 획득할 수 있었다. 다음으로 API 콜 시퀀스 분석의 문제점인 API명에 따라 유사도 계산에 문제가 발생한다는 점을 극복하기 위해 API 추상화 기법을 적용하였다.
또 다른 문제점인 길이가 다른 데이터에 대한 유사도 분석 문제도 길이에 의존적이지 않은 TLSH를 사용하여 극복하였다. TLSH를 이용하여 악성코드의 유사도 해시를 획득하고, 모든 악성코드별로 각 악성코드에 대한 유사도를 구하여 distance matrix로 생성하였다. 이 matrix 값을 이용하여 k 값을 증가시키며 계층적 클러스터링과 k-medoids 클러스터링 기법을 적용하였다.
해당 시스템에서는 동적 분석을 이용하여 API 콜 시퀀스를 수집하고, 콜 시퀀스를 알파벳 문자열로 매칭시켜 추상화를 수행하였다. 그 후 생물학에서 DNA 시퀀스 정렬을 위해 사용하는 MSA 알고리즘을 사용하여 여러 가지 종류의 악성코드 내에서 일반적인 악성 기능에 대한 API 콜 시퀀스 패턴을 추출하였다. 최종적으로 추출한 API 콜 시퀀스에 LCS 계산 방식을 적용하여 악성코드의 API 콜 시퀀스 시그니처를 생성하였다.
따라서 같은 기능을 수행하는 API는 같은 의미로 인식할 수 있도록 추상화 해 주는 방식을 채용하여 유사도 측정 시 발생할 수 있는 문제를 줄이고자 한다. 기영준 외 2인이 연구한 논문에서도 추상화 기법이 적용되어 있는데[10], 해당 논문에서는 MSDN 정보를 이용하여 API 추상화를 수행하였지만 본 논문에서는 cuckoo sandbox에서 정의한 API 카테고리를 이용하여 추상화 테이블을 생성하여 추상화를 수행하였다.
본 기법은 가상 분석 환경을 이용한 동적 분석을 수행하여 API 콜 시퀀스를 추출하고, LSH 기법을 이용하여 유사도를 계산한 후 최종적으로 유사한 유형의 악성코드를 클러스터링 해 내는 기법이다. 기존의 API 콜 그래프 분석이나 정렬 기법을 이용한 분석 기법들은 연산의 복잡도가 높아 시간 및 컴퓨팅 자원을 많이 소모하기 때문에 LSH를 이용한 API 콜 시퀀스 분석 기법을 이용하여 자원 소모를 최소화하고 신속한 분석을 수행하기 위해서 해당 기법을 제안한다.
노이즈나 이상치에 민감한 k-means 알고리즘의 단점을 극복하기 위해 제안되었고, distance matrix를 사용하여 군집화를 수행 할 수도 있다.
다음으로 API 콜 시퀀스 분석의 문제점인 API명에 따라 유사도 계산에 문제가 발생한다는 점을 극복하기 위해 API 추상화 기법을 적용하였다. 또 다른 문제점인 길이가 다른 데이터에 대한 유사도 분석 문제도 길이에 의존적이지 않은 TLSH를 사용하여 극복하였다. TLSH를 이용하여 악성코드의 유사도 해시를 획득하고, 모든 악성코드별로 각 악성코드에 대한 유사도를 구하여 distance matrix로 생성하였다.
마지막으로 R 언어를 이용하여 k 값을 증가시키며 클러스터링을 수행하였다. Fig.
본 논문에서 채택한 TLSH 알고리즘이 클러스터링 성능에 미치는 영향에 대해 분석하고자 ssdeep, simhash 알고리즘을 적용했을 때의 클러스터링 결과를 비교하는 실험을 수행하였다.
본 연구에서는 덴드로그램을 구성한 후 유사도 값을 기반으로 클러스터링을 수행하였다. 이 때 클러스터 구분의 기준을 유사도 값 100으로 설정하였는데, 그 이유는 해당 값 정도의 구간이 TLSH 알고리즘을 통한 분석 시에 정확도는 크게 감소하지 않으면서 오탐율을 감소시킬 수 있기 때문이다.
본 연구에서는 두 가지 클러스터링 알고리즘 모두를 사용하여 분석을 수행하였다.
본 연구에서는 이러한 악성코드 자동화 분석 기법 중 하나로 API의 콜 시퀀스를 동적 분석 기법을 이용하여 추출한 후 LSH를 이용하여 다른 악성코드와의 유사도를 계산하고, 유사 악성코드를 클러스터링 해 내는 기법을 제안한다. 본 기법은 가상 분석 환경을 이용한 동적 분석을 수행하여 API 콜 시퀀스를 추출하고, LSH 기법을 이용하여 유사도를 계산한 후 최종적으로 유사한 유형의 악성코드를 클러스터링 해 내는 기법이다.
이 때 악성코드의 분류를 위해 소셜 네트워크의 특성, degree 분포, degree 중심성, 네트워크 밀도 등의 여러 가지 특성들을 이용하였다. 실험 결과는 영향력 기반 그래프를 이용하여 표현하였고 나이브 베이지안, 의사 결정 트리, kNN 등의 여러 분류기를 이용하여 성능 평가를 수행하였다. 결과적으로 악성코드 분류에는 degree 중심성이 효과적인 특성임을 보였다.
악성코드 자동 분석 기법을 개발하기 위해서는 우선 악성코드를 분석하기 위해 정적/동적 분석을 수행할 엔진이나 프레임워크가 필요하다. 여기서 수집한 정보를 이용하여 시그니처 기반 분석, 데이터 마이닝, 머신 러닝, 통계적 분석 등 여러 가지 방식을 적용하여 악성코드 자동 분석을 수행하게 된다.
우선 cuckoo sandbox를 이용하여 정상 파일과 악성코드의 동적 분석을 수행하고, API 콜 시퀀스를 추출한다. 그 이후 API의 명칭을 기반으로 API의 특성을 나타내는 문자열로 API를 추상화 시켜 주는 전처리 과정을 수행한다.
해당 시스템은 난독화 및 패킹 등의 탐지 우회 기술이 적용되어 있는 악성코드를 탐지하기 위하여 시스템 콜 그래프를 생성하고 소셜 네트워크 분석을 이용하여 악성코드 탐지를 수행하는 구조를 가지고 지고 있다. 이 때 악성코드의 분류를 위해 소셜 네트워크의 특성, degree 분포, degree 중심성, 네트워크 밀도 등의 여러 가지 특성들을 이용하였다. 실험 결과는 영향력 기반 그래프를 이용하여 표현하였고 나이브 베이지안, 의사 결정 트리, kNN 등의 여러 분류기를 이용하여 성능 평가를 수행하였다.
이 때 추출한 상태 그대로의 API 콜 시퀀스는 상이한 함수 명을 가진 API가 동일한 행위를 하는 경우, 유사도 비교에 영향을 줄 수 있는 문제가 발생할 수 있다. 이 문제를 해결하기 위해 함수의 특성에 따라 특정 기호로 추상화하는 전처리 과정을 수행한다.
해당 연구는 정적 분석기와 코드 검사기의 2단계 구조로 구성되어 있는 특징이 있다. 정적 분석기에서는 PE 파싱을 통해 획득한 정적 API 콜 시퀀스와 정적 API 콜 셋에 시퀀스 정렬 기법을 적용하여 콜 시퀀스의 순서를 맞추고 코사인 유사도와 확장 자카드 상관계수, 피어슨 상관계수를 이용하여 유사도를 측정한다. 코드 검사기에서는 디스어셈블된 어셈블리 콜을 이용하여 3단계에 걸쳐 악성코드의 명령어와 유사한지 확인하는 과정을 걸쳐 악성 행위를 식별한다.
첫째로 기존 API 콜 시퀀스 분석에서는 같은 기능을 수행하는 다른 명칭의 함수에 대한 구분이 어려운 문제점이 존재하였는데, 이를 해결하기 위해 API 추상화 방식을 적용하였다. 같은 기능을 수행하는 API를 같은 의미로 처리하지 않을 경우에는 유사도 측정에 영향을 끼칠 수 있다.
그 후 생물학에서 DNA 시퀀스 정렬을 위해 사용하는 MSA 알고리즘을 사용하여 여러 가지 종류의 악성코드 내에서 일반적인 악성 기능에 대한 API 콜 시퀀스 패턴을 추출하였다. 최종적으로 추출한 API 콜 시퀀스에 LCS 계산 방식을 적용하여 악성코드의 API 콜 시퀀스 시그니처를 생성하였다. 새로운 프로그램이 입력되면 API 콜 시퀀스를 구하고 API 콜 시퀀스 시그니처 데이터베이스와 비교하여 최종 탐지 결과를 출력한다.
추출한 API 콜 시퀀스의 각 API의 특성에 따라1바이트의 알파벳으로 추상화하는 과정을 수행하였다. cuckoo sandbox에서 자체적으로 정의한 기준에 따라 323개 함수를 17가지 카테고리로 Table 2.
Sami 외 5인은 API 콜 마이닝 기반의 악성코드 탐지 기법을 개선하고, 악성코드 연구 촉진을 위한 최초의 공공 데이터 집합을 만든 연구를 제안하였다[3]. 해당 기법은 PE 파일의 IAT(Import Address Table)에서 API 콜 목록을 수집하고, 3가지 종류의 데이터를 생성한 후 랜덤 포레스트, 나이브 베이지안, 의사 결정 트리 분류기를 이용하여 분류를 수행하였다.
기영준 외 2인은 MSA(Multiple Sequence Alignment) 알고리즘과 LCS(Longest Common Subsequence) 계산 방식을 이용한 악성코드 탐지 시스템을 제안하였다[10]. 해당 시스템에서는 동적 분석을 이용하여 API 콜 시퀀스를 수집하고, 콜 시퀀스를 알파벳 문자열로 매칭시켜 추상화를 수행하였다. 그 후 생물학에서 DNA 시퀀스 정렬을 위해 사용하는 MSA 알고리즘을 사용하여 여러 가지 종류의 악성코드 내에서 일반적인 악성 기능에 대한 API 콜 시퀀스 패턴을 추출하였다.
Alazab 외 3인은 제로데이 악성코드 탐지를 위한 분류 기법에 관한 연구를 제안하였다[8]. 해당 연구에서는 IDA Pro 도구의 IDA2SQLite와 디스어셈블러 도구를 이용하여 API 시퀀스를 획득하고, 나이브 베이지안, kNN(k-Nearest Neighbors), 순차적 최소 최적화 알고리즘, 역전파 신경망, 의사 결정 트리 등의 여러 가지 분류기를 이용하여 악성코드를 분류하였다.
Erbiai Elhadi 외 2인은 그래프 매칭 알고리즘을 이용하여 API 콜 그래프 기반의 악성코드 탐지 시스템을 제안하였다[9]. 해당 연구에서는 기존의 그래프 매칭 알고리즘을 사용하여 API 콜 그래프를 매칭시키는 것은 NP-complete 문제로 많은 시간이 소요되고, 이를 개선하기 위해 입력 샘플을 단순한 데이터 의존성 그래프로 변환하고, 그래프 매칭 알고리즘을 적용하여 연산 복잡도를 낮추어 빠른 연산을 수행할 수 있도록 하였다. 탐지율, 오탐율, 정확도, ROC 등 네 가지 측정치를 이용하여 성능을 평가하였고, 높은 탐지율과 낮은 오탐율을 보였다.
박재우 외 6인은 API 호출 빈도를 이용한 악성코드 분류에 관한 연구를 제안하였다[5]. 해당 연구에서는 기존의 악성코드 샘플에서 호출 빈도수 API 리스트를 추출하여 데이터베이스로 생성한 후 분류 할 프로그램에서 추출한 API 리스트와 비교하여 유사도를 측정한다. API 리스트 추출에는 동적 커널 후킹이 적용된 Strace NT 도구를 사용하였다[6].
Hofmeyr 외 2인이 API 콜 시퀀스를 이용한 악성코드 분석에 관한 연구를 최초로 제안하였다[2]. 해당 연구에서는 정상 동작을 프로그램에 의해 실행되는 시스템 콜의 짧은 시퀀스로 정의하고, 정상 동작과 비정상 동작의 편차를 검출하기 위해 세 개의 지표를 사용하였다.
한경수 외 3인은 문자열 및 API를 이용한 악성코드 자동 분류 시스템은 같은 집합에 속한 악성코드는 포함된 문자열과 호출되는 API의 빈도가 유사할 것이라는 가정에서 출발하여 정적 분석과 동적 분석 모두를 사용한 악성코드 분류 방식에 관한 연구를 제안하였다[4]. 해당 연구에서는 정적 분석 단계에서는 악성코드 실행 파일에 포함된 문자열을 이용하여 악성코드와의 유사도를 비교하고, 동적 분석 단계에서는 악성코드의 API 호출 빈도를 이용하여 유사도를 비교한다. 최종적으로 문자열의 유사도와 API 유사도 결과 모두를 이용하여 가장 높은 유사도를 가지는 집합으로 분류를 수행한다.

대상 데이터

본 연구의 검증을 위해 1,015개의 정상 및 악성 파일을 이용하여 실험을 수행하였다. 본 실험에서는 k-medoids 클러스터링 알고리즘을 이용한 클러스터링이 더 높은 정확도를 보였다.
실험에 사용한 데이터 셋은 windows 7 32bit 초기 설치 환경에서 수집한 정상 파일과 malwares.com에서 2016년 8월 1일부터 8월 31일까지 수집한 악성코드 중 일부를 사용하였다[20].

이론/모형

해당 연구에서는 기존의 악성코드 샘플에서 호출 빈도수 API 리스트를 추출하여 데이터베이스로 생성한 후 분류 할 프로그램에서 추출한 API 리스트와 비교하여 유사도를 측정한다. API 리스트 추출에는 동적 커널 후킹이 적용된 Strace NT 도구를 사용하였다[6].
API 콜 시퀀스를 추출하기 위해 샌드박스 기반의 동적 분석 도구인 cuckoo sandbox를 이용한다. cuckoo sandbox는 2010년 google summer of code project의 the honeynet project에서 시작된 프로젝트로 악성코드의 동적 분석을 위한 샌드박스를 구축하고 분석 결과를 사용자에게 GUI 및 파일로 제공하는 도구이다[19].
Table 1.에서 보듯이, ssdeep, nilsimsa 등의 기존 LSH 알고리즘과 비교 해 보았을 때 낮은 오탐율(false positive)과 높은 탐지율을 보이는 등 우수한 성능을 가지고 있는 LSH 알고리즘이기 때문에 본 논문의 클러스터링 기법에서 사용하였다.
API 콜 시퀀스 획득을 위해 샌드박스 기반의 동적 분석 도구인 cuckoo sandbox를 사용하였고, 해당 도구를 통해 악성코드를 실행시켜 API 콜 시퀀스를 획득할 수 있었다. 다음으로 API 콜 시퀀스 분석의 문제점인 API명에 따라 유사도 계산에 문제가 발생한다는 점을 극복하기 위해 API 추상화 기법을 적용하였다. 또 다른 문제점인 길이가 다른 데이터에 대한 유사도 분석 문제도 길이에 의존적이지 않은 TLSH를 사용하여 극복하였다.
TLSH를 이용하여 악성코드의 유사도 해시를 획득하고, 모든 악성코드별로 각 악성코드에 대한 유사도를 구하여 distance matrix로 생성하였다. 이 matrix 값을 이용하여 k 값을 증가시키며 계층적 클러스터링과 k-medoids 클러스터링 기법을 적용하였다.
ssdeep 등의 기존의 일부 LSH 알고리즘은 상이한 길이를 가진 데이터의 유사도를 측정할 때 데이터 길이의 영향을 받아 유사도가 비정상적으로 측정되는 경우가 존재한다. 이 문제를 해결하기 위해 유사도 측정 시 데이터의 길이 차에 영향을 받지 않는 TLSH 알고리즘을 사용하여 문제를 해결하였다.
해당 연구에서는 이 문제를 해결하기 위해 TLSH 알고리즘을 사용하였다.

성능/효과

Table 5.에 나타난 계층적 클러스터링과 k-medoids 클러스터링을 적용했을 때의 클러스터링 정확도 실험 결과를 살펴보면, Worm을 제외한 모든 카테고리에서 k-medoids 클러스터링이 더 높은 성능을 보임을 확인할 수 있다.
Table 7.의 LSH 알고리즘에 따른 클러스터링 정확도 비교 실험 결과를 살펴보면 ssdeep 알고리즘을 적용한 경우 클러스터링 정확도가 50%를 넘는 경우가 없는 것을 확인할 수 있고, simhash 알고리즘 또한 TLSH에 비해 낮은 정확도를 보이는 것을 알 수 있다. 이 결과를 통해 TLSH 알고리즘이 ssdeep이나 simhash 알고리즘에 비해 클러스터링 정확도 향상에 영향을 끼침을 확인할 수 있다.
특히 Downloader, Trojan-Ransom, Virus 카테고리의 악성코드는 80% 이상의 클러스터링 정확도를 보였다. Virus 유형의 악성코드는 두 클러스터링 알고리즘 모두 높은 성능을 보였다.
본 실험에서는 k-medoids 클러스터링 알고리즘을 이용한 클러스터링이 더 높은 정확도를 보였다. k-medoids 클러스터링 알고리즘은 72.11%의 정확도로 정상 파일을 클러스터링 하였고, 악성코드들을 전체적으로 66.67% 이상의 정확도로 클러스터링 하였다. 특히 Downloader, Trojan-Ransom, Virus 카테고리의 악성코드는 80% 이상의 클러스터링 정확도를 보였다.
실험 결과는 영향력 기반 그래프를 이용하여 표현하였고 나이브 베이지안, 의사 결정 트리, kNN 등의 여러 분류기를 이용하여 성능 평가를 수행하였다. 결과적으로 악성코드 분류에는 degree 중심성이 효과적인 특성임을 보였다.
둘째로 데이터의 길이에 영향을 받지 않는 LSH 알고리즘을 사용하여 유사도 비교를 수행하는 데 발생할 수 있는 노이즈를 줄일 수 있도록 하였다. ssdeep 등의 기존의 일부 LSH 알고리즘은 상이한 길이를 가진 데이터의 유사도를 측정할 때 데이터 길이의 영향을 받아 유사도가 비정상적으로 측정되는 경우가 존재한다.
심플한 알고리즘 구조를 가져 ssdeep 알고리즘과 거의 비슷한 해시 계산 속도를 가진다. 또한 상이한 길이의 데이터를 유사도를 측정할 때 길이 차만큼 유사도가 감소하는 ssdeep의 단점을 해결하였다.
11%의 정확도로 클러스터링을 수행 해 내었고, Downloader, Virus, Trojan-Ransom 카테고리의 악성코드들은 80% 이상의 정확도로 클러스터링 하였다. 반면 계층적 클러스터링에서는 정상 파일의 클러스터링 정확도가 k-medoids 클러스터링에 비해 10% 정도 낮은 성능을 보이며, 악성코드들 또한 Virus를 제외하면 70% 이상의 정확도로 클러스터링 해 낸 카테고리가 존재하지 않았다. 이를 통해 k-medoids 클러스터링이 악성코드를 클러스터링 하는 데 더 효과적인 것으로 판단할 수 있다.
본 연구의 검증을 위해 1,015개의 정상 및 악성 파일을 이용하여 실험을 수행하였다. 본 실험에서는 k-medoids 클러스터링 알고리즘을 이용한 클러스터링이 더 높은 정확도를 보였다. k-medoids 클러스터링 알고리즘은 72.
본 연구는 기존 API 콜 시퀀스 기반의 분석에서 API명에 대한 의존성과 데이터 길이 문제들을 API 추상화를 통해 해결하고자 하였고 API 콜 시퀀스 데이터만을 가지고도 악성코드의 유형을 밝혀내는 분석이 충분히 가능함을 보였다는 점에서 의의가 있다.
의 LSH 알고리즘에 따른 클러스터링 정확도 비교 실험 결과를 살펴보면 ssdeep 알고리즘을 적용한 경우 클러스터링 정확도가 50%를 넘는 경우가 없는 것을 확인할 수 있고, simhash 알고리즘 또한 TLSH에 비해 낮은 정확도를 보이는 것을 알 수 있다. 이 결과를 통해 TLSH 알고리즘이 ssdeep이나 simhash 알고리즘에 비해 클러스터링 정확도 향상에 영향을 끼침을 확인할 수 있다.
정상 파일을 k-medoids 클러스터링을 이용하여 클러스터링을 수행하였을 때에는 약 72.11%의 정확도로 클러스터링을 수행 해 내었고, Downloader, Virus, Trojan-Ransom 카테고리의 악성코드들은 80% 이상의 정확도로 클러스터링 하였다.
해당 연구에서는 기존의 그래프 매칭 알고리즘을 사용하여 API 콜 그래프를 매칭시키는 것은 NP-complete 문제로 많은 시간이 소요되고, 이를 개선하기 위해 입력 샘플을 단순한 데이터 의존성 그래프로 변환하고, 그래프 매칭 알고리즘을 적용하여 연산 복잡도를 낮추어 빠른 연산을 수행할 수 있도록 하였다. 탐지율, 오탐율, 정확도, ROC 등 네 가지 측정치를 이용하여 성능을 평가하였고, 높은 탐지율과 낮은 오탐율을 보였다.
67% 이상의 정확도로 클러스터링 하였다. 특히 Downloader, Trojan-Ransom, Virus 카테고리의 악성코드는 80% 이상의 클러스터링 정확도를 보였다. Virus 유형의 악성코드는 두 클러스터링 알고리즘 모두 높은 성능을 보였다.
특히 Downloader, Trojan-Downloader 악성코드의 경우 20% 이상 정확도가 향상되었다. 해당 결과를 분석하였을 때, API 추상화 과정은 클러스터링 정확도 향상에 영향을 끼침을 확인할 수 있다.

후속연구

향후, 본 연구에서 클러스터링 정확도가 낮게 확인된 유형의 악성코드를 대상으로 연구를 지속적으로 진행하여 성능을 개선 할 계획이다. 또한 가상머신 탐지 등의 안티 디버깅 기법이 적용된 악성코드 분석을 위한 우회 기법을 적용하여 연구를 확장할 계획이다.
본 기법을 이용하여 악성코드 분석 시 악성코드의 유형을 파악하는 데 요긴하게 사용할 수 있으며, 최종적으로는 해당 유형 정보를 기반으로 악성코드 분석의 정확도를 향상시키는 데 기여할 수 있다.
향후, 본 연구에서 클러스터링 정확도가 낮게 확인된 유형의 악성코드를 대상으로 연구를 지속적으로 진행하여 성능을 개선 할 계획이다. 또한 가상머신 탐지 등의 안티 디버깅 기법이 적용된 악성코드 분석을 위한 우회 기법을 적용하여 연구를 확장할 계획이다.

핵심어	질문	논문에서 추출한 답변
	기존의 API 콜 시퀀스 분석기법은 어떤 문제점이 있나?	API(Application Program Interface) 콜 시퀀스 분석은 분석 대상 프로그램에서 API 콜 정보를 추출한 후 분석하는 기법으로 다른 기법들에 비해 대상의 행위를 특징할 수 있는 장점이 있다. 하지만 기존의 API 콜 시퀀스 분석기법은 동일한 기능을 수행하는 함수를 상이한 함수로 잘못 식별하여 분석을 수행하는 문제점이 존재한다. 본 연구에서는 API 각각을 추상화시키는 방식을 추가하여 기존의 식별 문제를 해결하고 분석 성능을 향상시키고자 한다.
	API(Application Program Interface) 콜 시퀀스 분석은 무엇인가?	API(Application Program Interface) 콜 시퀀스 분석은 분석 대상 프로그램에서 API 콜 정보를 추출한 후 분석하는 기법으로 다른 기법들에 비해 대상의 행위를 특징할 수 있는 장점이 있다. 하지만 기존의 API 콜 시퀀스 분석기법은 동일한 기능을 수행하는 함수를 상이한 함수로 잘못 식별하여 분석을 수행하는 문제점이 존재한다.
	LSH 기법에서 대표적인 알고리즘에는 무엇이 있나?	LSH 기법은 1bit의 내용만 달라져도 전체 해시 값이 확연히 달라지는 일반적인 해시와 달리 비슷한 데이터의 충돌(collision) 확률을 극대화하여 유사한 데이터들 끼리 유사한 해시 값을 가지도록 하여 유사도를 비교하는 해시 알고리즘이다. ssdeep, simhash, TLSH 등이 대표적인 알고리즘이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

API 콜 시퀀스와 Locality Sensitive Hashing을 이용한 악성코드 클러스터링 기법에 관한 연구
A Study on Malware Clustering Technique Using API Call Sequence and Locality Sensitive Hashing 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (20)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

API 콜 시퀀스와 Locality Sensitive Hashing을 이용한 악성코드 클러스터링 기법에 관한 연구 A Study on Malware Clustering Technique Using API Call Sequence and Locality Sensitive Hashing 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (20)

이 논문을 인용한 문헌

저자의 다른 논문 :

김휘강 (92)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

API 콜 시퀀스와 Locality Sensitive Hashing을 이용한 악성코드 클러스터링 기법에 관한 연구
A Study on Malware Clustering Technique Using API Call Sequence and Locality Sensitive Hashing 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper