[논문]통계적 기법을 이용한 악성 소프트웨어 분류

원성민; 김현주; 송종우

doi:10.5351/kjas.2017.30.6.851

초록
AI-Helper

최근 워너크라이라는 이름의 랜섬웨어가 전 세계적으로 큰 화두에 오르면서, 악성 소프트웨어로 인한 피해를 줄이기 위한 방법들이 재조명 되고 있다. 새로운 악성 소프트웨어가 발생했을 때 피해를 최소화하기 위해서는 해당 소프트웨어가 어떤 공격 유형을 가진 악성 소프트웨어인지 빠르게 분류할 필요가 있다. 본 연구 목적은 다양한 통계적 기법을 이용하여 악성 소프트웨어를 효과적으로 분류할 수 있는 모형을 구축하는 데 있다. 모형 적합 시 다항 로지스틱, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 기계 등의 기법들을 이용하였으며, 본 연구를 통해 악성 소프트웨어를 분류하는 데에 있어 중요한 역할을 하는 변수들이 존재한다는 사실을 발견하였다.

Abstract ▼ AI-Helper

Ransomware such as WannaCry is a global issue and methods to defend against malware attacks are important. We have to be able to classify the malware types efficiently in order to minimize the damage from malwares. This study makes models to classify malware properly with various statistical techniq...

Ransomware such as WannaCry is a global issue and methods to defend against malware attacks are important. We have to be able to classify the malware types efficiently in order to minimize the damage from malwares. This study makes models to classify malware properly with various statistical techniques. Several classification techniques such as logistic regression, random forest, gradient boosting, and support vector machine are used to construct models. This study also helps us understand key variables to classify the type of malicious software.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다양한 데이터마이닝 기법을 이용하여 컴퓨터를 대상으로 하는 악성 소프트웨어들의 유형을 파악하고자 한다. 기존에는 은닉 신경망을 이용하거나 (Dahl 등, 2013), 서포트 벡터 기계(Chen과 Aritsugi, 2006) 또는 로지스틱을 이용한 모형들을 (Konrad, 2008) 통해 악성 소프트웨어 분류에 대한 통계적 모형의 가능성들을 보여왔다.
지금까지 악성 소프트웨어를 분류하기 위한 통계적 기법들을 제안하였다. 본 연구의 의의는 컴퓨터 언어로 나열되어 있는 줄글 형식의 소스 코드로부터 중요한 정보를 파악하고 주어진 자료를 통계적 분류모형에 적합한 형태로 가공하는 데에 있다. 즉 상당히 비정형화 되어 있던 자료로부터 변수를 추출하고 유효한 변수를 선별하는 과정이 가장 핵심이 되는 부분이다.

제안 방법

4절에서 각 클래스별로 자료의 수가 상이한 것을 볼 수 있었다. 따라서 데이터를 모형에 적합할 때 모집단의 비율을 유지하기 위해 층화추출을 이용하여 8대 2의 비율로 training set과 test set을 나누었다.
마지막으로 최종 모형을 결정한 후 실용성을 파악하기 위해 소요되는 함수의 계산 시간을 측정해보았다. 최종 함수는 bytes, asm 두 파일을 입력했을 때 어떤 그룹의 악성 소프트웨어인지 도출되도록 짜였으며 실험 환경은 아래 Table 4.
본 연구에서는 악성 소프트웨어 내의 집단들을 구분하는 모형을 제안하였다. 향후 연구 과제로 정상 소프트웨어와 악성 소프트웨어를 구분하는 2단계 분류 모형까지 고려하고 있다.
악성 소프트웨어 유사도 연구 (Runwal 등, 2012)에서는 실행 파일이 주어졌을 때 opcode의 빈도수를 계산하여 정상 소프트웨어와 악성 소프트웨어를 구별하는 은닉 마코프 모형을 제시했다. 즉 opcode의 빈도수는 소프트웨어의 특징을 반영하는데 이용될 수 있으므로 이를 변수로 만들어 악성 소프트웨어 분류에 이용하고자 한다.
지금까지 악성 소프트웨어를 분류하기 위한 통계적 기법들을 제안하였다. 본 연구의 의의는 컴퓨터 언어로 나열되어 있는 줄글 형식의 소스 코드로부터 중요한 정보를 파악하고 주어진 자료를 통계적 분류모형에 적합한 형태로 가공하는 데에 있다.

대상 데이터

본 논문은 컴파일 된 악성 소프트웨어 여덟 종류의 파일 10,761개를 대상으로 한다. 이 파일은 악성 소프트웨어에 대한 파악 시간을 줄여서 백신을 비롯한 방어 기제를 좀 더 빠르게 구축하기 위해, 2015년도에 마이크로소프트사에서 캐글(www.
본 논문은 컴파일 된 악성 소프트웨어 여덟 종류의 파일 10,761개를 대상으로 한다. 이 파일은 악성 소프트웨어에 대한 파악 시간을 줄여서 백신을 비롯한 방어 기제를 좀 더 빠르게 구축하기 위해, 2015년도에 마이크로소프트사에서 캐글(www.kaggle.com)에 제공했던 데이터이다. 처음에는 총 10,868개의 아홉 가지 종류의 소프트웨어 파일을 수집했으며, 이 중에서 전체가 결측치로 이루어지거나 관측치가 적어 모형을 구축하기 어려운 한 유형의 반응 변수를 제거한 뒤에 10,761개의 여덟 가지 악성 소프트웨어 파일을 대상으로 연구를 진행하였다.
com)에 제공했던 데이터이다. 처음에는 총 10,868개의 아홉 가지 종류의 소프트웨어 파일을 수집했으며, 이 중에서 전체가 결측치로 이루어지거나 관측치가 적어 모형을 구축하기 어려운 한 유형의 반응 변수를 제거한 뒤에 10,761개의 여덟 가지 악성 소프트웨어 파일을 대상으로 연구를 진행하였다. 결측치 제거와 반응 변수 선별 등에 대한 자료의 가공 과정은 2.

데이터처리

또한 관측을 통해 섹션별로 지시어의 등장 횟수가 다를 수 있다는 점을 알아차렸다. 따라서 분산 분석을 이용하여 각 섹션 이름별 등장 횟수의 차이를 검정하였으며 특정 섹션(.text, .rdata, .data)에서 유의했기 때문에 해당 섹션별 세 지시어의 출현 빈도수 또한 변수로 선정하였다.
분석에 사용된 기법들은 랜덤 포레스트 (Breiman, 2001), 그래디언트 부스팅 (Friedman, 2002; Ridgeway, 2007), 서포트 벡터 기계 (Cortes와 Vapnik, 1995), 의사결정나무(Brieman 등, 1984)이며 예측력을 판단하기 위하여 오차 행렬(confusion matrix)을 이용하여 최종 모형을 비교하였다. 또한 각 모형에서 사용되는 적절한 모수를 정하기 위해서는 교차 타당화 오류(cross validation error) 값을 이용하여 가장 적은 오차를 발생시키는 모수를 지정하였다.
또한 bytes 파일을 확인해보았을 때 실행 명령어들을 16진수로 불러오는 과정에서 오류가 발생할 때 등장하는‘??’가 존재했기 때문에 이를 포함하면 총 257가지 1-gram 값들이 가능하다. 이 257개의 값들이 각 파일 내에서 차지하는 비율을 계산한 뒤에, 그 중에서 1차로 유의한 변수를 선택하기 위해 분산 분석(ANOVA)을 실시하였다 (H₀ : µ₁ = ··· = µ₄ = µ₆ = ··· = µ₉). 그 결과 총 164개의 단어가 유의수준 0.

이론/모형

그래디언트 부스팅 모형의 경우 분산이 가장 작았지만 랜덤 포레스트 모형에 비해 잘못 분류하는 비율이 높다. 따라서 가장 낮은 오분류율을 가지고 분산 또한 크기 않은 랜덤 포레스트 모형을 최종 모형으로 선정하였다.
4)을 통해 이루어졌으며 모형 구축을 위해서는 R 패키지를 이용하였다. 분석에 사용된 기법들은 랜덤 포레스트 (Breiman, 2001), 그래디언트 부스팅 (Friedman, 2002; Ridgeway, 2007), 서포트 벡터 기계 (Cortes와 Vapnik, 1995), 의사결정나무(Brieman 등, 1984)이며 예측력을 판단하기 위하여 오차 행렬(confusion matrix)을 이용하여 최종 모형을 비교하였다. 또한 각 모형에서 사용되는 적절한 모수를 정하기 위해서는 교차 타당화 오류(cross validation error) 값을 이용하여 가장 적은 오차를 발생시키는 모수를 지정하였다.
즉 상당히 비정형화 되어 있던 자료로부터 변수를 추출하고 유효한 변수를 선별하는 과정이 가장 핵심이 되는 부분이다. 우선 데이터 전처리 과정에서는 선행 연구를 바탕으로 bytes 파일의 정보를 반영하기 위해 N-gram 기법을 이용한 16진수 언어 중 일부의 등장비율과 엔트로피 값을 계산하여 변수로 이용했다. 또한 asm 파일에서 등장한 명령어들을 분산 분석에서 유의한 변수들의 집합을 선정하였다.

성능/효과

다시 말해서 본 자료는 비선형성이 매우 강해 나무 모형을 기반으로 하는 모형에 적합한 자료라는 사실을 생각해볼 수 있을 것이다. 따라서 다항 로지스틱 회귀 모형이나 서포트 벡터 기계보다는 랜덤 포레스트나 그래디언트 부스팅 모형에서 낮은 오분류율을 보였으며, 특히 랜덤 포레스트 모형에서 굉장히 높은 정확도를 보여주었다. 주요 변수는 HEADER:(섹션 이름)의 개수, .
그 결과 24,254개의 서로 다른 opcode가 추출되었으며 일차적으로 분산 분석을 통해 악성 소프트웨어 그룹에 따라 각 opcode가 유의한지 확인해 보았다 (H₀ : µ₁ = ··· = µ₄ = µ₆ = ··· = µ₉). 분석 결과 총 24,254개의 opcode 중에서 5,241개의 opcode가 유의 수준 0.05를 기준으로 유의하게 나타났으며 이 중에서 유의 확률(p-value)이 0에 수렴하는 상위 198개의 변수를 간추렸다.
앞서 주어진 데이터는 랜덤 포레스트 모형과 그래디언트 부스팅 모형 순으로 적절하다는 것을 확인하였다. 다시 말해서 본 자료는 비선형성이 매우 강해 나무 모형을 기반으로 하는 모형에 적합한 자료라는 사실을 생각해볼 수 있을 것이다.
그리고 출현 빈도가 높은 변수의 집합 또한 선정한 뒤, 두 집합의 교집합이 되는 변수들을 최종적으로 모형에 사용하기로 결정하였다. 우리는 실험을 통해 초반에 추출했던 모든 변수를 이용했을 때보다 유효한 변수를 추려 모형에 적합시켰을 때 정확도가 상승하는 것을 확인할 수 있었는데, 이는 변수가 아주 많은 경우에 실제로 영향력 있는 변수들을 선택하여 모델링하는 것이 모든 변수들을 이용하는 것보다 좋은 결과를 가질 수 있다는 것을 의미할 것이다. 그러므로 원자료에서 나온 수많은 변수들 중 주요 변수를 뽑는 과정은 자료 분석 및 모형 적합 과정에서 아주 중요하다고 할 수 있다.
rsrc:의 개수, db(데이터 정의 지시어)의 개수, 엔트로피 값, bytes 파일에서 00이 차지하는 비율 등이 꼽힌 것을 볼 수 있다. 특히 HEADER:나 .rsrc:의 경우에는 정확도 개선이나 노드 불순도를 줄이는 두 과정에서 큰 역할을 하는 것을 볼 수 있는데, 이는 섹션 이름이나 특정 명령어의 빈도수가 악성 소프트웨어의 유형을 구분하는 데 유효하다는 것을 의미한다.
이전 절의 다항 로지스틱 분석에 비해 정확도가 상당히 오른 것을 볼 수 있다. 확인을 위해 의사 결정 나무 모형(decision tree)을 적용했을 때 다항 로지스틱 모형에 비해 정확한 분류를 할 수 있었으며 랜덤 포레스트 모형보다는 분류율이 떨어지는 것을 볼 수 있었다. 이를 통해 자료의 비선형성이 상당히 크다는 점을 볼 수 있으며 해당 데이터는 나무 모형을 기반으로 하기에 적합한 데이터임을 추론해볼 수 있다.

후속연구

향후 연구 과제로 정상 소프트웨어와 악성 소프트웨어를 구분하는 2단계 분류 모형까지 고려하고 있다. 1차적으로 실제 소프트웨어가 정상 소프트웨어인지 구분하고 2차로 어떤 악성 소프트웨어 유형인지 분류할 수 있다면 활용도가 훨씬 높아질 것으로 예상된다.
앞서 주어진 데이터는 랜덤 포레스트 모형과 그래디언트 부스팅 모형 순으로 적절하다는 것을 확인하였다. 다시 말해서 본 자료는 비선형성이 매우 강해 나무 모형을 기반으로 하는 모형에 적합한 자료라는 사실을 생각해볼 수 있을 것이다. 따라서 다항 로지스틱 회귀 모형이나 서포트 벡터 기계보다는 랜덤 포레스트나 그래디언트 부스팅 모형에서 낮은 오분류율을 보였으며, 특히 랜덤 포레스트 모형에서 굉장히 높은 정확도를 보여주었다.
또한 두 파일 모두에 실행이 시작되는 주소가 모두 기재되어 있으며 asm 파일에는 어떤 지시 함수를 통하여 어떤 행위를 시행하는지 OPCODE를 통해 살펴볼 수 있다. 즉 두 파일로부터 악성 소프트웨어가 반복적으로 시행하거나 다른 코드와는 다르게 행동하는 코드를 포착할 수 있다면 이들을 구분하는 것이 가능할 것이다. 상기된 두 파일을 통해 모형에 유효한 변수를 선정하는 방법은 2.
본 연구에서는 악성 소프트웨어 내의 집단들을 구분하는 모형을 제안하였다. 향후 연구 과제로 정상 소프트웨어와 악성 소프트웨어를 구분하는 2단계 분류 모형까지 고려하고 있다. 1차적으로 실제 소프트웨어가 정상 소프트웨어인지 구분하고 2차로 어떤 악성 소프트웨어 유형인지 분류할 수 있다면 활용도가 훨씬 높아질 것으로 예상된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	랜섬웨어를 우리 사회에서 조심해야 하는 이유는 무엇인가?	다시 말해 정보가 곧 돈으로 직결되는 경우가 많기 때문에, 현대 사회는 결국 이를 보호하려는 무리와 공격하려는 무리로 양극화 되어가고 있다. 문제는 우리 사회의 많은 시스템이 컴퓨터 및 다른 기기에 의존하는 경향이 있어 이 장비들이 손상을 입을 경우 피해가 너무 막심하다는 점이다.
	랜섬웨어는 무엇인가?	최근 워너크라이라는 이름의 랜섬웨어가 전 세계적으로 큰 이슈가 되었다. 랜섬웨어는 사용자의 컴퓨터 시스템에 대한 접근을 제한한 뒤에 금전적인 요구를 하는 악성 소프트웨어의 일종이다. 개인 뿐 아니라 기업 또한 피해 대상에 포함되었기 때문에 이로 인한 피해 금액이 상당한 것으로 알려져 있다.
	2016년 랜섬웨어의 피해금액과 공격 건수는 어떠한가?	kr/news/articleView.html?idxno=111694) 2016년 전 세계 랜섬웨어 피해 금액은 1조 200억 원이며, 랜섬웨어 공격 건수는 2015년 380만 건에서 2016년 6억 3,800만 건으로 167배 증가했다. 또한 국내 랜섬웨어 피해자는 2016년 13만 명에 이르며 총 3,255건, 3,000억 원의 피해가 발생했다.

참고문헌 (15)

Brieman, L. (2001). Random forests, Machine Learning, 45, 5-32.
Brieman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Classification and Regression Trees, Chapman and Hall, New York.
Chen, L. and Aritsugi, M. (2006). An SVM-Based Masquerade Dection Method with Online Update Using Co-occurrence Matrix, DIMVA 2006, LNCS 4064, 37-53.
Choi, J., Kim, H., Kim, K., Park, H., and Song, J. (2014). A study on extraction of optimized API sequence length and combination for efficient malware classification, Journal of The Korea Institute of Information Security & Cryptology, 24, 897-909.

원문보기 상세보기
Cortes, C. and Vapnik, V. (1995). Support-vector networks, Machine Learning, 20, 273-297.

상세보기
Dahl, G. E., Stokes, J, W., Deng, L., and Yu, D. (2013). LARGE-SCALE MALWARE CLASSIFICATION USING RANDOM PROJECTIONS AND NEURAL NET WORKS, Acoustics, Speech and Processing (ICASSP), IEEE.
Friedman, J. (2002). Stochastic gradient boosting, Computational Statistics & Data Analysis, 38, 367-378.

상세보기
Han, S., Lee, K., and Lee, S. (2009). Packed PE file detection for Malware forensics, 2nd International Conference on Computer Science and its Applications, CSA.
Kim, M., Lee, J., Chang, H., Cho, S., and Park, Y. (2010). Design and performance evaluation of binary code packing for protecting embedded software against reverse engineering, In 13th IEEE International Symposium, (ISORC), 80-86.
Konrad, R. (2011). Automatic analysis of malware behavior using machine learning, Journal of Computer Security, 19, 639-668.

상세보기
Kwon, H., Kim, S., and Im, E. (2012). An Malware classification system using multi N-gram, Journal of Security Engineering, 9, 531-542.
Lyda, R. and Hamrock, J. (2007). Using entropy analysis to find encrypted and packed malware, IEEE Security & Privacy, 5.

상세보기
Ridgeway, G. (2007). Generalized Boosted Models: A guide to the gbm package, https://cran.r-project.org/web/packages/gbm/
Runwal, N., Low, R. M., and Stamp, M. (2012). Opcode graph similarity and metamorphic detection, Journal in Computer Virology, 8, 37-52.

상세보기
Santos, I., Penya, Y. K., Devesa, J., and Bringas, P. G. (2009). N-grams-based file signatures for malware detection, 11th International Conference on Enterprise Information Systems (ICEIS), AIDSS, 317-320.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

통계적 기법을 이용한 악성 소프트웨어 분류
Malware classification using statistical techniques 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

통계적 기법을 이용한 악성 소프트웨어 분류 Malware classification using statistical techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

송종우 (23)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

통계적 기법을 이용한 악성 소프트웨어 분류
Malware classification using statistical techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper