[논문]Light-weight Classification Model for Android Malware through the Dimensional Reduction of API Call Sequence using PCA

Jeon, Dong-Ha; Lee, Soo-Jin

doi:10.9708/jksci.2022.27.11.123

[국내논문] Light-weight Classification Model for Android Malware through the Dimensional Reduction of API Call Sequence using PCA 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.27 no.11, 2022년, pp.123 - 130

Jeon, Dong-Ha (Dept. of Defense Science, Korea National Defense University) , Lee, Soo-Jin (Dept. of Defense Science, Korea National Defense University)

초록
AI-Helper

최근 API Call 정보를 기반으로 안드로이드 악성코드를 탐지 및 분류하는 연구가 활발하게 진행되고 있다. 그러나 API Call 기반의 악성코드 분류는 방대한 데이터 양과 높은 차원 특성으로 인해 악성코드 분석과 학습 모델 구축 과정에서 과도한 시간과 자원이 소모된다는 심각한 제한사항을 가진다. 이에 본 연구에서는 방대한 API Call 정보를 포함하고 있는 CICAndMal2020 데이터세트를 대상으로 PCA(Principal Component Analysis, 주성분분석)를 사용하여 차원을 대폭 축소시킨 후 LightGBM, Random Forest, k-Nearest Neighbors 등의 다양한 분류 기법 모델을 적용하여 결과를 분석하였다. 그 결과 PCA가 원본 데이터의 특성을 유지하면서 데이터 특성의 차원은 획기적으로 감소시키고 우수한 악성코드 분류 성능을 달성함을 확인하였다. 이진분류 및 다중분류 모두 데이터 특성을 전체 크기의 1% 수준 이하로 줄이더라도 이전 연구 결과보다 높은 수준의 정확도를 나타내었다.

Abstract ▼ AI-Helper

Recently, studies on the detection and classification of Android malware based on API Call sequence have been actively carried out. However, API Call sequence based malware classification has serious limitations such as excessive time and resource consumption in terms of malware analysis and learning model construction due to the vast amount of data and high-dimensional characteristic of features. In this study, we analyzed various classification models such as LightGBM, Random Forest, and k-Nearest Neighbors after significantly reducing the dimension of features using PCA(Principal Component Analysis) for CICAndMal2020 dataset containing vast API Call information. The experimental result shows that PCA significantly reduces the dimension of features while maintaining the characteristics of the original data and achieves efficient malware classification performance. Both binary classification and multi-class classification achieve higher levels of accuracy than previous studies, even if the data characteristics were reduced to less than 1% of the total size.

주제어

표/그림 (9)

그림 Fig. 1. Overview of Proposed Approach
표 Table 1. Number of Malware in CICAndMal2020 Dataset
그림 Fig. 2. Data Dimension Reduction Process Using PCA
표 Table 2. Number of Benign Dataset
표 Table 3. Results of Binary Classification
표 Table 4. Results of Multi-class Classification
그림 Fig. 3. Confusion Matrix of Binary Classification
그림 Fig. 4. Confusion Matrix of Multi-class Classification
표 Table 5. Comparision with Previous Studies

AI 본문요약
AI-Helper

제안 방법

Benign과 Malware 학습 서브데이터에서 주성분을 10개부터 증가시키면서 추출하고 3가지의 분류모델에 학습시킨 후 성능 검증 데이터세트를 대상으로 성능 검증을 실시하였다. 실험 결과, 주성분이 100개 이하일 때 가장 높은 정확도의 분류 성능을 나타냈으며 이진분류 및 다중분류 결과는 Table 3 및 Table 4에서 확인할 수 있다.
Malware에 해당하는 CICAndMal2020 데이터세트와 Benign에 해당하는 Androzoo 데이터세트를 사용하여 악성코드 여부를 분류하는 이진분류와 악성코드 카테고리를 분류하는 다중분류로 구분하여 실험을 진행하였다. 앞서 언급한 실험 환경에서 효율적으로 해당 고차원 데이터세트를 학습하고 성능을 검증하기 위해 각 데이터세트에서 일부 데이터를 추출하여 서브데이터세트를 구성하였다.
1에서 보는 바와 같다. 먼저 API Call 정보를 포함하고 있는 CICAndMal2020 데이터세트와 정상파일인 Androzoo를 대상으로 PCA를 통하여 데이터세트 특성 차원의 크기를 대폭 축소하면서 주성분을 추출한다. 다음으로 추출된 주성분 특성을 기반으로 다양한 분류 기법을 적용하여 악성코드를 이진분류 및 다중분류를 실시한다.
본 연구에서는 PCA를 활용하여 원래 데이터의 특성 총 9, 503개에서 주성분(PC)의 숫자를 늘려나가며 분산도(새롭게 추출된 주성분이 기존 데이터의 전체 특성을 설명할 수 있는 정도)를 측정하였고, 새로운 주성분을 추출하여 다양한 악성코드 분류 기법 적용을 통해 탐지 성능을 확인하는 방식으로 연구를 진행하였다.
Malware에 해당하는 CICAndMal2020 데이터세트와 Benign에 해당하는 Androzoo 데이터세트를 사용하여 악성코드 여부를 분류하는 이진분류와 악성코드 카테고리를 분류하는 다중분류로 구분하여 실험을 진행하였다. 앞서 언급한 실험 환경에서 효율적으로 해당 고차원 데이터세트를 학습하고 성능을 검증하기 위해 각 데이터세트에서 일부 데이터를 추출하여 서브데이터세트를 구성하였다.
이러한 문제점을 해결하고 저사양의 컴퓨팅 환경에서도 API Call 정보를 기반으로 한 안드로이드 악성코드 탐지 및 분류가 가능하도록 경량화하기 위해 본 연구에서는 고차원 데이터를 효과적으로 분석해주는 PCA를 활용하였다. 데이터 시각화, 군집화, 압축 등에 광범위하게 활용되는 PCA는 고차원의 데이터세트를 특성 왜곡을 최소화하면서 축소하는 효과적인 기법으로 주어진 데이터세트의 무수히 많은 속성에서 전체 데이터의 분산을 가장 잘 설명해주는 주성분이라는 새로운 속성을 적절한 수만큼 뽑아낸다.
따라서 일반적인 컴퓨팅 환경에서는 분석이나 학습모델 구축이 심각하게 제한되어 과도한 시간과 자원 소모를 방지하고 효율적인 성능 도출을 보장하기 위해서는 악성코드 분류 이전에 차원 축소가 반드시 선행되어야 한다. 이러한 문제점을 해결하기 위해 본 논문에서는 기존에 널리 활용되던 특성 선택 기법이 아닌 PCA를 사용하여 차원을 대폭 축소시킨 후 LightGBM, Random Forest 및 KNN 등의 3가지 머신러닝 기법을 적용하여 분류를 시도하였다.
학습 및 성능 검증 서브데이터세트 각각에서 추출한 주성분은 성능 검증 과정에 이용하지 않고, 학습 서브 데이터세트에서 추출한 주성분만을 성능 검증 서브 데이터세트에 적용하여 실험을 진행하였다. 이는 주성분을 추출하는 데이터세트와 주성분을 적용하는 데이터세트를 달리함으로써 객관적인 주성분 추출 과정을 만들기 위함이다.

대상 데이터

먼저 이진분류를 수행하기 위해서 Benign에서 1개의 클래스당 1,400개씩 총 5개 클래스(총 7,000개)로 서브데이터를 추출하였다. Malware 또한 Benign 서브데이터의 수를 고려하여 각 클래스당 600개씩 총 12개 클래스에서 서브데이터를 추출하였다. 이 때, 기존 14개 클래스에서 No_Category 및 Zero_day 클래스는 제외하였고, 가장 적은 수의 악성코드를 가지고 있는 FileInfactor(669개) 클래스를 기준으로 추출할 서브데이터의 수를 판단하였다.
Table 1에서 보는 바와 같이 실험에 사용된 카테고리는 총 12개(179,988개)로 No_Category 클래스와 Zero_day 클래스에 해당하는 악성코드는 제외하였다.
먼저 이진분류를 수행하기 위해서 Benign에서 1개의 클래스당 1,400개씩 총 5개 클래스(총 7,000개)로 서브데이터를 추출하였다. Malware 또한 Benign 서브데이터의 수를 고려하여 각 클래스당 600개씩 총 12개 클래스에서 서브데이터를 추출하였다.
본 논문에서는 CICAndMal2020 데이터세트를 대상으로 안드로이드 악성코드 탐지 및 분류를 시도하였다.
정상파일(Benign)은 CICAndMal2020 악성코드(Malware) 데이터 수를 고려하여 Androzoo(http://androzoo.uni.lu) 데이터 162,901개를 사용하였다. Table 2에서 보는 바와 같이 정상파일은 총 5개의 하위 데이터세트로 분류되어 있지만, 각 데이터세트별로 구분되는 특성을 가지지 않으며 단지 데이터 수집 시기에서만 차이가 있다.
제안한 방안을 검증하기 위하여 CICAndMal2020 데이터세트의 특성 총 9,503개에 대해 PCA를 적용하여 새로운 주성분을 추출하였다. 추출된 주성분을 개수 별로 구분하여 3가지 분류모델에 학습시킨 후 악성코드 분류 성능을 측정한 결과, 데이터 특성 차원은 획기적으로 감소시키면서도 기존 연구들에 비해 높은 분류 성능을 달성하였다.

데이터처리

서브데이터 추출 과정은 10번 반복 수행하여 총 10회의 실험을 실시하고 평균값을 산출하여 결과를 분석하였다. 즉 10회 반복 실험을 진행하면서 사용된 서브데이터세트 는 모두 상이하며, 원본 데이터 전체는 아니지만 최대한 많은 수의 데이터가 실험에 사용될 수 있도록 노력하였다.
초도 실험에서는 XGBoost, LightGBM, KNN, SVM 및 Random Forest 총 5가지의 분류모델을 적용하여 실험을 진행하였으나, XGBoost는 LightGBM에 비해 탐지 성능이 많이 저하되었으며 SVM 또한 만족할만큼의 탐지 성능이 관찰되지 않았다. 이러한 이유로 본 실험은 LightGBM, Random Forest 및 KNN 3가지의 분류모델만 적용하여 진행하고 결과를 분석하였다.

성능/효과

4와 같다. 다중분류에서도 주성분 추출을 통해 9,503개의 특성 차원이 약 0.7% 수준으로 대폭 감소되었고, 정확도 측면에서도 약 87%로 Table 5에서 보는 바와 같이 CICAndMal2020 데이터세트를 대상으로 분류를 시도한 이전 연구들에 비해 매우 향상된 결과를 달성하였다.
다중분류의 경우 LightGBM과 Random Forest의 예측결과값이 상대적으로 높게 나왔으며, Random Forest를 적용하였을 때 PC 70개에서의 정확도가 86.8%로 가장 높게 나타났다. 해당 결과에 대한 다중분류 오차행렬은 Fig.
이상과 같은 실험 결과를 바탕으로 PCA가 기존의 다양한 특성 추출 및 선택 방식에 비해 원본 데이터의 특성을 유지하면서 데이터 특성 차원을 대폭 감소시킬 수 있음은 물론, 우수한 탐지 성능도 보장함을 알 수 있다. 또한, PCA를 사용하면 고성능 컴퓨팅 환경이 아닌 일반적인 환경에서도 고차원의 데이터를 대상으로 효율적인 탐지모델 구축이 가능하다는 점도 확인하였다.
3과 같다. 실험 결과를 통해 주성분 추출과정에서 기존 9,503개의 특성 중에서 약 1% 수준의 특성 개수만으로 이전 연구들과 비슷한 수준의 정확도를 나타냄을 확인하였다.
이상과 같은 실험 결과를 바탕으로 PCA가 기존의 다양한 특성 추출 및 선택 방식에 비해 원본 데이터의 특성을 유지하면서 데이터 특성 차원을 대폭 감소시킬 수 있음은 물론, 우수한 탐지 성능도 보장함을 알 수 있다. 또한, PCA를 사용하면 고성능 컴퓨팅 환경이 아닌 일반적인 환경에서도 고차원의 데이터를 대상으로 효율적인 탐지모델 구축이 가능하다는 점도 확인하였다.
초도 실험에서는 XGBoost, LightGBM, KNN, SVM 및 Random Forest 총 5가지의 분류모델을 적용하여 실험을 진행하였으나, XGBoost는 LightGBM에 비해 탐지 성능이 많이 저하되었으며 SVM 또한 만족할만큼의 탐지 성능이 관찰되지 않았다. 이러한 이유로 본 실험은 LightGBM, Random Forest 및 KNN 3가지의 분류모델만 적용하여 진행하고 결과를 분석하였다.
제안한 방안을 검증하기 위하여 CICAndMal2020 데이터세트의 특성 총 9,503개에 대해 PCA를 적용하여 새로운 주성분을 추출하였다. 추출된 주성분을 개수 별로 구분하여 3가지 분류모델에 학습시킨 후 악성코드 분류 성능을 측정한 결과, 데이터 특성 차원은 획기적으로 감소시키면서도 기존 연구들에 비해 높은 분류 성능을 달성하였다.

후속연구

향후에는 PCA를 기반으로 대용량 및 고차원 데이터세트의 차원은 줄이면서도 원본 데이터세트의 전체 특성을 사용한 경우보다 탐지 및 분류 성능을 향상시킬 수 있는 방안을 집중 연구할 예정이다. 또한 PCA를 통해 추출된 새로운 PC 특성의 정보를 분석하여 PC와 실제 악성코드 동작에 미치는 특성과의 관계를 보다 세부적으로 분석하고, 제안하는 방안을 API Call 정보를 포함하고 있는 다른 형태의 데이터세트에도 적용하여 탐지 성능을 비교하면서 연구범위를 확장시켜 나가고자 한다.
본 논문에서 제안하는 이러한 접근방법은 API Call을 통해 응용프로그램을 동작시키는 안드로이드 운영체제를 대상으로 하여 경량화된 악성코드 탐지 및 분류모델 구축 가능성을 확인하고, 분류모델의 성능 또한 크게 향상시켰다는 점에서 향후 안드로이드 악성코드 대응방안 고도화에 많은 도움이 될 것이라 확신한다.
향후에는 PCA를 기반으로 대용량 및 고차원 데이터세트의 차원은 줄이면서도 원본 데이터세트의 전체 특성을 사용한 경우보다 탐지 및 분류 성능을 향상시킬 수 있는 방안을 집중 연구할 예정이다. 또한 PCA를 통해 추출된 새로운 PC 특성의 정보를 분석하여 PC와 실제 악성코드 동작에 미치는 특성과의 관계를 보다 세부적으로 분석하고, 제안하는 방안을 API Call 정보를 포함하고 있는 다른 형태의 데이터세트에도 적용하여 탐지 성능을 비교하면서 연구범위를 확장시켜 나가고자 한다.

참고문헌 (14)

Statista Research Department, Global market share smartphone operating systems of unit shipments 2014-2023, https:// www.statista.com/statistics/272307/market-share-forecast-forsmartphone-operating-systems/
Statcounter, Mobile Operating System Market Share Worldwide, https://gs.statcounter.com/os-market-share/mobile/south-korea/#monthly-202108-202208
Zimperium, Financially Motivated Mobile Scamware Exceeds 100M Installations, https://blog.zimperium.com/dark-herringandroid-.scamware-exceeds-100m-installations
H. Abdi and L. J. Williams, Principal component analysis, Wiley interdisciplinary reviews: computational statistics 2 (4), 433-459, 2010.

상세보기
L. Shilpa, J. Sini, and V. Bhupendra, "Feature Reduction using Principal Component Analysis for Anomaly-Based Intrusion Detection on NSL-KDD", International Journal of Engineering Science and Technology, Vol. 2, No. 6, pp.1790-1799, July. 2010, DOI: 10.1.1.168.1957
Y. Liu, L. Zhang, and Y. Guan, "Sketch-based streaming PCA algorithm for network-wide traffic anomaly detection ", 2010 IEEE 30th International Conference on Distributed Computing Systems, pp.807-816, Jun. 2010, DOI: 10.1109/ ICDCS.2010245
Hyoseon Kyew and Minhae Kwon, "PCA-Based Low-Complexity Anomaly", KCIS, Vol. 46, No. 6, pp.941-955, June. 2021, DOI: 10.7840/kics.2021.46.6.941

상세보기
W. Subhash, L. Parashar, and U. Singh. "Intrusion detection system using PCA with random forest approach", 2020 International Conference on Electronics and Sustainable Communication Systems (ICESC), IEEE, pp.803-808, Aug. 2020, DOI: 10.1109/ICESC48915.2020.9155656
Dissanayake, Maheshi B. "Feature Engineering for Cyber-attack detection in Internet of Things.", I.J Wireless and Microwave Technologies, Vol. 6, pp.46-54, Dec. 2021, DOI: 10.5815/ijwmt.2021.06.05.

상세보기
A. Rahali, A. H. Lashkari, G. Kaur, L. Taheri, F. Gagnon, and F. Massicotte, "DIDroid: Android Malware Classification and Characterization Using Deep Image Learning", Proc. of the 10th International Conference on Communication and Network Security (ICCNS2020), pp.70-82, Nov. 2020, DOI: 10.1145/3442520.3442522
N. Peiravian and X. Zhu, "Machine Learning for Android Malware Detection Using Permission and API Calls", Proc. of the 2013 IEEE 25th International Conference on Tools with Artificial Intelligence, pp.300-305, Feb. 2014, DOI: 10.1109/ICTAI.2013.53
A. D. Lorenzo, F. Martinelli, E. Medvet, F. Mercaldo and A. Santone, "Visualizing the outcome of dynamic analysis of Android malware with VizMal", Journal of Information Security and Applications, Vol. 50, Feb. 2020, DOI: 10.1016/j.jisa.2019.102423

상세보기
D. S. Keyes, B. Li, G. Kaur, A. H. Lashkari, F. Gagnon and F. Massicotte, "EntropLyzer: Android Malware Classification and Characterization Using Entropy Analysis of Dynamic Characteristics", Proc. of the 2021 Reconciling Data Analytics, Automation, Privacy, and Security: A Big Data Challenge (RDAAPS), pp.1-8, May. 2021, DOI: 10.1109/RDAAPS48126.2021.9452002
Hee-Jin Hwang and Soojin Lee, "Dimensionality Reduction of Feature Set for API Call based Android Malware Classification", Journal of The Korea Society of Computer and Information, Vol. 26, No. 11, pp.41-49, Nov. 2010, DOI: 10.9708/jksci.2021.26.11.041

원문보기 상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증