$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

악성코드 분석에서의 AI 결과해석에 대한 평가방안 연구
A Study on Evaluation Methods for Interpreting AI Results in Malware Analysis 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.31 no.6, 2021년, pp.1193 - 1204  

김진강 (호서대학교) ,  황찬웅 (호서대학교) ,  이태진 (호서대학교)

초록
AI-Helper 아이콘AI-Helper

정보보안에서 AI 기술은 알려지지 않은 악성코드를 탐지하기 위해 사용한다. AI 기술은 높은 정확도를 보장하지만, 오탐을 필연적으로 수반하므로 AI가 예측한 결과를 해석하기 위해 XAI 도입을 고려하고 있다. 그러나, XAI는 단순한 해석결과만 제공할 뿐 그 해석을 평가하거나 검증하는 XAI 평가 연구는 부족하다. XAI 평가는 어떤 기술이 더 정확한지 안전성 확보를 위해 필수적이다. 본 논문에서는 악성코드 분야에서 AI 예측에 크게 기여한 feature로 AI 결과를 해석하고, 이러한 AI 결과해석에 대한 평가방안을 제시한다. 약 94%의 정확도를 보이는 tree 기반의 AI 모델에 두 가지 XAI 기술을 사용하여 결과해석을 진행하고, 기술 정확도 및 희소성을 분석하여 AI 결과해석을 평가한다. 실험 결과 AI 결과해석이 적절하게 산출되었음을 확인하였다. 향후, XAI 평가로 인해 XAI 도입 및 활용은 점차 증가하고, AI 신뢰성 및 투명성이 크게 향상될 것으로 예상한다.

Abstract AI-Helper 아이콘AI-Helper

In information security, AI technology is used to detect unknown malware. Although AI technology guarantees high accuracy, it inevitably entails false positives, so we are considering introducing XAI to interpret the results predicted by AI. However, XAI evaluation studies that evaluate or verify th...

주제어

표/그림 (11)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • 그렇기에 악성코드 분류 시 의미 있는 결과를 도출할 feature로 사용하였다. 상위 500개의 빈도수 가 높은 feature를 사용하여 AI 분류를 진행하였고 이후 XAI 평가를 진행한다.
  • 우리는 다양한 분야에서 AI의 결과가 사용되고 있기에 근거로 설명할 수 있는 XAI 기술들이 정확 한 결과인지 검증하고 유용한지 판단할 수 있도록 평가 방법론을 제시한다. 이는 모델이 판단한 결과에 대한 명확한 해석과 신뢰성을 제공할 수 있으며, XAI의 해석의 정확도와 이 기술이 효율적인지 판단하는 희소성을 제공한다.

대상 데이터

  • 악성코드 데이터는 ‘2019 데이터 챌린지’에서 사용한 40,000개를 사용하였다. Train은 악성 파일이 18,000개, 정상 파일은 12,000개이고, Test의 악성 파일은 5,000개, 정상 파일은 5,000개이다. Win-API를 추출한 결과 11,299개 학습 데이터와 4,447개의 테스트 데이터가 생성되었고 API가 추출 되지 않은 데이터를 제외하고 추출된 데이터를 이용하여 실험을 진행하였다.
  • Train은 악성 파일이 18,000개, 정상 파일은 12,000개이고, Test의 악성 파일은 5,000개, 정상 파일은 5,000개이다. Win-API를 추출한 결과 11,299개 학습 데이터와 4,447개의 테스트 데이터가 생성되었고 API가 추출 되지 않은 데이터를 제외하고 추출된 데이터를 이용하여 실험을 진행하였다. 실제 학습 데이터의 악성 파일 개수는 1,407개이며 정상 파일 개수는 9,982개이다.
  • Win-API를 추출한 결과 11,299개 학습 데이터와 4,447개의 테스트 데이터가 생성되었고 API가 추출 되지 않은 데이터를 제외하고 추출된 데이터를 이용하여 실험을 진행하였다. 실제 학습 데이터의 악성 파일 개수는 1,407개이며 정상 파일 개수는 9,982개이다. 테스트 데이터의 악성 파일 개수는 394개이며 정상 파일 개수는 4053개이다.
  • 악성코드 데이터는 ‘2019 데이터 챌린지’에서 사용한 40,000개를 사용하였다
  • 실제 학습 데이터의 악성 파일 개수는 1,407개이며 정상 파일 개수는 9,982개이다. 테스트 데이터의 악성 파일 개수는 394개이며 정상 파일 개수는 4053개이다.

데이터처리

  • LIME은 파일별 local 해석을 진행하였다. 파일 별 중요하다고 판단되는 feature와 해당하는 기여도 점수를 제공한다.
  • 기술 정확도를 측정하기 위해 우리는 LIME과 SHAP을 비교하였다
  • 우리는 LIME, SHAP 등 XAI 기 여도 점수에 대한 공정한 평가를 진행하기 위하여 AI 모델의 accuracy를 이용하였다. 원본 accuracy인 0.94를 기본으로 하여 추출한 상위 20 개의 feature 중 TOP-1인 feature를 전체 Test 4,447개 전체에 영향을 주지 않게끔 0으로 만들어 AI model의 정확도를 측정하였다. 원본 accuracy와 새로 추출한 accuracy의 차이가 크면 변경된 feature가 해석에 큰 도움이 되었다고 판단되어 평가 정확도가 높다고 볼 수 있다.

이론/모형

  • 이후로 가장 많은 accuracy를 떨어트린 feature는 SHAP의 9번째로 해석된 ‘_corexemain’이 있으며 LIME에서는 TOP 20에 포함되지 않아 그래프에서 차이를 보여주고 있다. Accuracy를 떨어트리는 feature가 상위권에 나올수록 더 정확한 해석을 진행한 것으로 평가 가능하며 더 정확한 수치를 확인하기 위하여 AUC(Area Under the Curve)를 이용하였다. AUC 수치로 비교한 결과 LIME은 0.
  • 사용할 XAI 해석 기법으로는 SHAP과 LIME을 사용한다. shapley value는 여러 특징이 서로 영향을 미치는 상황에서 서로가 어떤 의사결정이나 행동을 하는가에 따른 평균적인 변화를 통해 얻어낸 값을 의미한다.
  • 악성코드를 분류하기 위한 머신러닝 모델로는 XGBoost와 RandomForest를 사용하였다. 두 AI 모델은 트리 기반 앙상블의 대표적인 알고리즘으로 수행 속도가 빠르며, 분류 및 회귀 영역에서 높은 성능을 보인다는 장점이 있다.
  • 악성코드를 탐지하기 위해 AI 모델 중 XGBoost를 이용하여 분류를 진행하였다. 세부 설정으로 XGBClassifier를 사용하였으며 base_score는 0.
  • SHAP value는 전체에 대하여 가장 영향을 주는 TOP 20개의 feature를 추출하였고, LIME은 각 Test 파일 4,447개별 TOP-3 까지의 Feature 중 Count를 통해 상위 20개의 Feature를 추출하였다. 우리는 LIME, SHAP 등 XAI 기 여도 점수에 대한 공정한 평가를 진행하기 위하여 AI 모델의 accuracy를 이용하였다. 원본 accuracy인 0.
  • 이러한 평가 방법론은 잠재적인 해석 가능한 방법을 찾고 향후 작업에서 평가를 정량화하는데 통찰력을 제공한다. 우리는 위의 평가 방법론과 다른 좀 더 자세히 성능적 수치로 XAI 해석 도구를 비교하는 평가 방법론을 사용한다. 실제 XAI 해석 도구가 제대로 해석하는지 정확성을 통해 검증하고, feature 전체 해석이 아닌 핵심 feature에 대해서만 해석하였는가에 대한 희소성을 수치로 계산하는 것에 중점을 둔 평가 방법론이다.
  • 5, booster로는 gbtree를 사용하였고, 정확도는 93%의 결과가 나왔다. 이외의 악성코드를 탐지하기 위한 AI 모델로 RandomForest를 이용하여 탐지 를 진행하였다. 세부설정으로는 max_depth를 12, 결정트리 개수인 n_estimators를 100, 노드 분할과 리프노드의 최소 샘플 데이터 수를 8로 설정하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (19)

  1. D. Gavrilut, M. Cimpoesu, D. Anton and L. Ciortuz, "Malware detection using machine learning," 2009 International Multiconference on Computer Science and Information Technology, IEEE, pp. 735-741, Oct. 2009. 

  2. Gi-seung Baek, "Machine learning based malware analysis algorithm suitability study," KISA-WP-2017-0014, KISA. 2017. 

  3. K. Grosse, N. Papernot, P. Manoharan, M. Backes, and P. McDaniel, "Adversarial examples for malware detection," European Symposium on Research in Computer Security, LNCS 10493, pp. 62-79, Aug. 2017. 

  4. W. Huang, J.W. Stokes "A multi-task neural network for dynamic malware classification," In Proc. of the Conference on Detection of Intrusions and Malware & Vulnerability Assessment, LNCS 9721, pp. 399-418, June. 2016. 

  5. N. McLaughlin, J.M. del Rincon, B. Kang, S. Yerima, P. Miller, S. Sezer, Y. Safaei, E. Trickel, Z. Zhao, A. Doupe, and G.J. Ahn, "Deep android malware detection," Proceedings of the Seventh ACM on Conference on Data and Application Security and Privacy, pp. 301-308, March. 2017. 

  6. Z.L. Chua, S. Shen, P. Saxena, and Z. Liang, "Neural nets can learn function type signatures from binaries," Proceedings of the 26th USENIX Security Symposium, pp. 99-116, Aug. 2017. 

  7. E.C.R. Shin, D. Song, and R. Moazzezi, "Recognizing functions in binaries with neural networks," Proceedings of the 24th USENIX Security Symposium, pp. 611-626, Aug. 2015. 

  8. X. Xu, C. Liu, Q. Feng, H. Yin, L. Song, and D. Song, "Neural network-based graph embedding for cross-platform binary code similarity detection," ACM Conference on Computer and Communications Security (CCS 17), pp. 363-376, Aug. 2017. 

  9. Z. Li, D. Zou, S. Xu, X. Ou, H. Jin, S. Wang, Z. Deng, and Y. Zhong, "Vuldeepecker: a deep learning-based system for vulnerability detection," Network and Distributed System Security Symposium (NDSS), Jan. 2018. 

  10. M.G. Schultz, E. Eskin, F. Zadok, and E.J. Stolfo, "Data mining methods for detection of new malicious executables," Proceedings 2001 IEEE Symposium on Security and Privacy, pp. 38-49, May 2000. 

  11. C.D. Manning, P. Raghavan, and H. Schutze, "An introduction to information retrieval," Cambridge University Press, April. 2009. 

  12. Sun-oh Choi, Young-soo Kim, jong-hyun Kim, and Ik-kyun Kim, "Research trends in malware detection using deep learning," Journal of The KIISC, 27(3), pp. 20-26, June. 2017. 

  13. Y. Lin, X. Chang, "Towards interpreting ml-based automated malware detection models:a survey," arXiv Computer Science Cryptography and Security arXiv:2101.06232, Jan. 2021. 

  14. S. Gupta, H. Sharma, and S. Kaur, "Malware characterization using windows api call sequences," International Conference on Security, Journal of Cyber Security and Mobility vol.7, pp. 363-378, Oct. 2018. 

  15. S. Lundberg, Su-In Lee, "A unified approach to interpreting model predictions," Proceedings of the 31st International Conference on Neural Information Processing Systems, pp. 4765-4774, May. 2017. 

  16. L. S. Shapley, "A value for n-person games," Published by Princeton University Press, 1953. 

  17. Hong-bi Kim, Yong-soo Lee, Eun-gyu Lee and Tae-jin Lee, "Cost-effective valuable data detection based on the reliability of artificial intelligence," in IEEE Access, vol. 9, pp. 108959-108974, July. 2021. 

  18. M.T. Ribeiro, S. Singh, and C. Guestrin, "'Why should i trust you?': explaining the predictions of any classifier," Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, pp.97-101, Jun. 2016. 

  19. A. Warnecke, D. Arp, C. Wressnegger, and K. Rieck, "Evaluating explanation methods for deep learning in security," 2020 IEEE European Symposium on Security and Privacy (EuroS&P), pp. 158-174, Sep. 2020. 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로