$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 효율적인 HWP 악성코드 탐지를 위한 데이터 유용성 검증 및 확보 기반 준지도학습 기법
Efficient Hangul Word Processor (HWP) Malware Detection Using Semi-Supervised Learning with Augmented Data Utility Valuation

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.34 no.1, 2024년, pp.71 - 82  

손진혁 (KAIST 사이버보안연구센터) ,  고기혁 (KAIST 사이버보안연구센터) ,  조호묵 (KAIST 사이버보안연구센터) ,  김영국 (충남대학교)

초록
AI-Helper 아이콘AI-Helper

정보통신기술(ICT) 고도화에 따라 PDF, MS Office, HWP 파일로 대표되는 전자 문서형 파일의 활용이 많아졌고, 공격자들은 이 상황을 놓치지 않고 문서형 악성코드를 이메일과 메신저를 통해 전달하여 감염시키는 피해사례가 많아졌다. 이러한 피해를 막고자 AI를 사용한 악성코드 탐지 연구가 진행되고 있으나, PDF나 MS-Office와 같이 전 세계적으로 활용성이 높은 전자 문서형 파일에 비해 주로 국내에서만 활용되는 HWP(한글 워드 프로세서) 문서 파일은 양질의 정상 또는 악성 데이터가 부족하여 지속되는 공격에 강건한 모델 생성에 한계점이 존재한다. 이러한 한계점을 해결하기 위해 기존 수집된 데이터를 변형하여 학습 데이터 규모를 늘리는 데이터 증강 방식이 제안 되었으나, 증강된 데이터의 유용성을 평가하지 않아 불확실한 데이터를 모델 학습에 활용할 가능성이 있다. 본 논문에서는 HWP 악성코드 탐지에 있어 데이터의 유용성을 정량화하고 이에 기반하여 학습에 유용한 증강 데이터만을 활용하여 기존보다 우수한 성능의 AI 모델을 학습하는 준지도학습 기법을 제안한다.

Abstract AI-Helper 아이콘AI-Helper

With the advancement of information and communication technology (ICT), the use of electronic document types such as PDF, MS Office, and HWP files has increased. Such trend has led the cyber attackers increasingly try to spread malicious documents through e-mails and messengers. To counter such atta...

Keyword

표/그림 (7)

AI 본문요약
AI-Helper 아이콘 AI-Helper

문제 정의

  • 하지만 [26]의 방법론은 Shapley Value의 계산에 많은 컴퓨팅 자원이 소모되며 데이터 증강 세팅 및 사이버보안 분야에 적용되지 않았다. 이에 반하여 본 논문에서는 데이터가 부족한 사이버보안 분야, 특히 HWP 문서형 악성코드 탐지에 데이터 유용성 기반의 준지도학습 기법이 얼마나 효율적인지에 초점을 맞추어 연구한다.
  • 본 연구에서는 증강된 데이터의 유용성을 정량화하여 그 점수에 따라 필터링함으로써 데이터 증강의 효율성을 극대화하고자 한다. 이를 위해 증강된 데이터의 유용성을 측정하는 데에 세 가지 방법을 사용하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (28)

  1. J.H Son, G. Ko, and H. Cho,?"Learning Data augmentation Method?for Effective Detection of HWP?Malware," Korea Software?Congress(KSC), pp. 923-931, Dec.?2022 

  2. K.C Yeon, "Malicious factor analysis?using HWP document format?structure," MA Thesis, Department of?Information Security Graduate School?of Information Security Korea?University, Jun. 2016 

  3. T.C. Truong and Z. Ivan, "A survey?on artificial intelligence in malware?as next-generation threats," Mendel,?Vol. 25. No. 2, pp. 27-34, Dec. 2019. 

  4. H.C Cho and J. Moon. "A?layered-wise data augmenting?algorithm for small sampling data,"?Journal of Korean Society for Internet?Information, vol. 20 no. 6, pp. 65-72,?Dec. 2020 

  5. J. Zhang, Z. Qin, H. Yin, L. Ou, S. Xiao, and Y. Hu, "Malware variant detection using opcode image recognition with small trainingsets."2016 25th International Conference on Computer Communication and Networks(ICCCN), pp.1-9, Aug.2016. 

  6. R. Burks, KA. Islam, Y. Lu, and J. Li, "Data augmentation with generative models for improved malware detection: A comparative study." 2019 IEEE 10th Annual?Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON), pp. 660-665, Oct. 2019. 

  7. F.O Catak, J. Ahmed, K. Sahinbas, and Z.H Khand, "Data augmentation based malware detection using convolutional neural networks". PeerJ Comput, vol. 7, no. e346, pp. 1-26, Jan. 2021 

  8. N. Nissim, A. Cohen, and Y. Elovici, "ALDOCX: detection of unknown malicious microsoft office documents using designated active learning methods based on new structural?feature extraction methodology," IEEE Transactions on Information Forensics and Security, vol. 12, no. 3, pp.631-646, Mar. 2016. 

  9. S.W Kim, S. Hong, J. Oh, and H. Lee, "Obfuscated VBA macro detection using machine learning,"?2018 48th annual ieee/ifip international conference on dependable systems and networks(dsn). pp. 490-501, Jun. 2018. 

  10. V. Koutsokostas, N. Lykousas, T. Apostolopoulos, G. Orazi, A. Ghosal, F Casino, M. Conti, and C. Patsakis,"Invoice# 31415 attached: Automated analysis of malicious Microsoft Office documents," Computers & Security?vol. 114, no. 102582, pp. 1-13, Mar.?2022. 

  11. S. Yang, W. Chen, S. Li, and Q. Xu,?"Approach using transforming?structural data into image for?detection of malicious MS-DOC files?based on deep learning models," 2019?Asia-Pacific Signal and Information?Processing Association Annual?Summit and Conference (APSIPA?ASC). IEEE, pp. 28-32, Nov. 2019. 

  12. H. Park and A.R. Kang, "MS Office?Malicious Document Detection Based?on CNN," Journal of the Korea?Institute of Information Security &?Cryptology, vol. 32, no. 2, pp. 439-446, Apr. 2022. 

  13. M. Mimura, "An improved method of?detecting macro malware on an?imbalanced dataset," IEEE Access vol.?8, pp. 204709-204717, Nov. 2020. 

  14. Y.S. Jeong, M.E. Mswahili, and A.R.?Kang, "File-level malware detection?using byte streams," Sci Rep, vol. 13,?no.1 pp. 8925-8931, Jun. 2023. 

  15. Y.S Jeong, S.M Lee, J.H Kim, J Woo,?and A.R Kang, "Malware detection?using byte streams of different file?formats," IEEE Access, vol 10, pp.?51041-51047, May. 2022. 

  16. Y.S. Jeong, J. Woo, and A.R. Kang,?"Malware Detection on Byte Streams?of Hangul Word Processor Files,"?Applied Sciences, vol. 9, no. 23, pp.?1-13, Nov. 2019. 

  17. L. Holmstrom and P. Koistinen.?"Using additive noise in?back-propagation training," IEEE?transactions on neural networks, vol.?3, no. 1 pp. 24-38, Jan. 1992 

  18. H. Zhang, M. Cisse, Y.N Dauphin,?and D. Lopez-Paz, "mixup: Beyond?Empirical Risk Minimization," ICLR?(Poster), pp. 1-13, Apr. 2018 

  19. I. Goodfellow and J. Pouget-Abadie "Generative adversarial networks,"?Communications of the ACM, vol. 63,no. 11, pp. 139-144, Oct. 2020 

  20. L. Taylor and G. Nitschke, "Improving deep learning with generic data augmentation," 2018 IEEE symposium series on computational intelligence(SSCI). IEEE, pp. 1542-1547, Nov. 2018. 

  21. D.J Marchette and J.L Solka, "Using data images for outlier detection,"?Computational Statistics & Data Analysis vol. 43, no. 4, pp. 541-552, Jan. 2003 

  22. R. Kannan, H. Woo, C.C Aggarwal, and H. Park, "Outlier detection for text data," Proceedings of the2017siam international conference on datamining. Society for Industrial and Applied Mathematics, pp. 489-497, Apr. 2017. 

  23. S. Ho, A. Reddy, S. Venkatesan, R. Izmailov, R. Chadha, and A. Oprea, "Data Sanitization Approach to Mitigate Clean-Label Attacks Against Malware Detection Systems,"?MILCOM pp. 993-998, Nov. 2022. 

  24. P. Porras and V. Shmatikov, "Large-scale collection and sanitization of network security data: risks and challenges," NSPW, pp.57-64. Sep. 2006 

  25. R.H.L Sim, X. Xu, and B.K.H Low, "Data valuation in machine learning: "ingredients", strategies, and open challenges," Proc. IJCAI. pp. 5607-5614, Jul. 2022. 

  26. C. Courtnage and E. Smirnov, "Shapley-value data valuation for semi-supervised learning," Discovery Science: 24th International?Conference, DS 2021, Halifax, NS, Canada, October 11-13, 2021,?Proceedings 24. Springer International?Publishing, pp. 94-108, Oct, 2021. 

  27. I. Ashrapov, "Tabular GANs for?uneven distribution," arXiv preprint?arXiv:2010.00638, Oct. 2020. 

  28. L. Xu, and K. Veeramachaneni, "Synthesizing tabular data using generative adversarial networks,"?arXiv preprint arXiv:1811.11264, Nov. 2018 

저자의 다른 논문 :

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로