[국내논문] 효율적인 HWP 악성코드 탐지를 위한 데이터 유용성 검증 및 확보 기반 준지도학습 기법
Efficient Hangul Word Processor (HWP) Malware Detection Using Semi-Supervised Learning with Augmented Data Utility Valuation

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.34 no.1, 2024년, pp.71 - 82  

손진혁 (KAIST 사이버보안연구센터) ,  고기혁 (KAIST 사이버보안연구센터) ,  조호묵 (KAIST 사이버보안연구센터) ,  김영국 (충남대학교)

정보통신기술(ICT) 고도화에 따라 PDF, MS Office, HWP 파일로 대표되는 전자 문서형 파일의 활용이 많아졌고, 공격자들은 이 상황을 놓치지 않고 문서형 악성코드를 이메일과 메신저를 통해 전달하여 감염시키는 피해사례가 많아졌다. 이러한 피해를 막고자 AI를 사용한 악성코드 탐지 연구가 진행되고 있으나, PDF나 MS-Office와 같이 전 세계적으로 활용성이 높은 전자 문서형 파일에 비해 주로 국내에서만 활용되는 HWP(한글 워드 프로세서) 문서 파일은 양질의 정상 또는 악성 데이터가 부족하여 지속되는 공격에 강건한 모델 생성에 한계점이 존재한다. 이러한 한계점을 해결하기 위해 기존 수집된 데이터를 변형하여 학습 데이터 규모를 늘리는 데이터 증강 방식이 제안 되었으나, 증강된 데이터의 유용성을 평가하지 않아 불확실한 데이터를 모델 학습에 활용할 가능성이 있다. 본 논문에서는 HWP 악성코드 탐지에 있어 데이터의 유용성을 정량화하고 이에 기반하여 학습에 유용한 증강 데이터만을 활용하여 기존보다 우수한 성능의 AI 모델을 학습하는 준지도학습 기법을 제안한다.

With the advancement of information and communication technology (ICT), the use of electronic document types such as PDF, MS Office, and HWP files has increased. Such trend has led the cyber attackers increasingly try to spread malicious documents through e-mails and messengers. To counter such atta...


문제 정의

  • 하지만 [26]의 방법론은 Shapley Value의 계산에 많은 컴퓨팅 자원이 소모되며 데이터 증강 세팅 및 사이버보안 분야에 적용되지 않았다. 이에 반하여 본 논문에서는 데이터가 부족한 사이버보안 분야, 특히 HWP 문서형 악성코드 탐지에 데이터 유용성 기반의 준지도학습 기법이 얼마나 효율적인지에 초점을 맞추어 연구한다.
  • 본 연구에서는 증강된 데이터의 유용성을 정량화하여 그 점수에 따라 필터링함으로써 데이터 증강의 효율성을 극대화하고자 한다. 이를 위해 증강된 데이터의 유용성을 측정하는 데에 세 가지 방법을 사용하였다.
