$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

CNN 기반 MS Office 악성 문서 탐지
MS Office Malicious Document Detection Based on CNN 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.32 no.2, 2022년, pp.439 - 446  

박현수 (배재대학교) ,  강아름 (배재대학교)

초록
AI-Helper 아이콘AI-Helper

웹사이트나 메일의 첨부 파일을 이용해 문서형 악성코드의 유포가 활발하게 이루어지고 있다. 문서형 악성코드는 실행 파일이 직접 실행되는 것이 아니므로 보안 프로그램의 우회가 비교적 쉽다. 따라서 문서형 악성코드는 사전에 탐지하고 예방해야 한다. 이를 탐지하기 위해 문서의 구조를 파악하고 악성으로 의심되는 키워드를 선정하였다. 문서 내의 스트림 데이터를 아스키코드값으로 변환하여 데이터셋을 만들었다. CNN 알고리즘을 이용하여 문서의 스트림 데이터 내에 존재하는 악성 키워드의 위치를 확인하고 인접 정보를 활용하여 이를 악성으로 분류했다. 파일 내의 스트림 단위로 악성코드를 탐지한 결과 0.97의 정확도를 보였고, 파일 단위로 악성코드를 탐지한 결과 0.92의 정확도를 보였다.

Abstract AI-Helper 아이콘AI-Helper

Document-type malicious codes are being actively distributed using attachments on websites or e-mails. Document-type malicious code is relatively easy to bypass security programs because the executable file is not executed directly. Therefore, document-type malicious code should be detected and prev...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

제안 방법

  • CNN 알고리즘을 이용하여 스트림 단위로 악성 키워드 존재 여부를 파악하여 정확도와 정밀도, 재현율 등을 도출하였고, 파일 단위로 스트림 데이터를 평가하여 파일 자체가 악의적인 문서인지 정상적인 문서인지 탐지하는 모델을 제안하고자 한다. 학습과 테스트의 손실률은 Fig.
  • 본 연구에서는 세계적으로 가장 많이 사용되고 있는 문서인 MS Office를 대상으로 하였다. MS Office 문서의 내부 구조를 파악하기 위해 먼저 문서 구조가 비슷한 HWP 파일과 PDF 파일의 내부 구조를 참고하였다[4]. 그런 다음 MS Office의 문서 구조를 분석하고 문서 내 스트림 데이터를 수동으로 확인하여 exe나 dll과 같은 PE(Portable Executable) 파일의 확장자, 셸코드(shellcode), 파일이나 폴더의 조작 명령어, 프로세스 및 외부 URL에 접근하여 파일을 다운로드하는 코드 등의 악성으로 의심되는 키워드를 수집했다.
  • MS Office 문서의 내부 구조를 파악하기 위해 먼저 문서 구조가 비슷한 HWP 파일과 PDF 파일의 내부 구조를 참고하였다[4]. 그런 다음 MS Office의 문서 구조를 분석하고 문서 내 스트림 데이터를 수동으로 확인하여 exe나 dll과 같은 PE(Portable Executable) 파일의 확장자, 셸코드(shellcode), 파일이나 폴더의 조작 명령어, 프로세스 및 외부 URL에 접근하여 파일을 다운로드하는 코드 등의 악성으로 의심되는 키워드를 수집했다. 악성 키워드의 존재 여부를 확인하여 문서 내 스트림(stream) 데이터에 태깅(tagging)하고 CNN(Convolution Neural Network) 모델에 적용하여 악의적인 문서 파일 과정상 문서 파일을 분류하고자 한다.
  • 딥러닝 알고리즘 중 하나인 CNN 알고리즘을 이용하기 위해 키워드를 아스키코드로 변환하여 저장하였다. 하나의 바이트에 0x00부터 0 xFF까지 표현되는 데이터를 아스키코드로 변환하여 저장하면 0에서 255까지로 표현된다.
  • 데이터 블록은 512 byte 이상이며 property, 스트림 데이터, BBAT(Big Block Allocation Table), SBAT(Small Block Allocation Table)을 가지고 있는데 이 중 스트림 데이터가 가장 많은 공간을 차지한다. 따라서, 본 논문에서는 OLE 파일 데이터 블록 중 스트림 데이터를 위주로 연구를 진행하였다.
  • CNN 알고리즘이 이미지 데이터의 공간 정보를 유지하면서 인접 이미지와의 특징을 효과적으로 인식하고 강조하는 방식이다. 본 연구에서 만든 데이터 셋도 이미지와 마찬가지로 값이 0에서 255까지 분포되어 있고, 악성 키워드가 존재하는 위치를 특정하여 인접 정보를 인식하고 강조하기 위하여 CNN 알고리즘을 채택하였다. CNN 알고리즘을 이용하여 스트림 단위로 테스트를 진행한 결과로 0.
  • 그런 다음 MS Office의 문서 구조를 분석하고 문서 내 스트림 데이터를 수동으로 확인하여 exe나 dll과 같은 PE(Portable Executable) 파일의 확장자, 셸코드(shellcode), 파일이나 폴더의 조작 명령어, 프로세스 및 외부 URL에 접근하여 파일을 다운로드하는 코드 등의 악성으로 의심되는 키워드를 수집했다. 악성 키워드의 존재 여부를 확인하여 문서 내 스트림(stream) 데이터에 태깅(tagging)하고 CNN(Convolution Neural Network) 모델에 적용하여 악의적인 문서 파일 과정상 문서 파일을 분류하고자 한다.
  • 가독 텍스트 중 admin, Administrator, root, Password, Security를 사용자의 계정이나 패스워드를 탈취하거나 추측 가능한 키워드로 분류했다. 악성 행위를 은닉하기 위한 목적으로 악성코드를 Crypt, Base64, Encode64, MyDecode, Convert로 암호화하거나 인코딩하여 삽입한 고문서 열람 시 복호화나 디코딩 과정을 거쳐 악성코드를 실행시키는 키워드로 분류했다. ThreadId, createthread, StackSize, Resource, ResourceReader의 경우 프로세스를 조작하거나 메모리의 사이즈를 알아내 메모리 버퍼 오버플로(memorybuffer overflow) 등의 공격이 가능한 키워드로 분류했다.
  • 이는 사용자가 첨부파일의 제목만 보고 다운로드하여 파일을 열람할 가능성이 높고, 실행 파일이 직접적으로 실행되는 것이 아닌 external의 URL 을 통한 C&C 서버와의 연결, VBA 매크로를 담아 프로세스를 조작하거나 스니 피하는 유형의 악성코드이기 때문에 다른 악성코드에 비해 보안 프로그램의 탐지 우회가 비교적 유용하다. 이를 탐지하기 위해 문서형 악성코드 내 인코딩, 디코딩, 암호화 등으로 숨겨져 있는 악성코드를 찾고 외부로의 연결을 시도하는 키워드를 찾아내기 위해 스트림 데이터를 수동으로 분석하였다.
  • 정상 파일 550개, 악성 파일 550개를 수집하여 해당 파일의 스트림 데이터를 저장하여 순차적으로 악성 키워드가 있는지 검사하여 악성 키워드 위치를 태깅하고 악성 키워드 존재 여부를 표시하여 데이터 셋을 만들었다.

대상 데이터

  • 공공데이터 포털은 주로 공공기관에서 사용하는 파일 등이 업로드되는데 MS Office 파 일 중 XLS 파일이 대다수이고, PPT 파일과 DOC 파일의 비중이 적어 다양한 문서의 스트림 데이터를 수집하지 못하였다. 각 파일의 스트림 추출을 진행하면서 파일별로 스트림을 여러 개 가지고 있어 데이터 셋은 총 10244개의 스트림 데이터를 가진다. 데이터 셋의 악성 파일에는 주로 매크로 데이터들이 포함돼 더 있었으며, 매크로에서 주로 쓰이는 키워드들을 찾았다.
  • 본 연구에 사용된 데이터는 총 1100개의 파일을 사용하였고 악성 파일 550개, 정상 파일 550개로 진행했다. 악성 파일의 경우 국내 백신사가 제공한 악성 파일 550개를 사용하였다.
  • 문서형 악성코드로부터의 피해를 최소화하기 위하여 이를 사전에 탐지하는 모델의 개발이 필요하다. 본 연구에서는 세계적으로 가장 많이 사용되고 있는 문서인 MS Office를 대상으로 하였다. MS Office 문서의 내부 구조를 파악하기 위해 먼저 문서 구조가 비슷한 HWP 파일과 PDF 파일의 내부 구조를 참고하였다[4].
  • 악성 파일의 경우 국내 백신사가 제공한 악성 파일 550개를 사용하였다. 악성 파일은 PPT 파일 3개, XLS 파일 264개, DOC 파일 283개이다. 정상 파일은 공공데이터 포털을 이용하여 PPT, XLS, DOC 파일을 수집하였는데 PPT 파일 5개, XLS 파일 542개, DOC 파일 3개로 XLS 파일 이주를 이루었다.
  • 본 연구에 사용된 데이터는 총 1100개의 파일을 사용하였고 악성 파일 550개, 정상 파일 550개로 진행했다. 악성 파일의 경우 국내 백신사가 제공한 악성 파일 550개를 사용하였다. 악성 파일은 PPT 파일 3개, XLS 파일 264개, DOC 파일 283개이다.
  • 악성 파일은 PPT 파일 3개, XLS 파일 264개, DOC 파일 283개이다. 정상 파일은 공공데이터 포털을 이용하여 PPT, XLS, DOC 파일을 수집하였는데 PPT 파일 5개, XLS 파일 542개, DOC 파일 3개로 XLS 파일 이주를 이루었다. 공공데이터 포털은 주로 공공기관에서 사용하는 파일 등이 업로드되는데 MS Office 파 일 중 XLS 파일이 대다수이고, PPT 파일과 DOC 파일의 비중이 적어 다양한 문서의 스트림 데이터를 수집하지 못하였다.
  • 학습에 사용된 파일을 제외한 나머지 4770개의 스트림 데이터로 테스트를 진행하였다. 4770개의 스트림은 547개의 파일로부터 추출된 스트림이다.

데이터처리

  • 파일 단위로 진행한 평가는 악성 파일이면 malware 값이 1, 정상 파일이면 malware 값을 0으로 하고 비교 데이터로 모델 평가 시 예측한 데이터를 토대로 파일 내의 스트림 데이터에 악성 키워드가 하나라도 존재하면 malware 값은 1, 아니면 0으로 적용하여 정확도를 평가하였다. Table4.

이론/모형

  • 본 연구에서는 딥러닝 알고리즘 중 CNN을 사용했다. CNN은 데이터의 특징을 추출하여 특징들의 패턴을 파악하는 구조로 Fig.
본문요약 정보가 도움이 되었나요?

참고문헌 (13)

  1. "Malware that exploits HWP files has been found," Boannews, Aug. 2018. pp.1 

  2. "Malicious documents disguised as reimbursement requests," AhnLab, Mar, 2021. pp.1 

  3. "RTF malware disguised as a cover letter of a specific airline," AhnLab, Oct. 2021. pp.1 

  4. Wikipedia, "Com Structured Storage," https://en.wikipedia.org/wiki/COM_Structured_Storage, Jan. 2022. 

  5. Young-Seob Jeong, Jiyoung Woo, SangMin Lee and Ah Reum Kang, "Malware Detection of Hangul Word Processor Files Using Spatial Pyramid Average Pooling," Sensors, 20(18), pp. 5265, Sep. 2020. 

  6. Ah Reum Kang, Young-Seob Jeong, Se Lyeong Kim and Jiyoung Woo, "Malicious PDF Detection Model against Adversarial Attack Built from Bengin PDF Containing JavaScript," Applied Sciences, 9(22), pp. 4764, Nov. 2019. 

  7. Young-Seob Jeong, Jiyoung Woo and Ah Reum Kang, "Malware detection on byte streams of pdf files using convolutional neural networks," Security and Communication Networks, 2019. Apr. 2019. 

  8. Young-Seob Jeong, Jiyoung Woo and Ah Reum Kang, "Malware Detection on Byte Streams of Hangul Word Processor Files," Applied Sciences, 9(23), pp. 5178, Jan. 2019. 

  9. Ah Reum Kang, Young-Seob Jeong, Se Lyeong Kim, Jonghyun Kim, Jiyoung Woo and Sunoh Choi, "Detection of malicious pdf based on document structure features and stream objects," The Korea Society of Computer and Information, 23(11), pp. 85-93, Nov. 2018. 

  10. Chae-Eun Yoon, Hey-hyeon Jeoung and Chang-Jin Seo, "Detection for Document-Type Malware Code using Deep Learning Model and PDF Object Analysis," The Koran Institute of Electrical Engineers, pp.44-49, Mar. 2021. 

  11. Dekkyu Lee and Sangjin Lee, "A Study of Office Open XML Document-Based Malicious Code Analysis and Detection Methods," Journal of the Korea Institute of Information Security & Cryptology, pp. 429-442, Jun. 2020. 

  12. MinJi Choe, KangSik Shin and DongJae Jung, "HWP Format Vulnerability Analysis For Document-Type Malware Detection," The Korean Institute of Information Scientists and Engineers, pp.1188-1190, Jun. 2020. 

  13. Sung Hye Cho and Sang Jin Lee, "A Research of Anomaly Detection Method in MS Office Document," The Korea Information Processing Socirety, 6(2), pp.87-94, 2017. 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로