최근 각종 공문서와 증빙 서류를 비롯하여 대부분의 문서가 디지털 데이터의 형태로 사용되고 있다. 특히 MS 오피스는 전 세계적으로 공공기관, 기업, 학교, 가정 등 다양한 곳에서 가장 많이 사용하고 있는 문서 편집 소프트웨어로써 악의적인 목적을 가진 사용자들이 해당 문서 프로그램의 범용성을 이용하여 MS 오피스 문서 파일을 악성 행위를 위한 매개체로 사용하고 있으며, 최근에는 단순한 사용자뿐만 아니라 국내외 정부 기관과 주요기업을 비롯하여 기반시설에서도 MS 오피스 문서 파일 형태의 악성코드가 유입되고 있다. MS 오피스 문서에 악성 코드를 삽입하는 방법은 단순히 미할당 영역에 은닉하는 방법을 사용할 뿐만 아니라 매크로 기능을 이용하는 등 다양한 방법을 통해 점점 정교한 형태로 진화되고 있다. 이러한 악성 코드들을 탐지하기 위해서 시그니처를 이용하거나 샌드박스를 이용한 탐지방법이 존재하지만, 유동적이고 복잡해지는 악성 코드들을 탐지하기에는 한계가 있다. 따라서 본 논문에서는 디지털 포렌식 관점에서 MS 오피스 문서 분석에 필요한 주요 메타데이터와 파일 포맷구조 분석을 통해 매크로 영역과 그 외 악성 코드가 삽입될 가능성이 존재하는 영역들을 확인함으로써 MS 오피스 문서 파일 내 비정상 요소를 탐지하는 기법을 제안한다.
최근 각종 공문서와 증빙 서류를 비롯하여 대부분의 문서가 디지털 데이터의 형태로 사용되고 있다. 특히 MS 오피스는 전 세계적으로 공공기관, 기업, 학교, 가정 등 다양한 곳에서 가장 많이 사용하고 있는 문서 편집 소프트웨어로써 악의적인 목적을 가진 사용자들이 해당 문서 프로그램의 범용성을 이용하여 MS 오피스 문서 파일을 악성 행위를 위한 매개체로 사용하고 있으며, 최근에는 단순한 사용자뿐만 아니라 국내외 정부 기관과 주요기업을 비롯하여 기반시설에서도 MS 오피스 문서 파일 형태의 악성코드가 유입되고 있다. MS 오피스 문서에 악성 코드를 삽입하는 방법은 단순히 미할당 영역에 은닉하는 방법을 사용할 뿐만 아니라 매크로 기능을 이용하는 등 다양한 방법을 통해 점점 정교한 형태로 진화되고 있다. 이러한 악성 코드들을 탐지하기 위해서 시그니처를 이용하거나 샌드박스를 이용한 탐지방법이 존재하지만, 유동적이고 복잡해지는 악성 코드들을 탐지하기에는 한계가 있다. 따라서 본 논문에서는 디지털 포렌식 관점에서 MS 오피스 문서 분석에 필요한 주요 메타데이터와 파일 포맷 구조 분석을 통해 매크로 영역과 그 외 악성 코드가 삽입될 가능성이 존재하는 영역들을 확인함으로써 MS 오피스 문서 파일 내 비정상 요소를 탐지하는 기법을 제안한다.
Microsoft Office is an office suite of applications developed by Microsoft. Recently users with malicious intent customize Office files as a container of the Malware because MS Office is most commonly used word processing program. To attack target system, many of malicious office files using a varie...
Microsoft Office is an office suite of applications developed by Microsoft. Recently users with malicious intent customize Office files as a container of the Malware because MS Office is most commonly used word processing program. To attack target system, many of malicious office files using a variety of skills and techniques like macro function, hiding shell code inside unused area, etc. And, people usually use two techniques to detect these kinds of malware. These are Signature-based detection and Sandbox. However, there is some limits to what it can afford because of the increasing complexity of malwares. Therefore, this paper propose methods to detect malicious MS office files in Computer forensics' way. We checked Macros and potential problem area with structural analysis of the MS Office file for this purpose.
Microsoft Office is an office suite of applications developed by Microsoft. Recently users with malicious intent customize Office files as a container of the Malware because MS Office is most commonly used word processing program. To attack target system, many of malicious office files using a variety of skills and techniques like macro function, hiding shell code inside unused area, etc. And, people usually use two techniques to detect these kinds of malware. These are Signature-based detection and Sandbox. However, there is some limits to what it can afford because of the increasing complexity of malwares. Therefore, this paper propose methods to detect malicious MS office files in Computer forensics' way. We checked Macros and potential problem area with structural analysis of the MS Office file for this purpose.
이에 본 논문에서는 ‘.doc’, ‘.ppt’, ‘.xls’ 파일과 같은 MS오피스 버전 97-2003 문서 파일을 대상으로 파일 내부 구조를 파악하여 악성 코드가 삽입될 수 있는 구간을 정의하고, 해당 구간 내의 비정상 요소를 식별하여 문서 파일 내에 비정상적인 행위를 위한 코드를 탐지할 수 있는 방법을 제안한다.
제안 방법
본 논문에서는 MS 오피스 문서 파일의 각 스트림 별로 존재하는 고유한 데이터와 내부 저장 구조를 상세하게 파악하였고, 기존의 알려진 MS 오피스 문서 삽입형 악성코드900개를 바탕으로 악성 행위의 특징을 유형화하였다. 제시된 방법으로 탐지도구를 개발하였으며, 주요 백신 제품들과의 비교를 통하여 탐지 기법의 우수성을 평가하였다. 이를 바탕으로 악성코드일 수 있는 MS 오피스 문서를 탐지할 수 있음을 입증하였다.
수집한 MS 오피스 포맷별(.doc, .xls, .ppt) 300개의 악성파일과 정상파일 300개의 샘플데이터를 통해 본 논문에서제시한 탐지 기법을 적용한 탐지 도구와 Anti Virus 제품에대한 성능 비교를 하였으며, 성능 비교 결과는 Table 4와 같다.
대상 데이터
MS 오피스 문서 내 비정상 요소를 탐지하기 위해 본 논문에서는 Virus Total과 Malswares.com 서비스에서 AntiVirus에 5개 이상 탐지된 악성 MS 오피스 파일을 각각 포맷별(.doc, .xls, .ppt)로 300개씩 수집하였으며, 정상 파일과 비교를 통해 문서 파일 내에 악성 코드가 삽입 가능한 영역을 Table 1과 같이 정리하였다. 이와 같은 결과를 바탕으로 각 영역에서 비정상 데이터를 탐지할 수 있는 방법 6가지를 제안하였으며, 자세한 내용은 세부 절에서 소개한다.
성능/효과
따라서 이와 같은 특성을 기반으로 하여 문서 파일 내부에서 실제로 활용되지 않는 미사용 영역을 분류하고, 미사용 영역 내에 데이터의 존재 여부를 판단함으로써 비정상데이터의 존재 여부를 확인할 수 있다. 더불어 바이너리 데이터는 미할당 영역뿐만 아니라 일반적으로 사용되는 스트림 내부에 사용되지 않는 미사용 영역에도 삽입될 수 있으므로 각 스트림 별 미사용 영역에 대한 데이터 존재 여부를같이 판단해야 한다.
제시된 방법으로 탐지도구를 개발하였으며, 주요 백신 제품들과의 비교를 통하여 탐지 기법의 우수성을 평가하였다. 이를 바탕으로 악성코드일 수 있는 MS 오피스 문서를 탐지할 수 있음을 입증하였다.
후속연구
MS 오피스 문서파일은 가장 널리 사용되는 기본 문서 포맷이기 때문에 본 연구의 결과물을 통해 다양한 기관에서 지속적으로 활용될 수 있을 것으로 판단된다. 그리고 VBA 매크로 기능은 오피스뿐만 아니라 MS Visio, AutoCAD 등 다양한 제품군내에서 사용된다.
그리고 VBA 매크로 기능은 오피스뿐만 아니라 MS Visio, AutoCAD 등 다양한 제품군내에서 사용된다. 이들 포맷에서 매크로기능은 오피스의 매크로와 같이 VBA를 사용하기 때문에 본 연구의 VBA 탐지 방법은 오피스뿐만 아니라 VBA를 사용하는 다른 파일 포맷에서도 활용할 수 있을 것이다.
향후에는 MS 오피스 버전 2007 이후부터 사용하는 OOXML 포맷의 문서 내부를 분석하고, 해당 문서 내 비정상 요소를 탐지하는 연구도 진행하여 연구를 확장할 계획이다.
질의응답
핵심어
질문
논문에서 추출한 답변
MS 오피스의 OOXML은 무엇인가?
MS 오피스는 버전에 따라 복합 파일 이진 구조(CompoundFile Binary Format)와 OOXML(Open Office XML) 구조로 나뉜다. 복합 파일 이진 구조는 2003 버전까지 사용하던 파일 구조이며, OOXML은 2007 버전 이상에서 사용하는 파일 형식이다.
Word Document 스트림은 어떤 정보를 저장하고 있는가?
Word Document 스트림은 MS 워드의 메인 스트림으로, Fig. 2와 같이 MS 워드 파일 헤더정보와 본문 텍스트 정보를 저장하고 있다[14].
MS 오피스의 파일 구조는 버전에 따라 어떻게 나뉘는가?
MS 오피스는 버전에 따라 복합 파일 이진 구조(CompoundFile Binary Format)와 OOXML(Open Office XML) 구조로 나뉜다. 복합 파일 이진 구조는 2003 버전까지 사용하던 파일 구조이며, OOXML은 2007 버전 이상에서 사용하는 파일 형식이다.
참고문헌 (17)
Graham Chantry, New developments in Microsoft Office malware [Internet], https://nakedsecurity.sophos.com/2015/03/06/from-the-labs-new-developments-in-microsoft-office-malware/.
Foetron, MS Office is Still The Productivity Suite Leader [Internet], http://www.foetron.com/microsoft-office-is-stillthe-productivity-suite-leader/.
N. Idika and A. P. Mathur, "A Survey of Malware Detection Techniques," Purdue University, 2007.
Simon Byers, "Information leakage caused by hidden data in published documents," IEEE Security Privacy, Vol. 2, No. 2, pp. 23-27, Apr., 2004.
A. Castiglione, De Santis, and C. Soriente, "Taking advantages of a disadvantage: Digital forensics and steganography using document metadata," The Journal of Systems and Software, Vol. 80, Iss.5, pp. 750-764, 2007.
J. H. Park, Bora Park, S. J. Lee, S. H. Hong, and J. H. Park, "Extraction of Residual Information in the Microsoft PowerPoint file from the Viewpoint of Digital Forensics considering PerCom Environment," in Pervasive Computing and Communications, 2008. PerCom 2008. Sixth Annual IEEE International Conference on. IEEE, p.584-589, 2008.
J. H. Park and S. J. Lee, "Forensic Investigation of MS Office Files," Graduate School of Information Security, Korea University, Feb., 2009.
B. Y. Yoo and S. J. Lee, "Documents Filter Tool Development for Forensic Investigation," Graduate School of Information Security, Korea University, Feb., 2011.
KISA, "A Study on Analyzing the Current Malware Detection Technologies and Planning for the Development Model of Detection & Response System," Research Report, Feb., 2016.
C. Y. Lee, H. G. Kang, T. J. Lee, H. C. Jeong, and Y. J. Won, "A Behavior based Analysis & Detection for Docuent Malicious Code," The Korea Society of Management Information Systems, pp. 532-537, 2012.
J. W. Park, S. T. Moon, G. W. Son, I. K. Kim, K. S. Han, E. G. Im, and I. G. Kim, "An Automatic Malware Classfication System using String List and APIs," Journal of Security Engineering, Vol. 8, No. 5, pp. 611-626, 2011.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.