최근 사이버보안에서 악성코드를 이용한 공격은 메일에 악성코드를 첨부하여 이를 사용자가 실행하도록 유도하여 공격을 수행하는 형태가 늘어나고 있다. 특히 문서형태의 파일을 첨부하여 사용자가 쉽게 실행하게 되어 위험하다. 저자 분석은 NLP(Neutral Language Process) 및 텍스트 마이닝 분야에서 연구되어지고 있는 분야이며, 특정 언어로 이루어진 텍스트 문장, 글, 문서를 분석하여 작성한 저자를 분석하는 방법들은 연구하는 분야이다. 공격 메일의 경우 일정 공격자에 의해 작성되어지기 때문에 메일 내용 및 첨부된 문서 파일을 분석하여 해당 저자를 식별하면 정상메일과 더욱 구별된 특징들을 발견할 수 있으며, 탐지 정확도를 향상시킬 수 있다. 본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는 feature vector 및 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반의 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인할 수 있었다.
최근 사이버보안에서 악성코드를 이용한 공격은 메일에 악성코드를 첨부하여 이를 사용자가 실행하도록 유도하여 공격을 수행하는 형태가 늘어나고 있다. 특히 문서형태의 파일을 첨부하여 사용자가 쉽게 실행하게 되어 위험하다. 저자 분석은 NLP(Neutral Language Process) 및 텍스트 마이닝 분야에서 연구되어지고 있는 분야이며, 특정 언어로 이루어진 텍스트 문장, 글, 문서를 분석하여 작성한 저자를 분석하는 방법들은 연구하는 분야이다. 공격 메일의 경우 일정 공격자에 의해 작성되어지기 때문에 메일 내용 및 첨부된 문서 파일을 분석하여 해당 저자를 식별하면 정상메일과 더욱 구별된 특징들을 발견할 수 있으며, 탐지 정확도를 향상시킬 수 있다. 본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는 feature vector 및 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반의 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인할 수 있었다.
Recently, attackers using malicious code in cyber security have been increased by attaching malicious code to a mail and inducing the user to execute it. Especially, it is dangerous because it is easy to execute by attaching a document type file. The author analysis is a research area that is being ...
Recently, attackers using malicious code in cyber security have been increased by attaching malicious code to a mail and inducing the user to execute it. Especially, it is dangerous because it is easy to execute by attaching a document type file. The author analysis is a research area that is being studied in NLP (Neutral Language Process) and text mining, and it studies methods of analyzing authors by analyzing text sentences, texts, and documents in a specific language. In case of attack mail, it is created by the attacker. Therefore, by analyzing the contents of the mail and the attached document file and identifying the corresponding author, it is possible to discover more distinctive features from the normal mail and improve the detection accuracy. In this pager, we proposed IADA2(Intelligent Attack mail Detection based on Authorship Analysis) model for attack mail detection. The feature vector that can classify and detect attack mail from the features used in the existing machine learning based spam detection model and the features used in the author analysis of the document and the IADA2 detection model. We have improved the detection models of attack mails by simply detecting term features and extracted features that reflect the sequence characteristics of words by applying n-grams. Result of experiment show that the proposed method improves performance according to feature combinations, feature selection techniques, and appropriate models.
Recently, attackers using malicious code in cyber security have been increased by attaching malicious code to a mail and inducing the user to execute it. Especially, it is dangerous because it is easy to execute by attaching a document type file. The author analysis is a research area that is being studied in NLP (Neutral Language Process) and text mining, and it studies methods of analyzing authors by analyzing text sentences, texts, and documents in a specific language. In case of attack mail, it is created by the attacker. Therefore, by analyzing the contents of the mail and the attached document file and identifying the corresponding author, it is possible to discover more distinctive features from the normal mail and improve the detection accuracy. In this pager, we proposed IADA2(Intelligent Attack mail Detection based on Authorship Analysis) model for attack mail detection. The feature vector that can classify and detect attack mail from the features used in the existing machine learning based spam detection model and the features used in the author analysis of the document and the IADA2 detection model. We have improved the detection models of attack mails by simply detecting term features and extracted features that reflect the sequence characteristics of words by applying n-grams. Result of experiment show that the proposed method improves performance according to feature combinations, feature selection techniques, and appropriate models.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
추후 연구로는 공격 메일로부터 얻을 수 있는 주요한 특징 벡터와 공격 메일 탐지에 적합한 특징 선택 기법을 연구하여 모델에 적용하고 개선된 모델을 연구하고자 한다. 또한 공격 메일 탐지 및 공격자 식별에 적합한 기계학습 모델에 대한 연구와 이를 기반으로 악성코드, 공격 메일, 침해사고 보고서 등 비정형의 데이터로부터 공격자를 식별하기 위한 특징 추출 방법 및 공격자 식별 모델을 연구하고자 한다.
본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는feature vector와 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다.
본 논문에서는 최근 메일을 통한 문서형 악성코드 공격이 증가함에 따라, 공격 메일을 분류하고 탐지하기 위한 작성자 분석 기반의 IADA2 모델을 제안하였다. 단순한 단어 특징으로부터 기계학습 모델을 적용하는 것이 아닌 작성자를 특정할 수 있는 특징들과 악성코드 분석에서 사용되는 특징을 활용하여 공격 메일 및 공격자를 특정할 수 있는 탐지 모델을 제안하였다.
[5]에서는 이메일을 통한 악성코드 및 웜을 탐지하기 위해 메일에서 추출할 수 있는 특징을 추출하여 베이지안 네트워크와 결정트리를 구성하여, 악성 메일을 탐지하는 방법을 제안하였다. 연구의 목적은 새로운 (보이지 않는) 악성 메일에 대한 정확한 탐지모델을 제안하는 것이다. 탐지 시스템을 구축하기 위해서 베이지안 확률론적 네트워크를 구축하여 제시하였으며, 비교대상으로 결정 트리 유도 방법을 사용하였다.
제안 방법
여기서는 CFC(Concentration based Feature Construction) 접근법을 제안하여 ‘Self'와 ‘non-Self’) gene 라이브러리를 통해 이메일을 표현하기 위해서 2개의 요소의 concentration 특징 벡터를 생성한다. CFC에 의해서 효율적으로 BPNN이메일을 자동으로 분류하여 스팸과 정상메일을 탐지한다.
F1-measure는 데이터 분류, 문서 분류, 분류탐지에서 단순 정확도나 탐지율 등의 성능평가 방법을 개선한 방법이다. TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)으로 precision과 recall값을 구하면 각 값의 비중을 동일하게 하여 조화 평균을 구한다[20]. 높을수록 분류탐지기의 성능이 높다고 평가한다.
그림 3의 공격 메일 탐지를 위한 특징들을 유형별로 정리하면 아래와 같다. [3, 9] 논문의 저자 분석 기반의 특징들과 문서형 악성코드 분석에서 사용한 특징, 그리고 기타 악성코드 및 침해사고 분석에서 사용한 메일 특징들을 분석하여, 이를 기반으로 구성된 공격메일 탐지를 위한 특징 벡터를 제안하였다. 각 특징 유형은 아래와 같으며, 본 모델에서는 각각의 방법들에서 공격 메일 탐지에 필요한 특징들을 선택하여 추출하였다.
[10]논문의 경우 PDF로부터 202개의 feature를 추출 하였다. count_font, count_javascript, count_js는 /font, /javascript, /js 마커의 인스턴스 수를 표현하는 특징들을 추출하였다. 이러한 메타데이터 및 구조내에서 추출한 특징들과 본문의 내용에서 추출하는 어휘, 구문 등의 언어적 특징을 혼합하여 저자/공격자/악성 문서 식별에 사용할 수 있다.
일반적으로 문서내 내용, 메일에서는 body text의 내용을 텍스트 마이닝의 tokenize 방법[23]을 이용하여 feature extraction과정을 거쳐서 생성되는 term feature들(예 : 출현한 단어들 - computer, software, love, finance 등의 문서에 사용된 기본 단어들) 이다. 각 문서가 갖고 있는 기본적인 내용이나 의미, 단어별 중요도 등을 분석한다.
[3, 9] 논문의 저자 분석 기반의 특징들과 문서형 악성코드 분석에서 사용한 특징, 그리고 기타 악성코드 및 침해사고 분석에서 사용한 메일 특징들을 분석하여, 이를 기반으로 구성된 공격메일 탐지를 위한 특징 벡터를 제안하였다. 각 특징 유형은 아래와 같으며, 본 모델에서는 각각의 방법들에서 공격 메일 탐지에 필요한 특징들을 선택하여 추출하였다. 각 특징들이 갖고 있는 의미가 상이하기 때문에 특징들이 갖는 값들에 대한 일관성 확보 및 일반화를 위해 특징 선택 및 정규화 방법을 적용한다.
각각의 특징 벡터를 n-gram feature, PCA feature, 어휘적 feature만 사용한 경우와 각각을 조합하여 사용한 경우에 대해 다양한 분류 모델에 적용하여 공격 메일 탐지성능을 실험하였다.
또한 term feature의 n-gram feature vector의 경우 아주 많은 수의 특징이 발생하여, 고차원 데이터를 생성하기 때문에 특징 선택을 적용하였다. 공격 메일 탐지를 위해 기존의 정의된 각 특징들을 재구성하여 추출하였으며, 필요한 특징들로 구분하였다. 특징 유형에 따라 적합한 특징 선택 및 탐지 모델이 필요하므로 특징에 대한 분석을 수행하였다.
단순한 단어 특징으로부터 기계학습 모델을 적용하는 것이 아닌 작성자를 특정할 수 있는 특징들과 악성코드 분석에서 사용되는 특징을 활용하여 공격 메일 및 공격자를 특정할 수 있는 탐지 모델을 제안하였다. 그 중 일부 특징및 특징 조합, 특징선택기법을 다양한 기계학습 분류 모델에 적용하여 실제 공격 메일이 탐지되는지 실험을 통해 검증하였다. 실험 결과 제안하는 모델에서 term feature의 n-gram 및 PCA 특징선택을 적용한 feature vecotr와 어휘 feature vector를 조합하여, DT에 적용한 결과가 가장 우수한 성능을 나타내었다.
본 논문에서는 최근 메일을 통한 문서형 악성코드 공격이 증가함에 따라, 공격 메일을 분류하고 탐지하기 위한 작성자 분석 기반의 IADA2 모델을 제안하였다. 단순한 단어 특징으로부터 기계학습 모델을 적용하는 것이 아닌 작성자를 특정할 수 있는 특징들과 악성코드 분석에서 사용되는 특징을 활용하여 공격 메일 및 공격자를 특정할 수 있는 탐지 모델을 제안하였다. 그 중 일부 특징및 특징 조합, 특징선택기법을 다양한 기계학습 분류 모델에 적용하여 실제 공격 메일이 탐지되는지 실험을 통해 검증하였다.
본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는feature vector와 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 또한 문서저자분석에서 적용되는 특징들을 분석하여, 공격 메일 탐지에 필요한 주요 특징들을 추출하였다.
탐지 시스템을 구축하기 위해서 베이지안 확률론적 네트워크를 구축하여 제시하였으며, 비교대상으로 결정 트리 유도 방법을 사용하였다. 데이터 세트에서 각 이메일에서 프로필을 추출하고, 프로필에서 분류기에서 사용할 특징을 추출했다. 본 연구에서는 메일에 포함된 악성 코드의 정적분석 특징을 메일 탐지에 사용하였다.
악성 pdf 문서의 경우 문서내 임베디드 이미지나 오브젝트에 악성코드를 삽입하여 실행되게 만드는 형태의 악성코드들이 다수 존재하기 때문에 문자열 외 특징을 추출할 필요가 있다. 따라서 메타데이터나 구조, 본문에서 추가적으로 매개변수화를 시킨 feature들을 추출 하였다. 예를 들면 특정 메타데이터 필드나 구조내 필드의 문자수, 폰트, 인코딩 방법, 객체의 수, 객체 유형 등이 있다.
이를 기반으로 공격 메일 탐지에 적용할 특징 벡터 생성을 위해 추출해야 할 특징 유형 셋을 제안하 였다. 또한 term feature의 n-gram feature vector의 경우 아주 많은 수의 특징이 발생하여, 고차원 데이터를 생성하기 때문에 특징 선택을 적용하였다. 공격 메일 탐지를 위해 기존의 정의된 각 특징들을 재구성하여 추출하였으며, 필요한 특징들로 구분하였다.
단순히 단어 기반 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 또한 문서저자분석에서 적용되는 특징들을 분석하여, 공격 메일 탐지에 필요한 주요 특징들을 추출하였다. 추출된 특징들의 구성을 분석하여, 필요한 특징선택 기법 및 적절한 탐지 모델을 제시하기 위해 실험을 통해 모델들의 성능을 검증하였다.
이러한 유형의 기능을 컨텐츠기반 특징이라고 한다. 본 논문에서는 전자 메일 스팸 필터링 (즉, 용어 - 빈도 분석 접근법, 경험적 접근법 및 행동 기반 접근법)을 위한 특징을 구성하기 위한 다양한 접근법을 제안하였다 용어 - 빈도 분석에서 전자 메일의 모든 단어는 특징으로 정의되고 단어 벡터는 전자 메일을 나타내는 데 사용된다. 제안하는 탐지 방법은 다양한 접근법으로 특징을 추출하여, 다수의 분류기로부터 분류결과를 도출하여 이를 투표방식의 앙상블방법을 이용하여 최종 탐지 결과를 도출하였다.
데이터 세트에서 각 이메일에서 프로필을 추출하고, 프로필에서 분류기에서 사용할 특징을 추출했다. 본 연구에서는 메일에 포함된 악성 코드의 정적분석 특징을 메일 탐지에 사용하였다.
높을수록 분류탐지기의 성능이 높다고 평가한다. 본 평가에서는 탐지 성능을 체크하기 위해서 positive 클래스를 attack로 정하고 성능평가를 한다. P는 precision, R은 recall이며 각 식 (1)에 의해 구해지며 F1-measure는 식 (2)과 같다.
여기서는 CFC(Concentration based Feature Construction) 접근법을 제안하여 ‘Self'와 ‘non-Self’) gene 라이브러리를 통해 이메일을 표현하기 위해서 2개의 요소의 concentration 특징 벡터를 생성한다.
또한 문서 파일의 경우 문서 포맷이 갖고 있는 고유한 구조를 이용하여 메타 정보로부터 추출한 특징, 파일에 첨부된 URL, 데이터 스트림, OLE 개체 등[1]을 이용하여 특징을 추출하기도 한다. 이런 추출된 특징으로 구성된 feature vector를 이용하여 학습셋으로 모델을 구축하고, 새로운 데이터를 분류를 통해 악성 문서를 탐지한다.
제안하는 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)는 기존의 스팸메일 탐지 모델에서 사용하는 term feature들과 작성자 분석에서 사용하는 특징들, 그리고 문서형 악성코드 분석에서 사용되는 특징들을 분석하여 공격 메일 탐지에 필요한 주요 특징들을 추출하였다. 이를 기반으로 공격 메일 탐지에 적용할 특징 벡터 생성을 위해 추출해야 할 특징 유형 셋을 제안하 였다. 또한 term feature의 n-gram feature vector의 경우 아주 많은 수의 특징이 발생하여, 고차원 데이터를 생성하기 때문에 특징 선택을 적용하였다.
제안하는 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)는 기존의 스팸메일 탐지 모델에서 사용하는 term feature들과 작성자 분석에서 사용하는 특징들, 그리고 문서형 악성코드 분석에서 사용되는 특징들을 분석하여 공격 메일 탐지에 필요한 주요 특징들을 추출하였다. 이를 기반으로 공격 메일 탐지에 적용할 특징 벡터 생성을 위해 추출해야 할 특징 유형 셋을 제안하 였다.
본 논문에서는 전자 메일 스팸 필터링 (즉, 용어 - 빈도 분석 접근법, 경험적 접근법 및 행동 기반 접근법)을 위한 특징을 구성하기 위한 다양한 접근법을 제안하였다 용어 - 빈도 분석에서 전자 메일의 모든 단어는 특징으로 정의되고 단어 벡터는 전자 메일을 나타내는 데 사용된다. 제안하는 탐지 방법은 다양한 접근법으로 특징을 추출하여, 다수의 분류기로부터 분류결과를 도출하여 이를 투표방식의 앙상블방법을 이용하여 최종 탐지 결과를 도출하였다.
또한 문서저자분석에서 적용되는 특징들을 분석하여, 공격 메일 탐지에 필요한 주요 특징들을 추출하였다. 추출된 특징들의 구성을 분석하여, 필요한 특징선택 기법 및 적절한 탐지 모델을 제시하기 위해 실험을 통해 모델들의 성능을 검증하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인하였다.
연구의 목적은 새로운 (보이지 않는) 악성 메일에 대한 정확한 탐지모델을 제안하는 것이다. 탐지 시스템을 구축하기 위해서 베이지안 확률론적 네트워크를 구축하여 제시하였으며, 비교대상으로 결정 트리 유도 방법을 사용하였다. 데이터 세트에서 각 이메일에서 프로필을 추출하고, 프로필에서 분류기에서 사용할 특징을 추출했다.
PDF의 악성여부를 식별하기 위해서는 PDF 메타데이터 또는 구조에서부터 특징을 추출할 수 있다[4]. 특정 문자열이나 바이트 시퀀스에 의존하지 않도록 feature를 설계하였다. 악성 pdf 문서의 경우 문서내 임베디드 이미지나 오브젝트에 악성코드를 삽입하여 실행되게 만드는 형태의 악성코드들이 다수 존재하기 때문에 문자열 외 특징을 추출할 필요가 있다.
공격 메일 탐지를 위해 기존의 정의된 각 특징들을 재구성하여 추출하였으며, 필요한 특징들로 구분하였다. 특징 유형에 따라 적합한 특징 선택 및 탐지 모델이 필요하므로 특징에 대한 분석을 수행하였다.
대상 데이터
언어는 영어로 구성되어 있다. eml을포함한 메일의 전체 내용을 포함하고 있으며, 이중 1700 개의 메일을 실험에 사용하였다. 정상과 공격 메일의 구성은 정상 1,139개, 공격 562개이다.
정상과 공격 메일의 구성은 정상 1,139개, 공격 562개이다. 실험에 사용한 특징은 term feature, term feature에 대해 PCA(Principle Component Analysis) 특징 선택을 적용한 특징 벡터, 어휘적(lexical) feature 8개이며, 추출 방법은 아래와 같다.
실험을 위해 사용된 데이터 셋은 CSDM 2010[14]으로 스팸메일과 정상메일 분류 테스트를 할 수 있도록 구성된 데이터 셋이다. 언어는 영어로 구성되어 있다.
eml을포함한 메일의 전체 내용을 포함하고 있으며, 이중 1700 개의 메일을 실험에 사용하였다. 정상과 공격 메일의 구성은 정상 1,139개, 공격 562개이다. 실험에 사용한 특징은 term feature, term feature에 대해 PCA(Principle Component Analysis) 특징 선택을 적용한 특징 벡터, 어휘적(lexical) feature 8개이며, 추출 방법은 아래와 같다.
이론/모형
주로 메일의 내용에서 term feature(단어들)을추출하여, 각 단어 특징의 빈도수(TF : Term Frequency), TF-IDF(Term Frequency-Inverse Document Frequency) 등을 이용하여, 데이터 셋을 구축하고 기계학습 모델에 학습 및 분류를 수행하는 모델들을 제안하고 있다[24]. [4]에서는 스팸메일 탐지를 위해 그림 1에서 나타나듯이 3계층 역전파 신경망(3-Layer BPNN : three-layer Back-Propagation Neural Network)을 이용하였다.
본 논문에서는 탐지성능을 측정하기 위해 F1-measure와 분류 정확도를 사용한다. F1-measure는 데이터 분류, 문서 분류, 분류탐지에서 단순 정확도나 탐지율 등의 성능평가 방법을 개선한 방법이다.
실험에 적용한 분류 모델은 SVM(Support Vector Machine) [15], DT(Decision Tree)[16], kNN(k Nearest Neighbor)[17], RF(Random Forest)[18], 인공신경망 중 MLP(Multi-Layer Perceptron)[19]를 사용하여 성능을 비교분석하였다.
성능/효과
8941의 성능을 보여주었다. kNN 분류 모델의 성능은 나쁘지 않게 나타났지만, 전체 모델의 평균 성능은 평균 F1-measure: 0.7316, 정확도: 0.7823으로 좋지 않은 성능을 나타내고 있다. 다만 앞서 실험한 n-gram feature만 사용한 경우보다는 개선된 성능을 나타내는 것을 볼 수 있다.
n-gram feature로부터 PCA 특징 선택을 수행한 주성분으로 구성된 특징벡터에 대한 분류 모델 실험에서는 DT와 RF가 각각 F1-measure: 0.9794, 정확도: 0.9794로 우수한 성능을 나타내었다. 모든 모델의 평균 성능은 F1-measure: 0.
먼저 n-gram과 어휘 feature를 조합한 특징 벡터를 이용한 실험결과는 표 2와 같다. 가장 우수한 성능을 나타낸 모델은 kNN으로 F1-measure: 0.8887, 정확도: 0.8941의 성능을 보여주었다. kNN 분류 모델의 성능은 나쁘지 않게 나타났지만, 전체 모델의 평균 성능은 평균 F1-measure: 0.
결론적으로 특징을 단일 특징을 사용할 때보다는 전체 적으로 조합한 특징을 사용했을 때가 보편적으로 우수한 성능을 나타내는 것을 볼 수 있었으며, 가장 우수한 결과는 특징의 조합과 특징 선택, 그리고 적절한 분류 모델을 선택했을 때 가장 좋은 결과를 나타내는 것을 볼 수 있다.
먼저 단일 특징 벡터별로 5개의 분류 모델을 이용하여 공격 메일 탐지를 수행한 결과는 표 1과 같다. 기본적인 term feature로부터 생성한 n-gram(3-gram) term feature 벡터를 이용한 탐지 실험의 경우 MLP 모델이 F1-measure: 0.6056, 정확도: 0.7117로 가장 우수한 성능을 보여주었다. 하지만 모든 모델의 성능을 보면, 평균 F1-measure: 0.
이를 통해, 어휘적 특징이 문서 전체의 특성을 좀 더 반영할 수 있다는 것을 알 수 있다. 또한 PCA 특징선택을 통해 만들어진 특징 벡터의 경우 위 두 가지 경우에 비해 상당히 높은 성능을 보여주었는데 이는 특징 선택 기법인 단순한 raw feature를 사용하는 것에 비해 분류 및 탐지 모델의 성능을 높여줄 수 있음을 판단할 수 있다. 보편적으로 kNN과 DT는 모든 데이터셋에서 무난한 성능과 성능 편차가 적게 나타났으나, 각 특징별로 가장 좋은 성능을 나타내는 모델이 다르게 나타난 것을 볼 수 있다.
실험 결과 제안하는 모델에서 term feature의 n-gram 및 PCA 특징선택을 적용한 feature vecotr와 어휘 feature vector를 조합하여, DT에 적용한 결과가 가장 우수한 성능을 나타내었다. 또한 다양한 실험을 통해 각특징의 유형이나 특성별로 적합한 특징선택방법, 분류 및 탐지모델이 나타나는 것을 확인할 수 있었다. 또한 제안하는 모델의 모든 특징들을 구성하고 적합한 특징 선택 및 기계학습 모델을 설계한다면 더욱 우수한 성능으로 개선될 수 있는 가능성을 검증할 수 있었다.
이를 통해 공격 메일 탐지 모델을 구축함에 있어서 주요 특징 추출, 이에 따른 특징 선택 방법, 적절한 기계학습 모델에 대한 연구 및 설계가 우수한 탐지 모델의 성능을 도출하는데 중요한 요소임을 확인할 수 있었다. 또한 제안하는 IADA2에서 2가지 요소의 특징만을 사용하여도 실용가능한 성능을 나타내는 것으로 보아 공격 메일 탐지 모델로의 우수한 성능을 보여준 것을 확인할 수 있었다. 또한 개선 가능성을 확인할 수 있었으며 추후 연구 및 실험을 통해 모든 특징 추출과 특징 선택, 탐지모델을 설계한다면 개선된 성능을 나타낼 것이라 예상할 수 있다.
또한 다양한 실험을 통해 각특징의 유형이나 특성별로 적합한 특징선택방법, 분류 및 탐지모델이 나타나는 것을 확인할 수 있었다. 또한 제안하는 모델의 모든 특징들을 구성하고 적합한 특징 선택 및 기계학습 모델을 설계한다면 더욱 우수한 성능으로 개선될 수 있는 가능성을 검증할 수 있었다.
8882로 가장 좋은 성능을 보여주었다. 모든 모델의 성능은 평균 F1-measure: 0.8044, 정확도: 0.8211로 n-gram feature에 비해 좋은 탐지 성능을 보여주었다.
DT 모델의 경우 두 개의 특징을 조합할 경우 성능이 개선되는 것을 볼 수 있었다. 모든 모델의 평균 성능은 F1-measure: 0.9368, 정확도: 0.9393으로 우수한 성능을 나타내었다. 앞서 PCA feature만 활용한 것과 비슷한 결과를 나타내었으나 모든 모델에서, 특징을 조합했을 때 결과가 개선되는 것이 아님을 알 수 있었다.
9794로 우수한 성능을 나타내었다. 모든 모델의 평균 성능은 F1-measure: 0.9371, 정확도: 0.9406으로 아주 우수한 성능을 나타내는 것을 볼 수 있다.
본 실험결과에 대해 전체적으로 분석해볼 때, 각각 단일 특징의 경우 어휘적 특징이 단어 특징보다는 분류 및 탐지 성능이 좋게 나타났다. 이를 통해, 어휘적 특징이 문서 전체의 특성을 좀 더 반영할 수 있다는 것을 알 수 있다.
성능은 DT가 F1-measure: 0.9853, 정확도: 0.9582로 가장 높은 성능을 나타냈으며 이는 모든 실험을 종합하여 가장 좋은 성능 수치를 보여준 결과이다.
그 중 일부 특징및 특징 조합, 특징선택기법을 다양한 기계학습 분류 모델에 적용하여 실제 공격 메일이 탐지되는지 실험을 통해 검증하였다. 실험 결과 제안하는 모델에서 term feature의 n-gram 및 PCA 특징선택을 적용한 feature vecotr와 어휘 feature vector를 조합하여, DT에 적용한 결과가 가장 우수한 성능을 나타내었다. 또한 다양한 실험을 통해 각특징의 유형이나 특성별로 적합한 특징선택방법, 분류 및 탐지모델이 나타나는 것을 확인할 수 있었다.
추출된 특징들의 구성을 분석하여, 필요한 특징선택 기법 및 적절한 탐지 모델을 제시하기 위해 실험을 통해 모델들의 성능을 검증하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인하였다.
9393으로 우수한 성능을 나타내었다. 앞서 PCA feature만 활용한 것과 비슷한 결과를 나타내었으나 모든 모델에서, 특징을 조합했을 때 결과가 개선되는 것이 아님을 알 수 있었다. 이는 모델의 특성이나 데이터 셋에 특성에 따라 조합에 따른 결과가 다르게 나타난다는 것을 알 수 있는 결과이다.
7034로 다소 낮은 성능치를 보여주었다. 어휘 feature의 경우 kNN 모델이 F1-measure: 0.8830, 정확도: 0.8882로 가장 좋은 성능을 보여주었다. 모든 모델의 성능은 평균 F1-measure: 0.
이를 통해 공격 메일 탐지 모델을 구축함에 있어서 주요 특징 추출, 이에 따른 특징 선택 방법, 적절한 기계학습 모델에 대한 연구 및 설계가 우수한 탐지 모델의 성능을 도출하는데 중요한 요소임을 확인할 수 있었다. 또한 제안하는 IADA2에서 2가지 요소의 특징만을 사용하여도 실용가능한 성능을 나타내는 것으로 보아 공격 메일 탐지 모델로의 우수한 성능을 보여준 것을 확인할 수 있었다.
7117로 가장 우수한 성능을 보여주었다. 하지만 모든 모델의 성능을 보면, 평균 F1-measure: 0.5893, 정확도: 0.7034로 다소 낮은 성능치를 보여주었다. 어휘 feature의 경우 kNN 모델이 F1-measure: 0.
후속연구
또한 제안하는 IADA2에서 2가지 요소의 특징만을 사용하여도 실용가능한 성능을 나타내는 것으로 보아 공격 메일 탐지 모델로의 우수한 성능을 보여준 것을 확인할 수 있었다. 또한 개선 가능성을 확인할 수 있었으며 추후 연구 및 실험을 통해 모든 특징 추출과 특징 선택, 탐지모델을 설계한다면 개선된 성능을 나타낼 것이라 예상할 수 있다.
이메일을 작성한 작성자의 동일한 행동 습관을 알수 있는 특징들을 추출한다면 공격자를 식별하는데 유용하게 활용될 수 있다. 실제 서로 다른 메일들에서 eml 헤더의 ip정보가 같게 나타나 같은 공격자가 작성한 것임을 확인할 수 있었던 공격 사례가 있다.
추후 연구로는 공격 메일로부터 얻을 수 있는 주요한 특징 벡터와 공격 메일 탐지에 적합한 특징 선택 기법을 연구하여 모델에 적용하고 개선된 모델을 연구하고자 한다. 또한 공격 메일 탐지 및 공격자 식별에 적합한 기계학습 모델에 대한 연구와 이를 기반으로 악성코드, 공격 메일, 침해사고 보고서 등 비정형의 데이터로부터 공격자를 식별하기 위한 특징 추출 방법 및 공격자 식별 모델을 연구하고자 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
메일에 악성코드를 첨부하는 공격을 탐지하기 위한 방법으로 활용되는 것은?
업무에서 문서파일(HWP, DOC, PDF)들이 주로 사용되고 있기 때문에 공격 대상이 되는 사용자는 쉽게 문서를 열 수밖에 없으며, 이를 이용한 악성코드는 탐지가 어렵고 실행가능성이 높아 그 위험도가 높아지고 있다. 이를 탐지하기 위한 방법으로 기계학습이 활용되고 있다. 문서 파일에서 추출할 수 있는 특징(feature)들을 이용하여 학습을 통해 과거의 악성 파일, 스팸메일 등을 분류하여 공격을 사전에 탐지하고 분류할 수 있는 연구들이 수행되고 있다.
저자 분석이란?
저자 분석은 NLP(Neutral Language Process) 및 텍스트마이닝 분야에서 연구되어지고 있는 분야이며, 특정 언어로 이루어진 텍스트 문장, 글, 문서를 분석하여 작성한 저자를 분석하는 연구 분야이다. 저자 분류는 도메인 전문가에 의한 분류 방법, 규칙기반 분류 방법, 지도 학습 (supervised learning)에 의한 학습기반 분류 방법으로 구분할 수 있다.
과거의 악성 파일, 스팸메일 등을 분류하여 공격을 사전에 탐지하고 분류하고자 할 때 메일에서 사용되는 특징은?
문서 파일에서 추출할 수 있는 특징(feature)들을 이용하여 학습을 통해 과거의 악성 파일, 스팸메일 등을 분류하여 공격을 사전에 탐지하고 분류할 수 있는 연구들이 수행되고 있다. 주로 메일에서 사용되는 특징들로는 메일의 헤더, EML, 메일의 내용, 단순 텍스트를 텍스트마이닝 방법으로 이용한 특징들이 있으며, 경우에 따라 키보드 캐릭터 셋, 폰트스타일등을 이용하는 경우도 있다. 또한 문서 파일의 경우 문서 포맷이 갖고 있는 고유한 구조를 이용하여 메타 정보로부터 추출한 특징, 파일에 첨부된 URL, 데이터 스트림, OLE 개체 등[1]을 이용하여 특징을 추출하기도 한다.
참고문헌 (24)
Nir Nissim, Aviad Cohen, and Yuval Elovici, "ALDOCX: Detection of Unknown Malicious Microsoft Office Documents Using Designated Active Learning Methods Based on New Structural Feature Extraction Methodology," IEEE Transactions on Information Forensics and Security, vol.12, no.3, pp.631-646, 2017 https://doi.org/10.1109/tifs.2016.2631905
Nathan Rosenblum, Xiaojin Zhu, Barton P. Miller, "Who Wrote This Code? Identifying the Authors of Program Binaries," Proceedings of the 16th European conference on Research in computer security, pp.172-189, 2011 https://doi.org/10.1007/978-3-642-23822-2_10
Rong Zheng, Jiexun Li, Hsinchun Chen, and Zan Huang, "A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques," Journal of the Association for Information Science and Technology, vol.57, no.3, pp.378-393, 2006 https://doi.org/10.1002/asi.20316
Ruan, Guangchen, and Ying Tan. "A three-layer back-propagation neural network for spam detection using artificial immune concentration." Soft computing, vol.14, no.2, pp.139-150, 2010 https://doi.org/10.1007/s00500-009-0440-2
Shih, Dong-Her, Hsiu-Sen Chiang, and C. David Yen. "Classification methods in the detection of new malicious emails." Information Sciences, vol.172, no.1, pp.241-261, 2005 https://doi.org/10.1016/j.ins.2004.06.003
Al-Shboul, Bashar Awad, et al. "Voting-based classification for e-mail spam detection." Journal of ICT Research and Applications, vol.10, no.1, pp.26-42, 2016 https://doi.org/10.1016/j.comnet.2008.11.012
De Vel, Olivier. "Mining e-mail authorship." Proceeding of Workshop on Text Mining, ACM International Conference on Knowledge Discovery and Data Mining (KDD'2000), 2000 http://citeseerx.ist.psu.edu/viewdoc/summary?doi10.1.1.36.6277
Alsmadi, Izzat, and Ikdam Alhami. "Clustering and classification of email contents." Journal of King Saud University-Computer and Information Sciences vol.27, no.1, pp.46-57, 2015 https://doi.org/10.1016/j.jksuci.2014.03.014
Ahmed Abbasi and Hsinchun Chen, "Applying Authorship Analysis to Extremist-Group Web Forum Messages," IEEE Intelligent Systems, vol.20, no.5, pp.67-75, 2005 https://doi.org/10.1109/mis.2005.81
Smutz, Charles, and Angelos Stavrou. "Malicious PDF detection using metadata and structural features." Proceedings of the 28th annual computer security applications conference. ACM, 2012 https://doi.org/10.1145/2420950.2420987
Digital Bread Crumbs, Focusing Seven Clues To Identifying Who's Behind Advanced Cyber Attack, FireEye Report, RPT.DB.EN-US.082014, 2014
https://www.python.org/
http://scikit-learn.org/stable/
K. Bache and M. Lichman, "UCI machine learning repository," 2013.
Vapnik, V., The nature of statistical learning theory. Springer-Verlag New York, 2000
Altman, N. S., "An introduction to kernel and nearestneighbor nonparametric regression." The American Statistician, vol.46, no.3, pp.175-185, 1992 https://doi.org/10.2307/2685209
Kaminski, B.; Jakubczyk, M.; Szufel, P. "A framework for sensitivity analysis of decision trees". Central European Journal of Operations Research, 2017 https://doi.org/10.4135/9781412971980.n103
Ho, Tin Kam "Random Decision Forests," Proceedings of the 3rd International Conference on Document Analysis and Recognition, pp. 278-282, 1995 https://doi.org/10.1109/icdar.1995.598994
Rosenblatt, Frank. x. Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC, 1961
Monowar H. Bhuyan, D. K. Bhattacharyya, and J. K. Kalita, "Network Anomaly Detection: Methods, Systems and Tools," IEEE Communications Surveys & Tutorials, Vol.16, No.1, pp.303-336, 2014 https://doi.org/10.1109/surv.2013.052213.00046
Rocha, Anderson, et al. "Authorship attribution for social media forensics." IEEE Transactions on Information Forensics and Security, Vol.12, No.1, pp.5-33, 2017 https://doi.org/10.1109/tifs.2016.2603960
Alsulami, Bander, et al. "Source Code Authorship Attribution Using Long Short-Term Memory Based Networks." European Symposium on Research in Computer Security, 2017 https://doi.org/10.1007/978-3-319-66402-6_6
Singh, Shashi Pal, et al. "Intelligent Text Mining Model for English Language Using Deep Neural Network." International Conference on Information and Communication Technology for Intelligent Systems, Springer, 2017 https://doi.org/10.1007/978-3-319-63645-0_54
Hong, Sung-Sam, Jong-Hwan Kong, and Myung-Mook Han. "The Adaptive SPAM Mail Detection System using Clustering based on Text Mining." KSII Transactions on Internet and Information Systems (TIIS), vol.8, no.6, pp.2186-2196, 2014 https://doi.org/10.3837/tiis.2014.06.022
※ AI-Helper는 부적절한 답변을 할 수 있습니다.