[논문]가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템

김현준; 정재은; 조근식

가중치가 부여된 베이지안 분류자를 이용한 스팸 메일 필터링 시스템
Spam-Mail Filtering System Using Weighted Bayesian Classifier 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.31 no.8, 2004년, pp.1092 - 1100

김현준 (인하대학교 컴퓨터정보공학부) , 정재은 (인하대학교 컴퓨터정보공학) , 조근식 (인하대학교 컴퓨터정보공학부)

초록
AI-Helper

최근 인터넷의 급속한 성장과 더불어 전자메일(E-Mail)은 통신 및 정보, 의사교환의 필수적인 매체로 사용되어지고 있다. 그러나 편리하고 비용이 들지 않는 장점을 이용해 엄청난 양의 스팸 메일이 매일같이 쏟아져 오고, 그 문제의 심각성에 정보통신부는 ‘정보통신망 이용촉진 및 정보보호등에 관한 개정안’이라는 새로운 법률까지 만들었다. 본 논문에서는 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(naive Bayesian classifier)보다 개선된 가중치가 부여된 베이지안 분류자 (weighted Bayesian classifier)와 정보통신부의 개정안을 준수하는 매일을 분류하기 위한 전처리 단계, 그리고 사용자의 행동을 학습하여 보다 정확한 분류를 가능하게 지능형 에이젼트(intelligent agent)가 결합된 형태의 스팸 메일 필터링 시스템(spam mail filtering system)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 넣을 필요 없이 학습한 데이타를 가지고 자동적으로 스팸 메일을 분류할 수가 있는데, 특히 이메일의 특징 추출(feature extraction)을 이용하여 상대적으로 스팸/논스팸 판별에 비중이 큰 단어들에 대해 가중치를 부여함으로서 필터링의 성능향상을 도모하였다. 실험에서는 제안된 시스템의 최적의 성능 평가를 위해서 일반 나이브 베이지안 필터링시의 성능과 이메일 헤더정보, 특정 Tag들 그리고 하이퍼링크 부분에 가중치를 준 베이지안 필터링, 마지막으로 4가지를 결합한 상태의 필터링 성능을 각각 비교 분석하였다. 그 결과 제안하는 시스템이 나이브 베이지안 분류자를 이용한 시스템보다 정확도에서는 5.7% 저조한 성능을 보였으나, 재현율에서 33.3%, F-measure에서 31.2% 우수한 성능향상을 보였다.

Abstract ▼ AI-Helper

An E-mails have regarded as one of the most popular methods for exchanging information because of easy usage and low cost. Meanwhile, exponentially growing unwanted mails in user's mailbox have been raised as main problem. Recognizing this issue, Korean government established a law in order to prevent e-mail abuse. In this paper we suggest hybrid spam mail filtering system using weighted Bayesian classifier which is extended from naive Bayesian classifier by adding the concept of preprocessing and intelligent agents. This system can classify spam mails automatically by using training data without manual definition of message rules. Particularly, we improved filtering efficiency by imposing weight on some character by feature extraction from spam mails. Finally, we show efficiency comparison among four cases - naive Bayesian, weighting on e-mail header, weighting on HTML tags, weighting on hyperlinks and combining all of four cases. As compared with naive Bayesian classifier, the proposed system obtained 5.7% decreased precision, while the recall and F-measure of this system increased by 33.3% and 31.2%, respectively.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 스팸 메일 필터링을 위해서 나이브 베이지안 분류자의 개선된 형태인 가중치가 부여된 베이지안 분류자를 사용한 시스템을 제안하고 구현하였다. 제안한 시스템의 성능을 나이브 베이지안 분류자만 사용한 시스템, 메일 헤더의 Subject, HTML Tag, Hyper Link, 그리고 앞의 모든 것을 통합한 시스템, 총 5가지 순으로 비교 평가하였을 때 전반적으로 스팸 재현율과 정확도 등, 수신된 메일들 중에서 스팸 메일을 분류해내는데 있어 단순한 나이브 베이지안 분류자에 의한 필터링 시스템보다 우수한 성능올 보였으며, 특히 ALL의 경우가 가장 높은 성능을 보였다.
본 논문에서는 스팸 메일에 자주 사용되는 특정 Feature에 가중치를 부여하는 베이지얀 분류자(Weig- hted Bayesian Classifier)를 이용한 스팸 메일 필터링 시스템을 제안하고, 가중치에 따른 최적의 성능올 평가하였다. 이와 더불어 전처리 단계(Pre-Processing)와 지능형 에이전트(Intelligent Agent)와의 결합을 통해 필터링 성능을 향상시켰다.

가설 설정

만일, m개의 클래스 <cltc2, .…c*>를 갖는 C가 있다고 가정하고, 임의의 Q데이타가 존재할 경우, 분류자는 Ml 해당하는 최대의 사후 확률을 갖는 클래스 G를 예측하게 된다.
식 (3)에서 분모항 R刀)는 c에 대하여 독립적인 상수값을 가지므로 생략될 수 있다, 또한 주어진 데이타가 m개의 많은 속성들을 가지고 있는 경우 R〃弓) 의계산을 위한 비용이 커지는 문제가 발생하는데, 이러한 문제를 해결하기 위해서 나이브 베이지안 분류자에서는 각 속성들이 상호 독립적(Conditionally Independence) 이라 가정한다. 즉, 속성들 사이에 서로 영향을 주고받는 관계가 없다고 가정하면 (4)와 같은 식을 얻어낼 수 있다〔9〕.

제안 방법

속성값 d:에 해당하는 가중치 也;를 부여하고 있으며, 여기에 1을 더해 줌으로서 확률이 0이 되는 것을 예방하였다. 또한 가중치 Wi7\ 부여됨으로서 속성값 자체의 확률이 커지는 것을 방지하기 위해(Normalization) 속성값 (4 ";+1)을 가중치가 부여된 전체 속성값의 합 ( 席d, 初, . + ”)으로 나누었다[12, 13].
경우에 대한 필터링 성능을 평가하였다. 가중치 부여는 각각의 4가지 경우에 해당하는 단어들에 대해 일반 텍스트보다 일정크기 이상의 고정된 값을 줌으로서 성능을 실험하였다.
본 논문은 표 1과 같이 텍스트만을 기반으로 베이지안 필터링, 메일 헤더에 포함된 Subject의 내용을 기반으로 한 가중치 부여, HTML Tag들을 기반으로 한 가중치 부여, 하이퍼링크를 기반으로 한 가중치 부여, 마지막으로 이 4가지의 경우를 종합하여 실험한 총 5가지의 경우에 대한 필터링 성능을 평가하였다. 가중치 부여는 각각의 4가지 경우에 해당하는 단어들에 대해 일반 텍스트보다 일정크기 이상의 고정된 값을 줌으로서 성능을 실험하였다.
본 실험에서는 필터링 과정에서 정확도를 재현율보다 높게 헤줌으로서 논스팸 메일이 스팸 메일로 잘못 분류되는 False-Positive 문제(식 ⑺)를 최소화시키기 위해를 0.5로 설정하여 분류 결과를 분석하였다.

대상 데이터

본 논문의 실험을 위해서 IIS 5.0, Micorsoft Active Server Page와 MS-SQL Server을 사용해서 구현하였으며, 실험환경은 펜티엄3 1GHz, 256MB RAM의 시스템이 었다.

성능/효과

F-measure 측정에서는 Z값을 1로 주었올 때 0.2에서 최적의 성능올 보였으나, 스팸 메일 분류의 정확도를 높이기 위해 d값을 05로 주었을 때 임계치 0.3에서 최적의 성능을 보였다. 따라서 임계값 T啪呻은 0.
대해서 동등한 가중치롤 적용하고 있다. 그러나 각각의 속성값들에 대해 사용 빈도를 바탕으로 가중치를 부여할 경우, 단순한 나이브 베이지안에 의한 필터링보다 성능 면에서 향상된 결과를 얻을 수 있다. 예를 들어, 학습한 결과 빈도수가 높은 단어나 메일의 성격올 쉽게 구분할 수 있게 해주는 키워드 등에 대한 가중치를 다른 속성값들 보다 높게 부여함으로서 나이브 베이지안에 의한 필터링 속도 및 정확도를 향상시킬 수 있는 것이다.
그림 10에서 알 수 있듯이, Incremental Learning 후의 정확도는 거의 변함이 없었으나, 재현율은 4.76% 향상된 결과를 얻을 수 있었으며, 일정기간동안 Incremental Learning을 통한 다섯 차례 스팸 메일 필터링 결과는 그림 11과 같이 가중치를 부여한 다섯 경우에 대하여 평균 약 7.3%의 성능 향상 결과를 얻을 수 있었다. 특히 N_T의 경우 10.
그림 7에서 알 수 있듯이 임계값을 0.1에서 1까지 변화시켜가며 성능올 측정한 결과, 스팸 메일의 재현율은 약 67.4%의 차이가 있었으며, 정확도에서는 약 28.3%의 차이를 보였다.
나이브 베이지안 분류자만을 사용한 시스탬(N_T)보다 제안하는 시스템이 대채로 같거나 높은 성능을 보였다. 스팸의 경우, 제안하는 시스템이 정확도 면에서 N_T 보다 5.
제안한 시스템의 성능을 나이브 베이지안 분류자만 사용한 시스템, 메일 헤더의 Subject, HTML Tag, Hyper Link, 그리고 앞의 모든 것을 통합한 시스템, 총 5가지 순으로 비교 평가하였을 때 전반적으로 스팸 재현율과 정확도 등, 수신된 메일들 중에서 스팸 메일을 분류해내는데 있어 단순한 나이브 베이지안 분류자에 의한 필터링 시스템보다 우수한 성능올 보였으며, 특히 ALL의 경우가 가장 높은 성능을 보였다. 또한 Incremental Learning을 이용한 지속적인 학습을 통해 스팸메일에 대한 필터링 성능은 시간이 경과에 따라 점차적으로 향상됨을 알 수 있었다. 향후 과제로는 수신된 메일들을 실시간으로 학습하여 최적의 가중치를 시스템 스스로 찾아낼 수 있는 방법을 연구하거나, False- positive 문제를 해결하는 방안을 연구하여 필터링 성능을 극대화시키는 방법, 또한 Support Vector Machine[19] 등의 다양한 이론들을 접목한 시스템을 통해 메일 필터링에 적합한 최적의 시스템을 제시할 수 있을 것이다.
총 5가지의 가중치에서 H_T, H_L, ALL의 경우 False-Positive 문제가 발생하는데, 이는 메일서비스 업체에서 제공하는 E- Card, 음악 메일 등에서 스팸 메일의 Feature로 규정된 HTMLT ag, Hyper Link 등의 둥장이 원인이었다. 또한 가중치를 부여하지 않은 시스템 (N_T) 에서 False_positive 문제는 평균 약 3.9% 적었으나, 반면에 가중치를 부여한 A스템보다 재현율이 평균 20% 저조한 성능을 보였다.
스팸의 경우, 제안하는 시스템이 정확도 면에서 N_T 보다 5.7% 저조한 결과를 보였으나, 재현율에서 33.3%, F-measure 측정 결과에서 31.2%의 우수한 결과를 보였다.
이와 더불어 전처리 단계(Pre-Processing)와 지능형 에이전트(Intelligent Agent)와의 결합을 통해 필터링 성능을 향상시켰다.
제안한 시스템의 성능을 나이브 베이지안 분류자만 사용한 시스템, 메일 헤더의 Subject, HTML Tag, Hyper Link, 그리고 앞의 모든 것을 통합한 시스템, 총 5가지 순으로 비교 평가하였을 때 전반적으로 스팸 재현율과 정확도 등, 수신된 메일들 중에서 스팸 메일을 분류해내는데 있어 단순한 나이브 베이지안 분류자에 의한 필터링 시스템보다 우수한 성능올 보였으며, 특히 ALL의 경우가 가장 높은 성능을 보였다. 또한 Incremental Learning을 이용한 지속적인 학습을 통해 스팸메일에 대한 필터링 성능은 시간이 경과에 따라 점차적으로 향상됨을 알 수 있었다.
3%의 성능 향상 결과를 얻을 수 있었다. 특히 N_T의 경우 10.4%로 가장 큰 성능 향상을 보였으며, H_L의 경우 약 4.3%로 가장 작은 성능 향상을 보였다.

후속연구

또한 Incremental Learning을 이용한 지속적인 학습을 통해 스팸메일에 대한 필터링 성능은 시간이 경과에 따라 점차적으로 향상됨을 알 수 있었다. 향후 과제로는 수신된 메일들을 실시간으로 학습하여 최적의 가중치를 시스템 스스로 찾아낼 수 있는 방법을 연구하거나, False- positive 문제를 해결하는 방안을 연구하여 필터링 성능을 극대화시키는 방법, 또한 Support Vector Machine[19] 등의 다양한 이론들을 접목한 시스템을 통해 메일 필터링에 적합한 최적의 시스템을 제시할 수 있을 것이다.

참고문헌 (24)

한국전산원, '국가정보화백서(National Informatization White Paper)', pp. 23, 2002
Internet E-mail Corporate Usage Report, www.securitymanagenment.com/library/worldtalk0200.html
정보통신부, 정보통신망 이용촉진 및 정보보호 등에 관한 법률 시행령 제11조 (영리목적의 광고성 전자우편의 명시방법), 2002
Ricardo, B.-Y. and Berthier, R.-N., Modern Information Retrieval, pp.27, Addison-Wesley, 1999
Provost, J., 'Naive-Bayes vs. Rule-Learning in Classification of Email,' Technical report, Dept. of Computer Sciences at the U. of Texas ay Austin, 1999
Diao, Y., Lu, H. and Wu, D., 'A Comparative Study of Classification Based Personal E-mail Filtering,' Proc. of PAKDD-00, 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining, 2000

상세보기
Cohen, W.W., 'Learning Rules that Classify E-Mail ,' Proc. of the AAAI Spring Symposium on Machine Learning in Information Access, 1996
Sahami, M., Dumais, S., Heckerman, D. and Horvitz, E., 'A Bayesian Approach to Filtering Junk E-Mail. In Learning for Text Categorization,' Proc. of the AAAI Workshop;AAAI Technical Report WS-98-05, 1998
Androutsopoulos, I., Koutsias, J., Chandrinos, K. V., Spyropoulos, C. D., 'An Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Personal E-Mail Messages,' Proc of the 23rd Annual International ACM SIGIR Conference on Reach and Development in Information Retrieval, 2000
Rev. T. B., 'An essay toward solving a problem in the doctrine of chances,' Philosopical Transactions of London, vol. 53, pp.370-418, 1763

상세보기
Androutsopoulos, I., Koutsias, J., Chandrinos, K. V., Paliouras, G. and Spyropoulos, C. D., 'An Evaluation of Naive Bayesian Anti-Spam Filtering,' Proc fo the 11th European Conference on Machine Learning, pp.9-17, 2000
Mitchell, T. M., Machine Learning, Chapter 6: Bayesian Learning, McGraw-Hill, 1997
Han, J., 'Data Mining: Concepts and Techniques,' Morgan Kaufmann, 2001
http://popfile.sourceforge.net/
Thomas, G. and Peter, A. F., 'Weighted Bayesian Classification based on Support Vector Machine,' Proc. of the 18th International Conference on Machine Learning, pp. 207-209, 2001
고수정, 이정현, 'Apriori 알고리즘에 의한 연관단어 지식 베이스에 의한 가중치가 부여된 베이지안 자동 문서 분류', 멀티미디어학회 논문지 제4권 제2호, 2001
Ferreira, J. T. A. S., Denison, D. G. T., Hand, D. J., 'Weighted Naive Bayes modeling for data mining,' Technical report, Dept. of Mathematics at Imperial College. 2001
Russell, S. I. and Norving, P., Arificial Intelligence - A Modern Approach, Prentice Hall, pp.525-529, 1995
Denzinger, J. and Ennis, S., 'Being the new guy in an experienced team - enhancing training on the job,' Proc. of the 1st International Joint Conference on Autonomous Agents and Multiagent Systems, Pt3, 2002
Graham, P., 'Better Bayesian Filtering,' Article of Spam Conference, 2003
조한철, 조근식, '나이브 베이지안 분류자와 메세지 규칙을 이용한 스팸메일 필터링 시스템', 한국정보과학회, 제29회 춘계학술대회, 2002
Fox, C., 'Lexical analysis and stop lists. In Information Retrieval: Data Structures and Algorithms,' Prentice-Hall, 1992
Joachims, T., 'Text Categorization with Support Vector Machines: Learning with Many Relevant Features,' European Conference on Machine Learning, 1998

상세보기
http://email.about.com/cs/bayesianspamsw/

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증