[논문]한국어와 영어 스팸메일의 필터링 성능 분석

황운호; 강신재; 김태희; 김희재; 김종완

문제 정의

본 연구의 목적은 한국어 시스템과 영어 시스템의 우열을 가림이 아니라 각 시스템의 성능을 객관적으로 분석하는 것이다.

제안 방법

1단계 필터링에서는 학습 시킬 스팸메일들에서 송신자 메일주소, 메일 본문에 포함된 URL, 그리고 제목 및 본문에 포함된 단어들을 스팸키워드로 인식하고 SPAM DB를 구축하였다. 단, 본문에 포함된 단어는 3번 이상의 빈도를 가질 때 포함시켰다.
하지만 송신자의 정보는 위조되거나 누락될 수도 있으며, 모든 스팸 메일을 구분할 수 있는 확실한 정보를 구축하기에는 어려운 문제가 있다. 그래서 텍스트 정보와 같이 이보다 덜 명확한 정보들(less definite information)을 따로 구분하여 앞에서 추출한 자질을 기준으로 속성벡터를 만든 후, SVM 알고리즘의 학습을 통하여 필터링에 적용한다. 2장에서는 SVM에 대해서 알아보고 3장에서 본 시스템의 전 반적인 흐름을 설명한다.
한국어 메일의 형태소 분석은 포항공과대학교 (POSTECW에서 개발한 KoMA 를 이용하였으며 영어 메일의 Stemminge Porter Stemming Algorithm [16]을 활용하였다. 그런 다음 이 후보자질들을 정보획득량(Information Gain), 카이제곱(Chi Square) 그리고 상호정보(Mutual Information)등과 같은 여러 자질 추출 알고리즘에 적용시켜 변별력 있는 단어들 순으로 내림차순 정렬하여 SVM 학습에 사용할 자질들을 추출하였다. 자질들의 수에 따른 hirm과 sm을 비교 실험한 결과는 표 3과 표 4에 나타나 있다.
그렇기 때문에 최적의 스팸 분류 기준 값을 찾기 위해 임의의 스팸 분류 기준 값을 정하여 테스트를 시행한다. 한국어와 영어에 대해서 90% 학습데이터의 SVM 반환 값으로 성능을 평가해보면 표 7, 그림 8과 표 8, 그림 9와 같다.
이렇게 실험한 결과를 바탕으로 시스템을 구축한다. 그리고 본 시스템은 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 전자우편 주소와 URL과 같은 정보와 확실한 스팸 키워드 리스트를 확실한 정보군(definite information)으로 구분하여 필터링 작성 시 먼저 적용하게 된다. 하지만 송신자의 정보는 위조되거나 누락될 수도 있으며, 모든 스팸 메일을 구분할 수 있는 확실한 정보를 구축하기에는 어려운 문제가 있다.
이러한 결과가 나타나는 이유는 카이제곱 알고리즘으로 추출된 자질들이 스팸 메일과 일반 메일을 구분할 수 있는 변별력이 높기 때문이다. 따라서 본 시스템은 한국어메일와 영어 메일에서 후보 자질들 중에 가운데 변별력이 높은 자질 3,000개를 카이제곱을 이용해 추출하여 나머지 실험을 진행하였다.
따라서 우리는 카이제곱 알고리즘으로 3000개의 자질을 추출하여 한국어 시스템과 영어 시스템 각각에 SVM 분류기를 만들어 적용시켰다. 본 시스템은 2단계 스팸 메일 필터링 방법을 사용하였으며 2단계의 경우 최적의 성능을 낼 수 있도록 학습 시 이용되었던 메일을 이용하여 SVM 반환 값의 분포를 확인하여 스팸 분류 기준값을 정하였다.
스팸 메일은 국적을 불문하고 전 세계적인 이슈가 되며 해결해야할 문제로 인식되고 있다. 따라서 한국어 메일과 영어 메일을 대상으로 SVM 기계학습 기법을 이용하여 효율적인 스팸 메일 필터링 시스템을 구성하여 필터링 성능을 살펴보았다.
SVM 학습을 위해서는 어떤 단어나 구의 존재 유무를 가리기 위한 기준이 되는 자질들이 필요하고 그 자질들에 대해서 각 메일들 내에 포함된 단어나 구의 존재 유무를 나타내는 속성값이 필요하다. 본 논문에서는 먼저 스팸 메일을 가리는 기준이 되는 자질을 선정하는 여러 알고리즘들을 한국어 스팸 메일과 영어 스팸 메일에 적용하여 최고의 성능을 내는 알고리즘과 자질의 수를 결정한다. 그런 다음 실제 한국어와 영어 스팸 메일 필터링 시스템의 성능을 비교하여 분석해 보도록 한다.
본 논문에서는 스팸 메일의 특성상 메일의 본문에서 추출할 수 있는 텍스트 정보가 한정되어 있는 문제를 해결하기 위하여, 거의 모든 스팸 메일에 포함되어 있는 하이퍼링크를 활용한다. 메일에서 추출된 하이퍼링크를 따라가서 해당 웹 페이지를 가져오게 되는데, 이것에는 스팸 메일인지 여부를 가릴 수 있는 힌트를 포함하고 있을 확률이 높기 때문에 본 시스템의 성능을 높이는데 큰 도움을 주게 된다.
따라서 우리는 카이제곱 알고리즘으로 3000개의 자질을 추출하여 한국어 시스템과 영어 시스템 각각에 SVM 분류기를 만들어 적용시켰다. 본 시스템은 2단계 스팸 메일 필터링 방법을 사용하였으며 2단계의 경우 최적의 성능을 낼 수 있도록 학습 시 이용되었던 메일을 이용하여 SVM 반환 값의 분포를 확인하여 스팸 분류 기준값을 정하였다. 최종적으로 1단계 필터링, 2단계 필터링 그리고 1+2단계 필터링으로 성능을 분석하였다.
스팸 메일 필터링 시스템의 성능평가를 위해서는 TREC 에서 평가지표로 제시한 hm (ham misclassification) 과 sm(spam misclassification) 그리고 이 둘을 산술평균한 값을 이용하여 평가하였다. hme 일반 메일을 스팸 메일로 잘못 분류한 비율이고 sme 스팸 메일을 일반 메일로 잘 못 분류한 비율이다.
스팸 메일을 효과적으로 가려내기 위하여 본 연구에서는 힌트(속성 또는 특징)를 확실한 정보(definite information) 와 덜 확실한 정보 (less definite information)의 두 가지로 구분하였다. 학습단계에서의 전체적인 처리과정은 그림 1에 제시되어 있다.
실험 데이터는 전체 100%의 메일 데이터 중 90%를 이용하여 학습을 한 후 10%의 메일로 테스트 하는 방식으로 진행한다.
이를 바탕으로 스팸 메일과 일반 메일을 분류하는 스팸 분류 기준 값을 지정한 후 1단계만 실험, 2단계만 실험 그리고 1단계와 2단계를 모두 구죽한 후 실험하여 성능을 평가하였다. 성능 평가 결과는 표 9, 표 10과 같다.
이 속성벡터를 구성하기 위해서는 우선 기준이 되는 자질을 어떻게 선택하는 지가 관건이다. 이를 위해서 본 연구에서는 한국어와 영어를 각각 따로 실험을 진행하며 자질 선정을 위하여 여러 특징 추출 알고리즘을 활용하여 변별력이 높은 순으로 자질을 추출한다. 추출된 자질들을 기준으로 여러 개수로 나누어 실험한 후 성능을 평가하여 최적의 특징 추출 알고리즘과 자질 개수를 구한다.
자질 선정 실험에서 선정된 자질 3000개를 기준으로 한국어 시스템과 영어 시스템에서 각각 실험데이터의 90%를 가지고 SVM 특징벡터를 구성하여 학습을 수행한다. 각 메일의 수는 표 5와 표 6에 나타나 있다.
본 시스템은 2단계 스팸 메일 필터링 방법을 사용하였으며 2단계의 경우 최적의 성능을 낼 수 있도록 학습 시 이용되었던 메일을 이용하여 SVM 반환 값의 분포를 확인하여 스팸 분류 기준값을 정하였다. 최종적으로 1단계 필터링, 2단계 필터링 그리고 1+2단계 필터링으로 성능을 분석하였다.
이를 위해서 본 연구에서는 한국어와 영어를 각각 따로 실험을 진행하며 자질 선정을 위하여 여러 특징 추출 알고리즘을 활용하여 변별력이 높은 순으로 자질을 추출한다. 추출된 자질들을 기준으로 여러 개수로 나누어 실험한 후 성능을 평가하여 최적의 특징 추출 알고리즘과 자질 개수를 구한다. 이렇게 실험한 결과를 바탕으로 시스템을 구축한다.

대상 데이터

아직까지 한국어를 대상으로 한 전자우편 말뭉치가 공개된 적이 없기 때문에, 본 실험에서는 수작업으로 메일을 수집하여 사용하였으며 영어의 실험 말뭉치는 TREC(Text REtreval Confrence) Spam Track[15]에서 제공하는 spamassasin 말뭉치를 이용하여 실험하였다.

이론/모형

객관적인 성능평가를 위하여 10층 교차 확인법(10-fold cross validation)을 사용하였다. 이는 전체 전자우편 말뭉치를 균등하게 10등분한 다음, 9개는 학습에 사용하고 나머지 한 개는 성능 테스트를 위해 사용하는 방법으로, 각 등분들이 한 번씩 테스트 용도로 사용되도록 10번 반복 실험을 한 후, 그 결과들을 평균 내는 방법이다.
SVMe 비선형 패턴 인식 문제, 함수 회귀 문제, HCKHuman-Computer Interaction), 데이타마이닝, Web Mining, 컴퓨터 비전, 인공지능, 의학 진단 등의 분야에서 다양하게 활용될 것으로 보이며, 최근 매우 활발하게 연구가 진행되고 있다. 본 연구에서는 Witten[13]이 개발한 WEKA (Waikato Environment for Knowledge Analysis) 패키지에 포함된 SVM 분류기를 이용하여 실험하였다. WEKA는 실제 응용 프로그램에서 기계학습 알고리즘의 구현을 돕기 위해 만들어진 도구이다.
이 단어들이 SVM 학습에 사용된 후보 자질들이다. 한국어 메일의 형태소 분석은 포항공과대학교 (POSTECW에서 개발한 KoMA 를 이용하였으며 영어 메일의 Stemminge Porter Stemming Algorithm [16]을 활용하였다. 그런 다음 이 후보자질들을 정보획득량(Information Gain), 카이제곱(Chi Square) 그리고 상호정보(Mutual Information)등과 같은 여러 자질 추출 알고리즘에 적용시켜 변별력 있는 단어들 순으로 내림차순 정렬하여 SVM 학습에 사용할 자질들을 추출하였다.

성능/효과

본 연구에서는 SVM 기계학습에 필요한 속성벡터를 구성할 때의 기준이 되는 자질을 선정하는 여러 알고리즘과 자질의 개수를 다르게 하여 한국어 시스템과 영어 시스템에서 성능을 비교하였으며 카이제곱 알고리즘으로 3000개의 자질을 추출하여 이용하였을 때 한국어 시스템과 영어 시스템 모두에서 최고의 성능을 보임을 확인하였다.
실험 결과 1단계만 적용시킬 때 혹은 2단계만 적용시켰을 때 보다 두 단계를 모두 적용시켰을 때 최고의 성능을 보임을 확인하였고 한국어 시스템과 영어 시스템 모두에서 스팸 필터링 성능이 우수함을 확인하였다. 실제 사용될 시스템에서는 hm과 sm의 가중치를 달리하여 스팸 분류 기준 값을 정할 필요가 있을 것으로 생각된다.
실험결과를 보면 한국어 시스템의 경우 -0.15를 기준으로 분류하였을 때 최적의 성능을 보였으며 영어 시스템의 경우 0.55를 기준으로 분류하였을 때 최적의 성능을 보임을 알았다.
실험결과에서 알 수 있듯이 한국어 시스템과 영어 시스템 모두에서 카이제곱으로 3000개의 자질을 선택하였을 때 SVM의 성능이 제일 좋게 나타나는 것을 확인할 수 있다. 이러한 결과가 나타나는 이유는 카이제곱 알고리즘으로 추출된 자질들이 스팸 메일과 일반 메일을 구분할 수 있는 변별력이 높기 때문이다.
Yang[4]에서는 텍스트 정보와 송신자 이름, 송신자 소속 등과 같은 메타 데이터를 이용하여 스팸 메일을 구분하고자 하였는데, TFIDF보다 나이브 베이지안과 SVM (Support Vector Machines)이 훨씬 좋은 결과를 보임을 실험을 통해 입증하였다. 특히 메일의 헤더에서 추출한 속성을 SVM에 적용하였을 때 가장 좋은 결과를 보였다. 스팸 메일 필터링이나 메일의 자동분류에 관한 최근의 연구들을 대체적으로 살펴보면 TFIDF나 나이브베이지안, 의사결정 트리와 같은 기존의 분류 알고리즘보다 Vapniklll]가 고안한 SVM이 보다 나은 성능을 보이고 있음을 알 수 있다[4, 5, 6], 이는 SVM이 스팸 메일 필터링과 같은 이진 분류 문제(two-class problem)°11 적합하기 때문이라고 볼 수 있다.

후속연구

실험 결과 1단계만 적용시킬 때 혹은 2단계만 적용시켰을 때 보다 두 단계를 모두 적용시켰을 때 최고의 성능을 보임을 확인하였고 한국어 시스템과 영어 시스템 모두에서 스팸 필터링 성능이 우수함을 확인하였다. 실제 사용될 시스템에서는 hm과 sm의 가중치를 달리하여 스팸 분류 기준 값을 정할 필요가 있을 것으로 생각된다.
향후 연구에는 기계학습 기법과 더불어 시멘틱 웹 기술의 하나인 온톨로지(ontology)와 추론(reasoning)기법을 도입하면 좀 더 효율적인 필터링이 가능할 것으로 생각된다. 온톨로지를 구성한 후 추론을 수행하면 사실을 바탕으로 더 많은 정보를 컴퓨터가 이해하고 판단할 수 있기 때문이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어와 영어 스팸메일의 필터링 성능 분석
Analysis of filtering performance of Korean and English spam-mails 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한국어와 영어 스팸메일의 필터링 성능 분석 Analysis of filtering performance of Korean and English spam-mails 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한국어와 영어 스팸메일의 필터링 성능 분석
Analysis of filtering performance of Korean and English spam-mails 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper