[논문]휴대폰 SMS를 위한 SVM 기반의 스팸 필터링 시스템

조인휘; 심혜택

휴대폰 SMS를 위한 SVM 기반의 스팸 필터링 시스템
A SVM-based Spam Filtering System for Short Message Service (SMS) 원문보기

한국통신학회논문지. The Journal of Korea Information and Communications Society. 네트워크 및 서비스, v.34 no.9B, 2009년, pp.908 - 913

조인휘 (한양대학교 컴퓨터공학부 이동네트워크 연구실) , 심혜택 (한양대학교 컴퓨터공학부 이동네트워크 연구실)

초록
AI-Helper

휴대 전화는 이제 우리의 일상생활에서 없어서는 안 될 중요한 가전 기기로 자리 잡았다. 이러는 와중에 휴대폰에서 사용하는 문자 메시지 사용량 역시 꾸준하게 증가하여 현재는 음성 통화 이용량의 1.5배에서 2배에 이르고 있다. 문자 메시지의 사용량이 증가함에 따라 스팸 문자 메시지도 따라서 증가하였는데 기존의 모바일 기기에서의 스팸 필터링 방식은 단순 문자열 비교나 특정 번호 차단과 같은 아주 기초적인 수준으로 스팸 메시지를 필터링하고 있는 실정이다. 본 논문에서는 SVM(Support Vector Machine)과 시소러스(thesaurus) 사전을 이용하여 좀 더 강력하고 적응적인 스팸 필터링 시스템을 제안하였다. 제안한 시스템은 샘플 문자 메시지로부터 전처리 기를 이용하여 문자 메시지 속에 담겨 있는 단어를 추출 한 후, 추출된 단어를 시소러스 사전을 이용하여 해당 의미가 가지는 대표 단어로 변경하였다. 변경된 단어들에서 카이 제곱 통계량을 계산하여 그 값이 높은 단어들을 특징 단어로 선정하였고 선정된 특징 단어들을 가지고 SVM 분류기로 학습을 진행하였다. 그 후 학습된 분류기를 이용하여 테스트 문자 메시지의 스팸 여부를 분류하였으며 평균 92%의 인식률을 보였다. 제안된 시스템은 PC에서 구현되어 있으며 실험을 통하여 그 성능을 확인하였다.

Abstract ▼ AI-Helper

Mobile phones became important household appliance that cannot be without in our daily lives. And the short messaging service (SMS) in these mobile phones is 1.5 to 2 times more than the voice service. However, the spam filtering functions installed in mobile phones take a method to receive specific number patterns or words and recognize spam messages when those numbers or words are present. However, this method cannot properly filters various types of spam messages currently dispatched. This paper proposes a more powerful and more adaptive spam filtering system using SVM and thesaurus. The system went through a process of isolating words from sample data through pro-processing device and integrating meanings of isolated words using a thesaurus. Then it generated characteristics of integrated words through the chi-square statistics and studied the characteristics. The proposed system is realized in a Window environment and the performance is confirmed through experiments.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 다양한 스팸 문자 메시지의 필터링을 위하여 SVM과 시소러스 사전을 이용하여서 내용 기반의 스팸 문자 메시지 필터링 시스템을 구축 하였고 최적의 성능을 내기 위한 다양한 방법을 연구 하였다. 논문의 구성은 다음과 같다 1절은 본 연구의 배경과 필요성, 그리고 논문의 구성에 대해 설명하였다.
스팸 필터링 컴포넌트는 실제로 삽입된 데이터가 스팸인지 아닌지 판별 하는 컴포넌트이다. 이전 스팸 분류기 학습 컴포넌트에서 생성된 SVM 분류기를 이용하여서 스팸 여부를 분류 하는 것이 이 컴포넌트의 주된 목적이다.

제안 방법

논문의 구성은 다음과 같다 1절은 본 연구의 배경과 필요성, 그리고 논문의 구성에 대해 설명하였다. 2 절은 스팸 필터링 시스템의 설계 및 구현에 관하여 기술 하였으며, 3절은 시스템을 구축하여 실험한 과정을 정리하고, 4절에서 실험한 결과를 바탕으로 결과를 정리, 분석한 후 향후 연구 과제를 제시하였다.
그러한 형식으로 모든 특징 벡터를 0 또는 1로 값을 저장 한 후 SVM 분류기를 통해 학습을 진행 하도록 한다. 커널 함수로는 가우시안 RBF(Radial Basis Function) 커널 함수를 이용 하였다.
본 논문에서 제안한 스팸 문자 메시지 필터링 시스템은 문자 머】시지가 도착하면 수신된 문자 메시지의 발신자와 그 내용을 이용하여 자동으로 스팸 문자 메시지를 분류 하는 기능을 가지고 있다. 제안된 시스템은 특징 벡터의 개수가 150개 일 때 평균 92%라는 만족할 만한 인식률 결과를 얻을 수 있었다.
본 논문에서 제안한 시스템에 대한 성능 평가를 위해서는 문서 분류 및 정보 검색 분야에서 일반적으로 사용되고 있는 분할표를 이용하는 방법을 사용한다. n 개의 이진 결정을 내리는 시스템에서 n개의 결정 결과는 표 1과 같이 요약된다.
카이제곱 통계량이 높을수록 해당 단어의 특징으로서의 의미가 큰 것이다. 본 논문에서는 100, 150, 200, 300개의 특징 벡터를 설정하였고 각각의 특징 데이터 개 수 별로 학습을 진행하였다. 카이제곱 통계량이 높은 단어들을 특징으로 선택 하여서 스팸 분류기 학습 컴포넌트에서 사용한다
커널 함수로는 가우시안 RBF(Radial Basis Function) 커널 함수를 이용 하였다. 본 논문에서는 Constant 값을 10, 20, 40 의 세 단계로 학습 하였고 Gamma 값은 0.01, 0.05, 0.1의 세 단계로 하였다.
시스템은 Windows 운영 체제에서 구축 되었다. 스팸 문자메시지 필터링 엔진은 C언어를 이용하여 만들어졌으며 시소러스는 MySQL DB를 이용하여 구축 하였다. 전처리기는 한국어 형태소 분석기를 [6] 이용하였다.
시스템을 사용하기 전에 다양한 휴대전화 사용자로부터 스팸/비 스팸 문자 메시지를 수집하여서 이것을학습 데이터와 테스트 데이터로 분류 한다. 문자 메시지 포맷은 다음과 같은 정보를 포함한다.
80개이다. 실험은 크게 두 가지 종류로 나눠지는데 첫 번째는 특징 벡터 수 별 인식률의 결과이며 두 번째는 Gamma값과 Constant값에 따른 인식률 결 표 2. 특징 벡터 수 별 인식률 결과과이다
입력된 문자 메시지는 전처리기와 단어 표준화를 통해서 단어를 추출 하였다. 허나 시소러스 사전의 경우 MySQL DB를 이용하여 구축 하였는데 휴대폰 환경에서는 MySQL과 같은 DBMS를 사용할 수 없다.
특징 벡터 추출 컴포넌트와 스팸 분류기 학습 컴포넌트는 학습 엔진으로써 PC환경에서 수행을 하도록 설계 하였으며 스팸 필터링 컴포넌트는 실제로 스팸 문자 메시지를 분류 하는 컴포넌트이므로 임베디드환경 에서도 동작 할 수 있도록 설계 및 구현을 하였다.

대상 데이터

위의 표 2에서 알 수 있듯이 특징 벡터의 개수가 150개일 때 가장 안정적인 인식률을 보인다. 고로 Constant 와 Gamma값에 따른 인식률에 대한 결과는 특징 벡터의 개수를 150개로 선정한 상태에서 실험을 진행 하였다.
학습에 사용한 문자 메시지는 스팸 문자 메시지 100개, 비 스팸 문자 메시지 200개이며 실제 테스트에 사용된 스팸 문자 메시지는 80개, 비 스팸 문자 메시지는 80개이다. 실험은 크게 두 가지 종류로 나눠지는데 첫 번째는 특징 벡터 수 별 인식률의 결과이며 두 번째는 Gamma값과 Constant값에 따른 인식률 결 표 2.

데이터처리

즉 문자 메시지들을 전처리기 및 단어 표준화를 거쳐서 모아 놓으면 학습 데이터 전체를 이용해서 카이제곱 통계량을 계산 한다. 카이제곱 통계량이 높을수록 해당 단어의 특징으로서의 의미가 큰 것이다.
카이제곱 통계량으로 단어들의 상대 도수를 분석한 후 그 값이 높은 순으로 특징 벡터를 선정 한 다음 테스트 데이터를 통해서 인식률을 비교 한 것이다. 위의 표 2에서 알 수 있듯이 특징 벡터의 개수가 150개일 때 가장 안정적인 인식률을 보인다.

이론/모형

전처리기는 한국어 형태소 분석기를 [6] 이용하였다. 이 한국어 형태소 분석기를 통해 형태소 분석 및, 불용어 저】거, 자동 단어 띄어쓰기, 수사어절 표준화를 진행 하였다 SVM 학습의 도구로는 OpenCV의 SVM모듈을 이용하였다";〕. OpenCV는 오픈 소스 기반의 영상 처리를 위한 컴퓨터 라이브러리로써 KNN, SVM, 결정 트리, 신경망 등 다양한 기계 학습 엔진을 제공 한다
스팸 문자메시지 필터링 엔진은 C언어를 이용하여 만들어졌으며 시소러스는 MySQL DB를 이용하여 구축 하였다. 전처리기는 한국어 형태소 분석기를 [6] 이용하였다. 이 한국어 형태소 분석기를 통해 형태소 분석 및, 불용어 저】거, 자동 단어 띄어쓰기, 수사어절 표준화를 진행 하였다 SVM 학습의 도구로는 OpenCV의 SVM모듈을 이용하였다"〕.
한다. 커널 함수로는 가우시안 RBF(Radial Basis Function) 커널 함수를 이용 하였다. 본 논문에서는 Constant 값을 10, 20, 40 의 세 단계로 학습 하였고 Gamma 값은 0.

성능/효과

분류 하는 기능을 가지고 있다. 제안된 시스템은 특징 벡터의 개수가 150개 일 때 평균 92%라는 만족할 만한 인식률 결과를 얻을 수 있었다.
제안한 스팸 필터링 시스템은 학습 데이터와 유사한 스팸 문자 메시지의 경우 높은 빈도수로 문자 메시지를 인식하나 학습되지 않은 패턴의 스팸 문자 메시지인 경우에는 검출률이 떨어지는 한계를 보였다. 이것은 기계 학습 알고리즘의 한계로서 다양한 패턴의 학습 데이터를 보유함으로써 극복이 가능할 것으로 예상 된다.
표 3에서 보듯이 특징 벡터 150개를 기준으로 한 Constant와 Gamma값에 따른 결과를 보면 최적의 Constant값은 20이고 그에 따른 Gamma값은 0.01 일 때 가장 높은 인식률을 보였다.

후속연구

그리고 동음이의어가 시소러스 단어 사전을 이용해서 유의어를 검색 할 경우 다른 의미로 검색되는데, 이로 인해 오인식이 발생 하였다. 이러한 동음이의어에 대한 처리는 단어의 전후 문맥을 분석하여 해당 단어의 의미를 추정 하는 연구를 진행함으로-써 동음이의어에 대한 오인식률을 낮출 수 있을 것으로 생각된다.

참고문헌 (8)

임혜영, 'SVM 분류기를 이용한 문서 범주화 연구', 연세대학교 문헌정보학과 석사학위 논문, 2000
박진우, 고영중, 서정연, '문서 요약 기법을 이용한 자동 문서 범주화', 제 13회 한글 및 한국어정보처리 학술대회, 138-145, 2001
C. Cortes and V. Vapnik, 'Support vector network' Machine Learning, vol. 20, pp.273-297, 1995

상세보기
N. Cristianini, J. S. Talor, An Introduction to Support Vector Machines and Other Kernelbased Learning Methords, Cambridge University Press 2000
Berges, C. J. ' tutorial on Support Vector Machine for pattern recognition', Data Mining and Knowledge Discovery 2, pp121-167 1998

상세보기
김태희, '스팸 메일 필터링 시스템에서 어휘 정보와 시소러스의 영향 분석', 대구대학교 컴퓨터 공학과 박사 학위 논문 2005
한국어 형태소 분석기 http://nlp.kookmin.ac.kr/HAM/kor/index.html
Yihui Xie'An Introduction to Support Vector Machine and Implementation in R'. May 8, 2007

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증