[논문]Lifelong Machine Learning 기반 스팸 메시지 필터링 방법

안연선; 정옥란

doi:10.7471/ikeee.2019.23.4.1393

초록
AI-Helper

인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

Abstract ▼ AI-Helper

With the rapid growth of the Internet, millions of indiscriminate advertising SMS are sent every day because of the convenience of sending and receiving data. Although we still use methods to block spam words manually, we have been actively researching how to filter spam in a various ways as machine...

With the rapid growth of the Internet, millions of indiscriminate advertising SMS are sent every day because of the convenience of sending and receiving data. Although we still use methods to block spam words manually, we have been actively researching how to filter spam in a various ways as machine learning emerged. However, spam words and patterns are constantly changing to avoid being filtered, so existing machine learning mechanisms cannot detect or adapt to new words and patterns. Recently, the concept of Lifelong Learning emerged to overcome these limitations, using existing knowledge to keep learning new knowledge continuously. In this paper, we propose a method of spam filtering system using ensemble techniques of naive bayesian which is most commonly used in document classification and LLML(Lifelong Machine Learning). We validate the performance of lifelong learning by applying the model ELLA and the Naive Bayes most commonly used in existing spam filters.

주제어

표/그림 (5)

그림 Fig. 1. LLML based spam filtering system. 그림 1. LLML 기반 스팸 필터링 시스템
그림 Fig. 2. Basic Lifelong learning process. 그림 2. 기본 LL 학습 과정
표 Table 1. Number of spam reports by category. 표 1. 카테고리별 스팸 신고 건수
표 Table 2. Results of Naive Bayes Spam Filter. 표 2. 나이브 베이즈 스팸 필터 결과
표 Table 3. Results of ELLA Spam Filter. 표 3. ELLA 스팸 필터 결과

AI 본문요약
AI-Helper

문제 정의

이러한 현안을 해결하기 위해, 본 논문에서는 LLML을 기반으로 스팸을 필터링하는 방법에 대해 제안한다.

제안 방법

본 논문에서는 나이브 베이즈로 스팸을 빠르게 우선 분류하고, 변하는 스팸의 유형과 패턴에 적응하기 위해 LLML 모델 ELLA에 적용하여 더 정확히 분류하도록 한다. 각 작업을 스팸의 유형으로 가정하여, 각 작업 모델은 도박 스팸인지 비스팸인지, 또는 대리운전 스팸인지 비스팸인지 등을 예측 할 수 있다.
나이브 베이즈 분류기에서는 단어들이 스팸에서 등장할 확률, 비스팸에서 등장할 확률을 계산하여 새로 입력된 SMS가 스팸인지, 그렇다면 도박, 대리운전, 선거 등 어떤 유형에 속하는 지를 계산한다. 이 때 입력된 SMS가 스팸이고 각 스팸 유형에 해당할 확률 값을 추출했을 때 최댓값이 0.65 이하면, 즉 어느 유형에 확실하게 속한다는 뚜렷한 차이가 보이지 않는다면, LLML 모델에 재학습시킴으로써 유형을 더 정확히 분류하도록 한다.

대상 데이터

실험을 위해 KISA에서 제공받은 23,170건의 스팸 문자 데이터를 사용하였다. 데이터는 총 19개의 스팸 카테고리로 분류되어 있으나 보다 명확한 분류를 위해 신고된 빈도수 상위 5가지와 나머지 스팸, 그리고 비스팸으로 총 7가지를 분류하였다.

데이터처리

우리는 나이브 베이즈 분류기와 ELLA를 이용하여 스팸에 지속적으로 대응하는 스팸 필터링 시스템을 구현한다. 제안하는 시스템의 검증을 위해 나이브 베이즈 분류기만 사용했을 때와 ELLA를 적용했을 때의 정확도를 비교한다.

이론/모형

본 논문에서는 LL 환경에서 온라인 다중 작업 학습을 위해 ELLA(Efficient Lifelong Learning Algorithm)모델을 사용한다[9]. ELLA는 모든 작업에 대해 작업 모델을 개별 구축하고 이 모든 모델에 대해 희박한 공유 기반을 유지하며, 그 기반으로부터 지식을 전이하여 새로운 작업을 학습하고, 계속적으로 학습함에 따라 기반을 다듬어 모든 작업에 걸쳐 성능을 극대화한다.

성능/효과

여러 작업 모델을 개별적으로 구축하고 점진적으로 학습하기 때문에 스팸 유형별 특징을 각각 반영하고 기존 나이브 베이즈 분류기보다 우수한 성능을 낼 수 있었음을 실험을 통해 검증했다.

후속연구

또한 작업 모델들 사이에 공유 기반을 유지하기 때문에 좀 더 다양한 유형의 스팸이 적은 수로 등장해도 좋은 분류 성과를 보여줄 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	무차별적인 광고성 메일인 스팸 메일의 문제점은?	일반 사용자들은 이러한 스팸 메일이나 문자를 지우고 정리하는 데만 적지 않은 시간을 소요하고, 네트워크상에서도 엄청난 양의 패킷이 낭비되면서 스팸이 사회문제로 부각되었다. 이러한 문제를 해결하기 위해 정보통신부에서는 ‘정보통신망 이용촉진 및 정보보호 등에 관한 법률 시행령 및 시행규칙 개정안’을 마련해 두었으며, KISA에서는 불법 스팸대응 시스템을 통해 대책을 마련하고 서비스하고 있다.
	광고성 스팸 문자와 메일이 무차별적으로 발송되는 이유는?	인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다.
	스팸 메일이란?	이 때문에 기업에서는 여전히 업무용 커뮤니케이션 수단으로써 이메일 사용이 거의 절대적이다. 하지만 송수신의 편리성과 비용이 들지 않는다는 장점으로, 많은 업체들이 무차별적인 광고성 메일을 발송하고 있다. 이를 스팸 메일이라고 불리며, 메일 뿐만 아니라 일반 우편, 게시판, 문자 메시지, 전화, SNS 쪽지 기능 등 여러 수단을 통해 수신되고 있다.

참고문헌 (11)

JM Gomez Hidalgo, GC Bringas, EP Sanz, and FC Garcia, "Content based SMS spam filtering," Proceedings of the 2006 ACM symposium on Document engineering, pp.107-114, 2006. DOI: 10.1145/1166160.1166191
Andrew McCallum and Kamal Nigam, "A Comparison of Event Models for Naive Bayes Text Classification," AAAI-98 on learning for text categorization, 1998.
Le Zhang, Jingbo Zhu, and Tianshun Yao, "An Evaluation of statistical spam filtering techniques," ACM Transaction on Asian Language Information Processing, pp.243-269, 2006. DOI: 10.1145/1039621.1039625
Vangelis Metsis, "Spam Filtering with Naive Bayes-Which Naive Bayes?," CEAS, 2006.
Zhiyuan Chen and Bing Liu, "Lifelong Machine Learning, Second Edition," Morgan & Claypool publishers, 2018.
Zhiyuan Chen, Nianzu Ma, and Bing Liu, "Lifelong learning for sentiment classification," ACL, pp 750-756, 2015.
Ion Androutsopoulos and John Koutsias, "An Evaluation of Naive Bayesian Anti-Spam Filtering," ECML, pp.9-17, 2000.
Abhishek Kumar and Hal Daume III, "Learning Task Grouping and Overlap in Multi-Task Learning," arXiv:1206.6417, 2012.
P Ruvolo and E Eaton, "ELLA: An efficient lifelong learning algorithm," ICML, 2013.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, "Efficient Estimation of word Representations in Vector Space," arXiv:1301.3781 v3, 2013.
Quoc Le, Toman Milokov, "Distributed Representations of Sentences and Documents," Proc. of the 31st ICML, 2014.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법
A Method for Spam Message Filtering Based on Lifelong Machine Learning 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (5)

표/그림 (5)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 A Method for Spam Message Filtering Based on Lifelong Machine Learning 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (5) 모든 표/그림 보기

표/그림 (5) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

정옥란 (7)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법
A Method for Spam Message Filtering Based on Lifelong Machine Learning 원문보기

초록
AI-Helper

표/그림 (5)

표/그림 (5)

AI 본문요약
AI-Helper