[논문]사용자 행동 패턴을 기반으로 가중치를 부여한 스팸 메일 필터링

한아성; 김현준; 조근식

문제 정의

이것은 Concept Drift 라는 개념으로, 사용자는 스팸 메일로 간주했던 메일에 대해 얼마간의 시간이 흐른 뒤 관심을 보일 수도 있고, 반대로 어떤 주제와 관련한 메일에 대한 관심이 차츰 줄어드는 경우가 있을 수 있다. 따라서 본 논문에서는 액션들 간의 관계를 분석하여 하나의 메일에 대해 사용자가 어떤 액션을 취한 뒤 다른 액션을 취하는 지, 나아가 그 액션 사이의 시간까지 고려하여, 취해진 액션들이 얼마만큼의 의미를 가지며 그것이 스팸 메일 필터링에 얼마나 영향을 미치게 될 지를 분석하여 가중치를 주고자 한다.
이렇게 개인화된 학습과 적응 학습을 포함함으로써 기존의 베이지안 분류자[12] 및 나이브베이지안 분류자에 비해 향상된 성능을 볼 수 있다. 본 논문에서는 사용자의 액션을 세밀하게 분류함에 따라 가중치를 차별화하며 시간에 따라 그 가중치의 정도를 달리 함으로써 향상된 학습 성능을 얻을 수 이도록 한다.
본 논문에서는 시간의 경과에 따른 사용자의 액션 패턴을 기반으로 사용자의 관심에 따른 가중치를 적용하여 적응 학습(Adaptive learning)을 통해 분석해 스팸 메일 여무를 가리는 방법을 다룰 것이다. 사용자의 관심은 지속적으로 변화하므로, 이를 적절하게 학습하여 필터링에 반영해야 한다.
본 논문은 사용자의 액션에 기반한 스팸 메일 필터링 기술[3]을 기반으로 하고 있으며 기존 논문에서의 액션 카테고리 분류에 대한 기준의 무정확성을 줄이고 각 액션들에 대한 사용자의 의도를 더욱 명확히 하여 학습속도를 높이는 동시에, 학습된 메일에 추가되는 액션에 대한 의미를 지속적으로 반영함으로써 학습의 성능 향상을 목표로 한다.

가설 설정

사용하였다. 스팸 메일은 중복될 수 있으며, 한번 테스트된 메일은 다시 학습을 위해 사용될 수 있다는 가정 하에 데이터를 분류하였다.

제안 방법

가중치들의 정규화를 위해 각 term 들의 가중치를 최대의 가중치를 갖는 term 의 가중치로 나누어 식에 반영하도록 했다.
각 카테고리에 대해 메일이 할당될 확률을 측정한 것으로, 스팸/논스팸 메일이 얼마나 확실하게 스팸/논스팸 카테고리로 분류되었는 지 □ 비율을 계산하였다. 그림에서 보이듯 초기 필터링 단계에서 60% 이상의 정확도로 메일이 분류되었다.
이 프로파일에 축적된 액션들을 바탕으로 가중치를 무여, 업데이트 해 메일을 학습시킨다. 기본적으로 가중치를 주는 방법은 덧셈 연산을 바탕으로 하며 프로파일에 쌓인 액션의 조합(현재 액션에 대한 가중치를 구하기 위해 바로 앞 액션과의 관계를 살핌)들을 세 가지 경우로 분류하여 각각에 대해 계산식을 달리하여 가중치를 계산하였다. 각 액션에 대한 가중치 계산은 액션 자신의 디폴트 가중치(표 1)를 기반으로 한다.
예를 들어 메일을 'open' 후 'd이ete'했을 때, 그것을 읽은 즉시 삭제하는 경우 혹은 읽은 후 한참 후에 삭제하는 경우 두 가지 모두 메일이 스팸 메일일가능성과 스팸 메일이 아닐 가능성을 내포하므로 필터링의 정확성이 저하되는 원인이 될 수 있다. 따라서 메일을 읽고 삭제하는 과정 사이의 시간에 따라 가중치를 달리 주는 방법을 고안 했다. 먼저, 현재 액션에 대한 가중치를 구하기 위해 바로 전 단계에서 일어난 액션과의 관계를 다음과 같이 세 가지 경우로 분류한다.
이전 액션이 일어난 후 다음의 액션을 바로 취했을 경우 그것이 스팸 메일이 아닐 가능성은 한참 후 액션을 취했을 경우의 가능성보다 매우 높으므로 가중치는 시간에 반비례하는 양상을 띠게 되며, 시간에 따른 가중치의 감소폭 역시 점차 작아지게 된다. 따라서 이러한 로그의 성질을 반영하여 시간에 따라 가중치를 계산하도록 했다. 이 로그 함수를 이용한 식 (1) 의가중치 결정 함수는 다음과 같다.
이는 액션이 추가됨에 따라 가중치를 갱신하여 학습시키는 적응 학습을 적용한 결과 이루어진 것이라 볼 수 있다. 또한 본 논문은 개인화 측면 역시 다루고 있는데, 사용자가 본인의 관심 정도에 따라 메일에 대한 가중치 무여를 정교화하고, 각 개인의 관심 흐름을 지속적으로 반영함에 따른 것이다. 향후 우리가 연구해야 할 것으로, 액션 사이의 관계를 보다 세밀하게 분석함으로써 학습 속도를 더욱 높이는 동시에, 메일의 길이와 시간과의 관계 등 사용자의 액션의 의미를 보다 정확히 파악하여 필터링에 반영하는 방안 등을 모색할 것이다.
본 논문에서 우리는 메일에 대한 사용자의 액션들과 그 액션 사이의 시간에 따라 가중치를 차별화하여 학습한 후, 가중치가 부여된 베이지안 분류자를 이용해 스팸 메일을 필터링하는 시스템을 제안하였다. 이시스템은 학습 성능 측면에서 기존의 베이지안 분류자와 가중치가 부여된 베이지안 분류자들에 비해 더 나은 결과를 보였고, 특히 짧은 시간 안에 학습속도를 크게 향상시켰다.
새로운 메일에 대한 각 term 들에 대한 가중치를 스팸과 논스팸 카테고리에 대해 각각 구하고 term 의가 중치들의 힙■이 더 큰 카테고리로 메일을 분류하도록 한다. 가중치들의 정규화를 위해 각 term 들의 가중치를 최대의 가중치를 갖는 term 의 가중치로 나누어 식에 반영하도록 했다.
[8]. 이 논문에서는 사용자가 직접 선호도를 체크하지 않아도 사용자의 액션만으로 스팸메일 여부를 결정해 적응 학습하는 방법을 사용할 것이다.
이렇게 구해진 가중치들은 학습을 통해 각 term 들에 무여되고, 이 term 들에 대한 가중치를 이용해 새로운 메일에 대해 가중치가 부여된 베이지안 분류자를 적용하여 메일이 스팸 메일인 지, 논스팸 메일인 지를 필터링하도록 했다. 기존의 나이브 베이지안 분류자가 각 term 들에 대해 모두 같은 가중치를 갖는 반면, 가중치가 부여된 베이지안 분류자는 각 term 들에 대해
이러한 방법은 추가 적으로 메일에 대한 선호도를 체크할 필요가 없으므로 사용상의 번거로움과 시간낭비를 막을 수 있다. 특히 메일에 대한 기본 액션을 open, delete, save, 「e이y, block, nothing 의 6 가지 액션으로 분류, 이 액션들의 조합과 액션 시간에 따라 가중치를 주어 학습한 후 WBC 방법을 통해 스팸 메일 여부를 필터링하게 된다. 이렇게 개인화된 학습과 적응 학습을 포함함으로써 기존의 베이지안 분류자[12] 및 나이브베이지안 분류자에 비해 향상된 성능을 볼 수 있다.
표 2와 같이 두 개의 카테고리로 나뉘어진 실제 영문 메일을 임의로 섞어 스팸/논스팸 메일의 비율을 일정하게 하여 하루에 50 여 개의 메일을 받는다는 가정 하에 20 일 동안의 사용자의 관심도를 반영한 필터링의 정확도를 테스트하기로 했다.
학습은 하루에 한 번씩 이루어지도록 했으며 학습된 결과를 바탕으로 다음날 받은 메일에 대해 필터링하고, 이렇게 필터링된 메일에 대해 다시 학습하는 과정을 반복하여 학습의 정확도와 정확도의 증가 속도, 그리고 마지막 날까지의 필터링 결과를 관찰하기로 한다.

대상 데이터

본 논문의 실험은 펜티엄 4, 2.79GH 乙 1.49GB RAM 의 Microsoft Windows XP 환경에서 진행되었으며 Java 와 My—SQL 을 기반으로 구현되었다.
실험을 위해 사용한 데이터는 LingSpam[15] 메일 집합으로, 메일을 스팸 메일과 논스팸 메일의 두 가지로 분류해 사용하였다. 스팸 메일은 중복될 수 있으며, 한번 테스트된 메일은 다시 학습을 위해 사용될 수 있다는 가정 하에 데이터를 분류하였다.

이론/모형

각 액션들은 디폴트 가중치를 가지고 있으며 이를 기반으로 최종가중치를 계산하게 된다. 디폴트 가중치는 사용자의 입장에서 어떤 액션을 취했을 때의 의도와 3 의미의 중요도를 고려하여 heuristic 방법에 의해 결정하였다.

성능/효과

이를 그림 3 에서 나타낸 기존의 가중치가 부여된 베 이지안 분류자[2]와 비교한 결과 학습 성능의 향상 속도가 상대적으로 높은 것을 볼 수 있다. 수치적으로 우리의 시스템이 기존의 방법들에 비해 40%이상 학습 성능이 빠른 것으로 나타났다.
실험에서는 논스팸 메일에 대한 스팸 카테고리로의 할당 비율이 비교적 높은 것으로 나타났는데, 이는 논스팸 메일에 대한 term 이 스팸 메일의 term 에 비해 상대적으로 적었던 것에 원인이 있는 것으로 판단된다. 즉, 실험에 쓰여진 논스팸 메일의 양이 극히 적음에도 불구하고 □ 내용의 분야가 매우 넓어 논스팸 카테고리 내에서 겹치는 term 들이 많지 않은 까닭에 논 스팸메일에 대한 분류의 정확도가 스팸 메일에 대한 정확도에 비해 상대적으로 낮게 나온 것으로 판명되었다.
이시스템은 학습 성능 측면에서 기존의 베이지안 분류자와 가중치가 부여된 베이지안 분류자들에 비해 더 나은 결과를 보였고, 특히 짧은 시간 안에 학습속도를 크게 향상시켰다. 이는 액션이 추가됨에 따라 가중치를 갱신하여 학습시키는 적응 학습을 적용한 결과 이루어진 것이라 볼 수 있다.
판단된다. 즉, 실험에 쓰여진 논스팸 메일의 양이 극히 적음에도 불구하고 □ 내용의 분야가 매우 넓어 논스팸 카테고리 내에서 겹치는 term 들이 많지 않은 까닭에 논 스팸메일에 대한 분류의 정확도가 스팸 메일에 대한 정확도에 비해 상대적으로 낮게 나온 것으로 판명되었다.
필터링 결고h 그림 2 에서 나타낸 것과 같이 본 논문이 제안한 시스템은 초기에는 학습시 필터링의 정확도가 매우 높고, 학습이 반복됨에 따라 그 변화폭 이상 대적으로 크지만 학습이 진행됨에 따른 정확도의 증가 속도는 평균 95% 이상으로 비교적 높다고 보여진다. 이를 그림 3 에서 나타낸 기존의 가중치가 부여된 베 이지안 분류자[2]와 비교한 결과 학습 성능의 향상 속도가 상대적으로 높은 것을 볼 수 있다.

후속연구

향후 우리가 연구해야 할 것으로, 액션 사이의 관계를 보다 세밀하게 분석함으로써 학습 속도를 더욱 높이는 동시에, 메일의 길이와 시간과의 관계 등 사용자의 액션의 의미를 보다 정확히 파악하여 필터링에 반영하는 방안 등을 모색할 것이다. 또한 사용자의 액션과 시간에 따른 가중치 무여를 Collaborative Filtering 등에 반영하여 학습 성능을 향상시킬 수 있는 방법도 연구 과제로 고려할 수 있을 것이다.
또한 본 논문은 개인화 측면 역시 다루고 있는데, 사용자가 본인의 관심 정도에 따라 메일에 대한 가중치 무여를 정교화하고, 각 개인의 관심 흐름을 지속적으로 반영함에 따른 것이다. 향후 우리가 연구해야 할 것으로, 액션 사이의 관계를 보다 세밀하게 분석함으로써 학습 속도를 더욱 높이는 동시에, 메일의 길이와 시간과의 관계 등 사용자의 액션의 의미를 보다 정확히 파악하여 필터링에 반영하는 방안 등을 모색할 것이다. 또한 사용자의 액션과 시간에 따른 가중치 무여를 Collaborative Filtering 등에 반영하여 학습 성능을 향상시킬 수 있는 방법도 연구 과제로 고려할 수 있을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

사용자 행동 패턴을 기반으로 가중치를 부여한 스팸 메일 필터링
Weighting based User Behavior Pattern for Filtering Spam Mail 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

사용자 행동 패턴을 기반으로 가중치를 부여한 스팸 메일 필터링 Weighting based User Behavior Pattern for Filtering Spam Mail 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

사용자 행동 패턴을 기반으로 가중치를 부여한 스팸 메일 필터링
Weighting based User Behavior Pattern for Filtering Spam Mail 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper