[논문]단어 반복 특징을 이용한 스팸 문서 분류 방법에 관한 연구

이성진; 백종범; 한정석; 이수원

doi:10.3745/kipstb.2011.18b.5.315

단어 반복 특징을 이용한 스팸 문서 분류 방법에 관한 연구
A Study on Spam Document Classification Method using Characteristics of Keyword Repetition 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.18B no.5, 2011년, pp.315 - 324

이성진 (숭실대학교 컴퓨터학과) , 백종범 (숭실대학교 컴퓨터학과) , 한정석 (숭실대학교 컴퓨터학과) , 이수원 (숭실대학교 컴퓨터학부)

초록
AI-Helper

인터넷 환경에서 스팸의 범람은 개인 정보의 유출, 피싱에 의한 금전적 손해, 무분별한 유해 콘텐츠의 유통 등 심각한 사회 문제를 야기하고 있다. 또한 사회적 통제를 필요로 하는 유해 정보를 무차별적으로 유통시키는 스팸의 형태와 기술이 갈수록 다양해지고 있다. Bag-of-Words 모델을 이용한 학습 기반 스팸 분류 방법은 현재까지의 연구 중에서 가장 일반적으로 사용되는 방법이다. 그러나 이 방법은 분류 모델 학습 과정에서 사용된 키워드의 출현 정보만으로 스팸 문서를 분류하기 때문에 최근 흔히 발견할 수 있는 스팸 차단 회피 방법에 대한 대처 능력이 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 문서에서 등장하는 반복 단어의 특징을 이용한 스팸 문서 탐지 방법을 제안한다. 최근 대부분의 스팸 문서에서는 노출하고자 하는 스팸 문구를 반복하는 경향이 있으며, 이는 스팸 문서를 판별하는 기준으로 사용될 수 있다. 본 논문에서는 단어 반복의 특징을 표현할 수 있는 6개의 변수를 정의하고 이를 분류 모델 생성을 위한 속성으로 사용한다. 본 논문에서 제안하는 스팸 탐지 방법의 성능 평가를 위해 블로그 포스트 데이터와 이메일 데이터를 이용하여 기존 방법들과의 비교 실험을 진행하였고, 결과 분석을 통해 제안 방법이 우수함을 확인하였다.

Abstract ▼ AI-Helper

In Web environment, a flood of spam causes serious social problems such as personal information leak, monetary loss from fishing and distribution of harmful contents. Moreover, types and techniques of spam distribution which must be controlled are varying as days go by. The learning based spam classification method using Bag-of-Words model is the most widely used method until now. However, this method is vulnerable to anti-spam avoidance techniques, which recent spams commonly have, because it classifies spam documents utilizing only keyword occurrence information from classification model training process. In this paper, we propose a spam document detection method using a characteristic of repeating words occurring in spam documents as a solution of anti-spam avoidance techniques. Recently, most spam documents have a trend of repeating key phrases that are designed to spread, and this trend can be used as a measure in classifying spam documents. In this paper, we define six variables, which represent a characteristic of word repetition, and use those variables as a feature set for constructing a classification model. The effectiveness of proposed method is evaluated by an experiment with blog posts and E-mail data. The result of experiment shows that the proposed method outperforms other approaches.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

[15]와의 비교 실험에서 Accuracy외의 다른 척도들 모두 제안 방법의 성능이 우수한 것으로 나타났으며, 이 중 Recall에 대한 결과를 검토하고자 한다. (그림 13)은 [15]와의 비교 실험 결과 중 Recall에 대한 비교이다.
본 논문에서는 Term Spamming을 사용하는 스팸 문제를 해결하기 위해 단어 반복 특징을 이용한 스팸 분서 분류 방법을 제안하였다. 이는 Repetition을 이용한 스팸 문서에서 나타나는 TF 분포의 이상치를 이용하는 방법이다.
본 논문에서는 문서별 TF 분포로부터 반복 단어의 특징을 추출하고 이를 학습하여 스팸 문서 분류에 활용하는 방법을 제안한다. 이를 위해 단어들의 TF 분포를 분석하여 단어 반복의 패턴을 수치화한 문서 벡터를 생성하고, 기계학습 알고리즘을 이용하여 스팸 분서 분류 모델을 학습한다.
즉, 모든 문서에서 자주 등장하는 단어들은 스팸 판별에 대한 변별력이 없기 때문에 문서별 스팸 지수 계산 시 반영 비율을 낮춰줄 필요가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 스팸 확률을 전체 문서에서의 출현 확률로 나눈 상대적 확률값을 계산하고 log를 취한다. 최종적인 문서별 단어 스팸 지수는 (식 6)과 같이 계산한다.
지금까지 본 논문에서 제안하는 스팸 문서 분류 방법의 핵심 내용인 단어 반복 특징을 표현할 수 있는 특징 변수에 대해 정의하고, 이를 계산하는 방법에 대해 살펴 보았다. 이를 정리한 내용은 <표 3>에서 확인 할 수 있다.

가설 설정

본 논문에서 스팸 문서 분류 모델 학습을 위한 특징 변수로 WordRepetitionIndex와 WordRepetitionRatio를 사용 하는 근거는 TF의 표준편차가 스팸 문서와 정상 문서에서 차이가 난다는 것이다. 특히 TF의 표준편차는 그 자체가 빈도 분포의 특징을 설명하는 변수이며, 따라서 스팸 문서를 <표 4> 비교 실험 정보 판별할 수 있는 변별력이 있다고 볼 수 있다.

제안 방법

[15]의 특징 변수를 살펴보면 단어의 중복 출현 비율, 명사의 집중도, 불용어 비율 등을 사용하고 있으며, 단어의 출현 특징을 분석한다는 점에서 본 연구와 비교될 만 하다.[15]의 특징 변수 중 Post-Comment Similarity는 포스트 또는 이메일 분류 시 사용할 수 없기 때문에 나머지 4개의 변수를 사용하여 비교 실험을 진행 하였다. (그림 10)은 이메일 데이터와 포스트 데이터에 대한 평가 실험 결과이며, 척도는 Accuracy이다.
이는 Repetition을 이용한 스팸 문서에서 나타나는 TF 분포의 이상치를 이용하는 방법이다. 구체적으로는 반복 단어의 특징을 표현할 수 있는 6가지의 특징 변수와 TF분포로부터 이를 추출하는 방법을 제시하였다. 본 논문에서 제안하는 6가지 특징 변수는 최다 출현 단어의 반복 비율, 반복 단어들의 반복 지수, 반복 단어들의 반복 비율, 단어들의 스팸 지수의 합, 단어 출현 빈도의 표준편차, 링크의 수이다.
구체적으로는 반복 단어의 특징을 표현할 수 있는 6가지의 특징 변수와 TF분포로부터 이를 추출하는 방법을 제시하였다. 본 논문에서 제안하는 6가지 특징 변수는 최다 출현 단어의 반복 비율, 반복 단어들의 반복 지수, 반복 단어들의 반복 비율, 단어들의 스팸 지수의 합, 단어 출현 빈도의 표준편차, 링크의 수이다.
본 논문에서 제안하는 방법의 성능 평가를 위해 와 같은 조건에서 비교 실험을 진행하였다.
특히 TF의 표준편차는 그 자체가 빈도 분포의 특징을 설명하는 변수이며, 따라서 스팸 문서를 <표 4> 비교 실험 정보 판별할 수 있는 변별력이 있다고 볼 수 있다. 본 논문에서는 학습을 위한 다섯 번째 특징 변수로 TF의 표준 편차를 사용한다. (그림 2)는 4장의 성능 평가 실험에서 사용한 이메일 데이터에 대한 TF의 표준편차의 분포표이다.
정상적인 문서에도 링크가 발견되기는 하지만 스팸 문서에 비하면 극히 적은 수를 포함한다. 본 논문에서는 학습을 위한 마지막 특징 변수로 문서별 링크 수를 사용한다. (그림 3)은이메일 데이터에 포함된 링크 수의 분포이다.
본 연구에서는 문서 i에서 등장한 단어 w의 빈도가 +1σ(평균+표준편차)의 범위를 벗어나면 이상치, 즉 Repetition을 이용한 반복 단어일 수 있다고 간주하고 이 조건에 해당되는 단어들의 빈도 비율을 이용하여 문서 i의 단어 반복 지수로 사용한다.
하지만 N을 고정하면 문서별 특징이 제대로 반영되지 않는다. 본 연구에서는 이를 해결하기 위해 TF의 표준편차를 이용하여 MaxTFRatio를 보완한다.
실험 3은 이런 가능성을 확인해 보기 위한 실험으로 이메일과 포스트 데이터 간의 교차 적용 실험을 진행하였다. 즉, 이메일 데이터로 학습된 분류 모델을 이용해 포스트 데이터에 대한 테스트를 진행하였다고, 반대의 경우에 대한 실험도 진행하였다.
또한 본 논문에서 제안하는 방법은 도메인에 상관없이 동일한 특징 변수를 사용하기 때문에 도메인 간의 교차 적용에 대한 가능성이 열려 있다고 할 수있다. 이런 가능성을 검증하기 위하여 비교 실험에서 사용했던 데이터를 이용하여 상호 교차 실험을 진행하였다. 실험 결과 의사결정트리는 분류 정확도의 평균이 91.
본 논문에서는 문서별 TF 분포로부터 반복 단어의 특징을 추출하고 이를 학습하여 스팸 문서 분류에 활용하는 방법을 제안한다. 이를 위해 단어들의 TF 분포를 분석하여 단어 반복의 패턴을 수치화한 문서 벡터를 생성하고, 기계학습 알고리즘을 이용하여 스팸 분서 분류 모델을 학습한다. 제안하는 방법은 미리 정의된 소수의 변수들로만 학습 예제를 구성하기 때문에 분류의 정확도 향상뿐 만 아니라 학습 소요 시간의 감소라는 추가적인 효과를 기대할 수 있다.
Bag-of-words 모델을 적용할 때는 효과적인 자질어 선택 방법과 학습 알고리즘이 중요하다. 이를 위해 일반적으로 사용하는 자질어 선택 방법인 정보획득량(Information Gain, IG), 카이제곱통계랑(Chi-square, CS), 상호정보량 (Mutual Information, MI)을 사용한 경우와 각각 비교하였으며 자질어의 수는 25개로 하였다.
즉, 단어가 많이 등장한 문서일수록 스팸 지수가 높아진다는 단점이 있다. 이를 해결하기 위해서 문서의 길이, 즉 문서에서 등장한 모든 단어의 빈도합을 이용하여 정규화한다. (식 5)는 정규화된 문서별 단어 스팸 지수의 계산식이다.
실험 3은 이런 가능성을 확인해 보기 위한 실험으로 이메일과 포스트 데이터 간의 교차 적용 실험을 진행하였다. 즉, 이메일 데이터로 학습된 분류 모델을 이용해 포스트 데이터에 대한 테스트를 진행하였다고, 반대의 경우에 대한 실험도 진행하였다.

데이터처리

본 논문에서 제안한 스팸 분류 방법의 타당성을 검증하기 위해 블로그 포스트와 이메일 데이터를 이용하여 Bag-of-Words 모델을 사용하는 방법과 본 연구와 가장 유사한 [Archana,2009]의 연구와의 비교 실험을 진행하였다. 비교 실험 결과 본 논문에서 제안하는 방법이 다른 방법에 비해 월등히 우수함을 확인할 수 있었다.

성능/효과

(그림 8)은 F-Measure에 의한 평가 결과로, 모든 경우에서 제안하는 방법의 성능이 우수한 것을 확인할 수 있다. 특히, 블로그 포스트 도메인의 경우 다른 방법에 비해 그 성능이 월등히 우수하다.
Li[10]의 경우 나이브 베이지안 알고리즘을 개선한 새로운 알고리즘을 제안하였다. Li가 제안한 방법은 스팸 필터링 속도를 향상시키면서도 정확도의 손실을 최소화한 것으로 평가된다. 나이브 베이지안 분류기 외에도 k-Nearest Neighbor[11], SVM(Support Vector Machine)[12] 등이 스팸 분류 모델 학습 기법으로 이용되고 있다.
FP-Rate는 문서의 오분류율을 나타내는 척도이며, (그림 9)는 정상 문서에 대한 FP-Rate이다. 도메인과 학습 알고리즘을 비교한 모든 경우에 제안 방법의 성능이 가장 우수하게 나타났으며 오분류율이 0에 가까운 것을 알 수 있다.
Repetition을 사용하는 문서에서 반복 패턴을 가진 단어는 나머지 정상적인 단어와의 빈도 편차가 크게 나타난다. 따라서 스팸 문서와 정상 문서 비교시 TF 평균이 비슷하더라도 스팸 문서의 표준편차에서 큰 차이를 보이며, 표준편차가 클수록 스팸 문서일 가능성이 크다. 표준편차는 평균을 중심으로 봤을 때 측정값의 분포 정도를 나타내는 척도로, 표준편차가 클수록 값이 넓게 분포되어 있다는 것을 의미한다.
특히 의사결정 트리는 클래스를 결정하는데 영향이 큰 변수부터 결정면을 분할하고, 다른 변수는 분할된 결정면을 다시 분할하는 보조적인 역할을 수행한다. 따라서 이러한 특징을 지닌 의사결정 트리는 본 연구에서 제안하는 특징 변수들을 이용한 학습에 더 적합하다고 할 수 있다.
실험 결과 Recall은 모든 경우에 제안 방법의 성능이 우수하게 나왔다. 반면 Precision은 MI의 성능이 가장 좋게 나왔으며, 제안 방법은 두 번째로 우수한 성능을 보였다. 그러나 MI는 Recall의 성능이 현저히 떨어진다.
본 논문에서 제안한 스팸 분류 방법의 타당성을 검증하기 위해 블로그 포스트와 이메일 데이터를 이용하여 Bag-of-Words 모델을 사용하는 방법과 본 연구와 가장 유사한 [Archana,2009]의 연구와의 비교 실험을 진행하였다. 비교 실험 결과 본 논문에서 제안하는 방법이 다른 방법에 비해 월등히 우수함을 확인할 수 있었다.
실험 결과 Recall은 모든 경우에 제안 방법의 성능이 우수하게 나왔다. 반면 Precision은 MI의 성능이 가장 좋게 나왔으며, 제안 방법은 두 번째로 우수한 성능을 보였다.
실험 결과 본 논문에서 제안하는 방법은 도메인간의 교차 적용이 가능할 정도로 우수한 성능을 보이고 있다. 특이한 점은 이메일 데이터로 분류 모델을 학습하고 포스트 데이터에 적용하는 경우의 성능이 반대의 경우보다 월등히 뛰어나다는 점이다.
이런 가능성을 검증하기 위하여 비교 실험에서 사용했던 데이터를 이용하여 상호 교차 실험을 진행하였다. 실험 결과 의사결정트리는 분류 정확도의 평균이 91.85%로 두 경우 모두 안정적인 성능을 보였다.
실험 결과 이메일이나 포스트 데이터 모두 본 논문에서 제안하는 방법의 성능이 가장 우수하게 나왔다. Bag-of- Words 모델의 경우 일반적으로 알려진 바와 같이 정보획득량(IG)을 사용할 때 성능이 가장 좋게 나온 것을 확인할 수 있다.
실험 결과를 보면 모든 비교 조건에서 제안 방법의 성능이 우수하게 나왔다. [15]의 결과를 보면 의사결정트리를 사용했을 때의 성능이 가장 좋게 나오며 이는 [15]의 실험 결과와도 일치한다.
Repetition은 Term Spamming 중에서 가장 사용 빈도가 높은 방법으로, Repetition을 사용한 스팸 문서는 정상 문서와 대비되는 특징을 띄게 된다. 첫째, 반복 단어의 출현 빈도(Term Frequency, TF)가 비정상적으로 높게 나타나며, 둘째, 이로 인해 문서에 출현한 단어들의 TF 분포가 일반 문서와는 구분이 된다.

후속연구

따라서 도메인별로 분류 모델을 학습하기 위한 특징 변수가 다르므로, 다른 도메인에서 학습된 분류 모델을 사용하는 것은 불가능하다. 그러나 본 연구에서 제안하는 방법은 도메인에 상관없이 동일한 특징 변수들을 사용하기 때문에 도메인간의 교차 사용에 대한 가능성이 열려 있다.
학습 알고리즘 중에서 Naive Bayesian의 경우 학습 성능을 보장하기 위해서는 특징 변수가 서로 독립적이어야 한다. 그러나 본 연구에서 제안한 특징 변수들은 서로 보완적인 관계를 가지고 있어 변수간의 독립성을 보장하지 못한다. 이는 비교 연구에서도 마찬가지이며, Naive Bayesian의 성능 저하의 원인이라고 할 수 있다.
또한 본 논문에서 제안하는 방법은 도메인에 상관없이 동일한 특징 변수를 사용하기 때문에 도메인 간의 교차 적용에 대한 가능성이 열려 있다고 할 수있다. 이런 가능성을 검증하기 위하여 비교 실험에서 사용했던 데이터를 이용하여 상호 교차 실험을 진행하였다.
이를 위해 단어들의 TF 분포를 분석하여 단어 반복의 패턴을 수치화한 문서 벡터를 생성하고, 기계학습 알고리즘을 이용하여 스팸 분서 분류 모델을 학습한다. 제안하는 방법은 미리 정의된 소수의 변수들로만 학습 예제를 구성하기 때문에 분류의 정확도 향상뿐 만 아니라 학습 소요 시간의 감소라는 추가적인 효과를 기대할 수 있다.
향후에는 자음/모음 띄어쓰기, 특수 문자 끼워넣기 등의 단어 파괴를 통한 Term Spamming에 대한 특징을 반영할 수 있는 연구가 추가적으로 필요하며, Link 조작에 의한 Abusing이나 Splog에 대한 탐지 방법에 관한 연구가 필요 하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Repetition을 사용한 스팸 문서는 정상 문서와 대비되는 어떤 특징을 띄는가?	높은 방법으로, Repetition을 사용한 스팸 문서는 정상 문서와 대비되는 특징을 띄게 된다. 첫째, 반복 단어의 출현 빈도(Term Frequency, TF)가 비정상적으로 높게 나타나며, 둘째, 이로 인해 문서에 출현한 단어들의 TF 분포가 일반 문서와는 구분이 된다.
	인터넷 환경에서 스팸의 범람은 어떤 문제를 야기하는가?	인터넷 환경에서 스팸의 범람은 개인 정보의 유출, 피싱에 의한 금전적 손해, 무분별한 유해 콘텐츠의 유통 등 심각한 사회 문제를 야기하고 있다. 또한 사회적 통제를 필요로 하는 유해 정보를 무차별적으로 유통시키는 스팸의 형태와 기술이 갈수록 다양해지고 있다.
	현재 스팸 차단 분야에서 가장 널리 사용되고 있는 방식은 무엇인가?	스팸의 형태와 기술은 날로 고도화되고 있지만 이를 효과 적으로 차단할 수 있는 기술의 발전은 더딘 상황이다. 현재 스팸 차단 분야에서 가장 널리 사용되고 있는 Bag-of-Words 모델 방식은 스팸 문서 분류시 학습에 사용된 단어의 출현 정도만 고려하기 때문에 Term Spamming 에 취약하다. (그림 1)에서는 Weaving과 Repetition을 혼합 하여 사용하고 있으며, 정상적인 문서로 인식할 가능성이 크다.

참고문헌 (18)

"2010년 인터넷이용실태조사", 방송통신위원회,한국인터넷진흥원, 2010. 9.
"2008 불법스팸방지 가이드라인", 방송통신위원회, 한국정보보호진흥원, 2008. 11.
Zoltan Gyongyi, Hector Garcia-Molina, "Web Spam Taxonomy", Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web, 2005.
Hassan Najadat1, Ismail Hmeidi, "Web Spam Detection Using Machine Learning in Specific Domain Features", Journal of Information Assurance and Security 3 (2008) 220-229, 2009.
Jon M. Kleinberg, "Authoritative Sources in a Hyperlinked Environment", Journal of ACM, 1999.
Amy Langville and Carl Meyer. "Deeper inside PageRank", Technical report, North Carolina State University, 2003.
Enrico Blanzieri and Anton Bryl, "A survey of Learning-based Techniques of Email Spam Filtering", Artificial Intelligence Review, Springer, 2008.
Pantel P and Lin D, "Spamcop:a spam classification & organization program", In AAAI'98 Workshop, Learning for Text Categorization, 1998.
Sahami M, Dumais S, Heckerman D and Horvitz E, "A bayesian approach to filtering junk e-mail", In AAAI'98 Workshop, Learning for Text Categorization, 1998.
Li K and Zhong Z, "Fast statistical spam filter by approximate classifications", In SIGMETRICS 2006, 2006.
Androutsopoulos I, Paliouras G, Karkaletsis V, Sakkis G, Spyropoulos C and Stamatopoulos P, "Learning to filter spam e-mail: a comparison of a naive bayesian and a memory-based approach". In workshop on machine learning and textual information access, 4th European conference on principles and practice of knowledge discovery in databases, PKDD 2000, 2000.
Drucker H, Wu D and Vapnik V, "Support vector machines for spam categorization", IEEE Transactions on Neural Networks, Vol.10, No.5, pp.1048-1054, 1999.

상세보기
이신영, 길아라, 김명원, "링크구조분석을 이용한 스팸 메일 분류", 정보과학회논문지:소프트웨어 및 응용 제34권 제1호, 2007. 01.
이호섭, 조재익, 정만현, 문종섭, "비정상 문자로 조합으로 구성 된 스팸 메일 탐지 방법", 정보보호학회논문지, 제18권 제6(A) 호, 2008. 12.
Archana Bhattarai, Vasile Rus, Dipankar Dasgupta, "Characterizing Comment Spam in the Blogsphere through Content Analysis", ACM Transactions on the Web, Vol.2, No.1, Article 2, 2009
Yitong Wang, Xiaofei Chen and Xiaojun Feng, "Combating Link Spam by Noisy Link Analysis", Advanced Data Mining and Applications:Lecture Notes in Computer Science, Vol.6440/2010, pp.453-464, 2010.
Luca Becchetti, Carlos Castillo, Debora Donato, Ricardo Baeza-YATES, Stefano Leonardi, "Link Analysis for Web Spam Detection", Journal of ACM Transactions on the Web, Vol.2, No.1, 2008.
BAEZA-YATES R, BOLDI P, AND CASTILLO C, "Generalizing pagerank:Damping functions for link-based ranking algorithms", In Proceedings of ACM SIGIR, 2006

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증