정보화 시대에 무차별적으로 수신되는 스팸 문자로 인해 개인 뿐 아니라 사회 전체에 악영향을 끼치고 있다. 현재 스팸 문서를 차단하려는 많은 필터링 기법들이 활발히 연구되고 있지만, 대부분은 내용기반의 기계학습을 통한 스팸 필터링 기술들이다. 그러나 스팸 메시지 전송 기법이 발전함에 따라 스패머들은 ...
정보화 시대에 무차별적으로 수신되는 스팸 문자로 인해 개인 뿐 아니라 사회 전체에 악영향을 끼치고 있다. 현재 스팸 문서를 차단하려는 많은 필터링 기법들이 활발히 연구되고 있지만, 대부분은 내용기반의 기계학습을 통한 스팸 필터링 기술들이다. 그러나 스팸 메시지 전송 기법이 발전함에 따라 스패머들은 Term Spamming 기법을 이용하여 여전히 스팸 메시지들을 전송하고 있다. 이러한 스팸 문자메시지는 단어 사이에 특수문자를 끼워 넣거나 반복되는 단어를 사용하고, 한 문장에서 사용되는 명사의 개수가 많은 경향이 있다. 본 논문에서는 이러한 3가지 특징을 고려하해 SPSS 통계 프로그램을 이용하여 변수화 하고 식을 도출하였다. 이후 이 식을 기반으로 스팸메시지들의 분류 성능을 측정하였다. 연구 결과 기존의 연구들에 비해 FP-rate를 더 최소화해 비용적인 측면에서 우수한 성능을 보이는 것을 확인하였다.
정보화 시대에 무차별적으로 수신되는 스팸 문자로 인해 개인 뿐 아니라 사회 전체에 악영향을 끼치고 있다. 현재 스팸 문서를 차단하려는 많은 필터링 기법들이 활발히 연구되고 있지만, 대부분은 내용기반의 기계학습을 통한 스팸 필터링 기술들이다. 그러나 스팸 메시지 전송 기법이 발전함에 따라 스패머들은 Term Spamming 기법을 이용하여 여전히 스팸 메시지들을 전송하고 있다. 이러한 스팸 문자메시지는 단어 사이에 특수문자를 끼워 넣거나 반복되는 단어를 사용하고, 한 문장에서 사용되는 명사의 개수가 많은 경향이 있다. 본 논문에서는 이러한 3가지 특징을 고려하해 SPSS 통계 프로그램을 이용하여 변수화 하고 식을 도출하였다. 이후 이 식을 기반으로 스팸메시지들의 분류 성능을 측정하였다. 연구 결과 기존의 연구들에 비해 FP-rate를 더 최소화해 비용적인 측면에서 우수한 성능을 보이는 것을 확인하였다.
Due to indiscriminately received spam messages on information society, spam messages cause damages not only to person but also to our community. Nowadays a lot of spam filtering techniques, such as blocking characters, are studied actively. Most of these studies are content-based spam filtering tech...
Due to indiscriminately received spam messages on information society, spam messages cause damages not only to person but also to our community. Nowadays a lot of spam filtering techniques, such as blocking characters, are studied actively. Most of these studies are content-based spam filtering technologies through machine learning. Because of a spam message transmission techniques are being developed, spammers have to send spam messages using term spamming techniques. Spam messages tend to include number of nouns, using repeated words and inserting special characters between words in a sentence. In this paper, considering three features, SPSS statistical program were used in parameterization and we derive the equation. And then, based on this equation we measured the performance of classification of spam messages. This master thesis compared with previous studies FP-rate in terms of further minimizing the cost of product was confirmed to show an excellent performance.
Due to indiscriminately received spam messages on information society, spam messages cause damages not only to person but also to our community. Nowadays a lot of spam filtering techniques, such as blocking characters, are studied actively. Most of these studies are content-based spam filtering technologies through machine learning. Because of a spam message transmission techniques are being developed, spammers have to send spam messages using term spamming techniques. Spam messages tend to include number of nouns, using repeated words and inserting special characters between words in a sentence. In this paper, considering three features, SPSS statistical program were used in parameterization and we derive the equation. And then, based on this equation we measured the performance of classification of spam messages. This master thesis compared with previous studies FP-rate in terms of further minimizing the cost of product was confirmed to show an excellent performance.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.