$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

트레이닝 데이터가 제한된 환경에서 N-Gram 사전을 이용한 트위터 스팸 탐지 방법
A Method for Twitter Spam Detection Using N-Gram Dictionary Under Limited Labeling 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.6 no.9, 2017년, pp.445 - 456  

최혁준 (충남대학교 컴퓨터공학과) ,  박정희 (충남대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 트레이닝 데이터가 제한된 환경에서 n-gram 사전을 이용하여 불건전 정보를 포함하는 스팸 트윗을 탐지하는 방법을 제안한다. 불건전 정보를 포함하는 스팸 트윗은 유사한 단어와 문장을 사용하는 경향이 있다. 이러한 특성을 이용하여 스팸 트윗과 정상 트윗에 대한 n-gram 사전을 구축하고 나이브 베이스 분류기를 적용하여 효과적으로 스팸 트윗을 탐지할 수 있음을 보인다. 반면에, 실시간으로 대용량의 데이터가 유입되는 트위터의 특성은 초기 트레이닝 집합 구성에 매우 큰 비용을 요구 한다. 따라서, 초기 트레이닝 집합이 매우 작거나 존재하지 않는 환경에서 적용할 수 있는 스팸 트윗 탐지 방법이 필요하다. 이를 위해 트위터의 리트윗 기능을 활용하여 의사 라벨을 생성하고 초기 트레이닝 집합의 구성과 n-gram 사전 업데이트에 활용하는 방법을 제안한다. 2016년 12월 1일부터 2016년 12월 7일까지 수집된 한국어 트윗 130만 건을 사용한 다양한 실험 결과는 비교 방법들보다 제안하는 방법의 성능이 우수함을 입증한다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a method to detect spam tweets containing unhealthy information by using an n-gram dictionary under limited labeling. Spam tweets that contain unhealthy information have a tendency to use similar words and sentences. Based on this characteristic, we show that spam tweets ca...

주제어

질의응답

핵심어 질문 논문에서 추출한 답변
팔로우와 리트윗은 어떤 역할을 하는가? 트위터가 대표적인 소셜 미디어로 성장하게 된 주요 요인은 팔로우와 리트윗 기능이다. 두 기능은 트위터에서 정보를 확산시키는 데에 주요한 역할을 한다. 팔로우 기능은 다른 사용자와 관계를 맺는 기능으로써 팔로우 기능을 통해 자신이 팔로우하고 있는 사용자의 트윗을 실시간으로 받아볼 수 있으며, 리트윗 기능은 이미 존재하는 특정 트윗을 자신의 팔로워들에게 전파하는 역할을 한다. 만약 화제가 되는 사건이 발생할 경우 해당 사건에 대한 트윗이 급증함과 동시에 리트윗 수치 또한 급격히 높아지게 되며, 이에 따라 리트윗 된 트윗을 접하는 사용자들이 급속히 증가하게 된다.
Streaming API란? 본 논문에서 사용하는 트위터 데이터는 트위터의 StreamingAPI를 사용하여 수집하였다[29]. Streaming API는 트위터에서 실시간으로 발생하는 트윗의 1%를 무작위로 제공하는API이다. Streaming API를 통해 수집되는 트윗들은 트윗을 작성한 사용자와 트윗에 대한 정보를 JSON 파일의 형태로 반환하게 되며 여기서 필요한 정보만을 파싱하여 사용할 수 있다.
트위터가 대표적인 소셜 미디어로 성장하게 된 주요 요인은? 트위터가 대표적인 소셜 미디어로 성장하게 된 주요 요인은 팔로우와 리트윗 기능이다. 두 기능은 트위터에서 정보를 확산시키는 데에 주요한 역할을 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (33)

  1. Statista, Number of Monthly Active Twitter Users Worldwide from 1st quarter 2010 to 4th quarter 2016 (in millions) [Internet], https://www.statista.com/statistics/282087/numberof-monthly-active-twitter-users/. 

  2. David Sayce, Number of tweets per day? [Internet], http://www.dsayce.com/social-media/tweets-day/. 

  3. L. M. Aiello et al., "Sensing Trending Topics in Twitter," IEEE Trans. Multimedia., Vol.15, No.6, pp.1268-1282, 2013. 

  4. T. Sakaki, M. Okazaki, and Y. Matsuo, "Earthquake Shakes Twitter Users: Real-Time Event Detection by Social Sensors," in Proc. 19th International Conference on World Wide Web, ACM, pp. 851-860, 2010. 

  5. A. I. Baqapuri, S. Saleh, M. U. Ilyas, "Sentiment Classification of Tweets using Hierarchical Classification," in Proc. IEEE International Conference on Communications, IEEE, 2016. 

  6. Neal Ungerleider, Almost 10% of Twitter Is Spam [Internet], https://www.fastcompany.com/3044485/almost-10-of-twitter-is-spam/. 

  7. Judy Mottl, Twitter acknowledges 23 million active users are actually bots [Internet], http://www.techtimes.com/articles/12840/20140812/twitter-acknowledges-14-percent-users-bot s-5-percent-spam-bots.htm/. 

  8. C. Chen, J. Zhang, Y. Xiang, W. Zhou, and J. Oliver, "Spammers Are Becoming "Smarter" on Twitter," IEEE Trans. IT Professional., Vol.18, No.2, pp.66-70, 2016. 

  9. H. J. Choi and C. H. Park, "A Twitter Spam Detection Method based on n-gram Dictionary," in Proc. Korea Computer Congress, Jeju, pp.227-229, 2017. 

  10. K. Tao, F. Abel, C. Hauff, G. J. Houben, and U. Gadiraju, "Groundhog Day: Near-Duplicate Detection on Twitter," in Proc. 22nd International Conference on World Wide Web, ACM, pp.1273-1284, 2013. 

  11. K. M. Lee, J. Caverlee, and S. Webb, "Uncovering social spammers : social honeypots + machine learning," in Proc. 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, pp.435-442, 2010. 

  12. F. Benevenuto, G. magno, T. Rodrigues, and V. Almeida, "Detecting spammers on Twitter," Presented at the 7th annual Collaboration Electronic Messaging Anti-Abuse Spam Conference (CEAS), Vol.6, 2010. 

  13. A. H. Wang, "Don't follow me : spam detection in twitter," in Proc. International Conference on Security and Cryptography (SECRYPT), 2010. 

  14. S. Liu, J. Zhang, and Y. Xiang, "Statistical Detection of Online Drifting Twitter Spam," in Proc. 11th ACM on Asia Conference on Computer and Communications Security, ACM, pp.1-10, 2016. 

  15. C. Chen, et al, "A Performance Evaluation of Machine Learning-Based Streaming Spam Tweet Detection," IEEE Trans. Computational Social Systems, Vol.2, No.3, pp.65-75. 2015. 

  16. C. Chen, J. Zhang, Y. Xiang, and W. Zhou, "Asymmetric Self-Learning for Tackling Twitter Spam Drift," in Proc. IEEE Conference on Computer Communications Workshops, IEEE, pp.208-213, 2015. 

  17. G. Stringhini, C. Kruegel, and G. Vigna, "Detecting spammers on social networks," in Proc. 26th Annual Computer Security Applications Conference, ACM, pp.1-9, 2010. 

  18. J. Song, S. Lee, and J. Kim, "Spam filtering in Twitter using sender-reeiver relationship," in Proc. 14th International Conference on Recent Advances in Intrusion Detection, Springer Berlin/Heidelberg, pp.301-317, 2011. 

  19. C. Yang, R. Harkreader, and G. Gu, "Empirical evaluation and new design for fighting evolving twitter spammers," IEEE Trans. Information Forensics and Security, Vol.8, No. 8, pp.1280-1293, 2013. 

  20. K. Thomas, C. Grier, J. Ma, V. Paxson, and D. Song, "Design and evaluation of a real-time URL spam filtering service," in Proc. IEEE Symposium on Security and Privacy, Washington, pp.447-462, 2011. 

  21. S. H. Lee and J. Kim, "Warningbird : A near real-time detection system for suspicious URLs in Twitter spammers," IEEE Trans. Information Forensics and Security, Vol.8, No. 8, pp.1280-1293, 2013 

  22. D. M. Freeman, "Using Naive Bayes to Detect Spammy Names in Social Networks," in Proc. the 2013 ACM Workshop on Artificial Intelligence and Security, ACM, pp. 3-12, 2013 

  23. A. Herdagdelen, "Twitter n-gram corpus with demographic metadata," Language Resources and Evaluation, Vol.47, No. 4, pp.1127-1147, 2013. 

  24. S. J. Lee and D. J. Choi, "Personalized Mobile Junk Message Filtering System," The Journal of the Korea Contents Association, Vol.11, No.12, pp.122-135, 2010. 

  25. H. N. Lee, M. G. Song, and E. G. Im, "A Study on Structuring Spam Short Message Service(SMS) filter," in Proc. Symposium of the Korean Institute of communications and Information Sciences, pp.1072-1073, 2011. 

  26. S. W. Lee, "Spam Filter by Using X2 Statistics and Support Vector Machines," KIPS Journal B (2001-2012), Vol.17B, No.3, pp.249-254, 2010. 

  27. I. W. Joe and H. T. Shim, "A SVM-based Spam Filtering System for Short Message Service (SMS)," The Journal of The Korean Institute of Communication Sciences, Vol.34, No.9, pp.908-913, 2009. 

  28. Y. H. Kim et al., "Spam Twit Filtering using NaIve Bayesian Algorithm and URL Analysis," in Proc. Korean Institute of Information Scientists and Engineers, Vol.38, No.2B, pp. 375-378, Nov., 2011. 

  29. Twitter, Inc., Streaming APIs [Internet], https://dev.twitter.com/streaming/overview. 

  30. Cyren, Q3 Trend Report Highlights Real-Time Malware Campagigns And Increase In Phishing [Internet], https://blog.cyren.com/articles/commtouch-internet-threats-trendreport-q3-2013.html. 

  31. V. Metsis, I. Androutsopoulos, and G. Paliouras, "Spam Filtering with Naive Bayes-Which Naive Bayes?," in Proc. the Third Conference on Email and Anti-Spam, pp.28-69, 2006. 

  32. J. Graovac, "Text Categorization Using n-Gram Based Language Independent Techniques," in Proc. 35th Anniversary of Computational Linguistics, pp.124-135, 2014. 

  33. Machine Learning Group at the University of Waikato, Weka3: Data Mining Software in Java [Internet], http://www.cs.waikato.ac.nz/ml/weka/. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로