$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지
Ensemble Machine Learning Model Based YouTube Spam Comment Detection 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.24 no.5, 2020년, pp.576 - 583  

정민철 (Department of Digital Media, Ajou University) ,  이지현 (Department of English Language and Literature, Ajou University) ,  오하영 (Global Convergence, Sungkyunkwan University)

초록
AI-Helper 아이콘AI-Helper

이 논문은 최근 엄청난 성장을 하고 있는 유튜브의 댓글 중 스팸 댓글을 판별하는 기법을 제안한다. 유튜브에서는 광고를 통한 수익 창출이 가능하기 때문에 인기 동영상에서 자신의 채널이나 동영상을 홍보하거나 영상과 관련 없는 댓글을 남기는 스패머(spammer)들이 나타났다. 유튜브에서는 자체적으로 스팸 댓글을 차단하는 시스템을 운영하고 있지만 여전히 제대로 차단하지 못한 스팸 댓글들이 있다. 따라서, 유튜브 스팸 댓글 판별에 대한 관련 연구들을 살펴 보고 인기 동영상인 싸이, 케이티 페리, LMFAO, 에미넴, 샤키라의 뮤직비디오 댓글 데이터에 6가지 머신러닝 기법(의사결정나무, 로지스틱 회귀분석, 베르누이 나이브 베이즈, 랜덤 포레스트, 선형 커널을 이용한 서포트 벡터 머신, 가우시안 커널을 이용한 서포트 벡터 머신)과 이들을 결합한 앙상블 모델로 스팸 탐지 실험을 진행하였다.

Abstract AI-Helper 아이콘AI-Helper

This paper proposes a technique to determine the spam comments on YouTube, which have recently seen tremendous growth. On YouTube, the spammers appeared to promote their channels or videos in popular videos or leave comments unrelated to the video, as it is possible to monetize through advertising. ...

주제어

표/그림 (8)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기존 유튜브 스팸 댓글 탐지에 대한 연구들에서는 여러 가지 머신러닝 기법들을 각각 데이터 셋에 적용하여 댓글을 분류하고 성능을 비교하였다. 따라서, 본 논문에서는 여러 모델의 결과를 결합하여 최종 결과를 도출하는 앙상블 머신러닝 기법을 제안한다.
  • 따라서, 본 연구에서는 스패머 인식 및 탐지와 관련된 기존 연구들을 웹사이트 상의 스팸과 유튜브의 스팸 두범주로 나누어 살펴보고자 한다.
  • 실험 결과, 본 논문에서 제안한 ESM-S 모델은 5종류의 성능 평가 중 4종류에서 가장 좋은 성능을 보였고 1종류에서 두 번째로 좋은 성능을 보였다. 따라서, 한 가지 기법만으로 모델을 만들어서 분류를 했던 기존 연구들과는 달리, 본 논문에서는 여러가지 기법들의 결과를 결합하여 분류를 하는 앙상블 모델을 제안하여 성능 개선을 하였다. 향후 연구에서는 뮤직비디오가 아닌 다른 카테고리의 동영상에도 제안한 모델을 적용해보고, TF-IDF 전처리 및 딥러닝 기법도 추가한다면 더 좋은 성능이 나올 것으로 예상된다.
  • 본 논문에서는 머신러닝 기법들로 앙상블 모델을 만들어 유튜브 스팸 댓글 탐지를 하였다. 실험 결과, 본 논문에서 제안한 ESM-S 모델은 5종류의 성능 평가 중 4종류에서 가장 좋은 성능을 보였고 1종류에서 두 번째로 좋은 성능을 보였다.
  • [3]. 즉, n-grame 사전을 사용하는 데는 어느 정도 한계가 있고, 컴퓨터가 자동으로 품사를 분해하는데도 규칙에 따르지 않는 경우도 존재하기 때문에 차라리 적당한 크기로 잘게 쪼개서 분석하자는 목적을 가지고 있다.

가설 설정

  • 웹 사이트에서 스팸 및 악성 후기는 복제되었다는 가정 하에 세 유형으로 나뉘는데, 그 중 같은 내용을 다른 아이디로 업로드 한 경우에 대해 이 모델을 사용했다. 즉, 상품 후기 데이터의 언어 분석, 특히 특정 단어 뒤에 어떤 단어가 위치하는지 예측하면서 각각을 비교하고 무분별하게 복제된 후기 데이터를 찾아내기 위해 n-gram 언어 모델을 사용했다.
본문요약 정보가 도움이 되었나요?

참고문헌 (18)

  1. KBS NEWS [Internet] Available: https://mn.kbs.co.kr/news/view.do?ncd4260664 

  2. YouTube Help, [Internet] Available: https://support.google.com/youtube/answer/72857?hlko 

  3. M. S. Patil, and A. M. Bagade, "Online review spam detection using language model and feature selection." International Journal of Computer Applications, 59(7), December 2012, 1-4. 

  4. M. Mishne, G. Carmel, D. David, L. Ronny, "Blocking Blog Spam with Language Model Disagreement.", ACM Transactions on Multimedia Computing, Communications, and Applications, May, 2005, 1-6. 

  5. T. Bogers and D. B. Van, "Using Language Models for Spam Detection in Social Book marking", Proceedings of ECML/PKDD Discovery Challenge Workshop, 2008, 1-12. 

  6. P. S. Kiran, "Detecting spammers in YouTube : A study to find spam content in a video platform", IOSR Journal of Engineering (IOSRJEN), 05(07), July 2015, 26-30. 

  7. Y. Yusof and O. H. Sadoon, "Detecting video spammers in youtube social media", Proceedings of the 6th International Conference of Computing & Informatics, April 2017, 228-235. 

  8. A. Shreyas, and S. Nisha, "N-Gram Assisted Youtube Spam Comment Detection", Procedia Computer Science, 132, Jan 2018, 174-182. 

  9. A. Tulio, L. Johannes and A. Tiago, "TubeSpam: Comment Spam Filtering on YouTube", IEEE 14th International Conference on Machine Learning and Applications (ICMLA), Dec 2015, 1-6. 

  10. Bag-of-words model [Internet] Available: https://en.wikipedia.org/wiki/Bag-of-words_model 

  11. A. Thulfiqar, and A. Hussein, and Q. Samir, "YouTube spam comments detection using Artificial Neural Network", Journal of Engineering and Applied Sciences, 13(22), 2018, 9638-9642. 

  12. A. Rafaqat, "Spammer Detection: A Study of Spam Filter Comments on YouTube Videos", Lahore Garrison Education System, May 2019, 1-6. 

  13. Project jupyter [Internet] Available: https://jupyter.org/ 

  14. Welcome to Python.org [Internet] Available: https://python.org/ 

  15. Scikit-learn: machine learning in python [Internet] Available: https://scikit-learn.org/stable/ 

  16. YouTube Spam Collection v.1, [Internet] Available: http://dcomp.sor.ufscar.br/talmeida/youtubespamcollection 

  17. YouTube Spam Collection, [Internet] Available: http://www.dt.fee.unicamp.br/-tiago//youtubespamcollection/ 

  18. Y. J. Jang, H. J. Kim, and H. J. Jo, "Data Mining", KNOU PRESS, 2016, 1-200. 

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로