$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별
Facebook Spam Post Filtering based on Instagram-based Transfer Learning and Meta Information of Posts 원문보기

대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.43 no.3, 2017년, pp.192 - 202  

김준홍 (고려대학교 산업경영공학부) ,  서덕성 (고려대학교 산업경영공학부) ,  김해동 (고려대학교 산업경영공학부) ,  강필성 (고려대학교 산업경영공학부)

Abstract AI-Helper 아이콘AI-Helper

This study develops a text spam filtering system for Facebook based on two variable categories: keywords learned from Instagram and meta-information of Facebook posts. Since there is no explicit labels for spam/ham posts, we utilize hash tags in Instagram to train classification models. In addition,...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이는 인스타그램 특성상 상당히 짧은 글들이 존재 할 수 있는데 이러한 게시글들은 문서적 특성을 가지기 힘든 경우가 많기 때문이다. 둘째, 데이터를 수집할 때 예상치 못한 이유로 특정 항목에 대해 정보가 수집되지 않는 경우가 발생하는데 본 연구에서는 모든 메타 정보가 존재하는 게시글들을 분석 대상으로 삼기 위하여 이러한 게시글들은 제거하였다. 셋째, 중복된 게시글은 한번만 사용하도록 전처리를 수행하였다.
  • 본 연구에서는 대표적 SNS인 페이스북을 대상으로 전이학습(transfer learning)과 메타정보를 이용한 스팸 분류기를 구축하고자 한다. 본 연구에서 사용하는 페이스북 게시글은 예측 모델 구축 관점에서 다음과 같이 두 가지 문제점을 가지고 있다.
  • 이러한 상황에서 양질의 데이터를 충분히 구하기 힘들 경우, 현실적인 대안으로 비슷한 영역의 다른 데이터를 차용해 사용하는 전이학습(transfer learning) 방법을 사용한다(Pan and Yang, 2010). 본 연구에서는 이러한 관점에서 상대적으로 표식 데이터의 수집이 수월한 인스타그램의 게시글을 학습하여 페이스북의 스팸 게시글을 분류하는 모델을 구축하고자 한다.
  • 본 연구에서는 최근 스팸정보의 유통경로가 기존 E-mail과 휴대폰 문자메시지에서 SNS로 변화하고 있는 점과 해당 한글 연구가 거의 없다는 점을 고려하여 대표적인 SNS인 페이스북 게시글들에 대한 스팸 필터링 시스템을 제안하였다. 페이스북 게시글의 경우 명시적인 목표변수가 없는 상황과 실제 스팸 데이터가 비교적 소량으로 존재하여 데이터 수집이 힘든 점을 보완하기 위해 인스타그램의 해시태그 정보를 이용하여 스팸성 게시글과 정상 게시글을 수집하여 텍스트 기반 스팸 필터링 시스템을 구축하였다.
  • 본 연구에서는 페이스북 전체 페이지 기반 예측을 목적으로 분류기를 생성하였지만 특정 주제로 이루어진 하나의 페이스북 페이지는 대부분의 비슷한 텍스트로 이루어져 있을 확률이 있으므로, 개별 페이지별로 콘텐츠의 주제를 분석하는 토픽 모델링 기법 등을 기반으로 스팸 필터링 시스템을 구축해볼 수 있을 것이다. 또한 해당 연구 방법론을 통하여 지속적으로페이스북 데이터를 습득한다면, 인스타그램의 학습된 단어가 아닌 페이스북의 대량의 문서(corpus)데이터를 통한 분류기를 생성 할 수 있을 것이다.
  • 둘째, 스팸 게시글의 비율은 정상 게시글보다 낮기 때문에 데이터 불균형 문제가 발생하여 분류기의 정확도를 저하시키는 요인이 된다. 이러한 문제점을 해결하기 위하여 본 연구에서는 인스타그램이라는 다른 SNS에서 사용 가능한 해시태그(hash tag)를 활용하여 충분한 스팸 및 정상 게시글에 대한 목표 변수를 확보하여 스팸 분류 모델을 구축하였다. 인스타그램은 사진 위주의 SNS로서 사용자가 사진을 올리면서 직접 태그를 입력할 수 있는데 이를 해시태그라고 한다.

가설 설정

  • 또한 본 연구에서는 인스타그램의 스팸/정상 표식을 이용하여 게시글을 학습한 분류기로 페이스북의 게시글의 스팸 여부를 예측하였다. 이는 SNS의 종류와는 무관하게 스팸성 게시글의 텍스트 사용 패턴이 비슷한 것이라는 가정을 바탕으로 수행한 것이다. 일반적으로 기계학습과 데이터마이닝에서는 모델 구축과 활용에 사용하는 데이터가 동질하다는 가정을 한다.
  • 인스타그램 데이터의 특징은 다음과 같이 두 가지가 있다. 첫째, 해시태그가 있다는 점이다. 이를 통해 다양한 해시태그들을 기준으로 여러 분야의 게시글을 수집하는 것이 가능하게 되었다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 한 배경은 무엇인가? 본 연구에 사용된 게시글들은 SNS에서 사용되는 용어 및 표현 방식이 만연한 관계로 표준어의 문법을 따르지 않는 경우가 많다. 따라서 이러한 특징을 보다 정확하게 반영하는 스팸 분류기를 구축하기 위하여 표준어 기반의 형태소 분석기가 아닌 트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 수행하였다
본 연구에서 적용한 분류기는 무엇인가? 본 연구에서 적용한 분류기는 의사결정나무 기반의 앙상블 기법인 랜덤포레스트이다. 랜덤포레스트는 배깅(bagging) 기법을 이용하여 서로 다른 학습 데이터 부트스트랩을 생성하며, 개별 의사결정나무의 분기점 선택이 임의의 적은 변수들만을 고려한다.
분류 모델 구축을 위한 학습 데이터 구성이 쉽지 않은 이유는 무엇인가? 본 연구에서 사용하는 페이스북 게시글은 예측 모델 구축 관점에서 다음과 같이 두 가지 문제점을 가지고 있다. 첫째, 스팸 게시글과 정상 게시글에 대한 목표 변수의 획득이 어렵기 때문에 분류 모델 구축을 위한 학습 데이터 구성이 쉽지 않다. 둘째, 스팸 게시글의 비율은 정상 게시글보다 낮기 때문에 데이터 불균형 문제가 발생하여 분류기의 정확도를 저하시키는 요인이 된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. Breiman, L. (2001), Random Forests, Machine Learning, 45(1), 5-32. 

  2. Fernandez-Delgado. M. and Cernadas. E. (2014), Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?, Journal of Machine Learning Research, 15, 3133-3181. 

  3. Gao, H., Chen, Y., Lee, K., Palsetia, D., and Choudhary, A. N. (2012), Towards Online Spam Filtering in Social Networks, In NDSS 12, 1-16. 

  4. Jo, C. Y. (2011), A Semiotic Study for New Media-applied to the case for Social Network Service, Semiotic Inquiry, 30, 125-154. 

  5. Joe, I. H. and Shim, H. T. (2009), A SVM-based Spam Filtering System for Short Message Service, The Korean Institute of Communications and Information Sciences, 34(9), 908-913. 

  6. Kanaris, I., Kanaris, K., and Stamatatos, E. (2006), Spam detection using character n-grams, Hellenic conference on artificial intelligence, 3955, 95-104. 

  7. Lee, H. N., Song, M. G., and Im, E. G. (2011a), A Study on Structuring Spam Short Message Service(SMS) filter, The Korean Institute of Communications and Information Sciences, 1072-1073. 

  8. Lee, S. J. and Choi, D. J. (2011b), Personalized Mobile Junk Message Filtering System, The Journal of the Korea Contents Association, 11(12), 122-135. 

  9. Lee, S. W. (2010), Spam Filter by Using X2 Statistics and Support Vector Machines, The KIPS transactions, 17(3), 249-254. 

  10. Oh, Y. H., Kim, H., Yoon, J. S., and Lee, J. S. (2014), Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games, Journal of Korean Institute of Industrial Engineers, 40(1), 8-17. 

  11. Quan, X., Liu, W., and Qiu, B. (2011), Term Weighting Schemes for Question Categorization, IEEE Transactions on Pattern Analysis and Machine Intelligence archive, 33(5), 1009-1021. 

  12. Shannon, C. E. (2001), A mathematical theory of communication, ACM SIGMOBILE Mobile Computing and Communications Review, 5(1), 3-55. 

  13. Soiraya, M., Thanalerdmongkol, S., and Chantrapornchai, C. (2012), Using a Data Mining Approach : Spam Detection on Facebook, International Journal of Computer Applications, 58(13), 26-31. 

  14. Stringhini, G., Kruegel, C., and Vigna G. (2010), Detecting spammers on social networks, Proceedings of the 26th Annual Computer Security Applications Conference, 1-9. 

  15. Yang, C., Harkreader, R. C., and Gu, G. (2011), Die free or live hard? empirical evaluation and new design for fighting evolving twitter spammers, In International Workshop on Recent Advances in Intrusion Detection, 318-337. 

  16. Yang, C., Harkreader, R. C., and Gu, G. (2013), Empirical evaluation and new design for fighting evolving Twitter spammers, IEEE Transactions on Information Forensics and Security, 8(8), 1280-1293. 

  17. Zhang, X., Li, Z., Zhu, S., and Liang, W. (2016), Detecting spam and promoting campaigns in Twitter, ACM Transactions on the Web (TWEB), 10(1), 4:1-28. 

  18. Zheng, X., Zeng, Z., Chen, Z., Yu, Y., and Rong, C. (2015), Detecting spammers on social networks, Neurocomputing, 159, 27-34. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로