최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.43 no.3, 2017년, pp.192 - 202
김준홍 (고려대학교 산업경영공학부) , 서덕성 (고려대학교 산업경영공학부) , 김해동 (고려대학교 산업경영공학부) , 강필성 (고려대학교 산업경영공학부)
This study develops a text spam filtering system for Facebook based on two variable categories: keywords learned from Instagram and meta-information of Facebook posts. Since there is no explicit labels for spam/ham posts, we utilize hash tags in Instagram to train classification models. In addition,...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 한 배경은 무엇인가? | 본 연구에 사용된 게시글들은 SNS에서 사용되는 용어 및 표현 방식이 만연한 관계로 표준어의 문법을 따르지 않는 경우가 많다. 따라서 이러한 특징을 보다 정확하게 반영하는 스팸 분류기를 구축하기 위하여 표준어 기반의 형태소 분석기가 아닌 트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 수행하였다 | |
본 연구에서 적용한 분류기는 무엇인가? | 본 연구에서 적용한 분류기는 의사결정나무 기반의 앙상블 기법인 랜덤포레스트이다. 랜덤포레스트는 배깅(bagging) 기법을 이용하여 서로 다른 학습 데이터 부트스트랩을 생성하며, 개별 의사결정나무의 분기점 선택이 임의의 적은 변수들만을 고려한다. | |
분류 모델 구축을 위한 학습 데이터 구성이 쉽지 않은 이유는 무엇인가? | 본 연구에서 사용하는 페이스북 게시글은 예측 모델 구축 관점에서 다음과 같이 두 가지 문제점을 가지고 있다. 첫째, 스팸 게시글과 정상 게시글에 대한 목표 변수의 획득이 어렵기 때문에 분류 모델 구축을 위한 학습 데이터 구성이 쉽지 않다. 둘째, 스팸 게시글의 비율은 정상 게시글보다 낮기 때문에 데이터 불균형 문제가 발생하여 분류기의 정확도를 저하시키는 요인이 된다. |
Fernandez-Delgado. M. and Cernadas. E. (2014), Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?, Journal of Machine Learning Research, 15, 3133-3181.
Gao, H., Chen, Y., Lee, K., Palsetia, D., and Choudhary, A. N. (2012), Towards Online Spam Filtering in Social Networks, In NDSS 12, 1-16.
Jo, C. Y. (2011), A Semiotic Study for New Media-applied to the case for Social Network Service, Semiotic Inquiry, 30, 125-154.
Joe, I. H. and Shim, H. T. (2009), A SVM-based Spam Filtering System for Short Message Service, The Korean Institute of Communications and Information Sciences, 34(9), 908-913.
Kanaris, I., Kanaris, K., and Stamatatos, E. (2006), Spam detection using character n-grams, Hellenic conference on artificial intelligence, 3955, 95-104.
Lee, H. N., Song, M. G., and Im, E. G. (2011a), A Study on Structuring Spam Short Message Service(SMS) filter, The Korean Institute of Communications and Information Sciences, 1072-1073.
Lee, S. W. (2010), Spam Filter by Using X2 Statistics and Support Vector Machines, The KIPS transactions, 17(3), 249-254.
Quan, X., Liu, W., and Qiu, B. (2011), Term Weighting Schemes for Question Categorization, IEEE Transactions on Pattern Analysis and Machine Intelligence archive, 33(5), 1009-1021.
Shannon, C. E. (2001), A mathematical theory of communication, ACM SIGMOBILE Mobile Computing and Communications Review, 5(1), 3-55.
Soiraya, M., Thanalerdmongkol, S., and Chantrapornchai, C. (2012), Using a Data Mining Approach : Spam Detection on Facebook, International Journal of Computer Applications, 58(13), 26-31.
Stringhini, G., Kruegel, C., and Vigna G. (2010), Detecting spammers on social networks, Proceedings of the 26th Annual Computer Security Applications Conference, 1-9.
Yang, C., Harkreader, R. C., and Gu, G. (2011), Die free or live hard? empirical evaluation and new design for fighting evolving twitter spammers, In International Workshop on Recent Advances in Intrusion Detection, 318-337.
Yang, C., Harkreader, R. C., and Gu, G. (2013), Empirical evaluation and new design for fighting evolving Twitter spammers, IEEE Transactions on Information Forensics and Security, 8(8), 1280-1293.
Zhang, X., Li, Z., Zhu, S., and Liang, W. (2016), Detecting spam and promoting campaigns in Twitter, ACM Transactions on the Web (TWEB), 10(1), 4:1-28.
Zheng, X., Zeng, Z., Chen, Z., Yu, Y., and Rong, C. (2015), Detecting spammers on social networks, Neurocomputing, 159, 27-34.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.