$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안
Detecting Spam Data for Securing the Reliability of Text Analysis 원문보기

한국통신학회논문지 = The Journal of Korean Institute of Communications and Information Sciences, v.42 no.2, 2017년, pp.493 - 504  

현윤진 (Kookmin University The Graduate School of Business Information Technology) ,  김남규 (Kookmin University School of MIS)

초록
AI-Helper 아이콘AI-Helper

최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.

Abstract AI-Helper 아이콘AI-Helper

Recently, tremendous amounts of unstructured text data that is distributed through news, blogs, and social media has gained much attention from many researchers and practitioners as this data contains abundant information about various consumers' opinions. However, as the usefulness of text data is ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이러한 유형의 스패밍은 글의 내용만을 가지고 진위를 판단해야 할 뿐만 아니라, 태그 전체가 아닌 태그의 일부가 스팸인 경우까지 감안해야 한다는 점에서 해결이 매우 어렵다. 따라서 본 연구에서는 블로그의 스팸성 태그 식별을 위해, 포스팅과 태그 간 연결 고리에 초점을 맞추어 글의 내용 자체를 분석함으로써 내용과 부합하지 않는 스팸 태그를 검출하는 방법론을 제안한다.
  • 하지만 이러한 접근법을 따르는 연구는 메타 데이터를 충분히 활용할 수 없는 컨텐츠의 스팸 식별에는 적용되기 어렵다는 한계를 갖는다. 따라서 본 연구에서는 스팸으로 인한 파급 효과가 큰 매체 중 메타 데이터 기반 스팸 탐지 기법의 적용이 용이하지 않은 대표적 분야인 블로그에 대해, 블로그 스팸 태그 탐지 방법론을 제안하고자 한다.
  • Module1은 단일 문서 기반 스팸 태그 탐지 방법을 나타내며, 이는 그림 2의 프로세스 (1) ~ (3)에 해당된다. 본 방법론은 포스트 본문에 출현한 주요 용어와 해당 포스트 태그의 비교를 통해 스팸 태그를 탐지하는 것을 기본으로 하며, 이를 위해 포스트 본문에 출현한 주요 용어를 추출하는 과정이 우선적으로 선행된다. 포스트 본문을 대상으로 텍스트 파싱을 수행하여 각 포스트별 출현 용어를 추출하며, 이 때 분석의 품질을 향상시키기 위해 Stop List를 구축하여 적용한다.
  • 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 연구가 이메일 스팸 검출, 웹 스팸 탐지, 오피니언 스팸 탐지 등의 분야에서 매우 활발히 수행되어 왔다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 소개하고, 블로그 정보의 신뢰성 향상을 위한 스팸 태그 식별 방안을 새롭게 제안하였다. 제안 방법론은 포스트 본문 또는 태그 자체가 아닌 본문과 태그의 연결의 적합성에 따라 스팸 여부를 판정하며, 태그와 단일 문서의 관련성 뿐 아니라 태그와 문서그룹의 관련성을 동시에 고려했다는 점에서 기존 연구와 차별성을 갖는다.
  • 본 절에서는 블로그 스팸 태그 탐지 방법론을 제안한다. 스팸이란 용어는 관점에 따라 다양한 의미로 정의될 수 있으며, 본 연구에서 스팸 태그는 태그가 속해있는 문서의 주제와 부합하지 않는 태그, 즉 글의 주제와 직접적인 연관이 없는 태그를 나타내는 것으로 정의한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
태그 스패밍이 야기할 수 있는 문제점은 무엇인가? 예를 들어, 내용과 다른 태그를 설정하여 사용자를 유인하는 태그 스패밍의 경우 포스팅 내용에도 문제가 없고 태그 자체에도 문제가 없음에도 불구하고, 포스팅 내용에 부합되지 않는 태그의 연결이 스팸의 문제를 야기할 수 있다. 이는 그림 1을 통해 보다 자세히 설명된다.
스팸 데이터는 어떤 유형으로 나타나고 있는가? 이러한 스팸 데이터는 이메일(E-mail), SNS(Social Network Service), 블로그(Bolg) 등 다양한 유형으로 나타나고 있다. 이메일 스팸의 경우, 가장 고전적인 스팸 유형으로 정크 메일(Junk Mail) 혹은 벌크 메일(Bulk Mail)이라고도 불리며, 커뮤니티 사이트나 게시판 등에 게재되어 있는 이메일 주소를 수집하거나 단어나 숫자를 조합하여 수신자 이메일 주소를 생성해 원치 않는 상업적 이메일을 전송하는 방식으로 이루어진다.
스팸성 태그의 부작용을 방지하기 위한 연구들의 한계점은 무엇인가? 이러한 현상은 트위터의 영향력 및 스팸으로 인한 파급 효과가 매우 크기 때문이기도 하지만 사용자 계정, 사용자 사이의 네트워크 구조, 사용자 정보 등 메타 데이터를 활용한 스팸 탐지가 가능하다는 점에 기인한 측면이 있다. 하지만 이러한 접근법을 따르는 연구는 메타 데이터를 충분히 활용할 수 없는 컨텐츠의 스팸 식별에는 적용되기 어렵다는 한계를 갖는다. 따라서 본 연구에서는 스팸으로 인한 파급 효과가 큰 매체 중 메타 데이터 기반 스팸 탐지 기법의 적용이 용이하지 않은 대표적 분야인 블로그에 대해, 블로그 스팸 태그 탐지 방법론을 제안하고자 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (38)

  1. Economist Intelligence Unit, Big Data Harnessing a Game-Changing Asset, The Economist, 2011. 

  2. McKinsey Global Institute, Big Data: The next Frontier for Innovation, Competition, and Productivity, McKinsey and Company, 2011. 

  3. Gartner Inc., 2012 Hype Cycle for Emerging Technologies, Gartner Inc., 2011. 

  4. C. Chen, J. Zhang, Y. Xiang, and W. Zhou, "Spammers are becoming "Smarter" on twitter," Browse J. & Mags., vol. 18, no. 2, 2016. 

  5. B. Liu, Sentiment analysis and opinion mining, syntehesis lectures on human language technologies #16, Morgan & Claypool Publisiers, 2012. 

  6. M. Egele, G. Stringhini, C. Kruegel, and G. Vigna, "Compa: Detecting compromised accounts on social networks," in Proc. Ann. Netw. Distrib. Syst. Security Symp., San Diego, CA, 2013. 

  7. J. Song, S. Lee, and J. Kim, "Spam filtering in twitter using sender-receiver relationship. Recent advances in intrusion detection," Int. Workshop on Recent Advances in Intrusion Detection, pp. 301-317, Heidelberg, Berlin, Sept. 2011. 

  8. S. Yarde, D. Romero, G. Schoenebeck, and D. Boyd, "Detecting spam in a twitter network," First Monday, vol. 15, no. 1, Jan. 2010. 

  9. A. H. Wang, "Don't follow me: Spam detection in twitter," IEEE SECRYPT, pp. 1-10, Athens, Greece, Jul. 2010. 

  10. Y. Ma, Y. Niu, Y. Ren, and Y. Xue, "Detecting spam on sina weibo," CCIS, Oct. 2013. 

  11. S. Lee and J. Kim, "Warningbird: A near real-time detection system for suspicious URLs in twitter stream," IEEE Trans. Dependable and Secure Comput., vol. 10, no. 3, pp. 183-195, Jan. 2013. 

  12. J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques, 3rd Ed., Morgan Kaufmann Publishers, 2011. 

  13. R. J. Mooney and R. Bunescu, "Mining knowledge from text using information extraction," ACM SIGKDD Explorations Newsletter - Natural Lang. Process. and Text Mining, vol. 7, no. 1, pp. 3-10, Jun. 2006. 

  14. C. J. V. Rijsbergen, Information Retrieval, 2nd Ed., Butterworth, London, 1979. 

  15. K. Kim and H. Ahn. "Development of web-based intelligent recommender systems using advanced data mining techniques," J. Inf. Technol. Appl. Management, vol. 12, no. 3, pp. 41-56, Sept. 2005. 

  16. J. Hur and J. W. Kim, "Characteristics on inconsistency pattern modeling as hybrid data mining techniques," J. Inf. Technol. Appl. Management, vol. 15, no. 1, pp. 225-242, Mar. 2008. 

  17. I. Hwang, "A study on dynamic query expansion using web mining in information retrieval," J. Inf. Technol. Appl. Management, vol. 11, no. 2, pp. 227-237, Jun. 2004. 

  18. T. N. Phan and M. Yoo, "Facebook fan page evaluation system based on user opinion mining," The J. Korean Inst. Commun. and Inf. Sci., vol. 40, no. 12, pp. 2488-2490, Dec. 2015. 

  19. J. Moon, I. Jang, Y. C. Choe, J. G. Kim, and G. Bock, "Case study of big data-based agri-food recommendation system according to types of customers," The J. Korean Inst. Commun. Inf. Sci., vol. 40, no. 5, pp. 903-913, May 2015. 

  20. R. Albright, Taming Text with the SVD, SAS Institute Inc., 2006. 

  21. G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Commun. ACM, vol. 18, no. 11, pp. 613-620, Nov. 1975. 

  22. S. M. Weiss, N. Indurkhya, and T. Zhang, Fundamentals of Predictive Text Mining, Springer, 2010. 

  23. J. Kim, N. Kim, and Y. Cho, "Userperspective issue clustering using multilayered two-mode network analysis," J. Intell. Inf. Syst., vol. 20, no. 2, pp. 93-107, Jun. 2014. 

  24. Y. Hyun, N. Kim, and Y. Cho, "A multi-dimensional issue clustering from the perspective consumers' interests and R&D," J. Inf. Technol. Serv., vol. 14, no. 1, pp. 237- 249, Mar. 2015. 

  25. S. Choi, Y. Hyun, and N. Kim, "Improving performance of recommendation systems using topic modeling," J. Intell. Inf. Syst., vol. 21, no. 3, pp. 101-116, Sept. 2015. 

  26. Y. Hyun, N. Kim, and Y. Cho, "Interest-based customer segmentation methodology using topic modeling," J. Inf. Technol. Appl. & Management, vol. 22, no. 1, pp. 77-93, Mar. 2015. 

  27. D. Kim, W. X. S. Wong, M. Lim, C. Liu, N. Kim, J. Park, W. Kil, and H. Yoon, "A methodology for analyzing public opinion about science and technology issues using text analysis," J. Inf. Technol. Serv., vol. 14, no. 3, pp. 33-48, Sept. 2015. 

  28. M. Lim and N. Kim, "Investigating dynamic mutation process of issues using unstructured text analysis," J. Intell. Inf. Syst., vol. 22, no. 1, pp. 1-18, Mar. 2016. 

  29. M. Sahami, S. Dumais, D. Heckerman, and E. Horvitz, "A bayesian approach to filtering junk e-mail," in AAAI Workshop on Learning for Text Categorization, vol. 62, pp. 98-105, Jul. 1998. 

  30. X. Jia, K. Zheng, W. Li, T. Liu, and L. Shang, "Three-way decisions solution to filter spam email: An empirical study," Int. Conf. Rough Sets and Current Trends in Comput., pp. 287-296, Heidelberg, Berlin, Aug. 2012. 

  31. I. Joe and H. T. Shim, "A SVM-based spam filtering system for short message service (SMS)," J. KICS, vol. 34, no. 9, pp. 908-913, Sept. 2009. 

  32. B. Klimt and Y. Yang, "Introducing the enron corpus," CEAS 2004, First Conf. Email and Anti-Spam, California, USA, Jul. 2004. 

  33. Z. Gyongyi, H. Garcia-Molina, and J. Pedersen, "Combating web spam with trustrank," VLDB '04, pp. 576-587, Toronto, Canada, Aug. 2004. 

  34. Z. Gyongyi, P. Berkhin, H. Garcia-Molina, and J. Pedersen, "Link spam detection based on mass estimation," VLDB '06, pp. 439-450, Seoul, Korea, Sept. 2006. 

  35. A. Ntoulas, M. Najork, M. Manasse, and D. Retterly, "Detecting spam web pages through content analysis," in Proc. 15th Int. Conf. World Wide Web, pp. 83-92, Edinburgh, Scotland, May 2006. 

  36. P. Xanthopoulos, O. P. Panagopoulos, G. A. Bakamitsos, and E. Freudmann, "Hashtag hijacking: What it is, why it happens and how to avoid it," J. Digital & Social Media Marketing, vol. 3, no. 4, pp. 353-362, Feb. 2016. 

  37. S. Sedhai and A. Sun, "Effect on spam on hashtag recommendation for tweets," in Proc. 25th Int. Conf. Companion on World Wide Web, pp. 97-98, Quebec, Canada, Apr. 2016. 

  38. J. Jung and M. Yoo, "Tag search system using the keyword extraction and similarity evaluation," The J. Korean Inst. Commun. Inf. Sci., vol. 40, no. 12, pp. 2458-2487, Dec. 2015. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로