$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

포스트의 구조 유사성과 일일 발행수를 이용한 스플로그 탐지

Splog Detection Using Post Structure Similarity and Daily Posting Count

초록

블로그는 웹과 로그의 합성어로, 개개인의 생각이나 관심사 등을 일기처럼 기록할 수 있는 웹 서비스이다. 블로그에는 문자 외에, 그림이나 비디오 파일 등 다양한 컨텐츠를 올릴 수 있다. 일반적으로 블로그의 포스트는 시간상의 역순으로 정렬되어 표현된다. 블로그 검색 엔진은 웹 검색 엔진처럼 블로그를 대상으로 사용자의 질의에 따라 정보를 찾아주는 서비스이다. 블로그 검색 엔진은 때때로 만족스럽지 못한 결과를 내곤 하는데, 이것은 스플로그라고 불리는 블로그 스팸에 의해 발생한다. 스플로그는 다른 블로그나 웹 페이지를 무단 도용하거나 자동으로 생성된 컨텐츠로 구성된 스팸 포스트를 가지고 있다. 스플로그는 검색 엔진의 검색 순위를 높이거나, 회원 가입 사이트로 보다 많은 사람들을 유치하기 위해 사용된다. 본 논문은 스플로그 탐지를 목적으로 한다. 본 논문에서 제안하는 스플로그 탐지 기법은 블로그 포스트의 구조 유사성과 일일 포스트 발행수에 따른 분석으로 토대로 이루어진다. 본 논문에서 제안하는 기법을 바탕으로 한 실험의 결과, 스플로그 탐지에 있어 90% 이상의 높은 정확도를 가지며, 만족할만한 수준을 보여준다.

Abstract

A blog is a website, usually maintained by an individual, with regular entries of commentary, descriptions of events, or other material such as graphics or video. Entries are commonly displayed in reverse chronological order. Blog search engines, like web search engines, seek information for searchers on blogs. Blog search engines sometimes output unsatisfactory results, mainly due to spam blogs or splogs. Splogs are blogs hosting spam posts, plagiarized or auto-generated contents for the sole purpose of hosting advertizements or raising the search rankings of target sites. This thesis focuses on splog detection. This thesis proposes a new splog detection method, which is based on blog post structure similarity and posting count per day. Experiments based on methods proposed a day show excellent result on splog detection tasks with over 90% accuracy.

참고문헌 (12)

  1. Pranam Kolari, Akshay Java, Tim Finin, Tim Oates, Anupam Joshi, "Detecting Spam Blogs: A Machine Learning Approach," Proceedings of the 21st National Conference on Artificial Intelligence (AAAI 2006), 2006. 
  2. Pranam Kolari, Tim Finin, Akshay Java, Anupam Joshi, "Towards Spam Detection at Ping Servers," ICWSM 2007, 2007. 
  3. Wikipedia, "Spamdexing," Online at http://en.wikipedia.org/wiki/Spamdexing 
  4. Wikipedia, "blog," Online at http://en.wikipedia.org/wiki/Blog 
  5. Dennis Fetterly, Mark Manasse, Marc Najork, "Spam, Damn Spam, and Statistics," Seventh International Workshop on the Web and Databases (WebDB 2004), 2004. 
  6. Zoltan Gyongyi, Hector Garcia-Molina, "Web Spam Taxonomy," 30th International Conference on Very Large Data Bases (VLDB 2004), 2004. 
  7. Thorsten Joachims, "SVMlight," http://svmlight.joachims.org/, 2004. 
  8. Pranam Kolari and Akshay Java and Tim Finin, "Characterizing the Splogosphere," In WWW 2006, 3rd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, 2006. 
  9. Yu-Ru Lin, Hari Sundaram, Yun Chi, Junichi Tatemura, Belle Tseng, "Splog Detection Using Selfsimilarity Analysis on Blog Temporal Dynamics," AIRWeb 2007, 2007. 
  10. Wikipedia, "K-fold cross-validation," Online at http://en.wikipedia.org/wiki/Cross_validation#K-fold _cross-validation 
  11. Wikipedia, "Spam in Blogs," Online at http://en.wikipedia.org/wiki/Spam_in_blogs 
  12. Wikipedia, "Spam Blog," Online at http://en.wikipedia.org/wiki/Spam_blog 

이 논문을 인용한 문헌 (0)

  1. 이 논문을 인용한 문헌 없음

원문보기

원문 PDF 다운로드

  • ScienceON :

원문 URL 링크

원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다. (원문복사서비스 안내 바로 가기)

상세조회 0건 원문조회 0건

DOI 인용 스타일