$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

WWW 환경에서 중복문서의 검출 기법에 대한 고찰
A Survey on Detecting Duplicate Documents in World Wide Web Environment

데이타베이스 연구 = Database research, v.25 no.1, 2009년, pp.1 - 17  

이순행 (한양대학교 전자컴퓨터통신공학과) ,  이상철 (한양대학교 전자컴퓨터통신공학과) ,  김상욱 (한양대학교 전자컴퓨터통신공학과) ,  김학진 (연세대학교 경영대학)

초록

최근 들어 웹 문서가 증가함에 따라 중복문서 검출의 중요성이 점차 커지고 있다. 본 논문에서는 WWW 환경에서 중복문서를 검출하는 기법에 관련된 기존의 연구 현황에 대하여 소개한다. 먼저, 두 개의 문서가 주어졌을 때 중복인지의 여부를 판정하는 기법들을 소개한다. 두 번째로는 대용량의 문서 데이터베이스에서 중복문서들을 효율적으로 검출하는 기법들에 대해 논한다. 마지막으로 향후 연구 방향에 대하여 제시한다.

Abstract AI-Helper 아이콘AI-Helper

Recently, as the number of documents in the WWW(World Wide Web) increases, it becomes crucial to treat duplicate documents. In this article, we survey previous research results related to handling duplicate documents in WWW environment. First, we introduce a variety of methods for determining whethe...

주제어

참고문헌 (37)

  1. K. Bharat and A. Broder, "Mirror, Mirror on the Web: A Study of Host Pairs with Replicated Content.," In Proc. Int' l. World Wide Web Conference, WWW,pp. 1579-1590,1999. 

  2. S. Brin, J. Davis and H. Garcia-Molina, "Copy Detection Mechanisms for Digital Documents," In Proc. ACM Int' I. Conf. on Management of Data, SIGMOD, pp. 398-409, 1995. 

  3. S. Brin and L. Page, "The Anatomy of a Largescale Hypertextual Web Search Engine," Journal of Computer Networks and ISDN Systems, Vol. 30, pp. 107-117, 1998. 

  4. A. Broder et aI., "Syntactic Clustering of the Web;' In Proc. Int'l. World Wide Web Conference, WWW,pp. 391-404, 1997. 

  5. A. Broder, "On the Resemblance and Containment of Documents," In Proc. Int' l. Conf. on Compression and Complexity of Sequences, SEQUENCES' 97, pp. 21-29, 1998. 

  6. A. Broder et ai., "Min-Wise Independent Permutations;' Journal of Computer and System Sciences, Vol. 60, No.3, pp. 630-659,2000. 

  7. A. Broder, "Identifying and Filtering Near Duplicate Documents," In Proc. Int'l. Symp. on Combinatorial Pattern Matching, CPM, pp. 1-10, 2000. 

  8. M. Charikar, "Similarity Estimation Techniques from Rounding Algorithms,' In Proc. ACM Int' l. Symp. on Theory of Computing, pp. 380-388, 2002. 

  9. A. Chowdhury et aI., "Collection Statistics for Fast Duplicate Document Detection;' ACM Trans. on Information System, Vol. 20, No.2, pp. 171-191, 2002. 

  10. J. Conrad, X. Guo, and C. Schriber, "Online Duplicate Document Detection: Signature Reliability in a Dynamic Retrieval Environment;' In Proc. Int' l. Conf. on Information and Knowledge management, CIKM, pp. 443-452, 2003. 

  11. J. Conrad and C. Schriber, "Constructing a Text Corpus for Inexact Duplicate Detection;' In Proc. ACM Int' l. Conf. on Information Retrieval, SIGIR, pp. 582-583, 2004. 

  12. J. Cooper, A. Coden, and E. Brown, "Detecting Similar Documents Using Salient Terms," In Proc. Int'l. Conf. on Information and Knowledge Management, CIKM, pp. 245-251, 2002. 

  13. J. Dean and M. Henzinger, "Finding Related Pages in the World Wide Web," Journal of Computer Networks, Vol. 31, pp. 1467-1479, 1999. 

  14. D. Fetterly, M. Manasse, and M. Najork, "On the Evolution of Clusters of Near-Duplicate Web Pages," In Proc. Int' I. Conf. on the 1st Latin American Web Congress, LA-WEB, pp. 37-45, 2003. 

  15. T. Haveliwala, A. Gionis, and P. Indyk, "Scalable Techniques for Clustering the Web," In Proc. Int' l. Workshop on the Web and Databases, WebDB, pp. 129-134,2000. 

  16. T. Haveliwala et al., "Evaluating Strategies for Similarity Search on the Web," In Proc. Int'l. World Wide Web Conference, WWW, pp. 432-442,2002. 

  17. N. Heintze, "Scalable Document Fingerprinting," In Proc. USENIX Electronic Commerce Workshop, pp. 1917200,1996. 

  18. M. Henzinger, "Finding Near-Duplicate Web Pages: A Large-Scale Evaluation of Algorithms;' In Proc. ACM Int' I. Conf. on Information Retrieval, SIGIR, pp. 284-291, 2006. 

  19. T. Hoad and J. Zobel, "Methods for Identifying Versioned and Plagiarized Documents," Journal of the American Society for Information Science and Technology, Vol. 54, No.3, pp. 203- 215,2003. 

  20. N. Jain, M. Dahlin, and R. Tewari, "Using Bloom Filters to Refine Web Search Results," In Proc. Int'l. Conf. on Web Databases, WebDB, pp. 25-30, 2005. 

  21. S. Jonathan and A. Paepcke, "SpotSigs: Near Duplicate Detection in Web Page Collections;' In Proc. ACM Int' l. Conf. on Information Retrieval, SIGIR, 2007. 

  22. A. Kolcz, A. Chowdhury, and J. Alspector, "Improved Robustness of Signature-based Near-replica Detection via Lexicon Randomization;' In Proc. ACM Int'l. Conf. on Knowledge Discovery and Data Mining, SIGKDD, pp. 605-610, 2004. 

  23. S. Lawrence and L. Giles, "Searching the World Wide Web;' Journal of Science, Vol. 280, No. 5360, pp. 98-100, 1998. 

  24. U. Manber, "Finding Similar Files in a Large File System;' In Proc. Int'l. Conf. on USENIX, pp. 1-10, 1994. 

  25. G. Manku, A. Jain, and A. Sarma, "Detecting Near-Duplicates for Web Crawling;' In Proc. Int'l. World Wide Web Conference, WWW, pp. 141-149, 2007. 

  26. S. Park et al., "Analysis of Lexical Signatures for Finding Lost or Related Documents,' In Proc. ACM Int'l. Conf. on Information Retrieval, SIGIR, pp.11-18, 2002. 

  27. A. Pereira Jr. and N. Ziviani, "Syntactic Similarity of Web Documents;' In Proc. Int'l. Conf. on Latin American Web Congress, LAWEB, pp. 194-121,2003. 

  28. M. Rabin, Fingerprinting by Random Polynomials, Technical Report TR-CSE-03-01, Harvard University, 1981. 

  29. S. Schleimer, D. S. Wilkerson, and A. Aiken, "Winnowing: Local Algorithms for Document Fingerprinting," In Proc. ACM lnt' I. Conf on Management of Data, SIGMOD, pp. 76-85,2003. 

  30. N. Shivakumar and H. Garcia-Molina, "SCAM: A Copy Detection Mechanism for Digital Documents," In Proc. Int' I. Conf on Theory and Practice of Digital Libraries, DL, pp. 155-163, 1995. 

  31. N. Shivakumar and H. Garcia-Molina, "Finding Near-Replicas of Documents on the Web," In Proc. lnt' l. Conf. on Web Databases, WebDB, pp. 204-212, 1998. 

  32. A. Spink et aI., "Searching the Web: the Public and Their Queries," Journal of the American Society for Information Science, Vol. 52, No.3, pp. 226-234, 2001. 

  33. H. Yang and J. Callan, "Near-Duplicate Detection for eRulemaking," In Proc. lnt'l. Conf. on Digital Government Research, DGO, pp.15-18,2005. 

  34. H. Yang and J. Callan, "Near-Duplicate Detection by Instance-level Constrained Clustering," In Proc. ACM In t 'l. Conf. on Information Retrieval, SIGIR, pp. 421-428, 2006. 

  35. S. Ye et aI., "A Query-Dependent Duplicate Detection Approach for Large Scale Search Engines," In Proc. lnt' l. Conf. on Asia-Pacific Web Conference, APWeb, pp. 48-58, 2004. 

  36. S. Ye, J. Wen, and W. Ma, "A Systematic Study of Parameter Correlations in Large Scale Duplicate Document Detection," In Proc. lnt' I. Conf. on Pacific-Asia Conference on Knowledge Discovery and Data Mining, PAKDD, pp. 275-284.2006. 

  37. J. Zobel and Y. Bernstein, "The Case of the Duplicate Documents Measurement, Search, and Science," In Proc. lnt' l. Conf on Asia-Pacific Web Conference, APWeb, pp. 26-39, 2006. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로