$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

웹크롤러의 수집주기 최적화
Refresh Cycle Optimization for Web Crawlers 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.13 no.6, 2013년, pp.30 - 39  

조완섭 (충북대학교 경영정보학과) ,  이정은 (충북대학교 비즈니스데이터융합학과) ,  최치환 (충북대학교 바이오정보기술학과)

초록
AI-Helper 아이콘AI-Helper

웹 크롤러는 서버의 부담을 최소화하면서도 최신의 데이터를 웹사이트로부터 수집하고 유지해야 한다. 빅데이터 시대와 같이 데이터가 폭발적으로 증가하는 시대에 데이터 소스로부터 자주 모든 데이터를 추출하는 것은 서버에 심각한 부담을 주게 된다. 무선통신 기술과 다양한 스마트 기기들의 확산으로 정보가 급속도로 생성되고 있으며, 어디에서나 어느 시간이나 지속적으로 생성 및 변경되고 있다. 웹크롤러는 이러한 상황을 감안하여 최신의 정보를 적은 오버헤드로 유지해 나가는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 웹사이트의 변경사항을 체크할 수 있는 효과적인 방안과 웹사이트의 수집 주기를 동적으로 변경함으로써 적은 비용으로 최신성을 유지할 수 있는 방안을 제시한다. 핵심 아이디어는 과거 히스토리로부터 웹사이트 변경이 집중되는 시간을 파악하여 웹수집 주기를 결정하는데 반영한다는 점이다. 논문에서는 특정 웹사이트의 데이터를 추출하는 Java 크롤러를 개발하고, 제안된 방식과 기존 방식의 유용성을 비교하였다. 제안된 기법을 사용하면 정적인 방식보다 서버 오버헤드를 절반정도(46.2%)로 줄이면서도 최신성을 더욱 높게 보장할 수 있게 된다.

Abstract AI-Helper 아이콘AI-Helper

Web crawler should maintain fresh data with minimum server overhead for large amount of data in the web sites. The overhead in the server increases rapidly as the amount of data is exploding as in the big data era. The amount of web information is increasing rapidly with advanced wireless networks a...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 문제는 복제 데이터의 유지기법과 유사하며, 얼마나 서버의 부하를 줄이면서 데이터 신선도를 높이는 가에 대한 tradeoff 로 볼 수 있다. 또한 이 연구에서는 웹페이지의 변경주기를 포아송(Poisson) 분포를 가정하고 예측하는 방법을 제안하고 있다. 반면[20]에서 웹 문서의 변화를 표현하는 척도로 ‘다운로드 성공률’, ‘변경률’, ‘나이 변이 계수’를 제시하였으며, 이를 통해 다운로드 성공과 변경이 과거 기록과 밀접한 연관이 있음을 발견하였다.
  • 본 논문에서는 래퍼기반 웹 크롤링에서 url-list의 수집주기를 결정하는 방법을 제시하였다. 주어진 url-list 에 대하여 1개월 동안의 변경기록 데이터를 분석하여 각 url의 수집주기를 적절하게 결정하고, 웹 크롤러에서 이를 바탕으로 웹페이지들을 수집함으로써 최신성을 높이면서도 서버의 부하를 줄이는 효과가 있다.
  • 본 연구에서는 래퍼기반 웹크롤러에서 갱신주기(refresh cycle)를 동적으로 결정하는 방안을 제안한다. 일반적으로 웹사이트 내의 웹페이지들도 그 특성에 따라서 갱신주기나 빈도가 다양한 특성을 가진다.
  • 초기 수집주기는 시간이 지남에 따라 실제 상황과 차이가 있을 수 있으므로 일정 기간이 지나면 다시 그동안 축적된 정보를 바탕으로 갱신해 나가는 방식으로 수집주기를 지속적으로 적응시켜 나간다. 이 장에서는 동적으로 수집주기를 결정하기 위한 데이터 수집 및 관리 방안을 제안하고, 이를 분석하여 수집주기 결정에 사용하는 기법을 소개한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
웹페이지 수집주기 중 동적인 방식의 장점은 무엇인가? 일반적으로 정해진 시간에 웹페이지를 검색하여 원하는 자료를 가져오는 정적 수집주기 (static refresh cycle)를 많이 사용하지만 변경되지 않는 자료일지라도 정해진 시간에 수집해야 하므로 네트워크 오버헤드가 증가하여 효과적이지 못하다. 이에 비하여 동적 수집주기(dynamic refresh cycle) 방식을 사용하면 자주 변경되는 페이지는 자주 가져오고 그렇지 않은 페이지는 가끔씩 가져오게 되므로 서버나 클라이언트의 부담이 경감되는 이점이 있다[5][6].
웹크롤러란? 검색엔진의 근간이 되는 웹크롤러(web crawler)는 인터넷상에 존재하는 웹문서들을 추적하여 필요한 정보를 수집하는 기술을 말하며, 야후와 같은 인터넷 검색시스템, 전자상거래 상품검색등 대부분의 인터넷 산업의 근간이 되는 핵심기술이다[5].
웹 크롤러는 어떻게 구분될 수 있는가? ETL 중에서 특정 웹사이트에 저장된 정보를 추출하는 도구로서 웹 크롤러(Web Crawler)가 사용되고 있다[1][2][7-9]. 웹 크롤러는 모든 웹문서를 수집 대상으로 하는 범용 크롤러[10], Focused Crawler[12], 특정한 주제의 문서만을 수집하는 Topical crawler[14], 래퍼기반 웹크롤러[16] 등으로 구분할 수 있다. 래퍼기반 웹크롤러는 해당 사이트의 구조를 미리 분석한 정보 (url-list) 를 이용하여 웹크롤러가 해당 페이지만 접근하므로 쇼핑몰의 VOC (voice of customer) 정보 등을 수집하는데 적합하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (22)

  1. 강한훈, 유성준, 한동일, "다양한 계층 트리구조를 갖는 쇼핑몰 상에서의 상품평 수집을 위한 웹크롤러 래퍼의 설계 및 구현", 한국지능시스템학회논문지, 제20권, 제3호, pp.318-325, 2010. 

  2. 권성호, 이영탁, 김영준, 이용두, "고성능 웹크롤러의 설계 및 구현", 한국산업정보학회논문지, 제8권, 제4호, pp.64-72, 2003. 

  3. 고일석, 최우진, 나윤지, 류승렬, "효율적인 웹문서 처리를 위한 HTTP 지연 개선에 관한 연구", 한국콘텐츠학회논문지, 제2권, 제2호, pp.47-52, 2002. 

  4. 김광영, 이원구, 이민호, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발", 한국콘텐츠학회논문지, 제11권, 제9호, pp.9-16, 2011. 

  5. 김성진, "웹 정보탐색행위 모형의 비교분석 연구", 정보처리학회지, 제21권, 제2호, pp.211-233, 2004. 

  6. 김경수, 웹 크롤링 수집주기의 동적 설계 및 구현, 충북대학교 경영대학원 석사논문, 2011. 

  7. 장문수, 정준영, "URL 패턴 스크립트를 이용한 효율적인 웹문서 수집방안", 퍼지 및 지능시스템학회 논문지, 제17권, 제6호, pp.849-854, 2007. 

  8. 황인수, "웹의 연결구조와 웹문서의 적합도를 이용한 효율적인 인터넷 정보추출", 정보기술과 데이타베이스 저널, 제11권, 제4호, pp.49-60, 2004. 

  9. C. Bertoli, V. Vrescenzi, and P. Merialdo, "Crawling Programs for Wraller-based Applications," In Proc. IEEE Intl. Conference on Information Reuse and Integration (IRI '08), pp.160-165, 2008. 

  10. J. H. Cho, Crawling the Web: Discovery and maintenance of Large-Scale Web Data, Ph. D. Dissertation, Stanford University, 2001. 

  11. S. Chakrabarti, M. van den Berg, and B. Dom, "Focused Crawling: A new Approach to Topic-Specific Web Resource Discovery," Computer Networks, Vol.31, No.11-16, pp.1623-1640, 1999. 

  12. TeraStream 제품소개서, (주)데이터스트림즈 (www.datastreams.co.kr), 2008. 

  13. Z. Guan, C. Wang, C. Chen, J. Bu, and J. Wang, "Guide Focused Crawler Efficiently and Effectively Using On-line Topical Importance Estimation," In Proc. of ACM SIGIR Conference on Research and Development in Infoprmation Retrieval, pp.757-758, 2008. 

  14. B. He, C. Li, D. Killian, M. Patel, Y. Tseng, and K. C. C. Chang, "A Structure-Driven Yield-Aware Web Form Crawler: Building a Database of Online Databases," UIUC Technical Report, 2006. 

  15. J. Y. Yang, T. H. Kim, and J. M. Choi, "An Interface Agent for Wrapper-based Information Extraction," In Proc. Intl. Conf. on Principles of Practice in Multi-agent Systems(PRIMA '04), pp.291-302, 2004. 

  16. Karthikeyan Anbarasan, SQL Integration Services (SSIS) - Step by Step Tutorial, in A SSIS eBook (www.f5Debug.net), 2011. 

  17. Liu, Bing, Web data mining: exploring hyperlinks, contents, and usage data, Springer Verlag, 2007. 

  18. G. Pant, P. Srinivasna, and F. Menczer, "Crawling the web," In Web Dynamics, pp.153-177, 2004. 

  19. M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "GoGetIt!: a tool for generating structure-driven web crawlers," In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006. 

  20. 김성진, 이상호, "웹 문서 변화에 관한 실험적 연구", 정보과학회논문지 : 데이터베이스, 제32권, 제2호, pp.151-160, 2005. 

  21. http://bric.postech.ac.kr/myboard/list.php?Boardexp_qna 

  22. http://news.nate.com/recent?catecol&midn0108&typet 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로