최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.13 no.6, 2013년, pp.30 - 39
조완섭 (충북대학교 경영정보학과) , 이정은 (충북대학교 비즈니스데이터융합학과) , 최치환 (충북대학교 바이오정보기술학과)
Web crawler should maintain fresh data with minimum server overhead for large amount of data in the web sites. The overhead in the server increases rapidly as the amount of data is exploding as in the big data era. The amount of web information is increasing rapidly with advanced wireless networks a...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
웹페이지 수집주기 중 동적인 방식의 장점은 무엇인가? | 일반적으로 정해진 시간에 웹페이지를 검색하여 원하는 자료를 가져오는 정적 수집주기 (static refresh cycle)를 많이 사용하지만 변경되지 않는 자료일지라도 정해진 시간에 수집해야 하므로 네트워크 오버헤드가 증가하여 효과적이지 못하다. 이에 비하여 동적 수집주기(dynamic refresh cycle) 방식을 사용하면 자주 변경되는 페이지는 자주 가져오고 그렇지 않은 페이지는 가끔씩 가져오게 되므로 서버나 클라이언트의 부담이 경감되는 이점이 있다[5][6]. | |
웹크롤러란? | 검색엔진의 근간이 되는 웹크롤러(web crawler)는 인터넷상에 존재하는 웹문서들을 추적하여 필요한 정보를 수집하는 기술을 말하며, 야후와 같은 인터넷 검색시스템, 전자상거래 상품검색등 대부분의 인터넷 산업의 근간이 되는 핵심기술이다[5]. | |
웹 크롤러는 어떻게 구분될 수 있는가? | ETL 중에서 특정 웹사이트에 저장된 정보를 추출하는 도구로서 웹 크롤러(Web Crawler)가 사용되고 있다[1][2][7-9]. 웹 크롤러는 모든 웹문서를 수집 대상으로 하는 범용 크롤러[10], Focused Crawler[12], 특정한 주제의 문서만을 수집하는 Topical crawler[14], 래퍼기반 웹크롤러[16] 등으로 구분할 수 있다. 래퍼기반 웹크롤러는 해당 사이트의 구조를 미리 분석한 정보 (url-list) 를 이용하여 웹크롤러가 해당 페이지만 접근하므로 쇼핑몰의 VOC (voice of customer) 정보 등을 수집하는데 적합하다. |
권성호, 이영탁, 김영준, 이용두, "고성능 웹크롤러의 설계 및 구현", 한국산업정보학회논문지, 제8권, 제4호, pp.64-72, 2003.
고일석, 최우진, 나윤지, 류승렬, "효율적인 웹문서 처리를 위한 HTTP 지연 개선에 관한 연구", 한국콘텐츠학회논문지, 제2권, 제2호, pp.47-52, 2002.
김성진, "웹 정보탐색행위 모형의 비교분석 연구", 정보처리학회지, 제21권, 제2호, pp.211-233, 2004.
김경수, 웹 크롤링 수집주기의 동적 설계 및 구현, 충북대학교 경영대학원 석사논문, 2011.
황인수, "웹의 연결구조와 웹문서의 적합도를 이용한 효율적인 인터넷 정보추출", 정보기술과 데이타베이스 저널, 제11권, 제4호, pp.49-60, 2004.
C. Bertoli, V. Vrescenzi, and P. Merialdo, "Crawling Programs for Wraller-based Applications," In Proc. IEEE Intl. Conference on Information Reuse and Integration (IRI '08), pp.160-165, 2008.
J. H. Cho, Crawling the Web: Discovery and maintenance of Large-Scale Web Data, Ph. D. Dissertation, Stanford University, 2001.
S. Chakrabarti, M. van den Berg, and B. Dom, "Focused Crawling: A new Approach to Topic-Specific Web Resource Discovery," Computer Networks, Vol.31, No.11-16, pp.1623-1640, 1999.
TeraStream 제품소개서, (주)데이터스트림즈 (www.datastreams.co.kr), 2008.
Z. Guan, C. Wang, C. Chen, J. Bu, and J. Wang, "Guide Focused Crawler Efficiently and Effectively Using On-line Topical Importance Estimation," In Proc. of ACM SIGIR Conference on Research and Development in Infoprmation Retrieval, pp.757-758, 2008.
B. He, C. Li, D. Killian, M. Patel, Y. Tseng, and K. C. C. Chang, "A Structure-Driven Yield-Aware Web Form Crawler: Building a Database of Online Databases," UIUC Technical Report, 2006.
J. Y. Yang, T. H. Kim, and J. M. Choi, "An Interface Agent for Wrapper-based Information Extraction," In Proc. Intl. Conf. on Principles of Practice in Multi-agent Systems(PRIMA '04), pp.291-302, 2004.
Karthikeyan Anbarasan, SQL Integration Services (SSIS) - Step by Step Tutorial, in A SSIS eBook (www.f5Debug.net), 2011.
Liu, Bing, Web data mining: exploring hyperlinks, contents, and usage data, Springer Verlag, 2007.
G. Pant, P. Srinivasna, and F. Menczer, "Crawling the web," In Web Dynamics, pp.153-177, 2004.
M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "GoGetIt!: a tool for generating structure-driven web crawlers," In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006.
김성진, 이상호, "웹 문서 변화에 관한 실험적 연구", 정보과학회논문지 : 데이터베이스, 제32권, 제2호, pp.151-160, 2005.
http://bric.postech.ac.kr/myboard/list.php?Boardexp_qna
http://news.nate.com/recent?catecol&midn0108&typet
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.