[논문]고성능 웹크롤러의 설계 및 구현

김희철; 채수환

고성능 웹크롤러의 설계 및 구현
Design and Implementation of a High Performance Web Crawler 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.4 no.2, 2003년, pp.127 - 137

김희철 (대구대학교 정보통신공학부) , 채수환 (항공대학교 전자정보통신컴퓨터공학부)

초록
AI-Helper

웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다. 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이라. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안한다. 본 논문에서는 동적 스케줄링 지원 기능을 갖는 웹크롤러의 설계 및 구현에 대하여 기술한다.

Abstract ▼ AI-Helper

A Web crawler is an important Internet software technology used in a variety of Internet application software which includes search engines. As Internet continues to grow, implementations of high performance web crawlers are urgently demanded. In this paper, we study how to support dynamic scheduling for a multiprocess-based web crawler. For high performance, web crawlers are usually based on multiprocess in their implementations. In these systems, crawl scheduling which manages the allocation of web pages to each process for loading is one of the important issues. In this paper, we identify issues which are important and challenging in the crawl scheduling. To address the issue, we propose a dynamic crawl scheduling framework and subsequently a system architecture for a web crawler with dynamic crawl scheduling support. This paper presents the design of the Web crawler with dynamic scheduling support.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

부하 분산 기법을 제안한다. 또한 그 구현에 관한 가능성 (Feasibility), 정확성 (Correctness) 등에 관한 연구를 수행한다.
본 논문에서는 웹크롤러의 성능향상과 부하 분산을 효과적으로 지원할 수 있는 공유 메모리를 사용한 동적 스케줄링 기법을 제안하였다. 또한 이러한 기법을 적용한 웹크롤러의 설계 및 구현에 관한 연구결과를 발표하였다. 이러한 구현을 바탕으로 하여 현재 구체적인 성능평가 및 분석을 수행하고 있다.
본 논문에서는 수집 속도를 최대화시킬 수 있는 공유메모리를 이용한 동적 스케줄링 기법과 아울러 상대 시스템과 네트웍 과부하를 막기 위한 동적 부하 분산 기법을 제안한다. 또한 그 구현에 관한 가능성 (Feasibility), 정확성 (Correctness) 등에 관한 연구를 수행한다.
하지만 정적 스케줄링기법은 멀티 프로세스 하에서 프로세스 간 종료 시점이 달라 가장 긴 시간의 프로세스를 제외한 나머지 프로세스에서 시간 지연의 문제가 발생하였다. 본 논문에서는 웹크롤러의 성능향상과 부하 분산을 효과적으로 지원할 수 있는 공유 메모리를 사용한 동적 스케줄링 기법을 제안하였다. 또한 이러한 기법을 적용한 웹크롤러의 설계 및 구현에 관한 연구결과를 발표하였다.

가설 설정

.동적 부하분산 : Schedule 버퍼에서는 동일한 호스트가 존재할 수 없다. 즉 동일한 호스트에 대해서 문서 수집을 할 수 없으므로 부하 분산이 이루어진다.
수집해야할 문서들이 호스트 별로 (그림 3) 과같이 존재한다고 가정하고 프로세스 개수를 5개로 하여 동작 사례를 도식화하였다. 일반적으로 사용되고 있는 정적 스케줄링 기법은 적재기가 동작하기 전에 (그림 4)와 같이 프로세스별로 호스트를 할당한다.

제안 방법

추출기에서 추출된 ExtrUrK 입력으로 받아 (그림 13)과 같은 헤쉬 키 생성 알고리즘을 사용하여 ExtrNewHash 를 만든다. ExtrNewHash의 1부터 128번째 Entry까지 차례로 lock을 걸고 유일성 검사를 한 다음 락을 해제 한다. 유일성 검사에서 통과된 URL들을 ProcToBuf에 저장하고, ToLoad에 락을 건다음 ProcToBuf의 Url들을 ToLoad에 삽입하고 ToLoad의 락을 해제하면 유일성 검사가 끝난다.
각 적재기 프로세스마다 정적으로 URL을 할당할 경우 각 프로세스간의 종료 시간이 차이가 있으므로 적재기 프로세스가 URL을 동적으로 할당받아 수행할 수 있도록 하였다.
문서처리 속도의 향상을 위한 각 모듈들을 다중프로세스로 처리할 수 있도록 하였다. 또한 공유메모리 데이터의 동기화를 위해 공유메모리에 접근할 때는 항상 락(lock) 을 사용한다.
본 논문에서는 공유메모리를 이용하여 적재기의 프로세스가 동적으로 URL을 할당하여 문서를 수집할 수 있는 동적 스케줄링 방식을 사용하였고, 문서적재 시 상대 시스템과 네트웍 과부하 문제를 부하 분산 기술로 해결하였다.
것이다. 본 논문에서는 이를 위하여 공유메모리를 기반으로한 동적 스케줄링 기법을 제안하여 속도를 향상하였고 동적 부하 분산을 보장한다.
된다. 이를 방지하기 위해 제안하는 시스템에서는 Schedule 버퍼를 사용한다. Schedule 버퍼는 char Schedule [process number] [256] 로 선언된 2차원 배열이다.
웹 문서 파싱의 가장 큰 문제점은 사용자들이 HTML 문법에 맞지 않는 코드를 생성해 놓기 때문에 사용자의 잘못된 코드까지 충분히 고려해야 한다는 것이다. 제안 시스템에서는 이러한 문제를 해결하기 위해 문법에 맞지 않는 코드까지 지원할 수 있도록 구성되어 있다.
한 개 이상의 프로세스가 동일한 호스트에 접근하면 상대 시스템과 네트웍에 과부하가 걸리므로 각 프로세스가 할당받은 URL의 호스트(host) 가다른 프로세스에서 사용하고 있는지 검사하고, 만약 사용하고 있다면 새로운 URL을 할당받아 문서를 수집할 수 있도록 하였다.

이론/모형

제안 시스템에서는 유일성 검사의 시간을 줄이기 위해 다중 루트(Root) 이진 트리 기법을 사용하고 있다. 다중 루트는 해쉬(Hash)로 구성되어있다.
생성알고리즘은 다음과 같다. 추출기에서 추출된 ExtrUrK 입력으로 받아 (그림 13)과 같은 헤쉬 키 생성 알고리즘을 사용하여 ExtrNewHash 를 만든다. ExtrNewHash의 1부터 128번째 Entry까지 차례로 lock을 걸고 유일성 검사를 한 다음 락을 해제 한다.

후속연구

이러한 구현을 바탕으로 하여 현재 구체적인 성능평가 및 분석을 수행하고 있다. 이러한 성능평가 결과는 향후 고성능 웹크롤러의 설계를 위한 방향을 제시할 것으로 기대하고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

고성능 웹크롤러의 설계 및 구현
Design and Implementation of a High Performance Web Crawler 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

고성능 웹크롤러의 설계 및 구현 Design and Implementation of a High Performance Web Crawler 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

김희철 (34)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

고성능 웹크롤러의 설계 및 구현
Design and Implementation of a High Performance Web Crawler 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper