최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보처리학회 2004년도 춘계학술발표대회, 2004 May 14, 2004년, pp.601 - 604
정춘호 (부산대학교 전자계산학과) , 조현태 (부산대학교 컴퓨터공학과) , 백윤주 (부산대학교 컴퓨터공학과)
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
웹 검색 시스템이 웹 크롤러를 사용하는 이유는? | 웹 검색 시스템은 자신이 보유한 다양한 정보들 중에 이용자의 질의에 적합한 문서들을 보여준다. 웹 검색 시스템이 정보를 보유하기 위해서 웹 크롤러를 사용한다. 웹 크롤러는 자동적으로 웹의 하이퍼텍스트 구조를 따라다니며 문서를 수집하고, 재귀적으로 그 문서에 참조되는 다른 문서를 수집하는 식으로 동작되는 프로그램이다[1]. | |
웹 크롤러는 어떤 파일을 확인하여 로봇 배제 규약을 분석한 후에 URL 에 해당하는 HTML 문서를 다운로드하는가? | 웹 크롤러의 기본 동작 알고리즘을 살펴보면 먼저 최초 수집하고자 하는 seed URL 을 이용하여 해당 웹 서버에 접근한다. 웹 서버의 robots.txt 파일을 확인하여 로봇 배제 규약을 분석한 후에 URL 에 해당하는 HTML 문서를 다운로드 한다. 수집된 문서의 중복 체크 후, 문서내의 URL 을 추출해서 URL DB 에 저장하고, 다운 받은 문서는 문서 DB 에 저장하는 과정을 반복 수행한다. | |
웹 크롤러는 정보검색 이 외에 어떤 목적으로도 사용 가능한가? | 웹 크롤러는 자동적으로 웹의 하이퍼텍스트 구조를 따라다니며 문서를 수집하고, 재귀적으로 그 문서에 참조되는 다른 문서를 수집하는 식으로 동작되는 프로그램이다[1]. 웹 크롤러는 정보검색 이외에도 전 세계의 웹 서버가 몇 개인지 등을 조사하기 위한 통계 분석 목적, 웹 서버 운영시 데드링크 확인, 수정 등을 통한 유지 보수 목적, 어떤 홈페이지내의 문서를 전부 가져오는 미러링 목적이나, 그 외 여러 가지 복합적인 목적으로도 사용이 가능하다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.