[논문]최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안

나철원; 온병원

doi:10.7472/jksii.2019.20.3.43

초록
AI-Helper

오늘날 스마트폰의 보급과 SNS의 발달로 정형/비정형 빅데이터는 기하급수적으로 증가하였다. 이러한 빅데이터를 잘 분석한다면 미래 예측도 가능할 만큼 훌륭한 정보를 얻을 수 있다. 빅데이터를 분석하기 위해서는 먼저 대용량의 데이터 수집이 필요하다. 이러한 데이터가 가장 많이 저장되어 있는 곳은 바로 웹 페이지다. 하지만 데이터의 양이 방대하기 때문에 유용한 정보를 가진 데이터가 많은 만큼 필요하지 않은 정보를 가진 데이터도 많이 존재한다. 그렇기 때문에 필요하지 않은 정보를 가진 데이터는 거르고 유용한 정보를 가진 데이터만을 수집하는 효율적인 데이터 수집의 중요성이 대두되었다. 웹 크롤러는 네트워크 대역폭, 시간적인 문제, 하드웨어적인 저장소 등의 제약으로 인해 모든 페이지를 다운로드 할 수 없다. 그렇기 때문에 원하는 내용과 관련 없는 많은 페이지들의 방문은 피하며 가능한 빠른 시간 내에 중요한 페이지만을 다운로드해야한다. 이 논문은 위와 같은 이슈의 해결을 돕고자한다. 먼저 기본적인 웹 크롤링 알고리즘들을 소개한다. 각 알고리즘마다 시간복잡도와 장단점을 설명하며 비교 및 분석한다. 다음으로 기본적인 웹 크롤링 알고리즘의 단점을 개선한 최신 웹 크롤링 알고리즘들을 소개한다. 더불어 최근 연구 흐름을 보면 감성어휘 수집과 같은 특수한 목적을 가진 웹 크롤링 알고리즘의 대한 연구가 활발히 이루어지고 있다. 특수 목적을 가진 웹 크롤링 알고리즘에 대한 연구로써 선제적인 웹 크롤링 기법으로 감성 반응 웹 크롤링(Sentiment-aware Web Crawling) 기법을 소개한다. 실험결과 데이터의 크기가 커질수록 기존방안보다 높은 성능을 보였고 데이터베이스의 저장 공간도 절약되었다.

Abstract ▼ AI-Helper

Today, with the spread of smartphones and the development of social networking services, structured and unstructured big data have stored exponentially. If we analyze them well, we will get useful information to be able to predict data for the future. Large amounts of data need to be collected first...

Today, with the spread of smartphones and the development of social networking services, structured and unstructured big data have stored exponentially. If we analyze them well, we will get useful information to be able to predict data for the future. Large amounts of data need to be collected first in order to analyze big data. The web is repository where these data are most stored. However, because the data size is large, there are also many data that have information that is not needed as much as there are data that have useful information. This has made it important to collect data efficiently, where data with unnecessary information is filtered and only collected data with useful information. Web crawlers cannot download all pages due to some constraints such as network bandwidth, operational time, and data storage. This is why we should avoid visiting many pages that are not relevant to what we want and download only important pages as soon as possible. This paper seeks to help resolve the above issues. First, We introduce basic web-crawling algorithms. For each algorithm, the time-complexity and pros and cons are described, and compared and analyzed. Next, we introduce the state-of-the-art web crawling algorithms that have improved the shortcomings of the basic web crawling algorithms. In addition, recent research trends show that the web crawling algorithms with special purposes such as collecting sentiment words are actively studied. We will one of the introduce Sentiment-aware web crawling techniques that is a proactive web crawling technique as a study of web crawling algorithms with special purpose. The result showed that the larger the data are, the higher the performance is and the more space is saved.

주제어

표/그림 (13)

그림 (그림 1) 웹 크롤링 주기 흐름도 (Figure 1) Web Crawling Cycle Flowchart
그림 (그림 2) 트리 구조의 웹 페이지 (Figure 2) Tree-structured web page
그림 (그림 3) 쿼리를 포함한 트리 구조의 웹 페이지 (Figure 3) Tree-structured web page including query
그림 (그림 4) 쿼리를 포함한 트리 구조의 웹 페이지 (Figure 4) Tree-structured web page including query
그림 (그림 5) 웹 페이지 네트워크 (Figure 5) Network of Web page
그림 (그림 6) 유전 알고리즘 크롤러 흐름도 (Figure 6) Flowchart of the genetic algorithm crwaler
표 (표 1) 페이지 랭크 결과 (Table 1) Result of Page Rank
그림 (그림 7) 큰 사이트 우선 크롤링 예제 (Figure 7) Example of Crawing the Large Sites First
그림 (그림 8) 터널링의 표현 (Figure 8) Expression of tunneling
표 (표 2) 각 알고리즘 요약 및 시간복잡도 (Table 2) Summary and time-complexity
그림 (그림 9) 실행 시간 비교 (Figure 9) Comparison of Execution times
그림 (그림 10) 감성어가 많이 포함된 문서 중 일부분 (Figure 10) Part of documents that contains a lot of emotional words
그림 (그림 11) 크롤 애니웨어의 구성 요소 (Figure 11) Components of the Crawl Anywhere

질의응답

핵심어	질문	논문에서 추출한 답변
	감성 반응 웹 크롤링은 무엇인가?	감성어휘 수집을 위한 기존 방안은 일단 모든 문서를 저장하기 때문에 저장소가 낭비되고 저장된 전체 문서를 스캔하기 때문에 시간이 오래 걸리는 문제가 발생한다. 반면 감성 반응 웹 크롤링은 수집을 하는 동시에 감성어휘의 유무를 판단하여 필터링 후 저장한다. 실험결과 기존방안과 비교하여 감성 반응 웹 크롤링 알고리즘을 사용하였을 때 데이터의 크기가 증가할수록 높은 성능을 보였으며 데이터베이스의 저장 공간도절약되었다.
	웹 크롤러는 어떤 문제로 모든 페이지를 다운로드 할 수 없는가?	웹 크롤러를 통하여 필요한 데이터를 수집하기 위해 이러한 수많은 웹 페이지들을 거쳐야 한다. 하지만 웹 크롤러는 네트워크 대역폭, 시간적인 문제, 하드웨어적인 저장소 등의 제약으로 인해 모든 페이지를 다운로드 할 수 없다. 그렇기 때문에 상황에 맞게 적절한웹 크롤링 알고리즘을 선택하여 하는 내용과 관련 없는많은 페이지들의 방문은 피하며 가능한 빠른 시간 내에중요한 페이지만을 중복되지 않게 다운로드해야한다.
	기본 웹 크롤링 알고리즘의 단점을 개선시킨 알고리즘으로 무엇이 있는가?	다음으로 기본적인 웹 크롤링 알고리즘들의 단점을 개선한 최신 웹 크롤링 알고리즘을 소개한다. 대표적으로 ‘Breadth Fisrst Search ’ 알고리즘의 반복적인 노드들의 문제로 전체 프로세스 효율이 저하되는 문제점을 개선한 ‘An enhanced Breadth First Search’ 알고리즘과 ‘Shark-Search’ 알고리즘의 노이즈 링크 문제점을 개선한 ‘Shark-Search based on Multi Granularity’ 알고리즘이 있다. 이러한 기본 웹 크롤링 알고리즘의 단점을 개선시킨 알고리즘뿐만 아니라 특수한 목적을 가진 웹 크롤링 알고리즘도 소개한다.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안
A proposal on a proactive crawling approach with analysis of state-of-the-art web crawling algorithms 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (13)

표/그림 (13)

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안 A proposal on a proactive crawling approach with analysis of state-of-the-art web crawling algorithms 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (13) 모든 표/그림 보기

표/그림 (13) 슬라이드로 보기

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

나철원 (1) 온병원 (14)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안
A proposal on a proactive crawling approach with analysis of state-of-the-art web crawling algorithms 원문보기

초록
AI-Helper

표/그림 (13)

표/그림 (13)