[논문]빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러

서동민; 정한민

doi:10.5392/jkca.2013.13.12.575

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러
Intelligent Web Crawler for Supporting Big Data Analysis Services 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.13 no.12, 2013년, pp.575 - 584

서동민 (한국과학기술정보연구원 소프트웨어연구센터 컴퓨터지능연구실) , 정한민 (한국과학기술정보연구원 소프트웨어연구센터 컴퓨터지능연구실)

초록
AI-Helper

빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

Abstract ▼ AI-Helper

Data types used for big-data analysis are very widely, such as news, blog, SNS, papers, patents, sensed data, and etc. Particularly, the utilization of web documents offering reliable data in real time is increasing gradually. And web crawlers that collect web documents automatically have grown in importance because big-data is being used in many different fields and web data are growing exponentially every year. However, existing web crawlers can't collect whole web documents in a web site because existing web crawlers collect web documents with only URLs included in web documents collected in some web sites. Also, existing web crawlers can collect web documents collected by other web crawlers already because information about web documents collected in each web crawler isn't efficiently managed between web crawlers. Therefore, this paper proposed a distributed web crawler. To resolve the problems of existing web crawler, the proposed web crawler collects web documents by RSS of each web site and Google search API. And the web crawler provides fast crawling performance by a client-server model based on RMI and NIO that minimize network traffic. Furthermore, the web crawler extracts core content from a web document by a keyword similarity comparison on tags included in a web documents. Finally, to verify the superiority of our web crawler, we compare our web crawler with existing web crawlers in various experiments.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 RMI(Remote Method Invocation)와 NIO(New Input/Output) 기반의 분산형 웹 크롤러를 제안한다. 제안하는 웹 크롤러는 웹 사이트의 RSS(Rich Site Summary)[11]와 Google Search API[12]를 통해 시드를 수집함으로써 특정 웹 사이트의 전체 데이터를 수집할 수 있는 기능 제공과 Overlapped Crawl 문제를 해결했다.
본 논문에서는 특정 사이트의 전체 웹 문서를 효율적으로 수집할 수 있는 RMI와 NIO 기반 분산형 웹 크롤러를 제안했다. 또한, 웹 문서의 중요 콘텐츠를 나타내는 태그에 대한 키워드 유사도 비교를 통해 중요 콘텐츠를 자동 추출하는 콘텐츠 추출기를 지원한다.

제안 방법

대표적인 기법으로는 VIPS[16]가 있다. [그림 6]과 같이 VIPS는 웹 문서를 DOM 트리로 표현하고, 트리 내 각 노드별로 가로, 세로 크기 및 배경 색상과 문서 내에서의 절대적 출현 위치 정보 등을 노드의 특징으로 구성 후, 노드들의 문서 내 출현 밀집도 등을 이용하여 그룹별로 본문 여부를 결정한다. 이 기법은 단순히 화면에 보이는 영역 정보만을 이용하거나 트리 구조로 표현되는 문서의 구조적 특징만을 이용해 본문을 추출하는 방법으로, 광고, 댓글 등과 같이 본문과 관계없는 내용들이 웹 문에서 더 큰 영역을 차지하는 경우 본문을 제대로 추출하지 못하는 문제를 갖고 있다[16][17].
그리고 RMI와 NIO을 활용해 서버와 클라이언트 간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공한다. 또한, 빅데이터 분석에 활용되는 웹 데이터만을 추출하기 위해, 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해 분석에 활용되는 중요콘텐츠만을 자동 추출하는 기능을 제공한다.
제안하는 분산형 웹 크롤러 환경에서 서버는 활용 가능한 클라이언트에게 수집할 사이트의 RSS URL 또는 수집할 사이트의 메인 페이지 URL과 수집 기간(시작일과 종료일) 정보를 전달한다. 그리고 클라이언트가 수집한 웹 문서의 URL과 웹 문서를 저장․관리한다.
[19]의 결과에 따르면, 소켓 방식에 비해 RMI 네트워크 성능이 평균 160% 개선된 것을 확인할 수 있다. 제안하는 분산형 웹 크롤러는 RMI를 기반으로 클라이언트-서버 환경을 구축했다.
제안하는 분산형 웹 크롤러에서 클라이언트는 웹 문서로부터 정보 분석에 활용될 중요 콘텐츠인 제목, 작성자, 게시일, 본문을 자동으로 추출하는 기능을 내부적으로 제공한다. [그림 11]은 제안하는 웹 콘텐츠 추출기의 시스템 구성도를 보여준다.
제안하는 웹 크롤러는 대용량 웹 문서를 Overlapped Crawl 문제없이 빠르게 수집하는 방법을 제공한다. [그림 7]은 제안하는 분산형 웹 크롤러의 시스템 구성도를 보여준다.
본 논문에서는 RMI(Remote Method Invocation)와 NIO(New Input/Output) 기반의 분산형 웹 크롤러를 제안한다. 제안하는 웹 크롤러는 웹 사이트의 RSS(Rich Site Summary)[11]와 Google Search API[12]를 통해 시드를 수집함으로써 특정 웹 사이트의 전체 데이터를 수집할 수 있는 기능 제공과 Overlapped Crawl 문제를 해결했다. 그리고 RMI와 NIO을 활용해 서버와 클라이언트 간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공한다.
[그림 7]은 제안하는 분산형 웹 크롤러의 시스템 구성도를 보여준다. 제안하는 크롤러는 RMI를 기반으로 한 대의 서버와 다수의 클라이언트로 구성된 분산형 크롤링 환경을 제공한다.

대상 데이터

[그림 12]를 통해 클라이언트 수가 증가할수록 전체 웹 문서를 수집하는데 소요되는 시간이 감소하는 것을 확인 할 수 있었고, 소켓 방식의 분산 웹 크롤링 환경을 제공하는 [10]에 비해 RMI 방식의 분산 웹 크롤링 환경을 제공하는 제안하는 분산형 웹 크롤러의 성능이 우수한 것을 확인할 수 있었다. 또한, 제안하는 크롤러는 3개 사이트에 대해 총 2440건의 웹 문서를 수집했고, 수집된 모든 웹 문서가 해당 사이트의 웹 문서였다. 하지만, [10]의 경우 2850건의 웹 문서가 수집되었고 그중 1140건이 광고 또는 타 사이트의 웹 문서였다.

데이터처리

제안하는 분산형 웹 크롤러의 우수성을 입증하기 위해, [10]에서 제안된 Parallel Crawlers와 성능 평가를 수행했다. 성능 평가는 4GB RAM과 Intel Core 1.

성능/효과

[그림 12]는 제안하는 크롤러의 클라이언트 수에 따라 CNET, Infoworld, ComputerWorld 사이트의 2012년도 전체 웹 문서를 수집하는데 소요된 시간을 보여준다. [그림 12]를 통해 클라이언트 수가 증가할수록 전체 웹 문서를 수집하는데 소요되는 시간이 감소하는 것을 확인 할 수 있었고, 소켓 방식의 분산 웹 크롤링 환경을 제공하는 [10]에 비해 RMI 방식의 분산 웹 크롤링 환경을 제공하는 제안하는 분산형 웹 크롤러의 성능이 우수한 것을 확인할 수 있었다. 또한, 제안하는 크롤러는 3개 사이트에 대해 총 2440건의 웹 문서를 수집했고, 수집된 모든 웹 문서가 해당 사이트의 웹 문서였다.
예를 들어, 규칙 생성기를 통해 본문 추출을 위해 자동 생성된 태그 집합으로 [div class=“contentmain”][P], [div id=“article-block”][P], [div class=“article-block”][P], [div id=“contentmain”][P]가 있고, 새로 수집된 웹 문서에서 본문을 추출하기 위한 정답 태그가 [div class="articlebody"][P]라고 가정하면, 중요 콘텐츠 추출기는 [divid=“article-block”][P]와 키워드 유사도가 80%인[div class="article-body"][P]를 본문 태그로 구분하고 해당 태그의 콘텐츠를 추출한다. 물론, 키워드 유사도가 낮아 중요 콘텐츠를 추출하기 위한 태그가 잘못 선정될 수 있지만, 지속적인 사용자 보정과 추출 규칙 보강을 통해 제안하는 시스템의 정확도를 광범위한 웹사이트를 대상으로 계속 향상시킬 수 있다.
[표 2]는 CNET[20], Infoworld[21], ComputerWorld[22] 웹 사이트에서 각각 2012년 게시된 임의의 웹 문서 30개와 2013년 1월부터 8월 사이에 게시된 임의의 웹 문서 30개를 선정 후, Google Search API를 통해 해당 웹 문서들의 URL이 검색 결과로 획득되는지를 실험한 결과를 보여준다. 이 실험 결과는 Google Search API를 통해 각 사이트의 과거 데이터를 효율적으로 수집할 수 있음을 보여준다. 하지만, Google Search API의 경우 각 웹 사이트에 최근 게시된 웹 문서의 URL을 제공하지 못하는 경우도 있는데, 이것을 보안하기 위해 제안하는 분산형 웹 크롤러는 각 웹 사이트의 RSS를 활용해 최근 문서를 수집할 수 있다.
하지만, [10]의 경우 2850건의 웹 문서가 수집되었고 그중 1140건이 광고 또는 타 사이트의 웹 문서였다. 즉, 제안하는 분산형 웹 크롤러는 웹 문서 내 포함된 URL이 아닌 수집할 사이트의 RSS와 Google Search API를 통해 시드를 획득하기 때문에 정확한 웹 문서를 수집할 수 있었다.

후속연구

또한, 웹 문서의 중요 콘텐츠를 나타내는 태그에 대한 키워드 유사도 비교를 통해 중요 콘텐츠를 자동 추출하는 콘텐츠 추출기를 지원한다. 제안하는 분산형 웹 크롤러는 신뢰성 있는 웹 문서를 수집하는 기능을 제공함으로써, 다양한 빅데이터 분석 서비스의 확산을 가속화할 것으로 기대한다. 향후에는 제안하는 분산형 웹 크롤러에서 지원하는 110개 웹 사이트들에 대한 성능 평가를 수행함으로써, 제안하는 분산형 웹 크롤러의 신뢰성과 우수성을 다각적인 차원에서 입증할 계획이다.
제안하는 분산형 웹 크롤러는 신뢰성 있는 웹 문서를 수집하는 기능을 제공함으로써, 다양한 빅데이터 분석 서비스의 확산을 가속화할 것으로 기대한다. 향후에는 제안하는 분산형 웹 크롤러에서 지원하는 110개 웹 사이트들에 대한 성능 평가를 수행함으로써, 제안하는 분산형 웹 크롤러의 신뢰성과 우수성을 다각적인 차원에서 입증할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	웹 크롤러는 어떤 기술인가?	웹 크롤러(Web Crawler)는 방대한 웹 문서를 제공하는 웹에서 특정 사이트의 웹 문서를 자동으로 수집하는 기술을 말한다[8][9]. 특히, 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 크롤러의 중요성은 더욱 커지고 있다.
	웹 문서로부터 본문을 추출하기 위해 가장 많이 사용되는 방법은 무엇을 이용한 기법인가?	웹 문서로부터 본문을 추출하기 위해 가장 많이 사용되는 방법은 DOM 트리를 기반으로 웹 문서의 구조적 특징을 이용하는 기법이 있다. 대표적인 기법으로는 VIPS[16]가 있다.
	기존의 웹 크롤러가 가진 문제점은 무엇인가?	그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다.

참고문헌 (22)

성원경, 이상환, 정한민, 박경석, 이승우, 김선태, 황미녕, 조민희, 과학기술 빅데이터 추진과제 발굴 및 활용 극대화를 위한 추진전략 마련 기획연구, 교육과학기술부, 2013.
김정숙, "빅 데이터 활용과 관련기술 고찰", 한국콘텐츠학회논문지, 제10권, 제1호, pp.34-40, 2012.
http://www.1000genomes.org
http://www.smartinsight.co.kr
http://www.energy.gov
M. K. Lee, S. W. Lee, J. Y. Kim, D. M. Seo, P. K. Ki, H. M. Jung, J. H. Lee, T. H. Kim, H. K. Koo, and W. K. Sung, "InSciTe Advanced: Strategic Decision-Making Support Service based on Technology Opportunity Discovery Model," J. of Information An International Interdiscipli- nary, Vol.16, No.1(B), pp.639-698, 2013.
이진희, 김태홍, 이승우, 김평, 이미경, 서동민, 김진형, 정한민, "정보 가치 향상을 위한 정보 분석 기술의 테크놀로지 인텔리전스 적용", 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 제18권, 제2호, pp.153-157, 2012.
http://en.wikipedia.org/wiki/Web_crawler
김영광, 이원구, 윤화묵, 신성호, 이민호, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발", 한국콘텐츠학회논문지, 제11권, 제9호, pp.9-16, 2011.

원문보기 상세보기
J. H. Cho and H. G. Molina, "Parallel Crawlers," In Proc. of International World Wide Web Confe- rence, pp.124-135, 2002.
http://en.wikipedia.org/wiki/RSS
https://developers.google.com/custom-search
J. H. Cho, H. G. Molina, and L. Page, "Efficient Crawling through URL Ordering," J. of Computer Networks and ISDN Systems, Vol.30, pp.161-171, 1998.

상세보기
A. Heydon and M. Najork, "Mercator: A Scalable Extensible Web Crawler," In Proc. of International World Wide Web Conference, pp.219-229, 1999.
김진일, 권유진, 김성렬, 박근수, "그래프 탐색 기법을 이용한 효율적인 웹 크롤링 알고리즘", 한국정보과학회 가을학술발표논문집, 제35권, 제2호, pp.299-300, 2008.
D. Cai, S. Yu, J. R. Wen, and W. Y. Ma, "VIPS: a Vision-based Page Segmentation Algorithm," Microsoft Technical Report, 2003.
송문원, 김우승, 김명원, "텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출", 정보과학회논문지 : 소프트웨어 및 응용, 제40권, 제3호, pp.155-163, 2013.

원문보기 상세보기
C. Kohlschutter, P. Fankhauser, and W. Nejdl, "Boilerplate Detection using Shallow Text Features," In Proc. of ACM International Conference on Web Search and Data Mining, pp.441-450, 2010.
방승준, 안진호, "소켓 및 RMI 기반 자바 메시지 전달 시스템의 구현 및 성능평가", 한국 인터넷정보학회지, 제8권, 제5호, pp.11-20, 2007.

원문보기 상세보기
http://www.cnet.com
http://www.infoworld.com
http://www.computerworld.com

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증