$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

빅데이터 분석 기반의 정보 검색을 위한 웹 크롤러 서비스 구현

Web Crawler Service Implementation for Information Retrieval based on Big Data Analysis

초록

본 논문에서는 대학생 및 취업준비생의 대외활동, 공모전, 장학금에 대한 효율적인 정보 수집을 위한 웹 크롤러 서비스 방식을 제안한다. 제안된 웹 크롤러 서비스는 빠른 속도로 크롤링하면서 중복해서 크롤링되는 문제를 회피하기 위하여 Jsoup 트리 분석과 Json 형식의 데이터 전송 방식을 이용하였다. 24시간 동안 관련 정보를 수집한 결과 100%의 정확도로 웹 크롤러 서비스가 실행되고 있음을 확인할 수 있었다. 향후 제안된 웹 크롤러 서비스를 적용할 수 있는 웹 페이지 범위를 확대하여 다양한 웹 사이트에 동시에 적용할 수 있도록 개선하면 웹 크롤러 서비스의 양적 내용을 보충할 수 있을 것으로 기대한다.

Abstract

In this paper, we propose a web crawler service method for collecting information efficiently about college students and job-seeker's external activities, competition, and scholarship. The proposed web crawler service uses Jsoup tree analysis and Json format data transmission method to avoid problems of duplicated crawling while crawling at high speed. After collecting relevant information for 24 hours, we were able to confirm that the web crawler service is running with an accuracy of 100%. It is expected that the web crawler service can be applied to various web sites in the future to improve the web crawler service.

질의응답 

키워드에 따른 질의응답 제공
핵심어 질문 논문에서 추출한 답변
빅데이터의 크기
빅데이터의 크기는 무엇을 의미하는가?
통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 규모를 의미한다

빅데이터(Big Data)는 정치, 경제, 사회, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있으며 그 중요성이 부각되고 있다. 빅데이터의 크기는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 규모를 의미한다[1]. 인터넷에 기반을 두고 있는 웹(Web)은 다양한 종류의 거대한 데이터들이 구성된 개방형 집합체이며 접근은 용이하지만 제공되는 데이터는 비계층적이고 이질적인 형태로 복잡하게 구성되어 있다.

3V
빅데이터의 3V가 의미하는 것은 무엇인가?
크기(Volume)는 페타/엑사/제타 수준의 데이터 집합의 양을 의미하고, 속도(Velocity)는 데이터의 생산, 처리, 수집, 분석 등의 일련의 과정들의 속도가 실시간으로 이루어짐을 의미하며 다양성(Variety)은 전통적인 정형데이터와 사진,동영상, 센싱 데이터 등 구조화 되지 않은 비정형데이터를 포괄한다

빅데이터는 3V(Volume, Velocity, Variety)의 구성 요소를 갖는다. 크기(Volume)는 페타/엑사/제타 수준의 데이터 집합의 양을 의미하고, 속도(Velocity)는 데이터의 생산, 처리, 수집, 분석 등의 일련의 과정들의 속도가 실시간으로 이루어짐을 의미하며 다양성(Variety)은 전통적인 정형데이터와 사진,동영상, 센싱 데이터 등 구조화 되지 않은 비정형데이터를 포괄한다[2].

웹 크롤러
웹 크롤러란 무엇인가?
인터넷 상에 존재하는 방대한 양의 빅데이터 문서들을 추적하여 필요한 정보를 수집하는 것을 의미

웹 크롤러는 인터넷 상에 존재하는 방대한 양의 빅데이터 문서들을 추적하여 필요한 정보를 수집하는 것을 의미한다[11]. 그림 1은 웹 크롤링시 큐를 이용한 스케줄 및 멀티쓰레드 방식으로 일반형 웹 크롤러 방법에 대해 보여준다.

질의응답 정보가 도움이 되었나요?

저자의 다른 논문

참고문헌 (0)

  1. 이 논문의 참고문헌 없음

이 논문을 인용한 문헌 (0)

  1. 이 논문을 인용한 문헌 없음

문의하기 

궁금한 사항이나 기타 의견이 있으시면 남겨주세요.

Q&A 등록

DOI 인용 스타일

"" 핵심어 질의응답