[논문]웹 크롤링 이용한 크레페 검색 시스템 설계

김효종; 한군희; 신승수

doi:10.14400/jdc.2017.15.11.261

웹 크롤링 이용한 크레페 검색 시스템 설계
Crepe Search System Design using Web Crawling 원문보기

디지털융복합연구 = Journal of digital convergence, v.15 no.11, 2017년, pp.261 - 269

김효종 (동명대학교 정보보보학과) , 한군희 (백석대학교 정보통신학부) , 신승수 (동명대학교 정보보보학과)

초록
AI-Helper

본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

Abstract ▼ AI-Helper

The purpose of this paper is to provide a search system using a method of accessing the web in real time without using a database server in order to guarantee the up-to-date information in a single network, rather than using a plurality of bots connected by a wide area network Design. The method of the research is to design and analyze the system which can search the person and keyword quickly and accurately in crepe system. In the crepe server, when the user registers information, the body tag matching conversion process stores all the information as it is, since various styles are applied to each user, such as a font, a font size, and a color. The crepe server does not cause a problem of body tag matching. However, when executing the crepe retrieval system, the style and characteristics of users can not be formalized. This problem can be solved by using the html_img_parser function and the Go language html parser package. By applying queues and multiple threads to a general-purpose web crawler, rather than a web crawler design that targets a specific site, it is possible to utilize a multiplier that quickly and efficiently searches and collects various web sites in various applications.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

디지털 큐레이션은 디지털 자료를 전시하고 보여 주는 것과 동시에 자료들을 분류, 정리하고 다시 사용할 수 있도록 지원해주는 것을 말한다. 본 논문에서는 창의․인성 증진을 위한 교육용 디지털 큐레이션 시스템에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계했다. 광역네트워크로 연결된 검색시스템이 아닌 크레페 검색 시스템에서 인물과 키워드에 대한 검색으로 이루어진다.

제안 방법

본 논문에서 제안하는 크레페 검색 시스템은 데이터를 수집한 정보를 변환하여 출력하는 단계로 진행된다.
본 논문에서는 디지털 큐레이션 시스템[6]을 대상으로 하는 웹 크롤러가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 빠르고 효율적으로 탐색, 수집 그리고 분석한 결과를 학습자들에게 편의를 제공 할 수 있는 크레페 검색 시스템을 설계하고 구현한다.
본 장에서는 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고, 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 크레페 검색 시스템을 설계하고 구현한다.
사용자는 Authentication Module에서 크레페 검색 시스템으로부터 검색 권한이 주어지면, HTTP Module에서 검색 페이지를 수신한다. 사용자는 검색 페이지의 검색 옵션을 선택 후, 이름, 학번 등을 검색하면 POST 방식으로 검색어와 검색옵션을 크레페 검색 시스템으로 송신한다. 크레페 검색 시스템은 수신한 정보를 HTTP Module에 의해 파라미터를 분류하고 검색결과를 사용자에게 송신한다.
디지털 큐레이션을 활용한 ICT 활용 교육으로 미디어를 이용하는 다양한 활동을 통해 창의적 인성교육이 활발히 진행되고 있다. 이 과정에서 생성되는 여러 종류의 비정형화 데이터들을 디지털 큐레이션 시스템을 적용하여 수집, 보존, 아카이빙, 제공하여 교수자들과 학습자들에게 시각적, 조작적으로 편의를 제공 할 수 있는 시스템을 구축했다[5].
User-Agent는 웹 서버에서 사용자의 디바이스 종류를 분류할 때 사용하는 정보이다. 이러한 디바이스 정보에 따라서 모바일과 PC로 분류되며, 본 논문에서는 디바이스 정보를 PC로 지정한다. URL은 접속할 게시글의 고유번호를 알고리즘에 의해 URL 형태로 생성하여 변수에 저장하고, POST 방식 또는 GET 방식을 지정한다.
웹 크롤러는 인터넷에서 많은 양의 웹 문서를 일정한 간격으로 탐색, 수집, 가공, 저장한다. 인터넷에 연결된 서버를 대상으로 일정한 주기로 탐색하고. 사용자가 필요로 하는 데이터를 분석하여 비정형화된 데이터로 수집한다.
또한 콘텐츠의 공유 및 수정, 확장 등이 용이하다는 장점을 가지고 있다. 창의․인성 교육기반의 디지털 큐레이션 시스템(http://www.crepe.kr/)을 구축하고, 디지털 큐레이션 시스템에 대한 웹 공격의 유형과 취약점을 분석했다[6].
창의․인성 교육을 목적으로 만든 디지털 큐레이션[6] 사이트에서 전문가의 필터링을 받아 5개의 콘텐츠를 8가지의 주제에 따라 교육하는 시스템이 구축되었다. 각각의 콘텐츠에 대하여 창의․인성 교육에 적합한 8가지의 활동을 수행하도록 [Fig.

대상 데이터

그리고 사용자 권한은 본인이 작성한 게시글을 모두 확인이 가능하다. 본 논문에서 Authentication Module은 관리자 권한만 대상으로 한다.

데이터처리

본 논문에서 제안한 크레페 검색 시스템을 비교 분석한다.
웹 크롤링 시스템과 제안한 실시간 크레페 검색 시스템을 비교한다. 기존의 웹 크롤링 시스템은 데이터 수집하고 변환한 결과를 저장하는 단계로 진행되며, 시스템은 웹 크롤러, 웹 서버, 데이터베이스로 구성된다.

후속연구

데이터베이스, 웹 서버 등을 사용하지 않기 때문에 실시간으로 사용자에게 정보를 제공함으로서 검색의 효율성을 높일 수 있다. 향후에는 특정 사이트를 대상으로 확대하여 빠르고 효율적으로 탐색, 수집 그리고 분석한 결과를 빅 데이터 응용 분야에 활용될 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	웹 크롤러란?	이러한 시스템들의 정보 검색 향상을 위해 고성능 웹 크롤러의 중요성이 부각되고 있다. 인터넷에서 제공하는 수많은 웹 문서를 일정한 간격마다 자동으로 탐색하고 수집하는 기술을 웹 크롤러(Web Crawler)라 한다[7]. 현재 상용중인 웹 크롤러는 주제별 웹 크롤러, 래퍼기반 웹 크롤러, 범용 웹 크롤러 등으로 분류하고 검색엔진의 상황에 따라 웹 크롤러를 선택한다.
	창의, 인성 교육기반의 디지털 큐레이션 시스템의 장점은?	창의․인성 교육기반의 디지털 큐레이션 시스템은 작성자의 성취와 성공에 대하여 보다 다양한 표현이 가능하므로 작성자의 독자적으로 하여금 보다 깊은 통찰을 가능하게 한다. 또한 콘텐츠의 공유 및 수정, 확장 등이 용이하다는 장점을 가지고 있다.
	디지털 큐레이션 시스템의 정보 검색 향상을 위해 중요성이 부각되고 있는 것은?	이러한 시스템들의 정보 검색 향상을 위해 고성능 웹 크롤러의 중요성이 부각되고 있다. 인터넷에서 제공하는 수많은 웹 문서를 일정한 간격마다 자동으로 탐색하고 수집하는 기술을 웹 크롤러(Web Crawler)라 한다[7].

참고문헌 (14)

Jung-In Kim, Byung-Man Kim, Jung-Ju Kim, "A Development of Digital Curation System for Creativity and Personality Education", Journal of Korea Multimedia Society, Vol. 19, No. 9, pp.1710-1722, 2016.

원문보기 상세보기
Young-Hee Ahn, Ok-Wha Park, "Development of a Framework for Digital Curation Policy", Journal of Korean Library and Information Science Society, Vol 41, No. 1, pp.167-186, 2010.

원문보기 상세보기
Kang Soon Lee, "Development of Elementary Dance Education Program Using ICT", Korean Society For The Study Of Physical Education, Vol. 18, No. 2, pp.77-89, 2013.
H.K. Kim, Digital Curation Framework Research for Analyzing Issues Based on Big- Data, Master's Thesis of Chung-Ang University of Technology, 2014.
Jung-In Kim, Byung-Man Kim, Jung-Ju Kim, "A Development of Digital Curation System for Creativity and Personality Education", Journal of Korea Multimedia Society, Vol. 19, No. 9, pp. 1710-1722, 2016.

원문보기 상세보기
S.S. Shin, J.I. Kim, and J.J. Youn, "Vulnerability Analysis of the Creativity and Personality Education Based on Digital Convergence Curation System," Journal of Korea Convergence Society, Vol. 6, No. 4, pp.225-234, 2015.

원문보기 상세보기
Kwang-Young Kim, Won-Goo Lee, Hwa-Mook Yoon, Sung-Ho Shin, Min-Ho Lee, "Development of Web Crawler for Archiving Web Resources," Journal of the Korea Contents Association, Vol. 11, No. 9, pp.9-16, 2011.
Wan-Sup Cho, Jeong-Eun Lee, Chi-Hwan Choi, "Refresh Cycle Optimization for Web Crawlers," Journal of the Korea Contents Association, Vol. 13, No. 6, pp.30-39, 2013.
N.E. Han and S.H. Kim, "Comparative Analysis on Digital Curation Process in Foreign Academic Libraries," Journal of Korean Library and Information Science Society, Vol. 45, No. 2, pp. 93-116, 2014.
H.H. Lee and W.J. Lee, "A Study on the Design of Curation System of Customized Sport Convergence Contents for Activation of Sport for All," Journal of Korea Multimedia Society, Vol. 19, No. 2, pp. 396-404, 2016.

원문보기 상세보기
B.H. Cho, "The Trend of Digital Curation Service," Week Technology Trends, Vol. 2013, No. 42, pp. 1-10, 2013.
Myoung-sil Choi , "A Study on the Improvement of the Web-Crawler Performance based on Weighted Directed Graph," Department of Computer Science, Graduate School, Kyungpook National University, 2010.
Dae Yu Kim, Jung Tae Kim, "Efficient Design of Web Searching Robot Engine Using Distributed Processing Method with Javascript Function," The journal of the Korea Institute of Maritime Information & Communication Sciences, Vol. 13, No. 12, pp.2595-2602, 2009.
Kwang Hyun Kim, Joon Ho Lee, "A Methodology for Performance Evaluation of Web Robots," Information Processing Society, Vol. 11, No. 3, pp.563-570, 2006.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증