최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기융합정보논문지 = Journal of Convergence for Information Technology, v.9 no.1, 2019년, pp.45 - 53
김영아 (경남과학기술대학교 컴퓨터공학과) , 김계희 (경남과학기술대학교 컴퓨터공학과) , 김현주 (경남과학기술대학교 컴퓨터공학과) , 김창근 (경남과학기술대학교 컴퓨터공학과)
We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines use web crawling in order to make data updated. W...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
웹 데이터 수집의 구성 요소는? | Google에서 제공하는 중앙 집중식과 Mercator와 같은 P2P방식 및 Multiple Site Crawlers 등이 있다. 웹 데이터 수집은 다운로더, 저장소, 스케줄러 등으로 이루어진다. 웹 데이터 수집 중 가장 중요한 것은 스케줄러이다. | |
웹 크롤러의 역할은? | 지능형 정보사회의 도래는 사물인터넷, 빅 데이터, 인공지능 등 ICT(Information and Communication Technology) 환경 변화로 데이터 산업 시장 성장을 이끄는 주요 동력이 된다. 웹의 규모가 커지면서 서비스 되는 방대한 정보 수집을 웹 문서로 주기적으로 읽어 들여 자동으로 데이터베이스에 저장하는 웹 크롤러를 이용하고 있다. Apache Nutch과 Scrapy와 같은 오픈 소스 웹 크롤러 및 검색 엔진의 개발이 활발하게 이루어지고 있으며, 웹 자체를 제공하는 서비스도 있다[1]. | |
병렬 수집 시스템의 웹 데이터 수집 시간이 빠른 이유는? | 15 에서 보는 바와 같이 데이터 저장 속도와 실시간 분석 시간이 제안 모델 적용인 경우 미적용 모델 보다 15∼17% 감소되었다. 이는 비정형 데이터를 이용한 데이터 저장 시간과 업데이트 될 예측 시간 측정이 수집될 시간을 모니터 해주기 때문이다 특히, 실시간 업데이트 될 데이터를 분석 예측하는 알고리즘을 통해 웹 데이터 수집의 횟수를 줄여 주기 때문이다. 제안 모델의 경우 웹 데이터 수집의 시간이 감소한 것은 모니터 시스템으로부터 웹 사이트의 업데이트 할 예측 정보를 받아 무한적인 주기적 탐색시간을 줄일 수 있기 때문이다. |
K. Y. Kim, W. Lee, M. H. Lee, H.M.Yoon & S. H. Shin(2011). Development of Web Crawler for Archiving Web Resources, International J ournal of contents, 11(9), 9-16. DOI : 10.5392/JKDA
J. h. Cho & H. Garcia-Molina. (2009), Parallel crawlers , Proceedings of the 11th international conference on World Wide Web. Honolulu, Hawaii, USA:ACM. pp.(124-135). DOI :10.1145/511446.511464.ISBN
H. J. Kim, J. Y Lee & S. S Shin. (2017), Multi-threaded Web Crawling Design using Queues. Journal of Convergence for Information Technology, 7(2) , 43-51.
H. J. Mun. (2015). Polling Method based on Weight Table for Efficient Monitoring. Journal of Convergence for Information Technology, 5(4), 5-10.
Olston, Christopher. et al. (2010). Foundations and Trends(R) in Information Retrieval, 4(3), 17. DOI : 10.1561/1500000017
Y. S. Jeong. (2015). Business Process Model for Efficient SMB using Big Data. Journal of Convergence for Information Technology, 5(4) , 11-16.
J. H. Ku. (2018). A Study on Adaptive Learning Model for Performance Improvement of Stream Analytics. Journal of Convergence for Information Technology, 8(1), 201-206.
E. J. Shin, Y. R. Kim, H. S. Heo & K. Y. Whang. (2008). Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine. Journal of Computing Science and Engineering, 14(6) , 567-581.
M. Zaharia, M. Chowdhury, M. J. Franklin. (2010). Scott Shenker, and Ion Stoica, Spark: Cluster Computing with Working Set. Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing, 10(10-10), 95.
Kafka. https://kafka.apache.org/intro
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.