최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.21 no.1, 2017년, pp.17 - 28
박기성 (Graduate School of Software, Soongsil University) , 최재현 (Graduate School of Software, Soongsil University) , 김종배 (Graduate School of Software, Soongsil University) , 박제원 (Graduate School of Software, Soongsil University)
Recently, a study on data has been actively conducted because the value of the data has become more useful. Web crawler that is program of data collection recently spotlighted because it can take advantage of the various fields. Web crawler can be defined as a tool to analyze the web pages and colle...
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
하둡이란? | 빅데이터를 다루는 가장 대표적인 도구는 아파치 하둡(Apache hadoop)의 맵리듀스(MapReduce)이다. 하둡은 클러스터 컴퓨팅 프레임워크로써, 저렴한 서버를 여러 대 연결하여 데이터 처리 성능을 높이는 기술이다. 맵리듀스는 하둡의 병렬 데이터 처리 프로그래밍 모델이다. | |
셀레늄이 지원하는 것에는 어떤 것들이 있는가? | 셀레늄은 자바스크립트 엔진을 탑재하고 있어 웹페이지 내에 있는 자바스크립트를 연산할 수 있다. 기본적으로 파이어폭스의 플러그인으로 제공되지만 IE, 크롬, 사파리, 오페라 등 다른 브라우저도 지원한다. 또한 파이썬 뿐만 아니라 다른 개발언어들도 지원한다. 셀레늄은 테스트 코드의 실행으로 브라우저에서의 액션을테스트 할 수 있는 도구로써, 이를 이용하면 자바 스크립트 페이지를 HTML 페이지로 변환하는 것이 가능하다. | |
맵리듀스의 문제점은? | 현재 많은 분산 처리 시스템이 맵리듀스를 기반으로 개발되어 사용되고 있다. 그러나 맵리듀스는 코드가 복잡하여 사용이 어렵고, 고정된 단일 데이터 흐름을 가지기 때문에 복잡한 연산이 어렵다. 또한 배치 방식으로 데이터를 처리하기 때문에 용도에 제약이 많으며, 이후 나온 기술들에 비해 성능이 낮고 속도가 느리다. |
Wikipedia. Web Crawler [Internet] Available: https://en.wikipedia.org/wiki/Web_crawler.
H. Karau, A. Konwinski, P. Wendell, and M. Zaharia, Learning Spark, 1st ed. Sebastopol, CA: O'Reilly Media, pp.1-9, 2015.
F. Pant, P. Srinivasn, F. Menczer, "Crawling the Web" in Web Dynamics, 1st ed. Berlin, Germany: Springer-Verlag, pp.153-177, 2003.
Pycon. Web Scraper in 30 Minutes [Online]. Available: https://www.pycon.kr/2014/program/15.
H. C. Kim and S. H. Chae. "Design and Implementation of a High Performance Web Crawler," Journal of Digital Contents Society, vol. 4, no. 2, pp.127-137, Dec. 2003.
K. Y. Kim, W. G. Lee, H. M. Yoon, S. H. Shin, and M. H. Lee. "Development of Web Crawler for Archiving Web Resources," The Journal of the Korea Contents Association, vol. 11, no. 9, pp.9-16, Sep. 2011.
S. H. Hong, "An Implementation of Smart Price Tracker System Using Web Crawling," M.S. Thesis, Seoul National University of Science and Technology, Seoul, Korea, 2015.
V. K. Vavilapalli, et al., "Apache hadoop yarn: Yet another resource negotiator," in ACM Proceedings of the 4th annual Symposium on Cloud Computing, Santa Clara: CA, 2013.
Y. K. Lee, "The Comparison Between Hadoop MapReduce and Spark Device's Machine Learning Performance," M.S. Thesis, Soongsil University, Seoul, Korea, 2015.
B. S. Kim, "Performance Evaluation of HDFS Based SQLOn-Hadoop," M.S. Thesis, Chungbuk National University, Cheongju, Korea, 2015.
J. Dean and S. Ghemawat, "MapReduce: simplified data processing on large clusters," Communications of the ACM, vol. 51, no. 1, pp.107-113, Jan. 2008.
USCDataScience. Sparkler [Internet]. Available: https://github.com/USCDataScience/sparkler.
M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. J. Franklin, S. Shenker, and I. Stoica. "Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing," in Proceedings of the 9th USENIX conference on networked systems design and implementation, San Jose: CA, pp.2-2, 2012.
C. Klaussne, J. Nioch. (2013, September). Nutch fight! 1.7 vs 2.2.1 [Internet]. Available: http://digitalpebble.blogspot.co.uk/2013/09/nutch-fight-17-vs-221.html.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.