$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

아파치 스파크 기반 검색엔진의 설계 및 구현
Design and Implementation of a Search Engine based on Apache Spark 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.21 no.1, 2017년, pp.17 - 28  

박기성 (Graduate School of Software, Soongsil University) ,  최재현 (Graduate School of Software, Soongsil University) ,  김종배 (Graduate School of Software, Soongsil University) ,  박제원 (Graduate School of Software, Soongsil University)

초록
AI-Helper 아이콘AI-Helper

최근 데이터의 활용가치가 높아지면서 데이터에 관한 연구가 활발히 진행되고 있다. 데이터의 수집, 저장, 활용을 위한 대표적인 프로그램으로 웹 크롤러, 데이터베이스, 분산처리 등이 있으며, 최근에는 웹 크롤러가 다양한 분야에 활용할 수 있는 유용성으로 인해 크게 각광받고 있는 실정이다. 웹 크롤러란 자동화된 방법으로 웹서버를 순회하여 웹 페이지를 분석하고 URL을 수집하는 도구라고 정의할 수 있다. 인터넷 사용량의 증가로 매일 대량으로 생성되는 웹 페이지의 처리를 위해 하둡의 맵리듀스를 기반으로 하는 분산 웹 크롤러가 많이 사용되고 있다. 그러나 맵리듀스는 사용이 어렵고 성능에 제약이 있는 단점이 있다. 이러한 맵리듀스의 한계를 보완하여 제시된 인메모리 기반 연산 플랫폼인 아파치 스파크가 그 대안이 되고 있다. 웹 크롤러의 주요용도 중 하나인 검색엔진은 웹 크롤러로 수집한 정보 중 특정 검색어에 맞는 결과를 보여준다. 검색엔진을 기존 맵리듀스 기반의 웹 크롤러 대신 스파크 기반 웹 크롤러로 구현할 경우 더욱 빠른 데이터 수집이 가능할 것이다.

Abstract AI-Helper 아이콘AI-Helper

Recently, a study on data has been actively conducted because the value of the data has become more useful. Web crawler that is program of data collection recently spotlighted because it can take advantage of the various fields. Web crawler can be defined as a tool to analyze the web pages and colle...

주제어

질의응답

핵심어 질문 논문에서 추출한 답변
하둡이란? 빅데이터를 다루는 가장 대표적인 도구는 아파치 하둡(Apache hadoop)의 맵리듀스(MapReduce)이다. 하둡은 클러스터 컴퓨팅 프레임워크로써, 저렴한 서버를 여러 대 연결하여 데이터 처리 성능을 높이는 기술이다. 맵리듀스는 하둡의 병렬 데이터 처리 프로그래밍 모델이다.
셀레늄이 지원하는 것에는 어떤 것들이 있는가? 셀레늄은 자바스크립트 엔진을 탑재하고 있어 웹페이지 내에 있는 자바스크립트를 연산할 수 있다. 기본적으로 파이어폭스의 플러그인으로 제공되지만 IE, 크롬, 사파리, 오페라 등 다른 브라우저도 지원한다. 또한 파이썬 뿐만 아니라 다른 개발언어들도 지원한다. 셀레늄은 테스트 코드의 실행으로 브라우저에서의 액션을테스트 할 수 있는 도구로써, 이를 이용하면 자바 스크립트 페이지를 HTML 페이지로 변환하는 것이 가능하다.
맵리듀스의 문제점은? 현재 많은 분산 처리 시스템이 맵리듀스를 기반으로 개발되어 사용되고 있다. 그러나 맵리듀스는 코드가 복잡하여 사용이 어렵고, 고정된 단일 데이터 흐름을 가지기 때문에 복잡한 연산이 어렵다. 또한 배치 방식으로 데이터를 처리하기 때문에 용도에 제약이 많으며, 이후 나온 기술들에 비해 성능이 낮고 속도가 느리다.
질의응답 정보가 도움이 되었나요?

참고문헌 (17)

  1. Wikipedia. Web Crawler [Internet] Available: https://en.wikipedia.org/wiki/Web_crawler. 

  2. H. Karau, A. Konwinski, P. Wendell, and M. Zaharia, Learning Spark, 1st ed. Sebastopol, CA: O'Reilly Media, pp.1-9, 2015. 

  3. F. Pant, P. Srinivasn, F. Menczer, "Crawling the Web" in Web Dynamics, 1st ed. Berlin, Germany: Springer-Verlag, pp.153-177, 2003. 

  4. M. S. Ahuja , J. Singh, and B. Varnica. "Web Crawler: Extracting the Web Data," International Journal of Computer Trends and Technology(IJCTT), vol. 13, no. 3, pp.132-137, Jul. 2014. 

  5. Pycon. Web Scraper in 30 Minutes [Online]. Available: https://www.pycon.kr/2014/program/15. 

  6. H. C. Kim and S. H. Chae. "Design and Implementation of a High Performance Web Crawler," Journal of Digital Contents Society, vol. 4, no. 2, pp.127-137, Dec. 2003. 

  7. D. M. Seo and H. M. Jung. "Intelligent Web Crawler for Supporting Big Data Analysis Services," The Journal of the Korea Contents Association, vol. 13, no. 12, pp.575-584, Dec. 2013. 

  8. K. Y. Kim, W. G. Lee, H. M. Yoon, S. H. Shin, and M. H. Lee. "Development of Web Crawler for Archiving Web Resources," The Journal of the Korea Contents Association, vol. 11, no. 9, pp.9-16, Sep. 2011. 

  9. S. H. Hong, "An Implementation of Smart Price Tracker System Using Web Crawling," M.S. Thesis, Seoul National University of Science and Technology, Seoul, Korea, 2015. 

  10. V. K. Vavilapalli, et al., "Apache hadoop yarn: Yet another resource negotiator," in ACM Proceedings of the 4th annual Symposium on Cloud Computing, Santa Clara: CA, 2013. 

  11. Y. K. Lee, "The Comparison Between Hadoop MapReduce and Spark Device's Machine Learning Performance," M.S. Thesis, Soongsil University, Seoul, Korea, 2015. 

  12. B. S. Kim, "Performance Evaluation of HDFS Based SQLOn-Hadoop," M.S. Thesis, Chungbuk National University, Cheongju, Korea, 2015. 

  13. J. Dean and S. Ghemawat, "MapReduce: simplified data processing on large clusters," Communications of the ACM, vol. 51, no. 1, pp.107-113, Jan. 2008. 

  14. USCDataScience. Sparkler [Internet]. Available: https://github.com/USCDataScience/sparkler. 

  15. H. O. Song, A. Y. Kim, and H. K. Jung. "Implement on Search Machine using Open Source Framework," Journal of the Korea Institute of Information and Communication Engineering, vol. 19, no. 3, pp.552-557, Mar. 2015. 

  16. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. J. Franklin, S. Shenker, and I. Stoica. "Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing," in Proceedings of the 9th USENIX conference on networked systems design and implementation, San Jose: CA, pp.2-2, 2012. 

  17. C. Klaussne, J. Nioch. (2013, September). Nutch fight! 1.7 vs 2.2.1 [Internet]. Available: http://digitalpebble.blogspot.co.uk/2013/09/nutch-fight-17-vs-221.html. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로