최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.18 no.5, 2017년, pp.933 - 942
김희숙 (전남대학교 공과대학 전자컴퓨터공학부) , 한나 (전남대학교 공과대학 전자컴퓨터공학부) , 임숙자 (한국폴리텍대학 광주캠퍼스 광고디자인학과)
In this paper, we propose a web crawler service method for collecting information efficiently about college students and job-seeker's external activities, competition, and scholarship. The proposed web crawler service uses Jsoup tree analysis and Json format data transmission method to avoid problem...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
빅데이터의 크기는 무엇을 의미하는가? | 빅데이터(Big Data)는 정치, 경제, 사회, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있으며 그 중요성이 부각되고 있다. 빅데이터의 크기는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 규모를 의미한다[1]. 인터넷에 기반을 두고 있는 웹(Web)은 다양한 종류의 거대한 데이터들이 구성된 개방형 집합체이며 접근은 용이하지만 제공되는 데이터는 비계층적이고 이질적인 형태로 복잡하게 구성되어 있다. | |
빅데이터의 3V가 의미하는 것은 무엇인가? | 빅데이터는 3V(Volume, Velocity, Variety)의 구성 요소를 갖는다. 크기(Volume)는 페타/엑사/제타 수준의 데이터 집합의 양을 의미하고, 속도(Velocity)는 데이터의 생산, 처리, 수집, 분석 등의 일련의 과정들의 속도가 실시간으로 이루어짐을 의미하며 다양성(Variety)은 전통적인 정형데이터와 사진,동영상, 센싱 데이터 등 구조화 되지 않은 비정형데이터를 포괄한다[2]. | |
웹 크롤러란 무엇인가? | 웹 크롤러는 인터넷 상에 존재하는 방대한 양의 빅데이터 문서들을 추적하여 필요한 정보를 수집하는 것을 의미한다[11]. 그림 1은 웹 크롤링시 큐를 이용한 스케줄 및 멀티쓰레드 방식으로 일반형 웹 크롤러 방법에 대해 보여준다. |
Chris Snijders, Uwe Matzat and Ulf-Dietrich Reips, "'Big Data': Big Gaps of Knowledge," International Journal of Internet Science, Vol. 7, No. 1, pp. 1-5, 2012.
S. Y. Bang, H. D. Ha and C. J. Kim, "A Study on BigData-based Software Architecture Design for Utilizing Public Open Data," Journal of Korean Institute of Information Technology, Vol. 13, No. 10, pp. 99-107, Oct. 2015.
W. S. Cho and J. E. Lee and C. H. Choi, "Refresh Cycle Optimization for Web Crawlers," The Journal of the Korea Contents Association, Vol. 13, No. 6, pp. 30-39, 2013.
J. Y. Kim, D. H. Han and J. M. Kim, "Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy," The Journal of the Korea Information Science Society, Vol. 44, No. 5, pp. 553-558, May 2017.
Leskovec, Jure, Anand Rajaraman, and Jeffrey David Ullman, Mining of massive datasets, Cambridge University Press, 2014.
Russell, Stuart Jonathan, et al., Artificial intelligence: a modern approach, Vol. 2, Upper Saddle River: Prentice hall, 2003.
Hyafil, Laurent and Ronald L. Rivest, "Constructing optimal binary decision trees is NP-complete," Information Processing Letters 5.1, pp. 15-17, 1976.
M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "GoGetIt!: a tool for generating structure-driven web crawlers," In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006.
Pycon. Web Scraper in 30 Minutes [Online]. Available: https://www.pycon.kr/2014/program/15.
H. C. Kim and S. H. Chae. "Design and Implementation of a High Performance Web Crawler," Journal of Digital Contents Society, Vol. 4, No. 2, pp.127-137, December. 2003.
D. Cai, S. Yu, J. R. Wen and W. Y. Ma, "VIPS: a Vision-based Page Segmentation Algorithm," Microsoft Technical Report, 2003.
C. Kohlschutter, P. Fankhauser, and W. Nejdl, "Boilerplate Detection using Shallow Text Features," In Proc. of ACM International Conference on Web Search and Data Mining, pp.441-450, 2010.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.