최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.16 no.4, 2015년, pp.545 - 553
이현진 (Dept. of Computer Science & Software, Korea Soongsil Cyber University)
While all of the data has a value in itself, most of the data that is collected in the real world is a random and unstructured. In order to extract useful information from the data, it is need to use the data transform and analysis algorithms. Data mining is used for this purpose. Today, there is no...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
맵리듀스 프레임워크는 무슨 기술인가? | 대용량 데이터는 기존 데이터베이스에 저장하는 것이 아니라 분산 환경에 저장되며, 하둡(Hadoop) 프로젝트는 분산 파일 시스템인 HDFS (Hadoop Distributed File System)를 사용하여 데이터를 분산하여 저장한다[2]. 맵리듀스(MapReduce) 프레임워크(Framework)는 구글이 분산 컴퓨팅 환경인 하둡에서 대용량 데이터 처리를 위해 제안한 분산 컴퓨팅 기술이다[3,4]. 하둡과 맵리듀스는 대용량 데이터 저장소, 데이터 분석과 제어를 관리하는 기술로 잘 알려져 있다[5]. | |
HDFS는 어떤 기능들을 제공하고 있는가? | 저성능이지만 대량의 서버를 통하여 하둡 클러스터의 컴퓨팅 파워, 저장 용량 등을 쉽게 증대 시킬 수 있다. 또한 HDFS는 데이터 복제의 신뢰성, 빠른 장애 감지 및 자동 복구 등 분산 환경에서의 파일 관리를 위한 다양한 기능들을 제공하고 있다[6]. | |
빅데이터 분석 알고리즘을 개발할 때 고려해야 할 사항은 무엇인가? | 빅데이터 분석 알고리즘을 개발할 때 고려해야 할 사항은 다음과 같다. 첫째, 하둡은 분산 디스크 기반 환경이기 때문에 디스크 읽기(read)가 많이 발생하면, 속도 저하가 발생한다. 둘째, 하둡 노드들 사이에 데이터가 이동할 필요가 있을 때는 네트워크를 사용하기 때문에 매퍼와 리듀서 사이에 이동하는 데이터가 많으면, 속도 저하가 발생한다. |
Sungmin Kang, Seokjoo Lee, Jun-ki Min, "An Efficie nt Clustering Method based on Multi Centroid Set using MapReduce," KIISE Transactions on Computing Practices, Vol.21, No.7, pp.494-499, 2015.
Hadoop, "http://hadoop.apache.org/"
J. Dean and S. Ghemawat, "MapReduce: Simplified data processing on large clusters," Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008.
S. Ghemowat, H. Gobioff, and S. T. Leung, "The Goo gle file system," 19th Symposium on Operating Systems Principles, pp. 29-43, 2003.
P. Zhou, J. Lei, and W. Ye, "Large-Scale Data Sets Clustering Based on MapReduce and Hadoop," Journal of Computational Information systems, vol. 7, No. 16, pp. 5956-5963, 2011.
Lin G., Zhonghua S., Zhiqiang M., Xiang G., Charles Z., and Yoohui J., "K-Means of Cloud Computing: MapReduce, DVM, and Windows Azure," in CLOUD COMPUTING 2013, pp. 13-18, 2013.
Prajesh P. Anchalia, and Kaushik Roy, "The k-Nearest Neighbor Algorithm Using MapReduce Paradigm," 2014 Fifth International Conference on Intelligent System, Modeling and Simulation, pp. 512-518. 2014.
H. Maulik, and S. Bandyopadhyay. "Genetic Algorithm-Based Clustering Technique," Pattern Recognition, Vol.33, pp. 1455-1465, 2000.
D. Arthur and S. Vassilvitskii. "K-Means++: The Advantage of Careful Seeding," Society for Industrial and Applied Mathematics, Philadelphia, PA, USA, 2007.
Chi Zhang, Feifei Li, and Jeffrey Jestes, "Efficient parallel kNN joins for large data in MapReduce," Proceedings of the 15th International Conference on Extending Database Technology, pp. 38-49, 2012.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.