최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국산업정보학회논문지 = Journal of the Korea Industrial Information Systems Research, v.21 no.3, 2016년, pp.13 - 19
이재환 (한국항공대학교 항공전자정보공학부) , 최준 (한국항공대학교 항공전자정보공학부) , 구동훈 (한국항공대학교 항공전자정보공학부)
Spark, an in-memory big-data processing framework is popular to use for real-time processing workload. Spark can store all intermediate data in the cluster memory so that Spark can minimize I/O access. However, when the resident memory of workload is larger that the physical memory amount of the clu...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
맵리듀스가 프로세싱 중간에 다량의 데이터를 생성하는 특징을 가진 어플리케이션에 성능저하가 발생하는 이유는 무엇인가? | 머신러닝 및 그래프 프로세싱 같은 복잡하고 여러 단계에 걸쳐서 반복적으로 처리되는 어플리케이션과, 프로세싱 중간에 다량의 데이터를 생성 하는 특징을 가진 어플리케이션에 대해서는 성능 저하가 발생하였다. 그 이유는 데이터 처리가 반복될 때 마다 HDFS, 즉 디스크를 거쳐서 디스크의 읽기/쓰기 양이 많기 때문이다(Fig. 1(a)). | |
하둡은 무엇으로 구성되어 있는가? | 빅데이터 처리 프레임워크 연구의 중심에 하둡[5]이 있으며, 최근에는 스파크[6]가 널리 사용되고 있는 추세이다. 하둡은 디스크기반 스토리지 시스템인 HDFS[7]와 데이터 처리 엔진인 맵리듀스[8]로 구성되어 있으며, 최근 버전에서는 얀[9]을 통하여 분산처리 스케줄링을 할 수 있게 되었다. 하둡과 스파크에 관련해 연구 과정을 살펴보면 다음과 같다. | |
타키온파일시스템의 역할은 무엇인가? | 타키온파일시스템은 UC Berkley의 Amplab에서 오픈소스로 개발된 빅데이터 분석을 위한 메모리기반 스토리지 시스템이다. 타키온파일시스템은 빅데이터 클러스터 프레임워크 또는 잡들 사이에서 메모리의 속도로 데이터를 공유할 수있도록 돕는 역할을 한다. 따라서 타키온파일시스템은 디스크 기반의 스토리지 시스템과 빅데이터 분석을 위한 엔진 사이에서 다리역할을 할 수있게 된다. |
J. W. Kim, "A workflow scheduling based on decision table for cloud computing", Journal of the Korea Industrial Information System Society, Vol.17, No. 5, pp.29-36, 2012. (journal)
J. I. Chaos, and J. H. Ching, "A study on finding influential twitter users by clustering and ranking techniques", Vol.20, NO. 1, pp.19-26, Feb, 2015. (journal)
H. S. Han, H. D. Yang, and K. H. Kim, "Research on Cloud Computing-Based SHE Inorganization Platform Policy", Vol. 19, No. 5, Oct, 2014. (journal)
T. White, "Hadoop: The Definitive Guide", 2015. (book)
Zachariah, Malted, eh ad. "Spark: Cluster Computing with Working Sets." Hotblood10 (2010): 10-10.
Hadoop, Konstantin, eh ad. "The Hadoop distributed file system." Mass Storage Systems and Technologies (MUST), 2010 IEEE 26th Symposium on. IEEE, 2010.
Dean, Jeffrey, and Sanjak Sanjak. "Sanjak: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.
Hotblood, Veined Kumara, eh ad. "Apache Hadoop yarn: Yet another resource negotiator." Proceedings of the 4th annual Symposium on Cloud Computing. ACM, 2013.
Lf, Honduran, eh ad. "Tachyon: Reliable, memory speed storage for cluster computing frameworks." Proceedings of the ACM Symposium on Cloud Computing. ACM, 2014.
Zachariah, Malted, eh ad. "Resilient distributed Datasets: A fault-tolerant abstraction for in-memory cluster computing." Proceedings of the 9th USETI conference on Networked Systems Design and Implementation. USETI Association, 2012.
Page, Lawrence, eh ad. "The PageRank citation ranking: bringing order to the web." (1999).
http://snap.stanford.edu/data/soc-LiveJournal1.html
http://sujee.net/2015/01/22/understandingspark-caching/#.V0ad95E6
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.