[논문]메모리 기반 빅데이터 처리 프레임워크의 성능개선 연구

이재환; 최준; 구동훈

doi:10.9723/jksiis.2016.21.3.013

초록
AI-Helper

최근에 실시간 처리를 위해 메모리 기반의 빅데이터 처리 프레임 워크인 스파크가 널리 사용되고 있다. 스파크는 프로그램이 필요로 하는 중간 데이터를 모두 메모리에 올려놓아, I/O 수행을 최소화함으로써 빠른 응답을 가져올 수 있다. 그러나 응용프로그램의 메모리 사용량이 클러스터의 실제 메모리의 량보다 많을 경우, 최적의 성능을 기대하기 어렵다. 본 논문에서는 메모리 사용량이 많은 페이지랭크 응용 프로그램에서 병목이 되는 현상을 실험을 통해 그 요인에 대해 분석하고, 스파크와 함께 타키온을 구성해서 메모리의 효율적 사용을 통해 병목의 요인을 해결하여 18%의 성능향상을 하였다.

Abstract ▼ AI-Helper

Spark, an in-memory big-data processing framework is popular to use for real-time processing workload. Spark can store all intermediate data in the cluster memory so that Spark can minimize I/O access. However, when the resident memory of workload is larger that the physical memory amount of the clu...

Spark, an in-memory big-data processing framework is popular to use for real-time processing workload. Spark can store all intermediate data in the cluster memory so that Spark can minimize I/O access. However, when the resident memory of workload is larger that the physical memory amount of the cluster, the total performance can drop dramatically. In this paper, we analyse the factors of bottleneck on PageRank Application that needs many memory through experiment, and cluster the Spark with Tachyon File System for using memory to solve the factor of bottleneck and then we improve the performance about 18%.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서 페이지랭크 워크로드를 사용해서 반복되는 스테이지에서 RDD를 캐싱하지 않을 때(NO caching), 메모리에 캐싱할 때(Memory), 타키온파일시스템에 캐싱할 때(TFS: OFFHEAP) 총 3가지로 나누어서 실험한다. 따라서 RDD를 캐싱하는 위치를 통해 전체 잡의 수행시간에 끼치는 영향을 보고, 그 이유에 대해서 분석한다.
메모리는 디스크장치보다 용량대비 비용이 높기 때문이다. 따라서 본 논문에서는 타키온파일시스템을 활용 해 RDD를 보다 효율적으로 캐싱함으로써 스파크의 단점을 보완해 반복되는 워크로드에서의 성능향상을 하였다.
메모리 기반의 파일시스템인 타키온[10]을 통해 적은 메모리 용량을 가진 서버환경에서 인메모리기반 프레임워크인 스파크를 활용할 수 있게 한다. 본 논문에서는 스파크만을 이용해서 클러스터를 구성할 때와 스파크와 타키온파일시스템을 함께 이용해 클러스터를 구성할 때 두 가지 경우의 성능 차이에 대해 비교분석하였다. 실험에 사용된 워크로드는 페이지랭크 알고리즘이다.
본 논문은 메모리의 부족으로 발생하는 성능제약을 해결하기 위한 방안으로 타키온 파일시스템을 도입하여 효과적인 메모리 사용방안을 제시한다. 메모리 기반의 파일시스템인 타키온[10]을 통해 적은 메모리 용량을 가진 서버환경에서 인메모리기반 프레임워크인 스파크를 활용할 수 있게 한다.

가설 설정

RDD를 OFFHEAP 공간에 저장하는 것을 통해 예상되는 결과는 자바가상머신 기반으로 돌아가는 스파크에서 JVM Heap이 부족해서 발생하는 Java Garbage Collection(GC)이 줄어들 것이다. 따라서 메모리가 부족해서 실패하거나 성능저하의 원인이 되는 메모리가 부족한 환경에서 타키온은 성능개선의 해결점으로 적용되어질 수 있다.

제안 방법

1. 메모리가 적은 서버환경에서의 스파크를 구성할 때, 성능하락과 잡이 실패했던 이유는 Java Garbage Collection (GC) 오버헤드 때문이라는 사실을 실험을 통해 분석.
2. 페이지랭크 워크로드 중, 반복되는 스테이지에서 전체성능에 미치는 요인들에 대해 자세히 분석.
클러스터의 서버 환경은 네임노드(마스터노드) 1개, 데이터노드(워커노드) 4개로 구성하였다. HDFS를 구성하는 서버에는 네임노드와 데이터 노드가 있는데, 스파크에서 스케줄링을 담당하는 마스터노드를 네임노드에 구성하고, 일을 받아서 태스크를 수행하는 워커노드를 데이터노드들에 구성하였다. 네임노드의 하드웨어 구성은 CPU 3.
분산처리플랫폼은 스파크를 사용하였다. 또한, 실험 비교를 위해 스파크를 통해 잡을 수행하는 도중에 생성되는 데이터 셋인 RDD를 타키온파일시스템에 저장하기 위해서 메모리에 타키온파일시스템을 구성하였다. 각 프레임워크의 소프트웨어 버전은 Hadoop 2.
실험에 사용 될 데이터 셋은 Stanford 대학의 SNAP(Stanford Network Analysis Platform)에서 제공하는 네트워크관계에 대해 기록되어있는 데이터 셋이다[13]. 본 논문에서 페이지랭크 워크로드를 사용해서 반복되는 스테이지에서 RDD를 캐싱하지 않을 때(NO caching), 메모리에 캐싱할 때(Memory), 타키온파일시스템에 캐싱할 때(TFS: OFFHEAP) 총 3가지로 나누어서 실험한다. 따라서 RDD를 캐싱하는 위치를 통해 전체 잡의 수행시간에 끼치는 영향을 보고, 그 이유에 대해서 분석한다.
본 논문에서는 타키온파일시스템을 스파크에 잡을 처리할 때 생성되는 RDD를 캐싱하는 용도로 사용하였다. 본래 스파크는 RDD를 저장 할 때 JVM Heap 에 RDD를 캐싱한다.
이를 보완하기 위해서 본 논문에서는 타키온 파일시스템에 RDD를 캐싱했다. Fig.

대상 데이터

페이지랭크 알고리즘의 특성상 연산에 필요한 데이터양과 워커노드간의 주고받는 데이터량이(셔플에 필요한 데이터량) 많아서 메모리의 부족한 환경에서의 성능개선 연구에 적합한 알고리즘이다. 실험에 사용 될 데이터 셋은 Stanford 대학의 SNAP(Stanford Network Analysis Platform)에서 제공하는 네트워크관계에 대해 기록되어있는 데이터 셋이다[13]. 본 논문에서 페이지랭크 워크로드를 사용해서 반복되는 스테이지에서 RDD를 캐싱하지 않을 때(NO caching), 메모리에 캐싱할 때(Memory), 타키온파일시스템에 캐싱할 때(TFS: OFFHEAP) 총 3가지로 나누어서 실험한다.
클러스터의 서버 환경은 네임노드(마스터노드) 1개, 데이터노드(워커노드) 4개로 구성하였다. HDFS를 구성하는 서버에는 네임노드와 데이터 노드가 있는데, 스파크에서 스케줄링을 담당하는 마스터노드를 네임노드에 구성하고, 일을 받아서 태스크를 수행하는 워커노드를 데이터노드들에 구성하였다.

이론/모형

본 논문에서는 스파크만을 이용해서 클러스터를 구성할 때와 스파크와 타키온파일시스템을 함께 이용해 클러스터를 구성할 때 두 가지 경우의 성능 차이에 대해 비교분석하였다. 실험에 사용된 워크로드는 페이지랭크 알고리즘이다. 본 논문의 주요 기여사항은 다음과 같다.
인메모리 기반 프레임워크인 스파크에서 자주 사용하는 워크로드인 페이지랭크 알고리즘을[12] 이용해서 실험을 진행하였다. 페이지랭크 알고리즘은 구글에서 개발된 알고리즘으로 노드와 엣지로 이루어져 있는 그래프에 대해 반복연산을 통해 각 노드의 랭크를 부여하는 알고리즘이다.

성능/효과

3. 타키온 파일시스템을 스파크와 함께 클러스터로 구성했을 때, 스파크만을 이용해 클러스터를 구성했을 때보다 18%의 성능 향상.
RDD를 타키온파일시스템에 캐싱함으로 RDD가 직렬화되어서 RDD 크기가 줄어들었기 때문이다. 따라서 TFS 옵션을 통해 캐싱을 하지 않았을 때보다 18%의 성능향상을 얻을 수 있었고, 메모리에 캐싱했을 때 실패했던 잡이 성공한다.
또한, 분석을 통하여서 수행시간에서 이득을 볼 수 있도록 Java GC 오버헤드를 줄이고, 셔플 읽기, 셔플스필의 양을 줄이는 것이 중요하다는 것을 보였다. 따라서 성능에 주는 요인들을 해결하기 위해서 프레임워크의 개선과 함께 데이터 처리 알고리즘의 연구가 향후 연구에 있어서 중요한 과제가 된다.
본 실험에서 타키온파일시스템에 RDD를 직렬화 해서 저장해서 RDD의 크기를 줄여 메모리의 사용량을 줄여 병목현상들을 해결하였다. 실험의 환경은 메모리가 부족할 경우의 환경이었지만, 메모리가 부족하지 않을 경우에 RDD를 직렬화해서 캐싱하면 메모리 사용량은 낮아지지만 되레 직렬화 하는데 사용되는 CPU 자원 때문에 병목현상이 될 수 있다[14].
따라서 메모리가 부족해서 실패하거나 성능저하의 원인이 되는 메모리가 부족한 환경에서 타키온은 성능개선의 해결점으로 적용되어질 수 있다. 실험분석에서 실험을 통해 실제로 Java GC가 줄어드는 것을 확인하고, 성능개선에 효과가 있는지 보다 더 자세한 분석을 통해 확인한다.
같은 메모리를 사용하지만 직렬화된 RDD를 직렬화하지 않았을 때보다 적은 크기로 캐싱할 수 있고, 메모리의 성능으로 RDD를 읽고, 쓰기를 할 수 있다. 실험의 결과로 타키온파일시스템에 RDD를 캐싱할 때, 캐싱하지 않을 때보다 18%의 성능향상을 보였고, 메모리에 캐싱할 때 실패했던 잡이 성공하였다.
3에서 TFS 옵션이 이에 해당한다. 이 실험에서는 전체 태스크중 가장 긴 Java GC 시간이 8초였다. RDD를 타키온파일시스템에 캐싱함으로 RDD가 직렬화되어서 RDD 크기가 줄어들었기 때문이다.

후속연구

또한, 분석을 통하여서 수행시간에서 이득을 볼 수 있도록 Java GC 오버헤드를 줄이고, 셔플 읽기, 셔플스필의 양을 줄이는 것이 중요하다는 것을 보였다. 따라서 성능에 주는 요인들을 해결하기 위해서 프레임워크의 개선과 함께 데이터 처리 알고리즘의 연구가 향후 연구에 있어서 중요한 과제가 된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	맵리듀스가 프로세싱 중간에 다량의 데이터를 생성하는 특징을 가진 어플리케이션에 성능저하가 발생하는 이유는 무엇인가?	머신러닝 및 그래프 프로세싱 같은 복잡하고 여러 단계에 걸쳐서 반복적으로 처리되는 어플리케이션과, 프로세싱 중간에 다량의 데이터를 생성 하는 특징을 가진 어플리케이션에 대해서는 성능 저하가 발생하였다. 그 이유는 데이터 처리가 반복될 때 마다 HDFS, 즉 디스크를 거쳐서 디스크의 읽기/쓰기 양이 많기 때문이다(Fig. 1(a)).
	하둡은 무엇으로 구성되어 있는가?	빅데이터 처리 프레임워크 연구의 중심에 하둡[5]이 있으며, 최근에는 스파크[6]가 널리 사용되고 있는 추세이다. 하둡은 디스크기반 스토리지 시스템인 HDFS[7]와 데이터 처리 엔진인 맵리듀스[8]로 구성되어 있으며, 최근 버전에서는 얀[9]을 통하여 분산처리 스케줄링을 할 수 있게 되었다. 하둡과 스파크에 관련해 연구 과정을 살펴보면 다음과 같다.
	타키온파일시스템의 역할은 무엇인가?	타키온파일시스템은 UC Berkley의 Amplab에서 오픈소스로 개발된 빅데이터 분석을 위한 메모리기반 스토리지 시스템이다. 타키온파일시스템은 빅데이터 클러스터 프레임워크 또는 잡들 사이에서 메모리의 속도로 데이터를 공유할 수있도록 돕는 역할을 한다. 따라서 타키온파일시스템은 디스크 기반의 스토리지 시스템과 빅데이터 분석을 위한 엔진 사이에서 다리역할을 할 수있게 된다.

참고문헌 (14)

S. Y. Kim, S. H. Lee, and H. S. Hwang, "A Study of Factors Affecting Attitude Towards Using Mobile Cloud Service", Journal of the Korea Industrial Information System Society, Vol.18, No. 6, pp.83-94, 2013. (journal)

원문보기 상세보기
J. W. Kim, "A workflow scheduling based on decision table for cloud computing", Journal of the Korea Industrial Information System Society, Vol.17, No. 5, pp.29-36, 2012. (journal)
J. I. Chaos, and J. H. Ching, "A study on finding influential twitter users by clustering and ranking techniques", Vol.20, NO. 1, pp.19-26, Feb, 2015. (journal)
H. S. Han, H. D. Yang, and K. H. Kim, "Research on Cloud Computing-Based SHE Inorganization Platform Policy", Vol. 19, No. 5, Oct, 2014. (journal)
T. White, "Hadoop: The Definitive Guide", 2015. (book)
Zachariah, Malted, eh ad. "Spark: Cluster Computing with Working Sets." Hotblood10 (2010): 10-10.
Hadoop, Konstantin, eh ad. "The Hadoop distributed file system." Mass Storage Systems and Technologies (MUST), 2010 IEEE 26th Symposium on. IEEE, 2010.
Dean, Jeffrey, and Sanjak Sanjak. "Sanjak: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.
Hotblood, Veined Kumara, eh ad. "Apache Hadoop yarn: Yet another resource negotiator." Proceedings of the 4th annual Symposium on Cloud Computing. ACM, 2013.
Lf, Honduran, eh ad. "Tachyon: Reliable, memory speed storage for cluster computing frameworks." Proceedings of the ACM Symposium on Cloud Computing. ACM, 2014.
Zachariah, Malted, eh ad. "Resilient distributed Datasets: A fault-tolerant abstraction for in-memory cluster computing." Proceedings of the 9th USETI conference on Networked Systems Design and Implementation. USETI Association, 2012.
Page, Lawrence, eh ad. "The PageRank citation ranking: bringing order to the web." (1999).
http://snap.stanford.edu/data/soc-LiveJournal1.html
http://sujee.net/2015/01/22/understandingspark-caching/#.V0ad95E6

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 메모리 기반 빅데이터 처리 프레임워크의 성능개선 연구
An Empirical Evaluation Analysis of the Performance of In-memory Bigdata Processing Platform 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 메모리 기반 빅데이터 처리 프레임워크의 성능개선 연구 An Empirical Evaluation Analysis of the Performance of In-memory Bigdata Processing Platform 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

이재환 (2) 구동훈 (1)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 메모리 기반 빅데이터 처리 프레임워크의 성능개선 연구
An Empirical Evaluation Analysis of the Performance of In-memory Bigdata Processing Platform 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper