[논문]빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법 연구

이협건; 김영운; 김기영

doi:10.17661/jkiiect.2019.12.2.127

빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법 연구
Study of In-Memory based Hybrid Big Data Processing Scheme for Improve the Big Data Processing Rate 원문보기

한국정보전자통신기술학회논문지 = Journal of Korea institute of information, electronics, and communication technology, v.12 no.2, 2019년, pp.127 - 134

이협건 (Dept. of Data Analysis, Seoul Gangseo Campus of Korea Polytechnic) , 김영운 (Dept. of Data Analysis, Seoul Gangseo Campus of Korea Polytechnic) , 김기영 (Dept. of Computer Software, Seoil University)

초록
AI-Helper

IT기술의 발달로 인해 생성되는 데이터의 양은 매년 기하급수적으로 증가하고 있으며, 이에 대한 대안으로 분산시스템과 인-메모리 기반 빅데이터 처리 기법의 연구가 활발히 이루어지고 있다. 기존 빅데이터 처리 기법들의 처리 성능은 노드의 수와 메모리 용량이 증가될수록 보다 빠르게 빅데이터 처리한다. 그러나 노드의 수의 증가는 빅데이터 인프라 환경에서 장애발생 빈도가 높아지며, 인프라 관리 포인트 및 인프라 운영비용도 증가된다. 또한 메모리 용량의 증가는 노드 구성에 대한 인프라 비용이 증가된다. 이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다. 제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하여 기존 분산시스템 기반 빅데이터 처리기법에 비해 빅데이터 처리시간을 약 22% 감소시켰다. 향후, 제안하는 기법의 실질적인 검증을 위해 더 많은 노드로 구성된 빅데이터 인프라 환경에서의 현실적 성능평가가 필요하다.

Abstract ▼ AI-Helper

With the advancement of IT technology, the amount of data generated has been growing exponentially every year. As an alternative to this, research on distributed systems and in-memory based big data processing schemes has been actively underway. The processing power of traditional big data processing schemes enables big data to be processed as fast as the number of nodes and memory capacity increases. However, the increase in the number of nodes inevitably raises the frequency of failures in a big data infrastructure environment, and infrastructure management points and infrastructure operating costs also increase accordingly. In addition, the increase in memory capacity raises infrastructure costs for a node configuration. Therefore, this paper proposes an in-memory-based hybrid big data processing scheme for improve the big data processing rate. The proposed scheme reduces the number of nodes compared to traditional big data processing schemes based on distributed systems by adding a combiner step to a distributed system processing scheme and applying an in-memory based processing technology at that step. It decreases the big data processing time by approximately 22%. In the future, realistic performance evaluation in a big data infrastructure environment consisting of more nodes will be required for practical verification of the proposed scheme.

주제어

표/그림 (11)

그림 그림 1. 맵리듀스 프레임워크 기반 빅데이터 처리 기법 Fig. 1. Mapreduce frameworks based big data processing scheme
그림 그림 2. GlusterFS 기반 빅데이터 처리 기법 Fig. 2. GlusterFS based big data processing scheme
그림 그림 3. 인-메모리 기반 빅데이터 처리 기법 Fig. 3. In-Memory based big data processing scheme
그림 그림 5. Combiner 단계의 데이터 처리를 위한 의사코드 Fig. 5. The pseudo code of combiner step for data processing
그림 그림 4. 제안하는 빅데이터 처리 기법의 처리 프로세스 Fig. 4. The process of big data processing scheme
그림 그림 6. 메모리에 저장되는 키·값 형태 데이터 모델 Fig. 6. The data model of a pair of Key·Value type
표 표 1. 성능평가를 위한 주요 환경 구성 Table. 1. Environment for performance analysis
그림 그림 7. 빅데이터 처리시간 비교 분석 Fig. 7. Comparison analysis of big data processing time
그림 그림 8. 데이터 노드의 수에 따른 데이터 소실량 분석 Fig. 8. Analysis of error data blocks by number of data nodes
표 표 2. 데이터 노드의 수에 따른 빅데이터 처리 시간 비교 분석 결과 Table 2. Result of comparison analysis of big data processing time by number of data nodes
표 표 3. 데이터 노드의 수에 따른 데이터 소실량 비교 분석 결과 Table 3. Result of comparison analysis of error data blocks by number of data nodes

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 장에서는 빅데이터 처리 방식에 따라 구분하여 가장 보편적으로 많이 사용되는 분산시스템 기반 빅데이터 처리 기법과 인-메모리 기반 빅데이터 처리 기법에 대해 살펴본다. 또한 연구된 결과를 기반으로 제안하는 빅데이터 처리 기법의 요구사항을 도출한다.
이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안하였다. 제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하였다.
이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다. 제안하는 기법은 맵리듀스의 주요 단계에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하여 기존 분산시스템 기반 빅데이터 처리기법에 비해 노드의 수를 감소시키고, 빅데이터 처리율을 약 22% 향상시킨다.

제안 방법

Map 단계는 분석 및 처리될 데이터들을 용도에 맞게 1차 정제 및 가공하는 역할을 수행한다. Combiner 단계는 본 논문에서 제안하는 단계로 앞서 실행되는 맵리듀스의 Map 단계에서 처리되는 방대한 양의 데이터들을 Shuffle and Sort 단계로 전송하기 전에 Reduce 단계와 유사하게 데이터를 처리한다. Shuffle and Sort 단계는 맵리듀스 프레임워크에서 자동적으로 수행되는 단계로 Map 단계나 Combiner 단계에서 전송된 데이터를 취합·그룹으로 묶은 뒤 정렬한다.
노드의 수에 따른 데이터 소실량 분석은 요구사항 분석에서 도출된 장애가 발생할 확률을 기반으로 노드의 수에 따른 데이터 소실량을 분석한다. 데이터 노드의 수는 최소 3개부터 100대, 데이터 크기는 10GB, 기본 블록 크기는 64MB로 정의한다.
분석되는 데이터들의 메타 정보가 저장되는 네임노드와 2차 네임노드는 각 1대씩 구성하여 총 2대를 사용한다. 데이터 노드는 성능평가를 위해 최소 3개의 데이터 노드부터 최대 10대의 데이터 노드까지 증가시키며 성능 평가한다. 빅데이터 처리에 대한 분석 대상은 약 3G 용량의 아파치 웹서버 로그이며, 2018년 1월부터 12월까지의 데이터이다.
본 장에서는 빅데이터 처리 방식에 따라 구분하여 가장 보편적으로 많이 사용되는 분산시스템 기반 빅데이터 처리 기법과 인-메모리 기반 빅데이터 처리 기법에 대해 살펴본다. 또한 연구된 결과를 기반으로 제안하는 빅데이터 처리 기법의 요구사항을 도출한다.
본 장에서는 제안하는 인-메모리 기반 하이브리드 빅데이터 처리 기법에 대한 성능평가를 수행한다. 성능 평가 항목은 앞서 관련 연구에서 분석한 요구사항을 기반으로 분산시스템 기반 빅데이터 처리 기법 (Distributed Big Data Processing Scheme, DBPS) 과 제안하는 빅데이터 처리 기법(Hybrid Big Data Processing Scheme, HBPS)의 노드 수 증가에 따른 빅데이터 처리시간과 장애 발생 확률에 따른 소실되는 데이터의 크기를 비교 분석한다.
본 절에서는 앞서 설명한 분산시스템 기반 빅데이터 처리 기법과 인-메모리 기반 빅데이터 처리 기법에 대한 문제점을 도출하고, 요구사항을 분석한다.
본 장에서는 제안하는 인-메모리 기반 하이브리드 빅데이터 처리 기법에 대한 성능평가를 수행한다. 성능 평가 항목은 앞서 관련 연구에서 분석한 요구사항을 기반으로 분산시스템 기반 빅데이터 처리 기법 (Distributed Big Data Processing Scheme, DBPS) 과 제안하는 빅데이터 처리 기법(Hybrid Big Data Processing Scheme, HBPS)의 노드 수 증가에 따른 빅데이터 처리시간과 장애 발생 확률에 따른 소실되는 데이터의 크기를 비교 분석한다.
성능평가를 위한 빅데이터 인프라 환경은 하둡을 기반으로 완전 분산 모드를 구축하여 검증한다. 성능평가에 사용된 하둡의 버전으로 정식 배포된 2.
이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안하였다. 제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하였다. 제안하는 기법의 성능평가의 결과에 따르면, 빅데이터 처리시간은 기존 기법에 비해 10개의 데이터 노드에서 1,046ms 빠르게 처리하였으며, 노드의 수에 따른 데이터 소실량은 기존 기법이 제안하는 기법에 비해 81개부터 100개의 데이터 노드에서 53,262개의 블록이 소실되었다.
제안하는 빅데이터 처리 기법은 주요 단계 중 Combiner 단계에 인-메모리 기반 처리 기술을 적용하여 보다 빠른 빅데이터 처리를 수행하도록 한다. [그림 5]는 Combiner 단계의 데이터 처리를 위한 의사 코드를 나타낸다.
제안하는 빅데이터 처리 기법은 하둡을 활용하며, 분산시스템은 하둡 분산 파일 시스템을 사용하며 맵리듀스를 통해 빅데이터를 처리한다. 제안하는 빅데이터 처리 기법의 프로세스는 맵리듀스 프레임워크의 주요 단계를 진행한다.
제안하는 빅데이터 처리 기법은 하둡을 활용하며, 분산시스템은 하둡 분산 파일 시스템을 사용하며 맵리듀스를 통해 빅데이터를 처리한다. 제안하는 빅데이터 처리 기법의 프로세스는 맵리듀스 프레임워크의 주요 단계를 진행한다. 맵리듀스의 주요 단계는 Map, Combiner, Shuffle and Sort와 Reduce이다.
제안하는 인-메모리 기반 하이브리드 빅데이터 처리 기법은 앞서 분석된 요구사항에 맞춰 인-메모리 기반 빅데이터 처리 기법과 분산시스템 기반 빅데이터 처리 기법이 융합된 하이브리드 방식으로 빅데이터를 처리한다. [그림 4]는 제안하는 빅데이터 처리 기법의 처리 프로세스를 나타낸다.

대상 데이터

노드의 수에 따른 데이터 소실량 분석은 요구사항 분석에서 도출된 장애가 발생할 확률을 기반으로 노드의 수에 따른 데이터 소실량을 분석한다. 데이터 노드의 수는 최소 3개부터 100대, 데이터 크기는 10GB, 기본 블록 크기는 64MB로 정의한다. <그림 8>과 <표 3>은 노드의 수에 따른 데이터 소실량 분석을 나타낸다.
빅데이터 분석 처리 시간 분석은 데이터 노드를 최소 3개부터 10까지 증가시키며, 맵리듀스 잡의 실행시간을 측정하고, 그 결과를 비교 분석한다. 분석 대상은 아파치 웹 로그 중 최근 31일의 데이터로 정의한다. <그림 7>과 <표 2>는 제안하는 기법과 비교 대상과의 빅데이터 처리시간 비교 분석한 결과를 나타낸다.
데이터 노드는 성능평가를 위해 최소 3개의 데이터 노드부터 최대 10대의 데이터 노드까지 증가시키며 성능 평가한다. 빅데이터 처리에 대한 분석 대상은 약 3G 용량의 아파치 웹서버 로그이며, 2018년 1월부터 12월까지의 데이터이다. 빅데이터 처리에 대한 분석 기간은 12개월 데이터 중 최근 31일 데이터를 대상으로 추출 및 분석을 수행하며, 맵리듀스 잡의 수행 내용은 비정상적인 URL 접속 횟수를 분석하는 잡이다.

데이터처리

빅데이터 분석 처리 시간 분석은 데이터 노드를 최소 3개부터 10까지 증가시키며, 맵리듀스 잡의 실행시간을 측정하고, 그 결과를 비교 분석한다. 분석 대상은 아파치 웹 로그 중 최근 31일의 데이터로 정의한다.

이론/모형

성능평가를 위한 빅데이터 인프라 환경은 하둡을 기반으로 완전 분산 모드를 구축하여 검증한다. 성능평가에 사용된 하둡의 버전으로 정식 배포된 2.82 버전을 사용한다. 하둡 완전 분산 모드로 구성되는 노드는 최소 5대부터 12대까지 구성된다.
빅데이터 처리 기법에 많이 사용되는 분산시스템으로 크게 하둡 분산 파일 시스템을 활용한 빅데이터 처리 기법이 GlusterFS를 활용한 빅데이터 처리 기법 보편적으로 많이 사용되고 있다. 하둡 분산 파일 시스템을 활용한 빅데이터 처리 기법은 맵리듀스 프레임워크를 적용하여 빅데이터를 처리한다. 이 맵리듀스 프레임워크는 분산 파일 시스템에 저장된 방대한 데이터를 정제 및 처리, 분석하는 역할을 수행한다.

성능/효과

결과에 따르면, HBPS는 DBPS에 비해 데이터 노드의 수가 증가될수록 더 빠르게 데이터를 처리하였다. 빅데이터 처리속도는 3개의 데이터 노드에서 HBPS가 DBPS보다 -260ms, 10개의 데이터 노드에서 -1,046ms 빠르게 데이터를 처리하였다.
결과에 따르면, 데이터 노드의 수는 증가될수록 장애로 인한 데이터 소실량은 급격하게 증가하였다. 데이터 노드의 수가 21개부터 40까지의 빅데이터 인프라 환경은 노드의 수가 3개부터 20까지의 빅데이터 인프라 환경에 비해 데이터 소실량이 약 10% 증가하였지만, 데이터 노드의 수가 81개부터 100까지의 빅데이터 인프라 환경은 데이터 소실량이 약 74%로 급격하게 증가되었다.
결과에 따르면, 데이터 노드의 수는 증가될수록 장애로 인한 데이터 소실량은 급격하게 증가하였다. 데이터 노드의 수가 21개부터 40까지의 빅데이터 인프라 환경은 노드의 수가 3개부터 20까지의 빅데이터 인프라 환경에 비해 데이터 소실량이 약 10% 증가하였지만, 데이터 노드의 수가 81개부터 100까지의 빅데이터 인프라 환경은 데이터 소실량이 약 74%로 급격하게 증가되었다. 이때 데이터 소실량은 53,262개의 블록이다.
둘째, 인-메모리 기반 빅데이터 처리 기법의 인프라 구축비용은 높다. 인-메모리 기반 빅데이터 처리 기법은 데이터가 저장되는 노드들의 메모리를 사용하여 데이터를 처리한다.
이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다. 제안하는 기법은 맵리듀스의 주요 단계에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하여 기존 분산시스템 기반 빅데이터 처리기법에 비해 노드의 수를 감소시키고, 빅데이터 처리율을 약 22% 향상시킨다.
제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하였다. 제안하는 기법의 성능평가의 결과에 따르면, 빅데이터 처리시간은 기존 기법에 비해 10개의 데이터 노드에서 1,046ms 빠르게 처리하였으며, 노드의 수에 따른 데이터 소실량은 기존 기법이 제안하는 기법에 비해 81개부터 100개의 데이터 노드에서 53,262개의 블록이 소실되었다.
첫째, 분산시스템 기반 빅데이터 처리 기법의 빅데이터 처리 성능은 노드가 많지 않으면 처리율이 감소한다. 분산시스템 기반 빅데이터 처리 기법의 노드의 수는 빅데이터 처리 속도와 밀접한 관계가 있으며, 노드의 수가 많을수록 처리 성능은 증가한다.
빅데이터 처리속도는 3개의 데이터 노드에서 HBPS가 DBPS보다 -260ms, 10개의 데이터 노드에서 -1,046ms 빠르게 데이터를 처리하였다. 특히, HBPS의 빅데이터 처리시간은 노드의 수가 증가될수록 약 22%씩 감소하였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	노드의 수의 증가는 어떠한 문제를 일으키는가?	그러나 노드의 수의 증가는 빅데이터 인프라 환경에서 발생 가능한 장애발생 빈도가 높아지고, 이로 인해 인프라 관리 포인트 및 인프라 운영에 필요한 비용도 증가된다. 또한 메모리 용량의 증가는 빅데이터 처리에 필요한 노드 구성에 대한 인프라 비용이 증가된다[3].
	인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안하는 이유는 무엇인가?	기존 빅데이터 처리 기법들의 처리 성능은 노드의 수와 메모리 용량이 증가될수록 보다 빠르게 빅데이터 처리한다. 그러나 노드의 수의 증가는 빅데이터 인프라 환경에서 장애발생 빈도가 높아지며, 인프라 관리 포인트 및 인프라 운영비용도 증가된다. 또한 메모리 용량의 증가는 노드 구성에 대한 인프라 비용이 증가된다. 이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다.
	스파크란 무엇인가?	스파크는 맵리듀스의 다음 단계로 개발된 기술이며, 맵리듀스보다 높은 수준의 API를 제공한다. API 제공으로 스파크는 보다 로직 중점적인 빅데이터 프로그래밍이 가능하다.

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증