[논문]Apache Kudu와 Impala를 활용한 Lambda Architecture 설계

황윤영; 이필원; 신용태

doi:10.3745/ktccs.2020.9.9.207

초록
AI-Helper

데이터의 양은 기술의 발전으로 크게 증가하였고 이를 처리하기 위해 다양한 빅데이터 처리 플랫폼이 등장하고 있다. 이 중 가장 널리 사용되고 있는 플랫폼이 Apache 소프트웨어 재단에서 개발한 하둡이며, 하둡은 IoT 분야에도 사용된다. 그러나 기존에 하둡 기반 IoT 센서 데이터 수집 분석 환경은 하둡의 코어 프로젝트인 HDFS의 Small File로 인한 네임노드의 과부하 문제와 임포트된 데이터의 업데이트나 삭제가 불가능하다는 문제가 있다. 본 논문에서는 Apache Kudu와 Impala를 활용해 Lambda Architecture를 설계한다. 제안하는 구조는 IoT 센서 데이터를 Cold-Data와 Hot-Data로 분류해 각 성격에 맞는 스토리지에 저장하고 배치를 통해 생성된 배치뷰와 Apache Kudu와 Impala를 통해 생성된 실시간뷰를 활용해 기존 하둡 기반 IoT 센서 데이터 수집 분석 환경의 문제를 해결하고 사용자가 분석된 데이터에 접근하는 시간을 단축한다.

Abstract ▼ AI-Helper

The amount of data has increased significantly due to advances in technology, and various big data processing platforms are emerging, to handle it. Among them, the most widely used platform is Hadoop developed by the Apache Software Foundation, and Hadoop is also used in the IoT field. However, the ...

The amount of data has increased significantly due to advances in technology, and various big data processing platforms are emerging, to handle it. Among them, the most widely used platform is Hadoop developed by the Apache Software Foundation, and Hadoop is also used in the IoT field. However, the existing Hadoop-based IoT sensor data collection and analysis environment has a problem of overloading the name node due to HDFS' Small File, which is Hadoop's core project, and it is impossible to update or delete the imported data. This paper uses Apache Kudu and Impala to design Lambda Architecture. The proposed Architecture classifies IoT sensor data into Cold-Data and Hot-Data, stores it in storage according to each personality, and uses Batch-View created through Batch and Real-time View generated through Apache Kudu and Impala to solve problems in the existing Hadoop-based IoT sensor data collection analysis environment and shorten the time users access to the analyzed data.

주제어

표/그림 (10)

그림 Fig. 1. Structure of Lambda Architecture
그림 Fig. 2. Server Configuration for Apache Kudu
그림 Fig. 3. Configuration of Apache Impala
그림 Fig. 4. Suggested Configuration of the Lambda Architecture
그림 Fig. 6. Amount of Queryable Data by Cycle
그림 Fig. 5. Time Lag in Batch Process
표 Table 1. Experimental Environment for Performance Evaluation
표 Table 2. Information of Data
그림 Fig. 7. Real-Time Data Processing Structure
그림 Fig. 8. Amount of Queryable Data over Time

AI 본문요약
AI-Helper

문제 정의

제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture는 하둡 기반의 IoT 센서 데이터 수집 분석 환경에서 발생하는 Small File 문제를 해결한다. 제안하는 구조는 하둡에서 불가능한 임포트된 데이터의 수정 문제를 Apache Kudu와 Impala를 활용하여 해결한다.

제안 방법

제안하는 Lambda Architecture는 기존의 HDFS 기반 IoT 센서 데이터 수집 분석 환경을 Apache Kudu와 Impala를 활용해 Lambda Architecture로 구성한다. 제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture는 발생되는 데이터를 자주 사용되지 않고 갱신이 적은 대용량의 Cold-Data와 자주 사용되고 갱신주기가 짧으며 크기가 작은 실시간 Hot-Data로 분류한다. 데이터가 크기에 따라 분류되어 각 성격에 맞는 스토리지에 저장됨으로써 HDFS의 Small File 문제를 해결할 수 있다.
제안하는 구조는 IoT 센서 데이터를 REST 통신으로 서버에 전송하며, 서버는 이를 Cold-Data와 Hot-Data로 분류한다. Cold-Data는 HDFS에 저장되고, HDFS는 배치를 통해 주기적으로 배치 뷰를 생성한다.

이론/모형

제안하는 Lambda Architecture는 기존의 HDFS 기반 IoT 센서 데이터 수집 분석 환경을 Apache Kudu와 Impala를 활용해 Lambda Architecture로 구성한다. 제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture는 발생되는 데이터를 자주 사용되지 않고 갱신이 적은 대용량의 Cold-Data와 자주 사용되고 갱신주기가 짧으며 크기가 작은 실시간 Hot-Data로 분류한다.

성능/효과

본 논문에서 제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture는 배치 뷰와 Apache Kudu와 Impala로 생성되는 실시간 뷰를 통해 클라이언트가 결과에 접근할 때 발생할 수 있는 공백 문제를 해결할 수 있다. 또한, 제안하는 Architecture를 사용할 경우, 하둡 기반 데이터 수집 분석 환경에서 발생하는 Small File로 인한 네임노드의 과부하 문제를 해결할 수 있다.
본 논문에서 제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture는 배치 뷰와 Apache Kudu와 Impala로 생성되는 실시간 뷰를 통해 클라이언트가 결과에 접근할 때 발생할 수 있는 공백 문제를 해결할 수 있다. 또한, 제안하는 Architecture를 사용할 경우, 하둡 기반 데이터 수집 분석 환경에서 발생하는 Small File로 인한 네임노드의 과부하 문제를 해결할 수 있다.

후속연구

향후 본 논문에서 제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture에서 Cold-Data와 Hot-Data를 운영환경에 맞춰 자동으로 분류하는 알고리즘의 연구가 필요하다. 또한, 기존의 Apache Kafka 혹은 Spark를 이용해 구성한 Lambda Architecture 시스템들과의 성능 비교 평가가 필요하다.
제안하는 구조는 데이터에 대한 지속적인 실시간 모니터링이 가능해 관리 측면에서도 이점을 갖는다. 향후 본 논문에서 제안하는 Apache Kudu와 Impala를 활용한 Lambda Architecture에서 Cold-Data와 Hot-Data를 운영환경에 맞춰 자동으로 분류하는 알고리즘의 연구가 필요하다. 또한, 기존의 Apache Kafka 혹은 Spark를 이용해 구성한 Lambda Architecture 시스템들과의 성능 비교 평가가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터의 발생량이 폭발적으로 증가하는 이유는 무엇인가?	데이터의 발생량은 5G의 등장으로 초고속, 초저지연을 이용한 새로운 IoT(Internet of Things) 기술이 등장하고 발전하면서 폭발적으로 증가하고 있다. 다양한 빅데이터 처리 플랫폼이 이를 처리하기 위해 등장하고 있다.
	Lambda Architecture는 무엇으로 구성되어 있는가?	Lambda Architecture는 Batch Layer, Speed Layer, Serving Layer로 구성되어 있다. Batch Layer에서는 배치를 이용해 데이터를 미리 계산하여 저장소에 raw 데이터를 보관한다.
	Lambda Architecture의 Batch Layer에서는 어떤 데이터를 보관하는가?	Lambda Architecture는 Batch Layer, Speed Layer, Serving Layer로 구성되어 있다. Batch Layer에서는 배치를 이용해 데이터를 미리 계산하여 저장소에 raw 데이터를 보관한다. 배치뷰의 데이터가 부정확할 때 저장소의 raw 데이터를 통해 복구가 가능하다.

참고문헌 (4)

S. Bende and R. Shedge, "Dealing with small files problem in hadoop distributed file system," Procedia Computer Science, Vol.79, pp.1001-1012, 2016.

상세보기
M. Kiran, P. Murphy, I. Monga, J. Dugan, and S. Baveja "Lambda architecture for cost- effective batch and speed big data processing," In: 2015 IEEE International Conference on Big Data (Big Data). IEEE, pp.2785-2792, 2015.
T. Lipcon, D. Alves, D. Burkert, J.Cryans, A. Dembo, M. Percy, S. Rus, D. Wang, M. Bertozzi, C. McCabe, and A. Wang "Kudu: Storage for fast analytics on fast data," Cloudera, inc, Vol.28, 2015.
M. Kornacker and J. Erickson, "Cloudera impala: Real time queries in apache hadoop, for real," Ht Tpblog Cloudera Comblog201210cloudera-Impala-Real-Time-Queries- Apache-Hadoop--Real, 2012.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Apache Kudu와 Impala를 활용한 Lambda Architecture 설계
Lambda Architecture Used Apache Kudu and Impala 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (10)

표/그림 (10)

AI 본문요약
AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (4)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Apache Kudu와 Impala를 활용한 Lambda Architecture 설계 Lambda Architecture Used Apache Kudu and Impala 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (10) 모든 표/그림 보기

표/그림 (10) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (4)

이 논문을 인용한 문헌

저자의 다른 논문 :

신용태 (128)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Apache Kudu와 Impala를 활용한 Lambda Architecture 설계
Lambda Architecture Used Apache Kudu and Impala 원문보기

초록
AI-Helper

표/그림 (10)

표/그림 (10)

AI 본문요약
AI-Helper