[논문]HDFS에서 소형 파일의 효율적인 접근을 위한 분산 캐시 관리 기법

오현교; 김기연; 황재민; 박준호; 임종태; 복경수; 유재수

doi:10.5392/jkca.2014.14.11.028

HDFS에서 소형 파일의 효율적인 접근을 위한 분산 캐시 관리 기법
A Distributed Cache Management Scheme for Efficient Accesses of Small Files in HDFS 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.14 no.11, 2014년, pp.28 - 38

오현교 (충북대학교 정보통신공학부) , 김기연 (충북대학교 정보통신공학부) , 황재민 (충북대학교 정보통신공학부) , 박준호 (국방과학연구소 제1기술연구본부) , 임종태 (충북대학교 정보통신공학부) , 복경수 (충북대학교 정보통신공학부) , 유재수 (충북대학교 정보통신공학부)

초록
AI-Helper

본 논문에서는 소형 파일을 효율적으로 접근하기 위한 분산 캐시 관리 기법을 제안한다. 제안하는 기법은 다수의 소형 파일을 병합하여 청크에 저장함으로써, 네임 노드에서 관리해야 할 메타데이터 수를 감소시킨다. 또한, 클라이언트와 데이터 노드의 캐시를 사용하여 요청된 파일들의 정보를 유지함으로써 소형 파일 접근 비용을 줄인다. 이때, 클라이언트의 캐시에는 사용자가 요청한 소형 파일과 메타데이터가 유지되며, 각 데이터 노드의 캐시에는 여러 사용자들이 빈번하게 요청했던 소형 파일을 유지한다. 성능 평가를 통해 제안하는 분산 캐시 관리 기법이 기존 기법에 비해 소형 파일 접근 비용을 크게 감소시킴을 보인다.

Abstract ▼ AI-Helper

In this paper, we propose the distributed cache management scheme to efficiently access small files in Hadoop Distributed File Systems(HDFS). The proposed scheme can reduce the number of metadata managed by a name node since many small files are merged and stored in a chunk. It is also possible to reduce the file access costs, by keeping the information of requested files using the client cache and data node caches. The client cache keeps small files that a user requests and metadata. Each data node cache keeps the small files that are frequently requested by users. It is shown through performance evaluation that the proposed scheme significantly reduces the processing time over the existing scheme.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 HDFS상에서 소형 파일의 처리 속도를 향상시키고 네트워크 부하를 감소시키기 위한 캐시 관리기법을 제안한다. 기존 캐시 관리 기법은 청크 메타데이터와 소형 파일을 클라이언트 캐시에서 유지하고 있는 방식을 사용한다.
본 논문에서는 HDFS에서 소형 파일의 읽기 성능향상을 위한 분산 캐시 기법을 제안한다. 제안하는 기법에서는 각 데이터 노드들의 캐시에 클라이언트들이 요청했던 파일 중 요청 빈도가 높은 소형 파일들을 유지하며, 각 데이터 노드 캐시에 저장된 소형 파일들의 캐시 메타데이터 정보를 네임노드에서 유지한다.
본 논문에서는 HDFS에서 소형 파일의 접근 속도를 향상시키고 네트워크 부하를 최소화하기 위한 캐시 관리 기법을 제안하였다. 제안하는 기법은 사용자들이 자주 사용하는 소형 파일을 각 데이터 노드의 캐시에서 유지하고, 이에 대한 캐시 메타데이터 정보를 네임노드에서 관리하여 데이터 노드의 디스크 접근 횟수를 감소 시켰다.

제안 방법

본 논문에서 초점을 맞추고 있는 소형 파일 데이터는 일반적으로 크기가 매우 작고 순차 쓰기 및 읽기가 수행될 가능성이 높다. 그러므로 제안하는 기법의 클라이언트는 요청한 파일을 저장하고 있는 청크의 메타데이터 정보와 요청 파일을 각각 네임 노드와 데이터 노드로부터 수신하여 캐시에 저장한다. 만약, 기존 기법과 같이 클라이언트 캐시에 청크 메타데이터만을 유지할 경우, 요청한 파일 정보가 캐시에 존재하지 않을시, 데이터 노드의 디스크로 파일을 요청한다.
따라서 클라이언트의 캐시에 유지되고 있는 소형파일이 아닌 다른 소형 파일 정보가 요청되면 데이터 노드의 디스크에서 파일을 가져와야하기 때문에 파일 처리 시간의 저하를 가져 올 수 있다. 따라서 위와 같은 문제점을 해결하기 위해 제안하는 기법에서 각 데이터 노드의 캐시에는 자주 요청된 소형 파일들을 유지하고, 클라이언트에는 캐시 메타데이터를 저장하는 구조를 갖는다. 따라서 요청한 소형 파일이 클라이언트 캐시에 존재하지 않더라도, 클라이언트 캐시에 저장된 캐시 메타데이터 정보나 네임노드의 캐시 메타데이터를 통해 해당 데이터 노드의 캐시에 접근 하여 처리한다.
하지만 슬라이드 파일의 경우는 크기가 작고 그 수가 방대하기 때문에 데이터들을 관리하기가 매우 어렵다. 따라서 이러한 문제들을 해결하기 위해 각 슬라이드가 64MB가 넘지 않도록 병합하여 청크에 유지함으로써 메타데이터의 양을 감소시켰다. 또한, 웹 서버의 캐시에 서로 연관된 슬라이드들을 프리패치하는 전략을 통해 파일 접근 성능을 향상시켰다.
질의 요청수를 변화해가며 처리 시간과 데이터 접근 빈도수를 측정했다. 또한, 기존 기법의 캐시 교체 전략인 LRU 기법과 제안하는 기법의 교체 전략 비교를 통한 처리 속도를 측정하였다.
본 논문에서 제안하는 기법의 우수성을 보이기 위해, 클라이언트의 캐시를 사용하여 소형 파일 접근을 수행한 기존 기법[11]과의 시뮬레이션을 통해 성능 평가를 수행하였다. 본 시뮬레이션은 [표 2]과 같은 성능 평가 환경을 구성하여 수행하였다.
본 논문에서 제안하는 기법의 우수성을 보이기 위해, 클라이언트의 캐시를 사용하여 소형 파일 접근을 수행한 기존 기법[11]과의 시뮬레이션을 통해 성능 평가를 수행하였다. 본 시뮬레이션은 [표 2]과 같은 성능 평가 환경을 구성하여 수행하였다. 성능 평가는 Inter(R) Core(TM) i5-3470 CPU 프로세서 4G 메모리를 가진 Window 7 운영체제를 사용하는 PC에서 수행하였다.
본 시뮬레이션은 [표 2]과 같은 성능 평가 환경을 구성하여 수행하였다. 성능 평가는 Inter(R) Core(TM) i5-3470 CPU 프로세서 4G 메모리를 가진 Window 7 운영체제를 사용하는 PC에서 수행하였다. 질의 요청수를 변화해가며 처리 시간과 데이터 접근 빈도수를 측정했다.
따라서 많은 양의 소형 파일을 관리해야 할 경우, 소형 파일을 저장하기 위한 청크의 수가 증가되고 네임 노드에서 관리해야할 메타데이터의 양 도 많아져 병목현상이 발생할 수도 있다. 이를 해결하기 위해 본 논문에서는 [11]에서 제시한 것과 유사하게 연관된 소형 파일들을 병합하여 [그림 2]와 같이 64MB 가 넘지 않는 병합된 파일 형태로 관리한다. 병합된 파일의 상위에는 소형 파일들의 (offset, length)가 인덱스 형태로 유지되어 파일들의 위치를 알 수 있다.
본 논문에서는 HDFS에서 소형 파일의 읽기 성능향상을 위한 분산 캐시 기법을 제안한다. 제안하는 기법에서는 각 데이터 노드들의 캐시에 클라이언트들이 요청했던 파일 중 요청 빈도가 높은 소형 파일들을 유지하며, 각 데이터 노드 캐시에 저장된 소형 파일들의 캐시 메타데이터 정보를 네임노드에서 유지한다. 또한, 청크 메타데이터와 요청 소형 파일만을 클라이언트의 캐시에서 유지하던 기존 기법과 달리, 클라이언트 캐시에 캐시 메타데이터를 저장하는 추가적인 구조를 갖는다.
제안하는 기법의 클라이언트 캐시에서는 캐시 메타데이터 정보를 네임노드로부터 요청받아 청크 메타데이터와 함께 사용한다. 제안하는 기법에서는 각 데이터 노드의 캐시에 저장하는 파일 정보를 캐시 메타데이터로 관리하고, 이에 대한 정보는 네임 노드에서 관리한다. 서로 연관된 정보의 소형 파일들은 클라이언트들이 다시 찾을 가능성이 높으며, 유사한 성향을 갖는 클라이언트들은 서로 비슷한 파일 정보를 찾을 확률이 높다.
본 논문에서는 HDFS에서 소형 파일의 접근 속도를 향상시키고 네트워크 부하를 최소화하기 위한 캐시 관리 기법을 제안하였다. 제안하는 기법은 사용자들이 자주 사용하는 소형 파일을 각 데이터 노드의 캐시에서 유지하고, 이에 대한 캐시 메타데이터 정보를 네임노드에서 관리하여 데이터 노드의 디스크 접근 횟수를 감소 시켰다. 또한, 클라이언트 캐시에 청크 메타데이터와 캐시 메타데이터를 유지함으로써 네임노드와의 통신을 최소화하여 소형 파일의 빠른 읽기 처리를 수행한다.
질의 요청을 1000에서 8000까지 변화시켜 청크의 접근 빈도를 측정하였다. 제안하는 기법은 클라이언트 캐시와 각 데이터 노드의 캐시를 함께 사용한다. 또한 각 데이터 노드의 캐시에는 자주 요청했던 파일정보들이 유지된다.
제안하는 기법의 클라이언트 캐시에서는 캐시 메타데이터 정보를 네임노드로부터 요청받아 청크 메타데이터와 함께 사용한다. 제안하는 기법에서는 각 데이터 노드의 캐시에 저장하는 파일 정보를 캐시 메타데이터로 관리하고, 이에 대한 정보는 네임 노드에서 관리한다.
[그림 1]는 제안하는 캐시 관리 기법의 구조를 나타낸다. 제안하는 캐시 관리기법은 크게 하둡 클러스터와 이를 접근하여 실제 데이터를 활용하는 클라이언트로 구성된다. 제안하는 하둡 클러스터 시스템은 각 데이터 노드의 캐시에 저장된 소형파일을 사용하는 구조를 통해 캐시에 존재하는 파일에 대한 캐시 메타데이터(cache metadata)를 네임 노드에서 함께 관리하도록 한다.
제안하는 캐시 교체에서는 LFU(Least Frequently Used)와 LRU(Least Recently Used) 정책을 결합하여 사용한다. 요청 빈도와 요청 시간 사이의 적절한 비중을 통해 교체할 파일을 추출하기 위해 [표 1]과 같이 클라이언트는 소형 파일 이름, 요청 빈도, 시간 정보 형태 의 데이터 접근 패턴 테이블을 유지한다.
제안하는 캐시 관리기법은 크게 하둡 클러스터와 이를 접근하여 실제 데이터를 활용하는 클라이언트로 구성된다. 제안하는 하둡 클러스터 시스템은 각 데이터 노드의 캐시에 저장된 소형파일을 사용하는 구조를 통해 캐시에 존재하는 파일에 대한 캐시 메타데이터(cache metadata)를 네임 노드에서 함께 관리하도록 한다. 각 데이터 노드의 캐시에는 다수의 클라이언트들에 의해 자주 요청된 소형 파일이 유지되는 구조를 가진다.
성능 평가는 Inter(R) Core(TM) i5-3470 CPU 프로세서 4G 메모리를 가진 Window 7 운영체제를 사용하는 PC에서 수행하였다. 질의 요청수를 변화해가며 처리 시간과 데이터 접근 빈도수를 측정했다. 또한, 기존 기법의 캐시 교체 전략인 LRU 기법과 제안하는 기법의 교체 전략 비교를 통한 처리 속도를 측정하였다.
[그림 6]은 소형파일 요청 수에 따른 파일 처리 시간을 비교하여 평가한 결과를 나타낸다. 질의 요청을 1000에서 8000까지 변화시켜 처리시간을 측정하였다. 기존 기법[11]의 경우, 요청된 소형 파일과 청크 메타데이터만을 클라이언트 캐시에 유지한다.
[그림 7]은 소형 파일 요청 수에 따른 데이터 노드의 청크 접근 빈도수를 비교하여 평가한 결과를 나타낸다. 질의 요청을 1000에서 8000까지 변화시켜 청크의 접근 빈도를 측정하였다. 제안하는 기법은 클라이언트 캐시와 각 데이터 노드의 캐시를 함께 사용한다.
이에 따라, 질의 요청이 많아지면 처리 시간도 증가하는 것을 볼 수 있다. 하지만, 제안하는 기법은 클라이언트 캐시에 캐시 메타데이터를 추가적으로 유지하며, 각 데이터 노드의 캐시를 클라이언트 캐시와 함께 사용한다. 이때, 각 데이터 노드의 캐시에는 빈번하게 요청했던 소형파일들이 유지된다.

성능/효과

하지만 성능평가 결과, 10MB정도 용량을 갖는 파일에는 접근 비용이 효과적이나, KB단위의 소형 파일 처리에서는 큰 효과를 나타내진 않았다. 그러나 제안하는 기법은 [10][11]처럼 하나의 캐시만을 사용하지 않고 [12]와 같이 분산된 각 데이터 노드의 캐시들을 사용해 많은 파일들을 캐시에 유지할 수 있으며, 기존 연구들 [10-12]과 달리 네임노드에서 추가적으로 캐시 메타데이터를 관리함으로써 소형 파일의 처리 효율을 높인다. 또한, 클라이언트 캐시에서 유지되고 있는 메타데이터와 네임노드 메타데이터 간의 동기화를 통해 클라이언트 캐시의 메타데이터를 최신의 정보로 갱신한다.
따라서 이러한 문제들을 해결하기 위해 각 슬라이드가 64MB가 넘지 않도록 병합하여 청크에 유지함으로써 메타데이터의 양을 감소시켰다. 또한, 웹 서버의 캐시에 서로 연관된 슬라이드들을 프리패치하는 전략을 통해 파일 접근 성능을 향상시켰다.
본 논문에서 초점을 맞추고 있는 소형 파일 데이터는 일반적으로 크기가 매우 작고 순차 쓰기 및 읽기가 수행될 가능성이 높다. 그러므로 제안하는 기법의 클라이언트는 요청한 파일을 저장하고 있는 청크의 메타데이터 정보와 요청 파일을 각각 네임 노드와 데이터 노드로부터 수신하여 캐시에 저장한다.
따라서 파일 요청이 왔을 때, 데이터 노드의 청크에 자주 접근하지 않고도, 각 데이터 노드의 캐시에서 파일을 요청 받을 수 있다. 성능평가 결과, 제안하는 기법이 기존 기법에 비해 최대 약 54% 청크 접근 빈도가 감소했다.
이에 따라, 청크의 접근 빈도가 줄어들어 질의 요청이 증가하여도 처리 시간은 많이 증가하지 않는다. 성능평가 결과, 제안하는 분산 캐시 기법이 기존 기법에 비해 처리시간이 최대 약65% 감소했다.
이 선택된 값을 통해 식 (1)에 적용하여 가장 작은 값을 갖는 파일을 캐시에서 교체 한다. 성능평가 결과, 제안하는 캐시 교체 전략이 기존 기법의 교체 전략에 비해 처리시간이 최대 약 38% 감소했다.
제안하는 기법은 사용자의 프로파일이나 구매 성향을 분석하기 위한 응용 프로그램에서 정보들을 빠르게 검색하기 위해 활용할 수 있다. 성능평과 결과 제안하는 기법은 기존 기법보다 우수한 성능을 나타내는 것을 확인했다. 향후 연구로는 주기적으로 각 데이터 노드의 캐시 정보를 캡처해 다른 이웃 데이터 노드의 디스크에 저장함으로써, 해당 데이터 노드가 이상이 생겨도 다른 노드에서 빠르게 소형 파일 접근이 가능하도록 하는 모듈을 접목하는 것이다.
측정한 각 α값의 변화에 따른 평균 처리 시간과 LRU기법을 비교하여 실험하였는데, 0.3이 적절한 α값으로 선택되었다.
이런 분산 캐시를 사용하는 방식을 통해 파일 접근 비용의 감소를 보였다. 하지만 성능평가 결과, 10MB정도 용량을 갖는 파일에는 접근 비용이 효과적이나, KB단위의 소형 파일 처리에서는 큰 효과를 나타내진 않았다. 그러나 제안하는 기법은 [10][11]처럼 하나의 캐시만을 사용하지 않고 [12]와 같이 분산된 각 데이터 노드의 캐시들을 사용해 많은 파일들을 캐시에 유지할 수 있으며, 기존 연구들 [10-12]과 달리 네임노드에서 추가적으로 캐시 메타데이터를 관리함으로써 소형 파일의 처리 효율을 높인다.

후속연구

또한, 클라이언트 캐시에 청크 메타데이터와 캐시 메타데이터를 유지함으로써 네임노드와의 통신을 최소화하여 소형 파일의 빠른 읽기 처리를 수행한다. 제안하는 기법은 사용자의 프로파일이나 구매 성향을 분석하기 위한 응용 프로그램에서 정보들을 빠르게 검색하기 위해 활용할 수 있다. 성능평과 결과 제안하는 기법은 기존 기법보다 우수한 성능을 나타내는 것을 확인했다.
성능평과 결과 제안하는 기법은 기존 기법보다 우수한 성능을 나타내는 것을 확인했다. 향후 연구로는 주기적으로 각 데이터 노드의 캐시 정보를 캡처해 다른 이웃 데이터 노드의 디스크에 저장함으로써, 해당 데이터 노드가 이상이 생겨도 다른 노드에서 빠르게 소형 파일 접근이 가능하도록 하는 모듈을 접목하는 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	하둡은 어떻게 구성되어있는가?	하둡은 대규모 자료의 저장 및 처리를 위한 분산 응용 프로그램을 지원하는 대표적인 오픈소스 소프트웨어 프레임워크이다. 하둡은 페타바이트 이상의 대규모 데이터를 클러스터 환경에서 저장하기 위한 하둡 분산 파일 시스템 (HDFS:Hadoop Distributed File System)[5]과 이를 기반으로 병렬 처리를 지원하기 위한 맵-리듀스 (MapReduce)[6-8] 프레임워크로 구성된다.
	HDFS에서 청크의 수가 증가함에 따라 나타나는 현상은 무엇인가?	HDFS의 경우 소형 파일을 저장하기 위해 하나의 청크에 수십 ∼ 수백 KB 밖에 되지 않는 단일 파일 정보가 관리되기 때문에 저장해야 할 소형 파일 수가 증가하면 파일을 관리해야 할 청크의 수도 증가한다[9]. 이에 따라, 네임 노드에서 관리해야 할 메타데이터의 양도 증가되므로 소형 파일을 처리하는데 있어서 네임 노드에 병목 현상이 발생하게 된다.
	하둡은 무엇인가?	따라서 이에 따른 해답을 찾기 위한 시스템으로 오픈 소스 프레임워크 인 하둡(hadoop)[3][4]이 주목받고 있다. 하둡은 대규모 자료의 저장 및 처리를 위한 분산 응용 프로그램을 지원하는 대표적인 오픈소스 소프트웨어 프레임워크이다. 하둡은 페타바이트 이상의 대규모 데이터를 클러스터 환경에서 저장하기 위한 하둡 분산 파일 시스템 (HDFS:Hadoop Distributed File System)[5]과 이를 기반으로 병렬 처리를 지원하기 위한 맵-리듀스 (MapReduce)[6-8] 프레임워크로 구성된다.

참고문헌 (12)

J. Dittrich and J. Quiane-Ruiz, "Efficient BigData Processing in Hadoop MapReduce," Proc. of VLDB Endowment, Vol.5, No.12, pp.2014-2015, 2012.

상세보기
J. Cohen, J. Dolan, M. Dunlap, J. Hellerstein, and C. Welton, "MAD Skills: New Analysis Practices for Big Data," Proc. of VLDB Endowment, Vol.2, No.2, pp.1481-1492, 2009.

상세보기
http://hadoop.apache.org
K. Schvachko, H. Kuang, S. Radia, and R. Chansler, "The Hadoop Distributed File System," Proc of IEEE Symposium on Mass Storage Systems and Technologies, pp.1-10, 2010.
http://hadoop.apache.org/core/docs/current/hdfs_design.html
J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Cluster," Communications of the ACM, Vol.51, No.1, pp.107-113, 2008.
류은경, 손인국, 박준호, 복경수, 유재수, "비-전용 분산 컴퓨팅 환경에서 맵-리듀스 처리 성능 최적화를 위한 효율적인 데이터 재배치 알고리즘", 한국콘텐츠학회논문지, 제13권, 제9호, pp.20-27, 2013

원문보기 상세보기
손인국, 류은경, 박준호, 복경수, 유재수, "맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법", 한국콘텐츠학회논문지, 제13권, 제11호, pp.21-27, 2013

원문보기 상세보기
http://blog.cloudera.com/blog/2009/02/the-small-files-problem/
B. Dong, J. Qiu, O. Zheng, X. Zhong, J. Li, and Y. Li, "A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop:a Case Study by Power Point Files," Proc. of IEEE International Conference on Services Computing, pp.65-72, 2010.
D. Chandrasekar, R. Dakshinamurthy, P. G. Sechakumar, and B. Prabavathy, "A Novel Indexing Scheme for Efficient Handling of Small Files in Hadoop Distributed File System," Proc. of International Conference on Computer Communication and Informatics, pp.1-8, 2013.
J. Zhang, G. Wu, X. Hu, and X. Wu, "A Distributed Cache for Hadoop Distributed File System in Real-time Cloud Services," Proc. of International Conference on Grid Computing, pp.12-21, 2012.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증