[논문]SSD 기반 서버급 스토리지를 위한 지역성 기반 청킹 정책을 이용한 데이터 중복 제거 기법

이승규; 김주경; 김덕환

doi:10.5573/ieek.2013.50.2.143

초록
AI-Helper

낸드 플래시 기반 SSD(Solid State Drive)는 빠른 입출력 성능, 저전력 등의 장점을 가지고 있어, 타블릿, 데스크탑 PC, 스마트폰, 서버 등의 저장장치로 널리 사용되고 있다. 하지만 SSD는 쓰기 횟수에 따라서 마모도가 증가하는 단점이 있다. SSD의 수명을 향상시키기 위해 다양한 데이터 중복제거 기법이 도입되었으나, 일반적인 고정 크기 분할방식은 데이터의 지역성을 고려하지 않고 청크크기를 할당함으로써, 불필요한 청킹 및 해시값 생성을 수행하는 문제점이 있으며, 가변 크기 분할방식은 중복제거를 위해 바이트 단위로 비교하여 과도한 연산량을 유발한다. 본 논문에서는 SSD 기반 서버급 스토리지에서 쓰기 요청된 데이터의 지역성에 기반한 적응형 청킹 정책을 제안한다. 제안한 방법은 중복데이터가 가지는 응용프로그램 및 파일 이름 기반 지역성에 따라 청크 크기를 4KB 또는 64KB로 적응적으로 분할하여, 청킹 및 해시값 생성에 따른 오버헤드를 감소시키고, 중복 쓰기를 방지한다. 실험결과, 제안하는 기법이 기존의 가변 크기 분할 및 4KB의 고정 크기 분할을 이용한 중복제거기법보다 SSD의 쓰기 성능이 향상되고 전력 소모 및 연산시간을 감소시킬 수 있음을 보여준다.

Abstract ▼ AI-Helper

NAND flash-based SSDs (Solid State Drive) have advantages of fast input/output performance and low power consumption so that they could be widely used as storages on tablet, desktop PC, smart-phone, and server. But, SSD has the disadvantage of wear-leveling due to increase of the number of writes. I...

NAND flash-based SSDs (Solid State Drive) have advantages of fast input/output performance and low power consumption so that they could be widely used as storages on tablet, desktop PC, smart-phone, and server. But, SSD has the disadvantage of wear-leveling due to increase of the number of writes. In order to improve the lifespan of the SSD, a variety of data deduplication techniques have been introduced. General fixed-size splitting method allocates fixed size of chunk without considering locality of data so that it may execute unnecessary chunking and hash key generation, and variable-size splitting method occurs excessive operation since it compares data byte-by-byte for deduplication. This paper proposes adaptive chunking method based on application locality and file name locality of written data in SSD-based server storage. The proposed method split data into 4KB or 64KB chunks adaptively according to application locality and file name locality of duplicated data so that it can reduce the overhead of chunking and hash key generation and prevent duplicated data writing. The experimental results show that the proposed method can enhance write performance, reduce power consumption and operation time compared to existing variable-size splitting method and fixed size splitting method using 4KB.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문은 중복 데이터의 응용프로그램 기반 지역성과 유사한 이름을 가지는 지역성 특성의 일치 여부 및 유사비율을 고려하여 청크 크기를 적응적으로 할당하는 지역성 기반 청킹 정책을 제안한다. 중복될 확률이 높은 데이터를 유추하여 청크 크기를 크게 할당함에 따라 중복 제거율은 4KB의 고정 크기분할 기법에 비해 3.

제안 방법

본 논문에서는 중복 데이터의 지역성 특성에 기반한 적응형 청킹 정책을 적용함으로써 CPU 과부하를 줄여 저전력 및 SSD의 쓰기 속도를 최대 활용할 수 있다. 또한, 기존의 가변 크기 분할기법과 고정 크기 분할기법은 데이터의 지역성에 상관없이 중복제거가 수행되지만 제안하는 지역성 기반 청킹 정책은 데이터가 서버에 전송되는 도중 1차적으로 메타데이터 비교를 통해 청크 크기를 할당하고 2차적으로 중복제거를 수행하므로 차별성이 있다.
본 연구에서는 중복데이터의 두 가지 특성에 기반해 청크 크기를 적응적으로 할당하기 위해 메타 데이터의 파일 확장자 아스키코드 일치 여부와 파일 이름 아스키코드의 유사비율에 따라 4KB 또는 64KB의 크기로 청킹한다. 쓰기 요청되는 데이터의 지역성 특성을 이용해 파일 확장자와 이름의 일치 여부 및 유사비율을 검사함으로써 중복여부를 유추하고, 적응적으로 청킹함으로써 청킹 오버헤드와 청크에 대한 해시값 생성에 따른 CPU 부하를 효과적으로 줄일 수 있다.
본 논문은 중복 데이터의 응용프로그램 기반 및 유사한 파일 이름을 가지는 지역성의 유사비율에 따라 청크 크기 분할을 달리하는 지역성 기반 청킹 정책을 제안한다. 이 기법은 서버로 전송되는 데이터의 메타데이터를 이용하여 지역성 특성의 일치 여부 및 유사비율을 검사하고, 유사비율에 따라 데이터 중복제거 알고리즘 수행 전에 청크 크기를 적응적으로 할당함으로써 시스템의 성능 향상 및 전력 소모 감소 효과를 기대할 수 있다.

대상 데이터

본 연구에서 제안하는 방법의 성능평가를 위해 연구 실내의 10여명이 공용으로 사용하는 데이터 백업 서버의 저장장치에 저장된 영상 데이터, 문서 데이터 및 각종 프로그램 데이터들을 무작위로 일별로 추출하여 벤치마크 워크로드를 구성하였다.
10GHz의 CPU와 4GB RAM을 사용하였다. 운영체제로는 Linux 2.6.17 환경에서 오픈 소스인 OpenDedup을 사용하고 I/O METER로 벤치마크하여 지역성 기반 청킹정책을 이용한 SSD의 쓰기 속도 및 중복율을 측정하였다. 실험에 사용되는 서버급 저장장치는 리눅스 환경에서 SSD의 특성을 가지는 64GB의 디스크 4개를 설정하여 RAID5로 묶어 가상화 서버 스토리지 환경을 구축했다.

데이터처리

위의 표3의 값의 통계적 의미를 조사하기 위하여 10회의 데이터 전송에 대한 분산분석으로 검증하였으며, (F(5,28) = 44.6, p<0.01)의 결과로 의미있는 중복 제거율 성능을 보인다.

이론/모형

먼저 데이터 쓰기 요청이 들어오면 전송되는 메타 데이터를 후킹하여 메타테이블 영역에 저장된 파일 확장자들의 아스키코드 값의 일치여부를 비교한다. 만약 파일 확장자의 아스키코드 값이 불일치할 경우 4KB의 고정 크기 분할 기법을 적용한다.

성능/효과

5%, 48%를 향상시켰다. 연산 시간 성능 또한 4KB의 고정 크기 분할기법 및 가변 크기 분할기법과 비교하여 각각 26%와 41%의 성능향상을 보였다. 전력 소모율도 4KB의 고정 크기분할 기법과 가변 크기분할 기법에 비해 각각 17%, 34%를 감소시키는 성능을 확인할 수 있었다.
연산 시간 성능 또한 4KB의 고정 크기 분할기법 및 가변 크기 분할기법과 비교하여 각각 26%와 41%의 성능향상을 보였다. 전력 소모율도 4KB의 고정 크기분할 기법과 가변 크기분할 기법에 비해 각각 17%, 34%를 감소시키는 성능을 확인할 수 있었다.
본 논문은 중복 데이터의 응용프로그램 기반 지역성과 유사한 이름을 가지는 지역성 특성의 일치 여부 및 유사비율을 고려하여 청크 크기를 적응적으로 할당하는 지역성 기반 청킹 정책을 제안한다. 중복될 확률이 높은 데이터를 유추하여 청크 크기를 크게 할당함에 따라 중복 제거율은 4KB의 고정 크기분할 기법에 비해 3.2%, 가변 크기분할 기법에 비해 5.9% 감소하였지만, 청킹 및 해시값 생성에 따른 CPU 오버헤드를 줄여 SSD의 쓰기 속도 성능을 4KB의 고정 크기 분할기법과 가변 크기 분할기법에 비해 각각 23.5%, 48%를 향상시켰다. 연산 시간 성능 또한 4KB의 고정 크기 분할기법 및 가변 크기 분할기법과 비교하여 각각 26%와 41%의 성능향상을 보였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	NAND 플래시메모리 기반의 SSD의 마모도 특성을 보완하기 위해 어떤 기술이 제안되고 있는가?	하지만 NAND 플래시메모리 기반의 SSD는 마모도 특성을 가지고 있어, 대용량 데이터를 처리하는 서버급 저장장치에서 효율적인 데이터 처리 및 공간 확보가 중요하다. 이를 보완하기 위해 다양한 데이터 중복제거 기술이 제안되고 있으며[3], 이 기술은 일반적으로 해시 함수를 이용하여 파일의 지문(Finger Print)을 생성하고 생성된 지문들을 비교하여 중복 유무를 판단함으로써 지문이 동일한 데이터는 제거하고 고유한 내용만을 저장함으로써 쓰기 횟수 및 전력소모를 감소시킬 수 있다.
	낸드 플래시 기반 SSD의 장점은 무엇인가?	낸드 플래시 기반 SSD(Solid State Drive)는 빠른 입출력 성능, 저전력 등의 장점을 가지고 있어, 타블릿, 데스크탑 PC, 스마트폰, 서버 등의 저장장치로 널리 사용되고 있다. 하지만 SSD는 쓰기 횟수에 따라서 마모도가 증가하는 단점이 있다.
	고정 크기 분할 기법의 한계는 무엇인가?	데이터 중복제거 기술은 전송하고자 하는 데이터를 고정 크기 분할기법(FSC:Fixed Size Chunking)과 가변 크기 분할기법(VSC: Variable Size Chunking)을 적용하여 데이터 중복제거 알고리즘을 수행하는 2가지로 분류할 수 있다. 이 기법들 중 고정 크기 분할 기법은 청크 사이즈를 너무 작게 설정하여 데이터 중복제거 알고리즘을 적용했을 경우 각 청크들의 해시값 계산에 따른 CPU 및 물리적 자원들을 많이 소모하여 시스템의 오버 헤드를 증가시켜 입출력 성능이 우수한 SSD의 장점을 최대한 활용할 수 없다. 반면에 청크 사이즈를 너무 크게 설정하여 데이터 중복제거 알고리즘을 적용했을 경우 해시 값 계산양은 줄일 수 있으나, 중복 제거율은 낮아지는 문제점이 있다.

참고문헌 (15)

J. F. Gantz, C. Chute, A. Manfrediz, S. Minton, D. Reinsel, W. Schlichting, and A. Toncheva, "The diverse and exploding digital universe: An updated forecast of worldwide information growth through 2011," IDC, An IDC White Paper- sponsored by EMC, March 2008.
D.G. Andersen and S.Swanson, "Rethinking flash in the data center", IEEE Micro, vol. 30, no. 4, pp.52-54, Jul. 2010.

상세보기
J. Min et al, "Efficient Deduplication Techiques for Modern Backup Operation," IEEE TRANSACTIONS ON COMPUTERS, VOL. 60, NO. 6, June, 2011.
Chin-Hsien Wu, Hau-Shan Wu, "A data de-duplication access framework for solid state drives", SAC'11, Proceedings of the 2011 ACM Symposium on Applied Computing, pp.600-604, Mar, 2011.
Seung-Kyu Lee, Yu-Seok Yang, Deok-Hwan Kim, "Hybrid Data Deduplication Method for Reducing Wear-Level of SSD-based Server Storage", Journal of KIISE : Computer Systems and Theory, Vol 38, No 6, pp.292-297, Dec, 2011.
Lawrence You and Christos Karamanolis, "Evaluation of efficient archival storage techniques", Proceedings of the 21st IEEE / 12th NASA Goddard Conference on Mass Storage Systems and Technologies, pp.1-6, Apr, 2004.
Ahmed El-Shimi, Ran Kalach, Ankit Kumar, Adi Oltean, Jin Li, and Sudipta Sengupta, "Primary Data Deduplication-Large Scale Study and System Design", Usenix ATC'12, June, 2012.
S. Quinlan and S. Dorward, "Venti: a new approach to archival storage," in Proceedings of the 1st USENIX conference on File and storage technologies, pp.89-101, 2002.
Athicha Muthitacharoen, Benjie Chen, David Maz Ieres "A low-bandwidth network file system" , in proceeding SOSP '01 Proceedings of the eighteenth ACM symposium on Operating systems principles. pp.174-187, 2001.
M. O. Rabin, "Fingerprinting by random polynomials", Center for Research in Computing Technology, Tech. Rep.TR-15-81, 1981.
Yu-Seok Yang, Seung-Kyu Lee, Deok-Hwan Kim, "De-duplication of Parity Disk in SSD-Based RAID System", Journal of IEEK : CI, acceptance publication, Dec, 2012.
Laura DuBois, Robert Amatruda, "Using Deduplication efficiency & IT cost reduction" IDC analyze the Future. September 2010.
B. Debnath, S. Sengupta, J. Li, "ChunkStash:S peeding up Inline Storage Deduplication using Flash Memory", USENIX ATC'10, 2010.
A. Gupta, R. Pisolka, B. Urgaonkar, and ASivasubramaniam, "Leveraging value locality in optimizing nand flash-based ssds", in Proceedings of the 9th USENIX conference on File and storage technologies, 2011.
F. Chen, T. Luo, and X. Zhang, "Caftl: a cont ent-aware flash translation layer enhancing the lifespan of flash memory based solid state drives" in Proceedings of the 9th USENIX conference on File and stroage technologies, 2011.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

SSD 기반 서버급 스토리지를 위한 지역성 기반 청킹 정책을 이용한 데이터 중복 제거 기법
Data Deduplication Method using Locality-based Chunking policy for SSD-based Server Storages 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

SSD 기반 서버급 스토리지를 위한 지역성 기반 청킹 정책을 이용한 데이터 중복 제거 기법 Data Deduplication Method using Locality-based Chunking policy for SSD-based Server Storages 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

이승규 (4) 김주경 (5) 김덕환 (50)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

SSD 기반 서버급 스토리지를 위한 지역성 기반 청킹 정책을 이용한 데이터 중복 제거 기법
Data Deduplication Method using Locality-based Chunking policy for SSD-based Server Storages 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper