[논문]다수 클라우드 스토리지로의 데이터 분할 및 부분 중복을 통한 데이터 가용성 향상

박준철

doi:10.7840/kics.2011.36b.12.1498

다수 클라우드 스토리지로의 데이터 분할 및 부분 중복을 통한 데이터 가용성 향상
Improving Data Availability by Data Partitioning and Partial Overlapping on Multiple Cloud Storages 원문보기

한국통신학회논문지. The Journal of Korea Information and Communications Society. 네트워크 및 서비스, v.36 no.12B, 2011년, pp.1498 - 1508

초록
AI-Helper

시스템의 고장, 크래킹, 오작동, 정전 등의 이유로 저장된 고객 데이터의 영구적 유실이나 일정 기간 동안의 접근 불가 상황이 발생할 때, 클라우드 스토리지 서비스 고객은 클라우드 서비스 제공자에 의한 데이터 복원이 가능하기를 기대할 수밖에 없다. 본 논문에서는 이 문제에 대해 클라우드 스토리지 시스템 내에서가 아니라 클라우드 고객의 영역에서 실현할 수 있는 솔루션을 고려한다. 본 논문은 고객이 다수의 클라우드 스토리지 제공자 들을 선택하여, 저장할 데이터 단위를 분할, 암호화 후 부분 중복 저장함으로써 일부 클라우드 스토리지에 접근이 불가능한 상황에서도 데이터 단위를 복원할 수 있는 기법 및 그 적용 구조를 제안한다. 제안 방식은 높은 데이터 가용성 보장과 더불어, 개별 사용자에 투명하게 데이터 암호화 키를 갱신할 수 있으며, 사용자별로 접근했던 데이터 단위의 목록들을 명시할 수 있어 필요 시 데이터 유출의 범위를 명확히 규정할 수 있도록 한다.

Abstract ▼ AI-Helper

A cloud service customer has no other way but to wait for his lost data to be recovered by the cloud service provider when the data was lost or not accessible for a while due to the provider's system failure, cracking attempt, malfunction, or outage. We consider a solution to address this problem that can be implemented in the cloud client's domain, rather than in the cloud service provider's domain. We propose a high level architecture and scheme for successfully retrieving data units even when several cloud storages are not accessible at the same time. The scheme is based on a clever way of partitioning and partial overlapping of data for being stored on multiple cloud storages. In addition to providing a high level of data availability, the scheme makes it possible to re-encrypt data units with new keys in a user transparent way, and can produce the complete log of every user's data units accessed, for assessing data disclosure, if needed.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 높은 수준의 보안성을 요구하는 고객을 위해 데이터 기밀성 및 무결성 보장과 더불어, 클라우드 스토리지를 통해 데이터 가용성을 향상시킬수 있는 방법을 제안한다. 제안 방식은 일부 클라우드 스토리지의 고장이나 오작동 등이 발생하더라도 고객이 저장한 데이터를 복원할 수 있는 기능을 제공하며, 이 과정에서 기존 클라우드 스토리지에 새로운 기능이나 보안 수준 강화 등을 추가로 요구하지 않는다.

가설 설정

새로운 키로 암호화된 데이터가 생길 때마다 이 데이터를 다운로드받을 가능성이 있는 모든 사용자에게 새로운 키 정보를 알리는 것은 매우 비효율적이다. 데이터 단위 4의 q-부분합 力丿*이 기존에는 키 碣如 로 암호화되었으나, 이제 새로운 키 K齢 로 암호화한다고 가정하자. 그러면, 이 q-부분합 까"새 대한 AKce의 요청은 새로운 암호화 이전과 이후로 구분하여 각각 다르게 처리 (다른 戏手成를 제공)된다.
- <m(r—1) <n —1 )이 선택되었다고 가정하자. 미引商, 项 = O, ..., r-l, 으로부터 구할 수 없는 데이터 부분 D; 가 존재함(즉, 어떤 珅响)0도 d:를 포함하지 않음)을 가정하여 모순을 유도하고자 한다. (경우1) z = 0 : 를 포함하지 않아야 하므로 m(O)> 1 이어야 한다.
어떤 회사에서 서로 다른 t(t > 2)개의 클라우드 스토리지를 사용할 수 있다고 가정한다. 데이터 단위 D* 의 분할을 위해 우선 의 크기를 고려한 분할 개수 n(2 M n M t)을 선택하고 D.
이후 Alice 는 인증 서버에게 인증을 받았음을 증명할 수 있는 데이터를 검색 키워드와 함께 DM 서버에 전달한다. 이 과정에서 적절한 방법(인증 서버와 DM 서버 사이의 안전한 통신, 또는 인증 서버에서 발급하는 인증토큰) 을 통해서 DM 서버가 Alice가 인증 서버로부터 인증받았음을 알 수 있다고 가정한다.
" data-before="한다" data-ocr-fix="">한다. 이하, 데이터 단위 q는 신규 작성 또는 수정된 자료로서 회사 TheCorp의 소유물이며, 이 회사 소속의 사용자들은 키워드(또는 고유 ID) Qd_〔를 통해 0에 접근할 수 있다고 가정한다. DM 서버는 Di 및 접근 허용 범위를 가지고 다음과 같이 각 클라우드 스토리지에 분산 저장할 내용을 생성하관련된 비밀 값들을 자체 저장한다

제안 방법

그러면, 이 q-부분합 까"새 대한 AKce의 요청은 새로운 암호화 이전과 이후로 구분하여 각각 다르게 처리 (다른 戏手成를 제공)된다. DM 서버가 硫严@=孩虹(…I竭如』1… ),단殡驛 =7琨島 ®KMice, 로 응답했을 때 Alice는 수신된 g-부분합에 대해 磚쇼즉 /磯0礦讪 ®KAlix = (磚0 ®KAlix) (왜냐하면®KAltce = 礦0)를 이용하여 복호화를 시도한다. 한 点笋*=血 (편 DM 서버로부터… |旧指岡 II …), 단, 丑茅= 7어為的孩血'를 받으면, Alice는 수신된 q-부분합에 대해 丑籍為 ®KAlice, 즉 石貫為 를 이용하여 복호화하려 할 것이다.
데이터 단위 Di 전체를 하나의 클라우드 스토리지에만 저장하는 경우와 비교하여 제안 방식이 어느 정도의 가용성 향상을 가져오는지를 데이터 단위를 복원할 수 있는 확률 계산을 통해 살펴본다. 모든 클라우드는 서로 독립적으로 동작하며, 비교 편의상 각 클라우드 스토리지의 고장 확률은 동일하게 /라고 가정한다 단일 클라우드 스토리지에 전체 4를 저장하는 방식에서 以를 복원(획득)할 수 있는 확률은 1 - f 가된다.
제안 방식은 기관 소속의 사용자들을 또 다른 보안 취약성으로 간주하여, 데이터 단위에.접근할 때 사용자별로 각각 DM 서버에게 받은 고유한 키 값을 사용하도록 함으로써 타 사용자가 요청한 데이터에 대한 접근을 원천적으로 봉쇄하였다 또한, 이런 구분을 통해 DM 서버는 사용자별 접근 데이터 단위 목록 로그를 유지할 수 있어서 필요 시 사용자별로 유출된 데이터 단위들을 파악할 수 있다
있는 방법을 제안한다. 제안 방식은 일부 클라우드 스토리지의 고장이나 오작동 등이 발생하더라도 고객이 저장한 데이터를 복원할 수 있는 기능을 제공하며, 이 과정에서 기존 클라우드 스토리지에 새로운 기능이나 보안 수준 강화 등을 추가로 요구하지 않는다.
제안 방식이 실제 어떤 기관의 시스템에 적용되어 사용될 때, DM 서버는 클라우드 스토리지 들 중 고장이나 오동작으로 데이터 다운로드가 불가능한 스토리지가 발생하는지 스토리지 서비스 회사의 통보 등을 통해 계속 점검한다. 만약 서비스 제공 불능 상태의 스토리지가 통보되면, DM 서버는 사용자의 요구에 의해 데이터요청토큰 모음을 구성할 때 문제가 발생한 스토리지를 제외시킨다.
최근 암호화 기법을 활용하여 클라우드 스토리지의 데이터 기밀성과 무결성을 보장하려는 Cryptographic Cloud Storage 연구 결과风가 발표되었는데, 이 연구에서는 모든 데이터가 클라우드 스토리지의 사용자에 의해 제어되도록 하기 위해 데이터 암호화, 데이터 무결성 검증, 클라우드에 제시할 토큰 생성, 사용자 인증 같은 처리 모듈을 클라우드 클라이언트 쪽에 도입한 구조를 제안하였다. 이 구조에 따르면, 개인 또는 기업 사용자의 별도 서버를 통해 암호화된 데이터만이 클라우드 스토리지에 저장되므로 암호화 키가 보호되는 한 스토리지 내의 데이터는 어느 위치에, 어떻게 저장되더라도 유출에 안전하다.

성능/효과

01), . o.oT-, )로 제안 방식에서 단일 스토리지에 저장하는 방식보다 훨씬 복원 확률이 높아짐을 확인할 수 있다
물론 클라우드 스토리지 제공자들은 자체적으로 여러 데이터 센터에 중복 저장 및 백업 등 다양한 방법으로 고객의 데이터를 보호하려 애쓰고 있으나, 실제 발생한 여러 사례들에서 보듯이 어떤 서비스제공자도 완벽한 고객 데이터 보호 및 가용성 제공을 보장하지는 못한다. 본 논문의 제안 방식은 고객이 다수의 클라우드 스토리지 제공자들을 선택하며, 검색단위인 각 데이터 단위에 대해 분할된 일부분만을 각 스토리지가 저장하도록 제어함으로써, 현 수준의 클라우드 스토리지 서비스를 사용하면서도 데이터 가용성을 크게 향상시킬 수 있다. 즉, 어떤 데이터 단위에 대해 다수0 개 이상)의 클라우드 스토리지에 저장된 해당 데이터 부분합 들이 동시에 모두 접근 불가가 되는 극히 예외적인 경우를 제외중]고는 항상 데이터 단위의 복원이 가능해진다 또한 클라우드 스토리지 제공자 누구도 특정 데이터 단위의 배타적 저장에 따른 지위를 보유하지 못한다.
이 구조에 따르면, 개인 또는 기업 사용자의 별도 서버를 통해 암호화된 데이터만이 클라우드 스토리지에 저장되므로 암호화 키가 보호되는 한 스토리지 내의 데이터는 어느 위치에, 어떻게 저장되더라도 유출에 안전하다. 본 논문의 제안 방식은 클라우드 스토리지 제공자가 데이터를 제어하지 않는다는 측면에서 向와 같은 아이디어를 채택하고 있지만, 암호화된 후 저장되는 데이터에 대해 분할 및 부분 중복을 제안하여 기밀성과 무결성의 보장 이외에 데이터 가용성을 크게 높였다는 특징을 가진다. 사용자(클라이언트) 측에서 데이터 제어를 담당한다는 개념은 사용자가 클라우드에 입력하는 데이터를 난독화(obfuscation)시켜 보냄으로써 사용자의 프라이버시를 보호하는 클라우드 계산 서비스에 관한 연구1이에서도 활용하고 있지만, 이 연구는 스토리지 관련 응용 부분은 다루지 않았다.
사용자가 느끼는 응답 시간에 가장 큰 비중을 차지하는 프로토콜 상의 데이터 수신 시간을 기준으로 볼 때, 제안 방식은 기존 방식에 비해 데이터 단위 당 평균적으로 g . r/n 배 더 많이 걸린다(표 1 참조).
한편, I기은 신뢰 컴퓨팅(Trusted Computing) 기술의 사용을 제안古]는데, 이는 클라우드 서버에 장착한 신뢰 컴퓨팅 모듈을 통해 클라우드 시스템의 모니터 결과를 고객에게 신뢰성 있게 전달하자는 것이다. 이러한 연구 결과들은 클라우드 사용자 측면에서 채택할 수 있는 본 논문의 연구 결과와 함께 서로 병행해서 활용하는 것이 가능하다.
권한을 보장받지 못한다. 이에 비해, 본 논문의 제안 방법은 人용자 주도의 가용성 향상을 도모하기 위해 데이터의 분할, 부분 중복 후 저장에 대한 제어를 전적으로 클라이언트 측에서 담당하면서, 데이터 단위별로 세밀한 가용성 수준의 조절이 가능하다는 특징을 가진다.
제안 방식에서 키 관리가 효율적이고 사용자에 투명한 암호화 키의 변경이 가능함을 보이고, 데이터의 부분적 중복으로 인한 스토리지 저장 데이터양 및 통신 데이터양의 증가 정도를 분석한다.
[따름정리 1]에 의해 (g~l) 값이 동시 고장을 감내할 수 있는 클라우드 스토리지의 개수이기 때문에, 만약 어떤 데이터 단위가 기관의 입장에서 매우 중요하다면 q 값을 크게 잡아(이 경우 전체 데이터의 양은 더 늘어나지만) 더 적은 수의 클라우드 스토리지 들을 통해서도 이 데이터 단위를 복원하도록 조정할 수 있다. 제안 방식에서는 이와 같이 데이터 단위별로 n 및 (g, r) 값을 적절히 선택함으로써 가용성과 저장 데이터 양사 이의 비중을 데이터 단위 수준에서 세부 조절하는 것이 가능하다.
제안 방식은 데이터 기밀성과 무결성의 보장은 물론, 일부 클라우드 스토리지 들의 고장 등의 경우에도 데이터의 가용성을 보장함을 보인다.
한편, 제안 방식을 적용하면 데이터 단위 당 기존방식에 비해 더 많은 r 개의 클라우드 스토리지에 접근하며, 중복으로 인해 프로토콜 상에서 더 많은 양의 데이터를 수신해야 하므로 성능에 영향을 미친다. 사용자가 느끼는 응답 시간에 가장 큰 비중을 차지하는 프로토콜 상의 데이터 수신 시간을 기준으로 볼 때, 제안 방식은 기존 방식에 비해 데이터 단위 당 평균적으로 g .

후속연구

향후 데이터 단위 분할 시 각 클라우드 스토리지의 신뢰성 및 저장 비용을 연계시켜 최적화된 분할을 적용하는 기법을 제안 방식에 추가할 예정이다 그 외, 자주 갱신되는 데이터 단위들을 주로 다룰 때 읽기와 쓰기 트랜잭션 사이에서 데이터 일관성을 유지하는 방식 및 검색 시 여러 검색어의 다양한 조합을 허용하면서 대량 데이터의 효율적 검색을 가능케 하는 기법의 연구가 필요하다.

참고문헌 (17)

D. Terry(Ed), ACM Tech Pack on Cloud Computing, http://techpack.acm.org/cloud/, 2010.
B. Hayes, "Cloud Computing", Communications of the ACM, 51(7), pp. 9-11, July 2008.
M. Creeger(Moderator), "Cloud Computing: An Overview", ACM Queue, 7(5), pp. 1-5, June 2009.
S. Kamara, K. Lauter, "Cryptographic Cloud Storage", in Proc. of the 14th Int'l Conf. on Financial Cryptography and Data Security (FC '10), 2010.
M. Mowbray, S. Pearson, "A Client-Based Privacy Manager for Cloud Computing", in Proc. of the 4th Int'l ICST Conf. on Communication System Software and Middleware(COMSWARE '09), 2009.
J. Bardin et al., "Security Guidance for Critical Areas of Focus in Cloud Computing", Technical Report, Cloud Security Alliance, April 2009.
R. Chow, P. Golle, M. Jakobsson, E. Shi, J. Staddon, R. Masuoka, J. Molina, "Controlling Data in the Cloud: Outsourcing Computation without Outsourcing Control", in Proc. of 2009 ACM Workshop on Cloud Computing Security(CCSW '09), 2009.
C. Cachin, I. Keidar, A. Shraer, "Trusting the Cloud", ACM SIGACT News, 40(2), pp. 81-86, June 2009.

상세보기
D.J. Abadi, "Data Management in the Cloud: Limitations and Opportunities", IEEE DE Bulletin, 32(1), pp. 3-12, 2009.
L.C. Voicu, H. Schuldt, "How Replicated Data Management in the Cloud can benefit from a Data Grid Protocol - The Re:GRIDiT Approach", in Proc. of the 1st Int'l Workshop on Cloud Data Management(CloudDB '09), 2009.
http://blogs.wsj.com/digits/2009/03/08/1214/
http://blogs.sun.com/gbrunett/entry/amazon_s3_ silent_data_corruption
http://blogs.zdnet.com/projectfailures/?p999
http://www.computerworld.com/action/article. do?commandviewArticleBasic&articleId 9130682&sourceNLT_PM
http://www.computerworld.com/action/article.d o?commandviewArticleBasic&articleId9117 322
http://status.aws.amazon.com/s3-20080720.html
http://www.thewhir.com/web-hosting-news/103

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증