[논문]클라우드 데이터 서비스를 위한 대용량 데이터 처리 분산 파일 아키텍처 설계

이병엽; 박준호; 유재수

doi:10.5392/jkca.2012.12.02.030

문제 정의

주로 Scale-up을 위해 고려되는 솔루션이며, Disk기반의 DBMS와 비교를 해 볼 때 나름대로의 장단점이 있다고 볼 수 있다. 따라서 클라우드 컴퓨팅 분산 파일시스템의 극대화를 위해 메모리 데이터베이스의 활용에 대한 기술을 구성하고자 한다.
데이터의 트랜잭션의 성능을 높이기 위해 고려가 되고 있는 최근의 동향으로, 데이터베이스 서버를 미들티어, 즉 메모리상에 올려놓고 트랜잭션을 처리함으로 Disk I/O에 대한 비용을 줄이고 메모리 I/O를 통해 처리토록 하는 방안으로 고려가 되고 있는 영역이 메모리 DBMS이다. 메모리 데이터베이스는 Disk 기반으로 트랜잭션을 처리할 때 발생되는 Disk I/O 부분을 메모리상에 데이터베이스를 둠으로 해서 I/O극대화로 성능 문제를 해결하고자 하는 것이다. 주로 Scale-up을 위해 고려되는 솔루션이며, Disk기반의 DBMS와 비교를 해 볼 때 나름대로의 장단점이 있다고 볼 수 있다.
본 논문에서는 클라우드 컴퓨팅과 관련된 파일시스템들의 동향을 통해 최근 급격하게 성장하고 있는 대용량 데이터의 관리 기술 및 저장의 메커니즘을 이해하고 불특정 다수의 클라우드 서비스의 모델에 따른 데이터의 성능과 안정성을 보장해주기 위한 분산파일 시스템이 갖추어야 할 사항들을 살펴보았다. 클라우드의 가장 중요한 고가용성의 부분들을 고려하여, 데이터베이스의 고가용성 솔루션 및 또한 특징적으로 비정형 데이터의 처리를 위한 하둡 분산파일 시스템과, 메모리 데이터를 통한 시스템 퍼포먼스 향상 등을 조합한 새로운 데이터 아키텍처를 제시 하였다.
여기에는 데이터 오류 감지 및 복구, 데이터 중복 제거와 같은 사항들이 해당된다[14][15]. 본 논문의 목적은 최근 IT 메가트랜드로 이슈화가 되고 있는 클라우드 서비스 구축을 위한 기술적인 측면에서의 서비스 성능의 극대화를 위한 파일시스템들을 제언 하였다. 특징적으로 데이터베이스의 데이터 서비스의 확장 적으로 비정형데이터의 원활한 서비스를 위한 오픈소스 기반의 하둡 시스템과 메모리 데이터베이스를 기반으로 한 새로운 아키텍처를 제시 하였다.

제안 방법

따라서 본 논문의 구성은 다음과 같다. I장 서론에서는 클라우드 기술 발달의 배경을 소개하고, II장 본론 에서는 클라우드 컴퓨팅을 이해하기 위한 일반적인 서비스 내용을 소개와 클라우드 컴퓨팅의 분산데이터 처리 기술 동향을 대표적인 클라우드 서비스 기업들을 분석 기술하였다. 또한 클라우드 컴퓨팅의 핵심 기술로 고가용성 서비스를 가능케 하는 그리드(Grid) 기술 구성들을 소프트웨어 아키텍처 측면에서 제시 하였다.
데이터노드는 디렉터리 당 최적의 파일수를 고려하여 서브디렉토리들을 구성하고 블록에 해당되는 파일들을 적절한 위치에 저장한다. 또한 데이터의 무결성을 보장하기 위해 블록에 해당되는 파일을 저장할 때 그 파일에 대한 체크섬(checksum)을 별도의 숨겨진 파일로 저장한다. 클라이언트가 어떤 블록에 대한 읽기를 요청하면 데이터노드는 블록에 해당되는 파일과 숨겨진 체크섬 파일을 함께 전달한다.
클라우드를 데이터 서비스를 위한 가장 중요한 가용성에 대한 부분의 일정부분의 요구량과 트래픽에 대한 I/O를 적절하게 대응해야 하는 클라우드의 서비스의 특성상 위 아키텍처는 고가용성 서비스를 위한 OLTP 데이터베이스 서비스는 clustering 구조를 통해 데이터베이스 서버간의 상호 로드밸랜싱을 할 수 있는 구조로 설계되었으며, OLTP 및 어플리케이션의 데이터 서비스의 성능 극대화를 위한 메모리 데이터베이스 기술을 활용하였다. 또한 비정형화된, 데이터의 스키마가 필요 없는 대용량의 데이터를 처리하기 위해 오픈소스 기반으로 구굴의 클라우드 서비스에서 대용량 데이터 처리로 검증된 대용량 분산 파일 처리 시스템인 Hadoop파일 시스템을 채택하여 아키텍처를 구현하였다.
I장 서론에서는 클라우드 기술 발달의 배경을 소개하고, II장 본론 에서는 클라우드 컴퓨팅을 이해하기 위한 일반적인 서비스 내용을 소개와 클라우드 컴퓨팅의 분산데이터 처리 기술 동향을 대표적인 클라우드 서비스 기업들을 분석 기술하였다. 또한 클라우드 컴퓨팅의 핵심 기술로 고가용성 서비스를 가능케 하는 그리드(Grid) 기술 구성들을 소프트웨어 아키텍처 측면에서 제시 하였다. 마지막 결론 III장에서는 본 논문을 통해 정리된 고가용성 클라우드 기술을 토대로 결론 및 향후 과제를 제시하는 것으로 결론을 내고자 한다.
앞서 살펴본 메모리데이터베이스의 기술, OLTP의 성능을 극대화 하기위한 클러스터링 기술, 비정형데이터의 RDBMS의 한계를 극복하기 위한 형태로의 수평적 확장성을 가지고 있고, RDBMS와는 다른 파일간의 릴레이션이 없는 Hadoop의 파일 시스템의 구조를 이용하여 [그림 5]와 같은 클라우드 데이터 서비스를 위한 대용량 파일 처리 시스템 아키텍처를 구현하였다. 클라우드를 데이터 서비스를 위한 가장 중요한 가용성에 대한 부분의 일정부분의 요구량과 트래픽에 대한 I/O를 적절하게 대응해야 하는 클라우드의 서비스의 특성상 위 아키텍처는 고가용성 서비스를 위한 OLTP 데이터베이스 서비스는 clustering 구조를 통해 데이터베이스 서버간의 상호 로드밸랜싱을 할 수 있는 구조로 설계되었으며, OLTP 및 어플리케이션의 데이터 서비스의 성능 극대화를 위한 메모리 데이터베이스 기술을 활용하였다.
앞서 살펴본 메모리데이터베이스의 기술, OLTP의 성능을 극대화 하기위한 클러스터링 기술, 비정형데이터의 RDBMS의 한계를 극복하기 위한 형태로의 수평적 확장성을 가지고 있고, RDBMS와는 다른 파일간의 릴레이션이 없는 Hadoop의 파일 시스템의 구조를 이용하여 [그림 5]와 같은 클라우드 데이터 서비스를 위한 대용량 파일 처리 시스템 아키텍처를 구현하였다. 클라우드를 데이터 서비스를 위한 가장 중요한 가용성에 대한 부분의 일정부분의 요구량과 트래픽에 대한 I/O를 적절하게 대응해야 하는 클라우드의 서비스의 특성상 위 아키텍처는 고가용성 서비스를 위한 OLTP 데이터베이스 서비스는 clustering 구조를 통해 데이터베이스 서버간의 상호 로드밸랜싱을 할 수 있는 구조로 설계되었으며, OLTP 및 어플리케이션의 데이터 서비스의 성능 극대화를 위한 메모리 데이터베이스 기술을 활용하였다. 또한 비정형화된, 데이터의 스키마가 필요 없는 대용량의 데이터를 처리하기 위해 오픈소스 기반으로 구굴의 클라우드 서비스에서 대용량 데이터 처리로 검증된 대용량 분산 파일 처리 시스템인 Hadoop파일 시스템을 채택하여 아키텍처를 구현하였다.
본 논문에서는 클라우드 컴퓨팅과 관련된 파일시스템들의 동향을 통해 최근 급격하게 성장하고 있는 대용량 데이터의 관리 기술 및 저장의 메커니즘을 이해하고 불특정 다수의 클라우드 서비스의 모델에 따른 데이터의 성능과 안정성을 보장해주기 위한 분산파일 시스템이 갖추어야 할 사항들을 살펴보았다. 클라우드의 가장 중요한 고가용성의 부분들을 고려하여, 데이터베이스의 고가용성 솔루션 및 또한 특징적으로 비정형 데이터의 처리를 위한 하둡 분산파일 시스템과, 메모리 데이터를 통한 시스템 퍼포먼스 향상 등을 조합한 새로운 데이터 아키텍처를 제시 하였다. 해외 클라우드 서비스의 선두 주자인 구굴과, 아마존 역시 클라우드 서비스의 활용되고 있는 분산 파일 시스템들은 거의 유사한 구조와 비슷한 기능들을 갖추고 있는 것을 알 수 있고, 이는 클라우드 컴퓨팅에서 분산 파일 시스템은 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터의 안정적인 처리, 가용성에 대한 대처, 관리의 용이성, 데이터의 최적 배치 및 효과적인 캐시의 사용, 부하 집중에 대한 로드 밸랜싱, 데이터 보안등과 같이 상호 보완 되어야 할 사항들이 무수히 많다.
본 논문의 목적은 최근 IT 메가트랜드로 이슈화가 되고 있는 클라우드 서비스 구축을 위한 기술적인 측면에서의 서비스 성능의 극대화를 위한 파일시스템들을 제언 하였다. 특징적으로 데이터베이스의 데이터 서비스의 확장 적으로 비정형데이터의 원활한 서비스를 위한 오픈소스 기반의 하둡 시스템과 메모리 데이터베이스를 기반으로 한 새로운 아키텍처를 제시 하였다.
데이터베이스의 그리드 환경의 고 가용성을 구축해야 하는 크리티컬한 비즈니스의 IT환경의 요구에 따라 O사는 과거 OPS(Oracle Parallel Server)를 지원하였으며 현재 버전 에서는 각 노드간 캐시의 일치성을 보장하기 위한 서버간의 통신 방식을 디스크를 이용한 방식에서 초고속 인터커넥트를 이용한 캐시 퓨전(Cache Fusion)으로 변경하면서 고가용성 구현의 완성도를 높였다. 현재 O사의 10g에서부터 그리드 컴퓨팅을 지원하는 더욱 발전된 RAC(real application cluster)구조를 상용화 하였다. O사의 RAC는 다중 노드를 지원하는 공유 디스크 구조를 사용하여 한층 강화된 HA 솔루션을 데이터베이스에 제공 한다.

대상 데이터

현재 O사의 10g에서부터 그리드 컴퓨팅을 지원하는 더욱 발전된 RAC(real application cluster)구조를 상용화 하였다. O사의 RAC는 다중 노드를 지원하는 공유 디스크 구조를 사용하여 한층 강화된 HA 솔루션을 데이터베이스에 제공 한다.

성능/효과

이러한 패턴에 최적화된 분산 파일 시스템은 이러한 패턴에 있어서는 최상의 성능을 나타내겠지만, 저용량의 임의적인 입출력 패턴의 경우에는 현저하게 성능이 저하될 수 도 있다. 결과적으로 분산 파일 시스템이 모든 접근패턴에 최고의 성능을 보장할 수 있으면 좋겠지만 사실상 그것은 상당히 어려우며 분산 파일 시스템 상위에서 접근 패턴 자체를 분산 파일 시스템이 지원하는 최적의 접근 패턴으로 변형하여 최상의 성능을 얻어내거나 적절한 다른 분산 파일 시스템을 활용하는 것이 보다 현실적인 대안이 될 수 있다. 분산 파일 시스템은 서버, 스위치, 랙 등의 네트워크 위상 구조를 인식하고 이를 이용하여 최적으로 데이터를 배치함으로써 클라이언트의 요청을 빠르게 처리할 수 있어야 한다.
넷째, 사용자가 저장한 데이터에 오류가 발생하지 않도록 방지하고, 저장 공간을 최적으로 사용하기 위한 방법들을 요구한다는 점이다. 여기에는 데이터 오류 감지 및 복구, 데이터 중복 제거와 같은 사항들이 해당된다[14][15].
셋째, 클라우드 컴퓨팅을 활용하고자 하는 기업들뿐만 아니라 일반 사용자들은 데이터에 대한 보안문제를 가장 불안해하고 있으며, 확실하고 안전한 보안 체계를 요구한다는 점이다. 여기에는 데이터에 대한 암호화, 데이터 영역에 대한 사용자간 엄격한 접근 제어, 사용자 데이터에 대한 관리자의 접근 제한 같은 사항들이 해당된다.
첫째, 클라우드 컴퓨팅을 위한 분산 파일 시스템들이 다루는 데이터와 서버의 규모는 기존의 분산 파일 시스템들과는 비교가 되지 않을 정도로 거대하다는 점이다. 대부분의 핵심적인 상황들은 여기에서 발생하며 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터의 수용, 빈번하게 발생하는 고장에 대한 대처, 관리의 편리성과 같은 사항들이 해당된다[15].

후속연구

최근 다양한 해외 벤더들은 이러한 클라우드 서비스의 안정적인 서비스 및 대용량의 데이터들을 처리할 수 있는 오픈소스 기반의 데이터 분산처리 기술들을 선택하여 메모리데이터베이스 기반의 어플라이언스 제품들을 출시하기 시작 하였다. 본 논문은 국내외의 안정적인 클라우드 서비스를 준비하는 많은 기업들이 갖추어야 할 주요 파일 시스템의 메커니즘을 이해하고 향후 클라우드 컴퓨팅을 위한 대용량 분산 파일 시스템으로 활용하기를 기대 한다.
따라서 클라우드 컴퓨팅 시장에 뛰어든 기업에게 있어서 이러한 인프라를 구축하고 유지하는 데 드는 비용을 최소화하는 것은 가장 중요한 경쟁력 중의 하나이다. 이를 위해 저렴한 서버들과 네트워크를 활용하여 비용을 대폭적으로 줄이면 서도 비슷한 성능을 낼 수 있는 분산 파일 시스템 기술들을 개발하고 적용해야 한다.
최근에는 안드로이드 폰과 모바일 클라우드 서비스를 앞세워 글로벌 모바일 서비스 시장 공략에 노력하고 있다. 클라우드 컴퓨팅 기술에 기반을 둔 음성 및 위치인식 서비스를 향후 모바일 전략의 핵심으로 삼고 모바일 시장공략을 강화할 예정이다. 이를 위해 구글은 스마트폰이 데이터망에 연결 통로 역할을 할 수 있도록 카메라가 눈의 역할, 마이크가 귀의 역할, 터치센서가 촉각의 역할을 하도록 할 계획이다.
이를 위해 구글은 스마트폰이 데이터망에 연결 통로 역할을 할 수 있도록 카메라가 눈의 역할, 마이크가 귀의 역할, 터치센서가 촉각의 역할을 하도록 할 계획이다. 특히 높은 인식률을 위해 알고리즘을 개발하기보다 클라우드 컴퓨팅망의 방대한 데이터를 수집하고 연결하는데 더 많은 역량을 쏟아 정확한 정보를 찾아낼 수 있도록 할 계획이다.

핵심어	질문	논문에서 추출한 답변
	클라우드 컴퓨팅 서비스는 언제 어떤 기업의 어떤 서비스로 시작하였는가?	클라우드 컴퓨팅 서비스는 2006년 아마존이 컴퓨팅 환경을 서비스로 제공하는 EC2 서비스와 스토리지를 서비스로 제공하는 S3 서비스를 시작하였다. 아마존의 클라우드 서비스는 크게 중소기업, 개발자들을 대상으로 한 스토리지 서비스 S3, 웹호스팅 서비스 ECS, 웹서비스 AWS로 분류된다.
	RAC 구조의 장점은?	RAC는 동일 데이터베이스 또는 스토리지를 여러 인스턴스에서 동시에 엑세스할 수 있는 장점을 가지고 있으며, 시스템 확장 즉 유기적으로 인스턴스 노드의 추가가 가능하기 때문에 탁월한 로드밸런싱 및 향상된 성능을 구현 할 수 있다. 또한 RAC 구조는 모든 노드가 동일한 데이터베이스를 액세스하기 때문에 한 인스턴스에서 장애가 발생해도 데이터베이스에 대한 액세스가 손실되지 않는 장점을 가지고 있다.
	분산 컴퓨팅 플랫폼을 얼마나 잘 구축하고 운영하는가가 클라우드 컴퓨팅 서비스 제공자의 성공을 뒷받침할 가장 큰 능력이라고 할 수 있는 이유는?	이후 구굴의 AppEngine, 마이크로소프트의 Azure등 많은 클라우드 컴퓨팅 서비스가 출시되고 있다. 이러한 클라우드 서비스를 제공하는 환경은 모두 공통적으로 분산 컴퓨팅 플랫폼을 기본 인프라로서 활용하고 있다. 따라서 분산 컴퓨팅 플랫폼을 얼마나 잘 구축하고 운영하는가가 클라우드 컴퓨팅 서비스 제공자의 성공을 뒷받침할 가장 큰 능력이라 할 수 있다[14].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

클라우드 데이터 서비스를 위한 대용량 데이터 처리 분산 파일 아키텍처 설계
Distributed File Systems Architectures of the Large Data for Cloud Data Services 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

클라우드 데이터 서비스를 위한 대용량 데이터 처리 분산 파일 아키텍처 설계 Distributed File Systems Architectures of the Large Data for Cloud Data Services 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

이병엽 (32) 박준호 (46) 유재수 (315)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

클라우드 데이터 서비스를 위한 대용량 데이터 처리 분산 파일 아키텍처 설계
Distributed File Systems Architectures of the Large Data for Cloud Data Services 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper