최근 많은 기관들로부터 클라우드 서비스, 빅 데이터가 향후 대세적인 IT 트렌드 및 확고한 기술로서 예견되고 있다. 또한 현재 IT를 선도하는 많은 벤더를 중심으로 클라우드, 빅데이터에 대한 실질적인 솔루션과 서비스를 제공하고 있다. 이러한 기술들은 기업의 비용절감 측면에서, 클라우드는 인터넷 기반의 다양한 기술들을 기반으로 비즈니스 모델에 대한 자원의 사용을 자유스럽게 선택할 수 있는 장점을 가지고 있어 능동적인 자원 확장을 위한 프로비져닝 기술과 가상화 기술들이 주요한 기술로 주목 받고 있다. 또한 빅데이터는 그동안 분석하지 못했던 새로운 비정형 데이터들에 대한 분석 환경을 제공함으로서 데이터 예측모델의 차원을 한층 높이고 있다. 하지만 클라우드 서비스, 빅데이터의 공통점은 대용량 데이터를 기반으로 서비스 또는 분석을 요하고 있어, 초기 발전 모델부터 대용량 데이터의 효율적인 운영 및 설계가 중요하게 대두 되고 있다. 따라서 본 논문에 클라우드, 빅데이터 서비스를 위한 대용량 데이터 기술 요건들을 토대로 데이터 처리아키텍처를 정립하고자 한다. 특히, 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술요건을 소개하고, 빅데이터, 클라우드의 대용량 데이터를 비용절감 측면에서 효율적인 압축기술 요건들을 제시한다.
최근 많은 기관들로부터 클라우드 서비스, 빅 데이터가 향후 대세적인 IT 트렌드 및 확고한 기술로서 예견되고 있다. 또한 현재 IT를 선도하는 많은 벤더를 중심으로 클라우드, 빅데이터에 대한 실질적인 솔루션과 서비스를 제공하고 있다. 이러한 기술들은 기업의 비용절감 측면에서, 클라우드는 인터넷 기반의 다양한 기술들을 기반으로 비즈니스 모델에 대한 자원의 사용을 자유스럽게 선택할 수 있는 장점을 가지고 있어 능동적인 자원 확장을 위한 프로비져닝 기술과 가상화 기술들이 주요한 기술로 주목 받고 있다. 또한 빅데이터는 그동안 분석하지 못했던 새로운 비정형 데이터들에 대한 분석 환경을 제공함으로서 데이터 예측모델의 차원을 한층 높이고 있다. 하지만 클라우드 서비스, 빅데이터의 공통점은 대용량 데이터를 기반으로 서비스 또는 분석을 요하고 있어, 초기 발전 모델부터 대용량 데이터의 효율적인 운영 및 설계가 중요하게 대두 되고 있다. 따라서 본 논문에 클라우드, 빅데이터 서비스를 위한 대용량 데이터 기술 요건들을 토대로 데이터 처리 아키텍처를 정립하고자 한다. 특히, 클라우드 컴퓨팅을 위해 분산 파일 시스템이 갖추어야 할 사항들과 클라우드 컴퓨팅에서 활용 가능한 오픈소스 기반의 하둡 분산 파일 시스템, 메모리 데이터베이스 기술요건을 소개하고, 빅데이터, 클라우드의 대용량 데이터를 비용절감 측면에서 효율적인 압축기술 요건들을 제시한다.
In recent years, many institutions predict that cloud services and big data will be popular IT trends in the near future. A number of leading IT vendors are focusing on practical solutions and services for cloud and big data. In addition, cloud has the advantage of unrestricted in selecting resource...
In recent years, many institutions predict that cloud services and big data will be popular IT trends in the near future. A number of leading IT vendors are focusing on practical solutions and services for cloud and big data. In addition, cloud has the advantage of unrestricted in selecting resources for business model based on a variety of internet-based technologies which is the reason that provisioning and virtualization technologies for active resource expansion has been attracting attention as a leading technology above all the other technologies. Big data took data prediction model to another level by providing the base for the analysis of unstructured data that could not have been analyzed in the past. Since what cloud services and big data have in common is the services and analysis based on mass amount of data, efficient operation and designing of mass data has become a critical issue from the early stage of development. Thus, in this paper, I would like to establish data processing architecture based on technological requirements of mass data for cloud and big data services. Particularly, I would like to introduce requirements that must be met in order for distributed file system to engage in cloud computing, and efficient compression technology requirements of mass data for big data and cloud computing in terms of cost-saving, as well as technological requirements of open-source-based system such as Hadoop eco system distributed file system and memory database that are available in cloud computing.
In recent years, many institutions predict that cloud services and big data will be popular IT trends in the near future. A number of leading IT vendors are focusing on practical solutions and services for cloud and big data. In addition, cloud has the advantage of unrestricted in selecting resources for business model based on a variety of internet-based technologies which is the reason that provisioning and virtualization technologies for active resource expansion has been attracting attention as a leading technology above all the other technologies. Big data took data prediction model to another level by providing the base for the analysis of unstructured data that could not have been analyzed in the past. Since what cloud services and big data have in common is the services and analysis based on mass amount of data, efficient operation and designing of mass data has become a critical issue from the early stage of development. Thus, in this paper, I would like to establish data processing architecture based on technological requirements of mass data for cloud and big data services. Particularly, I would like to introduce requirements that must be met in order for distributed file system to engage in cloud computing, and efficient compression technology requirements of mass data for big data and cloud computing in terms of cost-saving, as well as technological requirements of open-source-based system such as Hadoop eco system distributed file system and memory database that are available in cloud computing.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그래서 기업들은 비용을 절감하고 합리적이고 효율적인 방안을 찾고 있다. 따라서 본 논문에서는 점진적인 클라우드의 모델을 제시하고, 더불어 비용 절감의 측면에서 대용량의 데이터 클라우드 서비스를 위한 데이터 압축 방안들에 대한 제시를 하고자 한다.
본 논문의 목적은 최근 IT 메가트렌드로 이슈화가 되고 있는 클라우드 서비스와 빅데이터 구축을 위한 기술적인 측면에서의 대용량 데이터의 비용절감과 서비스성능의 극대화를 위한 파일시스템 및 효율적인 데이터의 운용 및 관리를 위한 기술요건들을 정리하여 제언하였다.
또한 데이터의 양이 증가하더라도 애플리케이션의 확장성 및 성능은 지속적으로 비즈니스 요구 사항을 충족시켜야 한다. 따라서 본 논문에서는 클라우드와 빅데이터의 대용량 데이터를 기술적인 관점에서 어떠한 압축 기술 요건들을 통해 효율적으로 데이터를 관리하고, 비용 절감의 효과를 기대 할 수 있는지에 대해 정리 하고자 한다.
데이터의 트랜잭션의 성능을 높이기 위해 고려가 되고 있는 최근의 동향으로, 데이터베이스 서버를 미들티어, 즉 메모리상에 올려놓고 트랜잭션을 처리함으로 Disk I/O에 대한 비용을 줄이고 메모리 I/O를 통해 처리토록 하는 방안으로 고려가 되고 있는 영역이 메모리 DBMS이다. 메모리 데이터베이스는 Disk 기반으로 트랜잭션을 처리할 때 발생되는 Disk I/O 부분을 메모리상에 데이터베이스를 둠으로 해서 I/O극대화로 성능 문제를 해결하고자 하는 것이다. 주로 Scale-up을 위해 고려되는 솔루션이며, Disk기반의 DBMS와 비교를 해 볼 때 나름대로의 장단점이 있다고 볼 수 있다.
주로 Scale-up을 위해 고려되는 솔루션이며, Disk기반의 DBMS와 비교를 해 볼 때 나름대로의 장단점이 있다고 볼 수 있다. 따라서 클라우드 컴퓨팅 분산 파일시스템의 극대화를 위해 메모리 데이터베이스의 활용에 대한 기술을 구성하고자 한다.
또한 시스템, 스토리지, 어플리케이션, 데이터베이스의 수직적, 수평적 노드의 확장에 있어서 가장 유연한 기술 구조가 그리드 기술 이다. 따라서 본 논문에서는 그리드 기술구조를 기반으로 한 고가용성 아키텍처를 최상의 클라우드 서비스를 위한 소프트웨어 기술요건으로 제시하고자 한다. 데이터 소스로부터 읽혀온 데이터를 여러 미들티어 서버의 메모리상에 캐시 형태로 상주 시키면서, 어떤 노드를 통해 데이터를 요구하더라고 그리드로 연결된 노드상의 메모리에서 데이터를 찾아 빠르게 서비스하는 구조로 제언 될 수 있다.
예를 들면 시큐어 플랫폼 기술, 고가용성 인프라 기술, 네트워크 및 스토리지 가상화 기술, 모바일 클라우드 분야에서는 아직도 가능한 여러 가지 클라우드 서비스 분야들이 존재하고 있다. 본 논문에서는 클라우드컴퓨팅과 빅데이터의 효율적인 데이터 관리를 위한 다양한 각도에서 기술적인 제안을 하였고, 클라우드, 빅데이터와 관련된 파일시스템들의 동향을 통해 최근 급격하게 성장하고 있는 대용량 데이터의 관리 기술 및 저장의 메커니즘을 이해하고 불특정 다수의 클라우드 서비스의 모델에 따른 데이터의 성능과 안정성을 보장해주기 위한 분산파일 시스템이 갖추어야 할 사항들을 살펴보았다. 또한 특징적으로 비정형 데이터의 처리를 위한 하둡 분산파일 시스템과, 메모리 데이터를 통한 시스템 퍼포먼스 향상 등을 조합한 새로운 데이터 아키텍처를 제시 하였다.
최근 다양한 해외 벤더들은 이러한 클라우드 서비스의 안정적인 서비스 및 대용량의 데이터들을 처리 할 수 있는 오픈소스 기반의 데이터 분산처리 기술들을 선택하여 메모리데이터베이스 기반의 어플라이언스 제품들을 출시하기 시작 하였다. 본 논문은 클라우드, 빅데이터를 도입하는 또는 준비 중인 기업들이 기본적으로 갖추어야 하는 대용량 데이터의 관리 방안들, 파일시스템, 빅데이터의 기술요건, 클라우드의 기술요건, 대용량 데이터의 압축 기술요건들에 대해 세부적으로 제시를 하였다. 국내외의 안정적인 클라우드, 빅데이터 서비스를 준비하는 많은 기업들이 갖추어야 할 주요 대용량 파일시스템의 메커니즘을 이해하고 향후 빅데이터, 클라우드 컴퓨팅을 위한 효율적인 대용량 데이터 관리 및 활용 방안으로 활용하기를 기대한다.
제안 방법
HDFS와 Hbase는 각각 구글의 파일 시스템인 GFS(Google File System)와 빅 테이블(Big Table)의 영향을 받았다[5]. 기본적으로 비용효율적인 x86 서버로 가상화된 대형 스토리지(HDFS)를 구성하고, HDFS에 저장된 거대한 데이터 셋을 간편하게 분산처리 할 수 있는 Java 기반의 MapReduce 프레임워크를 제공한다. 이외의 Hadoop을 기반으로 한 다양한 오픈소스 분산처리 프로젝트가 존재한다[13].
데이터노드는 디렉터리 당 최적의 파일수를 고려하여 서브디렉토리들을 구성하고 블록에 해당되는 파일들을 적절한 위치에 저장한다[13]. 또한 데이터의 무결성을 보장하기 위해 블록에 해당되는 파일을 저장할 때 그 파일에 대한 체크섬(checksum)을 별도의 숨겨진 파일로 저장한다. 클라이언트가 어떤 블록에 대한 읽기를 요청하면 데이터노드는 블록에 해당되는 파일과 숨겨진 체크섬 파일을 함께 전달한다.
본 논문에서는 클라우드컴퓨팅과 빅데이터의 효율적인 데이터 관리를 위한 다양한 각도에서 기술적인 제안을 하였고, 클라우드, 빅데이터와 관련된 파일시스템들의 동향을 통해 최근 급격하게 성장하고 있는 대용량 데이터의 관리 기술 및 저장의 메커니즘을 이해하고 불특정 다수의 클라우드 서비스의 모델에 따른 데이터의 성능과 안정성을 보장해주기 위한 분산파일 시스템이 갖추어야 할 사항들을 살펴보았다. 또한 특징적으로 비정형 데이터의 처리를 위한 하둡 분산파일 시스템과, 메모리 데이터를 통한 시스템 퍼포먼스 향상 등을 조합한 새로운 데이터 아키텍처를 제시 하였다. 본 논문에서 조사된 해외 클라우드 서비스의 선두 주자인 구굴과, 아마존 역시 클라우드 서비스의 활용되고 있는 분산 파일 시스템들은 거의 유사한 구조와 비슷한 기능들을 갖추고 있는 것을 알 수 있고, 이는 클라우드 컴퓨팅, 빅데이터 에서 분산 파일 시스템은 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터의 안정적인 처리, 가용성에 대한 대처, 관리의 용이성, 데이터의 최적 배치 및 효과적인 캐시의 사용, 부하 집중에 대한 로드 밸랜싱, 데이터 보안등과 같이 상호 보완 되어야 할 사항들이 무수히 많다.
성능/효과
첫째, 클라우드 컴퓨팅을 위한 분산 파일 시스템들이다루는 데이터와 서버의 규모는 기존의 분산 파일 시스템들과는 비교가 되지 않을 정도로 거대하다는 점이다. 대부분의 핵심적인 상황들은 여기에서 발생하며 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터의 수용, 빈번하게 발생하는 고장에 대한 대처, 관리의 편리성과 같은 사항들이 해당된다[2].
셋째, 클라우드 컴퓨팅을 활용하고자 하는 기업들뿐만 아니라 일반 사용자들은 데이터에 대한 보안문제를 가장 불안해하고 있으며, 확실하고 안전한 보안 체계를 요구한다는 점이다. 여기에는 데이터에 대한 암호화, 데이터 영역에 대한 사용자간 엄격한 접근 제어, 사용자데이터에 대한 관리자의 접근 제한 같은 사항들이 해당된다.
넷째, 사용자가 저장한 데이터에 오류가 발생하지 않도록 방지하고, 저장 공간을 최적으로 사용하기 위한 방법들을 요구한다는 점이다. 여기에는 데이터 오류 감지 및 복구, 데이터 중복 제거와 같은 사항들이 해당된다[2][3].
기존 금융, 통신 사업을 비롯해 의료, 농업, 국방, 교통정보 등 전 세계 다양한 분야에서의 무한한 빅데이터 활용 가능성을 접하고 있다[12]. 또한 빅데이터를 이용한 분석과 해석으로 전염병과 자연재해의 이동경로를 파악하는 등 데이터 자원의 무궁무진하게 분석, 예측할 수 있게 되었다. 즉 기존에 다루던 수준을 뛰어 넘는 대규모의 자료를 뜻하는데 이와 같은 빅 데이터의 분석을 위한 IT의 발전은 최근 들어 그 속도를 더하고 있어 빅 데이터의 분석이 현실화되어 가는 과정에 있다.
특히 이 단계의 기업들은 예측 분석을 수행할 수 있다. 기존 데이터를 분석해 소비자의 행동, 시장수요, 내부의 리스크와 잠재적인 문제를 예측할 수 있다.
클라우드 서비스의 구축하기 위해서는 다양한 기술요건들이 필요하다. 본 논문의 본론을 통해 설명된 클라우드 기술 중 무중단 클라우드 서비스의 측면에서 가장 기본이 되는 기술이 그리드의 기술이다. 또한 시스템, 스토리지, 어플리케이션, 데이터베이스의 수직적, 수평적 노드의 확장에 있어서 가장 유연한 기술 구조가 그리드 기술 이다.
이러한 패턴에 최적화된 분산 파일 시스템은 이러한 패턴에 있어서는 최상의 성능을 나타내겠지만, 저용량의 임의적인 입출력 패턴의 경우에는 현저하게 성능이 저하될 수 도 있다. 결과적으로 분산 파일 시스템이 모든 접근패턴에 최고의 성능을 보장할 수 있으면 좋겠지만 사실상 그것은 상당히 어려우며 분산 파일 시스템 상위에서 접근 패턴 자체를 분산 파일 시스템이 지원하는 최적의 접근 패턴으로 변형하여 최상의 성능을 얻어내거나 적절한 다른 분산 파일 시스템을 활용하는 것이 보다 현실적인 대안이 될 수 있다. 분산 파일시스템은 서버, 스위치, 랙 등의 네트워크 위상 구조를 인식하고 이를 이용하여 최적으로 데이터를 배치함으로써 클라이언트의 요청을 빠르게 처리할 수 있어야 한다.
모든 기업들은 빠르게 증가하는 데이터를 관리하고 IT비용을 감소시키면서 최고 수준의 성능과 가용성을 유지해야 하는 과제를 안고 있다. 본 논문에서 제안한 클라우드, 빅데이터를 도입 및 운영하기 위한 가장 중요한 부분은 대용량의 데이터를 기술 관점에서 비용절감 뿐만 아니라 방대한 양의 데이터를 어떻게 효율적으로 관리 운영 하느냐가 가장 중요한 이슈이다. 이는 방대한 양의 데이터를 가장 효율적인 방법으로 관리 및 운용 될 수 있도록 발전 단계부터 반드시 고려가 되어야 하는 기술 요건 중에 하나이다.
또한 특징적으로 비정형 데이터의 처리를 위한 하둡 분산파일 시스템과, 메모리 데이터를 통한 시스템 퍼포먼스 향상 등을 조합한 새로운 데이터 아키텍처를 제시 하였다. 본 논문에서 조사된 해외 클라우드 서비스의 선두 주자인 구굴과, 아마존 역시 클라우드 서비스의 활용되고 있는 분산 파일 시스템들은 거의 유사한 구조와 비슷한 기능들을 갖추고 있는 것을 알 수 있고, 이는 클라우드 컴퓨팅, 빅데이터 에서 분산 파일 시스템은 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터의 안정적인 처리, 가용성에 대한 대처, 관리의 용이성, 데이터의 최적 배치 및 효과적인 캐시의 사용, 부하 집중에 대한 로드 밸랜싱, 데이터 보안등과 같이 상호 보완 되어야 할 사항들이 무수히 많다. 최근 다양한 해외 벤더들은 이러한 클라우드 서비스의 안정적인 서비스 및 대용량의 데이터들을 처리 할 수 있는 오픈소스 기반의 데이터 분산처리 기술들을 선택하여 메모리데이터베이스 기반의 어플라이언스 제품들을 출시하기 시작 하였다.
후속연구
따라서 본 논문에서는 그리드 기술구조를 기반으로 한 고가용성 아키텍처를 최상의 클라우드 서비스를 위한 소프트웨어 기술요건으로 제시하고자 한다. 데이터 소스로부터 읽혀온 데이터를 여러 미들티어 서버의 메모리상에 캐시 형태로 상주 시키면서, 어떤 노드를 통해 데이터를 요구하더라고 그리드로 연결된 노드상의 메모리에서 데이터를 찾아 빠르게 서비스하는 구조로 제언 될 수 있다. 따라서 메모리 구조의 특징을 살펴보면, 첫째 데이터 분산이 투명하게 처리가 되며, 각 노드의 메모리를 로드 분산을 자동 처리하는 장점이 있다.
본 논문은 클라우드, 빅데이터를 도입하는 또는 준비 중인 기업들이 기본적으로 갖추어야 하는 대용량 데이터의 관리 방안들, 파일시스템, 빅데이터의 기술요건, 클라우드의 기술요건, 대용량 데이터의 압축 기술요건들에 대해 세부적으로 제시를 하였다. 국내외의 안정적인 클라우드, 빅데이터 서비스를 준비하는 많은 기업들이 갖추어야 할 주요 대용량 파일시스템의 메커니즘을 이해하고 향후 빅데이터, 클라우드 컴퓨팅을 위한 효율적인 대용량 데이터 관리 및 활용 방안으로 활용하기를 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
클라우드가 본격적인 비즈니스 모델로서 성장하기 위해서는 엔터프라이즈급 클라우드 서비스의 등장이 필수적이라고 보고 있는 것이 의미하는 것은?
이와 병행하여 이제는 클라우드 서비스가 개인용 서비스, 게임 산업, 테스트 및 개발자용 IaaS 중심의 비즈니스 모델에서 벗어나고자 노력하고 있다는 점을 주목할 필요가 있다. 클라우드 서비스 사업자의 입장에서 클라우드가 본격적인 비즈니스 모델로서 성장하기 위해서는 엔터프라이즈급 클라우드 서비스의 등장이 필수적인 것으로 보고 있으며, 이는 현재 기업에서 운용중인 업무가 클라우드에서도 그대로 운용 될 수 있는 수준의 성능, 안정성, 보안성관련 서비스 수준이 지켜 질 수 있어야 한다는 것과 기존의 업무가 그대로 옮겨갈 수 있는 이식성이 보장되어야 하는 것을 의미한다. 최근 클라우드 컴퓨팅 시장에 진출했거나 진출을 선언한 Google, IBM, Microsoft, Oracle 등과 같은 글로벌 IT 기업들은 그 동안의 하드웨어, 소프트웨어의 기술력을 바탕으로 클라우드 컴퓨팅을 제공하는 데 필요한 IT 인프라 및 소프트웨어의 서비스 형태를 지속적으로 확충해 나가고 있으며 제반 기술들을 개발하고 향상시키기 위해 막대한 개발 투자를 쏟아 붓고 있다[3].
클라우드 아키텍처의 점진적인 변화가 가진 단점은?
먼저 점진적인 변화를 살펴보면, 점진적인 변화를 구현하는 것은 현재 물리적인 데이터센터를 조금씩 가상화로 이전하는 것인데 이는 기존 자원을 효율적으로 사용해 비즈니스 변화에 대한 IT인프라가 좀 더 빠르게 반응 할 수 있도록 하고 종국적으로는 ITaaS로 이전해 가는 방법이다. 기존의 인프라를 활용할 수 있다는 측면에서 비용을 절감할 수 있다고 생각하기 쉽지만, 클라우드로 전환하는 과정에서도 기존 인프라에 대한 비용이 지속적으로 들어간다는 단점이 존재 한다. 반면 혁신적인 변화는 클라우드 기반으로 새로운 인프라를 구축하는 것이다.
클라우드 컴퓨팅이란 무엇인가?
클라우드 컴퓨팅이란 인터넷 기술을 활용하여 ‘가상화된 IT 자원을 서비스’로 제공하는 컴퓨팅으로, 사용자는 IT 자원(소프트웨어, 스토리지, 서버, 네트워크)을필요한 만큼 빌려서 사용하고, 서비스 부하에 따라서 실시간 확장성을 지원받으며, 사용한 만큼 비용을 지불하는 컴퓨팅을 말한다. [표 1]은 여러 기관에서 기술한 클라우드 컴퓨팅 정의이다[2][6-8].
참고문헌 (13)
민옥기, 김학영, 남궁한, 클라우드 컴퓨팅 기술 동향, 전자통신동향 분석, 2009.
이정아, 모바일클라우드 서비스 국내외 정책 추진 현황, KT경제경연 연구소, 2010.
정제호, "클라우드 컴퓨팅의 현재와 미래, 그리고 시장 전략," http://www.software.or.kr, 2008년 10월.
채승병, SERI경영노트, 제167호, 2012(10).
Adrian Johnson, "IDG Summary, Cloud & DataCenter World 2013, pp.1-5.
George Lawton, "Developing Software Online with Platform-as-a-Servic Technology," Computer, Vol.41, 2008(6).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.