[논문]다차원 데이터 분석을 위한 비트맵 인덱스

임윤선; 박영선; 김명

문제 정의

CBM 인덱스의 범위 질의에 대한 효율성을 살펴보기로 한다. CBM 인덱스는 OLAP 연산을 효율적으로 하기 위해 Z 인덱스 순서로 나열한 대로 청크 비트맵 올 구현하므로 범위 질의에 필요한 청크들이 서로 인접해 있게 된다.
MOLAP 큐브가 3[절에서와같이 저장되는 경우에 사용 가능한 인덱스롤 제안하고자 한다. 제안하는 인덱스는 압축률이 높으며, OLAP의 주요 연산인 슬라이스, 다이스 질의 시에 해당 데이터의 인덱스 블록을 산속하게 메모리로 읽어 들일 수 있도록 하기 위해 하나의 인덱스 블록이 가능한 많은 데이터 블록의 정보롤 포함하도록 하였다.
카디널리티가 높은 데이터에도 확장 적용하기 위해 Encoded 비트맵 인덱스[8], 비트맵 조인 인덱스 [9] 등 변형된 비트맵 인덱스 연구가 있다. 본 연구는 이 터 한 비트맵 인덱스의 장점울 다차원 데이터의 인덱싱에 확장 적용하는 방안을 게 안하고자 한다.
큐브는 selectivity를 높이기 위해 각 차원별로 동일한 크기의 청크(chunk)로 나누어 압축한 후에 디스크에 저장하였고[5], 청크들의 순서는 클러스터링 효과롤 높이기 위해 밀집 청크들과 희박 청크들을 구별하여 Z 인덱스 순서로 저장하는 방식이다[4]. 본 연구에서는 이러한 데이터 구조상에서 효율적인 비트맵 인덱스 구조를 설계하였다. OLAP 큐브는 압축되어 저장되기 때문에 각 데이터는 위치 정보를 잃을 수 있으나, 이 위치 정보를 인덱스 차원에서 비트맵을 통해 유지 시키고, 디스크한 블록에 가능한 한 많은 인접 청크에 대한 정보를 둠으로써 OLAP 연산 시에 읽어야 하는 인덱스 블록의 수를 최소화하도록 하였다.
본 연구는 이와 같은 읽기 전용 MOLAP 데이터를 위한 인덱스를 * 본 연구는 한국과학재단 목적기초연구 (R04-2001-000-00191-0) 지원으로 수행되었음. 설계하는 것을 목표로 한다. 인덱스는 갱신을 허용하지 않는 대신, 높은 압축률을 보장하고 OLAP의 주요 연산인 슬라이스, 다이스, 범위 질의 (range query)와 같이 인접한 데이터를 필요로 하는 연산에 효율성이 뛰어나도록 하였다.
실제 데이터에 대한 CBM 인덱스의 압축율을 살펴보자. 그림 1(a)의 경우 1% 데이터 밀도를 갖고 있을 때 최악의 경우 모든 청크에 대해 1% 데이터가 있다고 할 때 실제 데이터 크기는 40M 바이트가 된다.
반면에 OLAP 시스템의 데이터는 분석용 데이터로써 현재 운영 중인 데이터라기보다 과거의 데이터이다. 이 데이터로부터 집계 연산 등을 통해 각 차원별, 차원 계층별 집계 연산 결과를 분석함으로써 데이터를 분석하는 것이다. 따라서 SAP 데이터의 갱신은 발생할 때마다 적용되는 것이 아니라 주기적으로 모아서 갱신되고, 데이터가 변경되면 집계 연산 결과들은 새로 생성되어 저장되는 경우가 많다.
그러나 대부분의 (X>AP 데이터는 회박하여 압축 저장하게 되면서 다차원 인덱스가 필요하다. 이에 본 논문은 읽기 전용인 M(XAP 데이터를 효율적으로 인덱싱하는 CBM 인덱스(청크 비트맵 인덱스, Chimk Bitmap Index)롤 제안하였다. CBM 인덱스는 청크의 위치 정보룰 유지하면서 데이터 밀도에 따른 청크 정보를 비트로 표현하여 인텍스에 저장하였다.

제안 방법

이에 본 논문은 읽기 전용인 M(XAP 데이터를 효율적으로 인덱싱하는 CBM 인덱스(청크 비트맵 인덱스, Chimk Bitmap Index)롤 제안하였다. CBM 인덱스는 청크의 위치 정보룰 유지하면서 데이터 밀도에 따른 청크 정보를 비트로 표현하여 인텍스에 저장하였다. 제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 잘 의(range query)를 포함한 OLAP 주요 연산들 처리에 툑히 효율적임을 분석을 통해 입중하였다.
본 연구에서는 이러한 데이터 구조상에서 효율적인 비트맵 인덱스 구조를 설계하였다. OLAP 큐브는 압축되어 저장되기 때문에 각 데이터는 위치 정보를 잃을 수 있으나, 이 위치 정보를 인덱스 차원에서 비트맵을 통해 유지 시키고, 디스크한 블록에 가능한 한 많은 인접 청크에 대한 정보를 둠으로써 OLAP 연산 시에 읽어야 하는 인덱스 블록의 수를 최소화하도록 하였다. 인덱스의 효율성은 저장공간, 인덱스 조회 시간 등의 파라미터들을 [5] 구조에 사용 가눙한 기존의 인덱스 구조인 UB-트리와 비교하여 분석하였다.
인덱스의 효율성은 인덱스 저장 공간과 검색 시간으로 측정 할 수 있다. UB-트리와 비교하여 한 개의 데이터를 검색하기 위한 디스크 엑세스 시간을 알아보기로 한다. CBM 인덱스는 데 이 터를 검색하기 위해 데이터가 속한 청크 번호를 구하여 청크 번호가 있는 디스크 블록을 한번 접근하여 청크 주소를 구한다.
본 논문에서 제안한 C關 인덱스는 차원과 차원의 애트리 뷰트에 의해 전체 청크 수가 정해지면 인덱스의 크기는 고정된다. 한 청크에 대하여 3비트가 필요하고, 디스크한 블록을 4K 바 이 트로 했을 경우 10K개의 청크 정보률 비트로 표시하고 10K 개 청크에 대하여 밀집 청크 인덱스 엔트리 4바이트와 회박 청 크 인덱스 엔트리 4바이트가 필요하다, 그림 4는 3차원, 5차원에 대하여 UB-tree와 CBM 인덱스의 저장공간을 데이터 밀도를 다양하게 하여 비교한 것이다.
본 논문에서 제안한 인덱스는 다차원 데이터를 효과적으로 인덱싱하고 분석 시스템에 적합한 UB-트리와 비교하여 공간 및 皿AP 연산의 효율성을 분석하였다.
우선 본 연구에서 사용하는 MOLAP 큐브 구조를 살펴보기로 한다. M)LAP 데이터 큐브는 질의 성능을 높이기 위해 그림 1(a) 와 같이 청크라 부旦는 조그마한 배열로 나눠 데이터를 저장한다【5).
말 집 청크이면 비트 그룹 3내 의 첫 为비트 중에서 1로 세팅된 것들을 카운트한다. 이 카운트와 인덱스 엔트리의 밀집 청크 시작 주소를 사용하여 해당 청크의 주소를 계산한다. 희박 청크이면 비트 그룹 C의 첫 冷 비트 중에서 1로 세팅된 것들을 카운트한다.
희박 청크이면 비트 그룹 C의 첫 冷 비트 중에서 1로 세팅된 것들을 카운트한다. 이 카운트와 인덱스 엔트리의 회박 청크 시작 주소를 사용하여 해당 청크의 주소를 계산한다. 이 그룹의 비트 f는 z.
설계하는 것을 목표로 한다. 인덱스는 갱신을 허용하지 않는 대신, 높은 압축률을 보장하고 OLAP의 주요 연산인 슬라이스, 다이스, 범위 질의 (range query)와 같이 인접한 데이터를 필요로 하는 연산에 효율성이 뛰어나도록 하였다.
OLAP 큐브는 압축되어 저장되기 때문에 각 데이터는 위치 정보를 잃을 수 있으나, 이 위치 정보를 인덱스 차원에서 비트맵을 통해 유지 시키고, 디스크한 블록에 가능한 한 많은 인접 청크에 대한 정보를 둠으로써 OLAP 연산 시에 읽어야 하는 인덱스 블록의 수를 최소화하도록 하였다. 인덱스의 효율성은 저장공간, 인덱스 조회 시간 등의 파라미터들을 [5] 구조에 사용 가눙한 기존의 인덱스 구조인 UB-트리와 비교하여 분석하였다.
MOLAP 큐브가 3[절에서와같이 저장되는 경우에 사용 가능한 인덱스롤 제안하고자 한다. 제안하는 인덱스는 압축률이 높으며, OLAP의 주요 연산인 슬라이스, 다이스 질의 시에 해당 데이터의 인덱스 블록을 산속하게 메모리로 읽어 들일 수 있도록 하기 위해 하나의 인덱스 블록이 가능한 많은 데이터 블록의 정보롤 포함하도록 하였다.

성능/효과

그림 4(b)에서 분석한 데이터는 5차원 데 이 터로 각 차원이 128개의 애트리 뷰트를 갖고 전체 청크 수는 33M 개이다. 분석 결과를 살펴보면 CBM 비트맵 인텍스가 데이터 밀도가 1% 이상일 때 인덱스 저장 공간을 효율적으로 사용하고 있음을 알 수 있다. 저장 공간의 비율울 살펴보면 데이터 밀도가 10%인 경우 CBM 인덱스는 UB-트리에 비해 1/8 정도의 저장 공간이 필요하고, 40%인 경우 약 1/34의 저장 공간이 필요하게 된다.
CBM 인덱스는 청크의 위치 정보룰 유지하면서 데이터 밀도에 따른 청크 정보를 비트로 표현하여 인텍스에 저장하였다. 제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 잘 의(range query)를 포함한 OLAP 주요 연산들 처리에 툑히 효율적임을 분석을 통해 입중하였다. 향후에는 각 차원에 계층이 았는 데이터 큐브애서 요약 정보를 만들기 위해 계층 데이터 정보를 효율적으로 가져올 수 있는 인덱스 연구를 진행한다.

후속연구

제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 잘 의(range query)를 포함한 OLAP 주요 연산들 처리에 툑히 효율적임을 분석을 통해 입중하였다. 향후에는 각 차원에 계층이 았는 데이터 큐브애서 요약 정보를 만들기 위해 계층 데이터 정보를 효율적으로 가져올 수 있는 인덱스 연구를 진행한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다차원 데이터 분석을 위한 비트맵 인덱스
A Bitmap Index for Multi-Dimensional Data Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다차원 데이터 분석을 위한 비트맵 인덱스 A Bitmap Index for Multi-Dimensional Data Analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다차원 데이터 분석을 위한 비트맵 인덱스
A Bitmap Index for Multi-Dimensional Data Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper