[논문]공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할

황환규; 김현국

doi:10.3745/kipstd.2004.11d.1.023

문제 정의

공간 데이터를 근사화하기 위해 전체 데이터를 버켓이라 불리는 작은 영역으로 분할하고 각 버켓에 데이터의 개수를 유지하는 히스토그램 방법을 사용한다. 본 논문에서는 다차원 인덱싱에 사용되는 공간 채움 곡선(space filling curve) 중에서 특히 데이터 클러스터링에 우수하다고 보고된[10] 힐버트(Hilbert) 공간 채움 곡선 기법을 사용하여 편재된 공간 데이터를 분할하는 방법을 제 안 하고 기존의 방법과 질의 결과 크기의 추정에 대한 정확성을 비교한다.
본 논문은 공간 데이터가 편재되었을 때 질의 결과를 추정하는 방법을 제시한다. 공간 데이터를 근사화하기 위해 전체 데이터를 버켓이라 불리는 작은 영역으로 분할하고 각 버켓에 데이터의 개수를 유지하는 히스토그램 방법을 사용한다.
본 논문은 기존 방법의 공간 분할로 인해 발생하는 문제점들을 해결하기 위해 힐버트 공간 채움곡선에 개수균등 분할기법을 적용한 새로운 공간 분할 방법을 제안하고 실험을 통해 기존의 방법과 질의 결과 크기 추정의 정확성을 비교하였다. 제안한 방법이 기존 방법보다 질의 크기, 버켓 수, 위치편재도, 데이터 크기 변화에 대하여 우수한 성능을 보였다.
본 실험은 데이터 크기의 변화에 따른 각 공간 분할 방법의 성능을 보여준다. (그림 11)은 Zipf 분포의 임의 데이터를 공간 분할을 통해 요약 데이터로 나타낸 후 상대 오 차율을 구한 결과이다.
본 실험은 위치 편재 도의 변화에 따른 각 공간 분할 방법의 성능을 보여준다. (그림 10)은 Zipf 분포의 임의 데이터를 공간 분할을 통해 요약 데이터로 나타낸 후 상대 오 차율을 구한 결과이다.
본 실험은 질의 크기의 변화에 따른 각 공간 분할 방법의 성능을 보여준다. (그림 8)은 Long Beach 데이터를 400개의 버켓으로 고정시켜 분할한 후 질의 크기 변화에 대한 상대 오차율을 구한 결과이다.
이를 개선하기 위해 2차원 공간을 힐버트 공간 채움(Hilbert space filling curve) 곡선 경로를 통해 진행하며 공간 분할을 수행하는 새로운 공간 분할 기법을 제안한다. 본 장에서 새로운 공간 분할 기법의 배경이 되는 힐버트 공간 채움 곡선과 제안한 공간 분할 기법에 대해 알아본다.

가설 설정

공간 데이터베이스는 다양한 모양, 서로 다른 크기의 데이터, 편재된 데이터로 구성되므로 이들을 고려하여 전체 공간을 분할한 후, 분할된 버켓 내에서 최소 경계 사각형으로 표현된 데이터의 개수를 요약 데이터로 유지하게 된다. 모든 데이터는 분할 영역 내에 균일하게 분포되어 있음을 가정한다.

제안 방법

본 논문은 공간 데이터가 편재되었을 때 질의 결과를 추정하는 방법을 제시한다. 공간 데이터를 근사화하기 위해 전체 데이터를 버켓이라 불리는 작은 영역으로 분할하고 각 버켓에 데이터의 개수를 유지하는 히스토그램 방법을 사용한다. 본 논문에서는 다차원 인덱싱에 사용되는 공간 채움 곡선(space filling curve) 중에서 특히 데이터 클러스터링에 우수하다고 보고된[10] 힐버트(Hilbert) 공간 채움 곡선 기법을 사용하여 편재된 공간 데이터를 분할하는 방법을 제 안 하고 기존의 방법과 질의 결과 크기의 추정에 대한 정확성을 비교한다.
본 논문에서 제안한 방법은 힐버트 공간 채움 곡선 진행과 개수 균등 분할 기법을 혼합한 형태로 힐버트 공간 채움 곡선 경로를 따라 인접한 공간 영역을 빠짐없이 진행하다 데이터 개수가 주어진 값 이상 되면 하나의 버켓을 형성하여 공간을 분할한다. 각 버켓은 대략 같은 데이터 개수를 가지며 버켓은 인접한 데이터의 밀도에 따라 나뉘게 된다.
본 논문에서는 4분 트리를 사용하여 개수 균등 분할을 구 현하였다. (그림 2)(a)는 모든 버켓의 데이터 개수가 가능한 한 같아지도록 편재된 영역을 더 세밀히 분할한 개수 균등 분할 결과이며 (그림 2)(b)는 분할 결과를 바탕으로 생성한 요약 데이터이다.
본 논문의 방법은 R*-트리 인덱스 구조의 특성상 리프 노드가 가리키는 버켓 영역의 중첩이 발생한다. 따라서 편 재가 심한 영역일수록 더 많이 중첩된 버켓을 생성하게 되어 질의 결과 크기 추정 오차를 증가시키는 요인이 된다.
본 장에서는 다양한 공간 분할 기법의 질의 결과 크기 추정 성능을 알아본다. 실험은 주어진 실제 데이터와 인위 데이터를 기준으로 수행하였으며 각각의 공간 분할 방법을 통해 생성된 요약데이터의 정확성을 평가한다. 다양한 공간 분할 방법의 성능을 비교하기 위하여 다음의 상대 오차 율 공식을 사용한다.
앞서 기존의 공간 데이터 분할 방법으로 균등 분할 기법과 공간 인덱스 구조를 공간 분할에 적용한 방법을 살펴보았다. 균등 분할 기법은 전체 공간을 영역 중심으로 분할한 후 분할 영역에 속하는 데이터 개수를 통해 해당 영역을 요약하므로 버켓이 데이터의 분포 특성을 효율적으로 반영하지 못하는 문제점이 있다.
R*-트리 분할 방법에서 버켓의 개수를 조정하는 어려움이 있다. 이 문제는 주어진 버켓 수를 초과하지 않으면서 원하는 버켓 수에 근접하도록 트리의 자식 노드 수를 조정하였다.
지금까지 알아본 바와 같이 기존의 분할 방법은 데이터의 분포 특성을 잘 나타내지 못한다거나 편재된 영역 혹은 편재되지 않은 영역에서의 데이터 요약 값이 왜곡되는 단점을 가지고 있다. 이를 개선하기 위해 2차원 공간을 힐버트 공간 채움(Hilbert space filling curve) 곡선 경로를 통해 진행하며 공간 분할을 수행하는 새로운 공간 분할 기법을 제안한다. 본 장에서 새로운 공간 분할 기법의 배경이 되는 힐버트 공간 채움 곡선과 제안한 공간 분할 기법에 대해 알아본다.
실제 데이터는 일반적으로 공간 데이터베이스 연구에서 많이 사용되는 Long Beach Data[13]를 사용하였다. 인 위 데이터는 데이터의 위치 편재도, 크기, 개수 등을 달리하여 직접 생성하여 실험하였다. 위치의 편재도 는 Zipf 분포[14]를 2차원에 적용하여 나타냈다.

대상 데이터

다양한 공간 분할 기법의 성능 평가를 위해에서 와 같이 설명된 실제 데이터와 인위 데이터 집합을 사용하였다.
다양한 공간 분할 기법의 성능 평가를 위해<표 1>에서 와 같이 설명된 실제 데이터와 인위 데이터 집합을 사용하였다. 실제 데이터는 일반적으로 공간 데이터베이스 연구에서 많이 사용되는 Long Beach Data[13]를 사용하였다. 인 위 데이터는 데이터의 위치 편재도, 크기, 개수 등을 달리하여 직접 생성하여 실험하였다.
실험에 사용된 질의 집합은 무작위로 생성한 100개의 사 각 영역으로 이루어진다. 질의 영역의 위치는 임의로 선택된 공간 데이터의 중점을 기준으로 정해지며 그 크기는 전체 영역 너비와 높이의 1%~25%(전체 공간 면적의 0.

데이터처리

분할은 데이터가 놓여 있는 공간을 분할하기보다는 데이터를 분할하는 것으로 데이터의 밀집에 따라 분할이 세밀하게 이 루어 짐으로 공간상의 데이터 편재를 최소화한다. 제안한 힐버트 곡선을 이용한 공간 분할 알고리즘은 (Algorithm 1)에 기술하였고, 이 알고리즘을 공간 데이터에 적용하여 분할한 결과는 (그림 6)이다.

이론/모형

실험은 주어진 실제 데이터와 인위 데이터를 기준으로 수행하였으며 각각의 공간 분할 방법을 통해 생성된 요약데이터의 정확성을 평가한다. 다양한 공간 분할 방법의 성능을 비교하기 위하여 다음의 상대 오차 율 공식을 사용한다.
실험 결과로 나타난 오차율은 앞서 다루었던 상대 오차율을 의미한다. 또한 실험 결과의 표현을 간략히 하기 위해 면적 균등 분할 기법은 Equi-Area, 개수 균등 분할 기법은 Equi-Count, 인덱스 기반 분할 기 법은 R*-tree로 표현하며 본 논문이 제안한 힐버트 공간 채 움 곡선에 의한 분할 기법은 Hilbert로 각각 표현한다.
인덱스 분할 기법은 공간 인덱스 구조에 의해 생성된 분할을 요약 데이터를 유지하기 위한 공간 분할로 사용하는 방법이다. 본 논문에서는 공간 데이터 인덱스 구조로 가장 효율적이라고 알려진 R*-트리 공간 인덱스 구조를 사용한다[11]. R*-트리는 분할 공간 내에 비어 있는 공간과 분할 영역들 사이의 겹치는 영역을 최소화한다.
최근에 데이터 밀도에 근거하여 공간 분할을 시도한 방법은⑻ 최적의 데이터 분할이 NP-hard 문제가 되어 이를 해결하기 위해서 입력 영역을 수직이나 수평으로 나누는 이진 공간 분할 방법을 사용하였다. 이것도 시간 복잡도가 0(冲5)가 되어 이를 줄이기 위해서 휴리스틱스 기법(greedy 방법)을 사용하여 지역적으로 최적의 분할을 시도하였다.

성능/효과

이는 데이터의 크기가 클수록 버켓에 중복 기록될 가능성이 많기 때문이다. 개수 균등 분할, 면적 균등 분할, R*-트리 분할 방법은 10%에서 25%의 오차율을 보였으나 힐버트 분할 방법은 오차율이 5%에서 10% 사이로 데이터 크기 변화에 크게 영향받지 않고 안정적인 오차율을 보였다.
데이터 크기의 변화에 대해 개수 균등 방법이 가장 큰 성능 변화를 보였다. 개수 균등 방법은 데이터 크기가 커짐에 따라 오차율이 급격히 증가한다.
그러므로 질의 크기가 클수록 질의 영역과 부분적으로 겹치는 버켓 의 수가 감소하기 때문에 오차율 감소를 가져오게 된다. 면적 균등 분할, 개수 균등 분할, R*-트리 분할 방법은 유사한 오차율을 보이고 질의 크기가 5% 이상에서 힐버트 분할 방법이 15%에서 40%의 성능 향상이 되는 것을 볼 수 있다.
위의 모든 실험에서 실제 데이터와 인위 데이터를 사용하여 질의 크기, 버켓수, 위치 편재 도의 변화, 데이터 크기의 변화에 대하여 질의 결과 추정에 대한 정확도를 비교해 본 결과 제안한 방법이 가장 우수한 성능을 보였다.
본 논문은 기존 방법의 공간 분할로 인해 발생하는 문제점들을 해결하기 위해 힐버트 공간 채움곡선에 개수균등 분할기법을 적용한 새로운 공간 분할 방법을 제안하고 실험을 통해 기존의 방법과 질의 결과 크기 추정의 정확성을 비교하였다. 제안한 방법이 기존 방법보다 질의 크기, 버켓 수, 위치편재도, 데이터 크기 변화에 대하여 우수한 성능을 보였다. 제안한 방법이 힐버트 곡선의 진행에 따라 공간영역을 진행하며 데이터를 중심으로 각각의 버켓 영역을 형성해 나가기 때문에 인접한 데이터의 분포특성을 더 잘 표현하는 특징을 보여 기존의 방법에 비해 안정적인 성능과 높은 추정 정확성을 보여주었다.
제안한 방법이 기존 방법보다 질의 크기, 버켓 수, 위치편재도, 데이터 크기 변화에 대하여 우수한 성능을 보였다. 제안한 방법이 힐버트 곡선의 진행에 따라 공간영역을 진행하며 데이터를 중심으로 각각의 버켓 영역을 형성해 나가기 때문에 인접한 데이터의 분포특성을 더 잘 표현하는 특징을 보여 기존의 방법에 비해 안정적인 성능과 높은 추정 정확성을 보여주었다. 향후 논문의 발전 방향으로 공간 데이터의 갱신이 이루어질 때 공간 분할을 전체적으로 수행하는 것은 비용이 많이 소요됨으로 이미 이루어진 분할에 최소한의 영향을 주는 효율적인 분할 방법이 필요하며 이에 대한 연구가 요구된다.
개수 균등 방법과 R*-트리 방법은 유사한 오차율을 보인다. 힐버트 분할 방법 이외는 Z값이 커질수록 (즉 데이터의 위치 편재 도가 심한 경우) 심한 오차율을 보였으나, 힐버트 분할 방법에서는 Z값의 변화에 거의 관계없이 일정한 오차율(5%~10%)을 보였다.

후속연구

제안한 방법이 힐버트 곡선의 진행에 따라 공간영역을 진행하며 데이터를 중심으로 각각의 버켓 영역을 형성해 나가기 때문에 인접한 데이터의 분포특성을 더 잘 표현하는 특징을 보여 기존의 방법에 비해 안정적인 성능과 높은 추정 정확성을 보여주었다. 향후 논문의 발전 방향으로 공간 데이터의 갱신이 이루어질 때 공간 분할을 전체적으로 수행하는 것은 비용이 많이 소요됨으로 이미 이루어진 분할에 최소한의 영향을 주는 효율적인 분할 방법이 필요하며 이에 대한 연구가 요구된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할
Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할 Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

황환규 (8)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할
Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper