공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 데이터 소스의 비중복 추출기법 Non Duplicated Extract Method of Heterogeneous Data Sources for Efficient Spatial Data Load in Spatial Data Warehouse원문보기
공간 데이터웨어하우스는 공간 DBMS 또는 다양한 소스데이터로부터 시간에 따라 추출된 공간데이터를 ETL 과정을 통해 가공된 데이터를 관리하는 시스템이다. 적재 주기 마다 추출된 공간데이터는 비공간 데이터와 달리 같은 주제의 중복된 공간 정보가 유용하지 않으며, 공간 데이터의 특징으로 저장 공간의 낭비가 크다. 또한 이기종간의 시스템에서 소스 데이터를 추출할 경우 서로 다른 공간데이터 타입 및 스키마를 가지고 있어 이를 위한 공간데이터 추출 기법이 요구된다. 기존 기법에서는 기준이 되는 Geocoding DB를 이용하여 추출된 공간데이터에 대한 주소 매칭과정을 수행함으로써, 정형화된 데이터 셋을 적재한다. 하지만 이 기법은 추출 데이터를 매번 Geocoding DB와 비교 연산이 발생하며, 주제별로 공간 데이터를 통합 관리함에 따라 이 기종 공간 DBMS 사이에 중복된 데이터를 고려하지 않는 문제점이 있다. 본 논문에서는 공간 데이터웨어하우스 구축기 내에서 이 기종의 소스 시스템으로부터 추출된 갱신질의 통합을 이용한 효율적 추출 기법을 제안한다. 이는 이 기종의 공간 DBMS로부터 발생한 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등의 업데이트 관련 질의만을 추출하여 공간데이터의 불필요한 추출 연산 비용을 제거한다. 또한 소스 공간 데이터베이스 관리시스템의 업데이트 질의를 이용하여 추출된 공간 데이터를 주제별로 중복 제거 및 통합 한다. 제안 기법은 데이터 중복 저장에 의한 저장 공간의 낭비를 줄이고, 적재시점 별 통합된 데이터를 적재함으로써 빠른 공간데이터 분석을 지원할 수 있다.
공간 데이터웨어하우스는 공간 DBMS 또는 다양한 소스데이터로부터 시간에 따라 추출된 공간데이터를 ETL 과정을 통해 가공된 데이터를 관리하는 시스템이다. 적재 주기 마다 추출된 공간데이터는 비공간 데이터와 달리 같은 주제의 중복된 공간 정보가 유용하지 않으며, 공간 데이터의 특징으로 저장 공간의 낭비가 크다. 또한 이기종간의 시스템에서 소스 데이터를 추출할 경우 서로 다른 공간데이터 타입 및 스키마를 가지고 있어 이를 위한 공간데이터 추출 기법이 요구된다. 기존 기법에서는 기준이 되는 Geocoding DB를 이용하여 추출된 공간데이터에 대한 주소 매칭과정을 수행함으로써, 정형화된 데이터 셋을 적재한다. 하지만 이 기법은 추출 데이터를 매번 Geocoding DB와 비교 연산이 발생하며, 주제별로 공간 데이터를 통합 관리함에 따라 이 기종 공간 DBMS 사이에 중복된 데이터를 고려하지 않는 문제점이 있다. 본 논문에서는 공간 데이터웨어하우스 구축기 내에서 이 기종의 소스 시스템으로부터 추출된 갱신질의 통합을 이용한 효율적 추출 기법을 제안한다. 이는 이 기종의 공간 DBMS로부터 발생한 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등의 업데이트 관련 질의만을 추출하여 공간데이터의 불필요한 추출 연산 비용을 제거한다. 또한 소스 공간 데이터베이스 관리시스템의 업데이트 질의를 이용하여 추출된 공간 데이터를 주제별로 중복 제거 및 통합 한다. 제안 기법은 데이터 중복 저장에 의한 저장 공간의 낭비를 줄이고, 적재시점 별 통합된 데이터를 적재함으로써 빠른 공간데이터 분석을 지원할 수 있다.
Spatial data warehouses are a system managing manufactured data through ETL step with extracted spatial data from spatial DBMS or various data sources. In load period, duplicated spatial data in the same subject are not useful in extracted spatial data dislike aspatial data and waste the storage spa...
Spatial data warehouses are a system managing manufactured data through ETL step with extracted spatial data from spatial DBMS or various data sources. In load period, duplicated spatial data in the same subject are not useful in extracted spatial data dislike aspatial data and waste the storage space by the feature of spatial data. Also, in case of extracting source data on heterogeneous system, as those have different spatial type and schema, the spatial extract method is required for them. Processing a step matching address about extracted spatial data using a standard Geocoding DB, the exiting methods load formal data set. However, the methods cause the comparison operation of extracted data with Geocoding DB, and according to integrate spatial data by subject it has problems which do not consider duplicated data among heterogeneous spatial DBMS. This paper proposes efficient extracting method to integrate update query extracted from heterogeneous source systems in data warehouse constructer. The method eliminates unnecessary extracting operation cost to choose related update queries like insertion or deletion on queries generated from loading to current point. Also, we eliminate and integrate extracted spatial data using update query in source spatial DBMS. The proposed method can reduce wasting storage space caused by duplicate storage and support rapidly analyzing spatial data by loading integrated data per loading point.
Spatial data warehouses are a system managing manufactured data through ETL step with extracted spatial data from spatial DBMS or various data sources. In load period, duplicated spatial data in the same subject are not useful in extracted spatial data dislike aspatial data and waste the storage space by the feature of spatial data. Also, in case of extracting source data on heterogeneous system, as those have different spatial type and schema, the spatial extract method is required for them. Processing a step matching address about extracted spatial data using a standard Geocoding DB, the exiting methods load formal data set. However, the methods cause the comparison operation of extracted data with Geocoding DB, and according to integrate spatial data by subject it has problems which do not consider duplicated data among heterogeneous spatial DBMS. This paper proposes efficient extracting method to integrate update query extracted from heterogeneous source systems in data warehouse constructer. The method eliminates unnecessary extracting operation cost to choose related update queries like insertion or deletion on queries generated from loading to current point. Also, we eliminate and integrate extracted spatial data using update query in source spatial DBMS. The proposed method can reduce wasting storage space caused by duplicate storage and support rapidly analyzing spatial data by loading integrated data per loading point.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 간의 비중복 추출 기법을 제안하였다.
본 논문에서는 공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 간의 비중복 추출 기법을 제안한다. 제안기법은 소스 시스템으로부터 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등 데이터의 갱신이 발생되는 질의만을 추출하여 불필요한 데이터의 추출 연산 비용을 제거한다.
본 장에서는 효율적인 공간데이터 적재를 위한 이기종 시스템간의 추출기법을 제안한다. 이는 소스 공간 DBMS 로부터 업데이트가 발생된 공간데이터만을 추출하고 적재 시점별, 주제별로 통합하는 연산과정을 포함한다.
제안 방법
본 장에서는 기존의 데이터웨어하우스 시스템에서 제시된 이기종 소스의 추출 기법 중 시맨틱 기반의 데이터 추출 기법 및 Geocoding DB를 이용한 추출 기법, ETL 최적화를 통한 추출 기법과 비교한다.
본 장에서는 제안 기법인 비 중복 공간데이터 적재기 법의 저장 공간 비용 및 데이터 적재횟수에 따른 비교와 데이터웨어하우스 시스템에서 가장 빈번하게 사용되는 집계 질의에 따른 응답시간을 제안기법과 기존기법에 대하여 실험을 통해 비교 평가한다.
본 절에서는 이러한 데이터웨어하우스 시스템에서 대표적으로 사용되는 시간의 흐름에 따른 집계 질의에 대해 제안기법과 기존기법과의 질의 응답시간에 대한 성능평가를 수행한다. 제안기법은 시스템 적재 시점마다 소스 시스템으로부터 갱신된 데이터를 추출 및 통합 과정을 수행하여 최종적으로 단 하나의 갱신 데이터 셋만을 시스템 서버에 적재한다.
제안기법에서는 공간 데이터웨어하우스의 저장 비용을 줄이기 위해 소스 시스템으로부터 추출되는 공간데이터를 ODS의 현재 시점에 저장 중인 같은 주제의 공간데이터와 비교연산을 수행하여 변경된 공간 데이터만을 추출한다. 하지만 이러한 비교연산 시 현재 데이터와 과거데이터 사이에 변경이 발생하지 않는다면, 소스 시스템은 갱신정보 추출을 위해 과거에 적재된 과거 데이터와 비교연산을 반복적으로 수행해야 하는 단점이 있다.
제안기법은 공간 데이터웨어하우스를 구축하기 위한 이 기종 소스로부터 공간데이터 추출 시 각 소스 시스템으로부터 발생한 질의 중 데이터 갱신이 발생하는 삽입, 삭제, 업데이트에 대한 질의를 별도로 관리하고 해당 데이 터만을 추출한다. 또한 공간 데이터웨어하우스 시스템에기 적재된 같은 주제의 공간데이터와의 비교를 통해 갱신된 데이터만을 시스템내의 ODS에 유지하며 이러한 시스템 별 갱신된 데이터는 시스템 적재주기에 맞춰 주제별 하나의 업데이트 셋으로 공간 데이터웨어하우스 시스템에 적재된다.
제안기법은 공간데이터 추출과정에서 각 소스 시스템의 Insert, Delete, Update 질의와 같이 공간데이터에 대한 갱신을 발생하는 질의들에 대해 트리거를 이용하여 독립적으로 관리한다. 즉, 소스 시스템으로부터 공간데이터 추출 시 각 소스 시스템 별로 수행된 질의 중 갱신 질의 들을 수집하고, 수집된 질의들을 분석하여 변동된 공간데이터를 추출한다.
본 논문에서는 공간 데이터웨어하우스에서 효율적인 공간 데이터 적재를 위한 이기종 간의 비중복 추출 기법을 제안한다. 제안기법은 소스 시스템으로부터 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등 데이터의 갱신이 발생되는 질의만을 추출하여 불필요한 데이터의 추출 연산 비용을 제거한다. 또한 추출되어 임시 저장된 갱신질의에 대해서도 중복된 질의에 대한 단일질 의로의 통합연산을 수행함으로써 빈번하게 갱신이 일어나는 데이터의 추출비용을 줄인다.
제안기법은 이 기종 소스 시스템으로부터 추출된 공간 데이터와 공간 데이터웨어하우스에 기 적재된 데이터와의 비교연산을 수행함으로써 데이터의 비 중복성을 유지시킨 다. 이 기종 시스템에서의 공간데이터 추출은 주제별 공간 데이터의 속성에 따라 추출 주기가 다르다.
제안기법은 공간데이터 추출과정에서 각 소스 시스템의 Insert, Delete, Update 질의와 같이 공간데이터에 대한 갱신을 발생하는 질의들에 대해 트리거를 이용하여 독립적으로 관리한다. 즉, 소스 시스템으로부터 공간데이터 추출 시 각 소스 시스템 별로 수행된 질의 중 갱신 질의 들을 수집하고, 수집된 질의들을 분석하여 변동된 공간데이터를 추출한다. 이것은 추출 주기마다 모든 소스 시스템의 데이터를 추출하지 않아 시스템 비용을 줄일 수 있는 장점이 있다.
대상 데이터
위 실험을 위한 소스 공간데이터로는 공간데이터 베이스 분야에서 많이 사용되는 TiGER/Line 파일을 사용하였으며, 공간 객체에 대한 적재횟수 및 응답시간을 기존 기법과 비교하였다[20]. 실험에 사용된 소스 공간데이터는 20,000개의 공간 레코드를 가진 20MB 크기의 임의로 생성된 데이터이다.
실험은 Pentium(R)4 3.0GHz의 중앙처리장치, 2GB의주 기억장치, 500GB 보조 기억장치의 IBM PC 호환기종에서 Windows XP Professional 환경에서 진행되었다.
데이터처리
본 실험에 사용된 평가 방법으로는 공간 데이터웨어하우스 시스템으로 공간데이터 적재 시 적재시점 마다 추출된 데이터에 대해 일괄적인 적재방법(DSL: Duplicated Spatial data Loading)과 갱신된 데이터만을 추출하여 통합하는 본 제안기법과의 비교를 수행하였다. 제안되는 기법과 비교되는 DSL 적재방법은 비공간 데이터웨어하우스 시스템에서 수행하는 비공간 데이터에 대한 중복을 제거하지 않고 소스 시스템으로부터 추출한 데이터를 적재하는 방법으로 이것은 기존의 공간 데이터웨어하우스 구축을 위해 데이터 속성별로 공간데이터를 추출하여 레이어 단위 별로 시스템에 적재하는 방법과 동일하다.
위 실험을 위한 소스 공간데이터로는 공간데이터 베이스 분야에서 많이 사용되는 TiGER/Line 파일을 사용하였으며, 공간 객체에 대한 적재횟수 및 응답시간을 기존 기법과 비교하였다[20]. 실험에 사용된 소스 공간데이터는 20,000개의 공간 레코드를 가진 20MB 크기의 임의로 생성된 데이터이다.
제안되는 기법과 비교되는 DSL 적재방법은 비공간 데이터웨어하우스 시스템에서 수행하는 비공간 데이터에 대한 중복을 제거하지 않고 소스 시스템으로부터 추출한 데이터를 적재하는 방법으로 이것은 기존의 공간 데이터웨어하우스 구축을 위해 데이터 속성별로 공간데이터를 추출하여 레이어 단위 별로 시스템에 적재하는 방법과 동일하다. 즉, 제안하는 기법이 설명하는 데이터의 비 중복에 대한 성능평가 비교를 위해 기존의 일괄적인 데이터 적재기법과 비교하였다.
성능/효과
성능평가에서는 제안기법이 기존 제안기법에서 수행하는 주제별 레이어 단위의 적재방법과의 비교를 통해 적재 횟수가 증가할수록 저장 비용에서의 우수성을 보였으며, 사용자의 집계 데이터 검색에 대한 응답시간에 대해서는 약 50%의 성능 향상을 보였다. 그러나 초기 데이터 추출후 적재에 대한 시스템 비용은 각 소스 시스템 별 갱신된 데이터의 통합연산을 수행하기 때문에 기존 적재기법에 비해 다소 낮은 성능을 보였다.
또한 공간 데이터웨어하우스 시스템에기 적재된 같은 주제의 공간데이터와의 비교를 통해 갱신된 데이터만을 시스템내의 ODS에 유지하며 이러한 시스템 별 갱신된 데이터는 시스템 적재주기에 맞춰 주제별 하나의 업데이트 셋으로 공간 데이터웨어하우스 시스템에 적재된다. 제안 기법을 통해 주제별 데이터의 업데이트 셋만을 적재함으로써 기존 시스템이 가지고 있는 중복된 데이터의 저장으로 인한 공간 데이터웨어하우스 시스템 내부의 저장 공간의 비용을 줄일 수 있으며, 특정 시점에 대한 사용자 질의를 지원하기 위한 각 소스 시스템 별 추출된 주제별 데이터의 통합연산을 사전에 수행함으로써 해결하였다.
후속연구
그러나 이러한 데이터 추출에 빈번하게 일어나는 공간데이터의 경우 갱신 질의가 발생할 때마다 동일한 공간데이터 추출에 따른 비용의 증가가 발생하는 단점이 존재한다. 그러므로 추가적으로 ODS에 임시 저장된 소스 시스템 별 갱신 질의에 대해 주제별로 통합된 데이터 추출이 필요하다.[그림 3]은 각 소스 시스템에서 발생된 갱신 질의에 대한질의 통합 과정을 설명한다.
하지만 이러한 비교연산 시 현재 데이터와 과거데이터 사이에 변경이 발생하지 않는다면, 소스 시스템은 갱신정보 추출을 위해 과거에 적재된 과거 데이터와 비교연산을 반복적으로 수행해야 하는 단점이 있다. 따라서 변경된 데이터만을 추출하기 위해서는 공간 데이터웨어하우스에 기적재된 데이터와 현재 시점에 ODS에 추출 및 통합된 공간데이터 사이의 비교연산이 필요하다. 이것은 각 시스템이 얻은 추출시점 별 갱신정보에 대하여 다음 추출시점에도 발생하는 중복된 갱신데이터의 추출을 제거할 수 있다.
제안기법은 소스 시스템으로부터 과거 적재 시점부터 현재까지 발생한 질의 중 삽입이나 삭제 등 데이터의 갱신이 발생되는 질의만을 추출하여 불필요한 데이터의 추출 연산 비용을 제거한다. 또한 추출되어 임시 저장된 갱신질의에 대해서도 중복된 질의에 대한 단일질 의로의 통합연산을 수행함으로써 빈번하게 갱신이 일어나는 데이터의 추출비용을 줄인다. 이러한 갱신질의의 전처리 단계를 통해 추출된 공간데이터는 주제별 중복 제거 과정 및 통합 과정을 수행함으로써 주제별 통합된 하나의 데이터만을 적재하는 과정을 수행하며, 이때 과거 적재시 점에 시스템 서버에 적재된 이력 데이터와의 중복 제거연산을 통해 현시점에 발생된 갱신된 데이터만을 ODS에 적재하게 된다[17].
향후 연구로는 이러한 제안기법에서 수행하는 주제별 통합데이터 적재에 대한 과거 데이터와 소스로부터 추출된 데이터와의 비교연산 비용을 줄이는 기법에 대한 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
시맨틱 기반의 소스 데이터 추출 기법은 이기종 소스 시스템으로 추출된 다른 이름을 가진 데이터의 스키마를 다루기 위해 어떤 단계를 지니나?
이러한 적재 기법 중 유사 시맨틱 기반의 데이터 변환을 통한 적재 기법이 제안되었다[18]. 시맨틱 기반의 소스 데이터 추출 기법은 이기종 소스 시스템으로 추출된 다른 이름을 가진 데이터의 스키마를 다루기 위해 유사 시맨틱을 기반으로 공통의 사전(Dictionary)을 생성하는 어플리 케이션 사전의 생성 단계 및 데이터 소스들에 주석을 달기 위한 데이터 저장소의 주석 생성 단계를 지닌다. 또한, W3C에서 지정한 OWL(Web Ontology Language)를 이용하여 이 기종이기 때문에 가지는 소스 시스템 사이의 스키마의 불일치성 즉, 추출된 소스 데이터들의 의미론적 충돌을 해결하며 이러한 의미론적 충돌 해결을 통해 추출된 데이터가 가지고 있는 이 기종간 정보들의 통합을 수행하게 된다.
Geocoding DB를 통한 공간데이터의 적재방법은 어떤 문제점을 지니고 있나?
첫째, 기준이 되는 Geocoding DB를 이용하는데 있어서 Geocoding DB는 언제나 최신의 데이터를 가지고 있을 것이 요구된다. 즉, 공간데이터웨어하우스의 소스로 사용되는 각 시스템들로부터 얻어온 가장 최근에 업데이트가 발생된 공간데이터를 적재하는 과정에서 만약, 기준이 되는 Geocoding DB가 최신의 공간데이터에 대한 정보가 갱신 전이라면 소스 시스템으로부터 추출된 최신의 업데 이트 데이터는 잘못된 데이터로 인식하여 SDW(Spatial Data Warehouse)시스템 내에 적재되지 않는다.
둘째, Address Matching으로 정형화된 Geometric 좌표값을 얻는 것은 이 기종 시스템으로부터 추출된 주제별 공간데이터에 대하여 하나씩 Geocoding DB와 비교연 산을 수행해야 하므로 자연히 데이터 비교연산 비용증가에 따른 전체 시스템에서의 공간데이터 적재비용이 증가하는 단점이 존재한다. 또한, 같은 주제의 공간 데이터에 대해 과거 적재시점의 공간데이터와 중복 제거를 고려하지 않기 때문에 저장 공간을 낭비한다.
공간 데이터웨어하우스는 무엇인가?
공간 데이터웨어하우스는 공간 DBMS 또는 다양한 소스데이터로부터 시간에 따라 추출된 공간데이터를 ETL 과정을 통해 가공된 데이터를 관리하는 시스템이다. 적재 주기 마다 추출된 공간데이터는 비공간 데이터와 달리 같은 주제의 중복된 공간 정보가 유용하지 않으며, 공간 데이터의 특징으로 저장 공간의 낭비가 크다.
참고문헌 (20)
S. Chaudhuri, U. Dayal, “An Overview of Data
W. H. Inmon, “Building the Data Warehouse,”
E. Sperley, “The EnterpriseData Warehouse:
L. Savary, K. Zeitouni, “Spatial Data Warehouse
ESRI, “Spatial Data Warehousing for Hospital
ESRI, “Spatial Data Warehousing,” An ESRI
Oracle, “Oracle Spatial,” An Oracle White Paper,
전병윤, 이동욱, 유병섭, 배해영, “공간 데이터웨어하우스에서 GML데이터의 효율적인 적재를 위한 데이터 통합기법,” 한국정보처리학회 2006년 춘계학술대회, Vol. 13, No. 1, 2006, pp. 27-30.
유병섭, 김경배, 이순조, 배해영, “공간 데이터 웨어하우스에서 공간 분석을 위한 공간 집계 연산,” 한국공간정보시스템학회 논문지, Vol. 9, No. 3, 2007, pp.
L. Stoimenov, S. Djordjevic, D. Stojanovic,
ESRI, “Spatial Data Standards and GIS
M. Howard, O. Dreza, “Combining Heterogeneous
A. Simitsis, P. Vassiliadis, T. Sellis, “Optimizing
C. Squire, “Data extraction and transformation
Oracle, “Integrated ETL and Modeling,” An
박동선, 배해영, “다차원 지리정보시스템을 위한 저장기법 및 분리된 저장구조,” 한국정보처리학회 논문지, Vol. 7, No. 1, 2000, pp 1-11.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.