[논문]OWL 요소와 질의 패턴에 대한 관계 분석에 웹 온톨로지 저장소의 구현 및 평가

정동원; 최명회; 정영식; 한성국

OWL 요소와 질의 패턴에 대한 관계 분석에 웹 온톨로지 저장소의 구현 및 평가
Implementation and Evaluation of a Web Ontology Storage based on Relation Analysis of OWL Elements and Query Patterns 원문보기

정보과학회논문지. Journal of KIISE. 데이타베이스, v.35 no.3, 2008년, pp.231 - 242

정동원 (군산대학교 정보통계학과) , 최명회 (군산대학교 정보통계학과) , 정영식 (원광대학교 전기전자정보 공학부) , 한성국 (원광대학교 전기전자정보 공학부)

초록
AI-Helper

W3C에서 OWL을 웹 온톨로지 기술을 위한 표준으로 채택함으로써 OWL 웹 온톨로지를 효과적으로 저장할 수 있는 저장 모델에 대한 필요성이 제기되었다. 지금까지 Jena, Sesame, DLDB 등과 같은 관계형 모델 기반의 저장 시스템이 개발되었나 여전히 여러 가지 문제점을 지니며, 특히 비효율적인 질의 처리 성능을 제공한다. 질의 처리 성능이 저하되는 구조적인 문제점을 하면 다음과 같다. Jena의 경우, 정규화가 이루어지지 않은 매우 단순한 구조를 지니며 단일 테이블에 대부분의 정보를 저장한다. 이는 단순 검색은 물론 조인 연산이 요구되는 질의 처리시 불필요한 정보까지 비교함으로써 성능을 급격하게 저하시킨다. Sesame와 같은 저장소는 지나치게 정규화 된 구조를 지니기 때문에 질의 처리시 많은 조인 연산이 요구된다. 심지어 단순한 특정 클래스를 검색할 경우에도 많은 조인 연산이 요구된다. 이 논문에서는 이러한 기존 저장모델의 비정규화 혹은 지나친 정규화로 인해 발생하는 질의 처리 성능 저하 문제를 해결할 수 있는 저장 모델을 제안한다. 이를 위해 OWL 요소와 질의 패턴과의 관계를 분석하고 기존 저장 모델의 구조적인 문제점을 분석한다. 이러한 분석 결과를 통해 정의된 제안 모델은 적정 수준의 정규화 된 구조를 지니며 조인 연산이나 불필요한 정보에 대한 비교를 최소할 수 있는 구조를 제공한다. 질의 처리 성능 실험을 위해 LUBM 데이타 셋을 이용하며, 검색 대상 및 대상의 계층 관계를 고려한 질의 유형을 정의한다. 추가적으로, 제안된 저장모델의 데이타 손실 여부를 확인하기 위해 질의 결과의 정확성 및 완전성에 대해 실험하고 그 결과를 기술한다. 비교 평가 결과에서, 제안 모델이 기존 저장 모델보다 나은 성능을 보였다.

Abstract ▼ AI-Helper

W3C has selected OWL as a standard for Web ontology description and a necessity of research on storage models that can store OWL ontologies effectively has been issued. Until now, relational model-based storage systems such as Jena, Sesame, and DLDB, have been developed, but there still remain several issues. Especially, they lead inefficient query processing performance. The structural problems of their low query processing performance are as follow: Jena has a simple structure which is not normalized and also stores most information in a single table. It exponentially decreases the performance because of comparison with unnecessary information for processing queries requiring join operations as well as simple search. The structures of storages(e.g., Sesame) have been completely normalized. Therefore it executes many join operations for query processing. The storages require many join operations to find simply a specific class. This paper proposes a storage model to resolve the problems that the query processing performance is decreased because of non-normalization or complete normalization of the existing storages. To achieve this goal, we analyze the problems of existing storage models as well as relations of OWL elements and query patterns. The proposed model, defined with the analysis results, provides an optimal normalized structure to minimize join operations or unnecessary information comparison. For the experiment of query processing performance, a LUBM data sets are used and query patterns are defined considering search targets and their hierarchical relations. In addition, this paper conducts experiments on correctness and completeness of query results to verify data loss of the proposed model, and the results are described. With the comparative evaluation results, our proposal showed a better performance than the existing storage models.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

먼저 OWL 웹 온톨로지에 대한 질의 패턴을 고려해보자. OWL 요소에서 가장 중요한 요소는 Class와 Individual이다.
이 논문에서는 기존 시스템들의 성능 저하 문제를 개선할 수 있는 저장 모델을 제안한다. 제안 모델은 적정수준의 정규화 된 구조를 제공함으로써 개선된 질의 처리 성능을 제공할 수 있도록 설계된다.
이 논문에서는 기촌 관계형 데이타베이스 기반 저장시스템의 문제점 분석하고 이를 개선하기 위한 저장 모델을 제안하였다. 이를 위해 기존 저장 모델의 구조적인 문제점 및 OWL 요소와 질의 패턴과의 관계를 분석하였다.
이 논문에서는 이러한 OWL 요소와 질의 유형과의 관계 및 기존 저장 모델의 구조적인 문제점에 대한 분석 결과를 토대로 새로운 저장 모델을 정의한다. 제안모델의 구조적인 특성을 정리하면, 먼저 URI나 namespace와 같은 정보는 OWL 요소 값과 분리하지 않고 함께 관리하며, OWL에서 range와 domain온 모두 Class 이므로 동일한 테이블에 함께 저장한다.
대하여 기술한다. 즉, Jena의 전체적인 시스템 구조, 실제 저장소의 관계형 모델 및 문제점에 대하여 기술하고 Sesame에서 제공하는 온톨로지 저장 모델과 문제점에 대하여 기술한다.
2절의 실험 결과에서 알 수 있지만, 위 데이타셋만으로도 성능의 차이를 명확하게 확인할 수 있다. 추가적인 이유로서 질의 결과를 수동으로 파악할 때 발생할 수 있는 오류를 방지하고 이를 통해 실험 결과의 신뢰성을 제공하기 위함이다. 정확성과 완전성을 평가하기 위해서는 수동으로 예상되는 질의 결과를 확인해야 한다.

제안 방법

정의한 저장 모델을 지원하는 저장소를 구현하고 기존 시스템과의 비교 평가를 수행한다. 기존 시스템과의 실질적인 비교 평가를 위해 다양한 크기의 온톨로지 셋을 이용한다. Lehigh 대학에서는 SWAT 프로젝트의 결과로서 개발한 시스템인 DLDB 시스템에 대한 평가를 위해 온톨로지 생성 툴인 UBA(Univ-Bench Artificial Data Generator)# 개발하였고 이를 통해 생성한 온톨로지 셋을 실험에 이용하였다.
이를 위해 기존 저장 모델의 구조적인 문제점 및 OWL 요소와 질의 패턴과의 관계를 분석하였다. 마지막으로, 기존 저장 모델과의 정량적인 평가를 위한 실험 및 평가를 실시하였다. 실험을 위한 평가 항목은 질의 웅답 시간, 정확성 및 완전성이며 이를 통해각 시스템의 성능은 물론 질의 처리 결과에 대한 신뢰성에 대하여 평가하였다.
마지막으로, 기존 저장 모델과의 정량적인 평가를 위한 실험 및 평가를 실시하였다. 실험을 위한 평가 항목은 질의 웅답 시간, 정확성 및 완전성이며 이를 통해각 시스템의 성능은 물론 질의 처리 결과에 대한 신뢰성에 대하여 평가하였다. 실험 결과에서, 이 논문에서 제안한 저장 모델은 Jena 및 Sesame와 비교하여 나은 질의 처리 성능을 보였다.
이 논문에서 제안하는 저장 모델에 OWL 데이타를저장하는 알고리즘은 크게 2 단계로 구성된다. 첫 번째 단계는 OWL 문서에 대한 분류 작업(1~13줄)이며, 두 번째 단계는 분류된 OWL 문서의 클래스와 인스턴스를 변환하여 연구 저장소에 저장하는 단계(14~24줄)이다.
UBA 툴은 DLDB 시스템의 평가를 위해 개발된 온톨로지 생성 툴로서 다양한 크기의 온톨로지 셋올 생성할 수 있다. 이 논문에서는 실험을 위해 LUBM(l, 0), LUBM(2, 0), LUBM(3, 0) 데이타 셋을 이용한다. 각각의 데이타 셋은 15개, 34개, 50개의 OWL 문서 파일로 구성되어 있으며 각 데이타셋에 대한 세부 정보는 표 1과 같다.
Lehigh 대학에서는 SWAT 프로젝트의 결과로서 개발한 시스템인 DLDB 시스템에 대한 평가를 위해 온톨로지 생성 툴인 UBA(Univ-Bench Artificial Data Generator)# 개발하였고 이를 통해 생성한 온톨로지 셋을 실험에 이용하였다. 이 논문에서도 UBA에 의해 생성된 데이타 셋을 이용하여 실험 및 평가를 수행한다.
이 논문에서의 주 평가 항목은 질의 웅답 시간 (Query Response Time)이며 아울러 질의 결과에 대한 정확성(Correctness)과 완전성(Completeness)에 대하여 평가한다.
제안하였다. 이를 위해 기존 저장 모델의 구조적인 문제점 및 OWL 요소와 질의 패턴과의 관계를 분석하였다. 마지막으로, 기존 저장 모델과의 정량적인 평가를 위한 실험 및 평가를 실시하였다.
제안 모델은 적정수준의 정규화 된 구조를 제공함으로써 개선된 질의 처리 성능을 제공할 수 있도록 설계된다. 이를 위해 먼저 기존의 온톨로지 저장 모델에 대하여 분석한다. 기존 저장 모델에 대한 분석 결과와 OWL 요소와 질의 패턴에 대한 관계 분석올 통해 적정 수준의 정규화 구조를 정의한다.
표 2 에서, 첫 번째 질의 타입(C)은 클래스 정보를 검색하는 단순 질의로서 하나의 OWL 요소만을 대상으로 검색한다. 이를 통해 Jena와 같이 모든 정보를 하나의 테이블에 포함하는 구조와 Sesame와 같이 여러 테이블에 분리하여 관리하는 저장소와의 성능을 비교 평가할 수 있다. 나머지 질의 타입은 두 개 이상의 OWL 요소가 관여하는 질의에 대한 처리 성능을 실험하기 위한 것으로, Jena와 Sesame는 물론 제안 저장 모델 또한 조인 연산이 요구된다.
기존 저장 모델에 대한 분석 결과와 OWL 요소와 질의 패턴에 대한 관계 분석올 통해 적정 수준의 정규화 구조를 정의한다. 정의한 저장 모델을 지원하는 저장소를 구현하고 기존 시스템과의 비교 평가를 수행한다. 기존 시스템과의 실질적인 비교 평가를 위해 다양한 크기의 온톨로지 셋을 이용한다.
수 있는 저장 모델을 제안한다. 제안 모델은 적정수준의 정규화 된 구조를 제공함으로써 개선된 질의 처리 성능을 제공할 수 있도록 설계된다. 이를 위해 먼저 기존의 온톨로지 저장 모델에 대하여 분석한다.
J&ia는 하나의 테이블에 모든 인스턴스 정보를 저장하기 때문에 모든 클래스 검색 시 테이블에 저장돤 모든 인스턴스를 검색하게 되며, 불필요한 데이타까지 비교한다. 제안 모델은 하나의 테이블에 모든 클래스 정보를 저장하므로 단일테이블만을 검색한다. 따라서 조인 연산을 요구하는 다른 시스템에 비해 나은 성능을 보인다.
Jena 는 Q2와 같이 자신의 테이블에서 subClassOf 관계를 검색하고 다시 그에 대한 인스턴스를 검색하기 때문에 Q2에서와 같이 데이타 셋이 증가할수록 질의 응답 시간이 증가하게 된다. 제안 시스템은 Q3의 결과와 인스턴스만을 저장하는 테이블과의 조인 연산을 수행함으로써 최종 결과를 반환하며, Sesame나 Jena에 비해 짧은 응답 시간을 요구한다. LUBM(l, 0) 셋에서, Jena는 약 1.
Sesame는 웹 기반의 온톨로지 저장 시스템으로 사용자가 편리하게 온톨로지를 관리할 수 있다는 장점을 지닌다 DLDB는 L난dgh 대학의 SWAT 프로젝트의 일부로 개발된 저장소로서, 메모리 및 영구 저장소(관계형데이타베이스) 기반의 온톨로지 저장 관리 기능을 제공한다. 추가적으로, 개발 시스템 맟 비교 대상 시스템들과의 비교 평가를 위해 UBA 도구를 개발하여 제공하며, 이 도구를 이용하여 사용자는 대용량의 OWL 웹 온톨로지를 생성할 수 있다. OWLJessKB는 자바로 개발된 추론 엔진인 Jess를 기반으로 OWL 웹 온톨로지를 처리할 수 있도록 확장한 저장 시스템이다.
추가적으로, 제안 모델과 기존의 모델과의 질의 결과에 대한 정확성 및 완전성올 평가한다. 표 5는 각 질의별 실제 반환되어야 하는 결과 개수를 보여주며, OWL 파일을 수동으로 분석하여 얻어진 결과이다.

대상 데이터

실험을 위한 온톨로지는 Lehigh 대학의 온톨로지 생성 툴인 UBA(University-Bench Artificial Data Generator)를 이용하여 생성한다. UBA 툴은 DLDB 시스템의 평가를 위해 개발된 온톨로지 생성 툴로서 다양한 크기의 온톨로지 셋올 생성할 수 있다.
이 논문에서의 실험 대상 시스템은 Jena와 Sesame이다. 두 시스템 외에도 DLDB[10, ll], OWLJessKB[17] 등과 같은 다양한 관계형 모델 기반 저장 시스템들이 제안되어 있으나 구체적인 저장 모델이나 API 혹은 소스가 공개되지 않아 비교 대상에서 제외한다.

이론/모형

기존 시스템과의 실질적인 비교 평가를 위해 다양한 크기의 온톨로지 셋을 이용한다. Lehigh 대학에서는 SWAT 프로젝트의 결과로서 개발한 시스템인 DLDB 시스템에 대한 평가를 위해 온톨로지 생성 툴인 UBA(Univ-Bench Artificial Data Generator)# 개발하였고 이를 통해 생성한 온톨로지 셋을 실험에 이용하였다. 이 논문에서도 UBA에 의해 생성된 데이타 셋을 이용하여 실험 및 평가를 수행한다.

성능/효과

4.2절의 실험 결과에서 알 수 있지만, 위 데이타셋만으로도 성능의 차이를 명확하게 확인할 수 있다. 추가적인 이유로서 질의 결과를 수동으로 파악할 때 발생할 수 있는 오류를 방지하고 이를 통해 실험 결과의 신뢰성을 제공하기 위함이다.
따라서 조인 연산을 요구하는 다른 시스템에 비해 나은 성능을 보인다. LUBM(1, O) 셋에서 제얀 시스템의 응답 시간(L17ms)을 1로 보았을 때, Jena는 약 20배, Sesame는 약 30배 이상의 웅답시간의 차이를 보이며 데이타 셋의 증가에 따라 응답시간의 차이가 증가하는 것을 알 수 있다. LUBM(3, 0) 셋의 경우, 제안 시스템과 Sesame의 웅답 시간의 차이가 약 100배 이상임을 알 수 있다.
결과적으로, 지금까지 기술한 실험결과를 바탕으로, 제안 저장 모델이 기존 저장 모델에 비해 질의 처리 성능, 정확성 및 완전성이 우수함을 알 수 있다
결론적으로, Jena2는 OWL 요소 관계를 고려하지 않고 모든 데이타를 하나의 테이블에 저장하는 비 정규화된 구조를 지니기 때문에 질의 처리시 관련 없는 정보까지 참조하게 되며 성능을 저하시킨다. Sesame의 경우, OWL 요소 관계를 고려하여 정규화 된 구조를 제공하지만 질의 패턴과의 관계를 고려하지 않음으로써 질의 처리시 많은 조인 연산이 요구되어 성능을 저하시키는 요인으로 작용했음을 알 수 있다.
특히, 질의 응답시간에 대한 성능 평가 결과에서, 기존 시스템들은 중첩된 조인 연산과 단일 테이블에서의 조인 연산으로 인해 제안 저장 모델에 비해 낮은 성능을 보였다. 결론적으로, OWL 요소와 질의 패턴 분석을 통해 적정 수준 정규화 된 제안 모델이 구조적으로 보다 나은 모델임을 알 수 있다.
따라서 온톨로지의 크기가 지나치게 방대할 경우, 수동으로 정확한 결과 셋을 파악함에 있어서 정확성을 보장하기 어렵다. 결론적으로, 이 논문에서는 충분한 성능 차이를 확인할 수 있으면서 정확성과 완전성을 판단할 수 있는 적정 크기의 온톨로지를 이용한다.
관계형데이타베이스 스키마 구조는 이 논문의 가장 핵심적 인부분으로서, 저장 구조에 따라 잘의 처리 성능이 크게 달라진다. 이에 대한 상세한 내용은 다음 절에서 다룬다.
실험 결과에서, 이 논문에서 제안한 저장 모델은 Jena 및 Sesame와 비교하여 나은 질의 처리 성능을 보였다. 또한 정확성과 완전성 측면에서도 신뢰할 수 있는 결과를 보였다. 특히, 질의 응답시간에 대한 성능 평가 결과에서, 기존 시스템들은 중첩된 조인 연산과 단일 테이블에서의 조인 연산으로 인해 제안 저장 모델에 비해 낮은 성능을 보였다.
마지막으로, Original OWL 영역은 입력으로 주어진 OWL 문서 파일의 집합으로서 PDM의 Plain 컴포넌트에 해당한다.
Sesame의 경우, OWL 요소 관계를 고려하여 정규화 된 구조를 제공하지만 질의 패턴과의 관계를 고려하지 않음으로써 질의 처리시 많은 조인 연산이 요구되어 성능을 저하시키는 요인으로 작용했음을 알 수 있다. 반면 제안 모델은 OWL 요소의 관계를 고려하여 구조화 하고 질의 패턴을 고려하여 정규화함으로써 단순 질의는 물론 조인 연산이 요구되는 질의에 대한 처리 측면에서 보다 나은 성능을 보였다.
실험을 위한 평가 항목은 질의 웅답 시간, 정확성 및 완전성이며 이를 통해각 시스템의 성능은 물론 질의 처리 결과에 대한 신뢰성에 대하여 평가하였다. 실험 결과에서, 이 논문에서 제안한 저장 모델은 Jena 및 Sesame와 비교하여 나은 질의 처리 성능을 보였다. 또한 정확성과 완전성 측면에서도 신뢰할 수 있는 결과를 보였다.
또한 정확성과 완전성 측면에서도 신뢰할 수 있는 결과를 보였다. 특히, 질의 응답시간에 대한 성능 평가 결과에서, 기존 시스템들은 중첩된 조인 연산과 단일 테이블에서의 조인 연산으로 인해 제안 저장 모델에 비해 낮은 성능을 보였다. 결론적으로, OWL 요소와 질의 패턴 분석을 통해 적정 수준 정규화 된 제안 모델이 구조적으로 보다 나은 모델임을 알 수 있다.

후속연구

것이다. 추가적으로, 제안 저장 시스템의 활용성 재고를 위해 다른 저장 모델과의 연계 방법에 대한 연구도 요구된다.
향후 연구 과제로서, 메모리에 저장된 데이타를 영구저장소로 저장하는 최적 시점에 대한 연구가 요구되며 이는 보다 향상된 온톨로지 저장 성능을 제공할 것이다. 추가적으로, 제안 저장 시스템의 활용성 재고를 위해 다른 저장 모델과의 연계 방법에 대한 연구도 요구된다.

참고문헌 (18)

Berners-Lee, T., Hendler, J., and Lassila, O., 'The Semantic Web,' Scientific American, May 2001
RDF/XML Syntax Specification, http://www.w3.org/TR/rdf-syntax-grammar, Feb. 2004
RDF Vocabulary Description Language 1.0: RDF Schema, http://www.w3.org/TR/rdf-schema, February 2004
DAML+OIL Reference Description W3C Note, http://www.w3.org/TR/daml+oil-reference, December 2001
OWL (Web Ontology Language), http://www.w3.org/2004/OWL/, 2007
W3C, http://www.w3.org/, 2007
Jena2, http://jena.sourceforge.net/, 2007
Sesame, http://www.openrdf.org/, 2007
Broekstra, J., Kampman, A., and Harmelen, F.v., 'Sesame: A Generic Architecture for Storing and Querying RDF and RDF Schema,' Lecture Notes In Computer Science (LNCS), Vol.2342, pp. 54-68, June 2002
Pan, Z. and Heflin J., 'DLDB: Extending Relational Databases to Support Semantic Web Queries,' In Workshop on Practical and Scaleable Semantic Web Systems, The Second International Semantic Web conference (ISWC2003), 2003
SWAT Projects - the Lehigh University Benchmark (LUBM), http://swat.cse.lehigh.edu/projects/lubm/
Jena Inference Engine, http://Jena.sourceforge.net/inference/index.html, 2007
SourceForge.net, 'Jena2 Database Interface - Database Layout,' November 2004
Jeong, D., Choi, M., Jeon, Y.-S., Han Y.-H., Yang, L.T., Jeong, Y.-S., and Han, S.-K., 'Persistent Storage System for Efficient Management of OWL Web Ontology,' Springer-Verlag, Lecture Notes in Computer Science (LNCS),Vol. LNCS 4611, pp. 1089-1097, July 2007
Jeong, D., Choi, Jeon, Y.-S., Han Y.-H., Jeong, Y.-S., and Han, S.-K., 'A Novel Memory-Oriented OWL Storage System,' Springer-Verlag, Lecture Notes in Computer Science (LNCS), Vol. LNCS 4331, pp. 542-549, December 2006
Protege, http://protege.stanford.edu/, 2007
OWLJessKB, http://edge.cs.drexel.edu/assemblies/software/owljesskb/, 2007
3store, http://www.aktors.org/technologies/3store/, 2007

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증