1996년 W3C에서 XML을 제안한 이래, 다량의 XML(eXtensible Markup Language) 문서들이 인터넷에 확산되고 있다. 이런 이유로, XML과 관련된 연구의 필요성이 증가하고 있는 실정이다. 특히, XML 문서들을 저장, 검색, 그리고 관리하기 위한 XML 관리 시스템에 대한 연구가 활발히 진행되고 있다. 이런 연구들 중에서 XRel은 XML 문서 관리를 위한 대표적인 연구로써 인정되고 있으며, 비교 대상의 연구로서 사용되고 있다. 본 논문에서는 관계형 데이터베이스 시스템을 기반으로 한 XML문서에 대한 관리 기법을 제시한다. 이는 XRel처럼 모든 가능 경로를 저장하는 것이 아니라, 노드의 텍스트 값이나 속성 값이 존재하는 경로만을 저장하는 방식이다. 또, 노드 표현에 따라 고유 노드명 식별자(Node Expression Identifier)를 부여함으로써 부여된 노드 식별자를 매칭하는 숫자 매칭(Number Matching)기법을 제안한다. 마지막으로 제안 방식의 효율성을 입증하기 위해, 기존 방법과 XPath 질의에 대한 처리 성능을 비교함으로써 제안한 방법의 효율성을 제시한다.
1996년 W3C에서 XML을 제안한 이래, 다량의 XML(eXtensible Markup Language) 문서들이 인터넷에 확산되고 있다. 이런 이유로, XML과 관련된 연구의 필요성이 증가하고 있는 실정이다. 특히, XML 문서들을 저장, 검색, 그리고 관리하기 위한 XML 관리 시스템에 대한 연구가 활발히 진행되고 있다. 이런 연구들 중에서 XRel은 XML 문서 관리를 위한 대표적인 연구로써 인정되고 있으며, 비교 대상의 연구로서 사용되고 있다. 본 논문에서는 관계형 데이터베이스 시스템을 기반으로 한 XML문서에 대한 관리 기법을 제시한다. 이는 XRel처럼 모든 가능 경로를 저장하는 것이 아니라, 노드의 텍스트 값이나 속성 값이 존재하는 경로만을 저장하는 방식이다. 또, 노드 표현에 따라 고유 노드명 식별자(Node Expression Identifier)를 부여함으로써 부여된 노드 식별자를 매칭하는 숫자 매칭(Number Matching)기법을 제안한다. 마지막으로 제안 방식의 효율성을 입증하기 위해, 기존 방법과 XPath 질의에 대한 처리 성능을 비교함으로써 제안한 방법의 효율성을 제시한다.
Since W3C proposed XML in 1996, XML documents have been widely spreaded in many internet documents. Because of this, needs for research related with XML is increasing. Especially, it is being well performed to study XML management system for storage, retrieval, and management with XML Documents. Amo...
Since W3C proposed XML in 1996, XML documents have been widely spreaded in many internet documents. Because of this, needs for research related with XML is increasing. Especially, it is being well performed to study XML management system for storage, retrieval, and management with XML Documents. Among these studies, XRel is a representative study for XML management and has been become a comparative study. In this study, we suggest XML documents management system based on Relational DataBase Management System. This system is stored not all possible path expressions such as XRel, but filtered path expression which has text value or attribute value. And by giving each node Node Expression Identifier, we try to match given Node Expression Identifier. Finally, to prove efficiency of the suggested technique, this paper shows the result of experiment that compares XPath query processing performance between suggested study and existing technique, XRel.
Since W3C proposed XML in 1996, XML documents have been widely spreaded in many internet documents. Because of this, needs for research related with XML is increasing. Especially, it is being well performed to study XML management system for storage, retrieval, and management with XML Documents. Among these studies, XRel is a representative study for XML management and has been become a comparative study. In this study, we suggest XML documents management system based on Relational DataBase Management System. This system is stored not all possible path expressions such as XRel, but filtered path expression which has text value or attribute value. And by giving each node Node Expression Identifier, we try to match given Node Expression Identifier. Finally, to prove efficiency of the suggested technique, this paper shows the result of experiment that compares XPath query processing performance between suggested study and existing technique, XRel.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
다양한 경우의 질의 처리 분석을 위하여 여러 가능성의 질의를 해 보았다. 그림 10에 나타난 질의문은 QR1-4번이 부모-자식 관계에 대한 질의, QR5-6 번이 특정 인덱스 및 키워드를 갖는 질의 그리고 QR7-10번이 조상-후손 관계에 관한 질의이다.
본 논문에서는 XML 문서를 표현하기 위하여, 각 노드의 순서 및 위치가 아닌 명칭에 따라 번호를 부여하는 데이터 모델을 제시한다. 그림 2는 제안 방식을 바탕으로 한 XML 문서의한 예이며, 이 방식은 노드 명 이 반복 사용됨에 따라 번호 역시 중복 사용됨을 알 수 있다.
본 논문에서는 XML 문서의 효율적인 질의처리를 위한 경로 기반 저장 기법의 보완점을 제시하였다. 제안 방법은 i) 숫자 매칭을 통한 검색 시간의 단축, ii) 사용자가 실제로 필요로 하는 정보만 저장하는 방법을 통하여 검색 시간이 단축됨을 알 수 있다.
본 논문에서는 관계형 데이터베이스 시스템을 기반으로 한 대용량 XML 문서에 대한 효율적인 저장 및 질의 처리 기법으로, 노드의 텍스트 값이나 속성 값이 없는 경로를 저장하지 않음으로써 사용자가 요구하는 경로만 저장하는 방식을 제안한다. 또한 기존의 데이터베이스 저장 또는 검색 스키마에서 사용하던 경로에 대한 문자열 매칭 (String Matching) 기법 [2, 3]을 숫자 매칭 (Number Matching) 기법으로 변환한다.
저장하는 방식을 사용한다. 이는 XML 문서를 검색하는 사용자가 실제로 텍스트 값이나 속성 값이 없는 사항에 대해서는 검색을 하지 않거나, 검색을 하더라도 null 값을 결과로 보이기 때문에 불필요한 저장 공간의 낭비를 막기 위함이 그 목적이다.
제안 방법
그러나 일반적인 XML 문서에서는 단말 노드만이 자료 값을 갖는 형태를 벗어나 내부 노드도 자료 값을 갖는 문서가 존재하므로 내부노드 역시 자료 값을 가진 문서를 바탕으로 한다. XML 질의어로는 Lorel[9], XML-QL[10], XQuery [11], XPath[12] 등의 다양한 방식이 제안되었으며, 제안하는 방식에서는 XPath(XML Path Language) 를 질의 모델로 사용한다. 또한 XML 트리에 대한 분해 및 저장 방법은 경로를 저장하는 방식을 사용하며, 그림 1은 RDBMS에 기반하여 본 연구에서 제안한 관리 시스템 구조를 나타낸다.
XRele XML 문서의 트리 구조 내에서 인스턴스 내의 루트노드를 제외한 루트로부터 각 노드까지의 모든 경로들을 열거했으며, 관계형 속성들내의 경로표현들 그 자체를 저장시켰다. 또한 모든 가능한 경로 표현들이 하나의 문자열로써 데이터베이스에 저장되기 때문에 문자열 매칭 (String Matching)이라는 방식으로 처리할 수 있다.
방식을 사용했다. 그러나 제안 방식은 경로에 해당하는 노드 표현 식별자를 저장하여 매칭하는 숫자 매칭(Number Matching)방식(예: 1/9/10/11/12)을 채택하여 Path 테이블의 NodeOrd에 저장한다.
XML 질의어로는 Lorel[9], XML-QL[10], XQuery [11], XPath[12] 등의 다양한 방식이 제안되었으며, 제안하는 방식에서는 XPath(XML Path Language) 를 질의 모델로 사용한다. 또한 XML 트리에 대한 분해 및 저장 방법은 경로를 저장하는 방식을 사용하며, 그림 1은 RDBMS에 기반하여 본 연구에서 제안한 관리 시스템 구조를 나타낸다.
또한 데이터 타입의 크기에 따라서 메모리의 크기와 형태가 결정되는더】, 기존 방식이 다수의 문자열을 경로 테이블에 저장시켰다면, 제안 방법은 숫자를 경로 테이블에 저장시킨다. 이는 경로 테이블에 할당되는 메모리의 양을 줄이며 검색 시간을 절약하는 효과를 나타낸다.
데이터가 갱신되면서 발행하는 노드의 순서 재정리에 관한 문제를 해결하기 위해서 많은 연구들이 제시되고 있다. 본 논문에서는 Ordered Encoding 방식을 노드 순서를 규명하는 기본 모델로 채택한다. 제안방식이 노드간의 순서규명 에 초점을 둔 것은 아니므로 Ordered Encoding 방식과는 다른 의도라 할 수 있다.
본 논문에서는 경로를 저장함에 있어서 모든 가능 경로를 저장하는 것이 아니라, 자료 값을 갖는 경로만 저장하는 방식을 사용한다. 이는 XML 문서를 검색하는 사용자가 실제로 텍스트 값이나 속성 값이 없는 사항에 대해서는 검색을 하지 않거나, 검색을 하더라도 null 값을 결과로 보이기 때문에 불필요한 저장 공간의 낭비를 막기 위함이 그 목적이다.
그러나 XRele 문자열로 된 경로 표현식을 데이터베이스에 저장시키면서 자료 값을 갖지 않는 경로까지 저장시킴으로써 실제 사용자가 검색 시에 사용하지 않는 경로까지 저장시킨다. 이에 제안 방식은 자료 값을 갖는 경로만 저장시키며, 문자열의 경로를 숫자 경로로 저장시키는 방식을 제안한다.
대상 데이터
이는 ⑻의 실험에서 알 수 있다. 이 실험은 웹 상에서 임의로 1000개의 XML 문서를 수집하여, 약 70%의 XML 문서가. 동일한 노드 명을 여러 레벨에서 반복 사용함을 확인하고 있다.
데이터처리
제안하는 데이터 모델은 Tatarinov[4]가 제안한 모든 노드마다 고유한 순서를 부여하는 순서화된 (ordered) XML 데이터 모델과 비교할 수 있다. 이 Ordered Encoding 방식은 부모-자식 관계 및 조상- 후손 관계 그리고 형제관계를 고려하여 순서를 부여한다.
이론/모형
기존 연구에서 사용한 문자열 매칭(String Match- ing)방식(예: movie/cast/ players/player/role)은 경로에 해당하는 노드명을 모두 나열하여 저장하고 매칭하는 방식을 사용했다. 그러나 제안 방식은 경로에 해당하는 노드 표현 식별자를 저장하여 매칭하는 숫자 매칭(Number Matching)방식(예: 1/9/10/11/12)을 채택하여 Path 테이블의 NodeOrd에 저장한다.
72GHz, 1GB RAM이며, 데이터 베 이스 시스템으로 MS SQL-Server 2000을 사용하였다. 비교 평가를 위한 검색 기법으로는 XRel[2] 을 사용하였으며, 실험용 데이터로는 셰익스피어 전집을 XML 문서로 변환하여 저장하고 있는 *Bosak Shakespeare collection'[13]을 사용하였다. 이 XML 문서의 DTD 구조는 그림 8과 같다.
또한 기존의 데이터베이스 저장 또는 검색 스키마에서 사용하던 경로에 대한 문자열 매칭 (String Matching) 기법 [2, 3]을 숫자 매칭 (Number Matching) 기법으로 변환한다. 이 숫자 매칭 기법은 노드의 지리적 위치 또는 상하 및 위치에 의존하여 고유 번호를 붙이는 Ordered Encoding 기법 [4] 이 아닌, 노드명칭에 따라 고유 번호를 부여하는 노드 식별자 개념을 적용하였다.
성능/효과
단축, ii) 사용자가 실제로 필요로 하는 정보만 저장하는 방법을 통하여 검색 시간이 단축됨을 알 수 있다. 이는 기존 방식처럼 XML 문서가 갖는 모든 경로를 저장하는 것이 아니라 자료 값이나 속성 값을 갖는 경로만 저장시켜 저장 공간을 축소시키고, 경로 저장 및 검색 시 문자열이 아닌 숫자 매칭을 사용함으로써 검색해야 할 저장 공간 역시 축소시켰기 때문이다.
그러나 XRel도 XML 문서의 깊이나 경로가 복잡해질수록, 저장되는 문자열 경로 역시 늘어나게 된다. 관리되는 문서가 커질수록 제안 방법보다 XRel이 저장해야할 경로의 길이가 길어지게 되며, 중복되는 노드가 많을수록 제안 방법이 XRel에 비하여 효율적임을 알 수 있다.
또한 이에 대한 기존 연구와의 비교 실험을 통해 우수한 검색 성능을 보임을 입증하였다. 본 논문에서 실험을 위하여 사용한 문서보다 더 많은 양의 XML 문서가 입력되었을 경우에는 더 많은 검색 시간의 축소와 저장 공간의 절약을 예상할 수 있다.
실험 결과는 그림 11에서 보이는 것처럼 제안한 방식이 기존 방식인 XRel보다 모든 측면에서 우수하게 나타난 것을 알 수 있다. 이는 그림 12에서 알 수 있듯이 제안 방식이 기존 방식보다 저장되는 경로 수가 적고, 문자열로 저장되는 것보다 고유 번호로 저장되는 것이 경로 테이블의 크기를 줄이는 효과를 나타내기 때문이다.
제안하는 두 가지 방법은 문자열 경로가 저장되는 테이블 저장 공간의 축소와 매칭 시간의 절약을 통해 질의 처리 성능을 향상시키는 효과를 보인다.
후속연구
연구할 것이다. 또한 조상-후손 및 형제 관계 규명을 효과적으로 처리할 수 있는 방법과 좀 더 효율적인 경로 축약 및 검색 기법에 대하여 연구할 계획이다.
향후에 데이터베이스 저장 스키마나 데이터 모델에 의거하여 질의 처리 방식을 연구하는 것이 아니라, 실제 사용자의 질의 유형 패턴과 XML 문서의 실제 저장 유형에 의거하여 질의를 처리하는 방식을 연구할 것이다. 또한 조상-후손 및 형제 관계 규명을 효과적으로 처리할 수 있는 방법과 좀 더 효율적인 경로 축약 및 검색 기법에 대하여 연구할 계획이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.