[논문]RDBMS를 이용하여 XML 문서 관리를 위한 경로 저장과 숫자 매칭 기법

봉하익; 황병연

문제 정의

다양한 경우의 질의 처리 분석을 위하여 여러 가능성의 질의를 해 보았다. 그림 10에 나타난 질의문은 QR1-4번이 부모-자식 관계에 대한 질의, QR5-6 번이 특정 인덱스 및 키워드를 갖는 질의 그리고 QR7-10번이 조상-후손 관계에 관한 질의이다.
본 논문에서는 XML 문서를 표현하기 위하여, 각 노드의 순서 및 위치가 아닌 명칭에 따라 번호를 부여하는 데이터 모델을 제시한다. 그림 2는 제안 방식을 바탕으로 한 XML 문서의한 예이며, 이 방식은 노드 명 이 반복 사용됨에 따라 번호 역시 중복 사용됨을 알 수 있다.
본 논문에서는 XML 문서의 효율적인 질의처리를 위한 경로 기반 저장 기법의 보완점을 제시하였다. 제안 방법은 i) 숫자 매칭을 통한 검색 시간의 단축, ii) 사용자가 실제로 필요로 하는 정보만 저장하는 방법을 통하여 검색 시간이 단축됨을 알 수 있다.
본 논문에서는 관계형 데이터베이스 시스템을 기반으로 한 대용량 XML 문서에 대한 효율적인 저장 및 질의 처리 기법으로, 노드의 텍스트 값이나 속성 값이 없는 경로를 저장하지 않음으로써 사용자가 요구하는 경로만 저장하는 방식을 제안한다. 또한 기존의 데이터베이스 저장 또는 검색 스키마에서 사용하던 경로에 대한 문자열 매칭 (String Matching) 기법 [2, 3]을 숫자 매칭 (Number Matching) 기법으로 변환한다.
저장하는 방식을 사용한다. 이는 XML 문서를 검색하는 사용자가 실제로 텍스트 값이나 속성 값이 없는 사항에 대해서는 검색을 하지 않거나, 검색을 하더라도 null 값을 결과로 보이기 때문에 불필요한 저장 공간의 낭비를 막기 위함이 그 목적이다.

제안 방법

그러나 일반적인 XML 문서에서는 단말 노드만이 자료 값을 갖는 형태를 벗어나 내부 노드도 자료 값을 갖는 문서가 존재하므로 내부노드 역시 자료 값을 가진 문서를 바탕으로 한다. XML 질의어로는 Lorel[9], XML-QL[10], XQuery [11], XPath[12] 등의 다양한 방식이 제안되었으며, 제안하는 방식에서는 XPath(XML Path Language) 를 질의 모델로 사용한다. 또한 XML 트리에 대한 분해 및 저장 방법은 경로를 저장하는 방식을 사용하며, 그림 1은 RDBMS에 기반하여 본 연구에서 제안한 관리 시스템 구조를 나타낸다.
XRele XML 문서의 트리 구조 내에서 인스턴스 내의 루트노드를 제외한 루트로부터 각 노드까지의 모든 경로들을 열거했으며, 관계형 속성들내의 경로표현들 그 자체를 저장시켰다. 또한 모든 가능한 경로 표현들이 하나의 문자열로써 데이터베이스에 저장되기 때문에 문자열 매칭 (String Matching)이라는 방식으로 처리할 수 있다.
방식을 사용했다. 그러나 제안 방식은 경로에 해당하는 노드 표현 식별자를 저장하여 매칭하는 숫자 매칭(Number Matching)방식(예: 1/9/10/11/12)을 채택하여 Path 테이블의 NodeOrd에 저장한다.
XML 질의어로는 Lorel[9], XML-QL[10], XQuery [11], XPath[12] 등의 다양한 방식이 제안되었으며, 제안하는 방식에서는 XPath(XML Path Language) 를 질의 모델로 사용한다. 또한 XML 트리에 대한 분해 및 저장 방법은 경로를 저장하는 방식을 사용하며, 그림 1은 RDBMS에 기반하여 본 연구에서 제안한 관리 시스템 구조를 나타낸다.
또한 데이터 타입의 크기에 따라서 메모리의 크기와 형태가 결정되는더】, 기존 방식이 다수의 문자열을 경로 테이블에 저장시켰다면, 제안 방법은 숫자를 경로 테이블에 저장시킨다. 이는 경로 테이블에 할당되는 메모리의 양을 줄이며 검색 시간을 절약하는 효과를 나타낸다.
데이터가 갱신되면서 발행하는 노드의 순서 재정리에 관한 문제를 해결하기 위해서 많은 연구들이 제시되고 있다. 본 논문에서는 Ordered Encoding 방식을 노드 순서를 규명하는 기본 모델로 채택한다. 제안방식이 노드간의 순서규명 에 초점을 둔 것은 아니므로 Ordered Encoding 방식과는 다른 의도라 할 수 있다.
본 논문에서는 경로를 저장함에 있어서 모든 가능 경로를 저장하는 것이 아니라, 자료 값을 갖는 경로만 저장하는 방식을 사용한다. 이는 XML 문서를 검색하는 사용자가 실제로 텍스트 값이나 속성 값이 없는 사항에 대해서는 검색을 하지 않거나, 검색을 하더라도 null 값을 결과로 보이기 때문에 불필요한 저장 공간의 낭비를 막기 위함이 그 목적이다.
그러나 XRele 문자열로 된 경로 표현식을 데이터베이스에 저장시키면서 자료 값을 갖지 않는 경로까지 저장시킴으로써 실제 사용자가 검색 시에 사용하지 않는 경로까지 저장시킨다. 이에 제안 방식은 자료 값을 갖는 경로만 저장시키며, 문자열의 경로를 숫자 경로로 저장시키는 방식을 제안한다.

대상 데이터

이는 ⑻의 실험에서 알 수 있다. 이 실험은 웹 상에서 임의로 1000개의 XML 문서를 수집하여, 약 70%의 XML 문서가. 동일한 노드 명을 여러 레벨에서 반복 사용함을 확인하고 있다.

데이터처리

제안하는 데이터 모델은 Tatarinov[4]가 제안한 모든 노드마다 고유한 순서를 부여하는 순서화된 (ordered) XML 데이터 모델과 비교할 수 있다. 이 Ordered Encoding 방식은 부모-자식 관계 및 조상- 후손 관계 그리고 형제관계를 고려하여 순서를 부여한다.

이론/모형

기존 연구에서 사용한 문자열 매칭(String Match- ing)방식(예: movie/cast/ players/player/role)은 경로에 해당하는 노드명을 모두 나열하여 저장하고 매칭하는 방식을 사용했다. 그러나 제안 방식은 경로에 해당하는 노드 표현 식별자를 저장하여 매칭하는 숫자 매칭(Number Matching)방식(예: 1/9/10/11/12)을 채택하여 Path 테이블의 NodeOrd에 저장한다.
72GHz, 1GB RAM이며, 데이터 베 이스 시스템으로 MS SQL-Server 2000을 사용하였다. 비교 평가를 위한 검색 기법으로는 XRel[2] 을 사용하였으며, 실험용 데이터로는 셰익스피어 전집을 XML 문서로 변환하여 저장하고 있는 *Bosak Shakespeare collection'[13]을 사용하였다. 이 XML 문서의 DTD 구조는 그림 8과 같다.
또한 기존의 데이터베이스 저장 또는 검색 스키마에서 사용하던 경로에 대한 문자열 매칭 (String Matching) 기법 [2, 3]을 숫자 매칭 (Number Matching) 기법으로 변환한다. 이 숫자 매칭 기법은 노드의 지리적 위치 또는 상하 및 위치에 의존하여 고유 번호를 붙이는 Ordered Encoding 기법 [4] 이 아닌, 노드명칭에 따라 고유 번호를 부여하는 노드 식별자 개념을 적용하였다.

성능/효과

단축, ii) 사용자가 실제로 필요로 하는 정보만 저장하는 방법을 통하여 검색 시간이 단축됨을 알 수 있다. 이는 기존 방식처럼 XML 문서가 갖는 모든 경로를 저장하는 것이 아니라 자료 값이나 속성 값을 갖는 경로만 저장시켜 저장 공간을 축소시키고, 경로 저장 및 검색 시 문자열이 아닌 숫자 매칭을 사용함으로써 검색해야 할 저장 공간 역시 축소시켰기 때문이다.
그러나 XRel도 XML 문서의 깊이나 경로가 복잡해질수록, 저장되는 문자열 경로 역시 늘어나게 된다. 관리되는 문서가 커질수록 제안 방법보다 XRel이 저장해야할 경로의 길이가 길어지게 되며, 중복되는 노드가 많을수록 제안 방법이 XRel에 비하여 효율적임을 알 수 있다.
또한 이에 대한 기존 연구와의 비교 실험을 통해 우수한 검색 성능을 보임을 입증하였다. 본 논문에서 실험을 위하여 사용한 문서보다 더 많은 양의 XML 문서가 입력되었을 경우에는 더 많은 검색 시간의 축소와 저장 공간의 절약을 예상할 수 있다.
실험 결과는 그림 11에서 보이는 것처럼 제안한 방식이 기존 방식인 XRel보다 모든 측면에서 우수하게 나타난 것을 알 수 있다. 이는 그림 12에서 알 수 있듯이 제안 방식이 기존 방식보다 저장되는 경로 수가 적고, 문자열로 저장되는 것보다 고유 번호로 저장되는 것이 경로 테이블의 크기를 줄이는 효과를 나타내기 때문이다.
제안하는 두 가지 방법은 문자열 경로가 저장되는 테이블 저장 공간의 축소와 매칭 시간의 절약을 통해 질의 처리 성능을 향상시키는 효과를 보인다.

후속연구

연구할 것이다. 또한 조상-후손 및 형제 관계 규명을 효과적으로 처리할 수 있는 방법과 좀 더 효율적인 경로 축약 및 검색 기법에 대하여 연구할 계획이다.
향후에 데이터베이스 저장 스키마나 데이터 모델에 의거하여 질의 처리 방식을 연구하는 것이 아니라, 실제 사용자의 질의 유형 패턴과 XML 문서의 실제 저장 유형에 의거하여 질의를 처리하는 방식을 연구할 것이다. 또한 조상-후손 및 형제 관계 규명을 효과적으로 처리할 수 있는 방법과 좀 더 효율적인 경로 축약 및 검색 기법에 대하여 연구할 계획이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

RDBMS를 이용하여 XML 문서 관리를 위한 경로 저장과 숫자 매칭 기법
A Path Storing and Number Matching Method for Management of XML Documents using RDBMS 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

RDBMS를 이용하여 XML 문서 관리를 위한 경로 저장과 숫자 매칭 기법 A Path Storing and Number Matching Method for Management of XML Documents using RDBMS 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

황병연 (42)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

RDBMS를 이용하여 XML 문서 관리를 위한 경로 저장과 숫자 매칭 기법
A Path Storing and Number Matching Method for Management of XML Documents using RDBMS 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper