[논문]시맨틱 웹 문서에 대한 키워드 검색 및 랭킹 기법

김연희; 오성균

문제 정의

“김진만”과 “MBC”가 질의 키워드로 주어진 복합 검색의 경우를 살펴보자.
그런데 검색 기능을 제공하는 다양한 포털 사이트에서 제공하고 있는 연관 검색처럼 일반 사용자들은 자신이 제시한 키워드를 포함하고 있는 검색 결과와 연관된 다른 정보들까지 함께 결과로 반환받기를 원하는 경향이 있다. 그래서 본 논문에서는 질의 키워드를 포함하고 있는 정보 리소스를 검색 결과로 반환하면서 그 정보 리소스의 다른 특성 값들도 함께 반환하여 사용자의 검색 만족도를 향상시키고자 한다.
본 논문에서는 OWL 문서의 온톨로지에서 정의한 하위 클래스 관계와 동등 클래스 관계를 이용한 추론을 통해 새롭게 유도되는 정보도 키워드 검색의 대상으로 포함시키고 사전에 그래프 탐색을 통해 키워드 검색 처리에 필요한 정보들을 인덱스와 저장 구조에 미리 저장해둠으로써 키워드 검색에 소요되는 시간을 단축시키고자 한다. 그리고 질의 키워드를 포함하고 있는 정보 리소스가 가지고 있는 다른 유용한 정보들도 함께 검색 결과로 반환함으로써 일반 사용자의 검색 만족도를 향상시키는데 목표를 두고 있다.
기존의 웹 문서를 대상으로 하는 키워드 검색에서는 키워드가 문서에 발생하는 빈도수나 다른 문서로부터 링크된 개수, 다른 문서를 링크하고 있는 개수 등을 이용하여 검색 결과를 정렬하지만 OWL 문서를 대상으로 하는 키워드 검색에서는 기존 방식과 다른 랭킹 기법이 요구된다. 따라서 본 논문에서는 OWL 문서의 특성을 고려하여 클래스들간의 계층 구조, 도메인 전문가들의 의견, 키워드의 빈 도수, 연관 정보를 포함하고 있는 정도 등 다각적인 요소들을 반영해서 결과로 반환된 정보 리소스들의 랭킹을 평가하기 위해 정보 리소스와 질의 키워드와의 관련 정도를 계산할 수 있는 여러 개의 평가 함수를 제안한다.
본 논문에서는 OWL 문서의 온톨로지에서 정의한 하위 클래스 관계와 동등 클래스 관계를 이용한 추론을 통해 새롭게 유도되는 정보도 키워드 검색의 대상으로 포함시키고 사전에 그래프 탐색을 통해 키워드 검색 처리에 필요한 정보들을 인덱스와 저장 구조에 미리 저장해둠으로써 키워드 검색에 소요되는 시간을 단축시키고자 한다. 그리고 질의 키워드를 포함하고 있는 정보 리소스가 가지고 있는 다른 유용한 정보들도 함께 검색 결과로 반환함으로써 일반 사용자의 검색 만족도를 향상시키는데 목표를 두고 있다.
본 논문에서는 리터럴 데이터의 내용을 대상으로 하는 키워드 검색을 위해 별도의 키워드 인덱스를 제안한다. 본 논문에서 제안한 키워드 인덱스는 키워드 검색에 일반적으로 많이 활용되는 역 인덱스(inverted index) 구조를 이용한다.
본 논문에서는 시맨틱 웹 환경에서 OWL 문서에 대한 효과적인 키워드 검색을 지원하기 위해 다음과 같은 내용을 제안한다.
OWL 문서에 기술된 다양한 요소들을 이용하여 키워드 검색을 하게 되는 경우 많은 정보 리소스가 결과로 반환된다. 본 논문에서는 정보 리소스의 클래스 타입과 정보 리소스 자체의 점수를 고려하고 질의 키워드와 정보 리소스의 관련성을 수치 화하여 평가함으로써 검색된 정보 리소스들을 중요도에 따라 정렬하여 제공함으로써 사용자의 검색 만족도를 높이고자 한다. 향후에 본 논문에서 제안한 키워드 검색 기법과 랭킹 기법을 적용한 프로토타입 시스템을 개발하여 정확성과 재현율, 그리고 질의 처리 시간에 대해 제안한 기법의 우수성을 평가하고자 한다.
본 논문에서는 키워드 검색 결과로 질의 키워드를 포함하고 있는 정보 리소스만을 반환하는 것이 아니라 정보 리소스가 가지고 있는 모든 속성 값, 즉 프로퍼티 값들을 반환하여 연관 검색이 가능하도록 한다. 이를 위해 정보 리소스에 대해 프로퍼티 값으로 기술된 모든 값을 클러스터링하기 위한 리소스 인덱스를 제안한다.
본 논문에서는 모든 정보 리소스가 개념을 명확하게 제시하기 위해 온톨로지에 정의된 특정 클래스 타입으로 반드시 선언된다고 가정한다. 정보 리소스는 URI로 식별되지만 본 논문에서는 참고 문헌[7]과 같이 정보 리소스를 식별하는 것은 물론 정보 리소스의 클래스 타입을 명시적으로 나타내기 위해 클래스의 이름과 OWL 문서 내 작성된 순서에 따라 각 정보 리소스마다 고유의 아이디를 부여한다. 그림 2에서 아이디가 "Program_1"인 정보 리소스는 그림 1에서 정의한 "Program" 클래스 타입이고 OWL 문서에서 첫 번째로 출현한 것임을 의미한다.
본 논문에서는 정보 리소스의 클래스 타입과 정보 리소스 자체의 점수를 고려하고 질의 키워드와 정보 리소스의 관련성을 수치 화하여 평가함으로써 검색된 정보 리소스들을 중요도에 따라 정렬하여 제공함으로써 사용자의 검색 만족도를 높이고자 한다. 향후에 본 논문에서 제안한 키워드 검색 기법과 랭킹 기법을 적용한 프로토타입 시스템을 개발하여 정확성과 재현율, 그리고 질의 처리 시간에 대해 제안한 기법의 우수성을 평가하고자 한다.

가설 설정

클래스이름”으로 표현한다. 본 논문에서는 경로의 시작 클래스와 끝 클래스가 일치하지 않는다고 가정하고 경로의 길이는 해당 경로 표현에 존재하는 프로퍼티의 개수로 정의한다. 여러 개의 기본 경로로 구성된 복잡한 경로를 통해 의미적 관계를 맺는 클래스가 존재할 수도 있다.
리터럴 데이터로 표현된 정보 리소스의 프로퍼티 값은 직사각형으로 표현한다. 본 논문에서는 모든 정보 리소스가 개념을 명확하게 제시하기 위해 온톨로지에 정의된 특정 클래스 타입으로 반드시 선언된다고 가정한다. 정보 리소스는 URI로 식별되지만 본 논문에서는 참고 문헌[7]과 같이 정보 리소스를 식별하는 것은 물론 정보 리소스의 클래스 타입을 명시적으로 나타내기 위해 클래스의 이름과 OWL 문서 내 작성된 순서에 따라 각 정보 리소스마다 고유의 아이디를 부여한다.

제안 방법

본 장에서는 온톨로지와 메타데이터를 함께 기술하는 OWL 문서에서 질의 키워드의 범위와 키워드 검색 결과의 형태를 새롭게 정의한다. 그리고 OWL 문서에 기술된 온톨로지에 대한 기본적인 추론적 요소들을 고려하여 직접적으로 기술되지 않은 새로운 정보까지 키워드 검색 과정에 포함시키고 키워드 검색 처리 시 그래프 탐색이 실시간으로 수행될 필요가 없도록 검색에 필요한 정보를 미리 저장하는 인덱스와 저장 구조를 제안한다.
OWL 문서에 대한 키워드 검색 기법을 제안한 참고 문헌[2]에서는 트리플 구조 단위로 키워드 검색을 지원한다. 그리고 노드 간의 연관성을 쉽게 판단하기 위해 Multi-Numbering Scheme을 사용하고 그래프 상의 노드들을 병합하는 알고리즘을 제안한다. 하지만 참고 문헌 [2]에서도 클래스의 계층 관계나 동등 관계 등 온톨로지에 정의된 추론적 요소들을 고려하지 않고 키워드 검색 처리 시 병합 과정이 실시간으로 이루어지기 때문에 검색 시간에 영향을 끼칠 수 있다.
RDF와 RDF 스키마에 대한 키워드 검색 기법을 제안한 참고 문헌 [1]은 RDF와 RDF 스키마로 작성된 시맨틱 웹 문서를 그래프 형태로 표현하되 관련 있는 노드와 간선을 검색 결과로 함께 반환한다. 그리고 키워드 검색 성능을 향상시키기 위해 그래프의 크기를 줄이는 그래프 축약 기법을 제안하고 축약된 그래프 구조에 적용 가능한 랭킹 기법을 제안한다. 참고 문헌 [6]은 메타데이터와 온톨로지를 인스턴스 그래프와 스키마 그래프로 각각 표현하고 다양한 의미적 관계를 시맨틱 경로로 정의하여 키워드 검색 시 고려한다.
본 논문에서는 OWL 문서의 정보 저장 단위인 정보 리소스를 키워드 검색 결과의 기본 단위로 정의하고 클래스 이름과 프로퍼티의 이름, 그리고 데이터의 내용까지 질의 키워드의 범위로 확장하여 정의하였다. 그리고 한 개의 질의 키워드가 주어지는 경우는 물론 여러 개의 질의 키워드가 주어지는 복합 검색의 경우에도 효과적으로 키워드 검색을 수행할 수 있도록 필요한 인덱스 구조와 저장 구조를 제안하였다.
첫째, OWL 문서의 특성을 고려하여 질의 키워드의 범위와 반환되는 검색 결과의 단위를 정의하고 키워드 검색의 유형을 분류한다. 둘째, OWL 문서에 적합한 키워드 검색을 지원하는 인덱스 구조와 질의 처리 전략을 제안한다. 마지막으로 키워드 검색을 요청한 사용자의 만족도를 높이기 위해 키워드 검색 결과를 랭킹하는 기법을 제안한다.
하지만 OWL 문서의 메타데이터 부분은 복잡한 그래프 형태로 표현되는 것이 일반적이기 때문에 그래프 탐색을 통해 리소스간의 복잡한 경로 관계를 모두 추출하여 저장 구조에 미리 저장해두면 키워드 검색 처리를 위한 전처리 과정에 많은 시간이 소요된다. 따라서 본 논문에서는 OWL 문서의 기본 구조인 트리플 구조에 기반하여 OWL 문서에 기술된 모든 정보 리소스들 간의 관계를 그림 10과 같이 테이블을 이용해 저장한다. 그림 10의 트리플 테이블에서 RID1과 RID2 필드는 관계를 맺고 있는 정보 리소스들을 각각 저장하고 PID 필드는 정보 리소스들이 맺고 있는 의미적 관계를 표현한 프로퍼티의 아이디를 저장한다.
그리고 나서 검색된 정보 리소스들이 직․간접적으로 의미적 관계를 맺고 있는지를 판단하기 위해 검색된 정보 리소스의 타입으로 선언된 클래스들 간에 의미적 경로가 존재하는지를 그림 9에서 제시한 경로 테이블을 통해 검색한다. 마지막으로 경로 테이블에서 검색된 경로에 의해 의미적 관계를 맺고 있는 모든 정보 리소스들을 찾아 검색 결과로 반환하기 위해 트리플 테이블을 검색하면 된다. 이때, 경로의 길이에 따라 트리플 테이블에 대한 검색은 조인 연산을 필요로 한다.
둘째, OWL 문서에 적합한 키워드 검색을 지원하는 인덱스 구조와 질의 처리 전략을 제안한다. 마지막으로 키워드 검색을 요청한 사용자의 만족도를 높이기 위해 키워드 검색 결과를 랭킹하는 기법을 제안한다.
이를 위해 정보 리소스에 대해 프로퍼티 값으로 기술된 모든 값을 클러스터링하기 위한 리소스 인덱스를 제안한다. 본 논문에서 제안한 리소스 인덱스도 역 인덱스 구조를 이용하며 리소스 리스트와 프로퍼티-값 리스트 영역으로 구성된다. 그림 7은 본 논문에서 제안한 리소스 인덱스의 구조를 보여준다.
본 논문에서 제안한 인덱스와 저장 구조를 가지고 키워드 질의 처리 전략을 적용하면 질의 키워드와 관련이 있는 많은 수의 정보 리소스들이 결과로 반환된다. 따라서 반환된 결과 중에 질의 키워드와 가장 관련성이 높고 사용자가 원하는 정보를 가지고 있는 정보 리소스를 우선적으로 반환하여 사용자의 검색 만족도를 향상시킬 필요가 있다.
시맨틱 웹의 장점을 보편화시키기 위해서는 메타데이터를 기술하는 OWL 문서에 대한 키워드 검색 기법과 랭킹 기법에 대한 연구가 필요하다. 본 논문에서는 OWL 문서의 정보 저장 단위인 정보 리소스를 키워드 검색 결과의 기본 단위로 정의하고 클래스 이름과 프로퍼티의 이름, 그리고 데이터의 내용까지 질의 키워드의 범위로 확장하여 정의하였다. 그리고 한 개의 질의 키워드가 주어지는 경우는 물론 여러 개의 질의 키워드가 주어지는 복합 검색의 경우에도 효과적으로 키워드 검색을 수행할 수 있도록 필요한 인덱스 구조와 저장 구조를 제안하였다.
본 논문에서는 사용자가 제시한 질의 키워드의 개수에 따라 한 개의 질의 키워드가 제시되는 단순 키워드 검색과 여러 개의 질의 키워드가 제시되는 복합 키워드 검색으로 분류한다. 특히, 여러 개의 질의 키워드가 제시되는 복합 키워드 검색의 경우에는 질의 키워드들을 포함하는 모든 정보 리소스들의 집합을 검색 결과로 반환한다.
복합 검색의 경우에는 모든 단계를 순차적으로 수행하면 된다. 본 논문에서는 클래스 이름과 리터럴 데이터에 대한 키워드에 초점을 맞추어 키워드 검색 전략을 제시하였다. 프로퍼티 이름에 대한 키워드 검색 전략은 클래스 이름에 대한 키워드 검색 전략과 같다.
본 논문에서는 클래스의 이름을 대상으로 하는 키워드 검색을 위해 클래스에 대한 정보를 그림 3과 같이 관계형 데이터베이스의 테이블 구조를 이용해서 저장한다. 그림 3에서 CID 필드는 앞서 설명한 Dewey 방식에 의해 부여된 클래스의 아이디를 저장하고 name 필드는 클래스의 이름을 저장한다.
본 논문에서는 프로퍼티의 이름을 대상으로 하는 키워드 검색을 위해 프로퍼티에 대한 정보를 클래스와 마찬가지로 그림 4와 같이 관계형 데이터베이스의 테이블 구조를 이용해서 저장한다. 그림 4의 프로퍼티 테이블은 그림 1의 온톨로지에 정의된 프로퍼티 정보를 저장한 예를 보여준다.
본 논문에서는 키워드 검색 결과로 질의 키워드를 포함하고 있는 정보 리소스만을 반환하는 것이 아니라 정보 리소스가 가지고 있는 모든 속성 값, 즉 프로퍼티 값들을 반환하여 연관 검색이 가능하도록 한다. 이를 위해 정보 리소스에 대해 프로퍼티 값으로 기술된 모든 값을 클러스터링하기 위한 리소스 인덱스를 제안한다. 본 논문에서 제안한 리소스 인덱스도 역 인덱스 구조를 이용하며 리소스 리스트와 프로퍼티-값 리스트 영역으로 구성된다.
첫째, OWL 문서의 특성을 고려하여 질의 키워드의 범위와 반환되는 검색 결과의 단위를 정의하고 키워드 검색의 유형을 분류한다. 둘째, OWL 문서에 적합한 키워드 검색을 지원하는 인덱스 구조와 질의 처리 전략을 제안한다.

대상 데이터

그림 5는 본 논문에서 제안한 리터럴 키워드 인덱스의 구조를 보여준다. 키워드 리스트 영역은 OWL 문서에서 리터럴 데이터의 내용을 대상으로 추출된 각각의 키워드와 정보 리소스들 중에서 그 키워드가 가장 많이 출현한 최대 빈도수를 저장하는 키워드 노드로 구성된다. 키워드의 최대 빈도수는 이후 정보 리소스의 랭킹을 평가하는 중요 요소로 활용된다.

이론/모형

OWL로 표현할 수 있는 추론적 요소 중 기본 요소인 하위 클래스(subClass)와 이음동의어 클래스 관계를 표현하는 동등 클래스(equivalentClass) 관계는 각각 이중선 화살표와 일반 이중선으로 표현한다. 그림 1에서 각 클래스에 표시되어 있는 숫자는 클래스를 식별하기 위한 아이디로 Dewey 방식을 이용하여 지정한다. 예를 들어 "Creator"는 개념적으로 상위 클래스가 존재하지 않고 OWL 문서 내에서 처음으로 정의된 클래스이기 때문에 Dewey 방식에 따라 “1”의 아이디가 부여되고 "Creator" 클래스의 하위 클래스 중 첫 번째 클래스인 "Director" 클래스는 “1.
본 논문에서는 리터럴 데이터의 내용을 대상으로 하는 키워드 검색을 위해 별도의 키워드 인덱스를 제안한다. 본 논문에서 제안한 키워드 인덱스는 키워드 검색에 일반적으로 많이 활용되는 역 인덱스(inverted index) 구조를 이용한다. 역 인덱스는 문서에 존재하는 키워드들을 인덱스 키 값으로 하면서 키워드를 포함하고 있는 문서들을 쉽게 추출할 수 있도록 키워드 리스트 영역과 포스팅 리스트 영역으로 나뉜다.

성능/효과

역 인덱스는 문서에 존재하는 키워드들을 인덱스 키 값으로 하면서 키워드를 포함하고 있는 문서들을 쉽게 추출할 수 있도록 키워드 리스트 영역과 포스팅 리스트 영역으로 나뉜다. 본 논문에서 제안한 키워드 인덱스도 키워드 리스트 영역과 포스팅 리스트 영역으로 나뉘지만 포스팅 리스트 영역에 문서에 대한 정보가 아닌 OWL 문서에 기술되어 있는 정보 리소스에 대한 정보가 저장된다는 차이가 있다.
본 논문에서 제안한 키워드 인덱스와 리소스 인덱스를 통해 질의 키워드를 직접 포함하고 있는 정보 리소스를 빠르게 검색할 수 있는 것은 물론 정보 리소스가 가지고 있는 다른 정보도 함께 검색 결과로 반환하는 연관 검색이 가능하다. 그리고 경로 테이블과 트리플 테이블을 이용해 질의 키워드가 여러 개 주어진 복합 검색에서 정보 리소스들이 직접적으로 관계를 맺고 있지 않더라도 다른 정보 리소스를 통해 간접적 관계를 맺고 있는 지를 쉽게 판단하여 정보 리소스간의 의미적 관계에 기반을 둔 키워드 검색이 가능하게 된다.

후속연구

그리고 정보 리소스의 특성을 기술한 메타데이터 중심의 키워드 질의에서는 리터럴 데이터의 내용이 질의 키워드로 제시되는 경우가 많다. 따라서 본 논문에서는 사용자가 제시하는 질의 키워드의 범위를 클래스의 이름와 프로퍼티의 이름은 물론 프로퍼티의 값으로 기술된 리터럴 데이터까지 확대한다.

핵심어	질문	논문에서 추출한 답변
	본 논문에서 시맨틱 웹 환경에서 OWL 문서에 대한 효과적인 키워드 검색을 지원하기 위해서 제안한 내용은?	첫째, OWL 문서의 특성을 고려하여 질의 키워드의 범위와 반환되는 검색 결과의 단위를 정의하고 키워드 검색의 유형을 분류한다. 둘째, OWL 문서에 적합한 키워드 검색을 지원하는 인덱스 구조와 질의 처리 전략을 제안한다. 마지막으로 키워드 검색을 요청한 사용자의 만족도를 높이기 위해 키워드 검색 결과를 랭킹하는 기법을 제안한다.
	키워드 검색의 장점은?	사용자가 제시한 질의 키워드를 포함하고 있는 데이터를 검색하여 결과로 반환하는 키워드 검색은 인터넷 상에 존재하는 웹 페이지뿐만 아니라 관계형 데이터베이스나 XML 문서 등 다양한 검색 대상을 위한 질의 처리 기법으로 널리 사용되고 있다[1, 2]. 키워드 검색은 데이터의 내부적 구조나 특별한 질의 언어를 몰라도 쉽게 원하는 데이터를 검색할 수 있다는 장점 때문에 일반 사용자들이 선호하는 검색 방식이다[1, 2]. 따라서 사용자의 검색 만족도와 검색 정확도를 향상시키면서 다양한 분야에서 키워드 검색을 활용하기 위한 연구가 계속 진행되고 있다.
	키워드 검색은 무엇을 위해 사용되는가?	사용자가 제시한 질의 키워드를 포함하고 있는 데이터를 검색하여 결과로 반환하는 키워드 검색은 인터넷 상에 존재하는 웹 페이지뿐만 아니라 관계형 데이터베이스나 XML 문서 등 다양한 검색 대상을 위한 질의 처리 기법으로 널리 사용되고 있다[1, 2]. 키워드 검색은 데이터의 내부적 구조나 특별한 질의 언어를 몰라도 쉽게 원하는 데이터를 검색할 수 있다는 장점 때문에 일반 사용자들이 선호하는 검색 방식이다[1, 2].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

시맨틱 웹 문서에 대한 키워드 검색 및 랭킹 기법
Keyword Search and Ranking Methods on Semantic Web Documents 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

시맨틱 웹 문서에 대한 키워드 검색 및 랭킹 기법 Keyword Search and Ranking Methods on Semantic Web Documents 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

오성균 (14)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

시맨틱 웹 문서에 대한 키워드 검색 및 랭킹 기법
Keyword Search and Ranking Methods on Semantic Web Documents 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper