본 연구에서는 유동성이 크고 데이터의 규모도 상당한 도서관에 일반화시켜 적용할 수 있는 지식베이스 및 검색엔진을 제안하였다. 이를 위해 총 세 개의 지식베이스(트리플 구조온톨로지, 의미거리기반 의미망지식 베이스, 키워드중심의 도치색인파일)를 구축하였고, 이의 성능을 측정하기 위해 각각 세 개의 검색엔진(추론 규칙기반 제나검색엔진, 개념기반 검색엔진, 키워드기반 루씬검색엔진)을 구축하였다. 시스템 성능평가 결과, 종합적으로 개념기반 검색엔진이 가장 높은 성능을 보여주었고, 다음으로 온톨로지기반 제나검색엔진, 다음으로 일반 키워드 검색엔진 순으로 나타났다.
본 연구에서는 유동성이 크고 데이터의 규모도 상당한 도서관에 일반화시켜 적용할 수 있는 지식베이스 및 검색엔진을 제안하였다. 이를 위해 총 세 개의 지식베이스(트리플 구조 온톨로지, 의미거리기반 의미망지식 베이스, 키워드중심의 도치색인파일)를 구축하였고, 이의 성능을 측정하기 위해 각각 세 개의 검색엔진(추론 규칙기반 제나검색엔진, 개념기반 검색엔진, 키워드기반 루씬검색엔진)을 구축하였다. 시스템 성능평가 결과, 종합적으로 개념기반 검색엔진이 가장 높은 성능을 보여주었고, 다음으로 온톨로지기반 제나검색엔진, 다음으로 일반 키워드 검색엔진 순으로 나타났다.
This study suggested knowledge base and search engine for the libraries that have the largescaled data. For this purpose, 3 components of knowledge bases(triple ontology, concept-based knowledge base, inverted file) were constructed and 3 search engines(search engine JENA for rule-based reasoning, C...
This study suggested knowledge base and search engine for the libraries that have the largescaled data. For this purpose, 3 components of knowledge bases(triple ontology, concept-based knowledge base, inverted file) were constructed and 3 search engines(search engine JENA for rule-based reasoning, Concept-based search engine, keyword-based Lucene retrieval engine) were implemented to measure their performance. As a result, concept-based retrieval engine showed the best performance, followed by ontology-based Jena retrieval engine, and then by a normal keyword search engine.
This study suggested knowledge base and search engine for the libraries that have the largescaled data. For this purpose, 3 components of knowledge bases(triple ontology, concept-based knowledge base, inverted file) were constructed and 3 search engines(search engine JENA for rule-based reasoning, Concept-based search engine, keyword-based Lucene retrieval engine) were implemented to measure their performance. As a result, concept-based retrieval engine showed the best performance, followed by ontology-based Jena retrieval engine, and then by a normal keyword search engine.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
둘째, 온톨로지 및 추론엔진의 성능을 비교·평가하고자 하였다.
본 논문에서는 시맨틱검색환경을 구축하기 위해서 OWL 기반의 온톨로지를 구축하고 메타데이터를 생성하였다. OWL은 W3C에서 시맨틱 웹의 온톨로지 언어로 표준화된 언어로써 다양한 OWL공리를 제공한다.
본 논문에서의 온톨로지기반의 시맨틱 추론의 목적은 온톨로지로부터 생성된 메타데이터에 대해 OWL에서 제공하는 공리를 사용하여 추론하고 이러한 추론된 사실을 바탕으로 사용자로부터 입력된 질의문으로 시맨틱검색을 수행하기 위함이다. 본 논문에서의 시맨틱검색은 ‘Description Logic’ 기반의 온톨로지를 바탕으로 생성된 메타데이터에 대해 전방향 추론기법을 사용하여 검색하기 때문에 기존의 키워드검색이나 일반적인 질의응답시스템에서 찾기 힘든 정보에 대한 검색이 가능하다.
본 연구는 지금까지 다양한 각도에서 연구되어온 온톨로지 및 추론엔진에 관한 연구를 일반화할 수 있는 방안을 제시하는데 있다. 특히 유동성이 크고 데이터의 규모도 상당한 도서관에 일반화 시켜 적용하는 것이 필요한데, 지금까지 이론적으로만 연구될 수밖에 없었던 문제점들을 발견하고 개선해 보고자 하였다.
지금까지 수행된 연구들의 경우 시맨틱검색 시스템을 개발하는데 주력하고 있거나 좀 더 나아간다면 키워드검색기법과의 성능차이를 비교하는 정도의 연구를 수행했다. 본 연구에서는 국내외적으로 그 성능이 검증되고 있는 제나기반 시맨틱검색시스템을 구현하고, 의미망기반 개념기반 검색시스템의 성능을 비교하고자 하였다.
본 연구에서는 기초 언어자원을 효과적으로 구축할 수 있는 방법론을 모색하고 그 성능을 평가한 1차 연구결과를 기반으로 추론에 기반한 의미검색 환경을 구현할 수 있도록 하고자 하였다(Noh 2011). 즉, 1차 연구에서 구축된 온톨로지는 정보관리학회지에 수록된 논문기사 189건이며, 누리미디어의 DBPia로부터 추출된 데이터이다.
본 연구에서는 실험을 위해 지식베이스와 검색엔진을 구축 및 개발하였다. 총 세개의 지식베이스(트리플구조 온톨로지, 의미거리기반 의미망지식베이스, 키워드중심의 도치색인파일)를 구축하였고, 이의 성능을 측정하기 위해 각각 세 개의 검색엔진(추론규칙 기반 제나검색엔진, 개념기반 검색엔진, 키워드기반 루씬검색엔진)을 구축하였다.
본 연구에서는 온톨로지에 추론엔진을 적용한 시맨틱검색관련 연구를 살펴보았으며, 시맨틱검색기법과 기존의 키워드검색기법의 성능을 평가한 연구들 중심으로 분석하였다.
본 연구에서는 위에서 구축된 검색엔진의 성능을 가장 일반적인 평가방법으로 사용되고 있는 재현율과 정확률로 평가하였다. 세 개의 검색엔진의 성능을 평가한 결과는 다음 <표 2>,<그림 4>와 같다.
둘째, 온톨로지 및 추론엔진의 성능을 비교·평가하고자 하였다. 성능평가를 위한 방법론은 다양하겠지만 본 연구에서는 가장 일반적인 성능평가 방법인 재현율과 정확률, 그리고 이 둘의 조합인 F1척도를 사용하여 그 성능을 평가하고자 하였다.
일반적인 웹의 목적은 사람 사이의 원활한 커뮤니케이션과 더불어 컴퓨터시스템들 간의 효과적인 커뮤니케이션이라 할 수 있다. 이 목적의 실현은 인터넷 자원을 소화할 수 있는 하부구조의 정립을 전제한 매우 복잡하고 시급한 과제라 할 수 있다. 단일 인터페이스로 모든 유형의 정보(텍스트, 음악, 동영상, 이미지 등)에 접근하는 방법과 용이성과 융통성을 그 특징으로 하는 HTML의 광범위한 수용으로 인터넷 정보량은 폭발적으로 증가했고 그 결과 전문색인 기반 검색엔진의 효율은 현격히 낮아졌다.
그러나 최근에는 정보통신기술의 발전으로 하드웨어시스템의 성능이 향상되었음을 감안하여 제고할 필요가 있는 검색기법이라 판단된다. 이에 본 연구에서는 개념기반 정보검색기법을 시맨틱 웹 검색기법과 그 성능을 비교함으로써 실제 적용성 및 검색 성능의 향상을 도모하고자 하였다.
특히 본 연구에서는 지금까지 연구되고 적용되어 온 온톨로지 구축방법을 이용하되, 구축된 온톨로지로부터 이용자의 요구에 적합한 자료를 탐색하는 검색기법의 적용에 있어서, 개념기반 정보검색기법(Concept-based Information Retrieval Techniques)을 적용하였다. 즉, 본 연구에서는 개념기반 정보검색기법을 시맨틱 웹 검색기법인 제나와 그 성능을 비교함으로써 실제 적용성 및 검색 성능의 향상을 도모하고자 하였다.
본 연구는 지금까지 다양한 각도에서 연구되어온 온톨로지 및 추론엔진에 관한 연구를 일반화할 수 있는 방안을 제시하는데 있다. 특히 유동성이 크고 데이터의 규모도 상당한 도서관에 일반화 시켜 적용하는 것이 필요한데, 지금까지 이론적으로만 연구될 수밖에 없었던 문제점들을 발견하고 개선해 보고자 하였다.
제안 방법
추론엔진은 OWL 형식의 온톨로지를 로드해 일관성 검사를 수행한 후 클래스의 계층구조를 추론하고 클래스에 대하여 기술된 객체속성을 추론한다. 1차적으로 제 1키워드를 가지로 검색한 논문주석정보 데이터들로부터 생성한 OWL 논문온톨로지를 대상으로 DL 쿼리에 대한 2차 추론을 하여 사용자 질의에 부합하는 논문의 식별자(Article_ID)를 결과처리기에 반환한다.
강래구(2007)는 온톨로지를 상품 검색에 활용하기 위해 상품도메인 온톨로지를 구축하여 자연어 및 분류별 검색을 통해 얼마나 정확한 검색을 하게 되는지를 실험하였다. OWL로 온톨로지를 구축하고 온톨로지 추론알고리즘과 일반 키워드검색기법의 성능을 비교하였다. 그 결과 온톨로지기반 추론시스템이 키워드검색기법보다 성능이 높게 나타났다고 밝혔다.
한편, 가중치가 부여된 두 용어간의 의미관계를 생성하기 위해서는 용어간의 유사도가 산출되어야 한다. 개념기반 검색을 위한 의미망 구조의 지식베이스를 구축하는데 사용되는 유사계수도 다양하지만, 본 연구에서는 코싸인 유사계수를 사용하여 용어간의 유사도를 산출하였다.
검색절차는 시드검색, 시맨틱탐색, 순위화 3가지 단계로 구성되며, 여기에 ‘AND' 연산자 기능과 ‘중심주제어’ 검색기능을 추가로 제안하였다.
이재원 등(2010)은 사용자의 질의어, 선호도, 카탈로그 문서의 시맨틱을 도출하기 위해 분류 지식베이스로부터 추출한 개념을 이용하였다. 도출된 개념을 이용하여, 사용자의 질의어 및 카탈로그 문서들 간의 색인어 불일치 문제를 해결한 시맨틱검색 모델을 제시하였다. 또한 사용자의 선호도 정보 역시 개념으로 표현함으로써, 협업적 필터링 기반 추천 알고리즘의 치명적인 단점인 희박성 문제를 해결하였다.
원칙적으로 제나검색시스템은 검색대상이 온톨로지이고 개념기반 검색시스템의 검색대상은 노드간의 값이 유사도로 표현된 의미망 지식베이스이다. 동일한 주제분야를 대상으로 하여 20여개의 질의를 입력하고 재현율과 정확률의 평균으로 그 성능을 비교하였다. 추가적으로 루씬이라는 상용의 키워드검색시스템과의 성능도 비교하였다.
둘째, 검색엔진의 성능을 평가하기 위해 온톨로지를 구축하였으며, 수작업과 자동으로 각각 온톨로지를 구축하고, 각각의 방법에 의해 구축된 온톨로지의 성능을 비교·평가하였다.
또한 온톨로지 및 추론엔진의 성능을 비교·평가하였다.
지식표현(knowledge representation) 계층은 온톨로지의 스키마와 인스턴스를 구축하고, 이러한 온톨로지기반 질의확장 등을 통해 시맨틱검색을 처리하는 영역이다. 마지막으로 지식이용(knowledge utilization) 계층은 검색 이용자가 시맨틱 웹 언어 또는 온톨로지에 대한 지식이 없더라도 직관적으로 검색 질의를 입력하고 검색 결과를 확인할 수 있도록 구성하였다.
또한 OWL구문을 추론하기 위해서 사용되는 n-Triple형태는 기존의 추론엔진에서 추론에 용이한 구조로써 다양한 온톨로지기반의 추론을 가능하게 한다. 본 논문에서는 OWL Full, OWL DL, OWL Lite언어 중에서 OWL DL을 사용하며 이에 해당하는 공리를 사용하여 온톨로지를 구성하였다.
본 연구단계에서는 개념기반 검색엔진과 이를 위한 의미망기반 지식베이스를 추가적으로 개발하였으며, 총 세 개의 검색엔진의 성능을 비교·평가하였다.
본 연구에서는 시스템 구현 단계가 크게 추론 및 검색에 이용되는 각종 색인 및 의미망 등을 구축하는 검색준비 단계와 실제 추론 및 검색을 하는 검색 단계로 나눠진다.
본 연구에서는 온톨로지기반 시맨틱검색엔진의 성능을 비교하기 위해 CBIRS를 구현하였으며, 이를 위해 문헌기반지식베이스를 구축하였다. 문헌기반 지식베이스는 네 개의 지식베이스 중 기본 지식베이스가 되는 것으로서, 실험 문헌 집단의 각 문헌에 출현한 용어를 자동으로 추출하고 추출된 용어들의 가중치를 산출한다.
본 연구에서는 총 세 개의 지식베이스(트리플구조 온톨로지, 의미거리기반 의미망지식베이스, 키워드중심의 도치색인파일)를 구축하였고, 이의 성능을 측정하기 위해 각각 세 개의 검색엔진(추론규칙 기반 제나검색엔진, 개념기반 검색엔진, 키워드기반 루씬검색엔진)을 구축하였다. 온톨로지의 성능 및 추론엔진의 성능을 평가하였으며, 온톨로지 개발, 추론엔진 적용 및 성능평가 비교과정을 간단히 그림으로 표현하면 <그림 2>와 같다.
선행연구에서 개발한 다양한 추론엔진을 적용하고, 또한 개념기반 검색기법을 적용하였으며, 각각의 성능을 비교·분석하였다.
셋째, 구축된 온톨로지 및 지식베이스에 추론엔진을 적용하였다. 선행연구에서 개발한 다양한 추론엔진을 적용하고, 또한 개념기반 검색기법을 적용하였으며, 각각의 성능을 비교·분석하였다.
원본 서지정보로부터 파서 및 필드분석기를 거쳐 정규화된 서지정보를 추출하고 이로부터 온톨로지를 생성하게 되는데, 개념 온톨로지는 수작업으로 구축하였고, 서지온톨로지는 자동으로 구축하여 각각 OWL 개념온톨로지와 OWL 서지온톨로지를 생성하였다. 시스템의 성능을 평가하기 위해 루씬(Lucene)이라는 검색엔진의 루씬자동 색인기를 이용하여 전문검색용 색인파일을 별도로 구축하였다.
<그림 2>에서 보는 바와 같이 수작업으로 구축된 온톨로지(A)와 자동으로 구축된 의미망 지식베이스(B), 그리고 단순키워드검색을 위해 구축된 도치색인파일(C)로 기본적인 지식베이스를 구축한다. 온톨로지 A를 대상으로 제나 추론엔진(D)을 적용하고, 자동으로 구축된 의미망지식베이스에 개념기반 검색엔진(E)을 적용하며, 도치색인파일에는 루씬검색엔진(F)을 각각 적용한다. 이로부터 각각 G, H, I의 검색결과를 도출하여 그 성능을 재현율과 정확률로 평가한다.
온톨로지의 성능 및 추론엔진의 성능을 평가하였으며, 온톨로지 개발, 추론엔진 적용 및 성능평가 비교과정을 간단히 그림으로 표현하면 와 같다.
온톨로지 작성 시의 편의를 위해 한자들은 모두 한글로 변환하였다. 원본 서지정보로부터 파서 및 필드분석기를 거쳐 정규화된 서지정보를 추출하고 이로부터 온톨로지를 생성하게 되는데, 개념 온톨로지는 수작업으로 구축하였고, 서지온톨로지는 자동으로 구축하여 각각 OWL 개념온톨로지와 OWL 서지온톨로지를 생성하였다. 시스템의 성능을 평가하기 위해 루씬(Lucene)이라는 검색엔진의 루씬자동 색인기를 이용하여 전문검색용 색인파일을 별도로 구축하였다.
이 데이터베이스는 논문기사에 대한 서지정보를 포함하여 목차정보와 초록정보, 그리고 저자의 소속정보 등이 메타데이터로 구축되어 있으며, 원문정보를 포함하고 있다. 이 때, 원문정보를 제외한 나머지 메타데이터만을 활용하여 서지온톨로지를 구축하였다. 온톨로지 작성 시의 편의를 위해 한자들은 모두 한글로 변환하였다.
온톨로지 A를 대상으로 제나 추론엔진(D)을 적용하고, 자동으로 구축된 의미망지식베이스에 개념기반 검색엔진(E)을 적용하며, 도치색인파일에는 루씬검색엔진(F)을 각각 적용한다. 이로부터 각각 G, H, I의 검색결과를 도출하여 그 성능을 재현율과 정확률로 평가한다.
본 논문에서 구축된 시스템의 추론엔진 부분은 HP 연구소에서 개발된 제나 시맨틱 웹 라이브러리 중에서 일반적인 추론 기능을 제공하는 추론 모듈(Generic Rule Reasoner)을 활용한다. 제나는 RDF형태의 문서의 변환 및 추론에 용이한 모델을 제공하므로, OWL 형태의 온톨로지를 제나의 모델로 생성하고 일반적인 규칙 형태로 OWL 공리를 표현하여 온톨로지와 메타데이터를 융합하여 추론을 수행한다.
한동일, 권혁진, 정학진(2007)은 시맨틱검색 시스템에 관한 포괄적인 개념적 모델 제안과 실질적인 구현 사례를 제시한다. 제안된 시맨틱검색시스템은 개념적으로 3계층의 아키텍처; 지식획득 계층, 지식표현 계층, 지식이용 계층으로 구성하여 설계 및 구현되었다. 지식획득(knowledge acquisition) 계층은 다양한 소스(source)의 콘텐츠(텍스트, 이미지, 멀티미디어 등)로부터 시맨틱 메타데이터를 생성 및 저장하는 영역이다.
즉 1단계 연구에서 구축된 온톨로지를 기반으로 3개의 검색엔진을 개발하여 적용하고, 그 성능을 비교하고자 하였다. 본 연구단계에서는 개념기반 검색엔진과 이를 위한 의미망기반 지식베이스를 추가적으로 개발하였으며, 총 세 개의 검색엔진의 성능을 비교·평가하였다.
먼저, 통계적 기법에 의해 용어와 용어간의 유사도를 산출하고, 이를 기반으로 의미망 구조의 지식베이스를 구축할 수 있다. 즉, 지식베이스를 구축하기 위해 각 문헌으로부터 용어를 추출하고 용어의 가중치를 산출한 다음 용어의 문헌 내 동시출현빈도를 기반으로 유사도를 산출하여 의미망으로 표현한다.
첫째, 시맨틱 웹 및 추론기법 관련 이론들에 대해 지금까지 연구되어 온 것을 전반적으로 검토하였다.
첫째, 온톨로지를 구축한다. 온톨로지 구축대상은 정보관리학회지 2007년부터 2009년까지의 3년간의 논문기사를 대상으로 하였으며, 구축방법은 온톨로지 구축도구를 이용한 수작업에 의한 구축방법과 알고리즘을 이용한 자동적인 구축방법으로 나뉜다.
본 연구에서는 총 세 개의 지식베이스(트리플구조 온톨로지, 의미거리기반 의미망지식베이스, 키워드중심의 도치색인파일)를 구축하였고, 이의 성능을 측정하기 위해 각각 세 개의 검색엔진(추론규칙 기반 제나검색엔진, 개념기반 검색엔진, 키워드기반 루씬검색엔진)을 구축하였다. 온톨로지의 성능 및 추론엔진의 성능을 평가하였으며, 온톨로지 개발, 추론엔진 적용 및 성능평가 비교과정을 간단히 그림으로 표현하면 <그림 2>와 같다.
동일한 주제분야를 대상으로 하여 20여개의 질의를 입력하고 재현율과 정확률의 평균으로 그 성능을 비교하였다. 추가적으로 루씬이라는 상용의 키워드검색시스템과의 성능도 비교하였다.
추론엔진은 OWL 형식의 온톨로지를 로드해 일관성 검사를 수행한 후 클래스의 계층구조를 추론하고 클래스에 대하여 기술된 객체속성을 추론한다. 1차적으로 제 1키워드를 가지로 검색한 논문주석정보 데이터들로부터 생성한 OWL 논문온톨로지를 대상으로 DL 쿼리에 대한 2차 추론을 하여 사용자 질의에 부합하는 논문의 식별자(Article_ID)를 결과처리기에 반환한다.
또한 사용자의 선호도 정보 역시 개념으로 표현함으로써, 협업적 필터링 기반 추천 알고리즘의 치명적인 단점인 희박성 문제를 해결하였다. 특히, 이전의 정보 추출 연구들이 검색 혹은 추천의 한 측면에 초점을 맞춘 모델을 제시한 반면, 이 연구는 검색 및 추천을 시맨틱 공간에서 수행할 수 있는 정보 추출 모델을 제시하였다.
대상 데이터
본 연구를 위해 검토된 추론엔진은 MINERVA, 제나를 비롯한 6개의 엔진이며, 이 중 가장 일반적으로 사용되고 있는 추론엔진은 제나로 분석되었으며, 제나는 본 연구에서 실험을 위해 구현 및 평가되었다.
첫째, 온톨로지를 구축한다. 온톨로지 구축대상은 정보관리학회지 2007년부터 2009년까지의 3년간의 논문기사를 대상으로 하였으며, 구축방법은 온톨로지 구축도구를 이용한 수작업에 의한 구축방법과 알고리즘을 이용한 자동적인 구축방법으로 나뉜다.
이를 위해 실험을 위한 온톨로지를 구축하였으며, 온톨로지 구축대상은 정보관리학회지 2007년부터 2009년까지의 3년간의 논문기사를 대상으로 하였으며, 구축방법은 온톨로지 구축도구를 이용한 수작업에 의한 구축방법과 알고리즘을 이용한 자동적인 구축방법으로 나뉜다. 또한 온톨로지 및 추론엔진의 성능을 비교·평가하였다.
본 연구에서는 기초 언어자원을 효과적으로 구축할 수 있는 방법론을 모색하고 그 성능을 평가한 1차 연구결과를 기반으로 추론에 기반한 의미검색 환경을 구현할 수 있도록 하고자 하였다(Noh 2011). 즉, 1차 연구에서 구축된 온톨로지는 정보관리학회지에 수록된 논문기사 189건이며, 누리미디어의 DBPia로부터 추출된 데이터이다. 이 데이터베이스는 논문기사에 대한 서지정보를 포함하여 목차정보와 초록정보, 그리고 저자의 소속정보 등이 메타데이터로 구축되어 있으며, 원문정보를 포함하고 있다.
이론/모형
본 논문에서의 시맨틱검색은 ‘Description Logic’ 기반의 온톨로지를 바탕으로 생성된 메타데이터에 대해 전방향 추론기법을 사용하여 검색하기 때문에 기존의 키워드검색이나 일반적인 질의응답시스템에서 찾기 힘든 정보에 대한 검색이 가능하다. 본 논문에서 구축된 시스템의 추론엔진 부분은 HP 연구소에서 개발된 제나 시맨틱 웹 라이브러리 중에서 일반적인 추론 기능을 제공하는 추론 모듈(Generic Rule Reasoner)을 활용한다. 제나는 RDF형태의 문서의 변환 및 추론에 용이한 모델을 제공하므로, OWL 형태의 온톨로지를 제나의 모델로 생성하고 일반적인 규칙 형태로 OWL 공리를 표현하여 온톨로지와 메타데이터를 융합하여 추론을 수행한다.
셋째, 본 연구에서는 지금까지 연구되고 적용되어 온 온톨로지 구축방법을 이용하되, 구축된 온톨로지로부터 이용자의 요구에 적합한 자료를 탐색하는 검색기법의 적용에 있어서, 개념기반 정보검색기법(Concept-based Information Retrieval Techniques)을 적용하였다. 개념기반 정보검색은 2000년대 초반에 연구되기 시작하였으며, 그 성능에 있어서 현재까지 연구되어 온 다른 어떤 검색기법보다 강력한 검색기법으로 평가되어 왔으나(Noh 2001), 사실상 그 개념을 이해하는데 이론이 너무 어려울 뿐만 아니라 개념기반 검색대상이 되는 의미망 지식베이스를 구축함에 있어 문헌수가 증가함에 따라 그 지식베이스 구축시간이 기하급수적 으로 증가한다는 한계 때문에 10년 전에는 상용시스템에 적용하거나 일반화 시키지 못하고 있는 실정이었다.
특정 문헌에 출현한 용어의 가중치를 산출하기 위한 수식은 다양하지만, 본 연구에서는 단어빈도와 역문헌 빈도를 각각 최대값으로 나누어 정규화시킨 수식을 사용하였다(Salton, Fox, & Wu 1983).
또한 온톨로지 및 추론엔진의 성능을 비교·평가하였다. 특히 본 연구에서는 지금까지 연구되고 적용되어 온 온톨로지 구축방법을 이용하되, 구축된 온톨로지로부터 이용자의 요구에 적합한 자료를 탐색하는 검색기법의 적용에 있어서, 개념기반 정보검색기법(Concept-based Information Retrieval Techniques)을 적용하였다. 즉, 본 연구에서는 개념기반 정보검색기법을 시맨틱 웹 검색기법인 제나와 그 성능을 비교함으로써 실제 적용성 및 검색 성능의 향상을 도모하고자 하였다.
성능/효과
김영민, 이상준(2003)의 경우, 공학 논문들을 대상으로 논문 제목의 구성 형태를 분석하고, 제목 내의 키워드들의 역할 정보들을 RDF 시맨틱으로 구성하여 논문검색에 이용하는 방법을 제안했다. XML형태의 시맨틱을 이용하여 논문 검색에 이용한 결과 키워들 만을 이용하는 기존 방법보다는 훨씬 검색자의 의도를 잘 반영하면서도 필요한 결과만을 얻을 수 있었다. 그러나 검색자의 의도를 반영했는지의 여부를 검색된 문헌의 수로 평가하고 일반적인 성능평가 기준을 적용하지 않아 객관성을 증명하기가 어렵다고 할 수 있다.
OWL로 온톨로지를 구축하고 온톨로지 추론알고리즘과 일반 키워드검색기법의 성능을 비교하였다. 그 결과 온톨로지기반 추론시스템이 키워드검색기법보다 성능이 높게 나타났다고 밝혔다. 그러나 연구에서 개발된 추론엔진에 대한 명확한 설명이 없어 신뢰도에 문제가 있다고 본다.
이 목적의 실현은 인터넷 자원을 소화할 수 있는 하부구조의 정립을 전제한 매우 복잡하고 시급한 과제라 할 수 있다. 단일 인터페이스로 모든 유형의 정보(텍스트, 음악, 동영상, 이미지 등)에 접근하는 방법과 용이성과 융통성을 그 특징으로 하는 HTML의 광범위한 수용으로 인터넷 정보량은 폭발적으로 증가했고 그 결과 전문색인 기반 검색엔진의 효율은 현격히 낮아졌다. 단순히 용어의 발생빈도수를 따라 정보를 차등취급하는 방법은 웹 문서에 기술된 모든 내용에 거의 일률적인 중요성을 부여하는 것이며 이것은 전문색인 검색의 근본적인 단점이라고 할 수 있다.
도출된 개념을 이용하여, 사용자의 질의어 및 카탈로그 문서들 간의 색인어 불일치 문제를 해결한 시맨틱검색 모델을 제시하였다. 또한 사용자의 선호도 정보 역시 개념으로 표현함으로써, 협업적 필터링 기반 추천 알고리즘의 치명적인 단점인 희박성 문제를 해결하였다. 특히, 이전의 정보 추출 연구들이 검색 혹은 추천의 한 측면에 초점을 맞춘 모델을 제시한 반면, 이 연구는 검색 및 추천을 시맨틱 공간에서 수행할 수 있는 정보 추출 모델을 제시하였다.
검색절차는 시드검색, 시맨틱탐색, 순위화 3가지 단계로 구성되며, 여기에 ‘AND' 연산자 기능과 ‘중심주제어’ 검색기능을 추가로 제안하였다. 또한 제안된 시맨틱검색을 제공하는 프로토타입 시스템을 구현하고, 시스템 평가를 위한 실험을 통해 분산되어 있는 다양한 웹 페이지에 대한 기존의 키워드검색보다 약 10% 이상의 성능 향상을 보였다고 하였다. 그러나 이 연구에서는 노드간의 의미적 관계를 측정하여 추론하지 못한 한계를 보였다.
또한, 세 검색엔진의 F값의 평균은 각각 67.90%, 74.05%, 78.87%로, 재현율과 정확률의 비중을 동일하게 하였을 때, CBIRS가 가장 높은 성능을 나타낸 것을 알 수 있다.
먼저, 재현율에 있어서는 86.12%의 성능으로 개념기반검색기법이 가장 높은 성능을 보여준 것으로 나타났고, 다음으로 시맨틱검색이 64.48%로 높게 나타났으며, 키워드검색이 54.98%로 가장 낮게 나타났다. 이와 같은 재현율의 차이는 온톨로지 또는 의미망지식베이스를 기반으로 개념확장을 했느냐 하지 않았느냐의 차이로 보여진다.
이는 키워드검색의 경우 완전일치 되는 문헌만을 ‘AND' 조합에 의해 검색하기 때문에 매우 높은 정확률을 보여주는 것이고, 시맨틱검색은 온톨로지를 기반으로 비교적 정확한 개념확장을 하기 때문인 것을 알 수 있다. 반면에 CBIRS의 경우 확장되는 개념의 수 및 유사도를 기반으로 하며, 초기의 개념이 1개에서 출발하지만 8개까지 확장될 수 있기 때문에, 확장된 용어 중에 관련 없는 개념이 일부 포함되어 정확률이 약간 떨어지는 것으로 분석되었다. 그러나 전반적으로 보았을 때는 개념기반검색의 성능이 약간 높은 것을 알 수 있다.
본 논문에서의 시맨틱검색은 ‘Description Logic’ 기반의 온톨로지를 바탕으로 생성된 메타데이터에 대해 전방향 추론기법을 사용하여 검색하기 때문에 기존의 키워드검색이나 일반적인 질의응답시스템에서 찾기 힘든 정보에 대한 검색이 가능하다.
본 연구 결과는 유동적인 지식베이스 환경에서 높은 검색성능을 원하는 검색시스템에 적용할 수 있는 개념기반검색시스템의 성능을 온톨로지기반으로 구축된 시맨틱검색엔진인 제나와 비교하였으며, 그 성능에 있어 비교적 높은 것을 증명하였다. 따라서 동적환경에서 정보서비스를 제공하는 도서관, 정보센터, 전문연구기관 등의 서비스에의 범용적 적용가능성과 유용성을 높이는데 기여하게 될 것이다.
시스템 성능평가 결과 재현율에 있어서는 개념기반검색기법이 가장 높은 성능을 보여준 것으로 나타났고, 다음으로 시맨틱검색기법으로 나타났으며, 키워드검색기법이 가장 낮게 나타났다. 이와 같은 재현율의 차이는 온톨로지 또는 의미망지식베이스를 기반으로 개념확장을 했느냐 하지 않았느냐의 차이로 분석된다.
<그림 5>에서 보는 바와 같이 루씬, 제나, CBIRS의 F값의 평균은 각각 67.90%, 74.05%, 78.87%로 나타났으며, CBIRS가 가장 높은 성능을 보여주었고, 루씬이 가장 낮은 성능을 보여주었다. 즉, CBIRS는 재현율에 있어서 가장 높은 성능을 보여 주었고, 정확률에 있어서는 가장 낮은 성능을 보여주었지만, 재현율과 정확률의 비중을 동일하게 하였을 때, 가장 높은 성능을 나타낸 것을 알 수 있다.
87%로 나타났으며, CBIRS가 가장 높은 성능을 보여주었고, 루씬이 가장 낮은 성능을 보여주었다. 즉, CBIRS는 재현율에 있어서 가장 높은 성능을 보여 주었고, 정확률에 있어서는 가장 낮은 성능을 보여주었지만, 재현율과 정확률의 비중을 동일하게 하였을 때, 가장 높은 성능을 나타낸 것을 알 수 있다.
심재문(2008)은 지금까지 개발된 추론엔진들의 성능을 평가하는 연구를 수행했다. 추론엔진들 성능을 정적평가, 동적평가, 전반적평가 등으로 구분하여 평가하였으며, 전반적으로 MINERVA가 가장 높은 성능을 보여 주는 것으로 나타났다. 그러나 기존에 개발된 검색엔진의 성능만 평가하였을 뿐 새로운 개선방안 모색은 하지 못한 논문이라 할 수 있다.
후속연구
본 연구 결과는 유동적인 지식베이스 환경에서 높은 검색성능을 원하는 검색시스템에 적용할 수 있는 개념기반검색시스템의 성능을 온톨로지기반으로 구축된 시맨틱검색엔진인 제나와 비교하였으며, 그 성능에 있어 비교적 높은 것을 증명하였다. 따라서 동적환경에서 정보서비스를 제공하는 도서관, 정보센터, 전문연구기관 등의 서비스에의 범용적 적용가능성과 유용성을 높이는데 기여하게 될 것이다. 특히 서비스 대상 도메인이 변경되어 의미 검색 대상자원이 변경되었을 경우에도 기 구축된 언어자원의 의미망이 자동으로 최적화될 수 있도록 할 것이다.
특히 서비스 대상 도메인이 변경되어 의미 검색 대상자원이 변경되었을 경우에도 기 구축된 언어자원의 의미망이 자동으로 최적화될 수 있도록 할 것이다. 또한 기존의 키워드 매칭방식의 검색기술이 제공하지 못했던 의미적 연관정보를 사용자에게 제공함으로써 향후 전자도서관 활성화에 기여할 수 있을 것이다.
따라서 효율적인 자원구축 기법으로 구축된 온톨로지를 기반으로 현실적인 의미기반 검색시스템을 개발하는 것이 필요하다 하겠다. 특히 동적환경의 다양한 주제분야의 지식정보를 의미망 형태로 효과적으로 구축하고 의미적 연관검색이 가능하도록 하기위해, 의미기반 연관검색(추론 알고리즘)에 관한 보다 깊이 있는 연구가 필요하다고 본다.
따라서 동적환경에서 정보서비스를 제공하는 도서관, 정보센터, 전문연구기관 등의 서비스에의 범용적 적용가능성과 유용성을 높이는데 기여하게 될 것이다. 특히 서비스 대상 도메인이 변경되어 의미 검색 대상자원이 변경되었을 경우에도 기 구축된 언어자원의 의미망이 자동으로 최적화될 수 있도록 할 것이다. 또한 기존의 키워드 매칭방식의 검색기술이 제공하지 못했던 의미적 연관정보를 사용자에게 제공함으로써 향후 전자도서관 활성화에 기여할 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
일반적인 웹의 목적은 무엇인가?
일반적인 웹의 목적은 사람 사이의 원활한 커뮤니케이션과 더불어 컴퓨터시스템들 간의 효과적인 커뮤니케이션이라 할 수 있다. 이 목적의 실현은 인터넷 자원을 소화할 수 있는 하부구조의 정립을 전제한 매우 복잡하고 시급한 과제라 할 수 있다.
전문색인 검색의 근본적인 단점은?
단일 인터페이스로 모든 유형의 정보(텍스트, 음악, 동영상, 이미지 등)에 접근하는 방법과 용이성과 융통성을 그 특징으로 하는 HTML의 광범위한 수용으로 인터넷 정보량은 폭발적으로 증가했고 그 결과 전문색인 기반 검색엔진의 효율은 현격히 낮아졌다. 단순히 용어의 발생빈도수를 따라 정보를 차등취급하는 방법은 웹 문서에 기술된 모든 내용에 거의 일률적인 중요성을 부여하는 것이며 이것은 전문색인 검색의 근본적인 단점이라고 할 수 있다.
DAML+OIL(DARPA Agent Markup Language+Ontology Inference Layer) 마크업 언어의 취약점은?
RDF와 RDF 스키마를 기반으로 이 두 언어에 부족한 모델링 요소를 확장, 강화하여 개발된 언어가 DAML+OIL(DARPA Agent Markup Language+Ontology Inference Layer) 마크업 언어이다. 그러나 이 언어의 취약점은 용어간의 의미 혼동을 일으킬 수 있다는 것이며 이러한 단점을 보완하기 위해 이 언어와 거의 완벽한 호환성을 유지한 OWL이 제시된 것이다. 이 언어는 웹 문서 및 응용프로그램에 내재한 클래스와 속성들 간의 관계 정의 기능을 강화함으로써 DAML의 단점을 보완하도록 발전된 언어이다.
참고문헌 (30)
강래구. 2007. 시맨틱 웹 환경에서 온톨로지기반의 지능형 상품 검색 시스템 설계 및 구현. 석사학위논문. 조선대학교.
김영민, 이상준. 2003. 시맨틱을 이용한 연구 논문 검색 시스템. 한국인터넷정보학회, 4(3): 15-22.
김태환, 전호철, 최중민. 2008. 시맨틱 웹 서비스 기반 커뮤니티 정보 검색 시스템. 한국컴퓨터종합학술대회 논문집, 35(1): 299-304.
박종욱. 2008. 온톨로지기반 검색을 이용한 지능형 통계 검색 모델에 관한 연구. 석사학위논문. 공주대학교.
박지형, 박상언, 이명진, 홍준석, 김우주. 2007. 다중 온톨로지를 이용한 시맨틱 웹 포털에서의 의미형 검색. 한국지능정보시스템학회, 11: 463-467.
박진석, 양기철, 오정진. 2004. 시맨틱 웹 기반 박물관 유물 검색을 위한 온톨로지 설계 및 구현. 한국콘텐츠학회, 2(2): 269-274
심재문. 2008. 온톨로지 추론엔진 성능 평가 및 지능형 엔진 선택 기법에 대한 연구. 석사학위논문. 경희대학교.
이재원, 박성찬, 이상근, 박재휘, 김한준, 이상구. 2010. 개념 망을 통한 전자 카탈로그의 시맨틱검색 및 추천. 한국전자거래학회, 15(3): 131-145.
정은경. 2003. 시맨틱 웹 환경에서의 온톨로지 기반 정보검색 시스템. 석사학위논문. 제주대학교.
하상범, 한은영, 최호준. 2005. OWL 기반의 SPARQL을 이용한 시맨틱검색. 한국정보과학회, 32(2): 706-708.
Carroll, J. J., L. Dickinson, D. Dollin, D. Reynolds, A. Seaborne, and K. Wilkinosn. 2004. "Jena: Implementing the Semantic Web Recommendations." Proceedings of the 13th International World Wide Web Conference, New York. 74-83.
Chen, H. and V. Dhar. 1991. "Cognitive Process as a Basis for Intelligent Retrieval Systems Design." Information Processing & Management, 27(5): 405-432.
Christophides, V., et al. 2003. "The ICSFORTH SWIM: A Powerful Semantic Web Integration Middleware." In Proceedings of the First International Workshop on Semantic Web and Databases(SWDB), Co-located with VLDB 2003.
Haarslev, V., R. Moller, and M. Wessel. 2004. "Querying the Semantic Web with Racer + nRQL." Proceedings of the Ki-04 Workshop on Applications of Description Logics.
Karvounarakis, G., A. Magganaraki, S. Alexaki, V, Christophides, D. Plexousakis, Michel Scholl, and Karsten Tolle. 2003. "Querying the Semantic Web with RQL." Computer Networks, 42(5): 617-640.
Kevin, W., C. Sayers, and H. Kuno. 2003. "Efficient RDF Storage and Retrieval in Jena 2." Proceedings of First International Workshop on Semantic Web and Databases, 131-151.
Lee, M. C., H. K. Jan, Y. S. Paik, S. E. Jinf, and S. Lee. 2006. "A Ubiquitous Device Collaboration Infrastructure: Celadon." 3rd Workshop on Software Technologies for Future Embedded & Ubiquitous Systems.
Ma, L., G. Xie, T. Yang, and L. Zhang. 2006. "IODT: IBM Integrated Ontology Development Toolkit." [cited 2009.12.16]. Available at: , 2004.
Maedche A, B. Motik, L. Stojanovic, R. Studer, and R. Volz. 2003. "Ontologies for Enterprise Knowledge Management." IEEE Intelligent Systems, 18(2): 26- 33.
Noh, Younghee. 2001. "A Study on the Estimation of Performance of the Conceptbased Information Retrieval Model for Searching the Web." Journal of Information Science, 28(5): 407-415.
Noh, Younghee. 2011. "A Study on Constructing the Ontology of LIS Journal." Journal of the Korean Society for Information Management, 28(2): 177-193.
Wessel, M. and R. Moler. 2005. "A High Performance Semantic Web Query Answering Engine." International Workshop on Description Logics(DL2005), Edinburgh, Scotland, UK.
Zhou, J., L. Ma, Q. Liu, L. Zhang, Y. Yu, and Y. Pan. 2006. "Minerva: A Scalable OWL Ontology Storage and Inference System." The Semantic Web-ASWC 2006, Volum LNCS 4185, 429-443.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.