[논문]시맨틱 주석을 이용한 내용 기반 데이터 검색

김병곤; 오성균

doi:10.9728/dcs.2011.12.4.429

시맨틱 주석을 이용한 내용 기반 데이터 검색
Content based data search using semantic annotation 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.12 no.4, 2011년, pp.429 - 436

초록
AI-Helper

인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다. 그러나, 동일한 종류의 자료에 대한 주석 위주로 진행되었고, 각기 다른 방법과 형태로 생성된 주석 데이터 간에는 호환적인 검색이나 처리가 어렵다. 본 연구에서는 이 문제를 해결하기 위하여 다양한 주석문서를 내용분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 문서간의 유사도를 측정하는 방법을 제시하였다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석문서를 검색하여 결과적으로 자료의 종류나 형태에 상관없이 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.

Abstract ▼ AI-Helper

Various documents, images, videos and other materials on the web has been increasing rapidly. Efficient search of those things has become an important topic. From keyword-based search, internet search has been transformed to semantic search which finds the implications and the relations between data elements. Many annotation processing systems manipulating the metadata for semantic search have been proposed. However, annotation data generated by different methods and forms are difficult to process integrated search between those systems. In this study, in order to resolve this problem, we categorized levels of many annotation documents, and we proposed the method to measure the similarity between the annotation documents. Similarity measure between annotation documents can be used for searching similar or related documents, images, and videos regardless of the forms of the source data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

인터넷상의 수많은 자료들을 좀 더 정확하고 간결하게 검색하고자 하는 욕구가 많아질수록 기존의 HTML 문서에 대한 키워드 검색의 범주를 벗어나, XML 기반의 메타데이터정보구축을 통한 차세대 검색 시스템을 개발하고자 하는 연구가 활발히 진행되고 있다. 본 연구에서는 시맨틱 주석으로 구성된 문서들 간의 유사도 측정을 통하여 좀 더 관계가 많은 문서들을 찾고 이를 바탕으로 검색 결과를 산출하도록 하는데 연구의 중점을 두었다. 다양한 주석 문서를 내용 분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 주석 문서간의 유사도를 측정하는 방법을 제시하였다.
본 연구에서는 이 문제를 해결하기 위하여 다양한 주석 문서를 RDF/XML형태로 변형하고, 변형된 주석 데이터를 내용에 따라 단계별로 분류하는 방법과 이를 바탕으로 한 유사도 측정 방법을 제시한다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석 문서를 검색하여 결과적으로 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.
시맨틱 주석은 인스턴스 데이터에 대한 메타데이터를 생성하고 이를 온톨로지 클래스와의 매핑을 통하여 새로운 정보를 제공하는 것을 목표로 한다. 문서, 이미지, 동영상 등의 인스턴스 데이터에 주석을 부여할 때 다음과 같은 사항들을 고려하여 작성하게 된다.

제안 방법

M-OntoMat-Annotizer[10]는 이미지나 비디오와 같은 멀티미디어 자료를 분석하여 시맨틱 주석을 생성하는 시스템이다. MPEG-7 비쥬얼 설명자(Descriptions)와 온톨로지를 연관하여 주석을 표현 할 수 있도록 하였다. 핵심 온톨로지로는 DOLCE를 사용하며 기본적인 표현 언어는 RDFS를 사용하였다.
본 연구에서는 시맨틱 주석으로 구성된 문서들 간의 유사도 측정을 통하여 좀 더 관계가 많은 문서들을 찾고 이를 바탕으로 검색 결과를 산출하도록 하는데 연구의 중점을 두었다. 다양한 주석 문서를 내용 분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 주석 문서간의 유사도를 측정하는 방법을 제시하였다. 유사도 관계를 측정하기 위한 항목으로 스키마, 요소, 속성, 값, 단계의 5가지 항목을 사용하였다.
주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석 문서를 검색하여 결과적으로 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다. 먼저, 다양한 형태의 주석 데이터를 3가지 형태로 단계별로 분류하며, 주석 간의 유사도를 측정할 때 단계, 스키마, 요소, 속성을 가지고 유사도를 측정할 수 있고, 이를 통하여 검색할 때에도 검색하고자 하는 의도에 따른 검색이 가능해 진다.
각 영화별로 <표 4>와 같은 특성을 가지는 3개의 주석 문서를 RDF/XML로 표현하여 실험에 사용하였다. 모든 주석 문서는 더블린코어, FOAF, MPEG-7 스키마와 직접 설계한 영화 스키마를 사용하여 작성하였다.
본 논문에서 제안한 시맨틱 주석 문서의 유사도 측정 알고리즘은 C 언어로 구현하였고 1GB RAM, 윈도우 XP 운영체제가 설치된 3.4GHZ Pentium 4 PC 환경에서 실험하였다.
MnM[3]은 자연어 처리 방식으로 주석을 생성한다. 순차적으로 입력되는 단어들을 사용하여 규칙을 생성하고 생성된 규칙들을 가지고 텍스트에 시맨틱 태그를 삽입하며, 교정규칙에 의하여 좀 더 정확한 주석을 부여하는 방식을 사용한다. KIM[5]은 시맨틱 주석, 인덱싱, 검색을 위한 서비스와 하부 구조를 제공하는 시스템이다.
<표2>에서 언급한 바와 같이 유사도 측정을 위하여 크게 스키마, 요소, 속성, 값, 단계의 5가지 측면에서 주석 간의 유사도를 측정하도록 한다. 가장 유사도가 높은 경우는 동일 스키마의 요소와 속성을 사용하여 표현되고 동일한 단계의 일치하는 값을 지니는 요소가 많은 경우로 간주한다.
다양한 주석 문서를 내용 분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 주석 문서간의 유사도를 측정하는 방법을 제시하였다. 유사도 관계를 측정하기 위한 항목으로 스키마, 요소, 속성, 값, 단계의 5가지 항목을 사용하였다. 실험을 통하여 논문에서 제안한 유사도 관계 측정 알고리즘을 결과 값들을 통하여 유사한 주제의 주석 문서들 간의 유사도가 높음을 보였다.
유사도 측정 함수의 3개 가중치 값을 결정하기 위해 와 같이 각 가중치를 변화시켜 실험을 진행하였다.
이러한 다양한 내용과 형태의 문서들을 한 시스템처럼 검색하기 위해서 다음과 같은 중간 단계를 거친다. 주석문서를 메타데이터 표현 방법 중에서 가장 일반적으로 많이 사용되고 있는 XML기반의 RDF/XML형태로 표현하고, 다양한 형태의 주석 데이터를 다음과 같은 3가지 형태로 단계별로 분류한다. 단계별 분류의 목적은 주석 문서가 지니는 메타데이터의 종류를 세분화하여 유사도 측정시에 좀 더 세밀한 비교가 가능하도록 하는데 있다.

대상 데이터

각 영화별로 와 같은 특성을 가지는 3개의 주석 문서를 RDF/XML로 표현하여 실험에 사용하였다.
본 논문에서 제안한 시맨틱 주석 문서의 유사도 함수를 평가하기 위해 에서 제시한 3개의 영화와 관련된 9개의 주석 문서를 대상으로 실험을 진행하였다.

이론/모형

KIM[5]은 시맨틱 주석, 인덱싱, 검색을 위한 서비스와 하부 구조를 제공하는 시스템이다. 온톨로지와 지식 베이스를 이용하여 정보 추출을 수행하며, 하부 저장 구조로서 RDF를 위한 SESAME를 사용한다. 온톨로지 KIMO는 기본 적인 엔티티 클래스와 관계, 제약 사항 등을 표현하며 이를 바탕으로 시맨틱 주석을 표현한다.
MPEG-7 비쥬얼 설명자(Descriptions)와 온톨로지를 연관하여 주석을 표현 할 수 있도록 하였다. 핵심 온톨로지로는 DOLCE를 사용하며 기본적인 표현 언어는 RDFS를 사용하였다.

성능/효과

, , 에서 이미지에 대한 주석 문서에 비해 텍스트 문서에 대한 주석 문서와 동영상에 대한 주석 문서 사이에 더 높은 유사도가 측정되었다.
유사도 관계를 측정하기 위한 항목으로 스키마, 요소, 속성, 값, 단계의 5가지 항목을 사용하였다. 실험을 통하여 논문에서 제안한 유사도 관계 측정 알고리즘을 결과 값들을 통하여 유사한 주제의 주석 문서들 간의 유사도가 높음을 보였다. 제안된 알고리즘은 차세대 인터넷 검색 시스템에 적용 가능할 것으로 보이며, 추후 연구로는 좀 더 다양한 형태의 많은 자료와 주석에 대한 추가적인 연구를 통하여 대용량 데이터 환경에서의 적합성을 보일 것이다.
에서 제시한 3개의 영화와 관련하여 작성된 9개의 시맨틱 주석 문서에 대해 에서 제시한 가중치로 실험을 진행한 결과 모든 실험에서 주석 문서의 대상과 관계없이 같은 영화에 대한 주석 문서들 간의 유사도가 높게 측정되었다.

후속연구

실험을 통해서 알 수 있듯이, 제안된 유사도 측정 알고리즘을 통하여, 웹상의 텍스트, 이미지, 동영상 등의 자료들을 주석 문서로 지니고 있는 경우에 자료의 형태와 상관없이 유사한 주제를 지니고 있는 자료를 검색하는데 사용될 수 있음을 알 수 있다.
실험을 통하여 논문에서 제안한 유사도 관계 측정 알고리즘을 결과 값들을 통하여 유사한 주제의 주석 문서들 간의 유사도가 높음을 보였다. 제안된 알고리즘은 차세대 인터넷 검색 시스템에 적용 가능할 것으로 보이며, 추후 연구로는 좀 더 다양한 형태의 많은 자료와 주석에 대한 추가적인 연구를 통하여 대용량 데이터 환경에서의 적합성을 보일 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	효율적인 검색의 관점은 어떻게 바뀌고 있는가?	인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다.
	내용기반 검색의 가장 일반적인 형태에 사용되는 메타데이터의 예시는 무엇이 있는가?	현재까지 진행되고 있는 내용기반 검색의 가장 일반적인 형태는 대상 문서나 멀티 미디어 데이터에 관한 키워드 형태의 메타데이터 태그(Tag)를 관리자나 사용자가 부여하고 인덱스를 구축하여 검색하는 방법이었다. MP3화일의 ID3태그, 디지털 카메라 JPEG 이미지에 첨부 되는 EXIF 메타데이터, 이미지에 첨부되는 여러 가지 비형식의 데이터들이 쉽게 접할 수 있는 메타데이터의 예이다. 그러나 태그 방식의 내용 기반 검색은 복잡하고 다양한 데이터의 연관 검색을 수행하는데 많은 한계를 지니고 있다.
	현재까지 진행되고 있는내용기반 검색의 가장 일반적인 형태는 무엇인가?	따라서 텍스트 정보에 대한 키워드 검색뿐 만 아니라 멀티미디어 데이터를 검색 질의의 대상으로 하는 내용 기반 데이터 검색을 지원하는 검색 시스템의 개발이 활발히 진행되고 있다. 현재까지 진행되고 있는 내용기반 검색의 가장 일반적인 형태는 대상 문서나 멀티 미디어 데이터에 관한 키워드 형태의 메타데이터 태그(Tag)를 관리자나 사용자가 부여하고 인덱스를 구축하여 검색하는 방법이었다. MP3화일의 ID3태그, 디지털 카메라 JPEG 이미지에 첨부 되는 EXIF 메타데이터, 이미지에 첨부되는 여러 가지 비형식의 데이터들이 쉽게 접할 수 있는 메타데이터의 예이다.

참고문헌 (11)

Siegfried Handschuh and Steffen Staab, editors. Annotation for the Semantic Web. IOS Press, 2003.
Lawrence Reeve and Hyoil Han, The Survey of Semantic Annotation Platforms, The 20th Annual ACM Symposium on Applied Computing (ACM SAC) 2005, Santa Fe, New Mexico, 2005
"MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Markup", Maria Vargas-Vera, Enrico Motta, John Domingue, Mattia Lanzoni, Arthur Stutt and Fabio Ciravegna, The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), Springer Verlag, 2002
PLUS Group, "Simple HTML Ontology Extenstions" http://www.cs.umd.edu/projects/plus/SHOE, 2002.
Popov, B., Kiryakov, A., Kirilov, A., Manov, D., Ognyanoff, D. and Goranov, M., KIM - Semantic Annotation Platform in 2nd International Semantic Web Conference (ISWC2003), 2003, pp 834-849.
The Dublin Core Metadata Initiative, Dublin Core Metadata Element Set, Ver. 1.1: Reference Description. http://dublincore.org/documents/2010/10/11/dces/
Visual Resources Association Data Standards Committee, VRA Core Categories, Version 3.0. http://www.vraweb.org/about/index.html
Information Technology - Multimedia Content Description Interface (MPEG-7). Standard No. ISO/IEC 15938:2001, International Organization for standardization(ISO), 2001.
SF. Chang, T. Sikora, and A. Puri. Overview of the MPEG-7 standard. IEEE Trans. on Circuits and Systems for Video Technology, 11(6) , June 2001, pp 688-695

상세보기
Stephan Bloehdorn, Kosmas Petridis, Carsten Saathoff, Nikos Simou, Vassilis Tzouvaras, Yannis Avrithis, Siegfried Handschuh, Yiannis Kompatsiaris, Steffen Staab, Michael G. Strintzis, "Semantic Annotation of Images and Videos for Multimedia Analysis", The Semantic Web: Research and Applications: Proceedings of the Second European Semantic Web Conference, ESWC 2005, pp 592-607
Image Annotation on the Semantic Web, W3C Working Draft 22 March 2006 http://www.w3.org/TR/2006/WD-swbp-image-annotation-20060322/

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증