MPEG-7 기반 의미적 메타데이터 모델을 이용한 멀티미디어 주석 및 검색 시스템의 개발 Development of Multimedia Annotation and Retrieval System using MPEG-7 based Semantic Metadata Model원문보기
최근 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 멀티미디어 데이터에 대한 다양한 검색은 매우 중요한 이슈가 되고 있다. 멀티미디어 데이터를 효율적으로 처리하기 위해서는 멀티미디어 데이터가 가지고 있는 의미 내용을 추출할 수 있는 의미 기반 검색 기법이 필요하다. 기존 연구되어온 멀티미디어 데이터의 검색은 주석 기반 검색, 특징 기반 검색, 주석과 특징 기반 검색의 통합 검색시스템이 있다. 이러한 시스템들은 검색 데이터의 생성을 위해 주석자의 많은 노력과 시간을 요구하고 특징 추출을 위한 복잡한 계산을 요구하며, 생성된 데이터는 변화되지 않는 정적인 검색을 수행하는 단점이 있다. 또한, 인간에게 좀 더 친숙하고 의미적인 형태의 검색 방법을 제공하지 못하고 있는 실정이다. 본 논문에서는 MPEG-7을 이용하여 멀티미디어 데이터를 구조적으로 표현하고 효율적으로 추출하기 위한 의미적 메타데이터 기반의 멀티미디어 주석 및 검색시스템(S-MARS)을 구현 제안한다. 본 시스템은 멀티미디어 데이터에 대한 주석이나 검색, 브라우징을 위한 그래픽 인터페이스를 제공하며 멀티미디어 정보를 표현하기 위해 의미적 메타데이터 모델을 기반으로 구현하였다. 멀티미디어 데이터에 대한 의미적 메타데이터 모델은 MPEG-7 표준에 정의되어 있는 멀티미디어 묘사 스키마를 기반으로 XML 스키마를 이용하여 작성하였다. 결론적으로, 제시한 멀티미디어 데이터에 대한 의미적 메타데이터를 XML 형태로 표현하고, XML을 지원하는 데이터베이스 시스템을 이용하여 표준적인 데이터의 상호 교환이 용이하게 이루어질 수 있으며, 의미적 메타데이터를 활용하여 삽입 기반 검색 알고리즘 방법을 제공함으로써 검색에 대한 정확성과 사용자의 검색 만족도를 극대화 시킬 수 있다. 마그마 저장소로의 유입과 마그마 저장소 아래에서 공급되는 모마그마의 성분변화에 의해서 미량원소 함량이 급격하게 변한 것으로 해석된다./^4He$ 비와 $^4He/^{20}Ne$ 비는 $0.0143{\times}10^{-6}{\sim}0.407{\times}10^{-6}$ 범위와 $6.49{\sim}584{\times}10^{-6}$ 범위를 각각 보여주어 대기와 지각성분의 혼합선상에 도시된다. 이는 온천수내 헬륨가스의 대부분이 지각기원임을 의미한다. 죽림온천(JR1)의 경우 맨틀기원의 헬륨가스의 혼합율이 다른 온천에 비해 다소 높은 비율을 보여준다. 이들 동위원소비와 온천수의 pH와는 대체적으로 정의 상관관계가 확인되었다. 아울러 $^{40}Ar/^{36}Ar$비가 $292.3{\times}10^{-6}{\sim}304.1{\times}10^{-6}$ 범위로 대기기원임을 지시한다. Gram 양성, Gram 음성 균주는 Escherichia coli KCCM 11591를 제외하고는 0.8 - 0.95 cm로 항균력이 강했으며, Gram negitive의 Pseudomonas aeruginosa KCTC 1750 에서는 43% 발효주에는 0.95 cm, 45% 고은 발효주에는 0.95 cm의 항균성을 나타냈으며 관능평가에서도 가장 높게 났다. 관능평가에서는 45% 고온 발효주가 가장 높게 나타났으며, 항산화성 실험에 나타난 저온 45%의 갈색도의 측정과는 항산화성에서는 좀 다른 결과를 나타낸다. 그러나 항균성이 가장 높게 나타난 43-45%와 관능평가에서 가장 높게 나타난 45% 고온 발효주를 볼 때 본 연구에서는 고온 발효주 45%가
최근 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 멀티미디어 데이터에 대한 다양한 검색은 매우 중요한 이슈가 되고 있다. 멀티미디어 데이터를 효율적으로 처리하기 위해서는 멀티미디어 데이터가 가지고 있는 의미 내용을 추출할 수 있는 의미 기반 검색 기법이 필요하다. 기존 연구되어온 멀티미디어 데이터의 검색은 주석 기반 검색, 특징 기반 검색, 주석과 특징 기반 검색의 통합 검색시스템이 있다. 이러한 시스템들은 검색 데이터의 생성을 위해 주석자의 많은 노력과 시간을 요구하고 특징 추출을 위한 복잡한 계산을 요구하며, 생성된 데이터는 변화되지 않는 정적인 검색을 수행하는 단점이 있다. 또한, 인간에게 좀 더 친숙하고 의미적인 형태의 검색 방법을 제공하지 못하고 있는 실정이다. 본 논문에서는 MPEG-7을 이용하여 멀티미디어 데이터를 구조적으로 표현하고 효율적으로 추출하기 위한 의미적 메타데이터 기반의 멀티미디어 주석 및 검색시스템(S-MARS)을 구현 제안한다. 본 시스템은 멀티미디어 데이터에 대한 주석이나 검색, 브라우징을 위한 그래픽 인터페이스를 제공하며 멀티미디어 정보를 표현하기 위해 의미적 메타데이터 모델을 기반으로 구현하였다. 멀티미디어 데이터에 대한 의미적 메타데이터 모델은 MPEG-7 표준에 정의되어 있는 멀티미디어 묘사 스키마를 기반으로 XML 스키마를 이용하여 작성하였다. 결론적으로, 제시한 멀티미디어 데이터에 대한 의미적 메타데이터를 XML 형태로 표현하고, XML을 지원하는 데이터베이스 시스템을 이용하여 표준적인 데이터의 상호 교환이 용이하게 이루어질 수 있으며, 의미적 메타데이터를 활용하여 삽입 기반 검색 알고리즘 방법을 제공함으로써 검색에 대한 정확성과 사용자의 검색 만족도를 극대화 시킬 수 있다. 마그마 저장소로의 유입과 마그마 저장소 아래에서 공급되는 모마그마의 성분변화에 의해서 미량원소 함량이 급격하게 변한 것으로 해석된다./^4He$ 비와 $^4He/^{20}Ne$ 비는 $0.0143{\times}10^{-6}{\sim}0.407{\times}10^{-6}$ 범위와 $6.49{\sim}584{\times}10^{-6}$ 범위를 각각 보여주어 대기와 지각성분의 혼합선상에 도시된다. 이는 온천수내 헬륨가스의 대부분이 지각기원임을 의미한다. 죽림온천(JR1)의 경우 맨틀기원의 헬륨가스의 혼합율이 다른 온천에 비해 다소 높은 비율을 보여준다. 이들 동위원소비와 온천수의 pH와는 대체적으로 정의 상관관계가 확인되었다. 아울러 $^{40}Ar/^{36}Ar$비가 $292.3{\times}10^{-6}{\sim}304.1{\times}10^{-6}$ 범위로 대기기원임을 지시한다. Gram 양성, Gram 음성 균주는 Escherichia coli KCCM 11591를 제외하고는 0.8 - 0.95 cm로 항균력이 강했으며, Gram negitive의 Pseudomonas aeruginosa KCTC 1750 에서는 43% 발효주에는 0.95 cm, 45% 고은 발효주에는 0.95 cm의 항균성을 나타냈으며 관능평가에서도 가장 높게 났다. 관능평가에서는 45% 고온 발효주가 가장 높게 나타났으며, 항산화성 실험에 나타난 저온 45%의 갈색도의 측정과는 항산화성에서는 좀 다른 결과를 나타낸다. 그러나 항균성이 가장 높게 나타난 43-45%와 관능평가에서 가장 높게 나타난 45% 고온 발효주를 볼 때 본 연구에서는 고온 발효주 45%가
As multimedia information recently increases fast, various types of retrieval of multimedia data are becoming issues of great importance. For the efficient multimedia data processing, semantics based retrieval techniques are required that can extract the meaning contents of multimedia data. Existing...
As multimedia information recently increases fast, various types of retrieval of multimedia data are becoming issues of great importance. For the efficient multimedia data processing, semantics based retrieval techniques are required that can extract the meaning contents of multimedia data. Existing retrieval methods of multimedia data are annotation-based retrieval, feature-based retrieval and annotation and feature integration based retrieval. These systems take annotator a lot of efforts and time and we should perform complicated calculation for feature extraction. In addition. created data have shortcomings that we should go through static search that do not change. Also, user-friendly and semantic searching techniques are not supported. This paper proposes to develop S-MARS(Semantic Metadata-based Multimedia Annotation and Retrieval System) which can represent and extract multimedia data efficiently using MPEG-7. The system provides a graphical user interface for annotating, searching, and browsing multimedia data. It is implemented on the basis of the semantic metadata model to represent multimedia information. The semantic metadata about multimedia data is organized on the basis of multimedia description schema using XML schema that basically comply with the MPEG-7 standard. In conclusion. the proposed scheme can be easily implemented on any multimedia platforms supporting XML technology. It can be utilized to enable efficient semantic metadata sharing between systems, and it will contribute to improving the retrieval correctness and the user's satisfaction on embedding based multimedia retrieval algorithm method.
As multimedia information recently increases fast, various types of retrieval of multimedia data are becoming issues of great importance. For the efficient multimedia data processing, semantics based retrieval techniques are required that can extract the meaning contents of multimedia data. Existing retrieval methods of multimedia data are annotation-based retrieval, feature-based retrieval and annotation and feature integration based retrieval. These systems take annotator a lot of efforts and time and we should perform complicated calculation for feature extraction. In addition. created data have shortcomings that we should go through static search that do not change. Also, user-friendly and semantic searching techniques are not supported. This paper proposes to develop S-MARS(Semantic Metadata-based Multimedia Annotation and Retrieval System) which can represent and extract multimedia data efficiently using MPEG-7. The system provides a graphical user interface for annotating, searching, and browsing multimedia data. It is implemented on the basis of the semantic metadata model to represent multimedia information. The semantic metadata about multimedia data is organized on the basis of multimedia description schema using XML schema that basically comply with the MPEG-7 standard. In conclusion. the proposed scheme can be easily implemented on any multimedia platforms supporting XML technology. It can be utilized to enable efficient semantic metadata sharing between systems, and it will contribute to improving the retrieval correctness and the user's satisfaction on embedding based multimedia retrieval algorithm method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
실험의 모든 멀티미디어 데이터는 MPEG-7 기반의 구조적 XML 문서로 주석 저장되어 있다. 본 실험의 검색 개념은 “Soccer”에 관련된 키워드 중에 심판과 관련된 “Referee”, “Umpire”, "'Principal Referee" 등이 내포하고 있는 동일한 개념적 관계를 파악하여 검색결과를 보여주는가 하는 것이다. (그림 14)에서 “Referee”는 “Umpire”와 uPrincipal Referee”의 부모 노드이며 포괄적 의미를 가지고 있으며 “Umpire"와 **Principal Referee”는 단말노드이며 독립적이고 부모 노드에 포함되는 관계를 가지고 있다.
비주얼 데이터를 표현하는데 유연하고 확장 가능한 프레임워크를 제공한다. 따라서 본 논문에서는 사용자의 편의성과 멀티미디어데이터의 자유로운 표현을 위한 MPEG-7 기반 의미적 메타데이터를 이용한 멀티미디어 주석 및 검색시스템(Semantic- based Metadata Annotation & Retrieval System, S-MARS)을 구현 제안한다. 본 시스템에서 멀티미디어 데이터의 표현을 위한 주석은 구조적 형태의 멀티미디어 데이터가 포함하고 있는 객체를 작은 단위의 의미 엔티티인 노드(node)와 관계 속성을 링크(link)로 표현하는 작업을 선행연구[21]에서 정의하였으며, [21]에서 구현된 GUI 기반의 SMAT(Semantic Metadata Annotation Tool)는 노드와 링크를 도구에서 사각형과 선분의 도형으로 표현하고 해당 도형을 작업 화면에 드로잉하고 트리 또는 그래프로 디자인하여 멀티미디어 데이터를 표현하는 방법을 채택하고 있으며, 결과는 MPEG-7 기반 XML 문서로 저장되었다.
하지만 사건과 객체 서로 간의 관계를 이해하는데 어려움이 있으며, 또한 기존의 텍스트 입력방법은 표준의 텍스트 키워드가 없기 때문에 동일한 멀티미디어 데이터에 대한 사용자의 표현이 상이하여 일관되지 못하고 주관성에 의하여 많은 텍스트 키워드가 생성된다는 단점이 있다. 따라서 본 논문은 기존 시스템에서 멀티미디어 데이터의 사건과 객체, 관계 속성을 텍스트로 표현하는 방법보다 효율적으로 표현할 수 있는 시스템을 구현하는데 그 목적이 있다. 이러한 목적을 위하여 구현 시스템은 사용자들에게 익숙한 드로잉을 이용한 GUI 환경을 기본으로 하며, 또한 멀티미디어 표현 결과를 이해하기 쉽고, 작업에 사용하는 구성요소들을 확장 및 재사용할 수 있어야 한다.
본 논문에서는 다양한 의미 정보를 가지고 있는 멀티미디어 데이터를 자유롭게 표현하여 주석하거나 정확한 검색의결과를 얻을 수 있는 시스템(S-MARS)을 구현 제안하고 성능을 평가하였다. 본 시스템은 멀티미디어 데이터의 의미주석을 위하여 MPEG-7 기반의 의미적 메타데이터를 이용하였으며, 해당 구조에 적용하기 위하여 주어진 멀티미디어데이터를 세그먼트의 단위로 분해하고 해당 세그먼트를 논리적인 의미 사건 엔티티로 추상화하였다.
따라서 본 논문은 기존 시스템에서 멀티미디어 데이터의 사건과 객체, 관계 속성을 텍스트로 표현하는 방법보다 효율적으로 표현할 수 있는 시스템을 구현하는데 그 목적이 있다. 이러한 목적을 위하여 구현 시스템은 사용자들에게 익숙한 드로잉을 이용한 GUI 환경을 기본으로 하며, 또한 멀티미디어 표현 결과를 이해하기 쉽고, 작업에 사용하는 구성요소들을 확장 및 재사용할 수 있어야 한다. 그리고 모든 작업의 기본은 공통적인 공유를 위하여 표준성을 고려하여야 한다는 것이다.
제안 방법
또한, 의미 개념적인 실험으로 Q2 에서 주석검색의 경우 질의 키워드의 “Principal Referee”에 대해서만 텍스트 매칭이 존재하는 경우에 결과를 제시하지만, 제안 시스템의 검색은 ', Principal Referee”와 동일한 의미를 가지거나 포함관계의 "Referee”까지 의미 검색이 이루어졌다. Q3에서 제안 시스템의 검색은 주석 검색 방법과는 달리 질의 키워드인 "Referee” 뿐만 아니라 개념적으로 동일한 의미를 가지는 자식인 단말 노드의 “Principal Referee", “Umpire”까지 의미 검색이 이루어졌다. 결론적으로 질의 Q2, Q3에서 "Referee”와 같은 포괄적인 의미 검색 질의를 할 경우가 그렇지 않은 경우보다 더 높은 재현율과 정확률을 보이고 있음을 알 수 있었다.
예시로 상기에서 제시된 "축구(Soccer)” 멀티미디어 데이터에서 “Freekick(node A)”, “Shoot(node B)”, “GoaKnode C)” 등의 세 개의 세그먼트를 의미 사건 엔티티들로 추상 표현하였으며, 의미 사건들은 의미 엔티티들로 구성되었다. 최종적으로 인터페이스에서는 관계(링크)를 통하여 의미 묘사를 표현하며 관계로는 의미 사건들 서로 간의 관계와 의미 사건 엔티티와 의미 엔티티들 간의 관계 등이 있다.
구조 묘사 단계에서는 주어진 멀티미디어 데이터의 비주얼 기술자 추출, 세그먼트 단위의 분해, 물리적인 세그먼트의 의미 사건 추상화, 의미 사건 구성을 위한 의미 엔티티들의 추출, 추가적인 비정형 텍스트 메타데이터 작성 등의처리를 한다. 본 단계에서는 주어진 멀티미디어 데이터를 시간적 분해에 의해서 n개의 서로 다른 세그먼트로 분해를 한다.
기존 시스템에서 자유롭게 표현하지 못한 멀티미디어 데이터의 의미적 표현을 기술하기 위해서 메타데이터 표준 구조를 변경하여 의미적 메타데이터 모델로 구성한다. 의미적 메타데이터 모델은 MPEG-7 기반이며 정확하고 빠른 결과를 얻기 위하여 구조적인 XML 문서로 저장 처리한다.
문서로 표현한다. 다양한 모델들이 멀티미디어 데이터를 기술하기 위하여 XML 문서들로 제안되었다. W3C에서는 DOM(Document Object Model)이라는 모델을 제시하였으며, 이 모델은 XML 문서를 순서 레이블 트리(ordered label tree)로 표현하였다.
이러한 문제점을 위하여 모든 사용자들이 멀티미디어데이터의 의미 표현을 하기위해 사용할 수 있는 구성 요소들을 공유할 수 있어야 하며, 그러한 요소들이 표준을 따르고 추가적인 확장을 자유로이 할 수 있는 새로운 구조 변형이 필요하다. 따라서 메타데이터 표준 구조를 MPEG-7 기반 의미적 메타데이터 모델로 변형하여 시스템에 적용을 한다. 해당 모델에 적용하기 위해서는 멀티미디어 데이터의 의미 정보를 일반화할 수 있는 추상의 개념과 구조적 변형이 필요하며 형식적 추상을 적용하게 된다.
본 논문에서 이용할 의미적 메타데이터 모델의 구성을 간략하게 살펴보면, 메타데이터 표준 구조에서 기본 메타데이터와 비주얼 메타데이터는 비주얼 특징 메타데이터로 통합을 하였으며, 의미 정보 표현의 정확성과 확장을 위하여 의미 메타데이터를 구조 묘사 메타데이터, 분류 묘사 메타데이터, 의미 묘사 메타데이터 등으로 세분화 하였으며, 각 메타데이터 영역은과 같이 기술할 수 있다.
추상은 멀티미디어데이터에 적당한 값을 하나 또는 그 이상의 일정한 표현으로 적용되는 것을 의미한다. 본 논문에서는 크게 미디어 추상(media abstraction)과 형식적 추상(formal abstraction) 등으로 나누어 설명할 수 있다.
따라서 본 논문에서는 사용자의 편의성과 멀티미디어데이터의 자유로운 표현을 위한 MPEG-7 기반 의미적 메타데이터를 이용한 멀티미디어 주석 및 검색시스템(Semantic- based Metadata Annotation & Retrieval System, S-MARS)을 구현 제안한다. 본 시스템에서 멀티미디어 데이터의 표현을 위한 주석은 구조적 형태의 멀티미디어 데이터가 포함하고 있는 객체를 작은 단위의 의미 엔티티인 노드(node)와 관계 속성을 링크(link)로 표현하는 작업을 선행연구[21]에서 정의하였으며, [21]에서 구현된 GUI 기반의 SMAT(Semantic Metadata Annotation Tool)는 노드와 링크를 도구에서 사각형과 선분의 도형으로 표현하고 해당 도형을 작업 화면에 드로잉하고 트리 또는 그래프로 디자인하여 멀티미디어 데이터를 표현하는 방법을 채택하고 있으며, 결과는 MPEG-7 기반 XML 문서로 저장되었다. 멀티미디어 데이터의 검색은 질의 키워드를 어떻게 선택하느냐가 검색 결과의 정확성을 결정한다.
평가하였다. 본 시스템은 멀티미디어 데이터의 의미주석을 위하여 MPEG-7 기반의 의미적 메타데이터를 이용하였으며, 해당 구조에 적용하기 위하여 주어진 멀티미디어데이터를 세그먼트의 단위로 분해하고 해당 세그먼트를 논리적인 의미 사건 엔티티로 추상화하였다. 의미 사건 엔티티는 시간, 장소, 행위자, 객체 등의 의미 엔티티들과 서로 관련지어 멀티미디어 데이터의 의미적 메타데이터를 생성하였다.
본 장에서는 MPEG-7 기반의 의미적 메타데이터 모델을 이용한 통합 멀티미디어 주석 및 검색 시스템(S-MARS)을 구현 소개한다. 기존의 인기 있는 시스템 및 도구에서 사용한 텍스트 표현의 애로점을 개선한 드로잉 기반의 대화형그래픽 사용자 인터페이스를 채택하고 있으며 주석과 검색에 필요한 모든 의미 정보를 구조화하여 작은 단위의 의미엔티티로 변형하여 데이터 베이스화하였기 때문에 표준적인 작업이 이루어질 뿐만 아니라 재사용성과 검색을 위한 사용자에게도 정확한 결과 및 작업의 편의성을 제공하고 있다.
본 장에서는 구현시스템에 적용된 삽입 검색 알고리즘의 드로잉 기반 검색이 기존의 텍스트 매칭을 이용한 주석 기반 검색에 비해 의미적 질의 키워드를 적용할 경우 얼마나 검색에서 정확성을 보이는지 실험을 통하여 평가한다. 본 실험은 펜티엄-IV 2.
상기에서 살펴본 대부분의 관련 시스템들은 멀티미디어데이터를 표현하는데 특징 정보나 텍스트로 멀티미디어 데이터의 의미 정보를 표현하고 질의 키워드로 검색을 수행하였다. 일부 시스템들은 멀티미디어 데이터를 효과적으로 표현하기 위하여 사건, 객체와 속성의 메타데이터를 정의하고 해당 값들은 텍스트로 표현하였다.
(그림 14)에서 “Referee”는 “Umpire”와 uPrincipal Referee”의 부모 노드이며 포괄적 의미를 가지고 있으며 “Umpire"와 **Principal Referee”는 단말노드이며 독립적이고 부모 노드에 포함되는 관계를 가지고 있다. 실험을 위하여 이미지와 비디오 데이터에 대해 상기에서 기술하는 개념적인 관계를 포함하는 세 가지의 질의키워드를 제시하고 기존의 주석 기반 검색 방법과 본 논문에서 제안하는 드로잉 기반 검색 방법에 적용하여 의미적 검색 결과를 비교 평가한다.
질의 키워드에 따라 "프리킥 상황에서 부심이 호각을 불다”라는 텍스트를 입력할 경우 심판과 부심의 텍스트가 매칭이 되지 않기 때문에 부정확한 검색 결과가 제시될 수 있다. 제안하는시스템에서는 질의 키워드를 (Freekick ■- Referee, Whistle, Blow}와 같이 구성할 수 있으며, 해당 질의 노드(Q)는 (그림 13: 励와 같이 질의 트리로 표현할 수 있으며, (그림 13: ①))는 MPEG-7 데이터베이스에 저장된 MPEG-7 묘사의 데이터노드(D)들 이다. QI, Q2와 Q3은 후위운행 정렬된 질의노드의 순서번호이며, DI, D2에서 D12까지도 후위운행 정렬된 데이터노드의 순서번호이다.
해당 알고리즘은 모든 노드를 후위운행으로 하였으며 상향식의 방법으로 처리하였다. 질의 트리의 단말 노드와 데이터 노드 사이의 매칭을 우선으로 하였으며, 내부 노드를 처리를 하여 매칭 값을 결과로 하는 멀티미디어 데이터의 검색이 이루어졌다. 실험 결과에서 알 수 있듯이, 검색키워드를 포괄적인 의미의 질의를 할 경우가 그렇지 않은 경우보다 정확률과 재현율이 더 높아짐을 알 수 있었다.
멀티미디어 검색에서는 주석과정에서 생성된 의미 엔티티를 재사용함으로써 검색을 위한 사용자들의 일관된 질의가 이루어지므로 기존 시스템에서 상이한 질의 키워드의 사용으로 인한 부정확한 검색결과를 해결할 수가 있었다. 질의를 위한 질의 키워드는 사용자 인터페이스를 통하여 질의 모델을 생성하였으며, 질의 모델은 사용자 인터페이스를 통하여 의미 엔티티를 드로잉하여 질의 트리로 표현하였다. 검색방법으로 MPEG-7 기반으로 표현된 멀티미디어 데이터 기술에 대한 추론을 위하여 도메인 온톨로지로 확장된 삽입 검색 알고리즘을 이용하였다.
VisualSEEK[15]는 인터넷에서 영상정보를 검색 할 수 있는 사용자 인터페이스를 제공하고 있는 검색 엔진이다. 초기 화면에는 저장하고 있는 데이터들을 분류하기 위한 메뉴 화면이 뜨고 이를 통해 주제별로 검색을 할 수 있도록 해 놓았다. 색상과 공간 질의를 지원하며 이와 함께 질의 키워드를 입력하여 검색할 수 있는 SAFE라는 엔진을 포함하고 있는 시스템이며, 주로 색상의 히스토그램과 영역, 크기, 공간적 위치들을 추가적으로 사용하는 방법이다.
첫째는 전처리 과정으로 모든 트리의 노드운행으로 후위운행(postorder)하여 노드를 정리하고, 상향식(bottom-up) 방법으로 처리를 해야 한다는 것이며, 둘째로 검색 처리에 있어 노드들 간의 관계(예, 조상노드-자식노드)와 개념을 항상 보존해야 한다는 것이다. 추가적으로 본 논문의 멀티미디어 데이터 검색을 위한 질의 키워드는 질의 트리로 표현하고 검색 처리 과정에서 노드 서로 간의 의미가 동등하거나 포함 관계의 규칙을 위하여 온톨로지를 이용한다.
검색방법으로 MPEG-7 기반으로 표현된 멀티미디어 데이터 기술에 대한 추론을 위하여 도메인 온톨로지로 확장된 삽입 검색 알고리즘을 이용하였다. 해당 알고리즘은 모든 노드를 후위운행으로 하였으며 상향식의 방법으로 처리하였다. 질의 트리의 단말 노드와 데이터 노드 사이의 매칭을 우선으로 하였으며, 내부 노드를 처리를 하여 매칭 값을 결과로 하는 멀티미디어 데이터의 검색이 이루어졌다.
대상 데이터
실험 대상의 멀티미디어 데이터는 데이터의 손실과 전송률을 향상시키기 위해서 RAID 저장시스템에 저장하였다. 실험에 사용되는 멀티미디어 데이터는 [22]의 각종 스포츠에 관련된 비디오 클립과 이미지로 구성되어 있으며, 데이터의 수는 이미지 500개와 비디오 클립 14편 정도를 대상으로 하였다. 비디오는 대략 8, 720개의 키 프레임을 검출하였으며 또한 샷의 이미지정보도 저장하고 있다.
이론/모형
질의를 위한 질의 키워드는 사용자 인터페이스를 통하여 질의 모델을 생성하였으며, 질의 모델은 사용자 인터페이스를 통하여 의미 엔티티를 드로잉하여 질의 트리로 표현하였다. 검색방법으로 MPEG-7 기반으로 표현된 멀티미디어 데이터 기술에 대한 추론을 위하여 도메인 온톨로지로 확장된 삽입 검색 알고리즘을 이용하였다. 해당 알고리즘은 모든 노드를 후위운행으로 하였으며 상향식의 방법으로 처리하였다.
따라서 본 논문에서는 트리 구조의 XML 문서를 효과적으로 검색할 수 있는 삽입 검색 알고리즘(Embedding Retrieval Algorithm)[20]을 멀티미디어 데이터의 의미 검색에 적용하였다. 삽입검색 알고리즘에서는 기본적인 두 가지의 조건을 제시하고 있다.
상기에서 제시된 방법에서 멀티미디어 데이터의 표현을 보다 자유롭게 할 수 있고 정확한 의미 검색이 가능하기 위하여 MPEG-7 표준을 채택하였다. MPEG-7은 상호호환성의 문제를 해결하기 위한 메타데이터의 표현과 다양한 응용 및 확장을 위하여 제정된 표준으로 오디오 .
프리킥 상황에서 호각을 부는 장면”의 Ql:(Freekick, Whistle, Blow), “프리킥 상황에서 주심이 호각을 부는 장면”의 Q2: (Freekick, Principal Referee, Whistle, Blow}, “프리킥 상황에서 심판이 호각을 부는 장면”의 Q3:(Freekick, Referee, Whistle, Blow) 등이다. 실험의 검색 결과에 따른 정확한 적합성을 평가하기 위하여 재현률(Recall)과 정확률(Precision) 에 의한 성능평가 척도를 이용하여 실험하였다. 여기서 정확률은 시스템이 찾은 결과 중 정확하게 찾은 비율을 나타내고, 재현률은 전체 찾아야 할 결과 중 시스템이 정확하게 찾은 비율로 계산 된다.
성능/효과
Q3에서 제안 시스템의 검색은 주석 검색 방법과는 달리 질의 키워드인 "Referee” 뿐만 아니라 개념적으로 동일한 의미를 가지는 자식인 단말 노드의 “Principal Referee", “Umpire”까지 의미 검색이 이루어졌다. 결론적으로 질의 Q2, Q3에서 "Referee”와 같은 포괄적인 의미 검색 질의를 할 경우가 그렇지 않은 경우보다 더 높은 재현율과 정확률을 보이고 있음을 알 수 있었다.
MARS (Multimedia Analysis and Retrieval System)[16] 시스템은 멀티미디어 검색과 데이터베이스 관리를 통합하기 위하여 설계 및 개발되었으며, 다음과 같은 4 개의 부 영역 카테고리인 멀티미디어 내용 표현, 멀티미디어 정보 검색, 멀티미디어 특징 인덱싱, 멀티미디어 데이터베이스 관리 등이 있다. 본 시스템은 내용 기반의 저장과 검색을 위해 고급수준의 상위객체 멀티미디어 정보를 지원하고, 특징에 따른 가중치 값을 조정하여 각기 다른 방법의 유사도 측정도 가능하다.
질의 트리의 단말 노드와 데이터 노드 사이의 매칭을 우선으로 하였으며, 내부 노드를 처리를 하여 매칭 값을 결과로 하는 멀티미디어 데이터의 검색이 이루어졌다. 실험 결과에서 알 수 있듯이, 검색키워드를 포괄적인 의미의 질의를 할 경우가 그렇지 않은 경우보다 정확률과 재현율이 더 높아짐을 알 수 있었다. 또한 구현 시스템은 주석과 검색을 위한 작업 환경이 대화식 사용자 인터페이스의 드로잉 기반 작업으로 가능하므로 사용자에게 편의성을 제공해 주며, 이러한 과정에서 의미적엔티티를 데이터베이스로부터 재사용할 수 있으며 상황에따라 의미 엔티티를 표준에 의한 확장을 할 수 있다는 특징을 가지고 있다.
실험 결과의 표에서 알 수 있듯이 대부분의 질의에서 기존의 주석 기반 검색보다는 제안 검색이 더 정확하다는 것을 볼 수 있다. 질의 Q1에서 주석 검색은 “FreekicF의 의미 “Soccer”와는 관계없이 “Whistle, Blow”와 텍스트 매칭된 모든 스포츠 멀티미디어 데이터를 검색하는 의미적 차이의 결과를 보였다.
후속연구
향후 연구로 멀티미디어 질의 결과를 평가하기 위한 의미적인 유사성 측정 방법을 연구 계획하고 있으며, 이러한 유사성의 결과 값을 기반으로 전체적인 멀티미디어 데이터의 유사도 맵을 시각적인 결과로 제시할 수 있는 인터페이스를 연구하여 구현할 계획에 있다.
참고문헌 (22)
Dongge Li, Ishwar K. Sethi, Nevenka, Thomas McGee, 'Classification of general audio data for content-based retrieval,' Pattern Recognition Letters, Vol.22, No.5, pp.533-544, 2001
Sibel Adali, Kasim S. Candan, Su-Shing Chen, Kutluhan Erol, and VS Subrahmanian, 'The Advanced Video Information System: data structure and query processing,' Multimedia System, pp.172-186. 1996
B. Y. Ricardo and R. N. Berthier, Modem Information Retrieval, ACM press, 1999
Tsuhan Chen. Low-Level Features to High-Level Semantics: Are We Bridging the Gap? In EWIMT, London, UK, November 2004
http:;/www.research.ibm.com/VideoAnnEx
M. Naphade, C.-Y. Lin, J. R. Smith, B. L. Tseng, and S. Basu. Learning to annotation video database. In SPIE Electronic Imaging 2002 - Storage and Retrieval for Media Database, San Jose, CA, USA, January 2002
Virginia E. Ogle and Michael Stonebraker, 'Chabot: Retrieval from a Relational Database of Images,' IEEE Computer, Vol.28, No.9, pp.40-48, September, 1995
N. Kosugi, Y. Nishihara and T. Stakata, 'A Practical Query -By-Humming System for a Large Music Database,' Proc of ACM Multimedia 2000 Conference, November, 2000
J. R. Smith and S. F. Chang. 'VisualSEEK : a fully automated content-based image query system,' ACM Multimedia, Boston, May, 1996
T. S. Huang, S. Mehrotra, and K Ramchandran, 'Multimedia Analysis and Retrieval System(MARS) project,' Proc. of the 33rd Annual Clinic on Library Application of Data Processing - Digital Image Access and Retrieval, University of Illinois at Urbana-Champaign, March, 1996
R. Hjelsvold, 'VideoSTAR-A Database for Video Information Sharing,' Ph. D. Thesis, Norwegian Institute of Technology, 1995
Eitetsu Oomoto, Katsumi Tanaka, 'OVID : Design and. Implementation of a Video Object Database System,' IEEE TKDE, Vol.5, No.4, pp.629-643, 1993
S. Handschuh, S. Staab. A. Maedche, 'CREAM-Creating relational metadata with a component-based, ontology-driven annotation framework,' K-CAP'01, pp.76-88, Victoria, Canada, Oct. 200l
T. Schlieder and F. Nanumann, 'Approximate tree embedding for querying XML data,' In proceedings of the ACM SIGIR Workshop on XML and Information Retrieval, July 2000
안형근, 고재진, '의미적 멀티미디어 메타데이터 생성을 위한 MPEG-7 기술 기반 주석도구의 개발,' 정보처리학회 논문지, 제14-D권, 제1호, pp.35-44, 2007
※ AI-Helper는 부적절한 답변을 할 수 있습니다.