[논문]DTW(Dynamic Time Warping)를 이용한 영상 정보 검색

하정요; 이나영; 김계영; 최형일

DTW(Dynamic Time Warping)를 이용한 영상 정보 검색
Image Information Retrieval Using DTW(Dynamic Time Warping) 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.10 no.3, 2009년, pp.423 - 431

하정요 (숭실대학교 대학원 미디어학과) , 이나영 , 김계영 (숭실대학교 컴퓨터학과) , 최형일 (숭실대학교 미디어학과)

초록
AI-Helper

영상을 검색하는 데에는 형태, 색상, 질감 등 여러 가지 특징을 사용 할 수 있다. 그 중 가장 활발한 연구가 이루어지고 있는 분야가 형태 정보와 색상 정보를 이용하는 분야이다. 형태 정보를 이용하는 검색 방법에는 2D 모멘트와 푸리에변환 등의 방법이 유명하다. 또 다른 방법으로는 CSS(Curvature Scale Space)가 있는데, 이는 윤곽선 정보를 이용하여 윤곽선의 굴곡을 2D 그래프로 표현하여 그 그래프의 극대점을 특징 값으로 사용하여 영상을 비교 검색하는 방법이다. 기존 CSS 방법에는 몇 가지 문제점이 있어서 본 논문에서는 기존 방법을 향상시킨 ICSS 방법을 사용하여 영상을 검색한다. 색상 정보를 이용하는 방법에는 RGB 색상정보를 이용하는 방법과 HSI 색상정보를 이용하는 방법 등이 있는데 본 논문에서는 HSI 색상정보를 이용하여 색상 히스토그램으로 표현한 후 영상의 비교 척도로 사용하였다. 영상의 유사도를 측정하는 방법으로는 유클리디언 디스턴스를 주로 사용하는데, 본 논문에서는 정확도와 검색 시간을 단축시키고자 DTW를 사용하여 영상의 유사도를 측정하였고, 유클리디언 디스턴스를 사용했을 때와 비교하여 성능 향상 결과를 보인다.

Abstract ▼ AI-Helper

There are various image retrieval methods using shape, color and texture features. One of the most active area is using shape and color information. A number of shape representations have been suggested to recognize shapes even under affine transformation. There are many kinds of method for shape recognition, the well-known method is Fourier descriptors and moment invariant. The other method is CSS(Curvature Scale Space). The maxima of curvature scale space image have already been used to represent 2-D shapes in different applications. Because preexistence CSS exists several problems, in this paper we use improved CSS method for retrieval image. There are two kinds of method, One is using RGB color information feature and the other is using HSI color information feature. In this paper we used HSI color model to represent color histogram before, then use it as comparison measure. The similarity is measured by using Euclidean distance and for reduce search time and accuracy, We use DTW for measure similarity. Compare with the result of using Euclidean distance, we can find efficiency elevated.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 제안된 방법을 이용하여 영상 객체를 검색하고, 영상을 고의적으로 변형하였을 경우 잘 검출되는지 실험하였다.
따라서 제거되지 않을 경우 유사도 비교의 정확성을 떨어뜨리고 계산시간을 증가시키게 된다. 이 문제를 보완하기 위해 본 논문에서는 클러스터링을 이용하여 추출해야 할 극대점과 제거해야 할 극대점을 구분하는 방법을 제안한다. 먼저 가장 큰 극대점과 가장 작은 극대점 값을 기준으로 그 사이 값들이 어느 극대점과 가까운지 클러스터링 한다.

제안 방법

0 사용하여 영상 검색 시스템을 제작하였다. 그리고 Microsoft의 Access를 이용하여 DB를 제작하였다. 또한 특징추출 편의를 위해 128 * 128 의 동일한 크기의 정규화 된 약 100여 개의 BMP 형태(format)의 영상으로 수정하여 특징추출을 통한 검색과 분류를 시행하였다.
이렇게 계산된 원형의 정도를 분석해서 어느 값 이하를 원형으로 볼 것인지 임계값을 정한다. 두 번째는, 원형을 평활화 시켜서 CSS영상을 구한 다음, 최대 극대점의 시그마 값을 계산한다.
그리고 Microsoft의 Access를 이용하여 DB를 제작하였다. 또한 특징추출 편의를 위해 128 * 128 의 동일한 크기의 정규화 된 약 100여 개의 BMP 형태(format)의 영상으로 수정하여 특징추출을 통한 검색과 분류를 시행하였다. 실험은 같은 질의 영상으로 유클리디언 디스턴스(UD)와 DTW로 각각 매칭 했을 때의 비교 검색 결과를 보이고, 검색의 처리 과정도 간단하게 소개한다.
본 논문에서는 색채 히스토그램을 구성하기 위해서는 HSI 요소 중 색상요소(H)를 사용한다. Hue 값과 Saturation 값만을 사용함으로써 명암(I)변화에 둔감할 수 있다는 장점이 있다.
위와 같은 계산을 입력되는 학습 영상 히스토그램에 대하여 위 단계를 반복하여 수행하여 학습 영상의 특징을 학습하게 된다. 본 논문에서는 이 DTW학습 단계와 최적 경로 비교 단계를 형태 정보과 색상 정보에 각각 적용하여 이미지 검색의 척도로서 사용하게 된다.
2D 모멘트는 2차원 랜덤 변수의 확률 밀도로써 정규화 된 그레이 레벨의 영상 함수를 나타낸다. 본 논문에서의 ICSS모델은 가우시안 분포 함수를 이용하여 윤곽선을 평활화 하면서 곡선 상에 존재하는 영교차점(zero-crossing)을 계산하며, 이들 영교차점의 변화를 통해 윤곽선의 시각적 특징을 대표하는 CSS영상을 추출하는 기존 CSS방법의 문제점을 보완한 모델이다.
또한 특징추출 편의를 위해 128 * 128 의 동일한 크기의 정규화 된 약 100여 개의 BMP 형태(format)의 영상으로 수정하여 특징추출을 통한 검색과 분류를 시행하였다. 실험은 같은 질의 영상으로 유클리디언 디스턴스(UD)와 DTW로 각각 매칭 했을 때의 비교 검색 결과를 보이고, 검색의 처리 과정도 간단하게 소개한다.
CSS는 형태를 기반으로 영상을 검색하는 여러 가지 방법 중의 하나이다. 영상의 객체에서 추출된 윤곽선 정보를 사용해서 다른 영상과의 유사도를 비교한다. 다른 여러 가지 방법에 비해 크기, 회전, 이동 등의 변화에 강건하다는 장점이 있다.

대상 데이터

실험을 위하여 구성된 컴퓨터는 Intel Pentium 듀얼코어 2.2Ghz CPU 와, 2GByte 의 메모리를 탑재한 Desktop PC를 사용하였고, OS는 Microsoft의 Windows XP professional을 사용하였으며, Visual C++ 6.0 사용하여 영상 검색 시스템을 제작하였다. 그리고 Microsoft의 Access를 이용하여 DB를 제작하였다.

이론/모형

HSI 색상모델은 인간의 시각과 가장 유사하기 때문에 많이 사용되므로 본 논문에서는 HSI 색상 모델을 사용하였다. 그레이 영상을 사용할 경우에는 주위의 밝기 변화에 대하여 상당히 의존적이고 RGB 색상정보를 사용할 경우에는 주위의 밝기 변화에 대하여 상당히 의존적이고 RGB 색상 정보를 사용할 경우에는 RGB 각 성분이 명암도와 밀접한 관련을 가지고 있으므로, 주위 밝기 변화에 대해서 같은 색상이라도 RGB 각 값들이 모두 변하게 되는 문제점이 있다.
색상 특징 추출단계에서는 전처리 단계에서 추출된 화소별 RGB 색상 정보 및 그레이 정보를 가지고 영상들의 시각적인 특징들을 추출한다. RGB 색상모델을 HSI 색상모델로 변환 후 색도(H), 채도(S), 명도(I)를 추출하여 히스토그램의 교집합을 사용한 히스토그램 인터섹션(Histogram Intersection)을 사용하였다. HSI 색상모델에서 특징 추출방법은 밝기 값과 색상을 주로 이용한다.
윤곽선은 인간이 시각적으로 가장 쉽게 판별할 수 있는 영상 특징으로 색인, 검색, 유사성 비교 등에 사용되는 주요 특징이다. 본 논문에서는 복잡한 배경에서 얼굴 영역의 윤곽선을 안정적으로 추출하기 위해 스네이크라 불리는 능동적 윤곽선 모델을 사용하며 에너지 함수는 다음 수식과 같다.
질의 결과는 정확한 영상이 출력되기 보다는 요청한 영상과 비슷한 영상들의 집합이 출력된다. 본 논문에서는 사전에 미리 학습된 색상 정보와 이미지의 영상의 정보들을 추출하고 질의 영상과 데이터베이스에 저장된 영상의 유사도를 측정하는 방법으로 DTW 알고리즘을 사용하였다.
학습 과정을 바탕으로 DB의 특징을 파악하며 비교, 분석이 가능하게 되어 진다. 이 과정에서는 DTW(Dynamic Time Warping)알고리즘[8]이 사용 되었다. DTW는 기준이 되는 특징의 패턴과 입력된 특징의 패턴간의 유사도를 동적 프로그래밍(Dynamic programming)을 이용해 구하는 방법이다.

성능/효과

(그림 10)은 UD방법을 이용했을 때의 검색 결과를 보인 것이고, (그림 11)은 DTW방법을 이용했을 때의 검색 결과를 보인 것이다. 결과 영상은 검색 순위가 높은 순서대로, 왼쪽 영상이 가장 유사하고 오른쪽으로 갈수록 유사도가 낮아지는 영상을 보여준다. 검색창 아래의 수치는 검색시간, 결과 영상 4개의 유사도 수치를 나타낸다.
본 논문에서는 ICSS를 사용해서 비교적 좋은 결과의 모양 정보를 추출할 수 있었으며, 색상추출에서도 HSI색상모델을 이용하여 RGB방법을 이용한 것보다 좋은 색상 정보를 추출할 수 있었다. 유사도 계산 방법에서는 유클리디언 디스턴스를 사용하였을 때보다 DTW 방법을 이용한 매칭이 Precision/Recall의 결과에서 볼 수 있듯이 검색의 정확도와 수행시간 면에서 더욱 효과적이라는 사실을 실험으로 입증하였다.
(그림 14)의 (a)와 (b)를 비교하여 보면 DTW 매칭방법이 UD 매칭방법보다 Precision / Recall이 다소 높게 나온 것을 보여준다. 실험 결과를 종합하여 보면 객체가 간단한 모양이었을 때는 UD방법이나 DTW방법 모두 거의 비슷하게 검색이 된 반면, 객체의 모양이 복잡해지고 맥시마의 개수가 많아질수록 UD방법보다는 DTW방법을 사용하여 객체를 검색한 경우가 보다 좋은 결과를 나타낸 것을 볼 수 있었다.
본 논문에서는 ICSS를 사용해서 비교적 좋은 결과의 모양 정보를 추출할 수 있었으며, 색상추출에서도 HSI색상모델을 이용하여 RGB방법을 이용한 것보다 좋은 색상 정보를 추출할 수 있었다. 유사도 계산 방법에서는 유클리디언 디스턴스를 사용하였을 때보다 DTW 방법을 이용한 매칭이 Precision/Recall의 결과에서 볼 수 있듯이 검색의 정확도와 수행시간 면에서 더욱 효과적이라는 사실을 실험으로 입증하였다. 향후 연구해야할 과제로는 같은 크기의 정규화 된 영상 비교뿐만 아니라 보다 다양한 형태와 종류의 이미지 매칭을 시도하고 그리고 데이터베이스에서의 영상의 수가 방대해질수록 시간이 걸리는 현상이 발생 할 것이다.

후속연구

향후 연구해야할 과제로는 같은 크기의 정규화 된 영상 비교뿐만 아니라 보다 다양한 형태와 종류의 이미지 매칭을 시도하고 그리고 데이터베이스에서의 영상의 수가 방대해질수록 시간이 걸리는 현상이 발생 할 것이다. 따라서 서버기반 영상 검색 시스템을 구축하기 위해서는 데이터베이스의 저장방법을 개선하여 더욱 빠른 검색 속도와 정확도를 향상시키는 연구도 필요하다. 또한 색상, 형태 특징말고도 질감 특징 등 여러 가지 특징을 더 적용하면 좀 더 효과적으로 검색할 수 있을 것으로 기대된다.
따라서 서버기반 영상 검색 시스템을 구축하기 위해서는 데이터베이스의 저장방법을 개선하여 더욱 빠른 검색 속도와 정확도를 향상시키는 연구도 필요하다. 또한 색상, 형태 특징말고도 질감 특징 등 여러 가지 특징을 더 적용하면 좀 더 효과적으로 검색할 수 있을 것으로 기대된다.
유사도 계산 방법에서는 유클리디언 디스턴스를 사용하였을 때보다 DTW 방법을 이용한 매칭이 Precision/Recall의 결과에서 볼 수 있듯이 검색의 정확도와 수행시간 면에서 더욱 효과적이라는 사실을 실험으로 입증하였다. 향후 연구해야할 과제로는 같은 크기의 정규화 된 영상 비교뿐만 아니라 보다 다양한 형태와 종류의 이미지 매칭을 시도하고 그리고 데이터베이스에서의 영상의 수가 방대해질수록 시간이 걸리는 현상이 발생 할 것이다. 따라서 서버기반 영상 검색 시스템을 구축하기 위해서는 데이터베이스의 저장방법을 개선하여 더욱 빠른 검색 속도와 정확도를 향상시키는 연구도 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	CSS란 무엇인가?	형태 정보를 이용하는 검색 방법에는 2D 모멘트와 푸리에변환 등의 방법이 유명하다. 또 다른 방법으로는 CSS(Curvature Scale Space)가 있는데, 이는 윤곽선 정보를 이용하여 윤곽선의 굴곡을 2D 그래프로 표현하여 그 그래프의 극대점을 특징 값으로 사용하여 영상을 비교 검색하는 방법이다. 기존 CSS 방법에는 몇 가지 문제점이 있어서 본 논문에서는 기존 방법을 향상시킨 ICSS 방법을 사용하여 영상을 검색한다.
	영상의 색상 히스토그램을 사용함으로써 정보를 표현하는 방법은 어떤 장점을 갖는가?	최근 색상정보의 가장 보편적인 이미지 정보 추출 방법은 영상의 색상 히스토그램을 사용함으로써 정보를 표현할 수 있다[7]. 이 방법은 각색상에 대해 이미지 픽셀 빈도를 나타내는 방법으로 색상 히스토그램은 색상에 대한 빈도수만으로 표현하므로 이미지의 회전이나 크기 및 위치 변화, 적은 시야변경에 대해 유사성을 잃지 않는 장점을 가진다. 그러나 색상 히스토그램 방식은 모든 색상에 대해 그 빈도수를 가지게 되므로 정보의 차원이 높다는 문제점을 가진다.
	HSI 색상모델의 장점은 무엇인가?	그에 반해 HSI 색상모델은 밝기 변화에 대한 강인성을 보장한다. HSI 색상모델은 색채요소 (Hue, Saturation)와 명암요소(Intensity)를 분리하여 명암 요소를 제거함으로써 영상 획득시의 조명 변화의 영향을 줄일 수 있는 장점이 있다. H 값은 색상 집합을 통해서 0~360도의 각도를 가지고 S는 각도에 대한 색상의 세기, 즉 채도를 나타낸다.

참고문헌 (9)

S. Abbasi, Curvature scale space in shape similarity retrieval, Ph.D. thesis, Centre for Vision, Speech and Signal Processing, University of Surrey, Guildford, GU2 5XH, England, 1998
Donna J. Williams and Mubarak Shah, "A Fast Algorithm for Active Contours and Curvature Estimation", CVGIP: Image Understanding, vol.55, No.1, pp.14-26, 1992

상세보기
K. Arbter, W.E. Snyder, H. Burkhardt, G. Hirzinger, Applications of affine-invariant Fourier descriptors to recognition of 3-D object, IEEE trans. Pattern Anal. Mach. Intell. 12, pp.640-646, 1990

상세보기
A. Zhao, J. Chen, Affine curve moment invariants for shape recognition, Pattern Recognition 30, pp.895-901, 1997

상세보기
Hu MK, Visual pattern recognition by moment invariants. IRE Trans Inf Theory IT-8: 179-187, 1962
Wallance TP, Wintz P, An efficient three-dimensional aircraft recognition algorithm using normalised Fourier Descriptors. Computer Graphics Image Process 13: 99-126, 1980

상세보기
김성만, 김재원, 최효성, 이양원, "색상정보와 모양정보를 이용한 상표 검색 시스템의 설계 및 구현", 한국멀티미디어학회 추계학술발표 논문집 784-788, 1999
Mizuhara, Yuko ; Hayashi, Akira ; Suematsu, Nobuo, "Embedding of time series data by using dynamic time warping distances", Systems and computers in Japan, v.37 no.3, pp.1-9, 2006
하정요, 최미영, 최형일, "색상과 형태를 이용한 내용기반 영상 검색", 한국 컴퓨터정보학회 논문집 제13권 제1호, pp.117-124, 2008

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증