본 논문에서는 객체의 관심점(interest points)에 대한 지역 특징 기술자를 이용하여 이미지나 동영상에서 다수의 관심 객체를 효과적으로 인식하고 추적하기 위한 기법을 제안한다. 이를 위해 먼저 대상이 되는 객체를 포함하는 다양한 이미지를 수집하고 SURF 알고리즘을 적용하여 객체의 관심점과 그들에 대한 지역 특징 기술자를 생성한다. 지역 특징에 대한 통계적인 분석을 통하여 관심점들 중에서 해당 객체의 특성을 가장 잘 표현하는 대표점(representative points)을 선택하고 이를 바탕으로 이미지에 존재하는 객체를 인식한다. 또한, 지역 특징 기술자의 정합을 응용하여 각 SURF 지점들의 움직임 벡터를 생성하고 이를 기반으로 실시간으로 객체를 추적한다. 제안하는 기법은 모든 객체를 독립적으로 다루기 때문에, 여러 개의 객체를 동시에 인식하고 추적할 수 있다. 다양한 실험을 통해, 동영상에서 객체의 존재 여부 및 종류를 신속하게 판별하고 관심 객체의 추적을 효과적으로 수행할 수 있음을 보인다.
본 논문에서는 객체의 관심점(interest points)에 대한 지역 특징 기술자를 이용하여 이미지나 동영상에서 다수의 관심 객체를 효과적으로 인식하고 추적하기 위한 기법을 제안한다. 이를 위해 먼저 대상이 되는 객체를 포함하는 다양한 이미지를 수집하고 SURF 알고리즘을 적용하여 객체의 관심점과 그들에 대한 지역 특징 기술자를 생성한다. 지역 특징에 대한 통계적인 분석을 통하여 관심점들 중에서 해당 객체의 특성을 가장 잘 표현하는 대표점(representative points)을 선택하고 이를 바탕으로 이미지에 존재하는 객체를 인식한다. 또한, 지역 특징 기술자의 정합을 응용하여 각 SURF 지점들의 움직임 벡터를 생성하고 이를 기반으로 실시간으로 객체를 추적한다. 제안하는 기법은 모든 객체를 독립적으로 다루기 때문에, 여러 개의 객체를 동시에 인식하고 추적할 수 있다. 다양한 실험을 통해, 동영상에서 객체의 존재 여부 및 종류를 신속하게 판별하고 관심 객체의 추적을 효과적으로 수행할 수 있음을 보인다.
In this paper, we propose an efficient multi-object recognition and tracking scheme based on interest points of objects and their feature descriptors. To do that, we first define a set of object types of interest and collect their sample images. For sample images, we detect interest points and const...
In this paper, we propose an efficient multi-object recognition and tracking scheme based on interest points of objects and their feature descriptors. To do that, we first define a set of object types of interest and collect their sample images. For sample images, we detect interest points and construct their feature descriptors using SURF. Next, we perform a statistical analysis of the local features to select representative points among them. Intuitively, the representative points of an object are the interest points that best characterize the object. in addition, we make the movement vectors of the interest points based on matching between their SURF descriptors and track the object using these vectors. Since our scheme treats all the objects independently, it can recognize and track multiple objects simultaneously. Through the experiments, we show that our proposed scheme can achieve reasonable performance.
In this paper, we propose an efficient multi-object recognition and tracking scheme based on interest points of objects and their feature descriptors. To do that, we first define a set of object types of interest and collect their sample images. For sample images, we detect interest points and construct their feature descriptors using SURF. Next, we perform a statistical analysis of the local features to select representative points among them. Intuitively, the representative points of an object are the interest points that best characterize the object. in addition, we make the movement vectors of the interest points based on matching between their SURF descriptors and track the object using these vectors. Since our scheme treats all the objects independently, it can recognize and track multiple objects simultaneously. Through the experiments, we show that our proposed scheme can achieve reasonable performance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
즉, 배경과 다른 움직임을 가지는 것으로 관심있는 객체일 가능성이 크다는 것을 알 수 있다. 그래서 이러한 기술자들과 전처리 과정에서 생성한 대표 특징 기술자와의 비교를 통해 객체의 존재 여부를 판단한다. 이러한 과정을 거쳐 관심 객체가 인식 된다면, 해당 영역을 관심 영역으로 설정하고 해당 프레임에 대한 처리를 마친다.
지금까지의 방법들은 대체적으로 이들 중 어느 한 요소만을 강조하다 보니 결과적으로 다른 요소에서는 만족스럽지 못한 결과를 보였으며, 특히 특정한 몇 가지 종류의 객체만 인식할 수 있었다. 본 논문에서는 객체의 지역 특징을 기반으로 객체의 인식률과 인식 속도를 모두 만족시킬 수 있는 새로운 객체 인식 및 추적 기법을 제안한다.
본 논문에서는 관심 객체의 관심점과 이들의 지역특징 기술자를 기반으로 하는 실시간 다중 객체 인식 및 추적 알고리즘을 제안했다. 이를 위해 각 이미지에 대해 SURF 알고리즘을 사용하여 관심점과 이 지점들에 대한 기술자를 생성하고, 지역 특징에 대한 통계적인 분석을 통해 관심점들 중에 대표점들을 선정했다.
전처리 과정은 실제 질의 영상 처리에 필요한 여러 가지 정보를 미리 계산하여 데이터베이스에 기록하는 과정으로 그 상세 내용은 그림 1과 같다. 본 논문에서는 효과적인 실시간 객체 인식을 위해, 전처리 단계에서 대응점 정합 알고리즘을 사용하여 각 종류별 이미지들의 특징을 추출하는 작업을 수행한다. 일반적으로 관심점은 이미지 내에서 많은 정보를 담고 있는 부분, 즉 주위의 변화가 심한 지점을 의미한다.
제안 방법
먼저 질의 영상의 현재 프레임에 대해 관심점 및 범위 검출을 수행한다. 검출된 관심점에 대해 전처리 과정에서 구축된 대표특징들과 비교하여 얼마나 일치하는지를 계산한다. 현재 프레임의 관심점들에 대해, 어떤 객체의 대표특징들이 일정 비율 이상 존재한다고 판별되면 최종적으로 현재 프레임은 해당 객체를 포함한다고 간주한다.
입력된 영상의 현재 프레임에 대해 관심 영역을 사용하여 마스킹 함으로써 관심 영역을 제외한 영역을 배제한다. 그리고 해당 영역에 대한 객체 인식을 진행하여 객체의 실제 존재여부를 판단한다. 만약 객체가 존재한다고 판단되면 다음 프레임에서의 객체 추적을 위해 현재 관심 영역을 갱신해 주어야 한다.
다음의 표 1은 본 논문에서 제안한 방법을 사용해서 실제 객체 인식을 진행했을 때, 초당 몇 프레임을 처리할 수 있는가에 대한 실험의 결과이다. 다양한 객체가 여러 형태로 등장하는 실험 영상으로부터 기본 객체 인식 단계만을 사용한 것과 기본 객체 인식 단계와 객체 추적 단계를 병행해서 사용한 경우에 대해 평균 처리 프레임 수를 측정하였다. 결과적으로 후자가 전자에 비해 객체 인식 속도가 약 1.
이를 위해 각 이미지에 대해 SURF 알고리즘을 사용하여 관심점과 이 지점들에 대한 기술자를 생성하고, 지역 특징에 대한 통계적인 분석을 통해 관심점들 중에 대표점들을 선정했다. 또한, SURF 특징 기술자들의 정합을 응용하여 각 SURF 지점들의 움직임 벡터를 생성하여 실시간 객체 추적에 사용하였다. 이러한 움직임 벡터는 간단한 연산을 통해 구할 수 있어, 효과적인 객체의 추적이 가능하다.
기본적인 객체 인식 단계는 전처리 과정과 유사하다. 먼저 질의 영상의 현재 프레임에 대해 관심점 및 범위 검출을 수행한다. 검출된 관심점에 대해 전처리 과정에서 구축된 대표특징들과 비교하여 얼마나 일치하는지를 계산한다.
그림 3은 전체적인 시점이 좌측 상단으로 이동하고 있는 영상에서 연속된 두 프레임에 대해 움직임 벡터를 이용하여 이동하는 객체를 검출한 결과이다. 먼저, 현재 프레임(좌상)과 바로 이전 프레임(우상)에 대해 각각 SURF 특징 기술자를 추출하고 정합한다. 그 후에 정합된 기술자들 간에 이동한 경로를 벡터로 표현한 것이 하얀색 화살표들이다(좌하).
일반적으로 관심점은 이미지 내에서 많은 정보를 담고 있는 부분, 즉 주위의 변화가 심한 지점을 의미한다. 본 논문에서는 SURF 기법을 사용하여, 훈련 데이터의 각 이미지 별로 특징 기술자를 생성하고 대표 특징을 검출한다. 다음 단계에서는 앞에서 검출된 관심점들 중에서 해당 객체를 가장 잘 표현 할 수 있는 대표점을 선택한다.
여기서 관심 영역은 이전 프레임과 현재 프레임에서 실제로 객체가 인식된 영역을 기반으로 생성된다. 본 논문에서는 관심 영역의 크기를 현재 프레임에서 실제 객체가 인식된 영역의 1.5배 크기로 설정하였으며, 위치는 이전프레임에서 현재 프레임으로 객체가 이동한 만큼 이동하게 한다. 이는 바로 전 프레임까지의 정보만을 이용한다는 점에서 칼만 필터와 유사한 방식이지만, 칼만 필터에 비해 매우 적은 계산량으로 거의 비슷한 효과를 낼 수 있다는 장점이 있다.
한편, [9]에서는 이미지의 대표 조각들을 검출하고 이를 단계별로 구조화하여 객체 인식에 사용하였다. 본 연구에서는 대표 지점을 통해 일종의 bag of words를 구성하고 이를 이용해 객체를 인식한다. 이와 같은 연구를 바탕으로 박물관 가이드 투어 기법[10]이나 세계명소를 자동으로 찾고 인덱스 하는 기법들[11][12]이 최근 연구 되고 있다.
본 장에서는 실험을 통하여 지금까지 기술한 객체인식 및 추적 방법의 성능을 평가한다. 실험은 Intel Core 2 Duo 2.
이 중에서 본 논문에서 사용하는 SURF 표현자는 특징점을 중심으로 4 × 4의 세부영역을 구성하고 각 세부영역에 대해 Haar 웨이블릿을 적용하여 dx, dy, |dx|, |dy|의 4개 특징을 구해서 총 64 차원의 표현자 벡터를 구성한다.
본 논문에서는 관심 객체의 관심점과 이들의 지역특징 기술자를 기반으로 하는 실시간 다중 객체 인식 및 추적 알고리즘을 제안했다. 이를 위해 각 이미지에 대해 SURF 알고리즘을 사용하여 관심점과 이 지점들에 대한 기술자를 생성하고, 지역 특징에 대한 통계적인 분석을 통해 관심점들 중에 대표점들을 선정했다. 또한, SURF 특징 기술자들의 정합을 응용하여 각 SURF 지점들의 움직임 벡터를 생성하여 실시간 객체 추적에 사용하였다.
67Ghz, 4GB 메모리 사양의 Windows 7 환경에서 수행되었다. 전처리 및 질의 처리를 포함한 모든 과정은 MATLAB을 기반으로 구현하였고, OpenCV에 구현된 SURF알고리즘 모듈을 mex로 컴파일 해서 사용하였다. 실험을 위한 훈련 이미지 셋으로 Caltech101[15]을 사용하였다.
이러한 움직임 벡터는 간단한 연산을 통해 구할 수 있어, 효과적인 객체의 추적이 가능하다. 한편, 본 논문에서 제안하는 기법은 다중 객체를 독립적으로 인식 및 추적할 수 있는 장점이 있으며 실험을 통하여 이를 입증하였다. 속도면에서도 전처리 과정을 통하여 얻은 대표 특징들을 사용하여 실시간에 가까운 객체 추적 성능을 보였다.
대상 데이터
실험을 위한 훈련 이미지 셋으로 Caltech101[15]을 사용하였다. 본 실험에서는 이 중에서 stop sign, bikes, face의 세 카테고리에 대해 각각 20장씩의 이미지를 선택하여 훈련 후 사용하였다. 실제 질의는 640×480의 해상도를 가진 30 fps 영상을 카메라로부터 약 4분 정도 입력 받아서 진행하였다.
전처리 및 질의 처리를 포함한 모든 과정은 MATLAB을 기반으로 구현하였고, OpenCV에 구현된 SURF알고리즘 모듈을 mex로 컴파일 해서 사용하였다. 실험을 위한 훈련 이미지 셋으로 Caltech101[15]을 사용하였다. 본 실험에서는 이 중에서 stop sign, bikes, face의 세 카테고리에 대해 각각 20장씩의 이미지를 선택하여 훈련 후 사용하였다.
데이터처리
객체 별로 대표점에 대한 검출이 끝나면, 추가 학습을 통하여 인식에 필요한 계수들을 자동으로 계산한다. 각 객체 타입에 속하는 다수의 훈련 이미지에 대해 정합 비율을 계산한 후 이들의 평균을 계산한다. 그리고 다른 객체의 훈련 이미지에 대해서도 마찬가지로 각 이미지들에 대한 정합 비율을 측정한 후, 이들의 평균값을 계산한다.
각 객체 타입에 속하는 다수의 훈련 이미지에 대해 정합 비율을 계산한 후 이들의 평균을 계산한다. 그리고 다른 객체의 훈련 이미지에 대해서도 마찬가지로 각 이미지들에 대한 정합 비율을 측정한 후, 이들의 평균값을 계산한다. 하나의 객체 대표점에 대해 훈련 셋의 모든 이미지들과 비교하여 각각의 평균 정합 비율을 계산하고 이를 기반으로 각 객체를 인식하는 데 있어서 최적의 임계값을 결정한다.
성능/효과
다양한 객체가 여러 형태로 등장하는 실험 영상으로부터 기본 객체 인식 단계만을 사용한 것과 기본 객체 인식 단계와 객체 추적 단계를 병행해서 사용한 경우에 대해 평균 처리 프레임 수를 측정하였다. 결과적으로 후자가 전자에 비해 객체 인식 속도가 약 1.5배 향상된 것을 확인할 수 있었다. 이것은 어떠한 객체가 인식되고 난 후 몇 프레임에 대해 전체 영역을 고려하지 않고 특정한 일부 영역만을 고려하기 때문에 생기는 결과이다.
이것은 어떠한 객체가 인식되고 난 후 몇 프레임에 대해 전체 영역을 고려하지 않고 특정한 일부 영역만을 고려하기 때문에 생기는 결과이다. 실험 결과 기본 객체 인식 기법만을 사용했을 경우에는 초당 3.21개의 프레임을 처리할 수 있었지만, 객체 추적 단계를 더할 경우 초당 4.43개의 프레임까지 처리할 수 있었다.
후속연구
이미지에 대한 신뢰성 있는 객체 인식 기술을 개발하기 위해서는, 같은 객체라도 색상이나 관찰 각도, 조명 등 조건이나 환경의 변화에서 오는 객체의 다양한 변화를 정확하게 해석할 수 있어야 한다. 결과적으로 같은 종류의 객체들임에도 불구하고 다른 모습을 하거나, 반대로 다른 종류의 객체라도 어떠한 기준에서 보면 유사한 객체로 보이는 경우를 구분하기 위해서는 객체들간의 다양성을 보장함과 동시에 다른 종류의 객체간에 존재하는 차이점을 구별할 수 있어야 한다. 또한 객체 추적에 있어서 충돌이나 노출의 변화 등에 강인해야 만족스런 성능을 보일 수 있다.
참고문헌 (15)
C. Harris and M. Stephens, "A Combined Corner and Edge Detector," Proc. Alvey Vision Conf., pp. 147-151, 1988.
T. Lindeberg, "Feature detection with automatic scale selection," International Journal of Computer Vision, Vol. 30, no. 3, pp. 79-116, 1998.
K. Mikolajczyk and C. Schmid, "Indexing based on scale invariant interest points," International Conference Computer Vision, Vol. 1 pp. 525-531, 2001.
D. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints," Int'l J. Computer Vision,Vol. 60, no. 2, pp. 91-110, 2004.
H. Bay, T. Tuytelaars, and L. V. Gool, "Surf: Speeded up robust features," European Conference on Computer Vision, Vol. 3951, pp. 404-417, 2006.
G. Csurka, C. R. Dance, L. Fan, J. Willamowski, and C. Bray, Visual categorization with bags of keypoints, IN WORKSHOP ON STATISTICAL LEARNING IN COMPUTER VISION, ECCV, p. 1-22, 2004.
J. Sivic, B. Russell, A. Efros, A. Zisserman, and W. Freeman, Discovering object categories in image collections. 10-2005.
L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. In CVPR Workshop, 2004.
S. Ullman, Object recognition and segmentation by a fragment-based hierarchy, Trends in Cognitive Sciences, vol. 11, no. 2, p. 58-64, 2007.
F. Faber, M. Bennewitz, A. Gorog, C. Gonsior, D. Joho, M. Schreiber and S. Behnke, "The humanoid museum tour guide Robotinho", IN IEEE INT. SYMP. ON ROBOT AND HUMAN INTERACTIVE COMMUNICATION, 2009.
Yan-Tao Zheng, Ming Zhao, Yang Song, H. Adam, U. Buddemeier, A. Bissacco, F. Brucher, Tat-Seng Chua, and H. Neven, "Tour the world: Building a web-scale landmark recognition engine," in IEEE Conference on Computer Vision and Pattern Recognition, 2009. CVPR 2009, 2009, pp. 1085-1092.
A. Del Bimbo, W. Nunziati, and P. Pala, "David: Discriminant analysis for verification of monuments in image data," in IEEE International Conference on Multimedia and Expo, 2009. ICME 2009, 2009, pp. 334-337.
S. L. Lauritzen, Thiele: Pioneer in Statistics, Oxford University Press, 2002. ISBN 0-19-850972-3.
Y. Cheng, "Mean Shift, Mode Seeking, and Clustering". IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) 17 (8): 790-799, 1995.
L. Fei-Fei, R. Fergus and P. Perona, Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories, in Workshop on Generative-Model Based Vision, 2004.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.