정지영상에서 공간 관심맵을 생성하는 다양한 방법들이 소개되어 왔고, 최근에는 동영상의 운동정보를 활용하는 운동 관심맵 예측 기법이 활발히 연구되고 있다. 운동 관심맵은 운동정보 및 영역분할을 활용하고 있지만, 일반적인 영상에서는 만족스러운 데이터를 얻는 것은 어려움이 존재한다. 또한 우수한 관심맵을 얻기 위해서는 객체 운동, 카메라 운동 등의 운동유형 정보가 필요하기 때문에 다양한 자연영상을 대상으로 적용하면 성능 저하가 발생한다. 본 논문에서는 상기 언급한 문제점들을 극복할 수 있는 운동기반 관심맵 생성 방법을 제안한다. 공간 관심맵에 운동 정보를 결합하고, 운동 복잡도를 활용한다. 또한 근접 모델을 이용하여 주변 픽셀들의 관심도를 유사하게 함으로써, 동일 객체 또는 배경 영역이 유사한 값을 가지도록 한다. 실험에서는 다양한 동영상 데이터에 제안 방법을 적용하여 성능 검증을 수행하였다. 공간 관심도의 개선 여부를 증명하기 위해서 공간 관심맵 방법과의 객관적 성능 평가를 통해서 제안 방법이 공간 관심맵보다 운동 픽셀의 경우에 평균적으로 관심도 값이 +38 정도 향상되는 것을 보여준다. 또한 참조 데이터가 있는 4개의 동영상을 대상으로 얻은 ROC는 만족스러운 결과를 보여준다.
정지영상에서 공간 관심맵을 생성하는 다양한 방법들이 소개되어 왔고, 최근에는 동영상의 운동정보를 활용하는 운동 관심맵 예측 기법이 활발히 연구되고 있다. 운동 관심맵은 운동정보 및 영역분할을 활용하고 있지만, 일반적인 영상에서는 만족스러운 데이터를 얻는 것은 어려움이 존재한다. 또한 우수한 관심맵을 얻기 위해서는 객체 운동, 카메라 운동 등의 운동유형 정보가 필요하기 때문에 다양한 자연영상을 대상으로 적용하면 성능 저하가 발생한다. 본 논문에서는 상기 언급한 문제점들을 극복할 수 있는 운동기반 관심맵 생성 방법을 제안한다. 공간 관심맵에 운동 정보를 결합하고, 운동 복잡도를 활용한다. 또한 근접 모델을 이용하여 주변 픽셀들의 관심도를 유사하게 함으로써, 동일 객체 또는 배경 영역이 유사한 값을 가지도록 한다. 실험에서는 다양한 동영상 데이터에 제안 방법을 적용하여 성능 검증을 수행하였다. 공간 관심도의 개선 여부를 증명하기 위해서 공간 관심맵 방법과의 객관적 성능 평가를 통해서 제안 방법이 공간 관심맵보다 운동 픽셀의 경우에 평균적으로 관심도 값이 +38 정도 향상되는 것을 보여준다. 또한 참조 데이터가 있는 4개의 동영상을 대상으로 얻은 ROC는 만족스러운 결과를 보여준다.
Over the past decades, a variety of spatial saliency methods have been introduced. Recently, motion saliency has gained much interests, where motion data estimated from an image sequence are utilized. In general, motion saliency requires reliable motion data as well as image segmentation for produci...
Over the past decades, a variety of spatial saliency methods have been introduced. Recently, motion saliency has gained much interests, where motion data estimated from an image sequence are utilized. In general, motion saliency requires reliable motion data as well as image segmentation for producing satisfactory saliency map which poses difficulty in most natural images. To overcome this, we propose a motion-based saliency generation that enhances the spatial saliency based on the combination of spatial and motion saliencies as well as motion complexity without the consideration of complex motion classification and image segmentation. Further, an affinity model is integrated for the purpose of connecting close-by pixels with different colors and obtaining a similar saliency. In experiment, we performed the proposed method on eleven test sets. From the objective performance evaluation, we validated that the proposed method produces better result than spatial saliency based on objective evaluation as well as ROC test.
Over the past decades, a variety of spatial saliency methods have been introduced. Recently, motion saliency has gained much interests, where motion data estimated from an image sequence are utilized. In general, motion saliency requires reliable motion data as well as image segmentation for producing satisfactory saliency map which poses difficulty in most natural images. To overcome this, we propose a motion-based saliency generation that enhances the spatial saliency based on the combination of spatial and motion saliencies as well as motion complexity without the consideration of complex motion classification and image segmentation. Further, an affinity model is integrated for the purpose of connecting close-by pixels with different colors and obtaining a similar saliency. In experiment, we performed the proposed method on eleven test sets. From the objective performance evaluation, we validated that the proposed method produces better result than spatial saliency based on objective evaluation as well as ROC test.
본 논문에서는 [4]에서 제안한 공간 관심맵 방법을 기반으로 동영상 운동 정보를 이용하여 개선된 관심맵을 생성하는 방법을 제안한다. 이를 위해서 기존 방법을 지수 함수로 변환한 후에, 운동 정보와 통합한다.
본 논문에서는 운동정보를 관심맵에 적용하여 기존 공간 영상의 관심도를 향상하는 방법을 제안하였다. 이를 위해서 지수 증가 함수를 이용한 공간 관심도의 향상, 운동유형에 관계없이 운동 복잡도와 운동벡터의 직접 활용, 및 근접 모델링 기법 등을 활용하였다.
가설 설정
제안 방법은 두 유형을 분리하지 않고, 운동 데이터만 가지고 관심맵을 구하기 때문에, 복잡도면에서 장점을 가지면서 실제 영상에 구현이 편리하다. 이를 위해서 다음 두 가지를 가정한다; 첫째, 객체운동에서는 운동량이 크면 전경 객체이므로, 관심도는 운동 크기에 비례한다. 또한 운동 영역의 비율은 상대적으로 배경보다는 적다.
제안 방법
그림 1은 제안 방법의 전체 흐름도를 보여준다. RGB 영상에서 관심도(saliency)를 구하고, 두 연속 그레이스케일 영상의 운동 예측에서 얻어진 운동 정보를 이용하여 운동 관심도(motion saliency)를 구한다. 또한 운동 복잡도(motion complexity)를 계산을 한 후에, 이 값을 운동 관심맵에 적용한다.
운동 복잡도는 운동 유형 결정의 낮은 신뢰도를 해결하기 위해서 사용된다. 두 개의 관심도를 통합한 후에 근접 모델(affinity model)을 이용하여 구해진 관심맵의 주변 픽셀들의 값 차이를 감소시킨다.
정확도가 높으면 좋은 결과를 얻을 수 있지만, 영역분할이 어려운 복잡한 영상에서는 활용에 어려움이 많다. 따라서 영역분할 등의 전처리 과정을 이용하지 않고, 단순히 운동 데이터만을 이용하여 관심도를 향상시키는 방법을 제안한다. 관련 연구로 Li 등은 운동정보를 획득한 후에 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 이용하여 배경 및 전경객체의 관심도를 조절하고[10], Huang 등은 카메라 모션을 제거한 후에 객체의 관심도를 구한다[11].
RGB 영상에서 관심도(saliency)를 구하고, 두 연속 그레이스케일 영상의 운동 예측에서 얻어진 운동 정보를 이용하여 운동 관심도(motion saliency)를 구한다. 또한 운동 복잡도(motion complexity)를 계산을 한 후에, 이 값을 운동 관심맵에 적용한다. 운동 복잡도는 운동 유형 결정의 낮은 신뢰도를 해결하기 위해서 사용된다.
본 논문에서는 운동정보를 관심맵에 적용하여 기존 공간 영상의 관심도를 향상하는 방법을 제안하였다. 이를 위해서 지수 증가 함수를 이용한 공간 관심도의 향상, 운동유형에 관계없이 운동 복잡도와 운동벡터의 직접 활용, 및 근접 모델링 기법 등을 활용하였다. 제안 방법의 장점은 객체운동, 카메라 운동에 관계없이, 얻은 운동정보를 직접 활용할 수 있고, 이를 위해서 운동 복잡도를 활용하여 적응적으로 운동 관심도의 가중치를 조절할 수 있다.
또한 고속 운동(high motion)에서는 정확도가 많이 낮아지게 된다. 이와는 달리 제안 방법은 배경/전경 분리 등의 영역 분할을 사용하지 않고, 또한 운동 유형에 독립적이기 때문에, 동영상에 쉽게 적용이 가능하고, 또한 근접 모델을 활용하여 주변 픽셀들의 관심도 값을 유사하게 함으로써 영역의 관심도 불일치(discrepancy)를 줄일 수 있도록 한다.
대상 데이터
마찬가지로 는 정지 픽셀에서 각각 값이 증가, 감소한 픽셀의 개수이다. SPS는 제안 방법으로 얻어진 관심맵이고, SZS는 Zhai의 방법으로 얻어진 관심맵이다.
제안 방법의 성능 개선을 검증하기 위해서 10개의 데이 터 세트를 사용하였다[11,15-17]. 이중 redbird, horse, ski, girl 는 [16]의 실험 동영상이고, birdfall2는 [15], 그리고 walking, street men은 [17]의 데이터이다. 이 실험에서는 Zhai의 공간 관심맵과 비교하여 제안된 방법의 성능 비교를 수행하였다.
제안 방법의 성능 개선을 검증하기 위해서 10개의 데이 터 세트를 사용하였다[11,15-17]. 이중 redbird, horse, ski, girl 는 [16]의 실험 동영상이고, birdfall2는 [15], 그리고 walking, street men은 [17]의 데이터이다.
데이터처리
그림 7, 8의 SelfResemble은 Seo의 알고리즘을 의미한다. 각 방법에 대해 4개의 실험 비디오로부터 측정된 ROC를 나타내었으며, 그림 8에서는 제안 방법 및 기존 알고리즘의 평균 ROC를 측정하여 비교하였다. 알고리즘의 성능 비교는 ROC 곡선의 면적을 비교하여 수행된다.
각 프레임마다 값을 구한 후에 얻은 평균값은 표 1에서 보여진다. 공간 관심도인 Zhai의 방법으로 얻어진 관심맵을 기준으로 제안 방법의 성능을 검증한다. 운동 픽셀의 관심도가 상대적으로 증가하고, 반대로 정지 픽셀의 관심도가 감소한다면 성능이 향상되는 것으로 판단한다.
각 방법에 대해 4개의 실험 비디오로부터 측정된 ROC를 나타내었으며, 그림 8에서는 제안 방법 및 기존 알고리즘의 평균 ROC를 측정하여 비교하였다. 알고리즘의 성능 비교는 ROC 곡선의 면적을 비교하여 수행된다. 실험 결과로부터 제안 방법이 Zhai의 알고리즘에 비해 더 큰 ROC 면적을 가지고 있으나, Seo의 방법에서는 더 넓은 ROC 면적을 보여주고 있음을 확인할 수 있다.
이중 redbird, horse, ski, girl 는 [16]의 실험 동영상이고, birdfall2는 [15], 그리고 walking, street men은 [17]의 데이터이다. 이 실험에서는 Zhai의 공간 관심맵과 비교하여 제안된 방법의 성능 비교를 수행하였다. 또한 Huang이 제공한 4개의 실험 동영상 ball2, input2, rc2, mc2도 성능 검증에 이용하였다[11].
제안 방법의 객관적 성능을 평가하기 위해서 다음 성능 평가 방법을 사용한다. 픽셀을 운동 픽셀(motion pixel) 및 정지 픽셀(static pixel)로 분류한 후에, Zhai의 관심맵과 제안 방법의 관심맵을 비교한다. 운동픽셀의 관심도 증가 및 감소, 그리고 정지픽셀의 증가 및 감소 비율을 계산한다.
성능/효과
mc2의 경우에는, Zhai의 방법에서는 오히려 배경에 높은 관심도가 할당되었고, Seo의 방법에서는 사람의 얼굴을 제외한 대부분의 영역에서 낮은 관심도가 관찰되었다. 그러나 제안 방법을 이용한 결과에서는 배경의 관심도가 크게 낮아졌고, 사람 및 바이크에 관심도가 증가하였다. RC2에서도 유사한 결과를 보여주고 있다.
hen에서는 전경객체의 관심도가 증가하는 것을 알 수 있다. 두 번째 영상인 horse는 상단의 배경이 높은 관심도를 보여주는데, 제안된 방법에서는 이 관심도가 낮아지고 객체에서는 증가하는 것을 알 수 있다. ski는 유사한 관심맵을 보이지만, 근접 모델을 이용하기 때문에 주변 픽셀들 간의 값 차이가 적다.
운동 복잡도를 활용하여 객체운동에는 운동관심도의 비중을 높이고, 카메라운동에서는 공간 관심맵의 가중치를 높이도록 하여 적응적으로 관심도를 조절할 수 있다. 따라서 ROC 비교에서는 카메라 운동 영상에서는 상대적으로 성능 저하가 발생할 수 있지만, 객체운동영상에서는 반대로 우수한 성능을 보여준다.
운동픽셀의 관심도 증가 및 감소, 그리고 정지픽셀의 증가 및 감소 비율을 계산한다. 따라서 운동픽셀의 상승값이 클수록 (반대로 감소값이 작을수록), 반대로 정지픽셀은 증가값이 적으면 (반대로 감소 값은 크면), 성능이 개선되었다고 판단한다.
ball2와 같이 객체의 운동이 명확한 경우에는 개선된 관심맵을 얻을 수 있지만, input2의 경우 상대적으로 객체의 운동이 크기 않고, 느리게 움직이고 있다. 따라서, 운동 정보에 의한 개선은 기대하기 힘들지만, 근접 모델을 사용하였으므로 개선되었음을 확인할 수 있다. mc2의 경우에는, Zhai의 방법에서는 오히려 배경에 높은 관심도가 할당되었고, Seo의 방법에서는 사람의 얼굴을 제외한 대부분의 영역에서 낮은 관심도가 관찰되었다.
제안 방법의 장점은 객체운동, 카메라 운동에 관계없이, 얻은 운동정보를 직접 활용할 수 있고, 이를 위해서 운동 복잡도를 활용하여 적응적으로 운동 관심도의 가중치를 조절할 수 있다. 또한 근접 모델을 이용하여 인접 픽셀들이 유사한 관심도를 가질 수 있도록 하여, 기존 방법들보다 우수한 관심맵을 얻을 수 있다. 실험에서 운동픽셀의 관심도가 비교 방법보다 픽셀당 +38의 관심도가 증가함을 보여주었다.
그러나, 그림 6에서 확인하였듯이, Seo의 방법으로부터 획득한 관심맵은 객체의 명확한 윤곽을 확인할 수 없을뿐 아니라, 객체의 내부에 관심도가 낮고, 관심맵이 대체적으로 흐린 단점이 존재한다. 본 논문에서 제안한 방법은 Seo의 방법과 비교하여 높은 거짓 긍정률을 보이고 있는데, 이는 정확하지 못한 운동 정보 추정에 원인을 찾을 수 있다. 본 논문에서는 블록기반 운동예측 기법을 사용하고 있기 때문에 잘못된 운동정보가 나타나게 되면 이는 거짓 긍정률의 증가에 영향을 미치게 된다.
운동 정보를 결합한 관심맵 기법에서는 정확한 운동 정보의 검출이 무엇보다 중요하다. 실험 결과로부터 운동 객체에 상대적으로 큰 관심도가 부여되는 것을 증명하였으나, 객체의 경계 혹은 내부에 매끄럽지 못한 부분이 발생함을 확인할 수 있었다. 이는 운동 벡터 측정 방법에 대한 내용으로써 독립적으로 연구되어야 할 분야이다.
알고리즘의 성능 비교는 ROC 곡선의 면적을 비교하여 수행된다. 실험 결과로부터 제안 방법이 Zhai의 알고리즘에 비해 더 큰 ROC 면적을 가지고 있으나, Seo의 방법에서는 더 넓은 ROC 면적을 보여주고 있음을 확인할 수 있다. 그 이유는 Seo의 방법은 대체로 낮은 거짓 긍정률을 보이기 때문이다.
또한 근접 모델을 이용하여 인접 픽셀들이 유사한 관심도를 가질 수 있도록 하여, 기존 방법들보다 우수한 관심맵을 얻을 수 있다. 실험에서 운동픽셀의 관심도가 비교 방법보다 픽셀당 +38의 관심도가 증가함을 보여주었다. 제안 방법은 운동유형, 영역 분할 등의 복잡한 과정이 불필요하고, 일반 동영상에 적용될 수 있는 장점을 가지고 있다.
제안 방법은 운동유형, 영역 분할 등의 복잡한 과정이 불필요하고, 일반 동영상에 적용될 수 있는 장점을 가지고 있다. 운동 복잡도를 활용하여 객체운동에는 운동관심도의 비중을 높이고, 카메라운동에서는 공간 관심맵의 가중치를 높이도록 하여 적응적으로 관심도를 조절할 수 있다. 따라서 ROC 비교에서는 카메라 운동 영상에서는 상대적으로 성능 저하가 발생할 수 있지만, 객체운동영상에서는 반대로 우수한 성능을 보여준다.
공간 관심도인 Zhai의 방법으로 얻어진 관심맵을 기준으로 제안 방법의 성능을 검증한다. 운동 픽셀의 관심도가 상대적으로 증가하고, 반대로 정지 픽셀의 관심도가 감소한다면 성능이 향상되는 것으로 판단한다.
평균적으로는 운동픽셀 의 증가값은 +38 이고, 의 감소값 는 +1이다. 이 결과에 의하면 제안 방법은 Zhai의 방법보다 운동픽셀의 관심도를 전체적으로 증가시키는 것을 알 수 있다.
RC2에서도 유사한 결과를 보여주고 있다. 전체적으로 객체운동에서는 우수한 관심맵이 얻어지고, 카메라 운동에서는 효과가 크지 않음을 관찰할 수 있다. 이 관찰은 제안 방법으로부터 예측할 수 있다.
실험에서 운동픽셀의 관심도가 비교 방법보다 픽셀당 +38의 관심도가 증가함을 보여주었다. 제안 방법은 운동유형, 영역 분할 등의 복잡한 과정이 불필요하고, 일반 동영상에 적용될 수 있는 장점을 가지고 있다. 운동 복잡도를 활용하여 객체운동에는 운동관심도의 비중을 높이고, 카메라운동에서는 공간 관심맵의 가중치를 높이도록 하여 적응적으로 관심도를 조절할 수 있다.
이를 위해서 지수 증가 함수를 이용한 공간 관심도의 향상, 운동유형에 관계없이 운동 복잡도와 운동벡터의 직접 활용, 및 근접 모델링 기법 등을 활용하였다. 제안 방법의 장점은 객체운동, 카메라 운동에 관계없이, 얻은 운동정보를 직접 활용할 수 있고, 이를 위해서 운동 복잡도를 활용하여 적응적으로 운동 관심도의 가중치를 조절할 수 있다. 또한 근접 모델을 이용하여 인접 픽셀들이 유사한 관심도를 가질 수 있도록 하여, 기존 방법들보다 우수한 관심맵을 얻을 수 있다.
후속연구
실험 결과로부터 운동 객체에 상대적으로 큰 관심도가 부여되는 것을 증명하였으나, 객체의 경계 혹은 내부에 매끄럽지 못한 부분이 발생함을 확인할 수 있었다. 이는 운동 벡터 측정 방법에 대한 내용으로써 독립적으로 연구되어야 할 분야이다. 추후, 운동 검출의 향상을 통해 본 논문에서 제안하는 관심맵 검출 기법의 성능이 향상될 것으로 기대된다.
이는 운동 벡터 측정 방법에 대한 내용으로써 독립적으로 연구되어야 할 분야이다. 추후, 운동 검출의 향상을 통해 본 논문에서 제안하는 관심맵 검출 기법의 성능이 향상될 것으로 기대된다.
참고문헌 (18)
M. Cheng, G. Zhang, N. Mitra, X. Huang and S. Hu, "Global Contrast based Salient Region Detection," IEEE Conf. Computer Vision and Pattern Recognition, pp. 409-416, 2011.
R. Achanta and S. Susstrunk, "Saliency detection for content-aware image resizing," IEEE Int' Conf. Image Processing, pp.1005-1008, 2009.
V. Gopalakrishnan, Y. Hu and D, Rajan, "Salient Region Detection by Modeling Distributions of Color and Orientation", IEEE Trans. on Multimedia, Vol. 11, No. 5, Aug. 2009.
Y. Zhai and M. Shah, "Visual attention detection in video sequences using spatiotemporal cues," Proceedings of the 14th annual ACM Int' Conf. on Multimedia, pp. 815-824, 2006.
J. Li, Y. Tian, T. Huang and W. Gao "A dataset and evaluation methodology for visual saliency in video," IEEE Int' Conf. on Multimedia and Expo, pp. 442-445, June, 2009.
L. Itti, C. Koch, and E. Niebur, "A model of saliency-based visual attention for rapid scene analysis," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 11, pp. 1254-1259, Nov. 1998.
Y. Xia, R. Hu, Z. Huang and Y. Su, "A novel method for generation of motion saliency," Proc. of IEEE 17th Int' Conf. on Image Processing, Sep. 2010.
Y. Zhu, N. Jacobson, H. Pan, and T. Nguyen, "Motion-decision based spatiotemporal saliency for video sequences," IEEE Int' Conf. on Acoustics, Speech and Signal Processing, pp. 1333-1336, 2011.
X. Yang, R. Hu, Z. Huang and Y. Su, "A novel method for generation of motion saliency," IEEE Int' Conf. on Image Processing, pp. 4685-4688, Sep. 2010.
W. Li, H. Chang, K. Lien, H. Chang, and Y. F. Wang. "Exploring Visual and Motion Saliency for Automatic Video Object Extraction," IEEE Trans. on Image Processing, Vol. 22, No. 7, July 2013.
C. Huang, Y. Chang, Z. Yang and Y. Lin, "Video saliency map detection by dominant camera motion removal," IEEE Tran. on Circuits and Systems for Video Technology, 2012.
A. Mumtaz, W. Zhang and A. Chan, "Joint motion segmentation and background estimation in dynamic scenes," IEEE Conf. Computer Vision and Pattern Recognition, 2014.
J. Shi and J. Malik, "Normalized Cuts and Image Segmentation," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, no. 8, pp. 888-905, Aug. 2000.
D. Tsai, M. Flagg, and J. M. Rehg, "Motion coherent tracking with multi-label MRF optimization," in Proc. Brit. Mach. Vis. Conf., 2010.
K. Fukuchi, K. Miyazato, A. Kimura, S. Takagi, and J. Yamato, "Saliency-based video segmentation with graph cuts and sequentially updated priors," in Proc. IEEE Int. Conf. Multimedia Expo, pp. 638-641, June-July, 2009.
D. Baltieri, R. Vezzani and R. Cucchiara, "3DPes: 3D People Dataset for Surveillance and Forensics," in Proceedings of the 1st International ACM Workshop on Multimedia access to 3D Human Objects, Scottsdale, Arizona, USA, pp. 59-64, Nov-Dec, 2011. ( http://imagelab.ing. unimore.it/visor/3dpes.asp )
H. Seo and P. Milanfar, "Static and space-time visual saliency detection by self-resemblance," Journal of Vision, 9(12): 15, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.