본 논문에서는 이전 연구 방법에서의 UV-histogram을 확장하여 적응적 UV-histogram을 제시함으로써, 복잡한 구성의 장면에서 사람의 검출율을 높이는 방법을 제시한다. 제안 방법은 먼저 U-histogram에서 사람 영역을 1차 추출하고, 각각의 레이블링된 U에서 V-histogram을 생성함으로써, 이전 방법에서 구분할 수 없었던 사람 후보 영역을 정확하게 추출한다. 또한 제안 방법은 사람 판정시, 초점거리와 거리에 따라 적응적인 크기를 가지는 오메가 모양의 템플릿을 이용하여 검출의 정확도를 높였으며, 누적 영상을 이용하여 오검출을 템플릿 재매칭 함으로써, occlusion에도 강인한 특성을 가진다. 실험 결과는 Bae의 연구방법에 비하여 복잡한 환경에서 약 15%의 정확도 향상, 80%의 재현율 향상을 보이며, Xia의 연구방법에 비하여 20배 빠른 수행속도를 보여, 제안 방법의 성능이 우수함을 입증한다.
본 논문에서는 이전 연구 방법에서의 UV-histogram을 확장하여 적응적 UV-histogram을 제시함으로써, 복잡한 구성의 장면에서 사람의 검출율을 높이는 방법을 제시한다. 제안 방법은 먼저 U-histogram에서 사람 영역을 1차 추출하고, 각각의 레이블링된 U에서 V-histogram을 생성함으로써, 이전 방법에서 구분할 수 없었던 사람 후보 영역을 정확하게 추출한다. 또한 제안 방법은 사람 판정시, 초점거리와 거리에 따라 적응적인 크기를 가지는 오메가 모양의 템플릿을 이용하여 검출의 정확도를 높였으며, 누적 영상을 이용하여 오검출을 템플릿 재매칭 함으로써, occlusion에도 강인한 특성을 가진다. 실험 결과는 Bae의 연구방법에 비하여 복잡한 환경에서 약 15%의 정확도 향상, 80%의 재현율 향상을 보이며, Xia의 연구방법에 비하여 20배 빠른 수행속도를 보여, 제안 방법의 성능이 우수함을 입증한다.
In this paper, a fast human detection method using adaptive UV-histogram and template matching is proposed. The proposed method improves the detection rate in the scene of complex environment. The method firstly generates U-histogram to extract human candidates and adaptively generates V-histogram f...
In this paper, a fast human detection method using adaptive UV-histogram and template matching is proposed. The proposed method improves the detection rate in the scene of complex environment. The method firstly generates U-histogram to extract human candidates and adaptively generates V-histogram for each labled U-histogram, thus it could extract humans correctly, which was impossible in the previous method. The method tries to match the human candidates with the adaptively sized omega shape template to the focal length and distance in order to improve the detection accuracy. It also detects false positives by rematching the template with accumulated foreground images and hence is robust to the occlusion. Experimental results showed that the proposed method has superior performance to the Bae's method in the complex environment with about 15% improvement in precision and 80% in recall and has 20 times faster processing time than Xia's method.
In this paper, a fast human detection method using adaptive UV-histogram and template matching is proposed. The proposed method improves the detection rate in the scene of complex environment. The method firstly generates U-histogram to extract human candidates and adaptively generates V-histogram for each labled U-histogram, thus it could extract humans correctly, which was impossible in the previous method. The method tries to match the human candidates with the adaptively sized omega shape template to the focal length and distance in order to improve the detection accuracy. It also detects false positives by rematching the template with accumulated foreground images and hence is robust to the occlusion. Experimental results showed that the proposed method has superior performance to the Bae's method in the complex environment with about 15% improvement in precision and 80% in recall and has 20 times faster processing time than Xia's method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 적응적 UV-histogram과 오메가 모양의 템플릿을 이용하여 빠르게 사람을 검출하는 방법을 제안하였다. 제안하는 방법은 적응적 UV-histogram를 이용하여 먼저 U-histogram에서 사람 후보 영역을 획득하고, 이에 대하여 V-histogram에서 사람에 해당할 수 있는 부분만 추출하여 템플릿 매칭을 수행함으로써 사람 후보영역 추출 재현율을 높였으며, 후보영역 추출 이후에도 occlusion에 강한 템플릿 매칭 방법을 사용함으로써 정확도를 크게 향상시켰다.
본 연구에서는 이전 방법에서의 거리 영상의 개선 방법을 강화하였다. 이전 방법은 비교적 가까운 거리의 사람을 타겟으로 하였기 때문에 중간값 필터를 이용하는 것만으로도 충분한 효과를 기대할 수 있었다.
본 연구에서는 이전 연구방법에서 보다 원거리의 사람을 검출할 수 있도록 템플릿 크기를 조절하는 방법을 제안한다. 이전 연구에서는 약 3m 거리까지의 측정 데이터를 이용하여 (1)과 같이 least square 방법을 써서 오메가 템플릿의 크기를 구하였다.
이 장에서는 이전 방법에서 제시한 거리 영상에서 UV-histogram를 이용하여 사람 여부를 판단 방법에 대한 연구를 고찰한다. 자세한 기술은 Bae[7]에서 찾을 수 있으며, 본 눈문에서는 주요 부분인 UV-histogram 방법과 오메가 템플릿 매칭에 대하여 간략히 서술을 한다.
가설 설정
그리고, 비교를 위하여 이전 방법에서의 U 없이 홀로 V-histogram을 생성한 결과를 (d)에 나타내었다. (b)에서는 화살표 부근과 같이 앞 또는 옆 사물과 사람이 구분되지 않는다. 또한, V 제작시, U에서와 같은 Hth를 사용하였을 때, 사람의 머리 부분이 제대로 클러스터링되지 않는 경우가 많다.
여기서 UV-histogram을 사용하는 주된 이유는 거리 영상에서 평면으로 표현되는 물체들이 UV-histogram에서 가로선 혹은 세로선으로 표현되어 물체 추출이 용이하기 때문이다. UV-histogram에서 선으로 표현된 물체를 사람의 후보 영역으로 가정하고 이를 획득하기 위하여 레이블링을 수행한다. U-histogram에서 획득한 n개의 레이블 집합을 #라고 하고, V-histogram에서 획득한 m개의 레이블 집합을 #라고 하자.
즉, 동일 인물에 대한 depth histogram은 연속적인 bin에서 값을 가져야 하고, 다른 사람이면 depth_resolution 이내에 불연속 구간이 존재해야 한다. 사람이 앞뒤로 최소 0.1m 이상 떨어져 있어야 있다고 가정하여 본 실험에서는 해당 값으로 고정하였다.
Hyun[4]은 오메가 모양의 실루엣을 템플릿 형태로 구성하고, 이를 거리 영상에 템플릿 매칭하여 사람을 검출하였다. 이 방법은 템플릿 매칭으로부터 발생하는 알고리즘의 속도 저하를 방지하기 위해 사람이 영상의 중앙 부근에 위치한다고 가정하여 ROI를 설정하고 연산속도를 향상시켰다. 거리 영상을 이용한 방법들은 배경에 영향을 받지 않는다는 장점이 있지만, 다양한 크기, 다양한 거리에 있는 사람 검출을 위해서는 여전히 일일이 거리 영상 전체에 템플릿 매칭을 수행해야 한다.
제안 방법
DS2는 2명의 인물이 실내를 드나들며 자유롭게 거니는 장면을 Kinect를 이용하여 촬영한 데이터셋이다. Xia와 제안방법에 동일한 성능판단기준을 적용하기 위하여, Xia로부터 제공되는 지상검증자료(Ground Truth)를 기준으로 정확도와 재현율을 측정하였다. 지상검증자료는 각 프레임별로 사람의 수를 기록하고 있다.
다양한 크기의 사람을 검출할 때 발생하는 추가적인 매칭 과정을 제거하기 위하여, 템플릿의 크기를 근사적으로 나타내는 곡선을 사용한다. 거리에 대한 템플릿 크기의 곡선은, 60cm부터 300cm까지 30cm 간격값 X로부터 사람의 상반신 길이 화소수 Y를 구한 9개의 데이터 집합을 가지고 수식 (1)에 최소자승법 (least square method)으로 맞추어 구한다.
UV 도메인에서는 먼저 측정 거리를 고려해 U-histogram을 생성하고 후보 영역의 크기를 고려해 레이블링을 하며, 영역 구별을 위하여 각 레이블링된 U blob로부터 적응적으로 V-histogram을 생성 및 레이블링 한다. 그리고, 검출된 후보 영역에 대하여 occlusion에 강인한 보다 개선된 템플릿 매칭을 수행하여 최종 사람을 검출한다.
다양한 크기의 사람을 검출할 때 발생하는 추가적인 매칭 과정을 제거하기 위하여, 템플릿의 크기를 근사적으로 나타내는 곡선을 사용한다. 거리에 대한 템플릿 크기의 곡선은, 60cm부터 300cm까지 30cm 간격값 X로부터 사람의 상반신 길이 화소수 Y를 구한 9개의 데이터 집합을 가지고 수식 (1)에 최소자승법 (least square method)으로 맞추어 구한다.
그림 3은 제안 방법의 흐름도이다. 먼저 입력 거리 영상에 대하여 ToF 잡음 특성을 고려한 거리 영상에 대한 개선 방법을 적용하고, UV 도메인에서 사람 영역 후보를 추출한다. UV 도메인에서는 먼저 측정 거리를 고려해 U-histogram을 생성하고 후보 영역의 크기를 고려해 레이블링을 하며, 영역 구별을 위하여 각 레이블링된 U blob로부터 적응적으로 V-histogram을 생성 및 레이블링 한다.
본 연구에서는 UV-histogram 방법을 확장한다. Bae의 방법은 비교적 잡음에 강인하나, 다소 복잡한 환경에서는 좋은 성능을 기대하기 어려웠다.
성능을 정량적으로 측정하기 위하여, 각 SET 별로 정확도(Precision)와 재현율(Recall)을 측정하였다. 정확도는 정확하게 검출된 사람 수를 (정확하게 검출된 사람 수+사람으로 오검출 된 수)로 나눈 것이며, 재현율은 각 데이터셋에서 총 검출된 사람의 수를 (전체 프레임 수×프레임별 사람 수)로 나눈 것이다.
그러므로 픽셀 단위의 초점 거리는 250의 크기를 가져야 한다. 실제로 카메라 내부에서 사용되는 정확한 초점거리를 측정하기 위하여, 임의의 측정된 점구름과 OpenCV[8]를 이용하여 내부 파라메터를 계산하여 보았다. 측정된 초점거리는 식 (13)과 같다.
이 방법을 원거리에 그대로 적용할 경우, 화소 크기의 측정이 부정확하게 되고 결과적으로 거리가 더 멀어질수록 실제 크기와의 오차가 커져 정확한 매칭의 결과를 기대하기 어렵게 된다. 제안하는 방법은 사용되는 카메라의 초점거리를 이용하여 템플릿의 크기를 구한다. 핀홀 카메라 모델에 의하여 거리 영상에 적용되는 템플릿의 크기는 어깨부터 머리 위까지의 Ω 모양에 해당하는 물리적 크기인 가로 xT, 세로 yT(단위: m)를 이용하여 식 (12)와 같이 구할 수 있다.
본 논문에서는 적응적 UV-histogram과 오메가 모양의 템플릿을 이용하여 빠르게 사람을 검출하는 방법을 제안하였다. 제안하는 방법은 적응적 UV-histogram를 이용하여 먼저 U-histogram에서 사람 후보 영역을 획득하고, 이에 대하여 V-histogram에서 사람에 해당할 수 있는 부분만 추출하여 템플릿 매칭을 수행함으로써 사람 후보영역 추출 재현율을 높였으며, 후보영역 추출 이후에도 occlusion에 강한 템플릿 매칭 방법을 사용함으로써 정확도를 크게 향상시켰다. 실험 결과, 거리 영상과 템플릿 매칭을 이용하는 기존의 사람 검출 방법과 비교하였을 때, 제안하는 방법은 장애물이 많은 복잡한 환경 (SET C, D, E, F)에서의 재현율은 약 80%, 정확도는 약 15%의 성능 향상을 나타내었다.
제안하는 방법의 성능 검증을 위해, 두 가지 데이터 셋으로 그 성능을 측정하였다. 첫 번째 데이터셋(이하 DS1)은 SR4000을 사용한 ToF 데이터셋으로써, 같은 ToF 데이터를 사용하는 Bae의 방법과 비교하기 위하여 사용되었으며, 두 번째 데이터셋(이하 DS2)은 Xia[3]의 저자가 제공하는 Kinect for XBOX 360[9](이하 Kinect)을 사용한 데이터셋으로써, Xia의 방법과 비교하기 위하여 사용되었다.
제안하는 적응적 UV-histogram 방법은 기본적으로 U-histogram 생성 후에 레이블링된 물체의 각각에 대하여 적응적으로 V-histogram을 생성하는 방법을 제시함으로써, U와 V histogram를 한 번에 생성하여 적용했을 때 발생하는 위 문제들에 대하여 해결책을 제시한다. 또한 ToF (Time-of-Flight) 잡음 특성을 고려한 필터링 방법을 추가하였으며, 템플릿 매칭에 있어서도 ROI 설정 및 매칭 방법의 개선하여 사람 검출의 성능을 향상시켰다.
. 피라미드에 속한 오메가 모양의 템플릿을 거리 영상에 반복적으로 매칭하여 다양한 크기의 사람을 검출한다. 하지만, 본 방법은 거리에 따른 템플릿의 크기를 곡선으로 모델링하여 사람 후보가 위치한 거리에 알맞은 크기의 템플릿을 생성하여 매칭하므로, 연산시간을 줄일 수 있다.
SET C, D, E, F는 복잡하고 움직임이 많은 환경에서의 성능을 비교/판단하기 위하여 추가 제작되었다. 해당 SET들은 카메라로부터 최대 거리가 약 7m인 강의실 내에서 촬영되었으며, SET C는 한명이 앞뒤로 움직이고, SET D는 3명이 앉았다 일어서며, SET E는 3명이 앞뒤로 서서 좌우로 움직이고, SET F는 3명이 자유롭게 실내를 걸어 다니는 것을 실시간 촬영하였다. 그림 8은 SET C, D, E, F에서의 결과 장면들 중 하나씩을 제시한 것이다.
반대로 U-histogram은 거리 영상에서 같은 가로축에 위치하는 거리 값들의 histogram을 쌓음으로써 획득한다. 획득한 UV-histogram에서 일정한 개수 이상으로 누적된 거리 값만 이용하여 이진화된 UV-histogram을 획득한다. 이 과정을 통하여, 잡음에 강인한 UV-histogram을 획득할 수 있다.
대상 데이터
제안하는 방법의 성능 검증을 위해, 두 가지 데이터 셋으로 그 성능을 측정하였다. 첫 번째 데이터셋(이하 DS1)은 SR4000을 사용한 ToF 데이터셋으로써, 같은 ToF 데이터를 사용하는 Bae의 방법과 비교하기 위하여 사용되었으며, 두 번째 데이터셋(이하 DS2)은 Xia[3]의 저자가 제공하는 Kinect for XBOX 360[9](이하 Kinect)을 사용한 데이터셋으로써, Xia의 방법과 비교하기 위하여 사용되었다.
이론/모형
사람 주위에 물체가 많거나 사람 자체가 움직일 경우, 잡음의 영향이 강해지므로 이에 대한 고려가 필요하다. 그리하여 본 연구에서는 ToF 카메라의 전경과 배경 사이의 날림화소(Flying Pixel) 잡음의 필터링 방법을 적용하였다. 날림화소란 전경과 배경 사이의 경계 부근에서 이상 거리측정값이 발생하는 것을 지칭한다.
사람의 후보 영상 I에서 오메가 템플릿 T를 슬라이딩 시키면서 매칭을 수행한다. 매칭시 발생하는 계산을 최소화하기 위해, 수식 (2)과 같은 간단한 픽셀값의 제곱차 (squared difference) 매칭 방법을 사용한다. 수식(2)은 완벽하게 템플릿과 일치하면 0을 반환하고, 템플릿과 일치하지 않을수록 큰 값을 반환한다.
성능/효과
이상인 것은 histogram bin에서 분리하는 효과가 있다. SR4000을 이용한 실험으로부터, Lth는 0.3m로 두었을 때 좋은 효과를 보였다.
Bae의 방법은 템플릿 매칭에 있어서 고정된 크기변환 파라메터를 사용하므로, 다른 카메라 파라메터를 가지는 DS2에는 적용이 불가하다. Xia와 성능을 비교해 볼때, 정확도는 완전히 같은 성능을 보이나, 재현율에서 약간의 차이를 보였다.
Xia의 방법과 제안방법의 성능의 주요한 차이점은 알고리즘의 수행시간이다. Xia의 수행시간은 프레임당 0.4초인데 반하여 제안 방법은 평균 18.77ms의 속도를 보여, 약 20배의 속도 차이를 나타내며, 이로써 실시간 수행이 가능하다.
제안하는 적응적 UV-histogram 방법은 기본적으로 U-histogram 생성 후에 레이블링된 물체의 각각에 대하여 적응적으로 V-histogram을 생성하는 방법을 제시함으로써, U와 V histogram를 한 번에 생성하여 적용했을 때 발생하는 위 문제들에 대하여 해결책을 제시한다. 또한 ToF (Time-of-Flight) 잡음 특성을 고려한 필터링 방법을 추가하였으며, 템플릿 매칭에 있어서도 ROI 설정 및 매칭 방법의 개선하여 사람 검출의 성능을 향상시켰다.
제안하는 방법은 적응적 UV-histogram를 이용하여 먼저 U-histogram에서 사람 후보 영역을 획득하고, 이에 대하여 V-histogram에서 사람에 해당할 수 있는 부분만 추출하여 템플릿 매칭을 수행함으로써 사람 후보영역 추출 재현율을 높였으며, 후보영역 추출 이후에도 occlusion에 강한 템플릿 매칭 방법을 사용함으로써 정확도를 크게 향상시켰다. 실험 결과, 거리 영상과 템플릿 매칭을 이용하는 기존의 사람 검출 방법과 비교하였을 때, 제안하는 방법은 장애물이 많은 복잡한 환경 (SET C, D, E, F)에서의 재현율은 약 80%, 정확도는 약 15%의 성능 향상을 나타내었다.
는 오메가 모양의 템플릿을 이용한 사람 검출 방법의 속도를 UV-histogram을 통해 개선하는 방법을 제안하였다. 이는 UV-histogram을 이용하여 사람 후보 영역을 획득하고 후보 영역에서만 템플릿 매칭을 수행함으로써 수행속도를 크게 향상하였다.
또한 Bae에서의 정확도가 상대적으로 낮은 것은, 원거리에 대한 오메가 템플릿의 크기 추정의 오차가 커지기 때문이며, SET C, F에서 정확도가 크게 떨어지는 이유는, 이러한 이유로 인하여 정적인 장애물이 사람으로 오검출되는 경우가 지속적으로 발생했기 때문이다. 제안방법에서는 초점거리를 이용한 템플릿 크기 추정 및 오검출 재매칭 등의 방법으로 이러한 점이 개선되었음을 알 수 있다.
후속연구
처리속도에 있어서는, DS1과 같은 저해상도 거리영상에 대하여 사람 검출력 성능을 확인한 만큼, 고해상도의 거리영상인 경우 UV 도메인에서의 합당한 스케일링을 등의 방법을 연구하면 더욱 고속으로 수행할 수 있을 것으로 생각된다.
오메가 모양의 템플릿 매칭의 단점은 사람이 오메가 모양을 벗어나게 되면 사람 후보가 검출되지 않는다는데에 있다. 향후 연구는 이러한 단점을 극복할 수 있는 방안에 대한 연구이다. 예를 들면 템플릿 매칭은 머리 부분만 본다든지 하여 조금 느슨하게 하고, 추출된 후보 영역에 대하여는 강인한 feature 매칭을 하는 방법이 있을 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
카메라를 이용한 실시간 사람 검출 방법은 어떤 분야에서 응용되고 있는가?
카메라를 이용한 실시간 사람 검출 방법은 차량 시스템, 지능형 로봇, 보안 및 감시 시스템, HCI (Human Computer Interaction) 등 다양한 분야에서 응용되고 있다. 앞서 설명한 분야에서 사람 검출 방법은 이러한 응용 분야에서 전처리 과정으로 이용되기 때문에, 이후 적용되는 알고리즘의 성능에 큰 영향을 미친다.
RGB 영상을 이용하는 방법은 어떻게 사람을 검출하는가?
RGB 영상을 이용하는 방법[1,2]은 사람의 윤곽선에 대한 특징값을 추출하고 이를 이용하여 사람을 검출한다. Dalal[1]은 영상에서 HOG (Histogram of Oriented Gradient)를 이용하여 특징값을 추출하고, SVM(Support Vector Machine) 분류기를 통해 사람을 검출하였다.
least square 방법으로 오메가 템플릿의 크기를 구한 방법을 원거리에 그대로 적용할 때 생기는 문점은 무엇인가?
이전 연구에서는 약 3m 거리까지의 측정 데이터를 이용하여 (1)과 같이 least square 방법을 써서 오메가 템플릿의 크기를 구하였다. 이 방법을 원거리에 그대로 적용할 경우, 화소 크기의 측정이 부정확하게 되고 결과적으로 거리가 더 멀어질수록 실제 크기와의 오차가 커져 정확한 매칭의 결과를 기대하기 어렵게 된다. 제안하는 방법은 사용되는 카메라의 초점거리를 이용하여 템플릿의 크기를 구한다.
참고문헌 (10)
N. Dalal B. Triggs, and C. Schmind, "Histogram of oriented of gradients for human detection" in IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 1, pp. 886-893, 2005.
Q. Zhu, S. Avidan, M. C. Yeh, and K. T. Cheng, "Fast Human Detection Using a Cascade of Histograms of Oriented Gradients," CVPR 2006.
L. Xia, C. C. Chen, and J. K. Aggarwal, "Human Detection Using Depth Information by Kinect," Workshop on Human Activity Understanding from 3D Data in conjunction with CVPR, 2011.
J. M. Hyun, J. H. Kwak, H. J. Ji, K. K. Kim, and W. Y. Kim, "Human Detection in Range data using Human Shape Features," Korean Signal Processing Conference, 2011.
http://www.mesa-imaging.ch/prodview4k.php
R. Benenson, M. Mathias, R. Timofte and L. Van Gool, "Pedestrian detection at 100 frames per second," CVPR 2012.
H.J. Bae, M. S. Na, W. Y. Kim, "Fast Human Detection Method in Range data using UV-disparity and Template Matching," Proceedings of the IEEK Fall Conference, pp. 512-515, 2013.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.