최근 영상감시 분야에서는 영상에서 움직이는 사람을 탐지하고, 탐지된 사람의 행위를 분석하는 방식에 딥러닝 기반 학습방법이 적용되기 시작했다. 이러한 지능형 영상분석 기술을 적용할 수 있는 분야 중 하나인 인간 행위 인식은 객체를 탐지하고 탐지된 객체의 행위를 인식하기 위해 신체 키포인트를 검출 하는 과정을 거치게 된다. 본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시한다. 먼저, 두 대의 카메라로 생성된 색상정보와 깊이정보를 이용하여 이동하는 객체를 배경으로부터 분할하여 탐지한다. RGB-D 정보를 이용하여 탐지된 객체의 영역을 재조정하여 생성된 입력 데이터를 한 사람의 자세 추정을 위한 Convolutional Pose Machines(CPM)에 적용한다. CPM을 이용하여 한 사람당 14개의 신체부위에 대한 신념 지도(Belief Map)를 생성하고, 신념 지도를 기반으로 신체 키포인트를 검출한다. 이와 같은 방법은 키포인트를 검출할 객체에 대한 정확한 영역을 제공하게 되며, 개별적인 신체 키포인트의 검출을 통하여 단일 신체 키포인트 검출에서 다중 신체 키포인트 검출로 확장 할 수 있다. 향후, 검출된 키포인트를 이용하여 인간 자세 추정을 위한 모델을 생성할 수 있으며 인간 행위 인식 분야에 기여 할 수 있다.
최근 영상감시 분야에서는 영상에서 움직이는 사람을 탐지하고, 탐지된 사람의 행위를 분석하는 방식에 딥러닝 기반 학습방법이 적용되기 시작했다. 이러한 지능형 영상분석 기술을 적용할 수 있는 분야 중 하나인 인간 행위 인식은 객체를 탐지하고 탐지된 객체의 행위를 인식하기 위해 신체 키포인트를 검출 하는 과정을 거치게 된다. 본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시한다. 먼저, 두 대의 카메라로 생성된 색상정보와 깊이정보를 이용하여 이동하는 객체를 배경으로부터 분할하여 탐지한다. RGB-D 정보를 이용하여 탐지된 객체의 영역을 재조정하여 생성된 입력 데이터를 한 사람의 자세 추정을 위한 Convolutional Pose Machines(CPM)에 적용한다. CPM을 이용하여 한 사람당 14개의 신체부위에 대한 신념 지도(Belief Map)를 생성하고, 신념 지도를 기반으로 신체 키포인트를 검출한다. 이와 같은 방법은 키포인트를 검출할 객체에 대한 정확한 영역을 제공하게 되며, 개별적인 신체 키포인트의 검출을 통하여 단일 신체 키포인트 검출에서 다중 신체 키포인트 검출로 확장 할 수 있다. 향후, 검출된 키포인트를 이용하여 인간 자세 추정을 위한 모델을 생성할 수 있으며 인간 행위 인식 분야에 기여 할 수 있다.
Recently, in the field of video surveillance, a Deep Learning based learning method has been applied to a method of detecting a moving person in a video and analyzing the behavior of a detected person. The human activity recognition, which is one of the fields this intelligent image analysis technol...
Recently, in the field of video surveillance, a Deep Learning based learning method has been applied to a method of detecting a moving person in a video and analyzing the behavior of a detected person. The human activity recognition, which is one of the fields this intelligent image analysis technology, detects the object and goes through the process of detecting the body keypoint to recognize the behavior of the detected object. In this paper, we propose a method for Body Keypoint Localization based on Object Detection using RGB-D information. First, the moving object is segmented and detected from the background using color information and depth information generated by the two cameras. The input image generated by rescaling the detected object region using RGB-D information is applied to Convolutional Pose Machines for one person's pose estimation. CPM are used to generate Belief Maps for 14 body parts per person and to detect body keypoints based on Belief Maps. This method provides an accurate region for objects to detect keypoints an can be extended from single Body Keypoint Localization to multiple Body Keypoint Localization through the integration of individual Body Keypoint Localization. In the future, it is possible to generate a model for human pose estimation using the detected keypoints and contribute to the field of human activity recognition.
Recently, in the field of video surveillance, a Deep Learning based learning method has been applied to a method of detecting a moving person in a video and analyzing the behavior of a detected person. The human activity recognition, which is one of the fields this intelligent image analysis technology, detects the object and goes through the process of detecting the body keypoint to recognize the behavior of the detected object. In this paper, we propose a method for Body Keypoint Localization based on Object Detection using RGB-D information. First, the moving object is segmented and detected from the background using color information and depth information generated by the two cameras. The input image generated by rescaling the detected object region using RGB-D information is applied to Convolutional Pose Machines for one person's pose estimation. CPM are used to generate Belief Maps for 14 body parts per person and to detect body keypoints based on Belief Maps. This method provides an accurate region for objects to detect keypoints an can be extended from single Body Keypoint Localization to multiple Body Keypoint Localization through the integration of individual Body Keypoint Localization. In the future, it is possible to generate a model for human pose estimation using the detected keypoints and contribute to the field of human activity recognition.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
또한, CPM의 키포인트를 검출하는 방식은 높은 정확도를 달성하지만, 주로 여러 사람이 가까이에 있을 때 실패 사례를 관찰 할 수 있다. 그러므로 여러 사람이 가까이 있을 경우와 목표 객체에 대한 가려짐(Occlusion)이 발생하는 문제를 해결하기 위해서 본 논문에서는 깊이 정보를 추가하여 RGB-D 정보 기반의 객체 탐지를 수행하고, 탐지된 객체의 영역 내부에서 신체 키포인트를 검출함으로써 다중 신체 키포인트 검출을 위한 방법을 제안 할 수 있다.
또한 사람과 같은 객체의 전반적인 행위를 인식하기 위해서는 영상에서 객체의 움직임을 탐지 하는 과정과 탐지된 객체의 각 신체부위를 검출하는 과정이 선행됨으로써 인간의 자세를 추정하고, 행위를 인식 할 수 있다[2]. 따라서 본 논문에서는 기존 RGB 정보에 객체의 위상학적 관계를 고려하기 위한 깊이(Depth) 정보를 추가하여 객체를 탐지하고, 인간의 신체부위를 나타내는 키포인트(Keypoint)를 검출하기 위한 방법을 제시한다.
사람의 행위를 인식하기 위해서는 영상에서 움직이는 객체를 배경영상으로부터 변화하는 영역을 추출함으로써 탐지 할 수 있다. 또한 3차원 실세계가 카메라를 통해 2차원 영상으로 변환되면서 생기는 위상학적 정보의 손실 한계를 개선하고, 목표 객체가 가려지는 문제를 해결하기 위하여 본 논문에서는 깊이 정보를 이용하여 객체 탐지를 수행하였다. 먼저, 원 영상에 혼합 가우시안 기법을 이용하여 배경모델을 계산하고, 지속적으로 배경모델을 업데이트하여 배경 모델링을 수행한 후, 움직이는 객체에 차 연산을 수행하여 객체를 분할한다.
본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시하였다. 그 결과, 영상 내에서 목표 객체가 아닌 불특정한 한 사람만을 탐지하던 CPM에 객체 탐지 과정을 추가함으로써 목표하는 객체에 대한 키포인트 검출을 할 수 있었다.
인간의 행위를 인식하는 분야에서 객체를 탐지하는 과정이 선행되면, 이를 기반으로 신체부위인 키포인트를 검출하는 과정을 거칠 수 있다. 본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시한다. 본 논문에서는 깊이 정보를 얻기 위해 두 대의 카메라를 이용하였고, 두 영상 간의 차이를 계산하여 깊이 영상을 생성하였다.
그림 8-a에서 객체 탐지 과정 없이 키포인트 검출을 수행한 결과, 한 사람에 대해서만 키포인트 검출을 수행하며, 검출하고자 하는 목표 객체(Target Object)에 대해서 검출을 수행하지 않을 수 있다.본 연구에서는 특정한 한 사람, 즉 목표 객체에 대하여 키포인트 검출을 수행하기 위하여 CPM에 객체 탐지 과정을 추가하였다. 그 결과, 목표 객체에 대한 정확한 영역을 제공함으로써 한 사람에 대한 키포인트 검출을 수행 하게 되었고, 키포인트 검출 결과는 그림 8-b에 나타나있다.
제안 방법
RGB-D 정보를 이용하여 탐지된 객체의 영역을 CPM에 입력 데이터로 제공하기 위해 각기 다른 크기로 탐지된 객체의 영역을 재조정 하는 과정을 거친다[12,13]. RGB-D 기반으로 탐지된 객체의 중심을 기준으로 생성된 라벨링 된 영역을 이용하여 영상을 자른다. 그 다음 영상의 비율을 모두 동일하게 1:1의 비율로 재조정하고, 영상의 여백 부분인 패딩을 추가하여 100x100 픽셀의 해상도로 입력 데이터를 생성한다.
RGB 정보를 이용하여 분할된 객체의 영역은 깊이 정보 기반의 분할을 수행하기 위한 도메인으로 설정되고, 설정된 영역 내부에서 깊이 값을 이용한 분할을 수행하여 객체를 탐지한다. RGB-D 정보를 이용하여 객체 탐지된 결과를 기반으로 라벨링 된 영역을 재조정하고, CPM에 입력되기 위한 입력 데이터를 생성한다. 이를 CPM에 적용하여 한 사람의 각 신체부위들을 검출하기 위한 14개의 신념 지도를 생성하여 이를 기반으로 신체 키포인트 검출과정을 거치게 된다.
좌, 우 카메라에서 입력되는 두 영상 간의 차이를 계산하기 위한 유사도를 측정하여 블록 단위로 매칭한 뒤 깊이지도를 생성한다. 깊이 정보를 이용하여 분할을 수행하기 위해 RGB 기반으로 분할된 영역을 깊이 값을 추출할 도메인으로 설정하고, 도메인 내부에서 일정한 깊이 값 범위에 따라 객체 분할을 수행한다. 깊이 값은 0에서 255 사이의 명암 값으로 나타난다.
한 이미지에서의 모든 위치 z=(u, v)T(Z는 이미지의 모든 위치(u, v)의 집합, ∀z∈ Z)에서 신체부위 p에 대한 이상적인 신념 지도는 각 신체부위 p의 이상적인(Ground Truth) 위치에 가우시안 피크(Gaussian peak)를 놓음으로써 생성된다. 또한 각 신체부위에 대한 예측 결과와 이상적인 신념 지도 사이의 거리를 최소화 하는 각 단계 t의 출력에서 손실 함수(Loss Function)를 다음과 같이 정의함으로써 네트워크가 반복적으로 정확한 신체부위 위치에 접근하도록 한다. 그러므로 각 단계의 결과에서 최소화 하고자 하는 손실 함수는 다음 식1과 같으며, 식에서 P+1은 신체 부위 p가 포함된 배경을 위한 것이다.
또한 3차원 실세계가 카메라를 통해 2차원 영상으로 변환되면서 생기는 위상학적 정보의 손실 한계를 개선하고, 목표 객체가 가려지는 문제를 해결하기 위하여 본 논문에서는 깊이 정보를 이용하여 객체 탐지를 수행하였다. 먼저, 원 영상에 혼합 가우시안 기법을 이용하여 배경모델을 계산하고, 지속적으로 배경모델을 업데이트하여 배경 모델링을 수행한 후, 움직이는 객체에 차 연산을 수행하여 객체를 분할한다.
이러한 신념 지도를 나타내는 신뢰도 값의 분포도는 그림 5에 나타나있으며 신뢰도가 낮을수록 어두운 보라색으로 나타내고, 신뢰도가 높을수록 밝은 노란색으로 나타난다. 본 논문에서는 RGB-D 정보를 이용한 객체 탐지 된 영역을 재조정 한 이미지에 CPM에 의해 사전 훈련된 모델을 사용하여 신뢰도 값을 예측하였고, 그림 5에서와 같이 각 신체의 관절 부위에 대해 예측된 신뢰도의 최댓값을 이용하여 한 사람당 14개의 관절을 나타내는 키포인트에 대한 신념 지도를 생성하였다. 신념 지도를 생성함으로써 신체 부위에 대한 키포인트의 위치를 예측한 결과는 그림 6과 같다.
본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시한다. 본 논문에서는 깊이 정보를 얻기 위해 두 대의 카메라를 이용하였고, 두 영상 간의 차이를 계산하여 깊이 영상을 생성하였다. 원 영상에 혼합 가우시안(Mixture of Gaussians) 기법을 사용하여 배경 모델링을 수행하고, 배경에서 움직이는 객체를 분할하게 된다.
RGB-D 정보를 이용하여 객체 탐지된 결과를 기반으로 라벨링 된 영역을 재조정하고, CPM에 입력되기 위한 입력 데이터를 생성한다. 이를 CPM에 적용하여 한 사람의 각 신체부위들을 검출하기 위한 14개의 신념 지도를 생성하여 이를 기반으로 신체 키포인트 검출과정을 거치게 된다. 키포인트 탐색 절차는 그림1과 같다.
대상 데이터
본 논문에서는 실제 CCTV 환경에서 해상도 800x450 픽셀 크기의 영상을 자체적으로 획득하여 실험하였다. 실험 환경은 AMD Ryzen 7 1700 3GHz CPU, 16GB RAM, NVIDIA GeForce GTX 1080 Ti GPU, Windows 10 에서 딥러닝 오픈소스 라이브러리인 텐서플로우(Tensorflow)를 이용하여 수행하였다[18].
이론/모형
본 논문에서는 실제 CCTV 환경에서 해상도 800x450 픽셀 크기의 영상을 자체적으로 획득하여 실험하였다. 실험 환경은 AMD Ryzen 7 1700 3GHz CPU, 16GB RAM, NVIDIA GeForce GTX 1080 Ti GPU, Windows 10 에서 딥러닝 오픈소스 라이브러리인 텐서플로우(Tensorflow)를 이용하여 수행하였다[18].
본 논문에서는 깊이 정보를 얻기 위해 두 대의 카메라를 이용하였고, 두 영상 간의 차이를 계산하여 깊이 영상을 생성하였다. 원 영상에 혼합 가우시안(Mixture of Gaussians) 기법을 사용하여 배경 모델링을 수행하고, 배경에서 움직이는 객체를 분할하게 된다. RGB 정보를 이용하여 분할된 객체의 영역은 깊이 정보 기반의 분할을 수행하기 위한 도메인으로 설정되고, 설정된 영역 내부에서 깊이 값을 이용한 분할을 수행하여 객체를 탐지한다.
성능/효과
본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시하였다. 그 결과, 영상 내에서 목표 객체가 아닌 불특정한 한 사람만을 탐지하던 CPM에 객체 탐지 과정을 추가함으로써 목표하는 객체에 대한 키포인트 검출을 할 수 있었다. 또한, 기존 RGB 정보에 깊이정보를 추가하여 객체 탐지를 수행함으로써 가려짐이 발생하는 목표 객체에 대해 명확하게 탐지하여 키포인트 검출을 위한 정확한 영역을 제공 할 수 있었다.
그 결과, 영상 내에서 목표 객체가 아닌 불특정한 한 사람만을 탐지하던 CPM에 객체 탐지 과정을 추가함으로써 목표하는 객체에 대한 키포인트 검출을 할 수 있었다. 또한, 기존 RGB 정보에 깊이정보를 추가하여 객체 탐지를 수행함으로써 가려짐이 발생하는 목표 객체에 대해 명확하게 탐지하여 키포인트 검출을 위한 정확한 영역을 제공 할 수 있었다. 향후 이러한 RGB-D 기반의 객체 탐지 과정을 추가하여 개별적인 목표 객체에 대해 신체 키포인트 검출함으로써 여러 사람의 키포인트 검출이 가능해진다.
후속연구
또한, 기존 RGB 정보에 깊이정보를 추가하여 객체 탐지를 수행함으로써 가려짐이 발생하는 목표 객체에 대해 명확하게 탐지하여 키포인트 검출을 위한 정확한 영역을 제공 할 수 있었다. 향후 이러한 RGB-D 기반의 객체 탐지 과정을 추가하여 개별적인 목표 객체에 대해 신체 키포인트 검출함으로써 여러 사람의 키포인트 검출이 가능해진다. 다중 신체 키포인트 검출(Multi-Keypoint Localization)은 여러 사람이 포함되어있는 CCTV 영상 내에서 움직이는 모든 사람들에 대하여 탐지를 수행한다.
질의응답
핵심어
질문
논문에서 추출한 답변
CPM의 네트워크는 어떻게 구성되어 있는가?
CPM의 네트워크 구조는 입력 영상에서 의미 있는 특징(Feature)을 추출하는 합성 곱 층(Convolution Layer)과 특징을 줄이는 서브 샘플링(Subsampling)을 하는 풀링 층 (Pooling Layer)으로 구성되어 있다. 출력 값을 위한 활성화 함수(Activation Function)는 입력 값이 0보다 작으면 0, 0보다 크면 입력 값 그대로를 출력하는 ReLU(Rectified Linear Unit) 함수를 사용한다.
본 논문에서 언급한 지능형 영상분석 기술을 적용할 수 있는 분야는?
최근 영상감시 분야에서는 영상에서 움직이는 사람을 탐지하고, 탐지된 사람의 행위를 분석하는 방식에 딥러닝 기반 학습방법이 적용되기 시작했다. 이러한 지능형 영상분석 기술을 적용할 수 있는 분야 중 하나인 인간 행위 인식은 객체를 탐지하고 탐지된 객체의 행위를 인식하기 위해 신체 키포인트를 검출 하는 과정을 거치게 된다. 본 논문에서는 RGB-D 정보를 이용한 객체 탐지 기반의 신체 키포인트 검출 방법을 제시한다.
목표 객체와 다른 객체가 가까이 있거나, 다른 객체에 의해서 목표 객체가 가려진 경우 발생하는 문제점은?
그러나 목표 객체와 다른 객체가 가까이 있거나, 다른 객체에 의해서 목표 객체가 가려진 경우는 객체가 하나로 탐지되는 문제가 발생 할 수 있다. 이러한 경우는 부정확한 영역에서 키포인트 검출이 수행됨으로써 키포인트 검출의 정확성을 보장 할 수 없게 된다. 그러므로 정확한 영역을 제공함으로써 제공된 영역 내부에서 키포인트 검출을 수행해야한다.
참고문헌 (20)
Grant, Jason M., and Patrick J. Flynn., "Crowd Scene Understanding from Video: A Survey," ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), Vol 13, No. 2, pp. 19, 2017. https://doi.org/10.1145/3052930
Zhang, Shugang, et al., "Vision-Based Human Activity Recognition: A Review," Journal of Healthcare Engineering, Vol 2017, pp. 1-31, 2017. https://doi.org/10.1155/2017/3090343
Vrigkas, Michalis, Christophoros Nikou, and Ioannis A. Kakadiaris, "A review of human activity recognition methods," Frontiers in Robotics and AI, Vol 2, article 28, 2015. https://doi.org/10.3389/frobt.2015.00028
Paul, Manoranjan, Shah ME Haque, and Subrata Chakraborty., "Human detection in surveillance videos and its applications-a review," EURASIP Journal on Advances in Signal Processing, Vol 176, No. 1, pp.1-16, 2013. https://doi.org/10.1186/1687-6180-2013-176
Toshev, Alexander, and Christian Szegedy., "Deeppose: Human pose estimation via deep neural networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1653-1660, 2014. https://doi.org/10.1109/cvpr.2014.214
Pishchulin, Leonid, et al., "Deepcut: Joint subset partition and labeling for multi person pose estimation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4929-4937. 2016. https://doi.org/10.1109/cvpr.2016.533
OpenPose: A Real-Time Multi-Person Keypoint Detection And Multi-Threading C++ Library, 2017. https://github.com/CMU-Perceptual-Computing-Lab/openpose
Cao, Zhe, et al., "Realtime multi-person 2d pose estimation using part affinity fields," arXiv preprint arXiv:1611.08050, 2016. https://arxiv.org/abs/1611.08050
Simon, Tomas, et al., "Hand Keypoint Detection in Single Images using Multiview Bootstrapping," arXiv preprint arXiv:1704.07809, 2017. https://arxiv.org/abs/1704.07809
Wei, Shih-En, et al., "Convolutional pose machines," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4724-4732, 2016. https://doi.org/10.1109/cvpr.2016.511
Seohee Park, Junchul Chun., "A Robust Object Detection and Tracking Method using RGB-D Model", Journal of Internet Computing and Services (JICS), Vol 18, No. 4, pp. 61-67, 2017. http://dx.doi.org/10.7472/jksii.2017.18.4.61
Papandreou, George, et al. "Towards Accurate Multi-person Pose Estimation in the Wild." arXiv preprint arXiv:1701.01779, 2017. https://arxiv.org/abs/1701.01779
Linna, Marko, Juho Kannala, and Esa Rahtu., "Real-time human pose estimation from video with convolutional neural networks," arXiv preprint arXiv:1609.07420, 2016. https://arxiv.org/abs/1609.07420
Ramakrishna, Varun, et al., "Pose machines: Articulated pose estimation via inference machines," European Conference on Computer Vision, pp. 33-47, 2014. https://doi.org/10.1007/978-3-319-10605-2_3
Andriluka, Mykhaylo, et al., "2d human pose estimation: New benchmark and state of the art analysis," Proceedings of the IEEE Conference on computer Vision and Pattern Recognition, pp. 3686-3693, 2014. https://doi.org/10.1109/cvpr.2014.471
Bulat, Adrian, and Georgios Tzimiropoulos., "Human pose estimation via convolutional part heatmap regression," European Conference on Computer Vision, pp. 717-732, 2016. https://doi.org/10.1007/978-3-319-46478-7_44
Belagiannis, Vasileios, and Andrew Zisserman., "Recurrent human pose estimation," Automatic Face & Gesture Recognition (FG 2017), 2017 12th IEEE International Conference on. IEEE, pp. 468-475, 2017. https://doi.org/10.1109/fg.2017.64
Google, "MNIST For ML Beginners,". https://www.tensorflow.org
Mehta, Dushyant, et al., "VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera," arXiv preprint arXiv:1705.01583, 2017. https://arxiv.org/abs/1705.01583
Ramakrishna, Varun, Takeo Kanade, and Yaser Sheikh., "Reconstructing 3d human pose from 2d image landmarks," Computer Vision-ECCV 2012, pp. 573-586, 2012. https://doi.org/10.1007/978-3-642-33765-9_41
※ AI-Helper는 부적절한 답변을 할 수 있습니다.