[논문]RGB-D 정보를 이용한 2차원 키포인트 탐지 기반 3차원 인간 자세 추정 방법

박서희; 지명근; 전준철

doi:10.7472/jksii.2018.19.6.41

RGB-D 정보를 이용한 2차원 키포인트 탐지 기반 3차원 인간 자세 추정 방법
A Method for 3D Human Pose Estimation based on 2D Keypoint Detection using RGB-D information 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.19 no.6, 2018년, pp.41 - 51

박서희 (Human Care System Research Center, Korea Electronics Technology Institute(KETI)) , 지명근 (Department of Computer Science, Kyonggi University) , 전준철 (Department of Computer Science, Kyonggi University)

초록
AI-Helper

최근 영상 감시 분야에서는 지능형 영상 감시 시스템에 딥 러닝 기반 학습 방법이 적용되어 범죄, 화재, 이상 현상과 같은 다양한 이벤트들을 강건하게 탐지 할 수 있게 되었다. 그러나 3차원 실세계를 2차원 영상으로 투영시키면서 발생하는 3차원 정보의 손실로 인하여 폐색 문제가 발생하기 때문에 올바르게 객체를 탐지하고, 자세를 추정하기 위해서는 폐색 문제를 고려하는 것이 필요하다. 따라서 본 연구에서는 기존 RGB 정보에 깊이 정보를 추가하여 객체 탐지 과정에서 나타나는 폐색 문제를 해결하여 움직이는 객체를 탐지하고, 탐지된 영역에서 컨볼루션 신경망을 이용하여 인간의 관절 부위인 14개의 키포인트의 위치를 예측한다. 그 다음 자세 추정 과정에서 발생하는 자가 폐색 문제를 해결하기 위하여 2차원 키포인트 예측 결과와 심층 신경망을 이용하여 자세 추정의 범위를 3차원 공간상으로 확장함으로써 3차원 인간 자세 추정 방법을 설명한다. 향후, 본 연구의 2차원 및 3차원 자세 추정 결과는 인간 행위 인식을 위한 용이한 데이터로 사용되어 산업 기술 발달에 기여 할 수 있다.

Abstract ▼ AI-Helper

Recently, in the field of video surveillance, deep learning based learning method is applied to intelligent video surveillance system, and various events such as crime, fire, and abnormal phenomenon can be robustly detected. However, since occlusion occurs due to the loss of 3d information generated by projecting the 3d real-world in 2d image, it is need to consider the occlusion problem in order to accurately detect the object and to estimate the pose. Therefore, in this paper, we detect moving objects by solving the occlusion problem of object detection process by adding depth information to existing RGB information. Then, using the convolution neural network in the detected region, the positions of the 14 keypoints of the human joint region can be predicted. Finally, in order to solve the self-occlusion problem occurring in the pose estimation process, the method for 3d human pose estimation is described by extending the range of estimation to the 3d space using the predicted result of 2d keypoint and the deep neural network. In the future, the result of 2d and 3d pose estimation of this research can be used as easy data for future human behavior recognition and contribute to the development of industrial technology.

주제어

표/그림 (12)

그림 (그림 1) 폐색 문제[1, 2] (Figure 1) The problem of occlusion
그림 (그림 2) RGB-D 정보를 이용한 2차원 키포인트 탐지 기반 3차원 인간 자세 추정의 개요 (Figure 2) The overview of 3D human Pose Estimation based on 2D Keypoint Detection using RGB-D information
그림 (그림 3) RGB-D 정보 기반 객체 탐지 (Figure 3) Object Detection based on RGB-D information
그림 (그림 4) 2차원 키포인트 탐지를 위한 컨볼루션 신경망 구조[16] (Figure 4) The structure of Convolutional Neural Network for 2D Keypoint Detection
그림 (그림 5) 스켈레톤 모델 (Figure 5) Skeleton Model
그림 (그림 6) 3차원 인간 자세 추정을 위한 심층 신경망 구조[14] (Figure 6) The structure of Deep Neural Network for 3D Human Pose Estimation
그림 (그림 7) 신뢰 분포도 (Figure 7) Distribution plot of belief
그림 (그림 8) 3차원 인간 자세 추정 (Figure 8) 3D Human Pose Estimation
그림 (그림 9) 객체 탐지 결과 비교 (Figure 9) Comparison of Results of Object Detection
표 (표 1) 실험 환경 (Table 1) Experimental Environments
표 (표 2) Human3.6M 데이터 세트[6]를 이용한 3차원 인간 자세 추정 결과 비교 (관절 위치 오류 당 평균) (Table 2) Comparison of results of 3D Human Pose Estimation using Human3.6M (MPJPE)
그림 (그림 10) Human3.6M 데이터 세트를 이용한 3차원 인간 자세 추정 결과 (Figure 10) The result of 3D Human Pose Estimation using Human3.6M dataset

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

2차원 영상으로 객체를 탐지하고, 자세를 추정하기 위해서는 폐색 문제를 고려하는 것이 필요하다. 따라서 본 논문에서는 객체 탐지 과정에서 발생하는 폐색 문제와 자세 추정 과정에서 발생하는 자가 폐색문제를 해결하기 위해 RGB-D 정보를 이용한 2차원 키포인트 탐지 기반 3차원 인간 자세 추정 방법을 설명한다.
이는 컨볼루션 신경망 기반 순차적 예측 프레임워크인 컨볼루션 포즈머신(Convolution Pose Machine)[16]으로 모델을 학습하여 키포인트를 탐지한다. 따라서 본 연구에서는 객체 탐지과정에서 나타나는 폐색 문제를 해결하기 위해 스테레오 비전을 통해 RGB-D 정보를 획득함으로써 객체를 강건하게 탐지하고, 하향식 방식을 채택하여 탐지된 영역에서 컨볼루션 포즈머신[16]을 통해 2차원 키포인트를 탐지하는 연구를 수행한다. 또한 2차원 키포인트 탐지 과정에서 나타나는 자가 폐색 문제를 해결하기 위하여 심층 신경망을 통해 2차원 키포인트를 3차원 공간상으로 확장시킴으로써 신체의 구성을 추정하는 방법을 설명한다.
지능형 영상 감시 시스템에서 인간의 행위를 인식하기 위해서는 객체 탐지 및 자세 추정 과정에서 나타나는 폐색 문제를 해결하여 객체를 강건하게 검출할 필요가 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 그림2와 같이 양안 영상(Binocular Images)을 이용하여 깊이 정보를 계산하고 RGB 정보와 병합하여 객체를 탐지한다. 그 다음 탐지된 경계 상자 영역을 컨볼루션 포즈머신의 입력으로 설정하여 신뢰 지도(Belief Map)들을 반환함으로써 2차원 키포인트 탐지를 수행한다.
본 연구에서는 3차원 실세계가 2차원 영상 정보로 투영되면서 발생하는 3차원 정보의 손실로 인한 폐색 문제를 객체 탐지 과정의 폐색과 자세 추정 과정의 자가 폐색으로 구분하여 두 가지 폐색 문제를 해결하기 위한 연구를 진행하였다. 객체 탐지 과정에서 발생하는 폐색을 해결하기 위해 RGB-D 정보 기반의 객체 탐지를 수행함으로써 객체를 강건하게 분할하여 탐지하고, 올바르게 계수할 수 있음을 확인하였다.

제안 방법

깊이지도는 두 영상 간 픽셀의 차이를 통해 영상의 유사도를 계산하는 블록 정합을 수행하며,이는 1차원 명암 값을 가진다[5]. RGB 정보만으로 분할된 영역 내부에서 깊이 값을 차례대로 탐색하여 이전 픽셀값과 현재 픽셀 값을 비교하고, 일정한 깊이 값 범위를 갖는 픽셀끼리 군집화(Clustering)를 수행하여 2차 분할을 수행한다. RGB-D 정보 기반 객체 탐지 결과는 그림 3에 나타나 있다.
먼저 각 다른 크기로 탐지된 경계 상자 영역을 재조정하여 컨볼루션 신경망의 입력으로 설정한다. 그 다음 2차원 키포인트 예측 결과를 나타내는 N개의 신뢰 지도들을 반환하는 컨볼루션 포즈머신[16]을 이용하여 키포인트를 추정한다. 컨볼루션 신경망 구조는 그림 4를 따른다.
본 논문에서는 이러한 문제를 해결하기 위하여 그림2와 같이 양안 영상(Binocular Images)을 이용하여 깊이 정보를 계산하고 RGB 정보와 병합하여 객체를 탐지한다. 그 다음 탐지된 경계 상자 영역을 컨볼루션 포즈머신의 입력으로 설정하여 신뢰 지도(Belief Map)들을 반환함으로써 2차원 키포인트 탐지를 수행한다. 탐지된 키포인트정보는 심층 신경망의 입력으로 설정되어 3차원 인간 자세 추정을 수행하게 된다.
가우시안 혼합 모델을 이용하여 모델링 된 배경영상으로부터 변화하는 영역을 차 연산 하여 움직이는 객체를 탐지한다[4]. 그 다음, RGB 기반으로 탐지된 결과에 깊이 정보를 추가하여 2차적으로 분할하기 위해 양안 영상을 이용하여 스테레오 비전 기반의 깊이지도(DepthMap)를 생성한다. 깊이지도는 두 영상 간 픽셀의 차이를 통해 영상의 유사도를 계산하는 블록 정합을 수행하며,이는 1차원 명암 값을 가진다[5].
그 다음, 특징함수 ψ를 통해 이전 단계의 신뢰도에 대한 특징과 특징 벡터를 사용하여 신뢰도를 정제한다.
따라서 본 연구에서는 객체 탐지과정에서 나타나는 폐색 문제를 해결하기 위해 스테레오 비전을 통해 RGB-D 정보를 획득함으로써 객체를 강건하게 탐지하고, 하향식 방식을 채택하여 탐지된 영역에서 컨볼루션 포즈머신[16]을 통해 2차원 키포인트를 탐지하는 연구를 수행한다. 또한 2차원 키포인트 탐지 과정에서 나타나는 자가 폐색 문제를 해결하기 위하여 심층 신경망을 통해 2차원 키포인트를 3차원 공간상으로 확장시킴으로써 신체의 구성을 추정하는 방법을 설명한다.
6M 데이터 세트[6]는 360만개의 자세에 대한 정보와 함께 비디오 형식의 데이터로 제공된다. 또한 6명의 남자와 5명의 여자가 15개의 시나리오에 대한 가변성 있는 동작들을 수행하며 스켈레톤 모델과 실제 좌표 값을 제공한다. 이러한 시나리오는 Directions, Discussing, Eating, Greeting, Phone Call, Posing,Purchases, Sitting, Sitting Down, Smoking, Taking Photo,Waiting, Walking, Walking Dog, Walking Together 으로 구성된다.
의 연구[14]는 컨볼루션 포즈머신[16]과 비슷한 결과를 산출하는 누적 모래시계 신경망[18]을 기반으로 2차원 키포인트를예측하였다. 또한 심층 신경망을 이용하여 3차원 자세를 추정하였으며, 추가적으로 신경망의 매개변수를 미세하게 조정하는 파인튜닝(Fine-tuning)을 수행하여 오류를 감소시켰다.
본 연구에서 사용된 심층 신경망의 입력 데이터는 2차원 키포인트 좌표 x∈R2n들로 구성되며, 심층 신경망에 의해 산출되는 데이터는 3차원 자세 좌표 y∈R3n들로 구성된다. 또한 임의의 좌표 공간에서 본래의 3차원 키포인트 위치와 유사하게 추정함으로써 누락된 3차원 데이터를 복구하기 위해 카메라 프레임으로부터 전역 좌표계를 고정하여 훈련된 모델을 사용한다. 심층 신경망은Human3.
탐지된 키포인트정보는 심층 신경망의 입력으로 설정되어 3차원 인간 자세 추정을 수행하게 된다. 본 논문에서 제안하는 방법을 RGB-D 정보 기반 객체 탐지, 컨볼루션 신경망 기반 2차원 키포인트 탐지, 심층 신경망 기반 3차원 인간 자세 추정으로 나누어 설명한다.
본 연구에서 Human3.6M 데이터 세트[6]를 이용하여 벤치마크 함으로써 RGB-D 정보를 이용한 객체 탐지 기반의 3차원 인간 자세 추정 결과를 다른 3차원 인간 자세 추정 결과들과 비교하였다. Human3.
본 연구에서는 두 대의 CCTV 영상을 이용하여 객체탐지를 수행한다. 먼저 왼쪽 단안 영상을 기반으로 배경으로부터 움직이는 객체를 1차적으로 분할하는 과정을 거친다.
2차원 키포인트 좌표에 대응하는 3차원 좌표는 무한하기 때문에 3차원 인간 자세 추정은 어려운 문제 중 하나이다. 본 연구에서는 비교적 정보량이 적기 때문에 작업하기 유용한 2차원 키포인트 좌표를 입력으로 설정하여 간단한 심층 신경망을 통해 3차원 공간상의 자세 추정을 수행한다[14]. 예측된 신뢰도 값의 최댓값을 식 5를 통해 계산하여 키포인트 좌표를 산출한다.
본 연구에서는 비디오를 프레임 별로 분할하여 입력 영상을 추출한 후, Human3.6M 데이터 세트[6]에서 제공하는 깊이 정보인 TOF(Time of Flight) 데이터를 이용하여 RGB-D 정보 기반으로 객체를 탐지하였다. 탐지된 영상을 재조정하여 2차원 키포인트를 추정하고, 산출된 좌표들을 심층 신경망에 입력하여 3차원 인간 자세 추정을 수행한 결과는 그림 10에 나타나있다.
이러한 시나리오는 Directions, Discussing, Eating, Greeting, Phone Call, Posing,Purchases, Sitting, Sitting Down, Smoking, Taking Photo,Waiting, Walking, Walking Dog, Walking Together 으로 구성된다. 본 연구에서는 이러한 시나리오들이 포함된 학습 및 테스트를 위해 나누어진 11가지 대상(Subject)들 중 S9,S11을 이용하여 자세 추정 결과를 평가하였다. S9, S11 데이터 세트에는 15가지 시나리오 및 초당 50 프레임을 가지는 256개의 동영상으로 구성된다.
본 연구에서는 키포인트 위치를 예측하기 위해 객체 탐지 과정으로부터 계산된 영역 내부에서 컨볼루션 신경망을 기반으로 자세를 추정하는 하향식 접근을 수행한다. 또한 그림 5와 같이 14개의 2차원 키포인트를 가지는 스켈레톤 모델을 사용하였다.
본 연구의 객체 탐지 방법 비교는 기존 RGB 정보만을 이용한 경우와 RGB-D 정보를 이용한 경우로 나누어 실험하였다. 그림 9는 상단부터 차례대로 원 영상, RGB 정보만을 이용하여 객체를 탐지한 결과, 본 연구에서 제안하는 RGB-D 정보를 이용한 객체 탐지 결과이다.
객체 탐지 과정에서 발생하는 폐색을 해결하기 위해 RGB-D 정보 기반의 객체 탐지를 수행함으로써 객체를 강건하게 분할하여 탐지하고, 올바르게 계수할 수 있음을 확인하였다. 자세 추정과정에서 발생하는 자가 폐색 문제를 해결하기 위해 2차원 키포인트를 심층신경망을 통해 3차원 공간상으로 확장함으로써 본래 3차원 자세와 유사하게 추정하고, 올바른 키포인트 데이터 복구를 시도 하였다.

대상 데이터

본 연구에서는 이러한 시나리오들이 포함된 학습 및 테스트를 위해 나누어진 11가지 대상(Subject)들 중 S9,S11을 이용하여 자세 추정 결과를 평가하였다. S9, S11 데이터 세트에는 15가지 시나리오 및 초당 50 프레임을 가지는 256개의 동영상으로 구성된다.
본 연구에서는 키포인트 위치를 예측하기 위해 객체 탐지 과정으로부터 계산된 영역 내부에서 컨볼루션 신경망을 기반으로 자세를 추정하는 하향식 접근을 수행한다. 또한 그림 5와 같이 14개의 2차원 키포인트를 가지는 스켈레톤 모델을 사용하였다. 먼저 각 다른 크기로 탐지된 경계 상자 영역을 재조정하여 컨볼루션 신경망의 입력으로 설정한다.
본 연구에서 사용된 심층 신경망의 입력 데이터는 2차원 키포인트 좌표 x∈R2n들로 구성되며, 심층 신경망에 의해 산출되는 데이터는 3차원 자세 좌표 y∈R3n들로 구성된다.
본 연구에서는 키포인트에 대한 실제 값 주석이 달린MPII 자세 데이터 세트를 이용하여 사전 훈련된 모델을 사용하였다. 컨볼루션 포즈머신[16]은 기존 포즈머신(Pose Machine)[17]의 자세 추정을 컨볼루션 신경망 구조로 구현한 것이며, 키포인트인 g_t(·)의 위치를 예측하는 두 단계로 구성된다.

이론/모형

6M 데이터 세트[6]의 16개의 키포인트를 가지는 스켈레톤 모델을 이용하여 사전 훈련되었으며, 2n 크기인 32개의 2차원 입력 데이터는 선형 계층을 거쳐 1024개로 증가되고, 그 다음 선형 계층에서 최종 예측 값 산출 전에 적용되어 3n 크기인 48개의 3차원 자세 데이터를 산출한다[14]. 또한 활성화 함수인 ReLU 함수를 사용하여 활성화 값을 조절하며, 활성화 함수의 출력 값들을 정규화 하기 위한 배치 정규화(Batch Normalization) 기법과 가중치 중 일부만 사용하는 드롭아웃(Dropout) 기법을 사용한다. 선형 계층은 두 번 반복되며, 두 블록은 스킵 연결(Skip Connection)을 수행함으로써 두 개의 가중치 계층 다음에 입력 값을 그대로 더해주는 잔여 연결(Residual Connection) 방법으로 연결됨으로써 총 6개의 선형 계층으로 구성된다.
본 연구에서는 Human3.6M 데이터 세트[6]를 이용하여 훈련된 모델을 사용하였고, 훈련 시 전체 데이터에 대한한 번의 학습을 의미하는 에폭(Epoch)은 200, 학습 속도(Learning Rate)는 0001, 64 크기의 미니 배치 값을 이용하였다[14]. RGB-D 정보를 이용한 객체 탐지 기반 3차원 인간 자세 추정 결과는 그림 8과 같으며, 상단부터 차례대로 재조정 된 입력 영상, 2차원 키포인트 탐지, 3차원 인간 자세 추정의 결과를 나타낸다.
컨볼루션 포즈머신[16]의 신경망 구조는 입력 영상에서 특징을 추출하는 컨볼루션 계층과 추출된 특징을 서브 샘플링(Sub-sampling)하는 풀링(Pooling) 계층으로 구성된다. 의미 있는 출력 값을 추출하기 위한 활성화 함수는ReLU(Rectified Linear Unit) 함수를 사용한다. 컨볼루션신경망 구조는 각 단계마다 신뢰 지도를 생성하는 t 단계로 구성되어 있으며, 이전 단계의 예측 결과는 다음 단계의 입력으로 사용된다.

성능/효과

본 연구에서는 3차원 실세계가 2차원 영상 정보로 투영되면서 발생하는 3차원 정보의 손실로 인한 폐색 문제를 객체 탐지 과정의 폐색과 자세 추정 과정의 자가 폐색으로 구분하여 두 가지 폐색 문제를 해결하기 위한 연구를 진행하였다. 객체 탐지 과정에서 발생하는 폐색을 해결하기 위해 RGB-D 정보 기반의 객체 탐지를 수행함으로써 객체를 강건하게 분할하여 탐지하고, 올바르게 계수할 수 있음을 확인하였다. 자세 추정과정에서 발생하는 자가 폐색 문제를 해결하기 위해 2차원 키포인트를 심층신경망을 통해 3차원 공간상으로 확장함으로써 본래 3차원 자세와 유사하게 추정하고, 올바른 키포인트 데이터 복구를 시도 하였다.
기존 RGB 정보만을 이용하여 객체를 탐지하게 될 경우, 3차원 정보 부족으로 인해 객체 사이에 폐색 현상이 발생하여 객체가 하나로 탐지되는 문제가 발생한다. 본 논문에서는 이러한 폐색 현상을 고려하여 RGB-D 정보 기반의 객체탐지를 수행한 결과, 폐색 문제로 인하여 두 개 이상의 객체가 하나의 객체로 탐지되었던 기존의 문제점을 해결하여 객체를 강건하게 분할하였다. 또한 움직이는 객체를 올바르게 계수 할 수 있음을 확인했으므로 지능형 영상감시 시스템의 객체 계수 기능으로 구현이 가능 하다.
본 연구에서 3차원 인간 자세 추정을 수행한 결과 관절 평균 오류의 평균은 98.06mm 라는 결과를 얻었다. 또한 기존 Human3.
, Martinez et al.의 연구에서 오류 측면에서는 낮은 성능을 보였지만, 지능형 영상 감시 시스템을 위한 속도 측면에서는 실시간 시스템에 적용 시킬 수 있는 가능성을 보였다. 따라서 본 연구에서는 향후 파인 튜닝을 수행하여 관절 위치 오류 당 평균을 감소시킴으로써 3차원 인간 자세 추정 결과를 개선할 필요가 있다.
하지만 본 연구에서는 Human3.6M 데이터 세트를 이용하여 배치 사이즈(Batch Size) 1개 기준으로 평균 실행되는 시간을 계산 했을 때, 3차원 인간 자세 추정 모듈은 0.039초 정도 소요되었다. Tome et al.

후속연구

의 연구에서 오류 측면에서는 낮은 성능을 보였지만, 지능형 영상 감시 시스템을 위한 속도 측면에서는 실시간 시스템에 적용 시킬 수 있는 가능성을 보였다. 따라서 본 연구에서는 향후 파인 튜닝을 수행하여 관절 위치 오류 당 평균을 감소시킴으로써 3차원 인간 자세 추정 결과를 개선할 필요가 있다. 향후 이러한 추정 방법을 이용하여 지능형 영상 감시 시스템에 실시간으로 적용 시킬 수 있다.
향후 연구로는 객체 탐지 과정에서 탐지된 객체의 정보는 객체 추적 연구로의 확장이 가능하며, 지능형 영상분석 시스템에 보행자 침입 및 출입 탐지, 이동 방향 탐지, 객체 카운팅 등의 기능으로 구현이 가능하다. 또한 2차원 키포인트 탐지를 통한 3차원 인간 자세 추정 과정에서 컨볼루션 신경망과 심층 신경망의 파인 튜닝을 통해 관절 평균 오류를 최소화함으로써 3차원 키포인트 좌표를 실제 인간 자세와 유사하게 추정하여 정확도를 개선하는 연구가 추가적으로 필요하다. 산출된 2차원 키포인트는 3차원 자세 추정을 위한 용이한 단서로 제공 될 수 있으며, 최종 산출된 자세 데이터는 인간 행위 인식을 위한 데이터로 사용될 수 있으므로 확장 연구를 통해 지능형 영상 분석 시스템, 의료 분야의 행위 예측 기술을 이용한 환자의 행위 분석, 자율 주행 자동차에서의 보행자 탐지 분야 등에 적용되어 산업 기술 발달에 기여 할 수 있다.
산출된 2차원 키포인트는 3차원 자세 추정을 위한 용이한 단서로 제공 될 수 있으며, 최종 산출된 자세 데이터는 인간 행위 인식을 위한 데이터로 사용될 수 있으므로 확장 연구를 통해 지능형 영상 분석 시스템, 의료 분야의 행위 예측 기술을 이용한 환자의 행위 분석, 자율 주행 자동차에서의 보행자 탐지 분야 등에 적용되어 산업 기술 발달에 기여 할 수 있다. 또한, 추정된 자세 데이터를 기반으로 3차원 그래픽스 모델 생성으로의 확장 연구를 통해 자세를 유연하게 표현함으로써 게임, AR(Augmented Reality) 및 VR(Virtual Reality)과 같은 분야에서 응용 할 수 있다.
또한 2차원 키포인트 탐지를 통한 3차원 인간 자세 추정 과정에서 컨볼루션 신경망과 심층 신경망의 파인 튜닝을 통해 관절 평균 오류를 최소화함으로써 3차원 키포인트 좌표를 실제 인간 자세와 유사하게 추정하여 정확도를 개선하는 연구가 추가적으로 필요하다. 산출된 2차원 키포인트는 3차원 자세 추정을 위한 용이한 단서로 제공 될 수 있으며, 최종 산출된 자세 데이터는 인간 행위 인식을 위한 데이터로 사용될 수 있으므로 확장 연구를 통해 지능형 영상 분석 시스템, 의료 분야의 행위 예측 기술을 이용한 환자의 행위 분석, 자율 주행 자동차에서의 보행자 탐지 분야 등에 적용되어 산업 기술 발달에 기여 할 수 있다. 또한, 추정된 자세 데이터를 기반으로 3차원 그래픽스 모델 생성으로의 확장 연구를 통해 자세를 유연하게 표현함으로써 게임, AR(Augmented Reality) 및 VR(Virtual Reality)과 같은 분야에서 응용 할 수 있다.
향후 연구로는 객체 탐지 과정에서 탐지된 객체의 정보는 객체 추적 연구로의 확장이 가능하며, 지능형 영상분석 시스템에 보행자 침입 및 출입 탐지, 이동 방향 탐지, 객체 카운팅 등의 기능으로 구현이 가능하다. 또한 2차원 키포인트 탐지를 통한 3차원 인간 자세 추정 과정에서 컨볼루션 신경망과 심층 신경망의 파인 튜닝을 통해 관절 평균 오류를 최소화함으로써 3차원 키포인트 좌표를 실제 인간 자세와 유사하게 추정하여 정확도를 개선하는 연구가 추가적으로 필요하다.
따라서 본 연구에서는 향후 파인 튜닝을 수행하여 관절 위치 오류 당 평균을 감소시킴으로써 3차원 인간 자세 추정 결과를 개선할 필요가 있다. 향후 이러한 추정 방법을 이용하여 지능형 영상 감시 시스템에 실시간으로 적용 시킬 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	지능형 영상 분석은 무엇인가?	지능형 영상 분석은 CCTV(Closed Circuit Television)를이용하여 영상 내 특성을 인식하고, 패턴을 추출함으로써 정보를 분석하는 분야이다. 최근 지능형 영상 분석 시스템은 효율적인 영상 감시(Video Surveillance)를 위해 딥러닝(Deep Learning) 기반 학습 방법이 적용되어 다양하게 사전 정의된 이벤트를 강건하게 탐지함으로써 감시자에게 객체 탐지, 보행자 행위 예측과 같은 유용한 정보를 제공할 수 있게 되었다.
	영상에서 인간의 행위를 인식하기 위해서는 어떤 과정이 필요한가?	최근 지능형 영상 분석 시스템은 효율적인 영상 감시(Video Surveillance)를 위해 딥러닝(Deep Learning) 기반 학습 방법이 적용되어 다양하게 사전 정의된 이벤트를 강건하게 탐지함으로써 감시자에게 객체 탐지, 보행자 행위 예측과 같은 유용한 정보를 제공할 수 있게 되었다. 영상에서 인간의 행위를 인식하기 위해서는 움직이는 객체를 탐지하는 과정과 탐지된 인간의 자세를 추정하는 과정이 필요하다. 그러나 일반적으로 CCTV 영상은 3차원 실세계를 2차원 영상으로 투영 시키면서 생기는 위상학적 정보의 손실 때문에 한 부분이 다른 부분에 의해 가려지는 폐색(Occlusion) 문제가 발생한다.
	RGB-D 정보 기반 객체 탐지 방법은 폐색 문제를 해결하기 위해 어떻게 객체를 탐지하는가?	지능형 영상 감시 시스템에서 인간의 행위를 인식하기 위해서는 객체 탐지 및 자세 추정 과정에서 나타나는 폐색 문제를 해결하여 객체를 강건하게 검출할 필요가 있다. 본 논문에서는 이러한 문제를 해결하기 위하여 그림2와 같이 양안 영상(Binocular Images)을 이용하여 깊이 정보를 계산하고 RGB 정보와 병합하여 객체를 탐지한다. 그 다음 탐지된 경계 상자 영역을 컨볼루션 포즈머신의입력으로 설정하여 신뢰 지도(Belief Map)들을 반환함으로써 2차원 키포인트 탐지를 수행한다.

참고문헌 (19)

Seohee Park, Myunggeun Ji, and Junchul Chun, "2D Human Pose Estimation based on Object Detection using RGB-D information", KSII Transactions on Internet & Information Systems, Vol. 12, No. 2, pp. 800-816, 2018. https://doi.org/10.3837/tiis.2018.02.015
Ramakrishna, Varun, Takeo Kanade, and Yaser Sheikh, "Reconstructing 3d human pose from 2d image landmarks", European conference on computer vision. Springer, Berlin, Heidelberg, pp. 573-586, 2012. https://doi.org/10.1007/978-3-642-33765-9_41
Parekh, Himani S., Darshak G. Thakore, and Udesang K. Jaliya, "A survey on object detection and tracking methods", International Journal of Innovative Research in Computer and Communication Engineering, Vol. 2, No. 2, pp. 2970-2978, 2014. http://www.ijircce.com/upload/2014/february/7J_A%20S urvey.pdf
Zivkovic, Zoran, "Improved adaptive Gaussian mixture model for background subtraction", Pattern Recognition, 2004. https://doi.org/10.1109/icpr.2004.1333992
Hirschmuller, Heiko, "Stereo processing by semiglobal matching and mutual information", IEEE Transactions on pattern analysis and machine intelligence, Vol. 30, No. 2, pp. 328-341, 2008. https://doi.org/10.1109/tpami.2007.1166

상세보기
Ionescu, Catalin, et al, "Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments", IEEE transactions on pattern analysis and machine intelligence, Vol. 36, No. 7, pp. 1325-1339, 2014. https://doi.org/10.1109/tpami.2013.248

상세보기
Tekin, Bugra, et al, "Direct prediction of 3d body poses from motion compensated sequences", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016. https://doi.org/10.1109/cvpr.2016.113
Chen, Ching-Hang, and Deva Ramanan, "3d human pose estimation 2d pose estimation + matching", CVPR, Vol. 2, No. 5, 2017. https://doi.org/10.1109/cvpr.2017.610
Zhou, Xiaowei, et al, "Sparseness meets deepness: 3D human pose estimation from monocular video", Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. https://doi.org/10.1109/cvpr.2016.537
Du, Yu, et al, "Marker-less 3d human motion capture with monocular image sequence and height-maps", European Conference on Computer Vision. Springer, Cham, 2016. https://doi.org/10.1007/978-3-319-46493-0_2
Park, Sungheon, Jihye Hwang, and Nojun Kwak, "3D human pose estimation using convolutional neural networks with 2D pose information", European Conference on Computer Vision. Springer, Cham, 2016. https://arxiv.org/abs/1608.03075
Zhou, et al, "Deep kinematic pose regression", European Conference on Computer Vision. Springer, Cham, 2016. https://arxiv.org/abs/1609.05317
Tome, Denis, Christopher Russell, and Lourdes Agapito, "Lifting from the deep: Convolutional 3d pose estimation from a single image", CVPR 2017 Proceedings, pp. 2500-2509, 2017. https://doi.org/10.1109/cvpr.2017.603
Martinez, et al, "A simple yet effective baseline for 3d human pose estimation", International Conference on Computer Vision, Vol. 1, No. 2. 2017. https://doi.org/10.1109/iccv.2017.288
OpenPose: A Real-Time Multi-Person Keypoint Detection and Multi-Threading C++ Library, 2017.
Wei, Shih-En, et al, "Convolutional pose machines", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016. https://doi.org/10.1109/cvpr.2016.511
Ramakrishna, Varun, et al, "Pose machines: Articulated pose estimation via inference machines", European Conference on Computer Vision. Springer, Cham, 2014. https://doi.org/10.1007/978-3-319-10605-2_3
Newell, Alejandro, Kaiyu Yang, and Jia Deng, "Stacked hourglass networks for human pose estimation", European Conference on Computer Vision. Springer, Cham, 2016. https://doi.org/10.1007/978-3-319-46484-8_29
Sigal, Leonid, et al, "Humaneva: Synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion", International journal of computer vision, 2010. https://doi.org/10.1007/s11263-009-0273-6

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증