본 논문에서는 딥러닝을 이용한 단안 영상 기반의 실시간 사람 자세 추정 모델과 그 학습 방법에 대해 제안하였다. 사람 자세 추정은 컴퓨터 비전 및 그래픽스에서 오래도록 연구되어온 사람 행동 이해 분야의 기반 기술이다. 일반적인 딥러닝 기반의 사람 자세 추정 모델은 특징 추출 모델과 특징 선택 모델로 나누어 볼 수 있다. 각 부분의 역할은 특징 추출 모델을 주로 ...
본 논문에서는 딥러닝을 이용한 단안 영상 기반의 실시간 사람 자세 추정 모델과 그 학습 방법에 대해 제안하였다. 사람 자세 추정은 컴퓨터 비전 및 그래픽스에서 오래도록 연구되어온 사람 행동 이해 분야의 기반 기술이다. 일반적인 딥러닝 기반의 사람 자세 추정 모델은 특징 추출 모델과 특징 선택 모델로 나누어 볼 수 있다. 각 부분의 역할은 특징 추출 모델을 주로 객체 인식에 사용되는 모델의 사전 학습된 파라미터를 가지고 와서 사용하며, 입력되는 영상을 특징맵으로 변환시켜주는 역할을 한다. 특징 선택 모델을 찾고자 하는 특징에 따라 출력의 모습을 변경하는 역할을 한다. 실시간 자세 추정을 위해 모델의 크기는 제한되기에, 적은 파라미터로 큰 효율을 낼 수 있는 Dilated Convolution을 적용하여 입력 영상 신호의 전달을 원활하게 하여 Convolution만 사용할 때보다 더 나은 성능을 얻었다. 또한, Residual을 이용한 차원 축소를 통하여 특징맵 간의 관계성을 연산하고 모델의 파라미터 감소를 통해 연산속도 증가와 더불어 성능도 개선하였다. 설계한 모델을 학습하기 위하여 MPII데이터를 사람 사이즈별로 정규화하여 훈련데이터를 구성하였다. 마지막으로 사람의 얼굴, Joint의 위치와 연결성을 의미하는 Limb 등 사람 자세를 추정할 때, 모델이 맞추어야 하는 작업들을 다중 작업 관점으로 해석하여, GradNorm이라는 다중 작업 학습 시 gradient를 각 작업별 gradient를 균등하게 하여 학습이 원활하게 하는 알고리즘을 적용하였다. 이를 통해 기존에 학습이 잘 안되던 모델도 더 잘 학습이 되는 결과를 얻었다. 제안한 모델은 Validation set 기준으로 60.29 AP를 얻었고, 최종 사람자세 추정 알고리즘은 최대 5명 기준으로 27.7 fps의 처리속도를 달성하였다.
본 논문에서는 딥러닝을 이용한 단안 영상 기반의 실시간 사람 자세 추정 모델과 그 학습 방법에 대해 제안하였다. 사람 자세 추정은 컴퓨터 비전 및 그래픽스에서 오래도록 연구되어온 사람 행동 이해 분야의 기반 기술이다. 일반적인 딥러닝 기반의 사람 자세 추정 모델은 특징 추출 모델과 특징 선택 모델로 나누어 볼 수 있다. 각 부분의 역할은 특징 추출 모델을 주로 객체 인식에 사용되는 모델의 사전 학습된 파라미터를 가지고 와서 사용하며, 입력되는 영상을 특징맵으로 변환시켜주는 역할을 한다. 특징 선택 모델을 찾고자 하는 특징에 따라 출력의 모습을 변경하는 역할을 한다. 실시간 자세 추정을 위해 모델의 크기는 제한되기에, 적은 파라미터로 큰 효율을 낼 수 있는 Dilated Convolution을 적용하여 입력 영상 신호의 전달을 원활하게 하여 Convolution만 사용할 때보다 더 나은 성능을 얻었다. 또한, Residual을 이용한 차원 축소를 통하여 특징맵 간의 관계성을 연산하고 모델의 파라미터 감소를 통해 연산속도 증가와 더불어 성능도 개선하였다. 설계한 모델을 학습하기 위하여 MPII데이터를 사람 사이즈별로 정규화하여 훈련데이터를 구성하였다. 마지막으로 사람의 얼굴, Joint의 위치와 연결성을 의미하는 Limb 등 사람 자세를 추정할 때, 모델이 맞추어야 하는 작업들을 다중 작업 관점으로 해석하여, GradNorm이라는 다중 작업 학습 시 gradient를 각 작업별 gradient를 균등하게 하여 학습이 원활하게 하는 알고리즘을 적용하였다. 이를 통해 기존에 학습이 잘 안되던 모델도 더 잘 학습이 되는 결과를 얻었다. 제안한 모델은 Validation set 기준으로 60.29 AP를 얻었고, 최종 사람자세 추정 알고리즘은 최대 5명 기준으로 27.7 fps의 처리속도를 달성하였다.
In this thesis, we studied human pose estimation method, which is the foundation technology of human behavior understanding which has been studied for a long time in computer vision and graphics. Especially, we proposed a real-time human pose estimation model based on a monocular image using deep le...
In this thesis, we studied human pose estimation method, which is the foundation technology of human behavior understanding which has been studied for a long time in computer vision and graphics. Especially, we proposed a real-time human pose estimation model based on a monocular image using deep learning and learning method. The general deep learning based human pose estimation model can be divided into feature extraction model and feature selection model. The role of each part is to use the feature extraction model with the pre-trained parameters of the model mainly used for object recognition and to convert the input image into the feature map. Feature Selection model changes the appearance of the feature maps which is processed by feature extraction model depending on which feature you are looking for. For real-time pose estimation, the size of the model is limited. Therefore, by applying the Dilated Convolution which can make a big efficiency with few parameters, the transfer of the input image signal is smooth and it is better than the Convolution only. In addition, the relationship between feature maps is computed through dimension reduction using Residual, and the performance is improved as well as the computational speed by reducing the parameters of the model. In order to learn the designed model, training data were constructed by normalizing MPII data by person instance size. Finally, when estimating human pose, such as head, joint position and it’s connectivity(limb), the work that the model should fit is interpreted in multi-task perspective, and the gradient is equalized for each task in the multi-task learning called GradNorm. We applied the algorithm to make learning easy. This resulted in better learning of models that were not previously trained well. The proposed model obtained 60.29 AP based on the validation set and the final pose estimation algorithm achieves the processing speed of 27.7 fps at most five people.
In this thesis, we studied human pose estimation method, which is the foundation technology of human behavior understanding which has been studied for a long time in computer vision and graphics. Especially, we proposed a real-time human pose estimation model based on a monocular image using deep learning and learning method. The general deep learning based human pose estimation model can be divided into feature extraction model and feature selection model. The role of each part is to use the feature extraction model with the pre-trained parameters of the model mainly used for object recognition and to convert the input image into the feature map. Feature Selection model changes the appearance of the feature maps which is processed by feature extraction model depending on which feature you are looking for. For real-time pose estimation, the size of the model is limited. Therefore, by applying the Dilated Convolution which can make a big efficiency with few parameters, the transfer of the input image signal is smooth and it is better than the Convolution only. In addition, the relationship between feature maps is computed through dimension reduction using Residual, and the performance is improved as well as the computational speed by reducing the parameters of the model. In order to learn the designed model, training data were constructed by normalizing MPII data by person instance size. Finally, when estimating human pose, such as head, joint position and it’s connectivity(limb), the work that the model should fit is interpreted in multi-task perspective, and the gradient is equalized for each task in the multi-task learning called GradNorm. We applied the algorithm to make learning easy. This resulted in better learning of models that were not previously trained well. The proposed model obtained 60.29 AP based on the validation set and the final pose estimation algorithm achieves the processing speed of 27.7 fps at most five people.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.