본 논문에서는 신체 부분 포즈를 이용한 깊이 영상 포즈렛과 제스처를 인식하는 방법을 제안한다. 제스처는 순차적인 포즈로 구성되어 있기 때문에, 제스처를 인식하기 위해서는 시계열 포즈를 획득하는 것에 중점을 두고 있어야 한다. 하지만 인간의 포즈는 자유도가 높고 왜곡이 많기 때문에 포즈를 정확히 인식하는 것은 쉽지 않은 일이다. 그래서 본 논문에서는 신체의 전신 포즈를 사용하지 않고 포즈 특징을 정확히 얻기 위해 부분 포즈를 사용하였다. 본 논문에서는 16개의 제스처를 정의하였으며, 학습 영상으로 사용하는 깊이 영상 포즈렛은 정의된 제스처를 바탕으로 생성하였다. 본 논문에서 제안하는 깊이 영상 포즈렛은 신체 부분의 깊이 영상과 해당 깊이 영상의 주요 3차원 좌표로 구성하였다. 학습과정에서는 제스처를 학습하기 위하여 깊이 카메라를 이용하여 정의된 제스처를 입력받은 후, 3차원 관절 좌표를 획득하여 깊이 영상 포즈렛이 생성되었다. 그리고 깊이 영상 포즈렛을 이용하여 부분 제스처 HMM을 구성하였다. 실험과정에서는 실험을 위해 깊이 카메라를 이용하여 실험 영상을 입력받은 후, 전경을 추출하고 학습된 제스처에 해당하는 깊이 영상 포즈렛을 비교하여 입력 영상의 신체 부분을 추출한다. 그리고 HMM을 적용하여 얻은 결과를 이용하여 제스처 인식에 필요한 부분 제스처를 확인한다. 부분 제스처를 이용한 HMM을 이용하여 효과적으로 제스처를 인식할 수 있으며, 관절 벡터를 이용한 인식률은 약 89%를 확인할 수 있었다.
본 논문에서는 신체 부분 포즈를 이용한 깊이 영상 포즈렛과 제스처를 인식하는 방법을 제안한다. 제스처는 순차적인 포즈로 구성되어 있기 때문에, 제스처를 인식하기 위해서는 시계열 포즈를 획득하는 것에 중점을 두고 있어야 한다. 하지만 인간의 포즈는 자유도가 높고 왜곡이 많기 때문에 포즈를 정확히 인식하는 것은 쉽지 않은 일이다. 그래서 본 논문에서는 신체의 전신 포즈를 사용하지 않고 포즈 특징을 정확히 얻기 위해 부분 포즈를 사용하였다. 본 논문에서는 16개의 제스처를 정의하였으며, 학습 영상으로 사용하는 깊이 영상 포즈렛은 정의된 제스처를 바탕으로 생성하였다. 본 논문에서 제안하는 깊이 영상 포즈렛은 신체 부분의 깊이 영상과 해당 깊이 영상의 주요 3차원 좌표로 구성하였다. 학습과정에서는 제스처를 학습하기 위하여 깊이 카메라를 이용하여 정의된 제스처를 입력받은 후, 3차원 관절 좌표를 획득하여 깊이 영상 포즈렛이 생성되었다. 그리고 깊이 영상 포즈렛을 이용하여 부분 제스처 HMM을 구성하였다. 실험과정에서는 실험을 위해 깊이 카메라를 이용하여 실험 영상을 입력받은 후, 전경을 추출하고 학습된 제스처에 해당하는 깊이 영상 포즈렛을 비교하여 입력 영상의 신체 부분을 추출한다. 그리고 HMM을 적용하여 얻은 결과를 이용하여 제스처 인식에 필요한 부분 제스처를 확인한다. 부분 제스처를 이용한 HMM을 이용하여 효과적으로 제스처를 인식할 수 있으며, 관절 벡터를 이용한 인식률은 약 89%를 확인할 수 있었다.
In this paper we propose the depth-poselets using body-part-poses and also propose the method to recognize the gesture. Since the gestures are composed of sequential poses, in order to recognize a gesture, it should emphasize to obtain the time series pose. Because of distortion and high degree of f...
In this paper we propose the depth-poselets using body-part-poses and also propose the method to recognize the gesture. Since the gestures are composed of sequential poses, in order to recognize a gesture, it should emphasize to obtain the time series pose. Because of distortion and high degree of freedom, it is difficult to recognize pose correctly. So, in this paper we used partial pose for obtaining a feature of the pose correctly without full-body-pose. In this paper, we define the 16 gestures, a depth image using a learning image was generated based on the defined gestures. The depth poselets that were proposed in this paper consists of principal three-dimensional coordinates of the depth image and its depth image of the body part. In the training process after receiving the input defined gesture by using a depth camera in order to train the gesture, the depth poselets were generated by obtaining 3D joint coordinates. And part-gesture HMM were constructed using the depth poselets. In the testing process after receiving the input test image by using a depth camera in order to test, it extracts foreground and extracts the body part of the input image by comparing depth poselets. And we check part gestures for recognizing gesture by using result of applying HMM. We can recognize the gestures efficiently by using HMM, and the recognition rates could be confirmed about 89%.
In this paper we propose the depth-poselets using body-part-poses and also propose the method to recognize the gesture. Since the gestures are composed of sequential poses, in order to recognize a gesture, it should emphasize to obtain the time series pose. Because of distortion and high degree of freedom, it is difficult to recognize pose correctly. So, in this paper we used partial pose for obtaining a feature of the pose correctly without full-body-pose. In this paper, we define the 16 gestures, a depth image using a learning image was generated based on the defined gestures. The depth poselets that were proposed in this paper consists of principal three-dimensional coordinates of the depth image and its depth image of the body part. In the training process after receiving the input defined gesture by using a depth camera in order to train the gesture, the depth poselets were generated by obtaining 3D joint coordinates. And part-gesture HMM were constructed using the depth poselets. In the testing process after receiving the input test image by using a depth camera in order to test, it extracts foreground and extracts the body part of the input image by comparing depth poselets. And we check part gestures for recognizing gesture by using result of applying HMM. We can recognize the gestures efficiently by using HMM, and the recognition rates could be confirmed about 89%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이와 같이 포즈렛을 이용하여 신체를 검출하고 액션을 인식하기 위해 다양한 연구와 시도가 이루어지고 있다. 본 논문에서는 이러한 포즈렛의 개념을 이용하여 신체를 검출하고 시간 연속적인 순차적 포즈를 이용하여 액션을 인식하도록 할 것이다.
본 장에서는 서론에서 언급한 것처럼 부분 포즈를 이용하여 포즈를 비교할 것이다. 이에 앞서, 포즈의 전체 특징을 이용하는 연구와 포즈의 부분 특징을 이용하는 연구에 대해 알아볼 것이다.
그리고 Appearance model과 Spatial model을 결합하여 사용함으로써 부분 포즈를 이용하는 장점을 충실히 이행하고 있지만 특별히 포즈렛과 차이를 주지 않고 있다. 하지만 액션을 검출하기 위해서 하나의 영상을 이용하는 점이 단점이고 이를 보완하기 위해 주변 상황과 함께 Object를 이용하려 하였다.
가설 설정
하지만 인간의 포즈는 자유도가 높고 영상 프레임을 획득하면서 손실이 생기는 경우가 많으므로 포즈 인식은 쉽게 해결하기 어려운 문제이다. 그렇기 때문에 본 논문에서는 정확한 포즈 인식이 어렵다는 가정 하에 신체의 부분 포즈를 기반으로 하는 신체 부분 제스처를 인식하였다.
그림 4에서 보이는 숫자를 관측벡터라고 가정하였을 때, MM(위)은 각 상태에서 하나의 벡터만이 관측되기 때문에 관측 벡터에 따라 상태의 이동을 알아낼 수 있는 반면, HMM(아래)은 벡터가 관측된다고 하더라도 어떤 상태에서 관측이 되었는지 알 수 없다. 그림 4에서는 S1, S2, S3, S4와 같은 상태들에는 비슷한 벡터가 군집되어 있다고 가정하였으며, 모든 상태에서 벡터가 관측되지 않지만, 유사한 형태를 가진 포즈가 군집되어 HMM의 상태를 구성할 수 있도록 HMM을 생성하여야 한다. 이는 인간의 제스처의 흐름이 시간의 연속성에 관계하고 있기 때문이다.
그러므로 제스처를 인식하기 위해 HMM의 상태를 구성하는 경우에는 신체 포즈와 모델의 상태를 동일하게 설정하기보다는 현재 상태에서 여러 신체 포즈가 관측될 수 있도록 구성하여야 한다. 또한 관측을 통해 얻을 수 있는 벡터와 상태가 같지 않도록 시간 연속적인 제스처 시퀀스도 상태의 이동을 고려해야 한다고 가정할 수 있다.
제안 방법
Kita[13]는 언어 인식을 수행하기 위하여 어고딕모델을 이용하였다. 9개의 말뭉치(corpus)를 상태로 설정하여 1700여개의 문장이 관측될 수 있는 어고딕모델을 구성하였다. 그리고 Kita가 사용한 어고딕모델은 시간의 흐름에 다소 독립적인 특징을 가지고 있다.
키넥트를 사용하면 깊이 영상을 획득함과 동시에 3차원 관절 좌표를 획득할 수 있다. 그리고 2장에서 서술한 것처럼 신체 구조에 따라 영상을 분할하였다.
그리고 신체 부분 중 알아내기 어려운 부분에 대해서는 여러 개의 분류를 갖게 한 뒤, or-node로 ‘Grammar Model’을 구성하여 신체를 구분하였으며, 입력 영상에 ABM템플릿과 HoG템플릿를 적용한 결과를 결합하여 보행자를 검출하였다.
하지만 특징 패턴에서는 에지 정보만을 이용하기 때문에 검출 이외의 용도에서 부적합하다는 단점을 가지고 있다. 또한 본 논문에서의 입력 영상의 특징이 밝기 값이며 밝기 변화에 따라 형태가 변하는 영상에서는 강건한 특징 값을 추출하기 어렵기 때문에 본 논문에서는 HoG를 사용하지 않는다.
본 논문에서 제안하는 깊이 영상 포즈렛은 제스처를 구성하고 있는 하나의 포즈를 신체 부분에 기준하여 분할한 것이다. 본 논문에서는 깊이 영상 포즈렛을 구성하기 위하여, 인간의 신체 관절을 위치에 따라 16개의 주요 관절로 정의하고 주요 관절에 레이블을 부착하였다.
본 논문에서 제안하는 깊이 영상 포즈렛은 제스처를 구성하고 있는 하나의 포즈를 신체 부분에 기준하여 분할한 것이다. 본 논문에서는 깊이 영상 포즈렛을 구성하기 위하여, 인간의 신체 관절을 위치에 따라 16개의 주요 관절로 정의하고 주요 관절에 레이블을 부착하였다. 그리고 하나의 신체 포즈에서는 그림 2와 같이 6개의 깊이 영상 포즈렛을 얻을 수 있다.
본 논문에서는 신체를 신체 구조에 따라 작은 단위로 분할하여 깊이 영상 포즈렛을 제작하였으며, 가장 두드러진 특징을 보이는 6개의 신체 부분 포즈(LA: left arm, RA: right arm, LL: left leg RL: right leg, LUB : left upper body, RUB : right upper body)를 이용하여 결과를 보였다.
본 논문에서는 입력된 제스처를 HMM을 이용하여 인식한다. 입력된 제스처는 6개의 신체 관절 기반 포즈로 분할되었다고 가정하면, 각각의 신체 관절 기반 포즈를 관측하기 위해 각각의 제스처마다 6개의 HMM을 구성하였다.
본 논문에서는 정의한 제스처를 인식하기 위해 수집한 사용자 제스처 뿐만 아니라, MSR Action 3D 키넥트 데이터셋을 이용하여 인식률을 시험한다. MSRAction 3D 데이터셋은 총 20가지 제스처로 구성되어 있으며, 10명의 사람이 각각의 제스처를 2번에서 3번 동작시킨 스켈레톤의 3차원 관절 좌표로 구성되어 있다.
본 논문에서는 클러스터의 수 K를 6개에서 11개까지 변화시켜가면서 군집상태를 확인하였으며, 클러스터의 개수를 이용하여 HMM의 상태 수를 결정하였다. K-평균 클러스터링 과정은 다음과 같다.
본 논문에서는 포즈렛과 마찬가지로 신체의 외형(Appearance Model)과 신체 구조(Configuration Model)를 이용하여 깊이 영상 포즈렛을 제안하였다. 학습 영상은 키넥트를 통해 얻을 수 있는 깊이 영상과 3차원 관절 좌표를 가지고 있는 스켈레톤을 매 프레임마다 저장하여 학습에 사용하였으며 신체 부분의 특징으로 사용한다.
본 장에서는 서론에서 언급한 것처럼 부분 포즈를 이용하여 포즈를 비교할 것이다. 이에 앞서, 포즈의 전체 특징을 이용하는 연구와 포즈의 부분 특징을 이용하는 연구에 대해 알아볼 것이다.
실험 과정에서는 학습 과정과 마찬가지로 키넥트를 이용하여 깊이 영상 시퀀스를 획득하였으며, 학습된 깊이 영상 포즈렛을 적용하여 매 프레임의 부분 영상 특징을 획득하였다.
이런 경우 인간의 액션을 인식하기 위해 하나의 영상을 이용하는 방법을 선호하지만, 본 논문에서는 정의된 액션의 군집화된 영상을 사용하는 방법대신 순차적인 입력에 따라 얻을 수 있는 포즈렛 벡터들을 이용하여 액션을 인식하도록 하였다.
본 논문에서는 입력된 제스처를 HMM을 이용하여 인식한다. 입력된 제스처는 6개의 신체 관절 기반 포즈로 분할되었다고 가정하면, 각각의 신체 관절 기반 포즈를 관측하기 위해 각각의 제스처마다 6개의 HMM을 구성하였다. 이 때, 6개의 HMM이 같은 제스처를 결과로 보이면 상관없지만, 각각 다른 제스처를 결과로 보였을 경우, 베이즈 정리를 이용하여 제스처를 유추한다.
K-평균 클러스터링 과정은 다음과 같다. 입력받은 데이터들에서 초기의 K 개수만큼의 클러스터를 지정하였으며, 나머지 데이터들에서 가장 가까이 있는 중심을 찾는 작업을 반복적으로 수행한 뒤, 각각의 데이터들을 클러스터로 할당하고, 클러스터가 할당된 후에 할당된 클러스터의 중심이 다시 계산된다. 이 과정은 클러스터의 중심이 일정한 값으로 유지될 때까지 반복하였다.
대상 데이터
선행 연구에서는 HMM을 사용하였을 때, 63%의 인식률을 보였으며, 본 논문에서는 액션의 성분에 따라 각각 다른 인식률을 보였다. MSR Action 3D 데이터셋은 567개의 깊이 맵으로 구성되어 있으며 20개의 액션을 10명의 사용자가 각각 2번에서 3번 저장한 결과를 신체의 주요 관절 정보인 20개의 관절로 구성된 스켈레톤 정보를 가지고 있다. 본 논문에서는 2명의 191개의 액션을 학습에사용하였으며, 8명의 476개의 액션을 실험에 사용하였다.
본 논문에서는 정의한 제스처를 인식하기 위해 수집한 사용자 제스처 뿐만 아니라, MSR Action 3D 키넥트 데이터셋을 이용하여 인식률을 시험한다. MSRAction 3D 데이터셋은 총 20가지 제스처로 구성되어 있으며, 10명의 사람이 각각의 제스처를 2번에서 3번 동작시킨 스켈레톤의 3차원 관절 좌표로 구성되어 있다.
그리하여 4명의 사용자 제스처는 HMM의 초기 매개변수들을 설정하기 위해 사용하였다. 그리고 나머지 8명의 사용자 제스처는 제스처 인식의 실험데이터로 사용하였다.
본 논문에서는 전부 12명의 사용자 제스처를 수집하였으며, 1명의 사용자가 제스처를 각각 10번씩 수행하였다. 그리하여 4명의 사용자 제스처는 HMM의 초기 매개변수들을 설정하기 위해 사용하였다. 그리고 나머지 8명의 사용자 제스처는 제스처 인식의 실험데이터로 사용하였다.
875%로 약 86%의 인식률을 보이는 것을 알 수 있다. 본 논문에서는 12명의 사용자 제스처를 수집하였으며, 각각 10번씩의 제스처 동작을 인식에 사용하였다. 본 논문에서는 신체 관절의 각도를 특징으로 사용하고 있으므로 각도 벡터에서 두드러진 특징 변화를 보이는 제스처는 인식이 순조로운 것을 알 수 있다.
본 논문에서는 16개의 제스처를 정의하였으며, 키넥트를 이용하여 획득한 스켈레톤 정보를 이용하여 HMM을 구성한 뒤, 실험에 사용하였다. 각 HMM에서 얻어진 결과는 베이즈 정리를 이용하여 제스처를 인식할 수 있었다.
MSR Action 3D 데이터셋은 567개의 깊이 맵으로 구성되어 있으며 20개의 액션을 10명의 사용자가 각각 2번에서 3번 저장한 결과를 신체의 주요 관절 정보인 20개의 관절로 구성된 스켈레톤 정보를 가지고 있다. 본 논문에서는 2명의 191개의 액션을 학습에사용하였으며, 8명의 476개의 액션을 실험에 사용하였다. 그리하여 8명이 2번 혹은 3번씩 20개의 액션을 사용하였다고 가정했을 때, 1개의 제스처마다 24번의 횟수를 가진다고 할 수 있다.
본 논문에서는 전부 12명의 사용자 제스처를 수집하였으며, 1명의 사용자가 제스처를 각각 10번씩 수행하였다. 그리하여 4명의 사용자 제스처는 HMM의 초기 매개변수들을 설정하기 위해 사용하였다.
본 논문에서는 학습을 위해 키넥트를 이용하여 깊이 영상을 획득하였다. 키넥트를 사용하면 깊이 영상을 획득함과 동시에 3차원 관절 좌표를 획득할 수 있다.
본 논문의 실험 영상은 키넥트를 통해 얻은 깊이 영상을 신체 부분에 따라 나누어 사용하고 있으며, 부분 영상을 생성하기 위해 신체 구조에 따라 분리하였을 뿐만 아니라 신체 부분의 형태 정보를 동시에 고려하여 특징으로 사용하기 때문에 깊이 영상 포즈렛이라고 부를 수 있다.
본 논문에서는 포즈렛과 마찬가지로 신체의 외형(Appearance Model)과 신체 구조(Configuration Model)를 이용하여 깊이 영상 포즈렛을 제안하였다. 학습 영상은 키넥트를 통해 얻을 수 있는 깊이 영상과 3차원 관절 좌표를 가지고 있는 스켈레톤을 매 프레임마다 저장하여 학습에 사용하였으며 신체 부분의 특징으로 사용한다. 신체 구조에 따라 깊이 영상 포즈렛에 이용하는 신체 관절은 다음 그림 2와 같다.
이론/모형
본 논문에서는 16개의 제스처를 정의하였으며, 키넥트를 이용하여 획득한 스켈레톤 정보를 이용하여 HMM을 구성한 뒤, 실험에 사용하였다. 각 HMM에서 얻어진 결과는 베이즈 정리를 이용하여 제스처를 인식할 수 있었다. 실험에 사용한 데이터는 HMM의 상태 개수가 8개일 때 인식률이 가장 좋았다.
본 논문에서는 HoG를 사용하지 않는 대신, 신체 부분 영상을 이용하는 방법 중 최근 가장 효율적인 방법인 포즈렛[2]을 사용한다. 포즈렛이란 사전에 설정된 사람 영상의 3D좌표를 이용하여 신체 부위별로 부분 영상을 구성하고 이를 학습시켜 가려짐에 강건한 사람 검출 알고리즘이다.
성능/효과
그리고 키넥트를 이용하여 제작된 MSR Action 3D 데이터셋을 적용하여 65.35%의 인식률을 얻었다. 선행 연구에서는 HMM을 사용하였을 때, 63%의 인식률을 보였으며, 본 논문에서는 액션의 성분에 따라 각각 다른 인식률을 보였다.
HMM을 제스처 인식에 적용하기 위해서는 각 제스처 별로 학습을 수행해야 하며, 해당 제스처의 HMM 모델에 학습 결과를 적용하여야 한다. 그리하여 인식과정에서 인식하고자 하는 제스처와 HMM의 제스처 모델을 비교하여 가장 유사하다고 판단되는 가장 높은 확률을 보이는 제스처 모델을 최종 인식 결과로 출력한다.
MSR Action 3D 데이터셋은 3개의 Action 클래스로 나눌 수 있는데 MSR Action 3D 데이터셋에서 허리 부분의 관절을 사용하는 제스처(13:bend, 17:tennis swing, 18:tennis serve, 19:golf swing, 20:pickup&throw)는 인식률이 저조하였다. 반면에 본 논문에서 제안하는 관절 벡터의 회전 정보로 표현이 가능한 제스처들(1:high arm wave, 2:horizontal arm wave, 6:high throw, 10:hand clap, 11:two hand wave, 14:forward kick, 15:side kick)은 높은 인식률을 보이고 있다.
본 논문에서는 신체 관절의 각도를 특징으로 사용하고 있으므로 각도 벡터에서 두드러진 특징 변화를 보이는 마이크로 제스처는 인식이 순조로운 것을 알 수 있다. MSR Action 3D 데이터셋은 3개의 Action 클래스로 나눌 수 있는데 MSR Action 3D 데이터셋에서 허리 부분의 관절을 사용하는 제스처(13:bend, 17:tennis swing, 18:tennis serve, 19:golf swing, 20:pickup&throw)는 인식률이 저조하였다.
본 논문에서는 12명의 사용자 제스처를 수집하였으며, 각각 10번씩의 제스처 동작을 인식에 사용하였다. 본 논문에서는 신체 관절의 각도를 특징으로 사용하고 있으므로 각도 벡터에서 두드러진 특징 변화를 보이는 제스처는 인식이 순조로운 것을 알 수 있다.
각 HMM에서 얻어진 결과는 베이즈 정리를 이용하여 제스처를 인식할 수 있었다. 실험에 사용한 데이터는 HMM의 상태 개수가 8개일 때 인식률이 가장 좋았다. 그렇기 때문에 HMM의 상태 개수가 8개일 때, 정의한 제스처의 인식률을 표로 나타내면 표 1과 같다.
16개의 제스처를 정의하였을 때, 신체 제스처에서 신체 부분을 따라 분리된 신체 관절 기반 포즈는 각각의 제스처에 속할 확률을 가지게 된다. 즉, 본 논문에서는 베이즈 정리를 이용해 확률을 획득한 후, 가장 높은 확률을 보이는 제스처를 선택하는 것이 효율적이라고 판단한다. 베이즈 정리를 통해 사후확률이 최대값을 가질 때, 제스처라고 선택할 수 있지만, 본 논문에서는 6개의 신체 관절 기반 포즈를 통합하는 결과를 얻어야 하기 때문에, 베이즈 정리 식을 다시 쓰면, 다음과 같이 식 7로 나타낼 수 있다.
후속연구
각 신체 부분 시퀀스에 제스처에 해당하는 HMM을 적용하면 6개의 신체 부분의 부분 제스처를 얻을 수 있다. 본 논문에서는 유효한 신체 부분의 부분 제스처와 IDLE 상태의 신체 부분 제스처를 구분하여 본 논문에서 제안하는 HMM과 베이즈 정리를 적용하였을 때, 연산량을 효과적으로 줄이면서 신체 제스처를 인식할수 있어야 할 것이다.
하지만 본 논문에서 정의한 신체 관절 기반 포즈는 6개의 관절 정보만을 사용하고 있어서 오픈 데이터셋에 적용하기에 아직 어려움이 있으므로 다양한 관절을 사용할 수 있어야 할 것이다.
향후에는 이 연구결과를 토대로 신체의 움직임을 잘 표현할 수 있는 신체 부분을 분할하여 정확한 포즈 인식과 함께 정확한 제스처 인식을 수행하도록 하겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
시계열 데이터란?
확률 이론에 바탕을 두고 있는 HMM은 관측되는 벡터 특징 사이의 시간 연관성이 존재하는 시계열 데이터 분류에 주로 사용되는 방법이다. 시계열 데이터는 음성 인식이나 필기체 인식 등과 같이 벡터 고유의 특징과 더불어 인접한 특징들의 연속적인 관계가 분류에 중요한 요소가 되는 데이터를 말한다. 그렇기 때문에 순차적인 데이터를 갖는 패턴을 분석하기 위해서는 시간 연속적인 데이터를 표현하는 방법과 데이터로부터 정보를 추출할 수 있는 모델이 필요하다.
인간의 신체를 검출하는 방법 중 HoG는 어떤 방법인가?
인간의 신체를 검출하는 방법 중, 보행자 검출에서 많이 사용되는 HoG(histogram of Oriented Gradient)[1]는 사람의 신체 영역을 특징 패턴으로 모델링하여 영상으로부터 동일한 패턴을 갖는 영역을 사람으로 검출하는 방법이다. 하지만 특징 패턴에서는 에지 정보만을 이용하기 때문에 검출 이외의 용도에서 부적합하다는 단점을 가지고 있다.
인간의 신체를 검출하는 방법 중 HoG는 검출 이외의 용도에는 부적합한 이유는 무엇인가?
인간의 신체를 검출하는 방법 중, 보행자 검출에서 많이 사용되는 HoG(histogram of Oriented Gradient)[1]는 사람의 신체 영역을 특징 패턴으로 모델링하여 영상으로부터 동일한 패턴을 갖는 영역을 사람으로 검출하는 방법이다. 하지만 특징 패턴에서는 에지 정보만을 이용하기 때문에 검출 이외의 용도에서 부적합하다는 단점을 가지고 있다. 또한 본 논문에서의 입력 영상의 특징이 밝기 값이며 밝기 변화에 따라 형태가 변하는 영상에서는 강건한 특징 값을 추출하기 어렵기 때문에 본 논문에서는 HoG를 사용하지 않는다.
참고문헌 (14)
Dalal, Navneet, and Bill Triggs. "Histograms of oriented gradients for human detection." Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.
Bourdev, Lubomir, and Jitendra Malik. "Poselets: Body part detectors trained using 3d human pose annotations." Computer Vision, 2009 IEEE 12th International Conference on. IEEE, 2009.
Kraft, Erwin, and Thomas Brox. "Motion Based Foreground Detection and Poselet Motion Features for Action Recognition." Computer Vision--ACCV 2014. Springer International Publishing, 2015. 350-365
Maji, Subhransu, Lubomir Bourdev, and Jitendra Malik. "Action recognition from a distributed representation of pose and appearance." Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011.
Felzenszwalb, Pedro F., and Daniel P. Huttenlocher. "Efficient matching of pictorial structures." Computer Vision and Pattern Recognition, 2000. Proceedings. IEEE Conference on. Vol. 2. IEEE, 2000.
Li, Bo, et al. "Part-based pedestrian detection using grammar model and ABM-HoG features." Vehicular Electronics and Safety (ICVES), 2013 IEEE International Conference on. IEEE, 2013.
Wang, Chunyu, Yizhou Wang, and Alan L. Yuille. "An approach to pose-based action recognition." Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013.
Yang, Yi, and Deva Ramanan. "Articulated human detection with flexible mixtures of parts." Pattern Analysis and Machine Intelligence, IEEE Transactions on 35.12 (2013): 2878-2890.
Desai, Chaitanya, and Deva Ramanan. "Detecting actions, poses, and objects with relational phraselets." Computer Vision-ECCV 2012. Springer Berlin Heidelberg, 2012. 158-172.
Wang, Yang, Duan Tran, and Zicheng Liao. "Learning hierarchical poselets for human parsing." Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011.
Liu, Nianjun, et al. "Understanding HMM training for video gesture recognition." TENCON 2004. 2004 IEEE Region 10 Conference. IEEE, 2004.
Elmezain, Mahmoud, et al. "A hidden markov model-based continuous gesture recognition system for hand motion trajectory." Pattern Recognition, 2008. ICPR 2008. 19th International Conference on. IEEE, 2008.
Kita, Kenji, et al. "Automatic acquisition of probabilistic dialogue models." Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on. Vol. 1. IEEE, 1996.
Kumar, S., D. R. Deepti, and Ballapalle Prabhakar. "Face recognition using pseudo-2D ergodic HMM." Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. Vol. 2. IEEE, 2006.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.