모노 카메라 영상기반 시간 간격 윈도우를 이용한 광역 및 지역 특징 벡터 적용 AdaBoost기반 제스처 인식 AdaBoost-based Gesture Recognition Using Time Interval Window Applied Global and Local Feature Vectors with Mono Camera원문보기
최근 안드로이드, iOS 등의 셋톱박스 기반의 스마트 TV에 대한 보급에 따라 제스처로 TV를 컨트롤 할 수 있는 새로운 접근을 제안한다. 본 논문에서는 모노 카메라 센서를 이용한 AdaBoost 기반 제스처 인식에 관한 알고리즘을 제안한다. 우선, 신체 좌표 추출을 위해 가우시안 배경 제거 및 Camshift 기반 자세 추적 및 추정 알고리즘을 사용한다. AdaBoost 학습 모델을 신체 정규화된 광역 및 지역 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다. 또한 속도가 다른 다양한 제스처를 인식하기 위해 다중 AdaBoost 알고리즘을 적용하였다. CART 알고리즘을 이용하여 성공적인 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 분류 성공률이 높은 최적의 특징 벡터를 탐색하였다. 그 결과 24개의 주성분 특징 벡터를 찾았으며, 기존 알고리즘에 비해 낮은 오분류율(3.73%)과 높은 인식률(95.17%)을 지닌 특징 벡터 및 분류기를 설계하였다.
최근 안드로이드, iOS 등의 셋톱박스 기반의 스마트 TV에 대한 보급에 따라 제스처로 TV를 컨트롤 할 수 있는 새로운 접근을 제안한다. 본 논문에서는 모노 카메라 센서를 이용한 AdaBoost 기반 제스처 인식에 관한 알고리즘을 제안한다. 우선, 신체 좌표 추출을 위해 가우시안 배경 제거 및 Camshift 기반 자세 추적 및 추정 알고리즘을 사용한다. AdaBoost 학습 모델을 신체 정규화된 광역 및 지역 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다. 또한 속도가 다른 다양한 제스처를 인식하기 위해 다중 AdaBoost 알고리즘을 적용하였다. CART 알고리즘을 이용하여 성공적인 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 분류 성공률이 높은 최적의 특징 벡터를 탐색하였다. 그 결과 24개의 주성분 특징 벡터를 찾았으며, 기존 알고리즘에 비해 낮은 오분류율(3.73%)과 높은 인식률(95.17%)을 지닌 특징 벡터 및 분류기를 설계하였다.
Recently, the spread of smart TV based Android iOS Set Top box has become common. This paper propose a new approach to control the TV using gestures away from the era of controlling the TV using remote control. In this paper, the AdaBoost algorithm is applied to gesture recognition by using a mono c...
Recently, the spread of smart TV based Android iOS Set Top box has become common. This paper propose a new approach to control the TV using gestures away from the era of controlling the TV using remote control. In this paper, the AdaBoost algorithm is applied to gesture recognition by using a mono camera. First, we use Camshift-based Body tracking and estimation algorithm based on Gaussian background removal for body coordinate extraction. Using global and local feature vectors, we recognized gestures with speed change. By tracking the time interval trajectories of hand and wrist, the AdaBoost algorithm with CART algorithm is used to train and classify gestures. The principal component feature vector with high classification success rate is searched using CART algorithm. As a result, 24 optimal feature vectors were found, which showed lower error rate (3.73%) and higher accuracy rate (95.17%) than the existing algorithm.
Recently, the spread of smart TV based Android iOS Set Top box has become common. This paper propose a new approach to control the TV using gestures away from the era of controlling the TV using remote control. In this paper, the AdaBoost algorithm is applied to gesture recognition by using a mono camera. First, we use Camshift-based Body tracking and estimation algorithm based on Gaussian background removal for body coordinate extraction. Using global and local feature vectors, we recognized gestures with speed change. By tracking the time interval trajectories of hand and wrist, the AdaBoost algorithm with CART algorithm is used to train and classify gestures. The principal component feature vector with high classification success rate is searched using CART algorithm. As a result, 24 optimal feature vectors were found, which showed lower error rate (3.73%) and higher accuracy rate (95.17%) than the existing algorithm.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
Ada Boost 알고리즘은 특성상 동적인 특징 보다는 정적인 특징을 가진 자세 인식에 많이 사용한다. 본 논문에서는 Ada Boost 알고리즘과 같이 시, 공간적인 변이를 가진 패턴추출 방법이 아닌 기계학습 알고리즘에 동적인 특징을 인식하기 위한 제안한 정규화된 특징 벡터를 이용한다[10].
이러한 문제를 해결하기 위해 스마트 TV의 웹캠이나 휴대전화 카메라 기반의 TV 컨트롤 기술이 필요하다. 본 논문에서는 모노 카메라 영상 기반의 스마트 TV 제어를 위한 제스처 인식 알고리즘을 제안한다.
본 논문에서는 모노 카메라를 이용한 Ada Boost 기반 제스처 인식에 관한 알고리즘을 제안하였다. Ada Boost 학습 모델에 신체 정규화된 시간 간격 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다.
동작 인식에 관련된 연구는 시, 공간적 변이를 가진 패턴을 추출하는 은닉 마르코프 모델(Hidden Markov Model), DTW(Dynamic Time Warping) 등을 통하여 많은 부분 연구가 되었다[3][4]. 본 논문에서는 배경 모델에 의해 생성된 신체 좌표 정보를 기계학습의 특징벡터로 하는 제스처 인식 알고리즘을 제안한다. 제안하는 알고리즘은 RGB영상 기반의 배경모델을 구성하고 신체 정보를 가져오는 방식으로 TOF카메라에 비해 떨어지는 정확도를 Camshift 기반의 추적, 보정을 수행하여 신체 좌표 추적의 정확도를 향상한다.
본 논문에서는 사람이 제스처를 취하는 시간이 다름에 따라 신체 좌표 60 프레임을 기준으로 다양한 제스처 속도에 인식되도록 하기 위해 신체 좌표를 샘플링 하여 학습한다. 또한 모노카메라 기반 신체 좌표 추출 알고리즘 특성상 깊이 값이 존재 하지 않는다.
본 논문에서는 이러한 가지치기 방법을 이용하여 필요 없는 특징벡터를 줄이고 필요한 특징 벡터만을 사용하는 방법으로 학습용 데이터 피드백 알고리즘을 제안한다. 이는 기계학습 알고리즘의 기본이 되는 특징벡터의 차원의 저주문제를 해결하고 차원에 따른 최적의 성능을 보이는 지점을 찾을 수 있는 방법이다.
하지만 스마트 TV를 위한 상용 세톱박스의 성능은 최근의 연구 결과를 수행 할 만큼 컴퓨팅 파워가 충분하지 않다. 본 연구에서는 모노 카메라 웹캠 기반으로 신체를 인식하고 제스처 인식을 수행하여 저비용의 하드웨어 환경에서도 가능하게 하였다.
하지만 이러한 기법은 신호의 시작과 끝을 지정해야하는 문제가 존재하며, 제스처의 특성상 시작과 끝 동작을 지정하는 부분에 어려움이 존재한다. 본 연구에서는 일반적인 기계학습 알고리즘에서 사용 가능한 제스처 학습 및 인식 모델을 제안한다.
동작 인식을 사용하는 사람의 신체적 조건이 모두 동일할 수는 없다. 이러한 신체적 차이점에서 발생하는 문제점을 해결하기 위하여 광역적 및 지역적 특징 벡터를 제안한다. 신체의 비례를 이용한 정규화된 특징 벡터를 사용함으로써 사용자의 신체 변화에 따른 인식률을 향상시킨다.
제안 방법
본 논문에서는 모노 카메라를 이용한 Ada Boost 기반 제스처 인식에 관한 알고리즘을 제안하였다. Ada Boost 학습 모델에 신체 정규화된 시간 간격 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다. CART 알고리즘을 이용하여 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 최적의 특징 벡터를 탐색하였다.
Ada Boost 학습 모델에 신체 정규화된 시간 간격 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다. CART 알고리즘을 이용하여 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 최적의 특징 벡터를 탐색하였다. 그 결과 최적의 24개의 특징벡터를 찾았으며, 기존 알고리즘에 비해 낮은 오 분류율(3.
제안하는 알고리즘은 RGB영상 기반의 배경모델을 구성하고 신체 정보를 가져오는 방식으로 TOF카메라에 비해 떨어지는 정확도를 Camshift 기반의 추적, 보정을 수행하여 신체 좌표 추적의 정확도를 향상한다. 다음으로, 신체 좌표의 일정시간 연속적인 값을 추출하고 정규화한 후 제안한 광역 및 지역적 특징벡터를 생성한다. 제스처는 사용자의 신장이나 사용자와 카메라의 거리에 따라 값의 크기가 변하는데, 이를 해결하기 위해 인식된 사용자의 어깨넓이로 신체의 크기를 나누어 특징을 정규화한다.
하지만 이러한 시, 공간적인 변이를 가진 패턴 추출법은 시작과 끝을 구분할 수 없는 제스처 인식에는 한계가 존재한다. 본 논문에서 제안한 시간간격 윈도우를 이용한 광역 및 지역특징 벡터적용 Ada Boost 기반 제스처 인식기법은 이러한 시, 공간적인 변이를 가진 패턴 추출 알고리즘이 아닌 다른 학습 모델을 이용하여도 처음과 끝 구분에 상관없이 제스처를 인식할 수 있도록 한다.
본 논문에서는 5개로 나누어진 구간에서 x, y, z각각의 변화량을 특징 1~15로 정의 하였다. f1, f2, f3 은 초기 위치의 변화량이고, f13, f14, f15 는 마지막 위치의 변화량이 된다.
본 논문에서는 8개의 제스처를 분리를 하는데 제안한 33가지의 특징벡터로 형성된 CART트리 기반으로 그 수를 줄여 사용한다. CART 트리를 형성하는 과정의 첫 번째는 루트 노드의 특징과 분할 값을 선정하는 것이다.
매 프레임에 진행되는 제스처 인식의 순서도를 그림 6에 보인다. 본 논문에서는 속도가 다른 제스처를 인식하기 위해 최근 20 프레임부터 60 프레임까지의 특징 벡터를 Ada Boost 분류기에 입력한다. Ada Boost 분류기는 매 프레임 별 샘플링 된 수만큼의 제스처 인식을 수행하며, 다양한 속도의 제스처를 분류한다.
속도가 다른 제스처를 인식하기 위해 다중 Ada Boost 분류기가 필요하며 그에 따른 특징 벡터 샘플링 과정이 필요하다. 본 연구에서는 60 프레임의 제스처를 기본 특징 패턴으로 정한다. 이 특징 패턴은 인식할 수 있는 가장 느린 제스처이며, 샘플링을 통하여 20 프레임의 제스처까지 인식할 수 있게 한다.
또한 모노카메라 기반 신체 좌표 추출 알고리즘 특성상 깊이 값이 존재 하지 않는다. 신체 좌표의 깊이 값 추출을 위해 초기 탐색한 신체부위의 넓이를 기준으로 넓이의 변화량에 따라 깊이 값을 대체하는 방법으로 상대적 3D 제스처 인식을 수행하도록 하였다.
속도가 다른 제스처를 인식하기 위해 다중 Ada Boost 분류기의 설계 및 설계된 분류기를 이용한 입력된 특징 벡터의 제스처 인식 과정을 그림 4에 보인다[11]. 위의 제스처 취득과정을 통해 생성한 제스처의 특징 벡터를 이진 분류 방식을 이용하여 Ada Boost 분류기를 설계한다. 이 Ada Boost 분류기는 이진 분류 방식이기에 인식하고자 하는 제스처의 수만큼의 다중 Ada Boost 분류기가 된다.
본 논문에서는 배경 모델에 의해 생성된 신체 좌표 정보를 기계학습의 특징벡터로 하는 제스처 인식 알고리즘을 제안한다. 제안하는 알고리즘은 RGB영상 기반의 배경모델을 구성하고 신체 정보를 가져오는 방식으로 TOF카메라에 비해 떨어지는 정확도를 Camshift 기반의 추적, 보정을 수행하여 신체 좌표 추적의 정확도를 향상한다. 다음으로, 신체 좌표의 일정시간 연속적인 값을 추출하고 정규화한 후 제안한 광역 및 지역적 특징벡터를 생성한다.
기존 특징 벡터와 제안한 특징 벡터의 성능 평가 및 제안한 가지치기 피드백 프로세스의 성능 검증을 위해 비교 평가를 수행한다. 표 1은 다양한 속도에서 인식되는 제스처의 인식률을 제스처 종류에 따라 분류하였으며, 표 2는 8가지의 제스처 인식률을 속도에 따라 분류하였다.
대상 데이터
제스처 모델의 실험 데이터의 수는 8개의 각각의 동작마다 세 명의 실험자로부터 얻은 총 450개이다. 이중 학습용 데이터로 300개, 평가용 데이터로 150개의 데이터를 사용하였다.
제스처 모델의 실험 데이터의 수는 8개의 각각의 동작마다 세 명의 실험자로부터 얻은 총 450개이다. 이중 학습용 데이터로 300개, 평가용 데이터로 150개의 데이터를 사용하였다.
데이터처리
기존 특징 벡터와 제안한 특징 벡터의 성능 평가 및 제안한 가지치기 피드백 프로세스의 성능 검증을 위해 비교 평가를 수행한다. 표 1은 다양한 속도에서 인식되는 제스처의 인식률을 제스처 종류에 따라 분류하였으며, 표 2는 8가지의 제스처 인식률을 속도에 따라 분류하였다.
제안한 알고리즘의 성능을 평가하기 위해 Ada Boost 기계학습 알고리즘으로 분류기를 생성하여 오 분류율과 정확도를 측정하였다. 다중 Ada Boost 분류기 설계는 OpencCV 기반으로 구현하였다.
이론/모형
다중 Ada Boost 분류기 설계는 OpencCV 기반으로 구현하였다. CART 알고리즘을 이용한 불필요 특징벡터 분석은 Salford Predictive Modeler 7.0을 사용하였으며, 그 기능 중 변수 중요도 조사를 통해 특징벡터 중요도를 판단할 수 있다.
제안한 알고리즘의 성능을 평가하기 위해 Ada Boost 기계학습 알고리즘으로 분류기를 생성하여 오 분류율과 정확도를 측정하였다. 다중 Ada Boost 분류기 설계는 OpencCV 기반으로 구현하였다. CART 알고리즘을 이용한 불필요 특징벡터 분석은 Salford Predictive Modeler 7.
사용자의 신체 모션 데이터를 취득하는 기기로는 모노 카메라 기반, 구조광을 이용한 Kinect, 시간 지연 방식의 TOF, 레이저를 이용한 Lidar 등 카메라 방식과 Wii 컨트롤러를 이용한 모션 데이터를 취득하는 방법들이 있다. 본 논문에서는 신체의 각 관절 좌표를 취득하는 것에 있어 스마트 폰, TV에서 사용 가능한 그림 1과 같은 가우시안 배경 제거 기법을 이용한 Camshift 기반 자세 추적 및 추정 알고리즘을 사용한다[5].
본 연구에서는 Ada Boost 분류기를 다수 사용하여 입력 받은 동작을 구분하는 다중 Ada Boost 분류기를 사용한다[12][13]. 분류 방식은 1:N의 이진 분류 방식을 사용하여 학습하고자 하는 동작을 제외한 나머지 동작들은 모두 네거티브로 학습한다.
이러한 사람마다 다른 제스처를 인식하기 위해 손끝 좌표와 손목 좌표의 중점의 좌표를 정규화할 필요가 있다. 즉, 손끝 좌표와 손목 좌표의 중점과 척추 사이의 거리를 사용자의 어깨 넓이로 나누는 정규화 방식을 사용한다. 이렇게 정규화된 특징벡터는 사용자들의 신체 크기나 카메라와의 거리와 상관없는 유사한 값을 가지게 된다.
성능/효과
42%의 오 분류율의 결과를 보였다. 20~30 frame의 빠른 속도에서는 92.4%의 평균 보다 2.7% 낮은 인식률을 보였다. 이는 Camshift 기반 신체 모델 추정에서 추적 알고리즘 사용에 따른 인식률 저하로 보인다.
CART 알고리즘을 이용하여 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 최적의 특징 벡터를 탐색하였다. 그 결과 최적의 24개의 특징벡터를 찾았으며, 기존 알고리즘에 비해 낮은 오 분류율(3.73%)과 높은 인식률(95.17%)은 지닌 특징벡터 및 분류기를 설계하였다. 또한 시간 간격 윈도우를 적용하여 실제 환경에서 테스트한 결과 느린 속도 동작에서는 97.
제스처 종류나 제스처 동작 속도에 따라 차이가 일부 존재하지만, 평균적으로 제안한 알고리즘의 성능이 우수함을 알 수 있다. 기존 특징은 비교적 높은 정확도(94.38%)를 지녔지만, 또한 높은 오 분류율(4.81%)을 보였다. 제안한 알고리즘은 광역 및 지역적 특징벡터의 추가와 더불어 CART의 가지치기 피드백을 통한 불필요 특징벡터를 제거함/으로써 기존 특징 보다 낮은 오 분류율(3.
17%)은 지닌 특징벡터 및 분류기를 설계하였다. 또한 시간 간격 윈도우를 적용하여 실제 환경에서 테스트한 결과 느린 속도 동작에서는 97.5%의 인식률과 2.42%의 오 분류율의 결과를 보였다. 20~30 frame의 빠른 속도에서는 92.
제스처 종류나 제스처 동작 속도에 따라 차이가 일부 존재하지만, 평균적으로 제안한 알고리즘의 성능이 우수함을 알 수 있다. 기존 특징은 비교적 높은 정확도(94.
81%)을 보였다. 제안한 알고리즘은 광역 및 지역적 특징벡터의 추가와 더불어 CART의 가지치기 피드백을 통한 불필요 특징벡터를 제거함/으로써 기존 특징 보다 낮은 오 분류율(3.73%)과 보다 높은 정확도(95.17%)를 얻을 수 있었다.
이는 Camshift 기반 신체 모델 추정에서 추적 알고리즘 사용에 따른 인식률 저하로 보인다. 하지만 시간 간격 윈도우를 사용하여 서로 다른 속도에서도 제스처 인식이 90%이상으로 원활하게 이루어지는 결과를 보았다.
질의응답
핵심어
질문
논문에서 추출한 답변
스마트 TV란?
사회 흐름이 계속해서 스마트화에 초점이 맞춰짐에 따라 구글, 애플, 삼성 등과 같은 글로벌 기업의 스마트 TV가 보편화되었다. 스마트 TV란 인터넷 접속 기능이 결합되어, 각종 애플리케이션을 설치해 TV 방송 시청 이외의 다양한 기능을 활용할 수 있는 다기능 TV를 말한다. 다기능을 갖는 여러 종류의 스마트 TV들에서 볼 수 있는 공통적인 특징으로 컨트롤 방식의 변화를 꼽을 수 있다.
다기능을 갖는 여러 종류의 스마트 TV들에서 볼 수 있는 공통적인 특징은?
스마트 TV란 인터넷 접속 기능이 결합되어, 각종 애플리케이션을 설치해 TV 방송 시청 이외의 다양한 기능을 활용할 수 있는 다기능 TV를 말한다. 다기능을 갖는 여러 종류의 스마트 TV들에서 볼 수 있는 공통적인 특징으로 컨트롤 방식의 변화를 꼽을 수 있다. 그 중 카메라와 센서의 기술이 발전함에 따라 여러 HCI(Human Computer Interaction)기술이 등장하고 있다.
스마트 TV에 카메라와 센서의 기술이 접목된 예시는?
그 중 카메라와 센서의 기술이 발전함에 따라 여러 HCI(Human Computer Interaction)기술이 등장하고 있다. 스테레오 카메라, TOF(Time of Flight) 카메라, 딥러닝 기반 모노카메라 등을 이용하여 사람의 손동작이나 포즈를 인식하는 기술들이 그 예이다[1][2]. 하지만 스마트 TV 성능 상 깊이 센서, GPU를 지원하지 않아 깊이 맵이나 딥러닝 기술의 적용의 어려움이 있다.
참고문헌 (13)
L. Chen, H. Wei, and J. Ferryman. "A survey of human motion analysis using depth imagery," Pattern Recognition Letters, vol. 34, no. 15, pp. 1995-2006, Nov. 2013.
K. Lee, Y. Shin, Y. Lee, and S. Seol, "A Study on User Interface and Control Method of Web-based Remote Control Platform," Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, ISSN:2383-5287, vol. 7, no.6, pp. 827-837, June 2017.
K. J. Lee, "A Study on Gesture Recognition using Edge Orientation Histogram and HMM," Journal of the Korea Institute of Information and Communication Engineering, vol. 15, no. 12, pp. 2647-2654, Dec. 2011.
H. Duan and Y. Luo. "A Gestures Trajectory Recognition Method Based on DTW," in Proceedings of the 2nd International Conference on Computer Science and Electronics Engineering, pp. 364-366, 2013.
S. J. Hwang, et al. "Human Body Tracking and Pose Estimation Using Modified Camshift Algorithm," Journal of Software Engineering and Applications, vol. 6. no. 5B, pp. 37-42, May 2013.
S, Jia. "A study of adaboost in 3D gesture recognition," Department of Computer Science, University of Toronto, Technical Report, 2003.
Patsadu, Orasa, C. Nukoolkit, and B. Watanapa. "Human gesture recognition using Kinect camera," Computer Science and Software Engineering, 2012 International Joint Conference on. IEEE, Bangkok, Thailand, pp. 28-32, 2012.
Arici, Tarik, et al. "Robust gesture recognition using feature pre-processing and weighted dynamic time warping," Multimedia Tools and Applications, vol. 72, no. 3, pp 3045-3062, Oct. 2013
Takimoto, Hironori, J. Lee, and A. Kanagawa. "A robust gesture recognition using depth data," International Journal of Machine Learning and Computing, vol. 3, no. 2, pp 245-249, Apr. 2013.
Freund, Yoav, R. Schapire, and N. Abe. "A short introduction to boosting," Journal-Japanese Society For Artificial Intelligence vol. 14, no. 5, pp 771-780, Sep. 1999.
J. Zhu, S. Rosset, H. Zou and T. Hastie. "Multi-class adaboost," Technical Report 430, Department of Statistics, University of Michigan, 2009.
Hoffman, Michael, P. Varcholik, and Joseph J. LaViola. "Breaking the status quo: Improving 3d gesture recognition with spatially convenient input devices," Virtual Reality Conference, Waltham, MA, USA, pp. 59-66, Mar. 2010
S. J. Hwang, G. P. Ahn, S. J. Park and J. H. Baek. "AdaBoost-Based Gesture Recognition Using Time Interval Trajectory Features," Journal of Advanced Navigation Technology, vol. 17, no. 2, pp 247-254, Apr. 2013.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.