지능형 로봇 연구 분야에 있어, 손을 이용한 제스처 인식은 매우 중요한 연구 분야로 간주 되고 있으며, 스마트 폰, 스마트 TV 등에 상용화 되어왔다. 제스처 인식에 있어, 강인한 손 검출 기술을 필수적인데, 손의 모양이 일정치 않고, 복잡한 배경이나 조명변화 아래서는 손 검출이 쉽지 않다는 어려움이 있다. 본 논문은 실내 환경에서 사용자가 가리키는 방향을 인식하기 위한 손 검출 알고리즘을 제안한다. 손 검출에 대한 오검출을 최대한 줄이기 위해, 머리-어깨 검출 결과를 기반으로 손 검색 영역을 한정시키고, 피부색을 이용해 최소한의 후보군들을 발생시켜, HOG-SVM을 이용하여 손을 검출하였다. 그리고 머리-어깨, 손 검출 결과를 통해 팔의 방향 각도를 추정하였다. 제안된 방법은 실제 실내 환경에서 추출된 영상을 통해 실험을 진행하였고, 강인한 성능을 확인하였다.
지능형 로봇 연구 분야에 있어, 손을 이용한 제스처 인식은 매우 중요한 연구 분야로 간주 되고 있으며, 스마트 폰, 스마트 TV 등에 상용화 되어왔다. 제스처 인식에 있어, 강인한 손 검출 기술을 필수적인데, 손의 모양이 일정치 않고, 복잡한 배경이나 조명변화 아래서는 손 검출이 쉽지 않다는 어려움이 있다. 본 논문은 실내 환경에서 사용자가 가리키는 방향을 인식하기 위한 손 검출 알고리즘을 제안한다. 손 검출에 대한 오검출을 최대한 줄이기 위해, 머리-어깨 검출 결과를 기반으로 손 검색 영역을 한정시키고, 피부색을 이용해 최소한의 후보군들을 발생시켜, HOG-SVM을 이용하여 손을 검출하였다. 그리고 머리-어깨, 손 검출 결과를 통해 팔의 방향 각도를 추정하였다. 제안된 방법은 실제 실내 환경에서 추출된 영상을 통해 실험을 진행하였고, 강인한 성능을 확인하였다.
In intelligent robot research, hand gesture recognition has been an important issue. And techniques that recognize simple gestures are commercialized in smart phone, smart TV for swiping screen or volume control. For gesture recognition, robust hand detection is important and necessary but it is cha...
In intelligent robot research, hand gesture recognition has been an important issue. And techniques that recognize simple gestures are commercialized in smart phone, smart TV for swiping screen or volume control. For gesture recognition, robust hand detection is important and necessary but it is challenging because hand shape is complex and hard to be detected in cluttered background, variant illumination. In this paper, we propose efficient hand detection algorithm for detecting pointing hand for recognition of place where user pointed. To minimize false detections, ROIs are generated within the compact search region using skin color detection result. The ROIs are verified by HOG-SVM and pointing direction is computed by both detection results of head-shoulder and hand. In experiment, it is shown that proposed method shows good performance for hand detection.
In intelligent robot research, hand gesture recognition has been an important issue. And techniques that recognize simple gestures are commercialized in smart phone, smart TV for swiping screen or volume control. For gesture recognition, robust hand detection is important and necessary but it is challenging because hand shape is complex and hard to be detected in cluttered background, variant illumination. In this paper, we propose efficient hand detection algorithm for detecting pointing hand for recognition of place where user pointed. To minimize false detections, ROIs are generated within the compact search region using skin color detection result. The ROIs are verified by HOG-SVM and pointing direction is computed by both detection results of head-shoulder and hand. In experiment, it is shown that proposed method shows good performance for hand detection.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 실내환경의 로봇에게 사용자가 방향을 인지할 경우, 로봇의 방향인지를 위한 손 검출 알고리즘을 제안한다. 손은 다양한 형태를 띄고 크기가 작기 때문에 오검출이 발생할 확률이 높다.
따라서 본 논문은 사용자마다 그림 4 같이 머리-어깨 선이 이루고 있는 오메가(Ω)라인을 특징으로 보고, 머리-어깨 부분만을 HOG 특징으로 추출하였다.
본 논문은 HOG를 이용한 손 검출 알고리즘을 제안한다. 그림 3은 제안하는 손 검출 알고리즘의 블록 다이어그램이다.
본 논문에서는 사용자의 손 검출을 통한 방향인식을 목적으로 손 검출 알고리즘을 구현하였다. 손 보다 비교적 크기가 크고 검출 성능이 머리-어깨를 먼저 검출하고, 그 양쪽에 손 검출을 위한 검색영역을 한정한 뒤, 피부색을 통해 ROI를 최대한 적게 발생시켜, 오검출 발생을 최소화하였다.
손 보다 비교적 크기가 크고 검출 성능이 머리-어깨를 먼저 검출하고, 그 양쪽에 손 검출을 위한 검색영역을 한정한 뒤, 피부색을 통해 ROI를 최대한 적게 발생시켜, 오검출 발생을 최소화하였다. 본 논문에서는 사용자의 정면에서 팔이 일직선을 이룬다는 가정하에 방향인지 판단하였는데, 다양한 각도에서의 방향 인지와, 팔이 구부러져 있는 상태 등에서 방향인식을 목표로 향후 연구 방향을 정하여 진행 중에 있다.
제안 방법
손은 다양한 형태를 띄고 크기가 작기 때문에 오검출이 발생할 확률이 높다. 따라서 이러한 오검출을 최대한 줄이기 위해, 사용자의 머리-어깨 검출을 하고 검출된 머리-어깨 결과를 기반으로 하여, 손에 대한 후보군을 다음과 같이 최소화하여 발생시켰다.
머리 어깨 검출 결과 기반으로 한 어깨선 검출을 통하여 손이 있 을 법한 범위로 손 검출 검색 영역을 한정하고, 그 안의 피부색 검출을 통해 손이 있을 법한 영역을 최소화한다. 그다음 피부색을 지닌 다른 물체와 손을 구별하기 위해 손 검출을 위한 HOG-SVM을 이용하여 최종적으로 손을 검출한다. 검출한 손의 위치와 어깨 위치를 통해 팔의 각도를 추정하여 최종 결과로 출력한다.
우선 방향을 지시하는 사용자의 위치를 찾기 위해, 머리-어깨 부분을 HOG-SVM을 이용하여 찾는다. 그 다음 머리어깨 검출 결과를 기반으로 하여, 손을 찾기 위한 영역을 한정시키고, 동시에 검출된 얼굴 부분을 이용하여 손에 대한 피부색을 검출한다. 한정된 영역 중에 피부색 검출 부분 위주로 손 검출에 대한 Region of Interest(ROI)를 발생시킨 뒤, 손의 모양이 일정하도록 팔 각도에 따라 이미지를 회전시킨다.
한정된 영역 중에 피부색 검출 부분 위주로 손 검출에 대한 Region of Interest(ROI)를 발생시킨 뒤, 손의 모양이 일정하도록 팔 각도에 따라 이미지를 회전시킨다. 그 다음 손 검출을 위한 HOG-SVM을 통해 손인지 판별한 뒤 최종 결과를 출력한다.
따라서 본 논문은 사용자마다 그림 4 같이 머리-어깨 선이 이루고 있는 오메가(Ω)라인을 특징으로 보고, 머리-어깨 부분만을 HOG 특징으로 추출하였다. 그 다음 추출한 HOG 특징들을 SVM으로 트레이닝을 하여, 그림 5와 같이 sliding window approach 방법으로 가능한 모든 검색창의 크기로 검색, HOG 추출, SVM으로 판별하는 식으로 머리-어깨를 검출하였다.
이미지 전체에서 사용자의 손을 검색하기에는 검출 시간이 오래 걸릴뿐더러, 오검출이 발생할 확률이 높아진다. 사람의 손은 어깨에서 일정 거리 이상 떨어져 있지 않으므로, 어깨를 기점으로 하여 일정 영역을 손 검색 영역으로 지정하였다. 보통의 slidinging window 방법은 좌에서 우로, 위에서 아래 방향으로 검색을 하지만, 본 논문에서는 어깨와 손의 특징을 이용하여 손 검출에 효과적인 검색 방법을 이용하였다.
사람의 손은 어깨에서 일정 거리 이상 떨어져 있지 않으므로, 어깨를 기점으로 하여 일정 영역을 손 검색 영역으로 지정하였다. 보통의 slidinging window 방법은 좌에서 우로, 위에서 아래 방향으로 검색을 하지만, 본 논문에서는 어깨와 손의 특징을 이용하여 손 검출에 효과적인 검색 방법을 이용하였다.
그림 6과 같이 방향을 가리킬 때의 팔은 일직선 형태를 띄며, 어깨를 중심으로 원을 그리듯 움직인다. 따라서 어깨 중심에서 거리와 각도를 변수로 하여, 어깨를 중심으로 부채꼴 형태의 영역을 검색하도록 하였다. 이와 같은 방법을 이용하면 그림 6의 오른쪽 그림 같이 기존의 직사각형 영역을 검색하는 것보다 보다 연산 시간 면이나, 성능 면에서 보다 효율적으로 검색할 수 가 있다.
머리-어깨 검출 결과 기반 손 검색 영역을 지정한 다음, 피부색 검출을 이용해 손 검출에 대한 ROI를 지정한다. 손에 대한 가장 큰 특징은 일정한 피부색을 지닌다는 점이다.
본 논문에서는 피부색에 대해 미리 학습화된 결과 없이 매 입력 영상마다 머리-어깨 검출 결과를 이용하여 피부색을 검출하였다. 머리-어깨 검출 결과의 고정된 가운데 영역을 얼굴영역으로 지정하고 그 다음 얼굴영역의 Hue 채널만 추출하여, hue 채널 값들을 히스토그램으로 만든다.
본 논문에서는 피부색에 대해 미리 학습화된 결과 없이 매 입력 영상마다 머리-어깨 검출 결과를 이용하여 피부색을 검출하였다. 머리-어깨 검출 결과의 고정된 가운데 영역을 얼굴영역으로 지정하고 그 다음 얼굴영역의 Hue 채널만 추출하여, hue 채널 값들을 히스토그램으로 만든다. 그리고 히스토그램을 가지고 전체 영상에 대해 backprojection을 시켜서 영상의 각 픽셀마다 피부색일 확률을 출력한다.
머리-어깨 검출 결과의 고정된 가운데 영역을 얼굴영역으로 지정하고 그 다음 얼굴영역의 Hue 채널만 추출하여, hue 채널 값들을 히스토그램으로 만든다. 그리고 히스토그램을 가지고 전체 영상에 대해 backprojection을 시켜서 영상의 각 픽셀마다 피부색일 확률을 출력한다.
정면에서 방향을 가리키는 사용자의 경우 방향을 가리키는 손의 방향의 팔의 방향이 일치 할 수밖에 없기 때문에, 어깨 부분에 근접해 있는 팔의 각도를 알 수 있으면, 손 검출 검색을 보다 효율적으로 처리 할 수 있다. 본 논문에서는 머리-어깨 검출 결과를 기반으로 그림 9과 같이 양쪽 어깨 부분에서 Hough transform을 이용하여 어깨선을 검출한다.
손 검출을 위해 손 검출을 위한 ROI 생성 시, 연산 시간과 오검출 발생을 줄이기 위해, 피부색 검출 결과와 어깨선 검출 결과를 이용한다.
그림 10과 먼저 검출된 어깨선 각도마다 위, 아래로 15도 범위로 검색할 각도 범위를 지정한다. 그리고 어깨로부터의 검색 범위는 검출된 머리-어깨 크기에 0.7배부터 1.5배까지로 설정하여, 검색을 시도한다. 고정된 범위가 아닌 머리어깨 크기에 비례하여 범위를 설정하는 것은 머리-어깨 크기와 팔의 크기가 비례하는 것과, 최대한 검색 범위를 좁게 잡아서 오검출과 검출 시간을 줄이기 위한 것이다.
그림 11 (a)와 같이, 이 미지를 회전시키면 회전시킨 만큼 영상 정보의 손실이 일어난다. 따라서 ROI의 크기의 두 배만큼 영상 영역을 확장시키고, 검색 시 각도에 따라 회전 시킨 다음 다시 원래 ROI의 크기로 추출하는 방법을 사용하여, 영상 정보 손실 없이 ROI를 회전 시켰다.
어깨선과 피부색 검출로 ROI를 최대한 줄였음에도, 이를 손이라고 확정지을 수 있는 분류기가 필요하다. 따라서 손과 다른 물체에 대해 HOG 특징을 추출하고, 이를 가지고 SVM 분류기를 만들어 손검출에 대한 최종 결과를 출력하게 하였다. 그림 12는 SVM에 트레이닝에 쓰인 샘플들이다.
트레이닝 이미지에 손에 대해 2000 장을 취득하였고, negative 이미지는 손이 없는 영상에서 랜덤하게 취득을 하였다. 모든 이미지는 32x32 크기로 변환하였고, cell 크기 4x4 픽셀, block size는 2x2 cell, unsigned 9 bin으로 설정하여 HOG 특징을 추출하였다. SVM 학습시에는 C = 10 으로 학습하여 HOG-SVM 뷴류기를 완성하였다.
검출 결과를 표시하는데 있어, 머리-어깨 검출 결과, 손 검출 결과, 손 검출 검색 영역을 박스로 표시하였고, 팔의 위치를 각도를 보다 싶게 보이게 하기 위해 목과 손의 위치를 연결하여 결과를 표시하였다. 또한 머리-어깨 위치, 손의 위치, 팔의 각도, 총 연산 시간등을 텍스트로 표시하게 하였다.
검출 결과를 표시하는데 있어, 머리-어깨 검출 결과, 손 검출 결과, 손 검출 검색 영역을 박스로 표시하였고, 팔의 위치를 각도를 보다 싶게 보이게 하기 위해 목과 손의 위치를 연결하여 결과를 표시하였다. 또한 머리-어깨 위치, 손의 위치, 팔의 각도, 총 연산 시간등을 텍스트로 표시하게 하였다. 그림 14는 검출결과 이미지이다.
본 논문에서는 사용자의 손 검출을 통한 방향인식을 목적으로 손 검출 알고리즘을 구현하였다. 손 보다 비교적 크기가 크고 검출 성능이 머리-어깨를 먼저 검출하고, 그 양쪽에 손 검출을 위한 검색영역을 한정한 뒤, 피부색을 통해 ROI를 최대한 적게 발생시켜, 오검출 발생을 최소화하였다. 본 논문에서는 사용자의 정면에서 팔이 일직선을 이룬다는 가정하에 방향인지 판단하였는데, 다양한 각도에서의 방향 인지와, 팔이 구부러져 있는 상태 등에서 방향인식을 목표로 향후 연구 방향을 정하여 진행 중에 있다.
대상 데이터
트레이닝 이미지에 손에 대해 2000 장을 취득하였고, negative 이미지는 손이 없는 영상에서 랜덤하게 취득을 하였다. 모든 이미지는 32x32 크기로 변환하였고, cell 크기 4x4 픽셀, block size는 2x2 cell, unsigned 9 bin으로 설정하여 HOG 특징을 추출하였다.
본 방법에 대한 성능을 평가하기 위해 6명에 대해 DB를 취득하였다. 모두 정면을 향해 있으면 오른쪽, 왼쪽 등으로 방향을 가리키는 동작을 취하는 이미지를 총 2930 장을 취득하였다.
본 방법에 대한 성능을 평가하기 위해 6명에 대해 DB를 취득하였다. 모두 정면을 향해 있으면 오른쪽, 왼쪽 등으로 방향을 가리키는 동작을 취하는 이미지를 총 2930 장을 취득하였다. 아래 그림 13은 취한 영상의 예이다.
이론/모형
우선, 사용자의 위치를 판별하기 위해 HOG 특징을 이용한 Support Vector Machine (SVM)을 사용하였다. 머리 어깨 검출 결과 기반으로 한 어깨선 검출을 통하여 손이 있 을 법한 범위로 손 검출 검색 영역을 한정하고, 그 안의 피부색 검출을 통해 손이 있을 법한 영역을 최소화한다.
본 논문에서는 [16]의 방법으로 ROI들을 회전시켜 일정한 형태의 손 모양이 나오도록 하였다.
성능/효과
총 2930 장의 영상에서 False Positive Per Image (FPPI)는 0.092이며, Miss Rate는 0.074의 성능과 이미지당 748.58ms를 평균 연산 시간을 기록하였다.
질의응답
핵심어
질문
논문에서 추출한 답변
보행자 및 차량 검출에 많이 쓰이는 방법은?
그 밖에도 보행자 및 차량 검출에 많이 쓰이는 Histogram of Orientation Gradient (HOG)를 이용한 방법도 많이 제안되었다. 최근 연구에서는 HOG 특징을 사용한 방법들이 Haar-like 특징이나 다른 특징에 비해 손 검출에 있어 보다 좋은 성능을 보인다는 것이 실험결과를 통해 보여지고 있으며[1][10], HOG 특징에 색 정보를 같이 사용하 거나[11], 여러 해상도의 HOG를 사용하는 등의 방법[12] 등, 손 검출 연구에 있어 많이 응용되어 지고 있다.
Viola-Jones 검출기를 이용한 방법의 단점은?
손 특성에 알맞게 새로운 Harr-like 특징을 이용한 방법[8], SIFT 특징으로 학습한 Adaboost를 이용한 손 검출을 제안한 방법[9] 등이 있다. 이러한 Viola-Jones 검출기를 이용한 방법들은 대부분 복잡한 배경에서는 오검출이 많아진다는 단점을 지닌다[1]
손 검출 방법 중 피부색을 이용한 검출 방법의 단점은?
얼굴 검출 결과에서 피부색에 대한 색 분포를 모델링하여 손을 검출하거나[2], YCrCb, HIS 같은 특정 색 공간에서 피부색에 대한 히스토그램을 통해 손 검출 방법도 제안되었다[3 4]. 하지만 피부색을 이용한 검출은 피부색과 유사한 물체에 대해 오검출 확률이 높고, 조명 변화에 민감하다는 단점이 있다[5]
참고문헌 (16)
J. A. Zondag, T. Gritti, and V. Jeanne, "Practical study on real-time hand detection," in Proc. 2009 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1-8, 2009
J. Zaletelj, J. Perhavc, and J. Tasic, "Vision-based human-computer interface using hand gestures," Image Analysis for Multimedia Interactive Services,WIAMIS'07. Eighth International Workshop on, pp. 41-41, Jun. 2007.
J. Wen and Y. Zhan, "Vision-based two hand detection and tracking," in Proc. 2nd International Conference on Interaction Sciences Information Technology, Culture and Human - ICIS, pp. 1253-1258, 2009.
P. K. Pisharady, P. Vadakkepat, and A. P. Loh, "Attention based detection and recognition of hand postures against complex backgrounds," International Journal of Computer Vision, vol. 101, no. 3, pp. 403-419, Aug. 2012.
Y. Y. Pang, N. A. Ismail, and P. L. S. Gilbert, "A real time vision-based hand gesture interaction," in Proc. 2010 Fourth Asia International Conference on Mathematical/Analytical Modelling and Computer Simulation, pp. 237-242, 2010.
J. Wen and Y. Zhan, "Vision-based two hand detection and tracking," in Proc. 2nd International Conference on Interaction Sciences Information Technology, Culture and Human - ICIS, pp. 1253- 1258, 2009.
Y. Fang, K. Wang, J. Cheng, and H. Lu, "A real- time hand gesture recognition method," in Proc. IEEE International Conference on Multimedia and Expo, pp. 995-998, 2007.
M. Kolsch and M. Turk, "Robust hand detection.," in Proc. IEEE International Conference on Automatic Face and Gesture Recognition, 2004.
C. Wang and K. Wang, "Hand posture recognition using Adaboost with SIFT for human robot interaction," in Recent progress in robotics: viable robotic service to human. Springer Berlin Heidelberg, pp. 317-329, 2008.
S. Y. Cheng and M. M. Trivedi, "Vision-based infotainment user determination by hand recognition for driver assistance," IEEE Transactions on Intelligent Transportation Systems, vol. 11, no. 3, pp. 759-764, Sep. 2010.
E. Ohn-Bar and M. Trivedi, "In-vehicle hand activity recognition using integration of regions," in Proc. IEEE International Intelligent Vehicles Symposium, pp.1034-1039, June, 2013.
Y. Zhao, Z. Song, and X. Wu, "Hand detection using multi-resolution HOG features," in Proc. IEEE International Conference on Robotics and Biomimetics, pp. 1715-1720, Dec. 2012.
N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," in Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 886-893, 2005.
V. Cherkassky and F. Mulier, "Support -vector networks," Machine Learning, vol. 20, no. 3, pp. 273-297, 1995.
P. Peer, F. Solina, "An Automatic Human Face Detection Method, " in Proc. the 4th Computer Vision Winter Workshop, Rastenfeld, Austria, 1999.
J. Kim, J. Baek and E. Kim, "A part-based rotational invariant hand detection," n Proc. International Conference on Fuzzy Theory and I ts Application, Dec. 2013.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.