손 모양 인식은 자연스러운 인간-컴퓨터 상호작용을 위한 기반 기술이다. 본 논문에서는 Kinect 기반 손 모양 인식을 위해 효과적으로 손 영역을 검출하기 위한 방법에 대해 논의한다. Kinect는 컬러 영상과 적외선 영상(혹은 깊이 영상)을 동시에 획득할 수 있는 카메라이기 때문에, 손 영역을 검출하는 과정에서 컬러 정보와 깊이 정보를 활용할 수 있다. 즉, 손 영역은 스킨 컬러를 가지는 영역으로 검출될 수도 있으며, 일정한 깊이 값을 가지는 영역으로 검출될 수도 있다. 그러므로, 이러한 방법들의 성능을 분석하여, 손 영역의 실루엣이 깔끔하게 도출될 수 있도록 적절히 결합하는 방법이 마련되어야 한다. 이는 손 모양 인식률을 크게 좌우하기 때문이다. 최종적으로 일반적인 환경에서 손 영역 검출 방법의 차이에 따른 손 모양 인식률을 비교함으로써, 성능이 우수한 손 영역 검출 방법을 제안한다.
손 모양 인식은 자연스러운 인간-컴퓨터 상호작용을 위한 기반 기술이다. 본 논문에서는 Kinect 기반 손 모양 인식을 위해 효과적으로 손 영역을 검출하기 위한 방법에 대해 논의한다. Kinect는 컬러 영상과 적외선 영상(혹은 깊이 영상)을 동시에 획득할 수 있는 카메라이기 때문에, 손 영역을 검출하는 과정에서 컬러 정보와 깊이 정보를 활용할 수 있다. 즉, 손 영역은 스킨 컬러를 가지는 영역으로 검출될 수도 있으며, 일정한 깊이 값을 가지는 영역으로 검출될 수도 있다. 그러므로, 이러한 방법들의 성능을 분석하여, 손 영역의 실루엣이 깔끔하게 도출될 수 있도록 적절히 결합하는 방법이 마련되어야 한다. 이는 손 모양 인식률을 크게 좌우하기 때문이다. 최종적으로 일반적인 환경에서 손 영역 검출 방법의 차이에 따른 손 모양 인식률을 비교함으로써, 성능이 우수한 손 영역 검출 방법을 제안한다.
Hand shape recognition is a fundamental technique for implementing natural human-computer interaction. In this paper, we discuss a method for effectively detecting a hand region in Kinect-based hand shape recognition. Since Kinect is a camera that can capture color images and infrared images (or dep...
Hand shape recognition is a fundamental technique for implementing natural human-computer interaction. In this paper, we discuss a method for effectively detecting a hand region in Kinect-based hand shape recognition. Since Kinect is a camera that can capture color images and infrared images (or depth images) together, both images can be exploited for the process of detecting a hand region. That is, a hand region can be detected by finding pixels having skin colors or by finding pixels having a specific depth. Therefore, after analyzing the performance of each, we need a method of properly combining both to clearly extract the silhouette of hand region. This is because the hand shape recognition rate depends on the fineness of detected silhouette. Finally, through comparison of hand shape recognition rates resulted from different hand region detection methods in general environments, we propose a high-performance hand region detection method.
Hand shape recognition is a fundamental technique for implementing natural human-computer interaction. In this paper, we discuss a method for effectively detecting a hand region in Kinect-based hand shape recognition. Since Kinect is a camera that can capture color images and infrared images (or depth images) together, both images can be exploited for the process of detecting a hand region. That is, a hand region can be detected by finding pixels having skin colors or by finding pixels having a specific depth. Therefore, after analyzing the performance of each, we need a method of properly combining both to clearly extract the silhouette of hand region. This is because the hand shape recognition rate depends on the fineness of detected silhouette. Finally, through comparison of hand shape recognition rates resulted from different hand region detection methods in general environments, we propose a high-performance hand region detection method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
몇 가지 검출 방법을 제시하고, 각 방법을 이용하여 손 영역을 검출한 후, 주어진 손 모양 인식 방법을 이용하여 검출된 손 영역의 모양을 인식하여 인식률을 비교, 분석함으로써, 성능이 우수한 검출 방법을 제안한다. 그러나, 본 논문의 목적은 손 영역을 검출하기 위한 새로운 알고리즘을 개발하는 데 있는 것이 아니라, 각각 깊이 정보와 컬러 정보에 대해 우수한 성능을 가지는 기존의 검출 알고리즘을 Kinect 영상에 적용했을 때 정확한 손 영역을 검출하기 위해서 깊이 정보와 컬러 정보를 어떻게 활용하는 것이 유리한가를 분석하는 데 있다.
시스템의 인식률을 결정하는 요건은 다양하지만, 크게 보면 카메라 영상으로부터 손영역을 검출하는 방법과 검출된 손 영역의 모양을 인식하는 방법의 성능이 가장 중요하다. 따라서, 본 논문에서는 Kinect 영상으로부터 손 영역을 정확하게 검출하는 방법에 대해 논의한다. 몇 가지 검출 방법을 제시하고, 각 방법을 이용하여 손 영역을 검출한 후, 주어진 손 모양 인식 방법을 이용하여 검출된 손 영역의 모양을 인식하여 인식률을 비교, 분석함으로써, 성능이 우수한 검출 방법을 제안한다.
본 논문에서는 Kinect 기반 손 모양 인식 시스템에서 인식률을 향상시키기 위한 손 영역 검출 방법에 대해 논의하였다. 컬러 정보와 깊이 정보를 협력적으로 사용함으로써 손 영역의 실루엣을 보다 정확하게 검출할 수 있었으며, 손모양 인식에서도 높은 인식률을 안정적으로 달성할 수 있음을 확인하였다.
본 논문에서는 Kinect에 기반한 손 모양 및 동작 인식 시스템 개발을 목표로 두고. 높은 인식률을 달성하기 위한 방안을 마련하는 데 초점을 둔다.
실험자들은 동일한 환경에서 각 손가락이 잘 구분되도록 6 가지 손 모양을 나타내었다. 실험은 컬러 영상 기반 방법과 깊이 영상 기반 방법 모두 잘 동작할 수 있는 일반적인 환경에서 수행되었는데, 이는 앞서 설명한 각 방법이 불리한 특수한 환경에서의 성능은 예측 가능하기 때문에, 예측이 어려운 일반적인 환경에서의 성능을 파악하기 위해서이다.
가설 설정
이러한 사실을 반영하듯, 컴퓨터 비전 관련 분야에서는 그 동안 손 모양 및 동작을 인식하기 위한 다양한 기술이 개발되어 왔다. 가능한 손 모양에 관한 영상 혹은 이로부터 추출된 특징 벡터 등의 데이터베이스를 만들어 두고, 단순히 2D 패턴 매칭이나 특징 벡터 비교를 통해 손바닥 포즈나 손 모양을 인식하기도 하고[1][2][3], 손의 기하학적인 특성을 기반으로 손가락을 검출하여, 손가락의 수로부터 손 모양을 인식하기도 하고[2][3], 손의 정확한 3D 모델을 미리 가지고 있다고 가정하고, 손 모델을 카메라 영상 상의 2D 손 영상과 매칭시키는 방법으로 손 모양을 인식하기도 한다[4]. 그러나, 기존 방법들은 대부분 컬러 영상만을 사용하기 때문에, 양질의 컬러 영상 획득이 불리한 환경에서는 제대로 동작하기 힘들다.
제안 방법
Ⅲ장에서 제시된 각 손 영역 검출 방법의 성능을 분석하기 위해 각 손 영역 검출 방법에 의해 검출된 손 영역에 Ⅱ장에서 설명한 손 모양 인식 방법을 적용하여 손 모양 인식률을 비교, 분석한다. 이를 위해 그림 12에서 보여주는 것과 같은 손가락의 개수가 서로 다른 6 가지 손 모양을 가지는 300장 정도의 영상을 촬영했다.
따라서, 본 논문에서는 Kinect 영상으로부터 손 영역을 정확하게 검출하는 방법에 대해 논의한다. 몇 가지 검출 방법을 제시하고, 각 방법을 이용하여 손 영역을 검출한 후, 주어진 손 모양 인식 방법을 이용하여 검출된 손 영역의 모양을 인식하여 인식률을 비교, 분석함으로써, 성능이 우수한 검출 방법을 제안한다. 그러나, 본 논문의 목적은 손 영역을 검출하기 위한 새로운 알고리즘을 개발하는 데 있는 것이 아니라, 각각 깊이 정보와 컬러 정보에 대해 우수한 성능을 가지는 기존의 검출 알고리즘을 Kinect 영상에 적용했을 때 정확한 손 영역을 검출하기 위해서 깊이 정보와 컬러 정보를 어떻게 활용하는 것이 유리한가를 분석하는 데 있다.
본 논문에서 사용하는 손 모양 인식 방법은 컬러 영상과 깊이 영상을 함께 사용한다. 그러므로, 양질의 컬러 영상과 깊이 영상을 실시간으로 획득할 수 있어야 하는데, Kinect는 이러한 목적에 잘 부합하는 장치이다.
손 영역을 검출하기 위해 컬러 영상을 주 정보로, 깊이 영상을 보조 정보로 사용한다. 이는 앞서 설명한 깊이 영상 기반 방법의 조건 “손이 항상 카메라에서 가장 가까운 위치에 존재한다.
스킨 컬러로 검출된 픽셀들의 깊이 값을 비교하여 카메라로부터 가장 가까운 거리에 있는 픽셀들의 평균 깊이를 Depthmin이라고 할 때, 깊이 영상을 조건 (Depthmin-Rangeminus≤ depth ≤ Depthmin+ Rangeplus)을 이용하여 문턱 값 처리함으로써 손 영역을 검출한다.
컬러 공간을 YCbCr로 변환한 후, Cb와 Cr값을 문턱 값처리함으로써 스킨 컬러를 가지는 픽셀을 검출한다. 그림4는 CBfrom = 70, CBto = 155, CRfrom = 130, CRto = 160일 때, 조건 {(CBfrom ≤ Cb ≤ CB to ) ∩ (CRfrom ≤ Cr ≤ CRto )} 을 만족하는 픽셀을 검출한 결과이다.
대상 데이터
그러나, 전체 영상을 맵핑하지 않고, 처리 대상(즉, 살색 영역) 이 되는 픽셀들만 맵핑함으로써 시간적인 효율성을 높였다.CBfrom= 70, CBto= 155, CRfrom= 130, CRto= 160, Rangeminus= 500, Rangeplus= 1000을 사용하였다.
Ⅲ장에서 제시된 각 손 영역 검출 방법의 성능을 분석하기 위해 각 손 영역 검출 방법에 의해 검출된 손 영역에 Ⅱ장에서 설명한 손 모양 인식 방법을 적용하여 손 모양 인식률을 비교, 분석한다. 이를 위해 그림 12에서 보여주는 것과 같은 손가락의 개수가 서로 다른 6 가지 손 모양을 가지는 300장 정도의 영상을 촬영했다. 실험자들은 동일한 환경에서 각 손가락이 잘 구분되도록 6 가지 손 모양을 나타내었다.
이론/모형
Ⅱ장에서 언급한 Kinect 카메라의 컬러 영상과 깊이 영상의 시점이 맞지 않는 문제는 Kinect 함수를 이용하였다. 그러나, 전체 영상을 맵핑하지 않고, 처리 대상(즉, 살색 영역) 이 되는 픽셀들만 맵핑함으로써 시간적인 효율성을 높였다.
그러므로, 이를 완화하기 위해서는 보다 정밀한 방법이 요구된다. 그러나, 본 논문에서는 깊이 기반 방법에서와 마찬가지로 가장 일반적인 방법인 미디언 필터를 사용한다. 그림 9는 필터 크기를 7로 했을 때의 결과를 보여준다.
성능/효과
그러나, 깊이 기반 방법만 사용하는 것에 비해 두 방법을 결합한 하이브리드 방법의 인식률이 더 좋았으며, 이는 경우에 따라 보다 세밀한 실루엣을 검출할 수 있는 컬러 영상 기반 방법의 역할이 필요하다는 것을 보여준다. 결론적으로 말해서, 두 검출 방법 모두 잘 동작할 수 있는 일반적인 환경에서도 두 검출 방법을 결합하는 것이 손모양 인식률을 개선하는데 도움이 될 수 있으며, 교집합을 이용한 단순한 결합만으로도 의미있는 인식률 향상을 달성할 수 있었다.
특히, 컬러 영상 기반 방법의 경우, 잡음의 영향으로 인해 예상보다 인식률이 크게 떨어지기도 했다.그러나, 깊이 기반 방법만 사용하는 것에 비해 두 방법을 결합한 하이브리드 방법의 인식률이 더 좋았으며, 이는 경우에 따라 보다 세밀한 실루엣을 검출할 수 있는 컬러 영상 기반 방법의 역할이 필요하다는 것을 보여준다. 결론적으로 말해서, 두 검출 방법 모두 잘 동작할 수 있는 일반적인 환경에서도 두 검출 방법을 결합하는 것이 손모양 인식률을 개선하는데 도움이 될 수 있으며, 교집합을 이용한 단순한 결합만으로도 의미있는 인식률 향상을 달성할 수 있었다.
Ⅱ장에서 언급한 Kinect 카메라의 컬러 영상과 깊이 영상의 시점이 맞지 않는 문제는 Kinect 함수를 이용하였다. 그러나, 전체 영상을 맵핑하지 않고, 처리 대상(즉, 살색 영역) 이 되는 픽셀들만 맵핑함으로써 시간적인 효율성을 높였다.CBfrom= 70, CBto= 155, CRfrom= 130, CRto= 160, Rangeminus= 500, Rangeplus= 1000을 사용하였다.
본 논문에서는 Kinect 기반 손 모양 인식 시스템에서 인식률을 향상시키기 위한 손 영역 검출 방법에 대해 논의하였다. 컬러 정보와 깊이 정보를 협력적으로 사용함으로써 손 영역의 실루엣을 보다 정확하게 검출할 수 있었으며, 손모양 인식에서도 높은 인식률을 안정적으로 달성할 수 있음을 확인하였다. 향후, 각 검출 방법이 배타적으로 동작할 수 있는 특수한 상황들을 고려할 수 있도록 효과적으로 결합하는 방법에 대한 연구가 수행되어야 할 것이다.
후속연구
컬러 정보와 깊이 정보를 협력적으로 사용함으로써 손 영역의 실루엣을 보다 정확하게 검출할 수 있었으며, 손모양 인식에서도 높은 인식률을 안정적으로 달성할 수 있음을 확인하였다. 향후, 각 검출 방법이 배타적으로 동작할 수 있는 특수한 상황들을 고려할 수 있도록 효과적으로 결합하는 방법에 대한 연구가 수행되어야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
손 모양 인식은 어떤 기술인가?
손 모양 인식은 자연스러운 인간-컴퓨터 상호작용을 위한 기반 기술이다. 본 논문에서는 Kinect 기반 손 모양 인식을 위해 효과적으로 손 영역을 검출하기 위한 방법에 대해 논의한다.
Kinect는 어떤 카메라인가?
본 논문에서는 Kinect 기반 손 모양 인식을 위해 효과적으로 손 영역을 검출하기 위한 방법에 대해 논의한다. Kinect는 컬러 영상과 적외선 영상(혹은 깊이 영상)을 동시에 획득할 수 있는 카메라이기 때문에, 손 영역을 검출하는 과정에서 컬러 정보와 깊이 정보를 활용할 수 있다. 즉, 손 영역은 스킨 컬러를 가지는 영역으로 검출될 수도 있으며, 일정한 깊이 값을 가지는 영역으로 검출될 수도 있다.
손 영역의 실루엣이 깔끔하게 도출될 수 있도록 적절히 결합하는 방법이 마련되어야 하는 이유는?
Kinect는 컬러 영상과 적외선 영상(혹은 깊이 영상)을 동시에 획득할 수 있는 카메라이기 때문에, 손 영역을 검출하는 과정에서 컬러 정보와 깊이 정보를 활용할 수 있다. 즉, 손 영역은 스킨 컬러를 가지는 영역으로 검출될 수도 있으며, 일정한 깊이 값을 가지는 영역으로 검출될 수도 있다. 그러므로, 이러한 방법들의 성능을 분석하여, 손 영역의 실루엣이 깔끔하게 도출될 수 있도록 적절히 결합하는 방법이 마련되어야 한다.
참고문헌 (12)
C. Cao, Y. Sun, R. Li, and L. Chen, "Hand posture recognition via joint feature sparse representation," Optical Engineering, vol. 50, no. 12, pp. 127210, 2011.
J. Choi, H. Park, and J.-I. Park, "Hand shape recognition using distance transform and shape decomposition," Proc. of ICIP'11, pp. 3666-3669, 2011.
J. Choi, J. Park, H. Park, and J.-I. Park, "iHand: an interactive bare-hand-based augmented reality interface on commercial mobile phones," Optical Engineering, vol. 52, no. 2, pp. 027206, 2013.
I. Oikonomidis, N. Kyriazis, and A. A. Argyros, "Markerless and efficient 26-DOF hand pose recovery," Proc. of ACCV'10, pp. 744-757, 2010.
http://www.microsoft.com/en-us/kinectforwindows/
S. Han, J. Choi, and J.-I. Park, "Two-hand-based interaction method using a hybrid camera," Proc. of IPIU'13, 2013.
http://mathnathan.com/2011/02/depthvsdistance/
http://labs.manctl.com/rgbdemo/
A. Kim and S. Rhee, "Recognition of natural hand gesture by using HMM," J. of Korean Institute of Intelligent Systems, vol. 22, no. 5, pp. 639-645, 2012.
M. J. Jones and J. M. Rehg, "Statistical color models with application to skin detection," IJCV, 46(1), pp. 81-96, 2002.
A. Kulshreshth, C. Zorn, and J. J. LaViola Jr., "Real-time markerless Kinect based finger tracking and gesture recognition for HCI," Proc. of IEEE Symposium on 3D User Interfaces, pp. 187-188, 2013.
J. St. Jean, Kinect Hacks: Tips & Tools for Motion and Pattern Detection, O'Reilly Media, 2012.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.