인간은 의사소통을 통해서 상호관계를 유지시키고 발전시켜나간다. 의사소통은 크게 언어적 의사소통과 비언어적 의사소통으로 나뉜다. 언어적 의사소통은 말 또는 글을 사용하는 것이고 비언어적 의사소통은 몸동작으로 의사를 전달하는 것이다. 우리는 일상생활에서 대화를 할 때 말과 더불어 제스처를 함께 사용한다. 제스처는 비언어적 의사소통에 속하며, 다양한 형태와 움직임으로 의사를 전달할 수 있다. 이러한 이유로 제스처는 HCI 분야와 HRI 분야에서 NUI/NUX를 구현하기 위한 수단으로 각광받고 있다. 본 논문에서는 키넥트와 손의 기하학적인 특징을 사용하여 손 영역 검출과 손가락 개수를 인식하는 방법을 제안한다. 키넥트가 제공하는 깊이 영상을 이용하여 영상에서 손 영역을 검출하고 손의 윤곽선과 중점의 거리를 비교하여 손가락 개수를 파악한다. 본 논문에서 제안한 방법에 따른 손가락 개수 인식률은 평균 98.5%이고 수행시간은 0.065ms이다. 이 방법은 기존의 연구와 비교 했을 때, 인식 속도가 빠르며, 복잡도가 O(n),으로써 성능 또한 우수하다. 향후 이를 통해 제스처의 인식 가능한 범위를 증가시켜 보다 컴퓨터와 인간의 상호작용이 수월해지는데 도움이 될 것이다.
인간은 의사소통을 통해서 상호관계를 유지시키고 발전시켜나간다. 의사소통은 크게 언어적 의사소통과 비언어적 의사소통으로 나뉜다. 언어적 의사소통은 말 또는 글을 사용하는 것이고 비언어적 의사소통은 몸동작으로 의사를 전달하는 것이다. 우리는 일상생활에서 대화를 할 때 말과 더불어 제스처를 함께 사용한다. 제스처는 비언어적 의사소통에 속하며, 다양한 형태와 움직임으로 의사를 전달할 수 있다. 이러한 이유로 제스처는 HCI 분야와 HRI 분야에서 NUI/NUX를 구현하기 위한 수단으로 각광받고 있다. 본 논문에서는 키넥트와 손의 기하학적인 특징을 사용하여 손 영역 검출과 손가락 개수를 인식하는 방법을 제안한다. 키넥트가 제공하는 깊이 영상을 이용하여 영상에서 손 영역을 검출하고 손의 윤곽선과 중점의 거리를 비교하여 손가락 개수를 파악한다. 본 논문에서 제안한 방법에 따른 손가락 개수 인식률은 평균 98.5%이고 수행시간은 0.065ms이다. 이 방법은 기존의 연구와 비교 했을 때, 인식 속도가 빠르며, 복잡도가 O(n),으로써 성능 또한 우수하다. 향후 이를 통해 제스처의 인식 가능한 범위를 증가시켜 보다 컴퓨터와 인간의 상호작용이 수월해지는데 도움이 될 것이다.
Humans develop and maintain relationship through communication. Communication is largely divided into verbal communication and non-verbal communication. Verbal communication involves the use of a language or characters, while non-verbal communication utilizes body language. We use gestures with lang...
Humans develop and maintain relationship through communication. Communication is largely divided into verbal communication and non-verbal communication. Verbal communication involves the use of a language or characters, while non-verbal communication utilizes body language. We use gestures with language together in conversations of everyday life. Gestures belong to non-verbal communication, and can be offered using a variety of shapes and movements to deliver an opinion. For this reason, gestures are spotlighted as a means of implementing an NUI/NUX in the fields of HCI and HRI. In this paper, using Kinect and the geometric features of the hand, we propose a method for recognizing the number of fingers and detecting the hand area. A Kinect depth image can be used to detect the hand region, with the finger number identified by comparing the distance of outline and the central point of a hand. Average recognition rate for recognizing the number of fingers is 98.5%, from the proposed method, The proposed method would help enhancing the functionality of the human computer interaction by increasing the expression range of gestures.
Humans develop and maintain relationship through communication. Communication is largely divided into verbal communication and non-verbal communication. Verbal communication involves the use of a language or characters, while non-verbal communication utilizes body language. We use gestures with language together in conversations of everyday life. Gestures belong to non-verbal communication, and can be offered using a variety of shapes and movements to deliver an opinion. For this reason, gestures are spotlighted as a means of implementing an NUI/NUX in the fields of HCI and HRI. In this paper, using Kinect and the geometric features of the hand, we propose a method for recognizing the number of fingers and detecting the hand area. A Kinect depth image can be used to detect the hand region, with the finger number identified by comparing the distance of outline and the central point of a hand. Average recognition rate for recognizing the number of fingers is 98.5%, from the proposed method, The proposed method would help enhancing the functionality of the human computer interaction by increasing the expression range of gestures.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 조명과 같은 주변 환경에 영향을 받지 않는 키넥트의 깊이 정보와 손의 기하학적인 특징을 이용한 손 인식방법을 제안한다. 제안하는 방법은 깊이 정보를 사용하여 손과 배경을 분리하고 손의 중심점과 손 영역과의 거리를 비교하여 손가락과 손가락의 개수를 인식한다.
또한 제스처는 다양한 형태를 표현할 수 있기 때문에 인간과 컴퓨터의 상호작용을 위한 수단으로써 각광받고 있다. 이 점에 착안하여 본 논문에서는, 제스처를 인식하기 위해서 영상 입력장치를 통해 들어오는 영상에서 손가락 개수를 인식하는 방법을 제안했다. 손 영역은 키넥트가 제공하는 깊이 영상의 깊이 정보를 활용하여 검출하였고, 손가락 개수는 손 윤곽선을 구성하는 컨투어의 좌표들과 손 중심점의 거리를 비교하여 인식하였다.
가설 설정
본 논문에서는 키넥트 앞에서 손을 앞으로 쭉 뻗고 손이 위로 향한 상태라고 가정한다. 그림 2는 본 논문에서 제안하는 손가락 개수 인식 알고리즘을 위한 손 영역 검출 알고리즘 순서도이다.
제안 방법
이는 깊이정보에 임계치를 설정하여 손 영역을 배경과 분리한다. 그리고 YCrCb를 사용하여 영상에서 피부색과 유사한 영역을 검출한다. 그 후, 두 가지 방법을 통해서 얻은 영역에서 공통된 부분을 찾는다.
Choi와 Seo는 이를 활용하여, 손의 스켈레톤을 추적하였고, 손의 스켈레톤 부분의 영역을 손 영역으로 정의하였다. 그리고 거리 변환을 사용하여 손 중심점을 찾았다. 그 후, 손 영역에서 굴곡진 부분을 찾아서 손가락후보로 설정한다.
따라서 깊이정보에 임계값(Threshold)을 정하면 손이 아닌 배경을 제거할 수 있다. 그리고 베이지안 기반 위치 인식(Bayesian Object Localization)을 사용한 NITE 모듈을 사용하여 손의 포인트를 찾는다. 그 후, 손영역에서 손의 포인트를 갖는 부분을 제거하여 손가락영역을 찾는다.
그 후, 거리변환을 적용하여 가장 큰 값을 갖는 픽셀을 찾아 손바닥 중심점으로 한다. 그리고 손바닥 중심점을 원의 중심으로 하고, 거리변환의 값을 반지름으로 갖는 원을 그려 손바닥영역을 검출한다. 또한 손가락 끝을 찾기 위해서 손의 외곽선을 검출하고, 기울기가 급격히 변하는 지점을 손가락 끝 후보로 지정한다.
이 점에 착안하여 본 논문에서는, 제스처를 인식하기 위해서 영상 입력장치를 통해 들어오는 영상에서 손가락 개수를 인식하는 방법을 제안했다. 손 영역은 키넥트가 제공하는 깊이 영상의 깊이 정보를 활용하여 검출하였고, 손가락 개수는 손 윤곽선을 구성하는 컨투어의 좌표들과 손 중심점의 거리를 비교하여 인식하였다. 또한 제안한 손가락 개수 인식 방법은 평균 인식률이 98.
그 후, 좌표 탐색을 진행하며 탐색방향은 반시계방향으로 진행한다. 손가락 개수의 파악을 위해서 연속된 3개의 좌표와 중심점의 거리를 비교한다. 연속된 3개의 값 중 두 번째의 값이 가장 크다면, 그 지점이 손가락 후보가 된다.
그 후, 손영역에서 손의 포인트를 갖는 부분을 제거하여 손가락영역을 찾는다. 손가락 영역에서 깊이정보가 최소가 되는 부분을 찾아 손가락 개수를 인식하였다.
Park은 깊이 정보와 컬러영상 및 손의 기하학적인 특징을 사용하여 손 모양을 인식했다[13]. 우선 영상에서 손영역을 얻기 위해서, 스킨 컬러를 사용하여 얻은 손 영역과 깊이 정보를 사용하여 얻은 손 영역의 공통부분을 찾는다. 그 후, 거리변환을 적용하여 가장 큰 값을 갖는 픽셀을 찾아 손바닥 중심점으로 한다.
본 논문에서는 조명과 같은 주변 환경에 영향을 받지 않는 키넥트의 깊이 정보와 손의 기하학적인 특징을 이용한 손 인식방법을 제안한다. 제안하는 방법은 깊이 정보를 사용하여 손과 배경을 분리하고 손의 중심점과 손 영역과의 거리를 비교하여 손가락과 손가락의 개수를 인식한다. 2장에서는 기존의 연구들을 소개하며, 3장에서는 본 논문에서 제시한 손가락 개수 인식 알고리즘을 설명한다.
‘ADXL330K’는 운동의 관성력을 검출하여 측정 대상의 가속도, 방향, 거리 등 다양한 항법관련 정보를 제공한다. 즉, 데이터 글러브의 관성 센서에서 입력되는 X, Y, Z 3축의 G값(-3g~3g)을 분석하여 제스처의 3D방향성을 분석하였다. 분석을 위해서 HMM알고리즘과 다중퍼셉트론(Multilayer perceptron, MLP)을 사용한다.
이는 HMM이 인식 속도가 빠르지만 확률적인 계산방법으로 결과의 정확도가 떨어지는 단점을 보완한 것이다. 즉, 제스처 데이터 중, 일부를 HMM으로 학습시키고,HMM을 학습하지 않은 데이터로 HMM의 출력확률을 계산한다. 그 후, 계산된 출력 확률 값을 퍼셉트론으로 계산하여 가정 큰 값인 출력확률의 인식 결과를 손가락 포즈를 인식한다.
대상 데이터
그는 관성 센서 ‘ADXL330K’ 5개로 구성된 데이터글러브를 사용했다.
제시한 알고리즘을 평가하기 위해서 손가락 개수의 인식률을 평가하였다. 실험은 AMD FM(tm)-8150 Eight-Core Processor(3.60 GHz), 메모리 32GB, Window 7 Professional K Service Pack 1(64bit), 윈도우 용 키넥트 v1 카메라로 진행되었다. 실험인원은 20명을 대상으로 진행되었으며 그림 7에서 인식한 서로 다른 6가지의 손가락 개수의 인식률을 비교하였다.
60 GHz), 메모리 32GB, Window 7 Professional K Service Pack 1(64bit), 윈도우 용 키넥트 v1 카메라로 진행되었다. 실험인원은 20명을 대상으로 진행되었으며 그림 7에서 인식한 서로 다른 6가지의 손가락 개수의 인식률을 비교하였다. 실험은 특수한 상황을 가정하여 환경을 조성하면 정확도의 예측이 가능하기 때문에 일반적인 환경에서 진행되었다.
데이터처리
제시한 알고리즘을 평가하기 위해서 손가락 개수의 인식률을 평가하였다. 실험은 AMD FM(tm)-8150 Eight-Core Processor(3.
이론/모형
즉, 데이터 글러브의 관성 센서에서 입력되는 X, Y, Z 3축의 G값(-3g~3g)을 분석하여 제스처의 3D방향성을 분석하였다. 분석을 위해서 HMM알고리즘과 다중퍼셉트론(Multilayer perceptron, MLP)을 사용한다. 이는 HMM이 인식 속도가 빠르지만 확률적인 계산방법으로 결과의 정확도가 떨어지는 단점을 보완한 것이다.
손의 중점과 윤곽선은 컨투어를 활용하여 획득한다. 컨투어는 Suzuki85 알고리즘을 사용하여 검출한다. 컨투어는 인접한 픽셀 값과 동일한 값을 가진 픽셀들의 집합이다.
성능/효과
표 2는 본 논문의 방법과 이전의 연구들을 통해 제시된 방법의 결과를 비교한 것이다. 기존의 방법들 중 데이터 글러브를 사용한 손가락 개수 인식률은 평균 63.4%이고, 깊이 정보와 스킨 컬러를 동시에 사용한 방법은 평균 98%이다.
표 3은 표 2에서 비교한 방법들과 본 논문에서 제안한 방법의 수행시간을 비교한 결과이다. 데이터 글러브를 사용한 방법은 0.60ms, 깊이 영상과 스킨 컬러를 사용한 방법은 25ms, 본 논문에서 제안한 방법은 0.065ms의 수행시간이 걸렸다.
손 영역은 키넥트가 제공하는 깊이 영상의 깊이 정보를 활용하여 검출하였고, 손가락 개수는 손 윤곽선을 구성하는 컨투어의 좌표들과 손 중심점의 거리를 비교하여 인식하였다. 또한 제안한 손가락 개수 인식 방법은 평균 인식률이 98.6%이고 수행시간은 0.065ms이다. 기존의 연구에 비해 인식 속도가 빠르고 복잡도가 O(n)으로 성능 또한 우수하다.
본 논문에서 제안한 방법의 정확도는 평균 98.2%이고 수행시간 0.065ms이다. 다른 방법에 비해 정확도가 높은 것은 주변의 환경의 영향을 받지 않는 깊이정보를 사용하고 컨투어 및 손의 기하학적인 특징을 사용하였기 때문이다.
후속연구
향후 연구에서는 손가락 개수와 손의 모양이 가진 특징을 통해서 제스처를 인식할 수 있을 것이다. 또한 이는 제스처의 표현 가능한 범위를 증가시켜 보다 컴퓨터와 인간의 상호작용이 수월해지는 데 도움이 될 것이다.
향후 연구에서는 손가락 개수와 손의 모양이 가진 특징을 통해서 제스처를 인식할 수 있을 것이다. 또한 이는 제스처의 표현 가능한 범위를 증가시켜 보다 컴퓨터와 인간의 상호작용이 수월해지는 데 도움이 될 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
제스처란 어떠한 인터페이스를 말하는가?
제스처는 다양한 디스플레이를 효과적으로 제어할 수있는 가장 직관적이고 간단한 인터페이스다[6,7]. 이에 따라 제스처를 새로운 인터페이스로 정의하기 위해서 다양한 방법으로 연구가 진행되었다.
언어적 요소의 예는 무엇인가?
이를 나누는 기준은 언어적 요소를 사용하는지, 비언어적 요소를 사용하는가이다. 언어적 요소는 말 또는 글 같은 것이고, 비언어적 요소는 윙크, 악수, 웃음과 같은 몸동작이다.
제스처 인식을 위한 연구에 사용된 대표적인 장비는 무엇인가?
제스처 인식을 위한 연구는 다양한 장비들을 사용하여 진행되어왔다. 데이터 글러브와 비디오 카메라가 대표적인 예이다. 데이터 글러브는 컴퓨터와 상호작용하는 멀티미디어 입력 장치이다.
참고문헌 (15)
J.L Applegate, G.B Leichty, "Managing interpersonal relationships : Social cognitive and strategic determinants of competence," In R. N. Bostrom(Ed.), Competence in communication : A multidisciplinary approach, 1984, pp. 33-56.
Su jin Chae, "The Importance of Nonverbal Communication Skills," Korean J Med Educ 2010 Jun, 2010, pp. 149-150. http://dx.doi.org/10.3946/kjme.2010.22.2.149
J.P. Wachs, M. Kolsch, H. Stern and Y. Edan, "Vision-based hand gesture applications," Communications of the ACM, vol. 55, 2011, pp. 60-71. http://dx.doi.org/10.4016/26819.01
Sang Yun Park, Eung Joo Lee, "Hand Gesture Recognition Algorithm Robust to Complex Image," Journal of Korea Multimedia Society, Vol.13, No.7, July, 2010, pp. 1000-1015. http://www.koreascience.or.kr/article/ArticleFullRecord.j sp?cnMTMDCW_2010_v13n7_1000
Lauri Connelly, Yicheng Jia, Maria L. Taro, Mary Ellen Stoykov, Robert V. Kenyon, Derek G. Kamper, "A Pneumatic Glove and Immersive Virtual Reality Environment for Hand Rehabilitative Training After Stroke," IEEE Trans. Neural Systems and Rehabilitation Engineering, vol.18, issue 5, 2010, pp. 551-559. http://dx.doi.org/10.1109/tnsre.2010.2047588
M. Chen, L. Mummert, P. Pillai, A. Hauptmann, and R. Sukthankar, "Controlling your TV with gestures," Proc. Int'l. Conf. Multimedia Information Retrieval, 2010, pp. 405-408. http://dx.doi.org/10.1145/1743384.1743453
H. P. Jain and A. Subramanian, "Real-time upper-body human pose estimation using a depth camera," Technical Report, HPL-2010-190, HP Laboratories, 2010. http://dx.doi.org/10.1007/978-3-642-24136-9_20
Woon-Soo Choi, Yong-Hwan Cho, Joon-suk Lee, "3-D Gesture Recognition Research using CUDA and Improved Hybrid Neural Networks," Korea Entertainment Industry Association 2011 Annual Spring Conference on Computational Intelligence, 2011, pp. 172-180. http://www.dbpia.co.kr/Article/NODE01789961
Junyeong Choi, Seiheui Han, Hanhoon Park and Jong-Il Park, "A Study on Providing Natural Two-handed Interaction Using a Hybrid Camera," The Third Interaction Conference on Digital Information Processing and Communications(ICDIPC 2013), 2013, pp. 484-484. http://sdiwc.net/digital-library/a-study-on-providing-natur al-twohanded-interaction-using-a-hybrid-camera.html
Junyeong Choi, Byung-Kuk Seo, Daeseon Lee, Hanhoon Park and Jong-Il Park, "RGB-D Camera-based Hand Shape Recognition for Human-robot Interaction," Robotics(ISR), 2013 44th International Symposium on IEEE, 2013, pp.1-2. http://dx.doi.org/10.1109/isr.2013.6695627
L. Raheja Jadish , Chaudhary Ankit, Singal Kunal, "Tracking of Fingertips and Centers of Palm using KINECT," 2011 Third International Conference on Computational Intelligence, Modelling and Simulation(CIMSiM), 2011, pp. 248-252. http://dx.doi.org/10.1109/cimsim.2011.51
Hongyong Tao, Youling Yu, "Finger Tracking and Gesture Interaction with Kinect," IEEE 12th International Conference on Computer and Information(CIT), 2012, pp. 214-218. http://dx.doi.org/10.1109/cit.2012.62
Hanhoon Park, Junyeong Choi, Jong-Il Park and Kwang-Seok Moon, "A Study on Hand Region Detection for Kinect-Based Hand Shape Recognition," Journal of Broadcast Engineering, Volume 18 , Issue 3, 2013, pp.393-400. http://dx.doi.org/10.5909/jbe.2013.18.3.393
J. Choi, H. Park, and J.-I. Park, "Hand shape recognition using distance transform and shape decomposition," Proc. of ICIP'11, 2011, pp. 3666-3669. http://dx.doi.org/10.1109/icip.2011.6116497
C.Cao, Y. Sun, R. Li, and L. Chen, "hand posture recognition via joint feature sparse representation," Optical Engineering, vol. 50, no. 12, 2011, pp. 127210. http://dx.doi.org/10.1117/1.3662884
※ AI-Helper는 부적절한 답변을 할 수 있습니다.