[논문]관절 기반의 모델을 활용한 강인한 손 영역 추출

장석우; 김설호; 김계영

doi:10.5762/kais.2019.20.9.525

관절 기반의 모델을 활용한 강인한 손 영역 추출
Robust Hand Region Extraction Using a Joint-based Model 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.20 no.9, 2019년, pp.525 - 531

장석우 (안양대학교 소프트웨어학과) , 김설호 (숭실대학교 소프트웨어학부) , 김계영 (숭실대학교 소프트웨어학부)

초록
AI-Helper

인간과 컴퓨터 사이의 보다 자연스러운 상호적인 인터페이스를 효과적으로 구현하기 위해서 사람의 제스처를 활용하려는 노력이 최근 들어 지속적으로 시도되고 있다. 본 논문에서는 연속적으로 입력되는 3차원의 깊이 영상을 받아들여서 손 모델을 정의하고, 정의된 손 모델을 기반으로 사람의 손 영역을 강인하게 추출하는 알고리즘을 제시한다. 본 논문에서 제시된 알고리즘에서는 먼저 21개의 관절을 사용하여 손 모델을 정의한다. 본 논문에서 정의한 손 모델은 6개의 손바닥 관절을 포함하는 손바닥 모델과 15개의 손가락 관절을 포함하는 손가락 모델로 구성된다. 그런 다음, 입력되는 3차원의 깊이 영상을 적응적으로 이진화함으로써, 배경과 같은 비관심 영역들은 제외하고, 관심 영역인 사람의 손 영역만을 정확하게 추출한다. 실험 결과에서는 제시된 알고리즘이 연속적으로 입력되는 깊이 영상으로부터 배경과 같은 영역들은 제외하고 사람의 손 영역만을 기존의 알고리즘에 비해 약 2.4% 보다 강인하게 검출한다는 것을 보여준다. 본 논문에서 제안된 손 영역 추출 알고리즘은 제스처 인식, 가상현실 구현, 3차원 운동 게임, 수화 인식 등과 같은 컴퓨터 비전 및 영상 처리와 관련된 여러 가지의 실제적인 분야에서 유용하게 활용될 것으로 기대된다.

Abstract ▼ AI-Helper

Efforts to utilize human gestures to effectively implement a more natural and interactive interface between humans and computers have been ongoing in recent years. In this paper, we propose a new algorithm that accepts consecutive three-dimensional (3D) depth images, defines a hand model, and robustly extracts the human hand region based on six palm joints and 15 finger joints. Then, the 3D depth images are adaptively binarized to exclude non-interest areas, such as the background, and accurately extracts only the hand of the person, which is the area of interest. Experimental results show that the presented algorithm detects only the human hand region 2.4% more accurately than the existing method. The hand region extraction algorithm proposed in this paper is expected to be useful in various practical applications related to computer vision and image processing, such as gesture recognition, virtual reality implementation, 3D motion games, and sign recognition.

주제어

표/그림 (5)

그림 Fig. 1. Flowchart of the proposed method
그림 Fig. 2. Hand model
그림 Fig. 3. An example of a depth image
그림 Fig. 4. Hand region extraction
그림 Fig. 5. Performance evaluation

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 관절을 사용하여 사람의 손 모델을 생성한 다음, 생성된 손 모델을 이용하여 입력되는 영상으로부터 손 영역만을 효과적으로 검출하는 새로운 접근 방법을 제시한다. 아래의 Fig.
여기에서 Fn은 원위 지절 관절(DIP:distal interphalangeal joint), 근위 지절 관절(PIP: proximal interphalangeal point), 손가락 끝(TIP:finger tip)으로 표현된다. 또한 TIP는 사실상 관절은 아니나 TIP에서 DIP에 대응하는 뼈대의 위치와 길이를 나타내기 위해서 본 논문에서는 관절로 표현된다.
본 논문에서는 CbCr 공간이 아니라 Cb’Cr’ 공간, 즉색상이 명도의 변화에 최대한 영향을 받지 않도록 보정된 공간에서 타원형의 피부 색상 분포 모델이 정의된다.
5는 본 논문에서 제안된 관절 기반의 모델을 사용한 손 영역 추출 알고리즘의 정확도 측면에서의 성능비교 결과를 그래프로 나타내고 있다. 본 논문에서는 색상 기반의 단순한 임계화(thresholding)를 사용하는 기존의 방법과 제안된 방법을 비교 평가하였다. Fig.
본 논문에서는 연속적으로 입력되는 3차원의 깊이 데이터를 받아들인 다음 손 모델을 정의하고, 정의된 손 모델을 기반으로 사람의 손 영역만을 강인하게 검출하는방법을 제안하였다. 본 논문에서 제안된 방법에서는 먼저21개의 관절을 사용하여 손 모델을 정의하였다.
본 절에서는 카메라로부터 입력되는 3차원의 깊이 특징과 색상 특징을 분석하여 사람의 손 영역만을 강인하게 검출하는 알고리즘에 대해 기술한다. 일반적으로 3차원의 깊이 데이터는 0에서 255사이의 값으로 표현되며,보통 포인트 클라우드(point cloud)라고 불린다[17].

가설 설정

본 논문에서는 YCbCr 색상 특징을 이용하여 영상으로부터 피부 색상 분포 영역을 검출한 다음에는, 3차원의깊이 특징을 분할(segmentation)하여 사람의 손이라고추정되는 영역을 검출한다. 본 논문의 시스템 환경에서는사람의 손 영역이 카메라를 기준으로 상대적으로 가장근접하게 위치해 있다고 가정한다. 따라서 본 논문에서는깊이 특징 중에서 크기가 상대적으로 작은, 그리고 동일한 레벨을 가지는 깊이 특징을 레이블링하여 사용한다.

제안 방법

Fig. 1에서 보는 바와 같이 본 논문에서 제시하는 방법에서는 먼저 6개의 관절로 구성되는 손바닥 모델과 15개의 관절로 구성되는 손가락 모델을 생성하고, 이들을이용하여 사람의 손 모델을 생성한다. 그런 다음, 이전 단계에서 생성된 관절 기반의 손 모델을 기반으로, 입력되는 3차원의 깊이 정보 및 색상 모델 기반의 영상으로부터 적응적인 영역 분할 및 이진화를 수행함으로써 배경과 같은 비 관심 영역들은 효과적으로 제외시키고 관심 영역인 사람의 손 영역만을 강인하게 분리한다.
그리고 각 화소의 H와 S 채널의 값이 사전에 정의된 피부 색상 범위에 해당할 경우에는 손 영역이라고 지정된다. 그리고 영상에 포함된 잡음을 제거하기 위해서 영상 스무딩(smoothing)을 수행하였다.
본 논문의 시스템 환경에서는사람의 손 영역이 카메라를 기준으로 상대적으로 가장근접하게 위치해 있다고 가정한다. 따라서 본 논문에서는깊이 특징 중에서 크기가 상대적으로 작은, 그리고 동일한 레벨을 가지는 깊이 특징을 레이블링하여 사용한다.즉, 식 (3)에서와 같이 피부 색상 분포 영역 중에서 깊이 특징이 상대적으로 작은, 다시 말해 카메라와 근접하게 위치해 있는 영역들을 손 영역의 후보(candidate)로 판단한다.
1이다. 또한, Kinect v2 깊이 카메라를 사용하여 특정한 제약사항이 없는 다양한 실내외의 환경에서 3차원의 깊이 영상을 획득하여 처리하였다.
본 논문에서는 연속적으로 입력되는 3차원의 깊이 데이터를 받아들인 다음 손 모델을 정의하고, 정의된 손 모델을 기반으로 사람의 손 영역만을 강인하게 검출하는방법을 제안하였다. 본 논문에서 제안된 방법에서는 먼저21개의 관절을 사용하여 손 모델을 정의하였다. 본 논문에서 정의한 손 모델은 6개의 손바닥 관절을 포함하는손바닥 모델과 15개의 손가락 관절을 포함하는 손가락모델로 구성된다.
본 논문에서는 YCbCr 색상 특징을 이용하여 영상으로부터 피부 색상 분포 영역을 검출한 다음에는, 3차원의깊이 특징을 분할(segmentation)하여 사람의 손이라고추정되는 영역을 검출한다. 본 논문의 시스템 환경에서는사람의 손 영역이 카메라를 기준으로 상대적으로 가장근접하게 위치해 있다고 가정한다.
본 논문에서는 정확도 관점에서 제안된 손 영역 추출알고리즘의 성능을 평가 및 비교하였다. 본 논문에서는받아들인 깊이 영상에서 올바르게 추출된 사람의 손 영역들의 개수와, 입력된 영상들에 존재하는 전체적인 손영역의 개수와의 비율을 백분율(%)로 표시한 식 (5)와 같은 평가 척도(measure)를 사용하였다.
[12]에서는 RGB 웹 카메라로 받아들인 영상의 색상 값을 분석하여 손 영역을 검출하고, 검출된 손 영역을 추적하였다. 이를 위해 먼저RGB 색상 공간을 HSV 색상 공간으로 변환하였다. 그리고 각 화소의 H와 S 채널의 값이 사전에 정의된 피부 색상 범위에 해당할 경우에는 손 영역이라고 지정된다.

대상 데이터

본 논문에서 실험을 위해서 사용한 개인용 컴퓨터는인텔사의 i7-2600의 CPU와 삼성사의 DDR3 8GB의 메모리로 구성되었으며, 운영체제로는 마이크로소프트사의윈도우 10을 사용하였다. 그리고 Nvidia Geforce 1070GPU을 사용하였다. 또한, 본 논문에서 제안된 손 영역검출 방법을 구현하기 위해 사용한 프로그래밍 도구로는마이크로소프트사의 비주얼 C++ 2013과 OpenCV 3.
그리고 Nvidia Geforce 1070GPU을 사용하였다. 또한, 본 논문에서 제안된 손 영역검출 방법을 구현하기 위해 사용한 프로그래밍 도구로는마이크로소프트사의 비주얼 C++ 2013과 OpenCV 3.1이다. 또한, Kinect v2 깊이 카메라를 사용하여 특정한 제약사항이 없는 다양한 실내외의 환경에서 3차원의 깊이 영상을 획득하여 처리하였다.
본 논문에서 손바닥 모델 P는 손목관절 P0와 다섯 개의 중수 지절 관절(MCP: metacarpophalangeal joint)로 구성된다. 즉, P는 Pm(m=0, 1, .
본 논문에서 실험을 위해서 사용한 개인용 컴퓨터는인텔사의 i7-2600의 CPU와 삼성사의 DDR3 8GB의 메모리로 구성되었으며, 운영체제로는 마이크로소프트사의윈도우 10을 사용하였다. 그리고 Nvidia Geforce 1070GPU을 사용하였다.
본 논문에서 제안된 방법에서는 먼저21개의 관절을 사용하여 손 모델을 정의하였다. 본 논문에서 정의한 손 모델은 6개의 손바닥 관절을 포함하는손바닥 모델과 15개의 손가락 관절을 포함하는 손가락모델로 구성된다. 그런 다음, 입력되는 포인트 클라우드 데이터를 적응적으로 이진화하여 배경과 같은 비관심 영역들은 효과적으로 제외하고, 관심 영역인 사람의 손 영역만을 정확하게 추출하였다.

이론/모형

본 논문에서는 정확도 관점에서 제안된 손 영역 추출알고리즘의 성능을 평가 및 비교하였다. 본 논문에서는받아들인 깊이 영상에서 올바르게 추출된 사람의 손 영역들의 개수와, 입력된 영상들에 존재하는 전체적인 손영역의 개수와의 비율을 백분율(%)로 표시한 식 (5)와 같은 평가 척도(measure)를 사용하였다. 식 (5)에서HAND_detected는 제시된 방법을 사용하여 정확하게 추출된 사람의 손 영역들의 개수를 표현한다.

성능/효과

본 논문에서는 색상 기반의 단순한 임계화(thresholding)를 사용하는 기존의 방법과 제안된 방법을 비교 평가하였다. Fig. 5에서 확인할 수 있듯이 본 논문에서 제안된 알고리즘이 기존의 방법에 비해서 보다 강인하게 손 영역을 검출한다는 것을 확인할 수 있다.
결과적으로, 본 논문에서는 이전 단계에서 검출한 손의 후보 영역 중에서 후보 영역의 크기가 일정 수치 이상이어야 하고, 후보 영역의 연장도가 일정 수치 이내이어야 하며, 후보 영역의 밀집도가 일정 수치 이상이어야 실제적인 손 영역으로 판단한다.
그리고 2차원의 컬러 특징만을 사용하여 사람의 손 영역을 검출하는 과정에서는 특징 값이 풍부하지 못하여 손영역이 아닌 부분들이 손 영역으로 검출되는 많은 오 검출이 발생하였다. 그러나 제안된 알고리즘은 관절 기반의손 모델을 활용하였고, R, G, B 컬러 특징뿐만 아니라 3차원의 깊이 특징을 동시에 고려하여 효과적으로 특징값들을 분할함으로써 입력되는 영상으로부터 손 영역만을 보다 강인하게 검출할 수 있었다.
그런 다음, 입력되는 포인트 클라우드 데이터를 적응적으로 이진화하여 배경과 같은 비관심 영역들은 효과적으로 제외하고, 관심 영역인 사람의 손 영역만을 정확하게 추출하였다. 본 논문의 실험 결과에서는 제안된 알고리즘이 입력되는 다양한 종류의 깊이 영상으로부터 사람의 손 영역만을 강인하게 검출한다는 것을 보여주었다.

후속연구

향후에는 본 논문에서 제시된 사람의 손 영역 검출 알고리즘을 보다 다양한 실내외 환경에서 촬영된 깊이 입력 영상들에 적용하여 제시된 방법의 강인성을 보다 체계적으로 검토할 계획이다. 그리고 본 논문에서 개발된손 영역 추출 알고리즘에서 사용한 여러 가지의 인자들을 반복적인 튜닝을 통해 안정화할 계획이며, 본 논문에서 추출된 사람의 손 영역을 확장하여 움직이는 손의 자세(pose)를 효율적으로 추정할 계획이다.
향후에는 본 논문에서 제시된 사람의 손 영역 검출 알고리즘을 보다 다양한 실내외 환경에서 촬영된 깊이 입력 영상들에 적용하여 제시된 방법의 강인성을 보다 체계적으로 검토할 계획이다. 그리고 본 논문에서 개발된손 영역 추출 알고리즘에서 사용한 여러 가지의 인자들을 반복적인 튜닝을 통해 안정화할 계획이며, 본 논문에서 추출된 사람의 손 영역을 확장하여 움직이는 손의 자세(pose)를 효율적으로 추정할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	휴먼 컴퓨터 인터랙션이란?	일반적으로, 휴먼 컴퓨터 인터랙션(HCI: HumanComputer Interface)은 인간과 컴퓨터가 쉽고 편안하게 상호작용할 수 있도록 작동 시스템을 설계하거나 평가하는 연구 분야이다[1]. 그동안 정보통신 및 컴퓨터 관련 분야에서는 인간과 컴퓨터의 상호작용을 위해서 마우스, 그리고 키보드와 같은 유·무선의 하드웨어 장비를 가장 많이 사용하여 왔다[2-5].
	HCI 인터페이스에 사람의 손을 이용하기 위해 개발해야 하는 연구는?	따라서 3차원의 깊이(depth) 카메라로부터 연속적으로 입력되는 컬러 영상을 자동으로 분석하여 배경(background) 영역과 같은 비 관심 영역들을 제외하고,컴퓨터와의 자연스러운 인터페이스를 위해서 주요한 관심 영역인 사람의 손 영역만을 강인하고 빠르게 검출하는 알고리즘에 대한 연구가 필요한 실정이다[9-11].
	그간 정보통신 분야에서 선호해 온 하드웨어 장비는?	일반적으로, 휴먼 컴퓨터 인터랙션(HCI: HumanComputer Interface)은 인간과 컴퓨터가 쉽고 편안하게 상호작용할 수 있도록 작동 시스템을 설계하거나 평가하는 연구 분야이다[1]. 그동안 정보통신 및 컴퓨터 관련 분야에서는 인간과 컴퓨터의 상호작용을 위해서 마우스, 그리고 키보드와 같은 유·무선의 하드웨어 장비를 가장 많이 사용하여 왔다[2-5].

참고문헌 (18)

T. G. Goncalves, K. M. Oliveira, and C. Kolski, "Identifying HCI approaches to support CMMI-DEV for interactive system development," Computer Standards and Interfaces, Vol.58, pp.53-86, May 2018. DOI: https://doi.org/10.1016/j.csi.2017.12.003

상세보기
J. S. Kim and H. K. Bahn, "Analysis of Users' Gestures by Application in Smartphone Touch Interfaces" Journal of The Institute of Internet, Broadcasting and Communication, Vol.15, No.2, pp.9-14, 2015. DOI : http://dx.doi.org/10.7236/JIIBC.2015.15.2.9

원문보기 상세보기
S. S. Kim, "Ranking Artificial Bee Colony for Design of Wireless Sensor Network", Journal of Society of Korea Industrial and Systems Engineering, Vol.42, No.1, pp.87-94, 2019. DOI : https://doi.org/10.11627/jkise.2019.42.1.087

원문보기 상세보기
J. Y. Chang, S. M. Hong. D. M. Son, H. J. Yoo, and H. W. Ahn, "Development of Real-time Video Surveillance System Using the Intelligent Behavior Recognition Technique", Journal of The Institute of Internet, Broadcasting and Communication, Vol.19, No.2, pp.161-168, 2019. DOI : https://doi.org/10.7236/JIIBC.2019.19.2.161

원문보기 상세보기
D. K. Shin, M. U. Ahmed, J. W. Kim, and P. K. Rhee, "Open set Object Detection combining Multi-branch Tree and ASSL", Journal of The Institute of Internet, Broadcasting and Communication, Vol.18, No.5, pp.171-177, 2018. DOI : https://doi.org/10.7236/JIIBC.2018.18.5.171

원문보기 상세보기
T. Vuletic, A. Duffy, L. Hay, C. McTeague, and M. Grealy, "Systematic literature review of hand gestures used in human computer interaction interfaces," International Journal of Human-Computer Studies, Vol.129, pp.74-94, Sep. 2019. DOI: https://doi.org/10.1016/j.ijhcs.2019.03.011

상세보기
M. S. Jang and W. B. Lee, "Implementation of Hand-Gesture Interface to manipulate a 3D Object of Augmented Reality", Journal of The Institute of Internet, Broadcasting and Communication, Vol.16, No.4, pp.117-123, 2016. DOI : http://dx.doi.org/10.7236/JIIBC.2016.16.4.117

원문보기 상세보기
J. S. Kim, J. Y. Jeong, and J. H. Lee, "Optimizing Work-In-Process Parameter using Genetic Algorithm", Journal of Society of Korea Industrial and Systems Engineering, Vol.40, No.1, pp.78-86, 2017. DOI : https://doi.org/10.11627/jkise.2017.40.1.079

원문보기 상세보기
Q. Fan, X. Shen, Y. Hu, and C. Yu, "Simple very deep convolutional network for robust hand pose regression from a single depth image," Pattern Recognition Letters, Vol.119, pp.205-213, Mar. 2019. DOI: https://doi.org/10.1016/j.patrec.2017.10.019

상세보기
M. Imran and C. W. Kang, "A Synchronized Job Assignment Model for Manual Assembly Lines Using Multi-Objective Simulation Integrated Hybrid Genetic Algorithm (MO-SHGA)", Journal of Society of Korea Industrial and Systems Engineering, Vol.40, No.4, pp.211-11, 2017. DOI : https://doi.org/10.11627/jkise.2017.40.4.211

원문보기 상세보기
D. J. Shin, J. H. Park, J. H. Kim, K. J. Kwak, J. M. Park, and J. J. Kim, "Big Data-based Sensor Data Processing and Analysis for IoT Environment", Journal of The Institute of Internet, Broadcasting and Communication, Vol.19, No.1, pp.117-126, 2019. DOI : https://doi.org/10.7236/JIIBC.2019.19.1.117

원문보기 상세보기
A. T. S. Chan, H. V. Leong, and S. H. Kong, "Real-time Tracking of Hand Gestures for Interactive Game Design," Proceedings of the IEEE International Symposium on Industrial Electronics, Seoul, Korea, pp.98-103, Jul. 2009. DOI: 10.1109/ISIE.2009.5219910
Q. D. Smedt, H. Wannous, and J.-P. Vandeborre, "Skeleton-based dynamic hand gesture recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops , Las Vegas, USA, Jun. 2016. DOI: 10.1109/CVPRW.2016.153
S. Sridhar, F. Mueller, A. Oulasvirta, and C. Theobalt, "Fast and robust hand tracking using detection-guided optimization," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, pp. 3213-3221, Jun. 2015. DOI: 10.1109/CVPR.2015.7298941
X. Suau, M. Alcoverro, A. L. Mendez, J. R. Hidalgo, and J. R. Casas, "Real-time fingertip localization conditioned on hand gesture classification," Image and Vision Computing, Vol.32, No.8, pp.522-532, Aug. 2014. DOI: https://doi.org/10.1016/j.imavis.2014.04.015

상세보기
H. Tang, H. Liu, W. Xiao, and N. Sebe, "Fast and robust dynamic hand gesture recognition via key frames extraction and feature fusion," Neurocomputing, Vol.331, pp.424-433, Feb. 2019. DOI: https://doi.org/10.1016/j.neucom.2018.11.038

상세보기
A. Pujol-Miro, J. R. Casas, and J. Ruiz-Hidalgo, "Correspondence matching in unorganized 3D point clouds using convolutional neural networks," Image and Vision Computing, Vol.83, pp.51-60, Mar. 2019. DOI: https://doi.org/10.1016/j.imavis.2019.02.013

상세보기
Y. Ben-Shabat, T. Avraham, M. Lindenbaum, and A. Fischer, "Graph based over-segmentation methods for 3D point clouds," Computer Vision and Image Understanding, Vol.174, pp.12-23, Sep. 2018. DOI: https://doi.org/10.1016/j.cviu.2018.06.004

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증