[논문]모바일 카메라 기기를 이용한 손 제스처 인터페이스

이찬수; 천성용; 손명규; 이상헌

[국내논문] 모바일 카메라 기기를 이용한 손 제스처 인터페이스
Hand Gesture Interface Using Mobile Camera Devices 원문보기

정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, v.16 no.5, 2010년, pp.621 - 625

이찬수 (영남대학교 전자공학과) , 천성용 (영남대학교 전자공학과) , 손명규 (대구경북과학기술원 미래산업융합기술연구부) , 이상헌 (대구경북과학기술원 미래산업융합기술연구부)

초록
AI-Helper

본 논문에서는 스마트 폰, PDA와 같은 모바일 장치에 있는 카메라 기기를 이용한 손동작 제스처 인터페이스를 위한 손 움직임 추적 방법을 제안하고 이를 바탕으로 한 손 제스처 인식 시스템을 개발한다. 사용자의 손동작에 따라 카메라가 움직임으로써, 전역 optical flow가 발생하며, 이에 대한 우세한 방향 성분에 대한 움직임만 고려함으로써, 노이즈에 강인한 손움직임 추정이 가능하다. 또한 추정된 손 움직임을 바탕으로 속도 및 가속도 성분을 계산하여 동작위상을 구분하고, 동작상태를 인식하여 연속적인 제스처를 개별제스처로 구분한다. 제스처 인식을 위하여, 움직임 상태에서의 특징들을 추출하여, 동작이 끝나는 시점에서 특징들에 대한 분석을 통하여 동작을 인식한다. 추출된 특징점을 바탕으로 제스처를 인식하기 위하여 SVM(Support vector machine), k-NN(k-nearest neighborhood classifier), 베이시안 인식기를 사용했으며, 14개 제스처에 대한 인식률은 82%에 이른다.

Abstract ▼ AI-Helper

This paper presents a hand motion tracking method for hand gesture interface using a camera in mobile devices such as a smart phone and PDA. When a camera moves according to the hand gesture of the user, global optical flows are generated. Therefore, robust hand movement estimation is possible by considering dominant optical flow based on histogram analysis of the motion direction. A continuous hand gesture is segmented into unit gestures by motion state estimation using motion phase, which is determined by velocity and acceleration of the estimated hand motion. Feature vectors are extracted during movement states and hand gestures are recognized at the end state of each gesture. Support vector machine (SVM), k-nearest neighborhood classifier, and normal Bayes classifier are used for classification. SVM shows 82% recognition rate for 14 hand gestures.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구를 통하여 휴대 가능한 카메라 기기를 이용한 손 제스처 인터페이스를 개발하였다. 카메라를 움직임으로 발생하는 optical flow로부터 히스토그램 분석을 통하여 주방향 움직임을 찾고, 손의 움직임을 추정하여 제스처를 인식하도록 하였다.
따라서, 모바일 장치에 부착된 카메라를 이용한 다양한 연구들이 진행되고 있다[1, 2]. 본 연구에서는 손 제스처를 이용한 모바일 장치의 사용자 인터페이스를 개발하기 위하여, 모바일 기기에 부착된 카메라 움직임을 통하여 손 움직임을 추정하고 이를 바탕으로 손 제스처를 인식하는 인터페이스 시스템을 개발한다.
더불어 연속된 제스처를 개별 제스처로 분할하며, 의도적인 제스처인지 아닌지를 판단하는 것이 필요하여 의도적이지 않은 움직임에 의한 오동작을 줄이는 것이 필요하다. 본 연구에서는 실시간으로 카메라의 움직임으로부터 손의 움직임을 추정할 수 있어 연속된 손동작으로부터 개별적인 동작으로 분할하고 인식하는 제스처 인터페이스를 개* 발하였다 카메라의 움직임으로부터 손의 동작을 추정하기 위하여 전역 optical flow로부터 방향 성분에 대한 히스토그램 분석을 통하여 우세한 방향성분을 판단* 한다. 우세한 방향 성분에 대한 평균 optical flow를 이용함으로, 노이즈에 보다 강한 동작 추정이 가능하다.
인하여 여러가지 오류가 발생한다. 특히 잘못된 방향으로의 매칭값은 전체 움직임을 계산하는데 있어서 실제 움직임을 상쇄시켜서 문제의 심각성이 크다, 따라서 본 연구에서는 이러한 문제점들을 해결하기 위하여 카메라 운동의 주방향 성분을 찾아내고, 이를 바탕으로 잡음이나 outher를 제거하고자 한다.

제안 방법

하지만 실제 응용에서 카메라로부터 물체까지의 거리가 다르고, 따라서 각 점에서 측정되는 이동 거리가 다르며, 방향도 균일하지 않게 된다. 그러므로 쟝!)&疽 flow의 우세한 방향을 검출하는 것이 단순하지 않으며, 본 연구에서는 히스토그램 분석을 통하여 주 방향 성분을 찾도록 한다. 사용되는 제스처의 방향 성분 구분을 바탕으로 제스처의 주 방향 성분을 찾기 위한 경계를 정하여, 이를 바탕으로 히스토그램 분석을 위한 영역을 구분하였다.
classifier를 사용하였다. 각각의 분류기를 학습시키기 위해 우리는 기본 8개의 방향 운동과 시계 방향 또는 반시간 방향의 원운동, 반원 운동을 포함한 14개의 정해진 제스처에 대하여, 각 데이터에 대하여 20개의 학습 데이터를 획득하여 인식기를 학습시켰다.
특징점 추출을 기반으로 한방 법의 경우에 outher?} 실제 제스처 움직임을 추정하는데 많은 오차를 일으키며, 이를 제거하는 방법으로 보팅(voting)을 기반으로 한 밯법⑹이나 RANSACK 기반으로 한 outher 분석이 사용되었다[7]. 또한 논문[기에서는 Hidden Markov Mod쇦s(HMMs) 에 기반으로 단순한 방향 이상의 지정된 제스처 인식을 이용한 인터페이스 시스템을 구현하였다. 분할된 블록들은 차의 제곱 합(SSD: Sum of Squared Diffe珪也8)을 바탕으로 최적의 블록 매칭을 구하여 판단하였다, 본 연구에서는 특징점에 대한 전체 영역에 대한 optical flow를 이용하여 outher 제거를 위한 새로운 방법을 제시하며, 이를 이용한 연속된 제스처예 대한 인식 시스템을 제안한다.
결과 SVMe 82%, kNNe 78% 그리고 normal Bayes 이assifei■는 76%의 인식률을 보였다. 또한 손 제스처 인식 루틴을 기반으로 한 그림을 그릴 수 있는 응용프로그램을 만들어서 제스처를 기반으로 한 인터페이스로 이용하였다.
동작 위상은 속도와 가속도에 기반으로 구분할 수 있다. 본 연구에서는 스트로크 위상과 함께, 정지(stop) 위상, 준비 (preparation) 위상, 동작(movement) 위상, 그리고 낙하 (drop) 위상의 5가지 위상으로 분할하였다. 그림 5(a)는 식 (6)에 의해 구한 속도와 가속도 좌표공간에서 동작 위상을 분할한 예를 보여준다.
또한 논문[기에서는 Hidden Markov Mod쇦s(HMMs) 에 기반으로 단순한 방향 이상의 지정된 제스처 인식을 이용한 인터페이스 시스템을 구현하였다. 분할된 블록들은 차의 제곱 합(SSD: Sum of Squared Diffe珪也8)을 바탕으로 최적의 블록 매칭을 구하여 판단하였다, 본 연구에서는 특징점에 대한 전체 영역에 대한 optical flow를 이용하여 outher 제거를 위한 새로운 방법을 제시하며, 이를 이용한 연속된 제스처예 대한 인식 시스템을 제안한다.
그러므로 쟝!)&疽 flow의 우세한 방향을 검출하는 것이 단순하지 않으며, 본 연구에서는 히스토그램 분석을 통하여 주 방향 성분을 찾도록 한다. 사용되는 제스처의 방향 성분 구분을 바탕으로 제스처의 주 방향 성분을 찾기 위한 경계를 정하여, 이를 바탕으로 히스토그램 분석을 위한 영역을 구분하였다. 그림 1(b)는 optical fig의 각도 但를 바탕으로, 제스처들의 기본 방향 성분(暨간색 실선 화살표) 및 이를 바탕으로 한 경계 성분(점선 화살표) 설정을 나타내고 있다.
구현하였다. 시스템은 Windows XP 환경에서 개발되었으며, 웹 카메라를 손에 들고 움직임으로 모바일 카메라에서와 동일한 형태의 영상을 획득하도록 하였다. 영상 캡처와 패턴 인식, 학습할 데이터는 OpenCV 라이브러리를 이용하여 만들었다.
연속적인 제스처로부터 단위 제스처로 구분하기 위하여, 동작 위상을 구분하고 동작 위상의 상태 변화를 바탕으로 의도적인 단위 제스처인지를 구분한다. 동작 위상은 속도와 가속도에 기반으로 구분할 수 있다.
우리는 C++를 사용하여 실시간 제스처 인터페이스시스템을 구현하였다. 시스템은 Windows XP 환경에서 개발되었으며, 웹 카메라를 손에 들고 움직임으로 모바일 카메라에서와 동일한 형태의 영상을 획득하도록 하였다.
손 제스처의 움직임 상태에서 제스처 인식을 위한 특징들을 추출하여, 동작 끝 상태에 도달하면, 추출된 특징값을 바탕으로 제스처를 인식한다. 제스처 연식을 위하여 Support Vector Machine(SVM), k-Nearest Neighborhood classifier(kNN) 그리고 normal Bayes 엔assifiei■를 사용하였으며, 최고 성능은 14 개의 손제스처에 대하여 SVM을 이용했을 때, 82%의 인식률을 얻었다.
카메라를 움직임으로 발생하는 optical flow로부터 히스토그램 분석을 통하여 주방향 움직임을 찾고, 손의 움직임을 추정하여 제스처를 인식하도록 하였다. 제스처 인식을 위하여 동작 위상과 동작 상태를 구분하여 연속된 제스처로부터 개발 제스처를 분리하여, 동작 끝 상태에서 제스처의 특징값으로부터 제스처를 인식한다.
제안한 제스처 인터페이스 시스템은 그림 1(a)와 같이 카메라 움직임 추적, 제스처 상태 구분, 그리고 제스처 인식의 세 부분으로 나누어져 있다. 카메라 움직임 기반 손동작 추정 단계에서는 모바일 카메라로부터 시간 t에 캡처된 이미지 /*) (와 이전 이미지인 — 올 사용하여 손 움직임 △匕(*(££) ), △ 를 계산하고, 이를 이용하여 손 위치의 변화예 의한 누적 값에 의하여 현재 손 위치 此(£), 《(£)를 계산하게 된다.
우세한 방향 성분에 대한 평균 optical flow를 이용함으로, 노이즈에 보다 강한 동작 추정이 가능하다. 추정된 손 제스처의 움직임으로부터 동작위상(motion phase)을 속도 및 가속도 성분을 이용하여 구분한다. 주어진 동작 위상으로부터 동작상태(motion state)를 상태 오토마타를 이용하여 인식함으로, 의도적인 제스처, 의미 없는 제스처, 모바일 장치를 떨어뜨리는 것과 같은 비 제스처를 구분한다.
제스처 인터페이스를 개발하였다. 카메라를 움직임으로 발생하는 optical flow로부터 히스토그램 분석을 통하여 주방향 움직임을 찾고, 손의 움직임을 추정하여 제스처를 인식하도록 하였다. 제스처 인식을 위하여 동작 위상과 동작 상태를 구분하여 연속된 제스처로부터 개발 제스처를 분리하여, 동작 끝 상태에서 제스처의 특징값으로부터 제스처를 인식한다.
특징 기반의 손 제스처 인식을 위하여 움직임이 있는 상태(동작상태, 스트로크 상태' 스트로크 후 상태) 동안에 손동작 움직임으로부터 수화 인식 시스템[13]과 유사하게 아래와 같은 6가지 특징들을 추출하였다.

대상 데이터

본 논문은 총 5장으로 구성되어 있다. 2장에서는 모바일 장치를 이용한 인터페이스에 대한 관련 연구를 살펴보고 3장에서는 카메라 움직임을 바탕으로 한 손 제스처 추정 방법을 제시한다.
시스템은 Windows XP 환경에서 개발되었으며, 웹 카메라를 손에 들고 움직임으로 모바일 카메라에서와 동일한 형태의 영상을 획득하도록 하였다. 영상 캡처와 패턴 인식, 학습할 데이터는 OpenCV 라이브러리를 이용하여 만들었다. 수집된 학습 데이터를 가지고 인식기를 학습시킨 후에, 제스처 인식은 실시간으로 동작 끝 상태가 될 때 마다 호출되어 실행되었다.
인식기의 성능을 평가하기 위해 우리는 14개의 제스처에 대하여 평균 10개의 새로운 데이터에 대하여 성능을 평가하였으며, 그. 결과 SVMe 82%, kNNe 78% 그리고 normal Bayes 이assifei■는 76%의 인식률을 보였다.
수집된 학습 데이터를 가지고 인식기를 학습시킨 후에, 제스처 인식은 실시간으로 동작 끝 상태가 될 때 마다 호출되어 실행되었다. 휴대용 카메라를 대체하기 위하여 실제 실험에서는 삼성 SPC-A30M 웹 카메라를 사용하였다.

이론/모형

우리는 손 제스처 인식을 위해 RBF 커널의 SVM, k=5인 k-nearest neighborhood(kNN) 그리고 normal Bayes classifier를 사용하였다. 각각의 분류기를 학습시키기 위해 우리는 기본 8개의 방향 운동과 시계 방향 또는 반시간 방향의 원운동, 반원 운동을 포함한 14개의 정해진 제스처에 대하여, 각 데이터에 대하여 20개의 학습 데이터를 획득하여 인식기를 학습시켰다.

성능/효과

평가하였으며, 그. 결과 SVMe 82%, kNNe 78% 그리고 normal Bayes 이assifei■는 76%의 인식률을 보였다. 또한 손 제스처 인식 루틴을 기반으로 한 그림을 그릴 수 있는 응용프로그램을 만들어서 제스처를 기반으로 한 인터페이스로 이용하였다.

참고문헌 (13)

H. Sung, H. Byun, "3D face tracking using MLESAC motion estimation based particle filter," Proc. of the KIISE Fall Congress 2009, vol.36, no.2(A), pp.214- 215, 2009. (in Korean)
J. Lim, S. Kim, C. Lee, G. S. Lee, H. J. Yang, E. M. Lee, "Cursive Script Recognition in Wine Label Images Using Over-Segmentation and Character Combination Filtering," Proc. of the KIISE Fall Congress 2009, vol.36, no.2(A), pp.222-223, 2009. (in Korean)
S. Mitra, T. Acharya, "Gesture Recognition: A survey," IEEE Trans. Systems, Man and Cybernetics-Part C, vol.37, no.3, pp.311-324, May 2007.
M. Rohs, "Real-World Interaction with Camera- Phones," Ubiquitous Computing Systems, LNCS, vol.3598, pp.74-89, 2005.
S. Winkler, K. Rangaswamy, Z.Y. Zhou, "Intuitive user interface for mobile devices based on visual motion detection," Proc. SPIE, Multimedia on Mobile Device, vol.6507, pp.65070V, 2007.
J. Hwang, G. J. Kim, N. Kim, "Camera based relative motion tracking for hand-held virtual reality," In Proc. NICOGRAPH International, 2006.
M Barnard, J. Hannuksela, P. Sangi, J. Heikkila, "A vision based motion interface for mobile phones," In Proc. of International Conference on Computer Vision Systems, 2007.
A. Haro, K. Mori, T. Capin, S. Wilkinson, "Mobile camera-based user interaction," LNCS 3766, Computer Vision in Human-Computer Interaction, pp.79-89, 2005.
M. S. Ko, K. H. Lee, C. W. Kim, J. H. Ahn, I. J. Kim, "An Implementation of User Interface Using Vision-based Gesture Recognition," Proc. of the KIISE Korea Computer Congress, vol.35, no.1(C), pp.507-511, 2008.
J. Shi and C. Tomasi, "Good feature to track," In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp.594-600, June 1994.
B. D. Lucas and T. Kanade, "An iterative image registration technique with an application to stereo vision," In Proc. Image Understanding Workshop, pp.121-130, 1981.
A. Kendon, "Gesticulation and speech: two aspects of the process of utterance," The relationship between verbal and nonverbal communication, pp.207-227, 1980.
Chan-Su Lee, Gyu-tae Park, Jong-Sung Kim, Zeungnam Bien, Won Jang, Sung-Kwon Kim, "Real-time Recognition System of Korean Sign Language based on Elementary Components," IEEE FUZZ'97, pp.1463- 1468, 1997.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증