[논문]휴대폰 상에서의 손동작 기반 증강현실 인터페이스 구현

최준영; 박한훈; 박정식; 박종일

doi:10.5909/jeb.2011.16.6.941

휴대폰 상에서의 손동작 기반 증강현실 인터페이스 구현
Implementation of Hand-Gesture-Based Augmented Reality Interface on Mobile Phone 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.16 no.6, 2011년, pp.941 - 950

최준영 (한양대학교 전자컴퓨터통신공학과) , 박한훈 (NHK 방송기술연구소) , 박정식 (한양대학교 전자컴퓨터통신공학과) , 박종일 (한양대학교 컴퓨터공학부)

초록
AI-Helper

최근 휴대폰의 발전과 더불어 휴대폰 환경에 적합한 인터페이스에 대한 연구가 많이 이루어지고 있다. 본 논문에서는 특히 사람에게 친숙한 손동작을 이용한 상호작용에 주목하여, 휴대폰 상에서 손동작을 이용한 비전 기반 인터페이스를 구현하였다. 사용자가 한손에 휴대폰을 들고 휴대폰의 카메라를 통해서 다른 손의 손바닥을 바라보면, 사용자의 손바닥 위에 가상 객체가 증강되고 사용자는 자신의 손과 손가락의 움직임을 통해서 가상 객체와 상호작용 할 수 있다. 구현된 인터페이스는 사람에게 친숙한 손동작을 기반으로 동작하기 때문에, 사용자는 별도의 훈련 과정 없이 친숙하게 사용가능하다. 또한, 추가적인 센서나 마커를 요구하지 않기 때문에, 사용자가 원하는 시간과 장소에서 자유롭게 가상 객체와 상호작용 할 수 있다. 일부 시간이 많이 걸리는 처리 과정을 휴대폰 환경에 적합하도록 최적화, 고속화함으로써, 구현된 인터페이스는 상용화된 휴대폰(Galaxy S2)에서 5 fps로 동작한다.

Abstract ▼ AI-Helper

With the recent advance in the performance of mobile phones, many effective interfaces for them have been proposed. This paper implements a hand-gesture-and-vision-based interface on a mobile phone. This paper assumes natural interaction scenario when user holds a mobile phone in a hand and sees the other hand's palm through mobile phone's camera. Then, a virtual object is rendered on his/her palm and reacts to hand and finger movements. Since the implemented interface is based on hand familiar to humans and does not require any additional sensors or markers, user freely interacts with the virtual object anytime and anywhere without any training. The implemented interface worked at 5 fps on mobile phone (Galaxy S2 having a dual-core processor).

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

인터페이스를 실제로 사용하기 위해선 인터페이스의 안정성이 무엇보다 중요하며, 구현된 인터페이스와 같이 인식 기반 인터페이스의 경우 이는 인식률에 비례한다. 따라서 본 논문에서는 구현된 인터페이스의 인식률 실험을 수행하였다. 구현된 인터페이스에서는 그림 6-(b)와 같이 엄지손가락의 뿌리가 완전히 접히는 경우 손을 검출하지 못하는 경우가 있다.
그러나 이러한 현존하는 비전 기반 인터페이스는 단순하고 제한된 상호작용만을 제공한다. 따라서 휴대폰 환경에서 세련된 상호작용을 제공하는 방법에 대한 연구는 중요한 이슈중 하나이며, 본 논문에서는 휴대폰 환경에서 손과 손가락 움직임을 이용한 세련된 상호작용을 제공하는 효과적인 인터페이스를 구현하였다.
본 논문에서는 구현된 인터페이스의 효용성을 검증하기 위해서, 다음과 같은 다양한 손 기반 어플리케이션을 구현하였다.
본 논문에서는 모바일 폰 환경에서 더욱 세련된 상호작용을 제공하는 비전 기반 인터페이스를 구현하였다. 구현된 인터페이스는 가능한 모든 손바닥 포즈(피치 방향으로 –60˚~60˚, 요 방향으로 –45˚~60˚, 롤(roll) 방향으로 –180˚~180˚를 인식)를 더욱 정확히 인식할 수 있다.
본 논문에서는 휴대폰 환경에서 동작하는 손동작 기반 증강현실 인터페이스를 구현하였다. 구현된 인터페이스는 다양한 손바닥 포즈와 손가락 동작을 빠르고 정확하게 인식하며, 사용자의 손바닥 위에 증강된 가상 객체와의 다양하고 자연스러운 상호작용을 제공할 수 있다.

가설 설정

구현된 인터페이스는 자연스러운 상호작용 시나리오를 가정한다. 사용자는 한 손에 휴대폰을 들고, 휴대폰의 카메라를 통해서 다른 손의 손바닥을 바라보면, 손바닥 포즈 계산을 통해서 손바닥 위에 가상 객체가 증강된다.
구현된 인터페이스에서는 그림 6-(b)와 같이 엄지손가락의 뿌리가 완전히 접히는 경우 손을 검출하지 못하는 경우가 있다. 따라서 본 논문의 인식률 실험에서는 기본적으로 엄지손가락의 뿌리가 완전히 접히지 않으며, 또한 손가락이 서로 붙어 있지 않다고 가정한다. 인식률 실험은 다양한 입력 영상에서 손을 찾고, 손바닥 포즈를 구하고, 손 모양 인식까지를 뜻하며, 구현된 인터페이스는 그림 7과 같은 16 종류의 손바닥 포즈를 포함하는 800 개의 영상에 대한 인식률 실험에서 평균적으로 83%의 인식률을 보였다.
최근 울트라 모바일(ultra-mobile) PC 환경에서 더욱 발전된 비전 기반의 손을 이용한 인터페이스가 제안되었다. 이 인터페이스는 사용자가 한 손에 모바일 기기를 들고 있고, 모바일 기기의 카메라를 통해서 다른 손을 바라보는 자연스러운 상호작용을 가정한다. 사용자의 손바닥 포즈뿐만 아니라 손가락의 움직임까지 인식할 수 있기 때문에, 사용자의 손바닥 위에 있는 가상 객체와의 더욱 다양하고 세련된 상호작용을 제공할 수 있다^[9].
이와 유사한 인터페이스로 산타바바라 대학에서는 새로운 개념의 손 기반 인터페이스를 제안하였다^[8]. 이 인터페이스는 착용식 컴퓨팅(wearable computing) 환경에서 사용자의 몸에 장착된 카메라를 통해서 손을 바라보는 상황을 가정한다. 이 인터페이스는 손바닥 포즈를 계산함으로써 손바닥 위의 가상 객체와의 상호작용을 제공한다.

제안 방법

구현된 인터페이스의 전체적인 흐름은 그림 2와 같으며, 크게 세 단계(손 영상 검출, 손바닥 포즈 계산, 손가락 동작 인식)로 구성된다. 구현된 인터페이스는 YCrCb 좌표계 상의 문턱값 처리(thresholding)와 거리 변환을 이용해서 입력 영상으로부터 손을 검출한다. 그 뒤, 데이터베이스 안의 모든 손바닥 포즈에 대한 주성분 분석법(PCA)과 히스토그램 기반의 비교를 통해서 손바닥 포즈를 인식한다.
구현된 인터페이스는 YCrCb 좌표계 상의 문턱값 처리(thresholding)와 거리 변환을 이용해서 입력 영상으로부터 손을 검출한다. 그 뒤, 데이터베이스 안의 모든 손바닥 포즈에 대한 주성분 분석법(PCA)과 히스토그램 기반의 비교를 통해서 손바닥 포즈를 인식한다. 그리고 형상 분해 기반의 방법을 이용해서 손동작을 인식한다.
히스토그램의 x축은 각도를 나타내고, y축은 각 각도를 가지는 화소의 크기 합이다(그림 2-(k)). 그리고 데이터베이스의 모든 손 영상에도 같은 방법을 적용하고, 각 손바닥 포즈별 평균 히스토그램을 구한다. 입력 손 영상의 히스토그램과 각 손바닥 포즈(i)의 평균 히스토그램 간의 차이를 HistoDi라고 정의 한다.
이때, PCA 기반 손동작 인식 방법은 구현된 인터페이스와 동일한 데이터베이스를 이용해서 PCA 공간을 구축한다. 그리고 입력 영상으로부터 손 영상을 검출하는 것 까지는 구현된 인터페이스와 동일하고, 검출한 손 영상을 구축된 PCA 공간상에 투영 시켜서 좌표 값을 얻은 뒤, 데이터베이스안의 손 영상의 데이터와의 비교를 통해서 가장 가까운 좌표값을 가진 손 영상을 찾음으로써 인식한다. 모든 포즈에 대해서 구현된 인터페이스에 사용된 방법이 월등히 높은 인식률을 가졌다.
그 뒤, 데이터베이스 안의 모든 손바닥 포즈에 대한 주성분 분석법(PCA)과 히스토그램 기반의 비교를 통해서 손바닥 포즈를 인식한다. 그리고 형상 분해 기반의 방법을 이용해서 손동작을 인식한다. 이때, 더욱 정확한 인식을 하기 위해서, 손동작 인식 전에 손바닥 포즈 정보를 이용해서 손 영상을 손 정면 영상으로 변환한다.
그리고 데이터베이스의 모든 손 영상 중에서 가장 좌표 값이 가까운 손 영상 N개를 찾고(그림 2-(i)), N개 중에서 i번째 손바닥 포즈에 해당하는 손 영상이 포한된 수를 ki라고 정의한다. 두 번째 데이터인 그래디언트 히스토그램을 구하기 위해서, 우선 거리 변환된 손 영상 안에서 가장 큰 화소 값을 가지는 좌표를 구하고, 그 좌표를 중심으로 일정 크기의 영역을 분리 한 뒤, 정규화(normalization)한다(그림 2-(g)와 (h)). 그리고 분리한 영역의 각 화소의 각도(θ)와 크기(m)을 구한다(그림 2-(j)).
. 또한 손은 사람과 사람 사이의 상호작용에서 가장 중요한 상호작용 도구이기 때문에, 본 논문은 손과 동작, 두 가지 핵심어를 포함하는 손동작에 초점을 맞추고, 휴대폰 환경에 적합한 손동작 기반 인터페이스를 구현하였다.
또한, 착용식 컴퓨팅 환경에 구현된 인터페이스^[8]는 가상 객체와의 손가락 기반 상호작용을 제공하지 않으며, 울트라 모바일 PC 환경에 구현된 인터페이스^[9]는 손바닥을 펴거나 주먹을 쥐는 등 단순하고 제한된 상호작용만을 제공했지만, 본 논문에서 모바일 폰에 구현한 인터페이스는 형상 분해 기반의 손가락 검출 방법을 채택함으로써 손가락을 이용한 메뉴 선택과 같은 손가락 기반의 정교한 상호작용도 제공할 수 있다. 이 인터페이스를 모바일 환경에 구현하기 위하여, 기존에 제안된 손 형상 인식 방법^[10]을 모바일 환경에 적합하도록 변형하고, 휴대폰에 이식하였다. 최종 결과물로 구현된 인터페이스는 상용화중인 휴대폰에서 상호작용 가능한 속도로 동작하며, 그림 1은 구현된 인터페이스를 이용한 간단한 상호작용의 예를 보여준다.
첫 번째 데이터를 구하기 위해서, 다양한 손바닥 포즈를 가지고 있는 많은 수의 손 영상으로 데이터베이스를 구성하고, 이 데이터베이스의 모든 손 영상에 거리 변환을 적용한 뒤 주성분 분석법 공간을 만든다. 이렇게 만든 주성분 분석법 공간상에 입력 영상으로부터 얻은 거리 변환된 손 영상을 투영하고, 좌표 값을 구한다. 그리고 데이터베이스의 모든 손 영상 중에서 가장 좌표 값이 가까운 손 영상 N개를 찾고(그림 2-(i)), N개 중에서 i번째 손바닥 포즈에 해당하는 손 영상이 포한된 수를 ki라고 정의한다.
입력 영상으로부터 손 영상을 검출하기 위해서, 우선 입력 영상에 YCrCb 색상 좌표계 상에서의 문턱값 처리를 적용해서 살색 영역을 검출한다. 그러나 검출된 살색 영역은 손뿐만 아니라 살색을 가진 배경을 포함하고 있기 때문에, 거리 변환을 이용해서 살색 배경을 제거하고 그림 2-(b)와 같은 손-팔 영역을 찾는다.
하나는 주성분 분석법 공간상의 좌표 값이며, 다른 하나는 그래디언트 히스토그램(gradient histogram)^[11]이다. 첫 번째 데이터를 구하기 위해서, 다양한 손바닥 포즈를 가지고 있는 많은 수의 손 영상으로 데이터베이스를 구성하고, 이 데이터베이스의 모든 손 영상에 거리 변환을 적용한 뒤 주성분 분석법 공간을 만든다. 이렇게 만든 주성분 분석법 공간상에 입력 영상으로부터 얻은 거리 변환된 손 영상을 투영하고, 좌표 값을 구한다.
따라서 그림 5와 같이 손바닥 계산을 다른 단계들과 병렬적으로 연산되도록 하였다. 하나의 스레드(thread)가 입력 영상으로부터 손 영상을 검출하고, 다른 스레드에게 손 영상을 넘기면 다른 스레드는 손바닥 포즈를 계산한다. 그리고 이때 손 영상을 검출한 스레드는 손 정면 영상 획득 및 손동작을 인식한다.

대상 데이터

본 논문에서는 100×100 해상도의 손 영상에 대해서 폭이 15 화소 이상 차이 날 경우에 원래 상태로 되돌렸다.

성능/효과

다만, 요 방향으로 크게 회전하면 인식률이 급격히 저하되는 것을 확인할 수 있는데, 이는 손가락이 서로 겹쳐서 구분이 안 되기 때문이다. 구현된 인터페이스는 SAMSUNG Galaxy S2(1.2 GHz dual core processer, 1GB RAM, 그리고 Android 2.3 OS)상에서 최대 5.4fps에서 최소 4.4fps의 속도를 보였으며, 평균적으로 5fps의 속도로 동작했다.
그리고 입력 영상으로부터 손 영상을 검출하는 것 까지는 구현된 인터페이스와 동일하고, 검출한 손 영상을 구축된 PCA 공간상에 투영 시켜서 좌표 값을 얻은 뒤, 데이터베이스안의 손 영상의 데이터와의 비교를 통해서 가장 가까운 좌표값을 가진 손 영상을 찾음으로써 인식한다. 모든 포즈에 대해서 구현된 인터페이스에 사용된 방법이 월등히 높은 인식률을 가졌다. 다만, 요 방향으로 크게 회전하면 인식률이 급격히 저하되는 것을 확인할 수 있는데, 이는 손가락이 서로 겹쳐서 구분이 안 되기 때문이다.
따라서 본 논문의 인식률 실험에서는 기본적으로 엄지손가락의 뿌리가 완전히 접히지 않으며, 또한 손가락이 서로 붙어 있지 않다고 가정한다. 인식률 실험은 다양한 입력 영상에서 손을 찾고, 손바닥 포즈를 구하고, 손 모양 인식까지를 뜻하며, 구현된 인터페이스는 그림 7과 같은 16 종류의 손바닥 포즈를 포함하는 800 개의 영상에 대한 인식률 실험에서 평균적으로 83%의 인식률을 보였다. 이 실험에서 손바닥 포즈는 피치 방향으로 –60˚~60˚, 요 방향으로 –45˚~60˚, roll 방향으로 –180˚~180˚의 범위를 가지며, 그림 8은 구현된 인터페이스에서 사용된 방법과 일반적인 PCA 기반 손동작 인식 방법의 인식률을 손바닥 포즈 별로 비교한 것이다.

후속연구

현재 실행 속도 면에서의 개선을 위해서, 손바닥 포즈 계산 단계에서 유사도 공식을 간략화 하는 등 여러 가지 방안을 모색하고 있다. 또한, 촉감을 제공하기 위한 진동 센서와의 결합을 통해 보다 실감나는 상호작용이 가능하도록 발전시킬 계획이다.
또한, 손가락끼리의 상대적 위치를 이용하면 사용자가 어떤 손가락을 구부렸는지까지 인식할 수 있다. 이를 이용하면 보다 다양하고 세밀한 상호작용을 제공할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	산타바바라 대학에서는 새로운 개념의 손 기반 인터페이스의 특징은 무엇인가?	이와 유사한 인터페이스로 산타바바라 대학에서는 새로운 개념의 손 기반 인터페이스를 제안하였다[8]. 이 인터페이스는 착용식 컴퓨팅(wearable computing) 환경에서 사용자의 몸에 장착된 카메라를 통해서 손을 바라보는 상황을 가정한다. 이 인터페이스는 손바닥 포즈를 계산함으로써 손바닥 위의 가상 객체와의 상호작용을 제공한다. 그러나 이 인터페이스는 손바닥 포즈를 계산하기 위해서 손가락 끝 점의 좌표를 필요로 하기 때문에, 사용자는 상호작용을 하는 동안 자신의 손가락을 움직일 수 없다. 결국, 상호작용의 범위나 종류가 극히 제한된다.
	Myron Krueger는 Artificial Reality란 책에서 자연스러운 상호작용을 무엇으로 서술하였나?	Myron Krueger는 Artificial Reality란 책에서 자연스러운 상호작용이란 음성과 동작을 뜻한다고 서술하였다[1]. 또한 손은 사람과 사람 사이의 상호작용에서 가장 중요한 상호작용 도구이기 때문에, 본 논문은 손과 동작, 두 가지 핵심어를 포함하는 손동작에 초점을 맞추고, 휴대폰 환경에 적합한 손동작 기반 인터페이스를 구현하였다.
	휴대폰 환경에서의 비전 기반 인터페이스의 예 중 카메라 영상을 활용한 방법에는 어떤것이 있는가?	휴대폰 환경에서의 비전 기반 인터페이스의 예로, 카메라 영상에서의 광류(optical flow)로부터 휴대폰의 움직임을 간접적으로 측정하여 이를 상호작용 입력으로 사용하는 방법이 있다[4]. 그리고 화면 위쪽에 스테레오 카메라를 장착하고 사용자가 바라보는 곳을 추적함으로써 사용자의 시점을 인터페이스 입력으로 사용한 인터페이스도 있다[5].

참고문헌 (11)

M. W. Krueger, Artificial Reality, 2nd ed., Addison-Wesley: Redwood City, CA, 1991.
T. Miyaki and J. Rekimoto, "GraspZoom: zomming and scrolling control model for single-handed mobile interaction," In proceedings of MobileHCI'09, 2009.
A. T. Campbell, T. Choudhury, S. Hu, H. Lu, M. K. Mukerjee, M. Rabbi, and R. D. S. Raizada, "NeuroPhone: Brain-mobile phone interface using a wireless EEG headset," In proceedings of MobiHeld'10 2010.
A. Haro, K. Mori, T. Capin, and S. Wilkinson, "Mobile camera-based user interaction," In proceedings of ICCV, Workshop on HCI'05, pages 79-89, 2005.
T. Nagamatsu, Michiya Yamamoto, and Hiroshi Sato, "MobiGaze: Development of a Gaze Interface for Handheld Mobile Devices," In proceedings of CHI'11, 2011.
J. An and K. Hong, "Finger gesture-based mobile user interface using a rear-facing camera," In proceedings of ICCE'11, pages 303-304, 2011.
O. Gallo, S. M. Arteaga, and J. E. Davis, "A camera-based pointing interface for mobile devices," In proceedings of ICIP'08, 2008.
T. Lee and T. Hollerer, "Handy AR: Markerless Inspection of Augmented Reality Objects Using Fingertip Tracking," In Proceedings of ISWC'07, 2007
B.-K. Seo, J. Choi, J. Han, H. Park, and J.-I. Park, "One-handed interaction with augmented virtual objects on mobile devices," In proceedings of VRCAI'08, 2008.
J. Choi, H. Park, and J.-I. Park, "Hand shape recognition using distance transform and shape decomposition," In proceedings of ICIP'11, 2011.
D. G. Lowe, "Object recognition from local scale-invariant features," IJCV, volume 60, number 2, pages 91-110, 2004.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증