몰입형 가상현실의 착용식 사용자 인터페이스를 위한 Mixture-of-Experts 기반 제스처 인식 Gesture Recognition based on Mixture-of-Experts for Wearable User Interface of Immersive Virtual Reality원문보기
최근 가상현실에 대한 관심이 높아짐에 따라 다양한 서비스와 어플리케이션이 개발되고 있으며, 이와 더불어 몰입형 상호작용을 위한 제스처 기반 사용자 인터페이스가 활발히 연구되고 있다. 본 논문에서는 가상현실 환경 내 사용자 움직임을 효과적으로 반영하고 몰입감을 높이기 위해 제스처 인식 기반 착용식 사용자 인터페이스를 제안한다. 제안하는 인터페이스는 적외선 LED가 부착되어 있는 헬멧과 적외선 수신기를 이용하여 사용자의 머리 움직임을 인식하며, 양 손에 착용한 데이터 글로브로부터 사용자의 손 제스처를 인식한다. 또한, 헤드 마운트디스플레이 장치(HMD)를 이용하여 직접 사용자의 시점 변화와 가상환경의 시점 변화를 일치시킨다. 손 제스처의 경우 다수의 관절로 이루어져 있는 손의 특성상 다양한 동작이 가능하며 손 크기나 손동작이 사람마다 모두 다르기 때문에 다양한 사용자들을 대상으로 할 때, 일반적인 모델로는 정확한 인식이 어렵다. 본 논문에서는 다양한 사용자를 대상으로 정확히 손 제스처를 인식하기 위해 Mixture-of-Experts 기반 인식 방법을 적용하였다. 제안하는 인터페이스의 유용성을 평가하기 위해 가상 오케스트라 지휘 환경을 구현하여 인터페이스의 동작 성능을 분석하고 사용성 평가를 수행하였다. 그 결과, 사용자들이 쉽고 직관적으로 사용할 수 있으며 흥미를 유발함을 확인하였다.
최근 가상현실에 대한 관심이 높아짐에 따라 다양한 서비스와 어플리케이션이 개발되고 있으며, 이와 더불어 몰입형 상호작용을 위한 제스처 기반 사용자 인터페이스가 활발히 연구되고 있다. 본 논문에서는 가상현실 환경 내 사용자 움직임을 효과적으로 반영하고 몰입감을 높이기 위해 제스처 인식 기반 착용식 사용자 인터페이스를 제안한다. 제안하는 인터페이스는 적외선 LED가 부착되어 있는 헬멧과 적외선 수신기를 이용하여 사용자의 머리 움직임을 인식하며, 양 손에 착용한 데이터 글로브로부터 사용자의 손 제스처를 인식한다. 또한, 헤드 마운트 디스플레이 장치(HMD)를 이용하여 직접 사용자의 시점 변화와 가상환경의 시점 변화를 일치시킨다. 손 제스처의 경우 다수의 관절로 이루어져 있는 손의 특성상 다양한 동작이 가능하며 손 크기나 손동작이 사람마다 모두 다르기 때문에 다양한 사용자들을 대상으로 할 때, 일반적인 모델로는 정확한 인식이 어렵다. 본 논문에서는 다양한 사용자를 대상으로 정확히 손 제스처를 인식하기 위해 Mixture-of-Experts 기반 인식 방법을 적용하였다. 제안하는 인터페이스의 유용성을 평가하기 위해 가상 오케스트라 지휘 환경을 구현하여 인터페이스의 동작 성능을 분석하고 사용성 평가를 수행하였다. 그 결과, 사용자들이 쉽고 직관적으로 사용할 수 있으며 흥미를 유발함을 확인하였다.
As virtual realty has become an issue of providing immersive services, in the area of virtual realty, it has been actively investigated to develop user interfaces for immersive interaction. In this paper, we propose a gesture recognition based immersive user interface by using an IR LED embedded hel...
As virtual realty has become an issue of providing immersive services, in the area of virtual realty, it has been actively investigated to develop user interfaces for immersive interaction. In this paper, we propose a gesture recognition based immersive user interface by using an IR LED embedded helmet and data gloves in order to reflect the user's movements to the virtual reality environments effectively. The system recognizes the user's head movements by using the IR LED embedded helmet and IR signal transmitter, and the hand gestures with the data gathered from data gloves. In case of hand gestures recognition, it is difficult to recognize accurately with the general recognition model because there are various hand gestures since human hands consist of many articulations and users have different hand sizes and hand movements. In this paper, we applied the Mixture-of-Experts based gesture recognition for various hand gestures of multiple users accurately. The movement of the user's head is used to change the perspection in the virtual environment matching to the movement in the real world, and the gesture of the user's hand can be used as inputs in the virtual environment. A head mounted display (HMD) can be used with the proposed system to make the user absorbed in the virtual environment. In order to evaluate the usefulness of the proposed interface, we developed an interface for the virtual orchestra environment. The experiment verified that the user can use the system easily and intuituvely with being entertained.
As virtual realty has become an issue of providing immersive services, in the area of virtual realty, it has been actively investigated to develop user interfaces for immersive interaction. In this paper, we propose a gesture recognition based immersive user interface by using an IR LED embedded helmet and data gloves in order to reflect the user's movements to the virtual reality environments effectively. The system recognizes the user's head movements by using the IR LED embedded helmet and IR signal transmitter, and the hand gestures with the data gathered from data gloves. In case of hand gestures recognition, it is difficult to recognize accurately with the general recognition model because there are various hand gestures since human hands consist of many articulations and users have different hand sizes and hand movements. In this paper, we applied the Mixture-of-Experts based gesture recognition for various hand gestures of multiple users accurately. The movement of the user's head is used to change the perspection in the virtual environment matching to the movement in the real world, and the gesture of the user's hand can be used as inputs in the virtual environment. A head mounted display (HMD) can be used with the proposed system to make the user absorbed in the virtual environment. In order to evaluate the usefulness of the proposed interface, we developed an interface for the virtual orchestra environment. The experiment verified that the user can use the system easily and intuituvely with being entertained.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 가상현실 기반 시스템 사용자를 위한 착용식 멀티모달 인터페이스 시스템을 제안하였다. 시스템은 적외선 LED와 Wii 제어기 기반의 머리추적기, 데이터 글로브, 그리고 HMD로 구성되며, 사용자의 다양한 움직임을 인식하여 가상환경에 반영함으로써 향상된 몰입도를 제공해 줄 수 있다.
본 논문에서는 사용자와 시스템 간의 자연스러운 상호작용을 제공함과 동시에 사용자에게 향상된 감각정보를 제공하여 사용자로 하여금 몰입감을 느끼게 하는 착용식 멀티모달 인터페이스를 제안한다.
사람의 손은 많은 관절로 이루어져 다양한 형태의 제스처를 취할 수 있으며, 인식 모듈은 복잡하고 다양한 손 제스처를 최대한 정확하게 인식해야한다. 본 논문에서는 이를 위해 다수의 전문가를 활용하는 Mixture-of-Experts[16] 구조기반 제스처 인식기법을 제안한다.
센서 기반 인식은 시각 기반 인식에 비해 데이터의 노이즈가 적어 비교적 정확하며 빠른 측정이 가능하다는 장점이 있다. 본 논문에서는 이에 착안하여 데이터 글로브를 이용하여 손 제스처의 데이터를 수집, 인식하는 모델을 설계하였다.
사용자가 가상현실 시스템을 사용함에 있어서 보다 향상된 몰입감을 제공하기 위해 본 논문에서는 데이터 글로브와 머리 추적기, HMD로 구성된 착용식 멀티모달 인터페이스를 제안한다. 그림 2는 인터페이스의 구조를 보여준다.
가상환경에서 사용자에게 몰입감을 제공하기 위해서는 가상환경에서의 사용자 시점이 실제 세계에서의 시점과 일치되어야 한다[14]. 이를 위해 본 논문에서는 적외선 신호 기반 사용자 머리추적 방법을 제안한다.
제안 방법
사용자의 움직임은 직접 시스템으로 반영되기 때문에 사용자와 시스템 간의 부자연스러움을 감소시킬 수 있다. 또한 사용자에게 향상된 감각 정보를 제공하기 위해 HMD기반 영상출력 방법을 사용한다. 기존의 모니터를 통한 영상 출력은 개방된 공간에서 사용자에게 감각정보를 제공하기 때문에 사용자로 하여금 감각정보의 습득에 대한 의식적인 능동성을 요구하며, 외부의 정보와 섞여 감각정보의 질이 하락할 우려가 있다.
본 논문에서는 헬멧의 앞뒤에 부착된 두 개의 적외선 LED의 절대위치좌표를 바탕으로 사용자 머리의 상하 회전각도(θv)와 좌우 회전각도(θh)를 계산하는 움직임 모형을 설계하였다.
이를 위해 적외선 LED를 사용한 머리 추적기와 데이터 글로브가 사용되었다. 사용자는 머리 추적기를 이용하여 머리를 움직임으로써 가상환경 내에서 직접 움직이며 시점을 이동할 수 있으며, 데이터 글로브를 통해 손 제스처를 가상환경의 입력으로 활용한다. 사용자의 움직임은 직접 시스템으로 반영되기 때문에 사용자와 시스템 간의 부자연스러움을 감소시킬 수 있다.
성능 평가와 더불어 제안하는 시스템이 실제로 사용자를 대상으로 유용하게 사용될 수 있음을 확인하기 위해 사용성 평가를 수행하였다. 사용자는 제안하는 인터페이스를 직접 착용하고 구현된 가상 오케스트라 지휘 시스템을 사용해 본 뒤 시스템의 사용성을 평가한다.
성능 평가와 더불어 제안하는 시스템이 실제로 사용자를 대상으로 유용하게 사용될 수 있음을 확인하기 위해 사용성 평가를 수행하였다. 사용자는 제안하는 인터페이스를 직접 착용하고 구현된 가상 오케스트라 지휘 시스템을 사용해 본 뒤 시스템의 사용성을 평가한다.
우선 머리 움직임 인식 모듈의 인식 성능을 분석하기 위해 사용자 머리의 좌우 회전각도와 상하 회전각도를 서서히 증가시키면서 실제 사용자 머리의 각도와 인식 모듈을 통해 측정된 각도를 비교하였다.
(x)와 y의 t번째 값을 의미한다. 이후 다음과 같이 모든 전문가들의 최대 오차량과 최소 오차량을 이용하여 오차량을 정규화한 뒤 전문가의 정확도를 계산한다.
이후 손 제스처 인식 모듈의 인식 성능 분석을 위해, 5명의 사용자로 하여금 25개의 정의된 동작들을 수행하도록 한 뒤에 인식 성능을 분석하였다. 분석을 위해 각 동작 당 1000개의 데이터를 획득하였으며, 기존에 널리 사용되는 인식방법인 Support Vector Machine(SVM), Naive Bayes(NB), 인공신경망(Artificial Neural Network, ANN)과 제안하는 방법(ME)의 성능을 비교하였다.
제시된 사항을 고려하여 본 논문에서는 적외선 헬멧, 데이터 글로브, 헤드 마운트 디스플레이 장치(HMD)를 이용한 착용식 멀티모달 인터페이스 기반 가상현실 시스템을 개발한다. 시스템은 적외선 헬멧과 데이터 글로브를 이용한 제스처기반 인터페이스를 사용하여 사용자와 시스템 간의 보다 자연스러운 상호작용을 제공하며, HMD를 통해 향상된 감각정보를 제공한다.
Jacobson 등은 시각화 큐브를 이용하여 CaveUT 시스템을 구현하였다[6]. 제안된 시스템은 몰입형 가상현실 인터페이스가 제공되는 정육면체 공간 안에서 전신 행동을 이용하여 1인칭 슈팅게임 Unreal Tournament 2004를 즐길 수 있도록 설계되었다.
게이팅 네트워크는 모든 학습 데이터와 그에 따른 기대 출력 벡터를 이용하여 오류 역전파 알고리즘을 통해 학습된다. 제안하는 Mixture-of-Experts 모델은 초기의 학습된 상태 이외에도 새롭게 들어오는 입력을 활용하여 현재 사용자의 손 모양에 적응한다.
제안하는 방법의 사용자 행동 인식 성능 평가를 위해 머리 움직임 인식 모듈과 손 제스처 인식 모듈 모두에 대하여 인식 성능을 분석하였다.
제안하는 시스템에서 사용하는 인터페이스는 머리 추적기와 데이터 글로브, 그리고 HMD로 구성된다. 머리 추적기는 자체 제작한 적외선 LED 부착 헬멧과 Wii 제어기를 사용하였으며, 데이터 글로브는 오른손 14개, 왼손 5개 센서가 부착된 5DT사의 데이터 글로브를 사용하였다.
제안하는 시스템에서는 머리 움직임 인식 모듈과 손 제스처 인식모듈을 이용하여 사용자의 머리와 손의 움직임을 인식하고 가상환경에 반영한다. 이후 가상현실 영상은 HMD를 통해 사용자에게 제공된다.
제안하는 시스템의 실제 가상현실 환경에의 적용 및 평가를 위해 그림 8과 같이 몰입형 사용자 인터페이스를 이용한 사용자의 시점 변환과 손 제스처가 유용하게 사용될 수 있는 가상 오케스트라 지휘 환경을 개발하였다.
질의는 10개 문항으로 구성되어 있으며 각 문항당 점수는 "강한 부정"을 나타내는 1점부터 "강한 긍정"을 나타내는 5점까지 5단계로 나누어서 평가되었다.
대상 데이터
가상환경과의 몰입적인 상호작용을 위하여 사용자는 그림 7의 HMD를 통해 가상현실 환경의 영상을 제공받는다. HMD는 사용자의 머리에 착용하여 사용하는 디스플레이 장치로, 사용자의 눈앞에 영상을 출력해준다.
또한 HMD는 60Hz에서 1920 × 1080 해상도를 제공하는 Deocom사의 DG-450HP HMD를 사용하였다.
제안하는 시스템에서 사용하는 인터페이스는 머리 추적기와 데이터 글로브, 그리고 HMD로 구성된다. 머리 추적기는 자체 제작한 적외선 LED 부착 헬멧과 Wii 제어기를 사용하였으며, 데이터 글로브는 오른손 14개, 왼손 5개 센서가 부착된 5DT사의 데이터 글로브를 사용하였다. 또한 HMD는 60Hz에서 1920 × 1080 해상도를 제공하는 Deocom사의 DG-450HP HMD를 사용하였다.
실험에는 19세~30세의 남녀 대학생 및 대학원생 48명이 참여하였으며, 참가자 중 약 50% 이상의 피험자들은 비디오 게임을 즐겨 하지 않는 것으로 확인되었다. 사용성 평가를 위해 피험자들을 대상으로 SUS질의[17]가 제공되었다.
사용자와 시스템 간의 자연스러운 상호작용을 제공하기 위해서는 사용자로 하여금 시스템을 제어하기 위해 인위적으로 데이터를 입력한다는 느낌을 갖지 않도록 하는 것이 중요하다. 이를 위해 적외선 LED를 사용한 머리 추적기와 데이터 글로브가 사용되었다. 사용자는 머리 추적기를 이용하여 머리를 움직임으로써 가상환경 내에서 직접 움직이며 시점을 이동할 수 있으며, 데이터 글로브를 통해 손 제스처를 가상환경의 입력으로 활용한다.
데이터처리
이후 손 제스처 인식 모듈의 인식 성능 분석을 위해, 5명의 사용자로 하여금 25개의 정의된 동작들을 수행하도록 한 뒤에 인식 성능을 분석하였다. 분석을 위해 각 동작 당 1000개의 데이터를 획득하였으며, 기존에 널리 사용되는 인식방법인 Support Vector Machine(SVM), Naive Bayes(NB), 인공신경망(Artificial Neural Network, ANN)과 제안하는 방법(ME)의 성능을 비교하였다.
이론/모형
데이터 글로브 기반 손 제스처 인식은 다양한 분야에 접목되어 연구되고 있다. Oz와 Leu는 미국수화의 단어인식을 위해 Cyberglove와 인공신경망을 이용하였으며[11], Kamel 등은 온라인 서명 확인을 위해 데이터 글로브와 특이값 분해 방법을 사용하였다[12]. 또한 Fels와 Hinton은 데이터 글로브를 이용한 상호작용을 위해 Radial basis function과 인공신경망을 이용하였다[13].
게이팅 네트워크는 모든 학습 데이터와 그에 따른 기대 출력 벡터를 이용하여 오류 역전파 알고리즘을 통해 학습된다. 제안하는 Mixture-of-Experts 모델은 초기의 학습된 상태 이외에도 새롭게 들어오는 입력을 활용하여 현재 사용자의 손 모양에 적응한다.
본 논문에서 사용된 전문가들과 게이팅 네트워크는 다층 퍼셉트론(Multi-Layered Perceptron, MLP)을 이용하여 구현되었다. 게이팅 네트워크의 학습을 위한 특정 입력 x에 대한 기대출력 yg는 각 전문가의 정확도를 계산하여 사용한다.
하지만 기존의 인식기로는 다수의 사용자로부터 입력되는 다양한 제스처의 정확한 인식이 힘들다는 한계가 존재한다. 이를 해결하기 위해 본 논문에서는 복잡한 인식에 유리한 다수의 전문가 인식기를 활용하는 Mixture-of-Expert 모델을 사용하여 손 제스처를 인식하는 방법을 적용하였다.
시스템은 적외선 헬멧과 데이터 글로브를 이용한 제스처기반 인터페이스를 사용하여 사용자와 시스템 간의 보다 자연스러운 상호작용을 제공하며, HMD를 통해 향상된 감각정보를 제공한다. 특히 제스처 기반 인터페이스를 구현함에 있어서 중요시되는 제스처의 정확한 인식을 위해 적외선 신호기반 머리 움직임 인식 방법과 Mixture-of-Expert 기반 손 제스처 인식 방법을 사용하였다.
성능/효과
그림 12는 사용성 평가 결과를 보여주는 것으로, 그림 12(a)는 제안하는 인터페이스에 대한 긍정적인 면에 관한 홀수번 질의 결과며, 그림 12(b)는 부정적인 면에 관한 짝수번 질의의 결과이다. 긍정적 질의의 경우 과반수의 사용자가 동의하는 결과를 보여주었으며, 부정적 질의의 경우 과반수의 사용자가 동의하지 않아 사용자들이 대체로 시스템에 만족한다는 결론을 내릴 수 있다. SUS 질의 외에도 추가적으로 시스템의 사용성을 평가하기 위해 표 4와 같이 3개의 추가 질의를 제공하였다.
추가 질의 결과, 다수의 사용자가 다른 사람의 플레이 장면을 보고 쉽게 사용법을 터득할 수 있다고 판단하였으며, 착용식 장비를 사용함에 있어서도 큰 불편을 느끼지 않는다고 응답하였다. 또한 대다수의 사용자가 제안하는 시스템에 대해서 재미있다고 판단하였으며 이를 통해 시스템이 가상환경에 대한 몰입감을 향상시킴으로써 흥미를 유발할 수 있음을 확인하였다. 그림 13은 추가 질의 결과를 보여준다.
사용성 평가 결과, 평균 SUS점수는 100점 만점에 68.5점을 얻었다. 특히 피험자의 77%가 제안하는 인터페이스가 사용하기 쉽다고 응답하였으며 56%가 전문가의 도움 없이도 사용할 수 있다고 응답하여 제안하는 인터페이스가 직관적이며 사용자에게 자연스러운 상호작용 수단을 제공함을 확인하였다.
그림 11(a), (b)는 각각 좌우 회전각도와 상하 회전각도를 증가시키면서 인식된 각도와 실제 각도를 비교한 그래프를 나타낸다. 제안하는 머리 움직임 인식방법은 실제 각도에서 크게 벗어나지 않는 범위 안에서 사용자 머리의 회전각도를 측정하는 것을 확인할 수 있다. 표 1은 좌우 회전각도 인식과 상하 회전각도 인식에 있어서 평균 오차 각도와 최대 오차 각도를 보여준다.
시스템은 적외선 LED와 Wii 제어기 기반의 머리추적기, 데이터 글로브, 그리고 HMD로 구성되며, 사용자의 다양한 움직임을 인식하여 가상환경에 반영함으로써 향상된 몰입도를 제공해 줄 수 있다. 제안하는 시스템은 가상 오케스트라 지휘 환경에 적용되어 구현되었으며, 사용자 움직임 인식 성능 평가 및 실제 사용자들을 대상으로 한 사용성 평가를 수행하여 제안하는 시스템의 유용성을 검증하였다.
추가 질의 결과, 다수의 사용자가 다른 사람의 플레이 장면을 보고 쉽게 사용법을 터득할 수 있다고 판단하였으며, 착용식 장비를 사용함에 있어서도 큰 불편을 느끼지 않는다고 응답하였다. 또한 대다수의 사용자가 제안하는 시스템에 대해서 재미있다고 판단하였으며 이를 통해 시스템이 가상환경에 대한 몰입감을 향상시킴으로써 흥미를 유발할 수 있음을 확인하였다.
5점을 얻었다. 특히 피험자의 77%가 제안하는 인터페이스가 사용하기 쉽다고 응답하였으며 56%가 전문가의 도움 없이도 사용할 수 있다고 응답하여 제안하는 인터페이스가 직관적이며 사용자에게 자연스러운 상호작용 수단을 제공함을 확인하였다. 그림 12는 사용성 평가 결과를 보여주는 것으로, 그림 12(a)는 제안하는 인터페이스에 대한 긍정적인 면에 관한 홀수번 질의 결과며, 그림 12(b)는 부정적인 면에 관한 짝수번 질의의 결과이다.
표 2와 같이 제안하는 Mixture-of-Experts 기반 손 제스처 인식방법은 기존의 다른 인식기를 사용하여 제스처를 인식하는 방법에 비해 최대 12% 가량의 성능 차이를 보여주었으며 모든 비교 대상 인식기들에 비해 우수한 성능을 보임을 확인할 수 있었다.
후속연구
향후에는 가속도 센서나 EMG 센서 등의 추가 장비를 이용하여 더욱 다양한 사용자 움직임을 인식하고 이를 가상현실 환경에 반영하는 연구를 진행할 계획이다. 또한 보다 많은 피험자를 대상으로 한 사용성 평가를 진행하여, 가상현실 시스템에 대한 경험 유무와 같이 다양한 각도에서 평가 결과 분석이 이루어져야 할 것이다.
향후에는 가속도 센서나 EMG 센서 등의 추가 장비를 이용하여 더욱 다양한 사용자 움직임을 인식하고 이를 가상현실 환경에 반영하는 연구를 진행할 계획이다. 또한 보다 많은 피험자를 대상으로 한 사용성 평가를 진행하여, 가상현실 시스템에 대한 경험 유무와 같이 다양한 각도에서 평가 결과 분석이 이루어져야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
시각 기반 인식에 비해 센서 기반 인식은 어떤 장점이 있는가?
손 제스처 인식은 시각 기반 인식과 센서 기반 인식의 두가지 방법이 존재한다. 센서 기반 인식은 시각 기반 인식에 비해 데이터의 노이즈가 적어 비교적 정확하며 빠른 측정이 가능하다는 장점이 있다. 본 논문에서는 이에 착안하여 데이터 글로브를 이용하여 손 제스처의 데이터를 수집, 인식하는 모델을 설계하였다.
손 제스처 인식 방법에는 무엇이 있는가?
손 제스처 인식은 시각 기반 인식과 센서 기반 인식의 두가지 방법이 존재한다. 센서 기반 인식은 시각 기반 인식에 비해 데이터의 노이즈가 적어 비교적 정확하며 빠른 측정이 가능하다는 장점이 있다.
착용식 멀티모달 인터페이스를 통해 가상현실 기반 시스템에서 향상된 몰입감을 제공하기 위해서 무엇을 고려하여야 하는가?
• 사용자와 시스템 간에 자연스럽고 직관적인 상호작용
• 사용자가 제공받는 감각 정보의 질 향상
※ AI-Helper는 부적절한 답변을 할 수 있습니다.