지화(finger language)는 수화(sign language)에 포함되며, 손의 제스쳐로 한글의 모음, 자음을 표현하는 언어 체계이다. 한글 지화는 총 31 제스쳐로 구성되어 있으며, 정확한 인식을 위해서는 하나의 제스쳐에 대해 학습 모델이 많이 필요로 하게 된다. 대량의 학습 모델이 존재할 경우, 입력 데이터는 많은 공간을 탐색하는데 시간을 소비하게 된다. 따라서 실시간 인식 시스템은 이러한 탐색 공간을 줄이는 것이 가장 중요한 문제로 인식되고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 인식률 저하 없이 탐색 공간을 효율적으로 줄이는 계층적 HMM 구조를 제안하였다. 지화는 손목의 방향성에 따라 총 3개의 범주로 설정, 입력 데이터는 이 범주 안에서 모델을 검색하게 된다. 이러한 사전 분류를 진행하여 비슷한 한글 지화의 분별력을 확립하게 되며 탐색 공간 또한 효율적으로 관리되므로 실시간 인식 시스템에 적용 가능하다. 실험 결과, 제안된 방법은 일반적인 HMM 인식 방법보다 평균 3배 정도의 시간을 단축할 수 있있고, 비슷한 한글 지화 제스쳐에 대해 오인식 또한 감소하였다.
지화(finger language)는 수화(sign language)에 포함되며, 손의 제스쳐로 한글의 모음, 자음을 표현하는 언어 체계이다. 한글 지화는 총 31 제스쳐로 구성되어 있으며, 정확한 인식을 위해서는 하나의 제스쳐에 대해 학습 모델이 많이 필요로 하게 된다. 대량의 학습 모델이 존재할 경우, 입력 데이터는 많은 공간을 탐색하는데 시간을 소비하게 된다. 따라서 실시간 인식 시스템은 이러한 탐색 공간을 줄이는 것이 가장 중요한 문제로 인식되고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 인식률 저하 없이 탐색 공간을 효율적으로 줄이는 계층적 HMM 구조를 제안하였다. 지화는 손목의 방향성에 따라 총 3개의 범주로 설정, 입력 데이터는 이 범주 안에서 모델을 검색하게 된다. 이러한 사전 분류를 진행하여 비슷한 한글 지화의 분별력을 확립하게 되며 탐색 공간 또한 효율적으로 관리되므로 실시간 인식 시스템에 적용 가능하다. 실험 결과, 제안된 방법은 일반적인 HMM 인식 방법보다 평균 3배 정도의 시간을 단축할 수 있있고, 비슷한 한글 지화 제스쳐에 대해 오인식 또한 감소하였다.
The finger language is the part of the sign language, which is a language system that expresses vowels and consonants with hand gestures. Korean finger language has 31 gestures and each of them needs a lot of learning models for accurate recognition. If there exist mass learning models, it spends a ...
The finger language is the part of the sign language, which is a language system that expresses vowels and consonants with hand gestures. Korean finger language has 31 gestures and each of them needs a lot of learning models for accurate recognition. If there exist mass learning models, it spends a lot of time to search. So a real-time awareness system concentrates on how to reduce search spaces. For solving these problems, this paper suggest a hierarchy HMM structure that reduces the exploration space effectively without decreasing recognition rate. The Korean finger language is divided into 3 categories according to the direction of a wrist, and a model can be searched within these categories. Pre-classification can discern a similar finger Korean language. And it makes a search space to be managed effectively. Therefore the proposed method can be applied on the real-time recognition system. Experimental results demonstrate that the proposed method can reduce the time about three times than general HMM recognition method.
The finger language is the part of the sign language, which is a language system that expresses vowels and consonants with hand gestures. Korean finger language has 31 gestures and each of them needs a lot of learning models for accurate recognition. If there exist mass learning models, it spends a lot of time to search. So a real-time awareness system concentrates on how to reduce search spaces. For solving these problems, this paper suggest a hierarchy HMM structure that reduces the exploration space effectively without decreasing recognition rate. The Korean finger language is divided into 3 categories according to the direction of a wrist, and a model can be searched within these categories. Pre-classification can discern a similar finger Korean language. And it makes a search space to be managed effectively. Therefore the proposed method can be applied on the real-time recognition system. Experimental results demonstrate that the proposed method can reduce the time about three times than general HMM recognition method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
결론적으로 오브젝트가 움직이는 동선의 각도(Angle)가 제스쳐 인식 시스템의 가장 영향력 있는 특징점이 된다. 또한 한국수화 제스쳐 인식을 위한 특징 추출 연구를[12] 참조하였고, 본 논문에서는 이러한 연구를 바탕으로 손가락 동선을 제스쳐 인식 시스템에서 특징으로 사용할 것이다. Leap Motion 장비는 기본적으로 손에 대한 다양한 데이터를 제공하지만 본 논문에서는 각 손가락 끝의 위치와 사전 분류의 특징으로 사용되는 손목의 회전력만 데이터로 사용한다.
본 논문에서는 입력 데이터와 DB모델 간의 매칭을 시행하기 전 사전 분류하는 방법을 제안한다. 제안하는 한글 지화의 카테고리는 손목의 방향성에 의해 그림 6과 같이 나눌 수 있다.
본 논문에서 손목의 방향, 각 손가락의 위치 이 두 가지의 기본 정보만을 이용하여 지화의 11가지 제스쳐에 대한 인식 시스템을 구축하여 실험하였다. 한국 지화를 손목의 방향성에 따라 분류하여, HMM 제스쳐 인식 시스템에서의 오인식 감소, 효율적인 매칭을 하는 것이 이 논문의 주된 목표이다. 제안한 방법의 우수성을 확인하기 위해 일반적인 HMM 인식 시스템과 비교 실험을 진행하였다.
제안 방법
01mm의 정밀도로 손목과 손가락, 기타 물체를 인식할 수 있는 입력장치이다[9]. 3개의 적외선 LED를 사용하여 적외선 반사 정보, 2개의 적외선 카메라는 깊이 정보를 정합하여 오브젝트의 빠르고 정밀한 데이터를 제공한다. 손의 인식 가능 범위는 장치 위에서 대략 60cm 정도로 제한되며, 매 프레임마다 손목에 대한 정보, 손가락에 대한 정보가 데이터로 제공된다.
실험은 제안된 방법(H-HMM)과 사전 분류를 진행하지 않는 일반적인 HMM 인식 시스템에서 상태 수를 3~6까지 변경하며 실험을 진행하였다. 또한 실시간에서의 제스쳐의 시작과 끝을 알 수 없으므로 실험에서는 다음과 같은 조건[11]으로 제스쳐의 스팟팅을 시행하였다. 그림 9에서 볼 수 있듯이 대기 상태에서 손이 움직이면(H-M) 제스쳐의 시작으로 간주하고 입력 신호를 저장한다.
전체적인 시스템 개요도는 그림 2와 같다. 먼저 입력된 데이터는 손목의 방향성 정보와 각 손가락별 위치 정보를 가지며, 손가락 위치정보는 간단한 전처리 과정을 통해 체인코드로 변환하며, 손목의 방향성 정보를 이용하여 한글 지화 모델을 사전 분류를 실시한다. 획득한 체인코드는 사전 분류가 실시된 후, 카테고리 내에서의 DB의 모델들과 매칭을 실시하여 최종적으로 인식한다.
본 논문에서 손목의 방향, 각 손가락의 위치 이 두 가지의 기본 정보만을 이용하여 지화의 11가지 제스쳐에 대한 인식 시스템을 구축하여 실험하였다. 한국 지화를 손목의 방향성에 따라 분류하여, HMM 제스쳐 인식 시스템에서의 오인식 감소, 효율적인 매칭을 하는 것이 이 논문의 주된 목표이다.
한글 지화에는 비슷한 제스쳐가 존재하고, 이에 오인식 하는 문제점이 있다. 본 논문에서 제안하는 방법은 사전 분류를 실시하여 DB검색 시간 감소, 비슷한 제스쳐 모델을 검색에서 제외하여 인식률이 향상되는 방법을 제시한다. 손을 추적하는 소형 모션 컨트롤러(Leap Motion)를 사용하여 특별한 전처리와 장비의 착용 없이 3차원 상에서 손에 대한 데이터를 획득, 손에 대한 데이터는 간단한 전처리를 통해 특징점으로 추출되고 HMM(Hidden Markov Mode)으로 모델링 된다.
또한 이전에서 획득한 특징 벡터는 HMM에서 관측열로 사용 가능하도록 양자화 처리를 해야 한다. 본 논문에서는 K-means[13] 알고리즘을 이용하여, 수집한 특징 벡터들을 K 개의 클러스터로 분류 후 그 중심(Center)을 Codebook에 기록, 새로운 입력 벡터는 Codebook을 참조하여 가장 가까운 거리 있는 클러스터로 분류한다. 즉 Codebook은 새로운 입력 벡터를 관측열로 변환시키기 위해 사용된다.
HCI 시스템 설계 및 구성을 하기 위해서는 화상 카메라, Data-Glove, Kinect 등, 다양한 장비들을 이용하여 구성 가능하다. 본 논문에서는 Leap Motion 장비를 이용하여 실험을 진행하였다. Leap Motion은 기본적으로 제스쳐 기반의 유저 인터페이스를 제공하는 장치로서 Microsoft 사의 Kinect 보다 약 200배 정도 높은 감도를 가지며, 0.
본 논문에서 제안하는 방법은 사전 분류를 실시하여 DB검색 시간 감소, 비슷한 제스쳐 모델을 검색에서 제외하여 인식률이 향상되는 방법을 제시한다. 손을 추적하는 소형 모션 컨트롤러(Leap Motion)를 사용하여 특별한 전처리와 장비의 착용 없이 3차원 상에서 손에 대한 데이터를 획득, 손에 대한 데이터는 간단한 전처리를 통해 특징점으로 추출되고 HMM(Hidden Markov Mode)으로 모델링 된다. 이후 새로운 입력 데이터는 손목의 방향성에 따른 사전 분류를 실시, 분류된 범주에서 DB모델과 매칭을 실시하여 최종적으로 인식을 한다.
본 논문에서 사용된 실험 데이터 셋은 11개의 제스쳐에 대해 각 5개의 학습 데이터와 1100개의 입력 데이터를 기준으로 진행하였다. 실험은 제안된 방법(H-HMM)과 사전 분류를 진행하지 않는 일반적인 HMM 인식 시스템에서 상태 수를 3~6까지 변경하며 실험을 진행하였다. 또한 실시간에서의 제스쳐의 시작과 끝을 알 수 없으므로 실험에서는 다음과 같은 조건[11]으로 제스쳐의 스팟팅을 시행하였다.
손을 추적하는 소형 모션 컨트롤러(Leap Motion)를 사용하여 특별한 전처리와 장비의 착용 없이 3차원 상에서 손에 대한 데이터를 획득, 손에 대한 데이터는 간단한 전처리를 통해 특징점으로 추출되고 HMM(Hidden Markov Mode)으로 모델링 된다. 이후 새로운 입력 데이터는 손목의 방향성에 따른 사전 분류를 실시, 분류된 범주에서 DB모델과 매칭을 실시하여 최종적으로 인식을 한다.
일반적인 HMM인식 시스템에서의 입력 데이터는 DB모델을 전체적으로 검색하지만 제안된 방법은 3가지 카테고리 중 손목의 방향성 정보를 이용하여 카테고리 내의 모델만을 검색하여 전체적인 탐색 공간을 축소시킨다. 이에 대량의 DB 모델이 존재하는 정교한 시스템의 경우 일반적인 방법과 제안된 방법은 탐색 공간의 많은 차이를 가지게 된다.
한글의 기본 자음·모음으로 모바일 기기에서 채팅 및 검색(천지인 키보드)을 할 수 있듯이, 본 논문에서 인식하고자 하는 지화들은 총 31가지 제스쳐이지만 정확한 인식과 시스템 자원의 효율적 관리를 위하여 한글의 기본 자음·모음을 천지인 키보드에 적용하여 총 11개의 지화 제스쳐에 대하여 인식한다.
먼저 입력된 데이터는 손목의 방향성 정보와 각 손가락별 위치 정보를 가지며, 손가락 위치정보는 간단한 전처리 과정을 통해 체인코드로 변환하며, 손목의 방향성 정보를 이용하여 한글 지화 모델을 사전 분류를 실시한다. 획득한 체인코드는 사전 분류가 실시된 후, 카테고리 내에서의 DB의 모델들과 매칭을 실시하여 최종적으로 인식한다.
대상 데이터
본 논문에서 사용된 실험 데이터 셋은 11개의 제스쳐에 대해 각 5개의 학습 데이터와 1100개의 입력 데이터를 기준으로 진행하였다. 실험은 제안된 방법(H-HMM)과 사전 분류를 진행하지 않는 일반적인 HMM 인식 시스템에서 상태 수를 3~6까지 변경하며 실험을 진행하였다.
제안하는 한글 지화의 카테고리는 손목의 방향성에 의해 그림 6과 같이 나눌 수 있다. 입력 데이터는 손목의 Pitch 값과 DB모델의 Pitch 값으로 탐색할 카테고리를 선정한다. 지화는 손목의 방향성을 3개의 부류로 분류 가능하며 사전 분류를 하는 이유는 다음과 같다.
Leap Motion에서의 손목 회전력에 관한 데이터는 Pitch, Roll, Yaw 3가지로 구분된다. 제안된 제스쳐 인식 시스템에서 사용될 데이터는 Pitch 값, 즉 z축 및 y-z 평면상에 투영된 벡터의 사이 각이다. Pitch 값을 이용하여 사전 분류를 하는 방법은 다음 장에서 기술한다.
데이터처리
한국 지화를 손목의 방향성에 따라 분류하여, HMM 제스쳐 인식 시스템에서의 오인식 감소, 효율적인 매칭을 하는 것이 이 논문의 주된 목표이다. 제안한 방법의 우수성을 확인하기 위해 일반적인 HMM 인식 시스템과 비교 실험을 진행하였다. 최적의 상태(5S)에서 제안된 방법의 인식률은 평균 90%로서 일반적인 HMM 시스템 보다 약 10% 정도의 높은 인식률을 달성하였고 실시간 시스템에서 가장 중요한 DB모델 비교 처리 속도는 평균 2∼3배 정도 빠른 것으로 나타났다.
이론/모형
이 문제 또한 최적의 상태열을 계산하는 과정에서 엄청난 연산량을 요구한다. 동적 프로그래밍 방법인 Viterbi 알고리즘[10]을 이용하여 이러한 연산량을 줄일 수 있었다. 학습 문제는 관측 벡터 O의 확률을 최대로 하는 모델 λ을 구하는 문제이다.
앞서 제시된 두 문제의 경우 연산량에 의한 문제이지만, 학습은 전혀 다른 문제이다. 본 논문에서는 이 문제를 해결하기 위해 Baum-Welch[10] 알고리즘을 사용하였다. Baum-Welch 는 EM(Expectation Maximization)알고리즘을 이용하여 학습한다.
이전 연구[14]에서는 제스쳐 인식 시스템에서 ergodic모델 보다 Left-Right모델을 사용하는 것이 더 효과적이라고 나타났다. 이전 연구를 바탕으로 본 논문에서도 Left-Right모델을 사용하였으며, 상태의 수는 3~6까지 변화시키며 실험을 진행하였다. 또한 이전에서 획득한 특징 벡터는 HMM에서 관측열로 사용 가능하도록 양자화 처리를 해야 한다.
획득한 체인코드를 아래와 같은 5차원 벡터로 구성하고, 양자화를 진행 후 Baum-Welch학습 알고리즘을 이용하여 모델링한다.
성능/효과
에 따르면 제스쳐 인식에 있어서 사용되는 특징점은 크게 오브젝트의 위치, 동선, 움직인 거리로 분류할 수 있다. 각각 특징 값을 제스쳐 인식 시스템에 적용한 결과, 추출된 오브젝트의 위치는(Location) 46%, 오브젝트의 동선은(Angle) 87%, 오브젝트의 움직인 거리는(Velocity) 32%의 인식률을 보인다. 결론적으로 오브젝트가 움직이는 동선의 각도(Angle)가 제스쳐 인식 시스템의 가장 영향력 있는 특징점이 된다.
각각 특징 값을 제스쳐 인식 시스템에 적용한 결과, 추출된 오브젝트의 위치는(Location) 46%, 오브젝트의 동선은(Angle) 87%, 오브젝트의 움직인 거리는(Velocity) 32%의 인식률을 보인다. 결론적으로 오브젝트가 움직이는 동선의 각도(Angle)가 제스쳐 인식 시스템의 가장 영향력 있는 특징점이 된다. 또한 한국수화 제스쳐 인식을 위한 특징 추출 연구를[12] 참조하였고, 본 논문에서는 이러한 연구를 바탕으로 손가락 동선을 제스쳐 인식 시스템에서 특징으로 사용할 것이다.
즉 손목의 방향성을 제외한 비슷한 제스쳐(“ㄴ,ㄹ” 과 “ㄱ,ㅋ”, “ㅡ” 와 “ㅣ” 그리고 “획 추가” 등)에서의 인식률에서는 많은 차이를 보였으며 “ㅇ,ㅁ”, “ㅂ,ㅍ”과 같은 분별성이 있는 제스쳐에 대해서는 인식률이 적은 차이를 보인다. 또한 HMM를 이용한 한글 지화 제스쳐 시스템에서 상태 수를 변화 시키며 실험한 결과, 상태 수 5(5S)에서 두 방법 모두 최상의 인식률을 달성하였다. 이는 HMM 구조에서 상태 수가 너무 적으면 인식률에 대해 저하가 생긴다.
이는 HMM 구조에서 상태 수가 너무 적으면 인식률에 대해 저하가 생긴다. 또한 계속적으로 상태 수를 늘려보았으나 미미한 인식률 차이, 매칭 시간이 증가하는 것을 실험 결과에서 보여주고 있다. 각 방법의 평균적인 인식률은 표 1과 같이 나타난다.
따라서 Down카테고리에서 모델을 탐색하게 되며 세부적인 매칭을 실시한다. 본 논문에서는 11가지 제스쳐 대상으로 사전 분류하였지만 한글 지화 전체를 대상으로 하는 시스템에서도 충분히 사용가능하다.
표 2는 각 방법에 대해 DB모델 하나에 대한 검색 처리 속도를 나타낸다. 제안된 방법은 사전 분류를 진행하여 카테고리 범주 안에서 DB모델과의 검색을 처리하였기 때문에 일반적인 HMM 인식 방법과 평균적으로 2~3배 정도의 시간이 절약되게 된다. 또한 각 방법의 상태수가 증가함에 따라 DB모델과 매칭 되는 시간이 증가한다.
제안한 방법의 우수성을 확인하기 위해 일반적인 HMM 인식 시스템과 비교 실험을 진행하였다. 최적의 상태(5S)에서 제안된 방법의 인식률은 평균 90%로서 일반적인 HMM 시스템 보다 약 10% 정도의 높은 인식률을 달성하였고 실시간 시스템에서 가장 중요한 DB모델 비교 처리 속도는 평균 2∼3배 정도 빠른 것으로 나타났다. 실시간 시스템에서 보다 자연스럽게 제스쳐의 스팟팅을 실시한다면 향후 연구에서 더욱 정확한 인식 시스템을 구축할 것으로 보인다.
후속연구
또한 각 방법의 상태수가 증가함에 따라 DB모델과 매칭 되는 시간이 증가한다. 만약 한글 지화 인식 시스템에서 정확한 인식을 위해 다양하고 많은 DB모델을 대상으로 실험을 하였으면 인식률과 DB모델 검색 속도는 더욱더 많은 차이를 보이게 될 것이다.
최적의 상태(5S)에서 제안된 방법의 인식률은 평균 90%로서 일반적인 HMM 시스템 보다 약 10% 정도의 높은 인식률을 달성하였고 실시간 시스템에서 가장 중요한 DB모델 비교 처리 속도는 평균 2∼3배 정도 빠른 것으로 나타났다. 실시간 시스템에서 보다 자연스럽게 제스쳐의 스팟팅을 실시한다면 향후 연구에서 더욱 정확한 인식 시스템을 구축할 것으로 보인다.
질의응답
핵심어
질문
논문에서 추출한 답변
실시간 인식 시스템은 이러한 탐색 공간을 줄이는 것이 가장 중요한 문제로 인식되고 있는 이유는 무엇인가?
한글 지화는 총 31 제스쳐로 구성되어 있으며, 정확한 인식을 위해서는 하나의 제스쳐에 대해 학습 모델이 많이 필요로 하게 된다. 대량의 학습 모델이 존재할 경우, 입력 데이터는 많은 공간을 탐색하는데 시간을 소비하게 된다. 따라서 실시간 인식 시스템은 이러한 탐색 공간을 줄이는 것이 가장 중요한 문제로 인식되고 있다.
지화란 무엇인가?
지화(finger language)는 수화(sign language)에 포함되며, 손의 제스쳐로 한글의 모음, 자음을 표현하는 언어 체계이다. 한글 지화는 총 31 제스쳐로 구성되어 있으며, 정확한 인식을 위해서는 하나의 제스쳐에 대해 학습 모델이 많이 필요로 하게 된다.
한글 지화는 무엇으로 구성되어 있는가?
지화(finger language)는 수화(sign language)에 포함되며, 손의 제스쳐로 한글의 모음, 자음을 표현하는 언어 체계이다. 한글 지화는 총 31 제스쳐로 구성되어 있으며, 정확한 인식을 위해서는 하나의 제스쳐에 대해 학습 모델이 많이 필요로 하게 된다. 대량의 학습 모델이 존재할 경우, 입력 데이터는 많은 공간을 탐색하는데 시간을 소비하게 된다.
참고문헌 (14)
Kazuyuki Imagawa, Shan Lu, "Color-Based Hands Tracking System for Sign Language Recognition", Automatic Face and Gesture Recognition IEEE International Conference, pp. 462-467, 1998.
Ji-Hwan Kim, Tae-Seong Kim, "3-D Hand Motion Tracking and Gesture Recognition Using a Data Glove", IEEE International Symposium on Industrial Electronics, pp. 1013-1018, 2009.
Jakub segen, Senthil Kumar, "Shadow Gestures:3D Hand Pose Estimation Using a Single Camera,", IEEE Computer Society Conference on, Vol. 1, pp. 479-485, 1999.
Manjula, Waldron, Soowon Kim, "Isolated ASL Sign Recognition System for Deaf persons", Rehabilitation Engineering, IEEE Transactions on, Vol. 3, pp. 261-271, 1995.
Yamaguchi, "Japanese sign language recognition system using information infrastructure", International Joint Conference of the Fourth IEEE International Conference on Fuzzy Systems and The Second International Fuzzy Engineering Symposium, Vol. 5, pp. 65-66, 1995.
Seungki Min, Sanghyeok Oh, Gyoryeong Kim, Taehyun Yoon, Chungyu Lim, Yunli Lee, Keechul Jung, "Optimize Data Glove-based System for Korean Finger Spelling Recognition", Korea Computer Congress, Vol. 34, pp. 237-241, 2007.
Yang HeeDeok, Lee Seong-Whan, "Automatic Spotting of Sign and Fingerspelling for Continuous Sign Language Recognition", The Korean Institute of Information Scientists and Engineers, Vol. 38, pp 102-107, 2011.
Min-Ji Kang, Eun-Sook Choi, Sohn Young-Sun, "The Study on Dynamic Images Processing for Finger Languages", Korean Institute of Intelligent Systems, Vol 14, pp. 184-189, 2004.
Lawrence Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition." Proceedings of the IEEE, Vol 77, pp. 257-286, 1989.
Yoon, H. S., Soh, J., Bae, Y. J., & Yang, H. S. "Hand gesture recognition using combined features of location, angle and velocity." Pattern recognition, Vol. 34, pp. 1491-1501, 2001.
Lee Hyung-Ji, Woo-Kyu Lee, Jae-Ho Chung, "Extracting feature vectors for hand gesture recognition of sign language", The Institute of Electronics and Information Engineers, Vol. 11, pp. 895-898, 1998.
Nianjun Liu, Brian C. Lovel, Peter J, Kootsookos, Richard I.A. Davis, "Model structure selection & training algorithms for an HMM gesture recognition system.", Frontiers in Handwriting Recognition, Ninth International Workshop on. IEEE, pp. 100-105, 2004.
Oh Il-Seok, "Pattern Recognition", Kyobo library, pp. 349-354, 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.