[국내논문]다중 사용자를 위한 Dynamic Time Warping 기반의 특징 강조형 제스처 인식 모델 Feature-Strengthened Gesture Recognition Model Based on Dynamic Time Warping for Multi-Users원문보기
최근 제안된 FsGr 모델은 가속도 센서 기반의 제스처 인식을 위한 방법으로 DTW 알고리즘을 두 단계로 적용하여 인식률을 개선하였다. FsGr 모델에서는 유사제스처 집합 개념을 정의하는데 훈련과정에서 유사제스처 집합들을 생성한다. 제스처 인식의 1차 인식 시도에서 유사제스처 집합이 정의된 제스처로 판정되면, 이 유사제스처 집합의 제스처들에 대해 특징이 강조된 부분들을 추출해 DTW를 통한 2차 인식을 시도한다. 그러나 동일 제스처도 사용자의 신체 크기, 나이, 성별, 등의 신체적인 특징에 따라 매우 다른 특성을 보이고 있어 FsGr 모델을 다중 사용자 환경에 적용하기에는 한계가 있다. 본 논문에서는 이를 다중 사용자 환경으로 확장한 FsGrM 모델을 제안하고 이를 사용한 스마트TV의 채널 및 볼륨 제어 프로그램을 보인다.
최근 제안된 FsGr 모델은 가속도 센서 기반의 제스처 인식을 위한 방법으로 DTW 알고리즘을 두 단계로 적용하여 인식률을 개선하였다. FsGr 모델에서는 유사제스처 집합 개념을 정의하는데 훈련과정에서 유사제스처 집합들을 생성한다. 제스처 인식의 1차 인식 시도에서 유사제스처 집합이 정의된 제스처로 판정되면, 이 유사제스처 집합의 제스처들에 대해 특징이 강조된 부분들을 추출해 DTW를 통한 2차 인식을 시도한다. 그러나 동일 제스처도 사용자의 신체 크기, 나이, 성별, 등의 신체적인 특징에 따라 매우 다른 특성을 보이고 있어 FsGr 모델을 다중 사용자 환경에 적용하기에는 한계가 있다. 본 논문에서는 이를 다중 사용자 환경으로 확장한 FsGrM 모델을 제안하고 이를 사용한 스마트TV의 채널 및 볼륨 제어 프로그램을 보인다.
FsGr model, which has been proposed recently, is an approach of accelerometer-based gesture recognition by applying DTW algorithm in two steps, which improved recognition success rate. In FsGr model, sets of similar gestures will be produced through training phase, in order to define the notion of a...
FsGr model, which has been proposed recently, is an approach of accelerometer-based gesture recognition by applying DTW algorithm in two steps, which improved recognition success rate. In FsGr model, sets of similar gestures will be produced through training phase, in order to define the notion of a set of similar gestures. At the 1st attempt of gesture recognition, if the result turns out to belong to a set of similar gestures, it makes the 2nd recognition attempt to feature-strengthened parts extracted from the set of similar gestures. However, since a same gesture show drastically different characteristics according to physical traits such as body size, age, and sex, FsGr model may not be good enough to apply to multi-user environments. In this paper, we propose FsGrM model that extends FsGr model for multi-user environment and present a program which controls channel and volume of smart TV using FsGrM model.
FsGr model, which has been proposed recently, is an approach of accelerometer-based gesture recognition by applying DTW algorithm in two steps, which improved recognition success rate. In FsGr model, sets of similar gestures will be produced through training phase, in order to define the notion of a set of similar gestures. At the 1st attempt of gesture recognition, if the result turns out to belong to a set of similar gestures, it makes the 2nd recognition attempt to feature-strengthened parts extracted from the set of similar gestures. However, since a same gesture show drastically different characteristics according to physical traits such as body size, age, and sex, FsGr model may not be good enough to apply to multi-user environments. In this paper, we propose FsGrM model that extends FsGr model for multi-user environment and present a program which controls channel and volume of smart TV using FsGrM model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 동일한 제스처도 남여의 차이, 나이의 차이, 신체의 크기 등에 따라 다른 특성을 보이고 있어 이를 고려하지 않을 경우 제스처의 인식률의 제고에 한계가 있다. 본 논문에서는 사용자들의 다양한 특성들을 고려하도록 FsGr 모델을 확장한 다수 사용자를 위한 특징 강조형 제스처 인식(FeautureStrengthened Gesture Recognition for Multi-users, FsGrM) 모델을 제안하고 이를 스마트 TV의 채널 및 볼륨 제어에 적용한 결과를 제시한다. 논문이 구성은 다음과 같다.
따라서 사용자의 이러한 특성에 대한 고려 없이 제스처 인식을 시도할 경우 인식률이 현저히 저하될 수 있다. 따라서 본 절에서는 이러한 문제를 해결하기 위해 다중 사용자들을 위한 특징 강조형 제스처 인식(FsGrM: Feature Strengthened Gesture Recognition for Multi Users) 모델을 제안한다. FsGrM 모델에서는 제스처를 사용자의 차별적인 특징을 반영한 세분화된 제스처들로 표현한다.
본 절에서는 FsGrM 모델의 사용 예로 스마트 폰의 가속도 센서를 사용하여 스마트 TV의 채널과 볼륨을 제어하는 프로토타입 시스템을 제시한다. 스마트TV에서 채널을 제어 하기 위해서는 일련의 제스처 시컨스에 대한 인식이 필요하다.
이들 중 가속도 센서는 제스처 인식에 사용되곤 하는데 기계학습, 패턴매칭 등의 분야의 DTW(dynamic time warping)[1], SVM(support vector machine), hMM(hidden Markov Model), 인공신경망 등의 알고리즘과 주로 사용되었다[2-11]. 최근 가속도 센서를 사용한 DTW 기반의 제스처 인식 방법으로 FsGr(Feature-Strengthened Gesture Recognition) 모델이 발표되었는데[2], 본 논문에서는 이를 다중 사용자 환경으로 확장한 FsGrM(Feature-strengthened Gesture recognition for Multi-users) 모델을 제안한다.
제안 방법
길이가 m, n인 두 데이터 시컨스 p와 q의 최소 누적 거리 비용은 D(m, n)로 표현된다. 본 논문에서는 제스처를 측정을 위해 가속도 센서 데이터를 사용하므로 거리 비용 함수 d는 두 가속도 센서 데이터의 유클리디언 거리를 계산하고, 데이터 시컨스 p와 q의 유사도는 DTW(p, q) = D(m, n)로 정의한다. G를 식별하고자 하는 제스처들의 집합, T를 제스처 인식에 사용되는 대표 데이터 시컨스 (exemplar)들의 집합이라 할 때, 이는 각각 다음과 같이 표시한다.
FsGrM 모델의 훈련 방법은 FsGr 모델의 훈련 방법을 사용자 별로 진행하도록 구성된다. 따라서 사용자 uj별로 훈련을 진행하여 G에 대한 대표 시컨스의 집합 T(j)를 생성하는데 본 논문에서는 FsGr 모델의 기존 실험에서의 최소선택(minimum selection)을 사용했다. 각각의 T(j)를 통해 대표 시컨스들의 집합 T가 계산된 후, 각 제스처 gi(j)에 대한 유사제스처 집합 sGi(j)과 part_bitsi(j)을 구하고 이로부터 sTi(j)을 도출한다.
본 절에서는 FsGr 모델과 FsGrM 모델을 통해 알파벳 필기체 소문자에 대한 인식을 시도하였다. 신체 조건이 각기 다른 여섯 명에 대해 열 번의 알파벳 필기체 소문자의 제스처 샘플들, 총 1,560개의 샘플들을 수집하고 이를 통해 훈련 및 인식 실험을 수행했다.
가령 채널 102번을 선택하기 위해서는 1, 0 그리고 2를 순차적으로 한 번의 작업으로 인식해야 된다. 일반적으로 제스처 시컨스 내에서 각각의 제스처를 인식하기 위해서는 제스처의 시작과 끝을 구분할 수 있어야 하는데, 본 논문에서는 가속도 센서 데이터의 크기가 일정 이상이거나 미만인 경우를 포착하여 이를 제스처의 시작과 끝으로 구분하여 일련의 제스처를 인식하였다.
대상 데이터
본 절에서는 FsGr 모델과 FsGrM 모델을 통해 알파벳 필기체 소문자에 대한 인식을 시도하였다. 신체 조건이 각기 다른 여섯 명에 대해 열 번의 알파벳 필기체 소문자의 제스처 샘플들, 총 1,560개의 샘플들을 수집하고 이를 통해 훈련 및 인식 실험을 수행했다. 구체적인 실험 방법은 다음과 같다.
FsGr 모델에 대해서는 한 명의 샘플로 훈련한 후 나머지 다섯 명의 제스처 샘플들로 인식 실험을 하는 경우(실험1)와 다섯 명의 샘플들로 훈련하고 나머지 한 명의 제스처 샘플로 인식 실험을 하는 경우(실험2), FsGrM 모델에서는 다섯 명의 샘플로 학습을 하고 나머지 한 명의 샘플로 인식을 하는 경우(실험3)로 구성된다. 모든 실험은 모든 피험자들의 조합에 대해 진행되어서, 실험1에 사용된 총 샘플 수는 7,800개, 실험2와 실험3에서는 1560개이다. Table 3에서는 각 실험의 인식률 결과를 보인다.
볼륨 제어와 채널 제어는 FsGrM 모델을 기반으로 한 제스처 인식모듈의 인식 결과를 통해 이루어진다. 이를 위해 14개의 제스처들이 훈련되었는데 이들은 0~9의 아라비안 숫자와 상(Up), 하(Down), 좌(Left), 우(Right)를 뜻하는 심볼 들로 구성된다. 각 심볼의 정확한 동작 방법은 Fig.
이론/모형
1차 DTW는 FsGr 모델에서와 동일하다. 단 하나의 제스처에 대해 복수의 대표 시컨스들이 존재하므로 최소 비용으로 결정된 대표 시컨스의 제스처와 사용자에 관한 서브 모델이 2차 DTW에 사용된다. 2차 DTW는 제스처 gi에 연관된 모든 사용자들의 유사제스처 집합들이 아니라 1차 DTW에서 결정된 제스처 gi와 사용자 uj에 대한 서브 모델로 한정된다.
성능/효과
33%로 나타난다. 이는 DTW 만을 사용했을 경우로 한 명의 제스처 샘플로 훈련했을 경우보다는 사용자들의 구분 없이 훈련을 시켰더라도 다수 사용자들의 샘플들로 훈련했을 때 더 나은 성능을 보이고, 사용자 구분을 해서 훈련했을 경우 가장 높은 인식률을 보임을 나타낸다. 최종 인식률은 FsGr 모델과 FsGrM 모델이 사용된 최종 결과를 나타내는데 실험1, 실험2, 실험3의 인식률은 각각 71.
이는 DTW 만을 사용했을 경우로 한 명의 제스처 샘플로 훈련했을 경우보다는 사용자들의 구분 없이 훈련을 시켰더라도 다수 사용자들의 샘플들로 훈련했을 때 더 나은 성능을 보이고, 사용자 구분을 해서 훈련했을 경우 가장 높은 인식률을 보임을 나타낸다. 최종 인식률은 FsGr 모델과 FsGrM 모델이 사용된 최종 결과를 나타내는데 실험1, 실험2, 실험3의 인식률은 각각 71.28%, 81.28%, 88.78%로 1차 DTW만을 실행한 경우보다는 개선효과를 보인다. FsGr 모델의 경우, 다수의 사용자들을 훈련에 참여시켜도 각 제스처에는 하나의 대표 시컨스만이 존재하지만 FsGrM 모델은 각 제스처에 대해 훈련에 참여한 사용자 수만큼의 대표 시컨스들이 존재하게 되어 인식률이 높아지게 된다.
이 경우 22건에 대해 2차 DTW 실행을 하여 19번이 n으로 인식되고 나머지 세 번은 h로 두 번, b로 한 번 인식 되어 두 건의 개선효과가 발생했다. 요약하면 1차 DTW 실행 결과 260개의 샘플들 중 237개가 정확히 인식해 1차 인식률이 91.15%, 2차 DTW 실행 결과 두 건의 개선효과가 발생하여 최종 인식률은 91.92%로 제시된다.
훈련한 피험자들의 샘플을 랜덤하게 인식과정에 사용하면 FsGrM 모델의 경우 인식률이 98%이상으로 나타난다. 만일 실험3의 테스트 데이터를 훈련 샘플이 아닌, 즉 훈련에 참가한 사람들의 제스처들의 새로운 데이터를 사용한다면 아마도 실험3의 최종 인식률 88.78% 보다는 높지만 훈련 샘플들을 사용한 경우 98%보다는 낮은 인식률을 보일 것으로 예상된다. 이는 알파벳의 난이도를 고려할 때 충분히 활용 가능한 수치로 보인다.
본 논문에서 제안한 FsGrM 모델은 기존의 FsGr 모델을 다중 사용자 환경으로 확장한 것으로 동일한 제스처에 대해서도 사용자의 신체적인 특징들을 훈련 과정에 포함시키므로 인식률을 높였다. 2차 DTW 인식 과정이 유사제스처 집합 내에서만 이루어지므로 시간 복잡도도 그다지 높지 않기 때문에 실용성이 있는 알고리즘이다.
후속연구
2차 DTW 인식 과정이 유사제스처 집합 내에서만 이루어지므로 시간 복잡도도 그다지 높지 않기 때문에 실용성이 있는 알고리즘이다. 본 연구에서는 스마트 TV의 채널 및 볼륨을 제어하는 프로그램의 예제를 제시했지만 이는 다양한 다른 분야에도 사용 가능하다. 또한 FsGrM 모델은 제스처 인식뿐 아니라 음성 인식, 데이터 마이닝 등 DTW가 사용되는 기존의 응용 분야에서 사용 가능해 보인다.
본 연구에서는 스마트 TV의 채널 및 볼륨을 제어하는 프로그램의 예제를 제시했지만 이는 다양한 다른 분야에도 사용 가능하다. 또한 FsGrM 모델은 제스처 인식뿐 아니라 음성 인식, 데이터 마이닝 등 DTW가 사용되는 기존의 응용 분야에서 사용 가능해 보인다.
질의응답
핵심어
질문
논문에서 추출한 답변
DTW(Dynamic Time Warping)는 무엇인가?
DTW(Dynamic Time Warping)은 음성인식, 데이터 마이닝, 제스처 인식 등의 시계열 데이터의 패턴 인식을 위한 알고리즘으로 길이가 동일하지 않은 시계열 데이터 시컨스들 사이의 유사도의 측정에 사용된다[1, 3, 5, 7, 10]. 이는 두 시계열 데이터 시컨스 p = p1,p2,…,pm, q = q1,q2,…,qn에 대한 비선형 대응(nonlinear alignment)을 통해 p와 q에 대해 누적 거리 비용을 최소화하는 일련의 대응(pi,qj) 시컨스를 구한다.
본 논문에서 특징 강조형 제스처 인식 모델을 제안했는데 이 모델은 기존의 제스처 인식의 어떤 문제점 때문에 제안하게 되었는가?
사용자들은 나이, 성별, 신체의 크기 등에 따라 같은 제스처에 대해서도 차별적인 특징들을 지니고 있다. 따라서 사용자의 이러한 특성에 대한 고려 없이 제스처 인식을 시도할 경우 인식률이 현저히 저하될 수 있다. 따라서 본 절에서는 이러한 문제를 해결하기 위해 다중 사용자들을 위한 특징 강조형 제스처 인식(FsGrM: Feature Strengthened Gesture Recognition for Multi Users) 모델을 제안한다.
제스처 인식을 위해 가속도 센서와 함께 어떤 알고리즘들이 사용되었는가?
스마트폰의 대중화로 인해 스마트폰들의 센서들을 활용하는 연구들과 이들을 기반으로 애플리케이션 개발이 활성화되고 있다. 이들 중 가속도 센서는 제스처 인식에 사용되곤 하는데 기계학습, 패턴매칭 등의 분야의 DTW(dynamic time warping)[1], SVM(support vector machine), hMM(hidden Markov Model), 인공신경망 등의 알고리즘과 주로 사용되었다[2-11]. 최근 가속도 센서를 사용한 DTW 기반의 제스처 인식 방법으로 FsGr(Feature-Strengthened Gesture Recognition) 모델이 발표되었는데[2], 본 논문에서는 이를 다중 사용자 환경으로 확장한 FsGrM(Feature-strengthened Gesture recognition for Multi-users) 모델을 제안한다.
참고문헌 (11)
R. Bellman, Dynamic Programming, Princeton University Press, Princeton, NJ, 1957.
H. Kwon and S. Lee, "Feature-Strengthened Gesture Recognition Model based on Dynamic Time Warping," KIPS Transactions on Software and Data Engineering, Vol.4, No.3, pp.143-150, 2015.
J. Liu, L. Zhong, J. Wickramasuriya, and V. Vasudevan, "uWave: Accelerometer-based personalized gesture recognition and its applications," Pervasive and Mobile Computing, Vol.5, Issue 6, pp.657-675, 2009.
S. Nam, J. Kim, S. Heo, and I. Kim, "Smartphone Accelerometer-Based Gesture Recognition and its Robotic Application," KIPS Transactions on Software and Data Engineering, Vol.2, No.6, pp.395-402, 2013.
M. Ko, B. West, S. Venkatesh, and M. Kumar, "Using dynamic time warping for online temporal fusion in multisensor systems," Information Fusion, Vol 9, Issue 3, pp.370-388, 2008.
N. Gillian, R. Knapp, and S. O'Modhrain, "Recognition Of Multivariate Temporal Musical Gestures Using NDimensional Dynamic Time Warping," Proc. of the International Conference on New Interfaces for Musical Expression, pp.337-342, 2011.
M. Muller, "Information Retrieval for Music and Motion," Springer, 2007.
S. Kim, G. Park, S. Jeon, S. Yim, G. Han, and S. Choi, "HMM-based Motion Recognition with 3-D Acceleration Signal," KIISE Transactions on Computing Practices and Letters, Vol.15, No.3, pp.216-220, 2009.
S. Cho, W. Bang, J. Yang, "Two-stage Recognition of Raw Acceleration Signals for 3-D Gesture-Understanding Cell Phones," Proc. of the 10th International Workshop on Frontiers in Handwriting Recognition, 2006.
Ahmad Akl, Chen Feng, and Shahrokh Valaee, "A Novel Accelerometer-Based Gesture Recognition System," IEEE Transactions on Signal Processing, Vol.59, No.12, Dec., 2011.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.