[논문]자세 예측을 이용한 효과적인 자세 기반 감정 동작 인식

김진옥

doi:10.3745/ktsde.2013.2.3.209

자세 예측을 이용한 효과적인 자세 기반 감정 동작 인식
Effective Pose-based Approach with Pose Estimation for Emotional Action Recognition 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.2 no.3, 2013년, pp.209 - 218

김진옥 (대구한의대학교 국제문화정보대학 모바일콘텐츠학부)

초록
AI-Helper

인간의 동작 인식에 대한 이전 연구는 주로 관절체로 표현된 신체 움직임을 추적하고 분류하는데 초점을 맞춰 왔다. 이 방식들은 실제 이미지 사용 환경에서 신체 부위에 대한 정확한 분류가 필요하다는 점이 까다롭기 때문에 최근의 동작 인식 연구 동향은 시공간상의 관심 점과 같이 저수준의, 더 추상적인 외형특징을 이용하는 방식이 일반화되었다. 하지만 몇 년 사이 자세 예측 기술이 발전하면서 자세 기반 방식에 대한 시각을 재정립하는 것이 필요하다. 본 연구는 외형 기반 방식에서 저수준의 외형특징만으로 분류기를 학습시키는 것이 충분한지에 대한 문제를 제기하면서 자세 예측을 이용한 효과적인 자세기반 동작인식 방식을 제안하였다. 이를 위해 다양한 감정을 표현하는 동작 시나리오를 대상으로 외형 기반, 자세 기반 특징 및 두 가지 특징을 조합한 방식을 비교하였다. 실험 결과, 자세 예측을 이용한 자세 기반 방식이 저수준의 외형특징을 이용한 방식보다 감정 동작 분류 및 인식 성능이 더 나았으며 잡음 때문에 심하게 망가진 이미지의 감정 동작 인식에도 자세 예측을 이용한 자세기반의 방식이 효과적이었다.

Abstract ▼ AI-Helper

Early researches in human action recognition have focused on tracking and classifying articulated body motions. Such methods required accurate segmentation of body parts, which is a sticky task, particularly under realistic imaging conditions. Recent trends of work have become popular towards the use of more and low-level appearance features such as spatio-temporal interest points. Given the great progress in pose estimation over the past few years, redefined views about pose-based approach are needed. This paper addresses the issues of whether it is sufficient to train a classifier only on low-level appearance features in appearance approach and proposes effective pose-based approach with pose estimation for emotional action recognition. In order for these questions to be solved, we compare the performance of pose-based, appearance-based and its combination-based features respectively with respect to scenario of various emotional action recognition. The experiment results show that pose-based features outperform low-level appearance-based approach of features, even when heavily spoiled by noise, suggesting that pose-based approach with pose estimation is beneficial for the emotional action recognition.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 복잡한 전처리과정이 필요했던 기존 자세 기반 방식을 개선한 예측 기술을 적용하여 감정을 표현하는 동작인식을 빠르고 효과적으로 처리하는 방법을 제안한다. 그리고 동작 인식의 대표적인 두 가지 흐름인 자세기반과 외형기반 동작 인식 방법 그리고 두 방법의 특징을 조합한 조합 방법을 비교함으로써 자세 예측을 이용한, 전처리과정이 필요 없는 자세 기반 감정 동작인식의 새로운 방향을 제시하고자 한다.
본 연구는 Fig. 1과 같이 동작 인식의 대표적 두 가지 접근 방식인 외형기반과 자세 기반 방식의 비교 실험과 더불어 두 방법의 특징을 조합한 방법도 실험하여 동작 인식 기술에 가장 효과적인 접근 방식을 제시하고자 한다. 실험에서는 사람의 다양한 동작 중 인식대상 동작에 집중하기 위한 정확한 인식 도메인을 설정하는 것이 필요하므로 감정 표현 동작을 대상으로 동작 인식 접근 방식에 대한 실험을 수행하도록 한다.
본 연구는 복잡한 전처리과정이 필요했던 기존 자세 기반 방식을 개선한 예측 기술을 적용하여 감정을 표현하는 동작인식을 빠르고 효과적으로 처리하는 방법을 제안한다. 그리고 동작 인식의 대표적인 두 가지 흐름인 자세기반과 외형기반 동작 인식 방법 그리고 두 방법의 특징을 조합한 조합 방법을 비교함으로써 자세 예측을 이용한, 전처리과정이 필요 없는 자세 기반 감정 동작인식의 새로운 방향을 제시하고자 한다.
본 연구에 적용한 색상, 시공간적 기울기 등의 외형기반의 특징과 관절거리, 평면, 자세 등의 자세기반 특징을 추출한 다음 이를 학습하고 분류하는 방법에 대해 설명한다. 동작 특징과 학습에 적용한 기호는 Table 1과 같다.
본 연구에서는 감정을 드러낸 동작을 대상으로 자세 예측을 이용한 자세기반 동작 인식 기술을 제안하였다. 제안 방법의 타당성을 설명하기 위해 현재 가장 일반적인 동작 인식 기술로 이용되고 있는 외형특징 기반 방식과의 비교를 수행하였다.
1과 같이 동작 인식의 대표적 두 가지 접근 방식인 외형기반과 자세 기반 방식의 비교 실험과 더불어 두 방법의 특징을 조합한 방법도 실험하여 동작 인식 기술에 가장 효과적인 접근 방식을 제시하고자 한다. 실험에서는 사람의 다양한 동작 중 인식대상 동작에 집중하기 위한 정확한 인식 도메인을 설정하는 것이 필요하므로 감정 표현 동작을 대상으로 동작 인식 접근 방식에 대한 실험을 수행하도록 한다.

제안 방법

자세 기반의 특징에 대해서는 동작 인식에 상세한 자세 특징이 필요한지 분석하기 위해 Fig. 5(a), 5(b)와 같이 3D 스켈레톤의 관절 전체를 이용한 집합과 관절을 13개로 축소한 집합을 나누어 랜덤포레스트를 학습시켰다. 최적 수준의 자세를 예측하기 위한 자세 기반의 특징 실험을 위해 5 프레임의 시간에 학습 당 200개의 자세 패치를 이용하였다.
각 자세 특징에 대해 모든 노드에 500번의 무작위 테스트를 생성하여 15개의 깊이가 있는 7개 트리를 학습시켰다. 정지, 걷기 두 가지 동작과 기쁨, 두려움, 혐오, 놀람, 슬픔 분노 6가지 기본 감정 동작으로 구축한 20개의 데이터집합에서 13개는 학습용으로, 나머지 7개는 테스트용으로 하여 동작 클래스 당 40개 정도의 인스턴스를 추출하였다.
신체 특징을 이용한 동작 인식 비교를 위해 실내 모니터링 시나리오를 설정하고 20대 남녀 대학생을 실험자로 하여 다촛점 자세 표정 데이터를 추출하였다. 감정을 드러내는 동작을 포착하기 위해 동작자에게 실제 자연스러운 감정 자세를 취하게 했으며 외형기반의 특징 추출을 위해 배경의 변화를 일으키는 것들을 다수 제거한 채로 고정된 카메라를 통해 동작을 모니터링했다. 실험에서는 주어진 3D 관절 위치를 이용, 마커없는 모셥캡쳐 시스템으로 관절 위치를 자연스럽게 결정하도록 하여 마커에서 직접 측정한 값이 아닌 실제 자세 예측 결과를 이용한다.
관절 거리 특징만을 이용할 때의 사례를 테스트하기 위해 Fig. 6처럼 같은 노드 위치에서 다른 감정 동작을 취하는 관절 특징을 실험하였다. Fig.
대상 동작은 잉여 특징의 채널 수가 증가할 때 랜덤포레스트를 통해 관측하였다. 모든 특징을 같이 적용했을 때 노드에서 특징 선택의 결과는 Fig.
정지, 걷기 두 가지 동작과 기쁨, 두려움, 혐오, 놀람, 슬픔 분노 6가지 기본 감정 동작으로 구축한 20개의 데이터집합에서 13개는 학습용으로, 나머지 7개는 테스트용으로 하여 동작 클래스 당 40개 정도의 인스턴스를 추출하였다. 랜덤 포레스트의 출력을 각 동작의 신뢰도로 정규화하여 주어진 시간에 모든 동작의 값을 1로 요약했다.
랜덤포레스트를 이용한 보팅을 수행하여 시공간적 특징 패치와 동작 간의 매핑을 학습하고 포레스트의 각 트리는 동시에 여러 감정 동작 클래스를 판별하도록 학습한다. 학습 후에는 트리의 리프 노드 결과 집합을 클래스의 공유특징인 판별 코드북으로 간주하고 쿼리 동작이 주어졌을 때 이 판별 코드북을 통해 동작을 판별 분류한다.
이미지시퀀스 내 동작을 분류하기 위해 테스트 트랙에서 촘촘하게 패치를 추출하여 포레스트의 모든 트리를 통과하도록 한다. 리프가 없는 노드에 저장된 이진 테스트에 따라 패치는 분할되고 도달한 리프에 따라 p_c에 비례하여 동작 레이블과 각 클래스 c의 시간 중심에 보팅을 실시한다. 즉, #일 때 감정 동작 클래스 c에 대한 단일 패치 집합 A_c(p)의 분류는 식 (8)와 같이 트리 T 에서 모든 패치의 출현 조건부확률 ρ(A _c(p)|I(q))를 통합하여 패치를 보팅함으로써 이미지 시퀀스 동작이 어느 감정 동작 채널에 속하는지 판별한다.
마지막으로 추출된 동작에서 발생한 오류를 시뮬레이션하기 위해 가우시안 잡음이 있는 테스트 관절 데이터로 바꾸어 자세 기반 특징의 강건성을 테스트했다. 분류 정확성 대비 잡음 결과는 Fig.
조합특징을 위해서는 외형기반 특징과 같은 실험환경을 설정하였다. 무작위로 선택한 이진 테스트를 생성할 때 절반은 외형 특징으로 나머지 절반은 자세 특징으로 하여 분류기가 최적의 테스트와 특징을 자동으로 결정하도록 하였다.
본 연구에서는 이미지에서 사람의 동작을 검출하고 분류하기 위해 픽셀 기반의 래스터이미지에서 기하학적 성분을 추출하는 방법인 허프(Hough)변환과 Fig. 4와 같이 랜덤 포레스트[14]를 이용한 집단 학습과 분류를 수행한다. 허프변환은 여러 가지 특징을 동시에 다루는데 장점이 있고 랜덤 포레스트 분류기는 적은 계산 양으로 높은 식별 성능을 얻을 수 있다.
자세 특징 정보는 일반적으로 움직이는 빛 디스플레이[2], 동작 포착시스템[1], 세그멘테이션[15]을 통해 획득했다. 시퀀스 그 자체는 예제 정합[2][16]이나 HMM과 같은 상태 공간 모델로 분류하였다. 이 연구들은 자세기반의 방식으로 분류한다.
감정을 드러내는 동작을 포착하기 위해 동작자에게 실제 자연스러운 감정 자세를 취하게 했으며 외형기반의 특징 추출을 위해 배경의 변화를 일으키는 것들을 다수 제거한 채로 고정된 카메라를 통해 동작을 모니터링했다. 실험에서는 주어진 3D 관절 위치를 이용, 마커없는 모셥캡쳐 시스템으로 관절 위치를 자연스럽게 결정하도록 하여 마커에서 직접 측정한 값이 아닌 실제 자세 예측 결과를 이용한다.
연구에 필요한 자세 기반의 특징은 감정을 드러낸 동작을 형성하는 서로 연관된 3D 관절 정보를 이용하고, 외형기반의 특징은 신체 모델링 대신 비디오 데이터에서 직접 외형 특징을 추출하여 이용한다. 추출한 자세기반의 특징과 외형 기반의 특징 집합 그리고 두 가지 특징을 조합하여 단일 시스템 상태로 만든 조합 특징에 각각 동일한 동작 분류기[14]를 적용하여 그 결과를 고찰함으로써 감정 표현 동작 인식을 위한 자세기반, 외형 기반, 조합 방식 총 세 가지 접근 방식의 인식 성능을 비교하고 자세 예측을 통한 자세기반 방식의 효과를 제시한다.
외형기반의 특징으로는 배경 추출 방법을 이용하여 실루엣을 생성하고 동작 트랙에 연결된 바운딩 박스를 추출했다. 학습 단계에서는 15×15×5 크기의 1200 패치를 무작위로 선택하였다.
시퀀스 그 자체는 예제 정합[2][16]이나 HMM과 같은 상태 공간 모델로 분류하였다. 이 연구들은 자세기반의 방식으로 분류한다.
자세 기반 특징을 이용할 때 가장 큰 문제점 중 하나는 의미상으로 유사한 동작이 수치상 반드시 유사하지 않다는 것이다[15][22]. 이를 고려하여 직접 동작 도메인상의 자세 특징 모두를 대상으로 전체 관절 관계를 모두 설명해야 하지만 그럴 수 없어 본 연구에서는 정지 자세와 걷기 자세 그리고 짧은 감정 자세 시퀀스에서 특정 관절간의 기하학적 관계를 설명한 3D 스켈레톤 관절 관계를 자세 특징으로 이용하고 이 특징으로 자세를 예측하여 동작 클래스를 분류한다. 관계적 자세 특징은 [24]에서 소개된 것으로 모션캡쳐 데이터를 추출한 후 인덱싱하여 이용한다.
제안 방법의 타당성을 설명하기 위해 현재 가장 일반적인 동작 인식 기술로 이용되고 있는 외형특징 기반 방식과의 비교를 수행하였다. 이를 위해 비디오 데이터에서 추출한 저수준의 외형 특징만으로 높은 동작 인식 성능을 보이는지를 확인하는 방법으로 외형특징 기반 방식과 자세 예측 기술을 이용한 자세특징 기반 방식을 비교하였다. 실험결과는 동일한 데이터집합에 대해 동일한 분류기를 적용했을 때 자세기반의 특징방식이 외형 기반의 특징보다 높은 분류 성능을 보였다.
이와 같은 방법으로 관절 거리, 평면, 정규 평면, 속도, 정규 속도관절 등 자세를 결정하는 특징만을 선택하여 감정 자세를 설정하고 이를 이용하여 자세를 미리 예측함으로써 관절전체를 이용하거나 많은 자세 클래스 설정으로 인해 전처리 학습과정이 복잡했던 기존 자세기반 동작 인식과 차별화했다. 자세 예측은 5.
본 연구에서는 감정을 드러낸 동작을 대상으로 자세 예측을 이용한 자세기반 동작 인식 기술을 제안하였다. 제안 방법의 타당성을 설명하기 위해 현재 가장 일반적인 동작 인식 기술로 이용되고 있는 외형특징 기반 방식과의 비교를 수행하였다. 이를 위해 비디오 데이터에서 추출한 저수준의 외형 특징만으로 높은 동작 인식 성능을 보이는지를 확인하는 방법으로 외형특징 기반 방식과 자세 예측 기술을 이용한 자세특징 기반 방식을 비교하였다.
최적 수준의 자세를 예측하기 위한 자세 기반의 특징 실험을 위해 5 프레임의 시간에 학습 당 200개의 자세 패치를 이용하였다. 조합특징을 위해서는 외형기반 특징과 같은 실험환경을 설정하였다. 무작위로 선택한 이진 테스트를 생성할 때 절반은 외형 특징으로 나머지 절반은 자세 특징으로 하여 분류기가 최적의 테스트와 특징을 자동으로 결정하도록 하였다.
연구에 필요한 자세 기반의 특징은 감정을 드러낸 동작을 형성하는 서로 연관된 3D 관절 정보를 이용하고, 외형기반의 특징은 신체 모델링 대신 비디오 데이터에서 직접 외형 특징을 추출하여 이용한다. 추출한 자세기반의 특징과 외형 기반의 특징 집합 그리고 두 가지 특징을 조합하여 단일 시스템 상태로 만든 조합 특징에 각각 동일한 동작 분류기[14]를 적용하여 그 결과를 고찰함으로써 감정 표현 동작 인식을 위한 자세기반, 외형 기반, 조합 방식 총 세 가지 접근 방식의 인식 성능을 비교하고 자세 예측을 통한 자세기반 방식의 효과를 제시한다.
학습 단계에서는 15×15×5 크기의 1200 패치를 무작위로 선택하였다. 카메라 시점에 따라 각 포레스트를 별도로 학습하여 여러 시점에서의 출력 값을 결합하는 분류기 조합 방식을 이용하였다.
랜덤포레스트를 이용한 보팅을 수행하여 시공간적 특징 패치와 동작 간의 매핑을 학습하고 포레스트의 각 트리는 동시에 여러 감정 동작 클래스를 판별하도록 학습한다. 학습 후에는 트리의 리프 노드 결과 집합을 클래스의 공유특징인 판별 코드북으로 간주하고 쿼리 동작이 주어졌을 때 이 판별 코드북을 통해 동작을 판별 분류한다. 랜덤포레스트의 각 트리 T는 학습시퀀스에서 임의로 샘플링한 패치 집합{A_i = (I_i, c_i, d_i)}으로 만들어진다.

대상 데이터

신체 특징을 이용한 동작 인식 비교를 위해 실내 모니터링 시나리오를 설정하고 20대 남녀 대학생을 실험자로 하여 다촛점 자세 표정 데이터를 추출하였다. 감정을 드러내는 동작을 포착하기 위해 동작자에게 실제 자연스러운 감정 자세를 취하게 했으며 외형기반의 특징 추출을 위해 배경의 변화를 일으키는 것들을 다수 제거한 채로 고정된 카메라를 통해 동작을 모니터링했다.
동작을 인식하는 초기 연구는 이미지 프레임에서 관절 위치를 찾아 자세의 특징을 시퀀스로 연결하여 처리하는 것에 중점을 두었다. 자세 특징 정보는 일반적으로 움직이는 빛 디스플레이[2], 동작 포착시스템[1], 세그멘테이션[15]을 통해 획득했다. 시퀀스 그 자체는 예제 정합[2][16]이나 HMM과 같은 상태 공간 모델로 분류하였다.
각 자세 특징에 대해 모든 노드에 500번의 무작위 테스트를 생성하여 15개의 깊이가 있는 7개 트리를 학습시켰다. 정지, 걷기 두 가지 동작과 기쁨, 두려움, 혐오, 놀람, 슬픔 분노 6가지 기본 감정 동작으로 구축한 20개의 데이터집합에서 13개는 학습용으로, 나머지 7개는 테스트용으로 하여 동작 클래스 당 40개 정도의 인스턴스를 추출하였다. 랜덤 포레스트의 출력을 각 동작의 신뢰도로 정규화하여 주어진 시간에 모든 동작의 값을 1로 요약했다.
5(a), 5(b)와 같이 3D 스켈레톤의 관절 전체를 이용한 집합과 관절을 13개로 축소한 집합을 나누어 랜덤포레스트를 학습시켰다. 최적 수준의 자세를 예측하기 위한 자세 기반의 특징 실험을 위해 5 프레임의 시간에 학습 당 200개의 자세 패치를 이용하였다. 조합특징을 위해서는 외형기반 특징과 같은 실험환경을 설정하였다.
학습 단계에서는 15×15×5 크기의 1200 패치를 무작위로 선택하였다.

성능/효과

Fig. 6(c)와 같이 여러 특징을 조합했을 때의 인식 성능은 현격히 개선되지 않았으며 오히려 가장 높은 인식 결과를 보인 단일 특징보다 특징을 조합한 인식결과가 더 낮기도 했다.
3.1절에서 설명한 외형 기반 특징을 이용하여 감정 자세를 분류한 결과 0.698의 분류 성능을 보였다. 정규화된 분류기 출력 예는 Fig.
(c)는 200개 프레임으로 구성된 0-7개의 에피소드에 대한 외형기반, 자세기반 그리고 조합 특징을 정규화한 감정 신뢰도이다. 동작 인식 신뢰도는 외형 기반보다 자세 기반의 특징을 이용한 동작 인식에서 더 높은 결과를 보였다. 특징을 더 정확하게 제공하면 외형기반의 특징보다 자세기반의 특징이 더 높은 판별력을 보임을 알 수 있다.
798의 평균 인식 값을 보여준다. 두려움이 모든 경우에서 가장 인식율이 낮은 감정이었고 혐오와 슬픔이 자세 기반 특징을 이용한 인식 방식에서 가장 개선된 인식율을 보였다.
자세 기반의 동작 인식 방법은 신체부위의 정확한 세그멘테이션과 다리 움직임추적에 별도의 전처리과정을 요구하기 때문에 동작 인식 연구자들이 선호하지 않았으나 본 연구를 통해 상황에 따라 자세 예측을 하면 자세 기반 방식에 별도의 전처리 과정이 필요하지 않음을 알 수 있다. 또한 비디오 데이터에 잡음이 많아지면 완벽한 자세 예측을 할 수 없기 때문에 자세 기반의 특징방식이 외형기반 방식과 동작 인식 성능이 같거나 더 나은 분류 성능을 보임을 확인하였다.
물론 외형기반의 접근 방법은 자세기반 방법보다 더 다용도로 사용가능하며 자세를 추출하지 못하는 여러 상황에서 쉽게 적용할 수 있는 장점이 있다. 또한 외형기반의 특징은 자세만으로 포착하지 못하는 상황 정보를 인코딩할 수 있다는 점에서 계속 동작 인식에 다양하게 적용될 것이지만 실험 결과, 자세가 복잡한 동작 클래스인 경우 저수준 특징에서는 직접 동작을 학습하기 아주 어려우므로 고수준 정보를 통해서 주로 동작 인식이 이루어지기 때문에 잡음이 많은 동작데이터와 복합한 외형상의 문제로 인해 외형기반 접근 방식의 적용이 어려운 경우 자세 예측을 이용한 자세기반 특징 기반의 동작 인식 방식을 적용할 수 있음을 확인하였다.
모든 자세 기반의 특징은 외형기반의 특징에 비해 7-10% 더 나은 성능을 보였다. 전체 스켈레톤을 그대로 이용하여 테스트한 자세 기반의 특징 중 속도 특징과 평면 특징은 비슷한 인식 결과를 나타냈고 이 특징들은 관절거리 특징보다는 다소 높은 인식 결과를 보였다.
이를 위해 비디오 데이터에서 추출한 저수준의 외형 특징만으로 높은 동작 인식 성능을 보이는지를 확인하는 방법으로 외형특징 기반 방식과 자세 예측 기술을 이용한 자세특징 기반 방식을 비교하였다. 실험결과는 동일한 데이터집합에 대해 동일한 분류기를 적용했을 때 자세기반의 특징방식이 외형 기반의 특징보다 높은 분류 성능을 보였다.
외형기반 특징과 자세 기반 특징을 조합했을 때 인식 성능은 별로 개선되지 않았으며 평균 0.806의 분류 성능을 보였다. 특징을 조합한 분류기의 인식률은 Table 3(c)와 같다.
이 외, 동작을 자세만으로 분류하지 못할 때 외형과 자세 특징을 조합한 방법이 가장 이상적인 인식 수단이 될 것으로 예상했으나 단일 특징을 이용한 인식 방법보다 조합한 방식의 인식 성능이 높지 않아 단일 특징을 이용한 인식방법의 장점을 보였다.
자세 기반의 동작 인식 방법은 신체부위의 정확한 세그멘테이션과 다리 움직임추적에 별도의 전처리과정을 요구하기 때문에 동작 인식 연구자들이 선호하지 않았으나 본 연구를 통해 상황에 따라 자세 예측을 하면 자세 기반 방식에 별도의 전처리 과정이 필요하지 않음을 알 수 있다. 또한 비디오 데이터에 잡음이 많아지면 완벽한 자세 예측을 할 수 없기 때문에 자세 기반의 특징방식이 외형기반 방식과 동작 인식 성능이 같거나 더 나은 분류 성능을 보임을 확인하였다.
7과 같다. 잡음이 많아지면 가속도 특징의 분류 성능은 빠르게 저하되는 반면 관절 거리와 평면 특징의 분류 성능은 점차적으로 낮아지면서 각 관절에 추가된 잡음 범위가 75mm에 이를 때까지 비슷한 분류 성능을 유지함을 알 수 있다. 잡음 추가 범위가 100mm에 이르면 자세 기반 동작 인식 성능은 외형기반 동작 인식 방법과 거의 비슷해진다.
모든 자세 기반의 특징은 외형기반의 특징에 비해 7-10% 더 나은 성능을 보였다. 전체 스켈레톤을 그대로 이용하여 테스트한 자세 기반의 특징 중 속도 특징과 평면 특징은 비슷한 인식 결과를 나타냈고 이 특징들은 관절거리 특징보다는 다소 높은 인식 결과를 보였다. 자세기반 특징에 따른 성능은 Table 2와 같다.
동작 인식 신뢰도는 외형 기반보다 자세 기반의 특징을 이용한 동작 인식에서 더 높은 결과를 보였다. 특징을 더 정확하게 제공하면 외형기반의 특징보다 자세기반의 특징이 더 높은 판별력을 보임을 알 수 있다.

후속연구

향후 연구에서는 데이터로부터 추출한 저수준 정보와 저수준 정보 중 어느 쪽을 이용해야 상황정보를 더 잘 학습할 수 있는지에 대한 문제를 실험하고 신체 동작을 통한 감정 표현 외 다양한 상황에서 나타나는 대상의 주요 움직임을 직접 이해할 수 있도록 동작 시나리오를 다양화하여 제안 방식을 계속 테스트할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	외형기반의 방법의 장점은?	대신 동작 인식 대상이 특정 영화 시퀀스[3], 스포츠 중계방송[4], 유투브 비디오[5]와 같은 자연스러운 이미지 시퀀스를 분석하는 형태로 바뀌면서 사람의 신체를 고수준으로 모델링하는 대신 점차 추상적이고 저수준의 외형 특징으로 동작을 분류하는 외형기반의 방법[6-9]을 주로 이용하고 있다. 외형기반의 방법은 고수준 특징 처리를 하지 않기 때문에 자세 예측을 해야 하는 어려움을 피할 수 있으며 외형 특징이 사람의 신체에만 한정되지 않기 때문에 배경과 같은 상황인식 정보를 반영할 수 있다는 장점이 있다. 또한 외형기반의 시스템은 사람의 외형, 복잡한 배경 분리, 여러 시점처리와 같이 클래스 간에 변화가 다양한 데이터를 처리할 수 있어 자세 예측이 어려운 이미지나 저 해상도 이미지에도 적용할 수 있다[7].
	자세 기반의 동작인식 접근 방식이 최근 거의 주목을 받지 못한 이유는?	동작에 대한 초기 연구는 관절 움직임을 이용해 신체 부위를 추적하는 것에 중점을 두었다[1-2]. 동작은 관절 자세의 연속이라는 정의에서 파생한 자세 기반의 동작인식 접근 방식은 가장 간단한 방법이지만 신체 관절 부위를 정확하게 추적해야 하기 때문에 사람의 자세를 정확히 추출해야 하고 실제 이미지 조건에서 처리해야 한다는 문제로 인해 최근에는 거의 주목을 못 받고 있다.
	3D 형태의 스켈레턴 자세를 분석할 때 자세기반 방식을 적용하는 것이 적절한 이유는?	하지만 자세기반 방식은 동작 인식 성능이 탁월하며 외형기반 동작 인식 방식의 문제점으로 대두되어 온 클래스 간의 적은 변화량에도 강건하다는 장점이 있다. 특히 3D 형태의 스켈레턴 자세를 분석할 경우 시점과 외형이 불변하기 때문에 동작을 취하는 사람 간에 변화가 크지 않아 외형기반 방법으로는 동작을 인식하기가 어려우므로 자세기반 방법을 적용하는 것이 적절하다. 그리고 인식 대상의 고수준 특징 정보를 이미 추출한 상태라면 자세 기반 방식이 동작 인식의 학습과정을 단순화시킬 수 있다는 점도 큰 장점이다.

참고문헌 (24)

L. Campbell, A. Bobick. "Recognition of human body motion using phase space constraints". ICCV(International Conference on Computer Vision), 1995, pp.624-630.
D. Gavrila, L. Davis. "Towards 3-d model-based tracking and recognition of human movement: a multi-view approach". Int. Workshop on Face and Gesture Rec., 1995, pp.272-277.
I. Laptev, M. Marszałek, C. Schmid, B. Rozenfeld. "Learning realistic human actions from movies". CVPR(Computer Vision and Pattern Recognition), 2008, pp.1-8.
M. D. Rodriguez, J. Ahmed, M. Shah. "Action mach: A spatio-temporal maximum average correlation height filter for action recognition". CVPR(Computer Vision and Pattern Recognition), 2008, pp.58-65.
J.G. Liu, J.B. Luo, M. Shah. "Recognizing realistic actions from videos in the wild". CVPR(Computer Vision and Pattern Recognition), pp.1996-2003, 2009.
P. Dollar, V. Rabaud, G. Cottrell, S. Belongie. "Behavior recognition via sparse spatio-temporal features". Int. Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance (VS-PETS), 2005, pp.65-72.
A. Efros, A. Berg, G. Mori, J. Malik. "Recognizing action at a distance". ICCV(International Conference on Computer Vision), Vol.2, 2003, pp.726-733.
J. Gall, V. Lempitsky. "Class-specific hough forests for object detection". CVPR(Computer Vision and Pattern Recognition), 2009, pp.1022-1029.
J. Sivic. "Efficient visual search of videos cast as text retrieval". IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.31, No.4. pp.591-605, 2009.

상세보기
K. Schindler, L. Van Gool. "Action snippets: How many frames does human action recognition require?", CVPR(Computer Vision and Pattern Recognition), 2008, pp.1-8,
J. Bandouch, M. Beetz. "Tracking humans interacting with the environment using efficient hierarchical sampling and layered observation models, Int. Workshop on Human- Computer Interaction", 2009, pp.2040-2047,
J. Gall, A. Yao, L. Van Gool. "2d action recognition serves 3d human pose estimation", ECCV(European Conference on Computer Vision), 2010, pp.425-428.
G. Taylor, L. Sigal, D. Fleet, G. "Hinton. Dynamical binary latent variable models for 3d human pose trackin". CVPR(Computer Vision and Pattern Recognition), 2010, pp.631-638.
L. Breiman. "Random Forests. Machine Learning", Vol.45, No.1, pp.5-32, 2001.
L. Kovar, M. Gleicher. "Automated extraction and parameterization of motions in large data sets". ACM Trans. Graph., Vol.23, pp.559-568, 2004.

상세보기
C. Rao, A. Yilmaz, M. Shah. "View-invariant representation and recognition of actions". IJCV(International Journal of Computer Vision), Vol.50, No.2, 2002, pp.203-226.
D. Weinland, E. Boyer, R. Ronfard. "Action recognition from arbitrary views using 3d exemplars". ICCV(International Conference on Computer Vision), 2007, pp.1-7.
D. Weinland, E. Boyer. "Action recognition using exemplar-based embedding", CVPR(Computer Vision and Pattern Recognition), 2008, pp.1-7.
R. Li, T.P. Tian, S. Sclaroff, M. H. Yang. "3d human motion tracking with a coordinated mixture of factor analyzers". IJCV(International Journal of Computer Vision), Vol.87, 2010, pp.170-190.

상세보기
C. Thurau, V. Hlavac. "Pose primitive based human action recognition in videos or still images". CVPR(Computer Vision and Pattern Recognition), 2008, pp.1-8.
A. Klaser, M. Marszałek, C. Schmid, A. Zisserman. "Human focused action localization in video". Int. Workshop on Sign, Gesture, and Activity (SGA), 2010.
Z. Zeng, M. Pantic, G. Roisman, T. Huang, "A survey of affect recognition methods: Audio, visual, and spontaneous expressions". IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.31, No.1, pp.39-48, 2009.

상세보기
Kim Jin Ok, "A Study on Visual Perception based Emotion Recogniton using Body-Activity Posture", The KIPS Transactions: Part B, Vol.18, No.5, pp.305-314, 2010.
M. Muller, T. Roder, M. Clausen. "Efficient content-based retrieval of motion capture data". ACM Trans. Graph., Vol.24, pp.677-685, 2005.

상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증