본 논문은 동영상에 등장하는 다수 사람의 동작을 검출하여 검출된 동작을 개별적으로 인식하는 방법을 제안한다. 동작이 수행되는 속도 또는 크기 변화에 강인한 인식 성능을 갖기 위해 시공간축 피라미드(Spatial-Temporal Pyramid)방식을 적용한다. 동작 표현 방식을 통계적 특성 기반의 모션 그래디언트 히스토그램(MGH:Motion Gradient Histogram)으로 선택하여 인식 과정에서 발생하는 복잡도를 최소화 하였다. 다수의 동작을 검출하기 위하여 이진 차영상을 축적한 모션 에너지 이미지(MEI: Motion Energy Image) 방법을 적용하여 효율적으로 개별적 동작 영역을 획득한다. 각 영역은 동작 표현 방법인 MGH로 나타내어지고, 크기 변화에 강인하도록 피라미드 방식을 적응하여 학습된 템플릿 MGH와 유사도를 상호 비교하여 최종 인식 결과를 얻는다. 인식 성능의 평가를 위해 10개의 동영상을 활용하여 단일 객체, 다수 객체, 속도 및 크기 변화, 기존 방식과의 비교, 기타 추가 실험 등을 실시하여 다양한 조건의 영상에서 양호한 인식 결과를 확인 할 수 있었다.
본 논문은 동영상에 등장하는 다수 사람의 동작을 검출하여 검출된 동작을 개별적으로 인식하는 방법을 제안한다. 동작이 수행되는 속도 또는 크기 변화에 강인한 인식 성능을 갖기 위해 시공간축 피라미드(Spatial-Temporal Pyramid)방식을 적용한다. 동작 표현 방식을 통계적 특성 기반의 모션 그래디언트 히스토그램(MGH:Motion Gradient Histogram)으로 선택하여 인식 과정에서 발생하는 복잡도를 최소화 하였다. 다수의 동작을 검출하기 위하여 이진 차영상을 축적한 모션 에너지 이미지(MEI: Motion Energy Image) 방법을 적용하여 효율적으로 개별적 동작 영역을 획득한다. 각 영역은 동작 표현 방법인 MGH로 나타내어지고, 크기 변화에 강인하도록 피라미드 방식을 적응하여 학습된 템플릿 MGH와 유사도를 상호 비교하여 최종 인식 결과를 얻는다. 인식 성능의 평가를 위해 10개의 동영상을 활용하여 단일 객체, 다수 객체, 속도 및 크기 변화, 기존 방식과의 비교, 기타 추가 실험 등을 실시하여 다양한 조건의 영상에서 양호한 인식 결과를 확인 할 수 있었다.
In this paper, we propose the method of multiple human action recognition on video clip. For being invariant to the change of speed or size of actions, Spatial-Temporal Pyramid method is applied. Proposed method can minimize the complexity of the procedures owing to select Motion Gradient Histogram ...
In this paper, we propose the method of multiple human action recognition on video clip. For being invariant to the change of speed or size of actions, Spatial-Temporal Pyramid method is applied. Proposed method can minimize the complexity of the procedures owing to select Motion Gradient Histogram (MGH) based on statistical approach for action representation feature. For multiple action detection, Motion Energy Image (MEI) of binary frame difference accumulations is adapted and then we detect each action of which area is represented by MGH. The action MGH should be compared with pre-learning MGH having pyramid method. As a result, recognition can be done by the analyze between action MGH and pre-learning MGH. Ten video clips are used for evaluating the proposed method. We have various experiments such as mono action, multiple action, speed and site scale-changes, comparison with previous method. As a result, we can see that proposed method is simple and efficient to recognize multiple human action with stale variations.
In this paper, we propose the method of multiple human action recognition on video clip. For being invariant to the change of speed or size of actions, Spatial-Temporal Pyramid method is applied. Proposed method can minimize the complexity of the procedures owing to select Motion Gradient Histogram (MGH) based on statistical approach for action representation feature. For multiple action detection, Motion Energy Image (MEI) of binary frame difference accumulations is adapted and then we detect each action of which area is represented by MGH. The action MGH should be compared with pre-learning MGH having pyramid method. As a result, recognition can be done by the analyze between action MGH and pre-learning MGH. Ten video clips are used for evaluating the proposed method. We have various experiments such as mono action, multiple action, speed and site scale-changes, comparison with previous method. As a result, we can see that proposed method is simple and efficient to recognize multiple human action with stale variations.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 동영상에서 다수 사람의 동작을 인식하고, 동작의 속도나 크기 변화에 강인하게 인식하는 방법을 제안하였다. 제안하는 방법론을 통해 기존의 동작 인식 방법들이 갖는 몇 가지 문제점을 해결하고 성능 면에서 비교 가능할 정도의 결과를 얻었다.
본 논문은 동영상 내에서 나타나는 사람의 동작을 인식하는 방법을 제안한다. 동작의 인식을 위해 필요한 사전 학습을 최소화하여 복잡한 모델링 과정 없이 구분되는 동작 자체의 특징만으로 간단하게 인식이 가능하도록 모션 그래 디 언트 히스토그램 (MGH : Motion Gra dient Histogram)을 사용하였다시공간 죽 시공간죽 상에서 효과적으로 동작을 표현하는 방법 중 하나이다[91.
본 논문은 동영상에서 나타나는 다수 사람의 동작을 각각 효과적으로 인식하는 방법을 제안한다. 동작 인식은 컴퓨터 비전 분야에서 최근 활발히 진행되고 있는 연구 분야 중 하나이다.
본 연구에서는 이러한 다양한 방법론의 단점을 극복하기 위한 방안을 제시하는데 연구의 주안점을 두었으며, 기존 연구들이 주로 독립된 하나의 객체에 대한 인식을 위주로 연구하는 반면, 본 논문에서는 동영상 내에서 동시에 나타나는 다수 객체에 대한 인식을 수행하는 방안을 제시하였다. 또한, 동일한 동작에 대한 객체의 크기나 움직임의 속도 차이에도 강인한 인식이 가능하도록 하는 방안을 제시하였다.
표현 방법으로 사용된다. 즉, 서로 다른 동영상 간의 MGH 유사도를 비교함으로써 동작의 유사성을 판단할 수 있게 되는 것이다. 특히 동작 대 상체의대상체의 질감에 따라 민감하지 않게 하기 위해 전처리로써 블러링 과정을 추가해 주는 것이 일반적이다.
제안 방법
학습 과정 단계에서 생성, 저장한다. MGH의 특성상 크기 변화가 심하지 않은 경우는 상호 유사도가 높게 나타나므로 실험을 통해 유사도의 차이가 크게 나타나는 크기 비율을 고려하여 공간 축 피라미드를 생성한다. 그림 3(b)에서는 원본의 50%, 150%를 각각 비교한 것으로, 50%인 경우 원본의 MGH와 많은 차이가 나타나는 것을 알 수 있고, 150%인 경우 원본과 유사함을 알 수 있다.
단, 이와 같은 실험은 FWS 간격 내에서 발생하는 상이한 동작의 중첩으로 나타나는 오류가 발생할 가능성이 있으므로, 그러한 오류를 배제하고 순수하게 동작의인식율을 비교하기 위해 동작이 시작되는 시점을 수동으로 직접 지정하여 동작의 인식율을 상호 비교하는 추가 실험을 실시하였다. 그 결과 제안하는 방법의 경우 93.
동시에 나타나는 다수 사람의 동작을 각각 인식하기 위해서 동작이 발생하는 영역을 모션 에너지 이미지(MEI : Motion Energy Image)[기를 이용하여 분리하고 각각의 영역에 대해 MGH를 얻어냄으로써 다수 동작을 개별적으로 인식할 수 있도록 한다.
MGH를 얻는 알고리즘은 다음과 같다. 동영상 내의 일정 프레임 간격에서 발생하는 동작을 표현하기 위해 시공간 고려한 영상 축적체 (Space-Time Gradient Volume)를 고려한다. 이러한 S 내의 모든 위치에서는 식 ⑵에 의해 Local Space-Time Gradient (LSTG)를 얻을 수 있다(실제 계산은 식 ⑶ 참고).
제시하였다. 또한, 동일한 동작에 대한 객체의 크기나 움직임의 속도 차이에도 강인한 인식이 가능하도록 하는 방안을 제시하였다.
즉, 50%의 축소된 MGH는 인식 오류를 최소화 하는데 의미가 있으며, 150%인 경우는 큰 의미가없으므로 그 이상의 확대를 통해 인식의 오류를 최소화할 수 있다고 잠정적으로 판단할 수 있다. 이와 관련해서 본 논문에서는 공간 축 피라미드 적용 시 최대 50%, 100%, 180%의 세 단계를 설정(SP=3)하여 실험하였다. 200%의 확대를 하지 않은 이유는 일부 동작의 경우 200% 확대 시 전체 영역을 벗어나는 동작이 발생하므로 이 경우 인식 오류의 가능성이 크기 때문에 해당 비율 이상의 확대는 배제하였다.
제안하였다. 제안하는 방법론을 통해 기존의 동작 인식 방법들이 갖는 몇 가지 문제점을 해결하고 성능 면에서 비교 가능할 정도의 결과를 얻었다.
첫째, 단일 객체의 동작에 대한 인식뿐 아니라 동작이 발생하는 영역을 검출하는 방식을 적용하여 다수의 객체에 대한 동작 인식을 가능하게 하였다.
대상 데이터
본 논문에서 제안한 시스템은 Windows 2000에서 Visual C++ 6.0을 이용하여 구현하였으며, 펜티엄TV의 CPU 2.4 GHz와 1GB RAM의 하드웨어에서 실험하였다. 실험 데이타는 실내외 다양한 환경에서 촬영된 10개의 데이타(A~tcl, B-tl, C_t2, D-t2, E~tl, F^ntbl, G-tl, H-ncl, I-tl, J-tbcl)를 이용하였다(t:실외, n:실내, b:순간적인 장면전환 포함, c:조명변화 심한 중저화질, 숫자:동시 등장인물의 수).
4 GHz와 1GB RAM의 하드웨어에서 실험하였다. 실험 데이타는 실내외 다양한 환경에서 촬영된 10개의 데이타(A~tcl, B-tl, C_t2, D-t2, E~tl, F^ntbl, G-tl, H-ncl, I-tl, J-tbcl)를 이용하였다(t:실외, n:실내, b:순간적인 장면전환 포함, c:조명변화 심한 중저화질, 숫자:동시 등장인물의 수). 실험 데이타 A~G는 등장인물이 기본 6 동작(Walk, Bend, Jack, Jump, Wave, Run)중 일부를 수행하며, H는 다이어트 체조 6 동작, I는 집총 회전 2동작, J는 축구공 다루는 3동작을 수행하는 시나리오로 되어 있다.
데이터처리
제안하는 인식 방법과 기존 연구와의 성능 비교를 위해 동작 인식 방법 중 일반적으로 잘 알려진 Bobick과 Davis가 2001년도에 제안한 MHI(Motion History Image) 방법[기과 비교 실험을 하였다. 기본 6 동작을 임의로 실시하는 단일객체에 대한 인식 결과와 MHI 방법의 실험 결과를 그림 5에 나타내었다.
이론/모형
한다. 즉, 동영상 내의 일정 프레임 간격 (FWS) 을 기준으로 동작이 나타나는 부분에 대한 다양한 방식의 표현 방법이 하며, 이 중 본 연구에서는 Zelnik[9]이 제안한 모션 그래디언트 히스토그램을 사용한다.
성능/효과
88%의 성능을 얻었다. MHI 방법에서 인식율은 개선이 되었으나, 제안하는 방법의인식율이 여전히 더 높다는 것을 알 수 있다.
실험을 실시하였다. 그 결과 제안하는 방법의 경우 93.94%, MHI방법 경우 87.88%의 성능을 얻었다. MHI 방법에서 인식율은 개선이 되었으나, 제안하는 방법의인식율이 여전히 더 높다는 것을 알 수 있다.
데이타에 따라 프레임의 수와 적용된 FWS, 시공간축 피라미드의 정도(TP/SP), 등장하는 객체의 수, 인식하는 동작의 수, 영상이 촬영된 환경 등이 각각 상이하여 처리속도의 편차가 나타남을 알 수 있다. 그러나 순간적인 장면 전환 및 조명변화가 심한 중저화질의 J데이타의 결과를 제외하고는 전반적으로 양호한 인식 결과(평균 90.35%)를 나타내었으며 C, D데이 타에서 다수 등장 시의 인식도 가능함을 보여주었다. 특히 E, F데이타의 경우, 각각 시간 축 피라미드와 공간축 피라미드의 효과를 알아보고자 목적에 맞게 촬영한 영상(속도를 구분하여 동작을 실시하고, 줌인/줌아웃으로 객체의 크기를 의도적으로 변화시킴)으로써, 두 데이타 모두 TP/SJM/1로 하였을 때 각각 66.
일부 수행 장면을 그림 4에서 보여준다. 데이타에 따라 프레임의 수와 적용된 FWS, 시공간축 피라미드의 정도(TP/SP), 등장하는 객체의 수, 인식하는 동작의 수, 영상이 촬영된 환경 등이 각각 상이하여 처리속도의 편차가 나타남을 알 수 있다. 그러나 순간적인 장면 전환 및 조명변화가 심한 중저화질의 J데이타의 결과를 제외하고는 전반적으로 양호한 인식 결과(평균 90.
怎)와 같이 전박적으로 양호한 결과를 볼 수 있었는데, 동작 전이 부분 혹은 동작의 초기 부분(b), 그리고 무의미한 동작이 발생하는 부분(c)에서 MHI 방식 경우 일부 오류가 발생하는 것을 볼 수 있었다. <H>동영상에서의 인식율은 제안하는 방법 경우 90.90% (FW= 24, TP=2, SP=2), MHI방법 경우 81.82%로 제안하는 방법이 다소 양호함을 알 수 있었다. 특히 MHI 방법의 경우 동시에 다수의 동작이 발생하는 경우에 대한 해결방안이 없으므로 다수 동작에 대한 비교가 이론상 불가능하여 본 논문에서 제안하는 방법과의 비교 실험 결과는 의미가 없는 것으로 판단된다.
둘째, 동작을 수행하는 주체 혹은 상황에 따라 동일한 동작임에도 다른 속도 혹은 다른 크기로 나타날 수 있는데, 이에 대해 시공간축 피라미드를 적용하여 속도, 크기 변화에 강인한 인식 결과를 얻을 수 있었다.
성능 평가 결과는 정해진 FWS 간격 내에서 발생한 동작에 대해 관찰자가 직접 확인하여 학습된 동작으로 판명되고, 이때 실험 결과로써 모니터 상에 표시되는 동작이 해당 동작과 일치하는 경우, 해당 FWS에서 성공으로 판단한다. 인식 성공율(SR)은 아래 식 (6) 과 같이 계산한다.
셋째, 동작의 표현을 모션 그래디언트 히스토그램을 적용함으로써 복잡한 인체 모델링이 불필요하고, 외형적 /환경적 요소(실루엣 색상, 텍스쳐, 조명, 배경 추출 등) 의 영향에 강인하며, 계산의 복잡도를 최소화 할 수 있었다. 이는 인식을 위한 사전 학습 과정을 단순하게 할 수 있었으며, 원하는 어떤 동작이라도 단시간 내에 학습 시켜 인식 할 수 있다는 장점을 갖는다.
실험 데이타 A~G는 등장인물이 기본 6 동작(Walk, Bend, Jack, Jump, Wave, Run)중 일부를 수행하며, H는 다이어트 체조 6 동작, I는 집총 회전 2동작, J는 축구공 다루는 3동작을 수행하는 시나리오로 되어 있다. 제안한 방법은 1명 동작 인식 시 평균 8.5fps의 속도를 보였으며, 2명 동작 인식시 평균 6.5fps의 속도를 보였다.
그림 3(b)에서는 원본의 50%, 150%를 각각 비교한 것으로, 50%인 경우 원본의 MGH와 많은 차이가 나타나는 것을 알 수 있고, 150%인 경우 원본과 유사함을 알 수 있다. 즉, 50%의 축소된 MGH는 인식 오류를 최소화 하는데 의미가 있으며, 150%인 경우는 큰 의미가없으므로 그 이상의 확대를 통해 인식의 오류를 최소화할 수 있다고 잠정적으로 판단할 수 있다. 이와 관련해서 본 논문에서는 공간 축 피라미드 적용 시 최대 50%, 100%, 180%의 세 단계를 설정(SP=3)하여 실험하였다.
35%)를 나타내었으며 C, D데이 타에서 다수 등장 시의 인식도 가능함을 보여주었다. 특히 E, F데이타의 경우, 각각 시간 축 피라미드와 공간축 피라미드의 효과를 알아보고자 목적에 맞게 촬영한 영상(속도를 구분하여 동작을 실시하고, 줌인/줌아웃으로 객체의 크기를 의도적으로 변화시킴)으로써, 두 데이타 모두 TP/SJM/1로 하였을 때 각각 66.67%, 68.75%의 저조한 인식율을 보였다. 즉, 시공간축 피라미드의 적용으로 성능의 개선이 있음을 확인할 수 있었다’
82%로 제안하는 방법이 다소 양호함을 알 수 있었다. 특히 MHI 방법의 경우 동시에 다수의 동작이 발생하는 경우에 대한 해결방안이 없으므로 다수 동작에 대한 비교가 이론상 불가능하여 본 논문에서 제안하는 방법과의 비교 실험 결과는 의미가 없는 것으로 판단된다.
후속연구
그 외에 실시간 응용(사람의 동작을 컴퓨터 게임에 적용하는 등의 인터렉션 기법 응용)에 적용하기 위해서는 짧은 시간 내에 동작을 구분할 정도의 특성을 갖도록 동작의 인식 단위(FWS)를 최소로 하는 특정 동작 위주로 인식이 이루어져야 하는데(8~12프레임), 이를 위해서는 인식하고자 하는 동작의 대상에 많은 제약이 따를 것으로 여겨진다. 또한 동작 선정의 문제 외에도 실시간 처리가 가능하기 위해 수행시간 단축을 위한 최적화 과정도 고려해야 할 것으로 판단된다.
그러나 아직도 해결해야 할 문제점이 남아 있다. 본 연구는 카메라의 이동환경(팬, 틸트, 줌 등)을 고려하지 않았고, 동작의 객체가 전신이 모두 나타나는 것을 전제로 하였다는 제약조건이 있어, 일반적인 동영상에서 모두 적용이 어렵다는 문제가 있으므로, 이동 카메라 환경에 대한연구가 필요할 것이다. 또한 동작인식의 단위 (Frame Window Size) 가 고정되어 있어 해당 단위 내에 두 가지 이상의 동작이 겹치는 경우(동작전이 상태) 로 인한 인식 오류의 가능성이 높으므로 보다 나은 인식율을 위해서는 이전의 일정 간 격 마다 반복해서 인식을 수행하는 전향 슬라이딩 윈도우(Forward Sliding Window) 방식을 고려해 볼 필요가 있다고 본다.
예를 들어 1초 정도에 인식이 가능한 동작이라면 큰 문제가 없겠지만 동작의 특성상 4~5초 정도의 긴 시간을 요하는 인식 동작이라면 1초의 FWS로는 인식 오류가 당연히 높아질 수밖에 없는 것이다. 이러한 문제는 일반적인 동영상을 다루는 인식 연구에서 나타나는 근본적인 문제점으로써 이에 대한 보완적인 해결 연구가 필요할 것으로 보인다.
참고문헌 (11)
I.Haritaoglu, D.Harwood, L.S.Davis, 'W4:real-time surveillance of people and their activities,' IEEE Trans. on Pattern Analysis and Machine Intelligence, 22(8), 2000, pp. 809-830
Shearer, Bunke., Venkatesh, 'Video indexing and similarity retrieval by largest common subgraph detection using decision trees,' Pattern Recognition 34, 2001, pp. 1075-1091
Alex Pentland, 'Looking at people: sensing for ubiquitous and wearable computing,' IEEE Trans. on Pattern Analysis and Machine Intelligence, 22(1), 2000, pp. 107-119
M.Yang, N.Ahuja, and M.Tabb, 'Extraction of 2D motion trajectories and its application to hand gesture recognition,' IEEE Trans. on Pattern Analysis and Machine Intelligence, 24(8):pp. 1061-1074, 2002
Y.Yacoob and M.J.Black, 'Parameterized modeling and recognition of activities,' Journal of Computer Vision and Image Understanding 73(2):pp. 232-247, 1999
S.X.Ju, M.J.Black, and Y.Yacoob, 'Cardboard people: A parameterized model of articulated image motion,' In 2nd Int. Conf. On Automatic Face and Gesture Recognition, pp. 38-44, Oct. 1996
A.Bobick and J.Davis, 'The recognition of human movement using temporal templates,' IEEE Pattern Analysis and Machine Intelligence, 23(3):pp. 257-267, 2001
M.Blank, L,Gorelick, E,Shechtman, M.Irani and R. Basri, 'Actions as Space-Time Shapes,' IEEE International Conference on Computer Vision, pp. 1395-1402, 2005
L.Zelnik Manor and M.Irani, 'Event-based analysis of video,' IEEE Conference on Computer Vision and Pattern Recognition, Vol.2, pp. 123-130, 2001
A.Efros, A.Berg, G.Mori and J.Malik, 'Recognizing action at a distance,' IEEE International Conference on Computer Vision, Vol.2, pp. 726-733, 2003
E. Shechtman and M. Irani, 'Space-Time Behavioral Correlation,' IEEE Conference on Computer Vision and Pattern Recognition, Vol.1, pp. 405-412, 2005
※ AI-Helper는 부적절한 답변을 할 수 있습니다.