[논문]모션 그래디언트 히스토그램 기반의 시공간 크기 변화에 강인한 동작 인식

김광수; 김태형; 곽수영; 변혜란

문제 정의

본 논문에서는 동영상에서 다수 사람의 동작을 인식하고, 동작의 속도나 크기 변화에 강인하게 인식하는 방법을 제안하였다. 제안하는 방법론을 통해 기존의 동작 인식 방법들이 갖는 몇 가지 문제점을 해결하고 성능 면에서 비교 가능할 정도의 결과를 얻었다.
본 논문은 동영상 내에서 나타나는 사람의 동작을 인식하는 방법을 제안한다. 동작의 인식을 위해 필요한 사전 학습을 최소화하여 복잡한 모델링 과정 없이 구분되는 동작 자체의 특징만으로 간단하게 인식이 가능하도록 모션 그래 디 언트 히스토그램 (MGH : Motion Gra dient Histogram)을 사용하였다시공간 죽 시공간죽 상에서 효과적으로 동작을 표현하는 방법 중 하나이다[91.
본 논문은 동영상에서 나타나는 다수 사람의 동작을 각각 효과적으로 인식하는 방법을 제안한다. 동작 인식은 컴퓨터 비전 분야에서 최근 활발히 진행되고 있는 연구 분야 중 하나이다.
본 연구에서는 이러한 다양한 방법론의 단점을 극복하기 위한 방안을 제시하는데 연구의 주안점을 두었으며, 기존 연구들이 주로 독립된 하나의 객체에 대한 인식을 위주로 연구하는 반면, 본 논문에서는 동영상 내에서 동시에 나타나는 다수 객체에 대한 인식을 수행하는 방안을 제시하였다. 또한, 동일한 동작에 대한 객체의 크기나 움직임의 속도 차이에도 강인한 인식이 가능하도록 하는 방안을 제시하였다.
표현 방법으로 사용된다. 즉, 서로 다른 동영상 간의 MGH 유사도를 비교함으로써 동작의 유사성을 판단할 수 있게 되는 것이다. 특히 동작 대 상체의대상체의 질감에 따라 민감하지 않게 하기 위해 전처리로써 블러링 과정을 추가해 주는 것이 일반적이다.

제안 방법

학습 과정 단계에서 생성, 저장한다. MGH의 특성상 크기 변화가 심하지 않은 경우는 상호 유사도가 높게 나타나므로 실험을 통해 유사도의 차이가 크게 나타나는 크기 비율을 고려하여 공간 축 피라미드를 생성한다. 그림 3(b)에서는 원본의 50%, 150%를 각각 비교한 것으로, 50%인 경우 원본의 MGH와 많은 차이가 나타나는 것을 알 수 있고, 150%인 경우 원본과 유사함을 알 수 있다.
단, 이와 같은 실험은 FWS 간격 내에서 발생하는 상이한 동작의 중첩으로 나타나는 오류가 발생할 가능성이 있으므로, 그러한 오류를 배제하고 순수하게 동작의인식율을 비교하기 위해 동작이 시작되는 시점을 수동으로 직접 지정하여 동작의 인식율을 상호 비교하는 추가 실험을 실시하였다. 그 결과 제안하는 방법의 경우 93.
동시에 나타나는 다수 사람의 동작을 각각 인식하기 위해서 동작이 발생하는 영역을 모션 에너지 이미지(MEI : Motion Energy Image)[기를 이용하여 분리하고 각각의 영역에 대해 MGH를 얻어냄으로써 다수 동작을 개별적으로 인식할 수 있도록 한다.
MGH를 얻는 알고리즘은 다음과 같다. 동영상 내의 일정 프레임 간격에서 발생하는 동작을 표현하기 위해 시공간 고려한 영상 축적체 (Space-Time Gradient Volume)를 고려한다. 이러한 S 내의 모든 위치에서는 식 ⑵에 의해 Local Space-Time Gradient (LSTG)를 얻을 수 있다(실제 계산은 식 ⑶ 참고).
제시하였다. 또한, 동일한 동작에 대한 객체의 크기나 움직임의 속도 차이에도 강인한 인식이 가능하도록 하는 방안을 제시하였다.
즉, 50%의 축소된 MGH는 인식 오류를 최소화 하는데 의미가 있으며, 150%인 경우는 큰 의미가없으므로 그 이상의 확대를 통해 인식의 오류를 최소화할 수 있다고 잠정적으로 판단할 수 있다. 이와 관련해서 본 논문에서는 공간 축 피라미드 적용 시 최대 50%, 100%, 180%의 세 단계를 설정(SP=3)하여 실험하였다. 200%의 확대를 하지 않은 이유는 일부 동작의 경우 200% 확대 시 전체 영역을 벗어나는 동작이 발생하므로 이 경우 인식 오류의 가능성이 크기 때문에 해당 비율 이상의 확대는 배제하였다.
제안하였다. 제안하는 방법론을 통해 기존의 동작 인식 방법들이 갖는 몇 가지 문제점을 해결하고 성능 면에서 비교 가능할 정도의 결과를 얻었다.
첫째, 단일 객체의 동작에 대한 인식뿐 아니라 동작이 발생하는 영역을 검출하는 방식을 적용하여 다수의 객체에 대한 동작 인식을 가능하게 하였다.

대상 데이터

본 논문에서 제안한 시스템은 Windows 2000에서 Visual C++ 6.0을 이용하여 구현하였으며, 펜티엄TV의 CPU 2.4 GHz와 1GB RAM의 하드웨어에서 실험하였다. 실험 데이타는 실내외 다양한 환경에서 촬영된 10개의 데이타(A~tcl, B-tl, C_t2, D-t2, E~tl, F^ntbl, G-tl, H-ncl, I-tl, J-tbcl)를 이용하였다(t:실외, n:실내, b:순간적인 장면전환 포함, c:조명변화 심한 중저화질, 숫자:동시 등장인물의 수).
4 GHz와 1GB RAM의 하드웨어에서 실험하였다. 실험 데이타는 실내외 다양한 환경에서 촬영된 10개의 데이타(A~tcl, B-tl, C_t2, D-t2, E~tl, F^ntbl, G-tl, H-ncl, I-tl, J-tbcl)를 이용하였다(t:실외, n:실내, b:순간적인 장면전환 포함, c:조명변화 심한 중저화질, 숫자:동시 등장인물의 수). 실험 데이타 A~G는 등장인물이 기본 6 동작(Walk, Bend, Jack, Jump, Wave, Run)중 일부를 수행하며, H는 다이어트 체조 6 동작, I는 집총 회전 2동작, J는 축구공 다루는 3동작을 수행하는 시나리오로 되어 있다.

데이터처리

제안하는 인식 방법과 기존 연구와의 성능 비교를 위해 동작 인식 방법 중 일반적으로 잘 알려진 Bobick과 Davis가 2001년도에 제안한 MHI(Motion History Image) 방법[기과 비교 실험을 하였다. 기본 6 동작을 임의로 실시하는 단일객체에 대한 인식 결과와 MHI 방법의 실험 결과를 그림 5에 나타내었다.

이론/모형

한다. 즉, 동영상 내의 일정 프레임 간격 (FWS) 을 기준으로 동작이 나타나는 부분에 대한 다양한 방식의 표현 방법이 하며, 이 중 본 연구에서는 Zelnik[9]이 제안한 모션 그래디언트 히스토그램을 사용한다.

성능/효과

88%의 성능을 얻었다. MHI 방법에서 인식율은 개선이 되었으나, 제안하는 방법의인식율이 여전히 더 높다는 것을 알 수 있다.
실험을 실시하였다. 그 결과 제안하는 방법의 경우 93.94%, MHI방법 경우 87.88%의 성능을 얻었다. MHI 방법에서 인식율은 개선이 되었으나, 제안하는 방법의인식율이 여전히 더 높다는 것을 알 수 있다.
데이타에 따라 프레임의 수와 적용된 FWS, 시공간축 피라미드의 정도(TP/SP), 등장하는 객체의 수, 인식하는 동작의 수, 영상이 촬영된 환경 등이 각각 상이하여 처리속도의 편차가 나타남을 알 수 있다. 그러나 순간적인 장면 전환 및 조명변화가 심한 중저화질의 J데이타의 결과를 제외하고는 전반적으로 양호한 인식 결과(평균 90.35%)를 나타내었으며 C, D데이 타에서 다수 등장 시의 인식도 가능함을 보여주었다. 특히 E, F데이타의 경우, 각각 시간 축 피라미드와 공간축 피라미드의 효과를 알아보고자 목적에 맞게 촬영한 영상(속도를 구분하여 동작을 실시하고, 줌인/줌아웃으로 객체의 크기를 의도적으로 변화시킴)으로써, 두 데이타 모두 TP/SJM/1로 하였을 때 각각 66.
일부 수행 장면을 그림 4에서 보여준다. 데이타에 따라 프레임의 수와 적용된 FWS, 시공간축 피라미드의 정도(TP/SP), 등장하는 객체의 수, 인식하는 동작의 수, 영상이 촬영된 환경 등이 각각 상이하여 처리속도의 편차가 나타남을 알 수 있다. 그러나 순간적인 장면 전환 및 조명변화가 심한 중저화질의 J데이타의 결과를 제외하고는 전반적으로 양호한 인식 결과(평균 90.
怎)와 같이 전박적으로 양호한 결과를 볼 수 있었는데, 동작 전이 부분 혹은 동작의 초기 부분(b), 그리고 무의미한 동작이 발생하는 부분(c)에서 MHI 방식 경우 일부 오류가 발생하는 것을 볼 수 있었다. <H>동영상에서의 인식율은 제안하는 방법 경우 90.90% (FW= 24, TP=2, SP=2), MHI방법 경우 81.82%로 제안하는 방법이 다소 양호함을 알 수 있었다. 특히 MHI 방법의 경우 동시에 다수의 동작이 발생하는 경우에 대한 해결방안이 없으므로 다수 동작에 대한 비교가 이론상 불가능하여 본 논문에서 제안하는 방법과의 비교 실험 결과는 의미가 없는 것으로 판단된다.
둘째, 동작을 수행하는 주체 혹은 상황에 따라 동일한 동작임에도 다른 속도 혹은 다른 크기로 나타날 수 있는데, 이에 대해 시공간축 피라미드를 적용하여 속도, 크기 변화에 강인한 인식 결과를 얻을 수 있었다.
성능 평가 결과는 정해진 FWS 간격 내에서 발생한 동작에 대해 관찰자가 직접 확인하여 학습된 동작으로 판명되고, 이때 실험 결과로써 모니터 상에 표시되는 동작이 해당 동작과 일치하는 경우, 해당 FWS에서 성공으로 판단한다. 인식 성공율(SR)은 아래 식 (6) 과 같이 계산한다.
셋째, 동작의 표현을 모션 그래디언트 히스토그램을 적용함으로써 복잡한 인체 모델링이 불필요하고, 외형적 /환경적 요소(실루엣 색상, 텍스쳐, 조명, 배경 추출 등) 의 영향에 강인하며, 계산의 복잡도를 최소화 할 수 있었다. 이는 인식을 위한 사전 학습 과정을 단순하게 할 수 있었으며, 원하는 어떤 동작이라도 단시간 내에 학습 시켜 인식 할 수 있다는 장점을 갖는다.
실험 데이타 A~G는 등장인물이 기본 6 동작(Walk, Bend, Jack, Jump, Wave, Run)중 일부를 수행하며, H는 다이어트 체조 6 동작, I는 집총 회전 2동작, J는 축구공 다루는 3동작을 수행하는 시나리오로 되어 있다. 제안한 방법은 1명 동작 인식 시 평균 8.5fps의 속도를 보였으며, 2명 동작 인식시 평균 6.5fps의 속도를 보였다.
그림 3(b)에서는 원본의 50%, 150%를 각각 비교한 것으로, 50%인 경우 원본의 MGH와 많은 차이가 나타나는 것을 알 수 있고, 150%인 경우 원본과 유사함을 알 수 있다. 즉, 50%의 축소된 MGH는 인식 오류를 최소화 하는데 의미가 있으며, 150%인 경우는 큰 의미가없으므로 그 이상의 확대를 통해 인식의 오류를 최소화할 수 있다고 잠정적으로 판단할 수 있다. 이와 관련해서 본 논문에서는 공간 축 피라미드 적용 시 최대 50%, 100%, 180%의 세 단계를 설정(SP=3)하여 실험하였다.
35%)를 나타내었으며 C, D데이 타에서 다수 등장 시의 인식도 가능함을 보여주었다. 특히 E, F데이타의 경우, 각각 시간 축 피라미드와 공간축 피라미드의 효과를 알아보고자 목적에 맞게 촬영한 영상(속도를 구분하여 동작을 실시하고, 줌인/줌아웃으로 객체의 크기를 의도적으로 변화시킴)으로써, 두 데이타 모두 TP/SJM/1로 하였을 때 각각 66.67%, 68.75%의 저조한 인식율을 보였다. 즉, 시공간축 피라미드의 적용으로 성능의 개선이 있음을 확인할 수 있었다’
82%로 제안하는 방법이 다소 양호함을 알 수 있었다. 특히 MHI 방법의 경우 동시에 다수의 동작이 발생하는 경우에 대한 해결방안이 없으므로 다수 동작에 대한 비교가 이론상 불가능하여 본 논문에서 제안하는 방법과의 비교 실험 결과는 의미가 없는 것으로 판단된다.

후속연구

그 외에 실시간 응용(사람의 동작을 컴퓨터 게임에 적용하는 등의 인터렉션 기법 응용)에 적용하기 위해서는 짧은 시간 내에 동작을 구분할 정도의 특성을 갖도록 동작의 인식 단위(FWS)를 최소로 하는 특정 동작 위주로 인식이 이루어져야 하는데(8~12프레임), 이를 위해서는 인식하고자 하는 동작의 대상에 많은 제약이 따를 것으로 여겨진다. 또한 동작 선정의 문제 외에도 실시간 처리가 가능하기 위해 수행시간 단축을 위한 최적화 과정도 고려해야 할 것으로 판단된다.
그러나 아직도 해결해야 할 문제점이 남아 있다. 본 연구는 카메라의 이동환경(팬, 틸트, 줌 등)을 고려하지 않았고, 동작의 객체가 전신이 모두 나타나는 것을 전제로 하였다는 제약조건이 있어, 일반적인 동영상에서 모두 적용이 어렵다는 문제가 있으므로, 이동 카메라 환경에 대한연구가 필요할 것이다. 또한 동작인식의 단위 (Frame Window Size) 가 고정되어 있어 해당 단위 내에 두 가지 이상의 동작이 겹치는 경우(동작전이 상태) 로 인한 인식 오류의 가능성이 높으므로 보다 나은 인식율을 위해서는 이전의 일정 간 격 마다 반복해서 인식을 수행하는 전향 슬라이딩 윈도우(Forward Sliding Window) 방식을 고려해 볼 필요가 있다고 본다.
예를 들어 1초 정도에 인식이 가능한 동작이라면 큰 문제가 없겠지만 동작의 특성상 4~5초 정도의 긴 시간을 요하는 인식 동작이라면 1초의 FWS로는 인식 오류가 당연히 높아질 수밖에 없는 것이다. 이러한 문제는 일반적인 동영상을 다루는 인식 연구에서 나타나는 근본적인 문제점으로써 이에 대한 보완적인 해결 연구가 필요할 것으로 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

모션 그래디언트 히스토그램 기반의 시공간 크기 변화에 강인한 동작 인식
Spatial-Temporal Scale-Invariant Human Action Recognition using Motion Gradient Histogram 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

모션 그래디언트 히스토그램 기반의 시공간 크기 변화에 강인한 동작 인식 Spatial-Temporal Scale-Invariant Human Action Recognition using Motion Gradient Histogram 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

변혜란 (68)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

모션 그래디언트 히스토그램 기반의 시공간 크기 변화에 강인한 동작 인식
Spatial-Temporal Scale-Invariant Human Action Recognition using Motion Gradient Histogram 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper