[보고서]강인한 비강체 3차원 복원을 이용한 실용 가능한 행동인식 및 행동예측 기술 개발

오성회

[국가R&D연구보고서] 강인한 비강체 3차원 복원을 이용한 실용 가능한 행동인식 및 행동예측 기술 개발
Practical Action Recognition and Prediction Technology Using Robust 3D Non-Rigid Structure-from-Motion 원문보기

보고서 정보
주관연구기관	서울대학교 Seoul National University
연구책임자	오성회
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2016-11
과제시작연도	2015
주관부처	미래창조과학부 Ministry of Science, ICT and Future Planning
과제관리전문기관	한국연구재단 National Research Foundation of Korea
등록번호	TRKO201700014786
과제고유번호	1711029357
사업명	신진연구자지원
DB 구축일자	2017-11-18
키워드	PND 혼합 모델.자세 추정.그림 구조 모델.행동 인식.행동 예측.3차원 영상 복원.PNDMM.PND mixture model.Pose estimation.Pictorial structure model.Action recognition.Action prediction.3D reconstruction.MCMCDA.
DOI	https://doi.org/10.23000/TRKO201700014786

초록 ▼

연구의 목적 및 내용
본 연구의 목적은 동영상에서 카메라 시점과 분리된 행동을 얻고, 이를 이용해 행동인식의 성능을 높이는 방법을 제시하는 것이다. 이를 위해서 다음과 같은 내용의 연구를 수행하였다. (1차년도) 복합 행동 복원을 위한 모수적/비모수적 두 가지 방식의 Procrustean Normal Distribution 혼합 모델(PNDMM)을 개발하였다. 이를 이용하여 공분산 행렬, 저밀도 표현법 등을 이용한 행동 인식 방법을 제안하였다. (2차년도) 2차원 영상에서 2차원 포즈 후보들을 찾고, 이를 이용하여 3차원 포즈를 추정하는 알고리즘을 개발하였다. 이로부터, 커널 근사를 통한 강인한 행동 추정 방법을 제안하였다. (3차년도) 포즈 추정을 위한 노이즈 및 배경 제거 기술을 개발하였다. 또한, 3차원 깊이 카메라에서 포즈 검출 및 행동 분류를 수행 할 수 있는 랜덤 포레스트/딥러닝 기술 기반의 알고리즘을 제안하였다.

연구결과
(1차년도) 기존에 하나의 가우시안으로 비강체의 움직임을 모델링 하는 PND에 비교하여, 제안된 방식의 자세 추정 방식이 더 정확하다는 것을 Penn Action dataset에서 확인하였다. 이를 이용하여 효과적인 행동인식이 가능하다는 것도 CMU와 MHAD dataset으로 검증하였다. (2차년도) 2차원 포즈 검출이 틀릴 수 있는 경우를 대비하여, 그 후보들을 검출하고 재조합 하는 알고리즘을 제안하였고, 이를 3차원 포즈 추정에 사용하였다. 이 때 사람마다 다른 관절의 길이를 고려하기 위하여, Procrustean 정규분포의 특성을 바탕으로 그 관계를 선형 변환으로 표현하였다. 이렇게 얻어진 후보 결과들을 평가하기 위한 기준으로 2차원 검출 신뢰도, 3차원 복원 결과를 재투영 했을 때 2차원 포즈와의 차이, 관절길이 변화 정도를 사용할 것을 제안하였고, 그 결과 Leed Sports dataset 등에서 양질의 결과를 얻었다. 그리고, 동영상 속에서 각 파트에 대한 마커를 모방하기 위해서 프레임별로 포즈 후보에 대한 MCMCDA 연관방법을 개발하여 sub-JHMDB dataset에서 약 5.7%의 성능 향상을 얻었다. 또한, 가우시안 프로세스의 커널을 근사함으로써 다음 행동을 추정하는 factSPSD 알고리즘을 개발하였다. (3차년도) Elastic-net을 이용한 강인한 부분공간 학습 방법을 개발하여, 영상 속에서 사람과 배경을 효과적으로 구분하였다. 또한 1차년도에서 개발된 PNDMM을 관측 데이터에 알맞게 모델 변화 시키는 방식을 제안하여 Human Eva dataset에서 3차원 자세 추정을 하였다. 또한, 11가지 동작이 있는 데이터셋을 제작하였고, 딥러닝 기술을 이용하여 98.75%의 행동 분류 정확도를 얻었다.

연구결과의 활용계획
본 연구의 결과는 수많은 CCTV에 바로 적용되어 강인한 행동 인식 및 추정을 가능하게 한다. 따라서 감시, 보안 등의 사회 안전망 확충에 기여할 수 있을 것이다. 이를 검증하기 위하여 앞으로 본 연구진이 보유한 여러 카메라 시스템들을 활용할 계획이다. 행동 인식의 응용 분야는 CCTV 이외에도, 스마트 기기나 무인 자동차 등의 시스템 등 매우 넓으므로, 각 분야에 알맞은 추가 기술들 또한 개발할 계획이다. 또한, 최근 각광을 받고 있는 딥러닝 기술과 결합 될 수 있으므로, 더욱 진화된 3차원 복원 및 행동인식 기술을 개발할 수 있을 것으로 기대된다.

(출처 : 한글요약문 5p)

Abstract ▼

Purpose& contents
The purpose of this research is to improve the performance of the action recognition task by obtaining actions separated from a camera. To achieve this goal, we carry out following studies. (1st year) We proposed parametric/non-parametric Procrustean Normal Distribution Mixture Model (PNDMM) to reconstruct complex motions. Based on this model, covariance matrix/low-rank representation techniques are used to recognize actions. (2nd year) 3D poses are inferred by combining 2D pose candidates. We also demonstrate a robust action recognition technique based on kernel approximation. (3rd year) Image denoising and background removal algorithms are proposed to aid pose estimation. Random forest/deep learning based algorithms are proposed to detect poses and recognize actions using a depth sensor.

Result
(1st year) Compared to the existing PND that models a non-rigid body using a single Gaussian distribution, the proposed method is more accurate to estimate human pose as demonstrated on the Penn Action dataset. Based on the accurate pose, we can effectively recognize actions as demonstrated on the CMU and MHAD dataset. (2nd year) 2D pose candidates are generated and combined to obtain more accurate poses. To consider the different length of limbs of individuals, we describe the relationship using a linear transformation based on the characteristic of the Procrustean normal distribution. To evaluate such pose candidates, we proposed a novel objective function that considers confidence scores of 2D detection, re-projection errors of 3D reconstruction results, and limb lengths. By using this scheme, we were able to get good results on the Leed Sports dataset. Also, we proposed a MCMCDA-based algorithm that mimics the markers of body parts for consecutive frames and demonstrated on the sub-JHMDB dataset. Moreover, factSPSD algorithm is proposed to predict the next action by approximating the kernel of the Gaussian process. (3rd year) We effectively distinguish human and background using the proposed elastic-net based subspace clustering algorithm. We estimated 3D pose using the PNDMM and observed data of the Human Eva dataset. Finally, we build a dataset that contains 11 actions and achieved 98.75% accuracy of action recognition using a deep learning based algorithm.

Expected Contribution
The main contribution of this research is to help social security by recognizing actions using CCTVs prevailing in streets. We plan to demonstrate the effectiveness using different camera systems. Besides CCTVs, action recognition is related to various applications such as autonomous vehicles, smart devices. Also, we expect to combine our work with deep learning algorithms for further improved 3D reconstruction and action recognition performances.

(출처 : SUMMARY 6p)

목차 Contents

표지 ... 1
목차 ... 3
연구계획 요약문 ... 4
연구결과 요약문 ... 5
한글요약문 ... 5
SUMMARY ... 6
연구내용 및 결과 ... 7
1. 연구개발과제의 개요 ... 7
2. 국내외 기술개발 현황 ... 7
3. 연구수행 내용 및 결과 ... 9
4. 목표달성도 및 관련분야에의 기여도 ... 25
5. 연구결과의 활용계획 ... 25
6. 연구과정에서 수집한 해외 과학기술정보 ... 25
7. 참고문헌 ... 25
8. 연구성과 ... 26
9. 국가과학기술지식정보서비스에 등록한 연구시설·장비 현황 ... 27
10. 연구개발과제 수행에 따른 연구실 등의 안전조치 이행실적 ... 27
11. 기타사항 ... 27
끝페이지 ... 27

표/그림 (37)

표 PND혼합모델의 그래프 표현
표 제안된 PND 혼합모델
표 제안된 방법으로 복원된 3차원 형상의 다른 알고리즘과의 비교 예시 (‘+’와 ‘o’는 각각 ground truth와 복원 결과를 나타냄.)
표 비모수적 PNDMM를 이용한 실용적인 형상 복원의 예 (Penn Action 데이터 세트)
표 비모수적 PNDMM의 복합 행동의 1차원 표현결과의 예
표 공분산 값을 이용한 공분산 행렬의 이미지 표현
표 제안된 두가지 피처에 대한 행동인식 성능 (MHAD 데이터 세트)
표 제안된 지역 움직임 강조와 그룹 저밀도 표현을 이용한 행동인식 방법의 개념도
표 실시간으로 3차원 모셥캡쳐를 수행하는 모습
표 사람 자세 모델
표 Procrustes Analysis를 이용해 정렬된 전문가 와 사용자의 자세
표 전문가와 사용자의 행동의 최적의 맞 춤을 찾은 모습
표 Shark 데이터에 대한 최신 방법들의 비강체 모션 복원 결과
표 스마트폰의 가속도 정보
표 사용자들의 머리 검출결과를 이용 추적과 식별을 하는 과정
표 최단경로알고리즘을 이용한 2차원 포즈 재조합 방법
표 1차 년도에서 개발된 비지도 기반의 적응적 Procrustean 혼합 모델과 지도 기반의 Procrustean 혼합 모델의 도해 표현을 이용한 3차원 포즈 추정 알고리즘. 각 기호는 1차 년도 개발된 모델을 따른다.
표 주어진 2차원 포즈로부터 3차원 포즈를 추정한 결과의 예를 평균-최대화(EM) 방법을 통하여 구하는 과정에 해당한다
표 학습된 Procrustean 정규 분포를 선형변환을 통하여 관 절의 길이를 조절하는 방법
표 최적의 포즈 선택을 위한 3가지 평가방법
표 다수의 2차원 후보를 사용한 성능 향상의 예
표 Leed Sport 데이터 세트를 이용한 2차원 및 3차원 추정결과의 예
표 시간을 의미하며,  􎂗􎞬 는 t시간에서 검출된 ｉ번째 포즈 후보를 나타내는 특징이다. 데이터 연관은  와    를 연결하는 edge를 찾는 문제에 해당된다
표 제안된 방법을 사용하지 않은 경우 2차원 포즈 검출 결과
표 제안된 방법을 사용한 경우 2차원 포즈 검출 결과
표 제안된 factSPSD와 다른 방법과 비교한 행동 추정의 결과
표 Baseball Pitch 행동의 2차원 포즈 입력
표 3차원 포즈 복원의 예
표 상태 라벨 선택 빈도
표 Elastic-net에 기반을 둔 제안된 방법을 이용한 배경 검출의 예
표 최단경로 알고리즘을 이용한 2차원 자세 재조합 방법
표 PNDMM의 학습과 테스트 과정의 도해
표 Human Eva 데이터세트에서 제안된 방법을 통 해 복원된 3차원 자세의 모습
표 Split Function에 의해서 샘플들이 왼쪽 자식노드와 오른쪽 자식노드로 분류된 모습
표 제안된 회귀 CNN 네트워크를 이용하여 자세 인식을 하는 모습
표 본 연구에서 제안한 행동 분류 시스템의 모습
표 제안된 SOLGP와 다른 알고리즘과 의 경로 적합도 측정 결과

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국가R&D연구보고서] 강인한 비강체 3차원 복원을 이용한 실용 가능한 행동인식 및 행동예측 기술 개발
Practical Action Recognition and Prediction Technology Using Robust 3D Non-Rigid Structure-from-Motion 원문보기