[논문]원근투영법 기반의 PTZ 카메라를 이용한 머리자세 추정

김진서; 이경주; 김계영

doi:10.3745/ktsde.2018.7.7.267

원근투영법 기반의 PTZ 카메라를 이용한 머리자세 추정
Head Pose Estimation Based on Perspective Projection Using PTZ Camera 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.7 no.7, 2018년, pp.267 - 274

김진서 (숭실대학교 컴퓨터학과) , 이경주 (숭실대학교 컴퓨터학과) , 김계영 (숭실대학교 소프트웨어학부)

초록
AI-Helper

본 논문에서는 PTZ 카메라를 이용한 머리자세추정 방법에 대하여 서술한다. 회전 또는 이동에 의하여 카메라의 외부인자가 변경되면, 추정된 얼굴자세도 변한다. 본 논문에는 PTZ 카메라의 회전과 위치 변화에 독립적으로 머리자세를 추정하는 새로운 방법을 제안한다. 제안하는 방법은 얼굴검출, 특징추출 그리고 자세추정으로 이루어진다. 얼굴검출은 MCT특징을 이용해 검출하고, 얼굴 특징추출은 회귀트리 방법을 이용해 추출하고, 머리자세 추정은 POSIT 알고리즘을 사용한다. 기존의 POSIT 알고리즘은 카메라의 회전을 고려하지 않지만, 카메라의 외부인자 변화에도 강건하게 머리자세를 추정하기 위하여 본 논문은 원근투영법에 기반하여 POSIT를 개선한다. 실험을 통하여 본 논문에서 제안하는 방법이 기존의 방법 보다 RMSE가 약 $0.6^{\circ}$ 개선되는 것을 확인했다.

Abstract ▼ AI-Helper

This paper describes a head pose estimation method using PTZ(Pan-Tilt-Zoom) camera. When the external parameters of a camera is changed by rotation and translation, the estimated face pose for the same head also varies. In this paper, we propose a new method to estimate the head pose independently on varying the parameters of PTZ camera. The proposed method consists of 3 steps: face detection, feature extraction, and pose estimation. For each step, we respectively use MCT(Modified Census Transform) feature, the facial regression tree method, and the POSIT(Pose from Orthography and Scaling with ITeration) algorithm. The existing POSIT algorithm does not consider the rotation of a camera, but this paper improves the POSIT based on perspective projection in order to estimate the head pose robustly even when the external parameters of a camera are changed. Through experiments, we confirmed that RMSE(Root Mean Square Error) of the proposed method improve $0.6^{\circ}$ less then the conventional method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

실제 사용자의 머리자세의 변화가 없을 때, 카메라의 회전과 위치가 변하면 영상에서 사용자의 머리자세는 변동된다. 따라서 본 논문에서는 카메라의 회전과 위치변화에 독립적으로 머리자세를 추정하는 기법을 제안한다.
획득한 영상은 카메라의 회전변화에 따라 실제 머리자세와 영상에서의 머리자세가 다르게 보이고, 영상에서 머리 자세를 추정할 경우 오차각이 크게 발생하는 것을 확인할 수 있다. 따라서 원근투영법을 기반으로 카메라의 회전과 위치정보를 통해 3차원 얼굴 모델이 영상에 어떻게 투영될지 예측하고 재구성한다. 얼굴검출 단계에서는 MCT 특징[6]을 이용하고, AdaBoost 분류기[7]를 통해 얼굴을 검출한다.
본 논문에서는 머리자세 추정에 대하여 서술한다. 컴퓨터 비전에서 머리자세 추정이란 이력영상을 자동으로 분석하여 머리의 위치 및 각도를 산출하는 기술을 의미하며, 얼굴인식, 시선추적, 동작인식 등에서 요소기술로 사용되고 있다.
본 논문은 총 6절로 구성되어 있고, 카메라의 위치와 회전에 독립적으로 머리자세를 추정하기 위해, PTZ 카메라를 이용해 원투영법 기반의 머리자세 추정방법을 제안한다. 2절에 서는 얼굴검출과 카메라 제어방법, 3절에서는 얼굴특징 추출 방법, 4절에서는 머리자세 추정방법, 5절에서는 실험과 결과를 분석하고, 6절에서는 결론을 도출한다.

가설 설정

s는 크기 요소로 초점거리와 카메라 투영의 중심과 3차원 모델의 참조점 사이의 거리 비율로 구한다. 3차원 모델의 투영된 점과 얼굴의 특징점과 같다고 가정하고 계산할 수 있다.
생성된 GT를 통해 POSIT 알고리즘과 제안한 방법을 통해 머리자세 각도를 추정하고 비교하였다. 카메라의 위치는 지면으로부터 약 170cm 위치에 설치해 디스플레이 상단에 카메라가 있다고 가정하였다. 카메라의 회전 범위는 Pan각은 -15° ~15° , Tilt각은 -25° ~-10° 이다.

제안 방법

Pedro Martins 등은 단일 카메라 환경에서 AAM(Active Appearance Models)[13] 과 POSIT 알고리즘을 이용해 머리자세를 추정하였다[12]. AAM을 통해 실시간으로 얼굴의 특징점을 추출 및 추적하고, POSIT 알고리즘과 3차원 모델을 이용해 머리자세를 추정하였다. 실시간으로 획득한 얼굴 특징점과 3차원 모델을 통해 빠르게 머리자세를 추정할 수 있다.
협각모드는 광각모드에서 얼굴이 검출되면 카메라의 회전을 통해 영상중심에 얼굴을 위치하고 적절한 크기의 얼굴영상을 획득하기 위해 확대한다. 광각모드에서 얼굴검출은 MCT특징과 AdaBoost 분류기를 이용해 얼굴을 검출한다. MCT특징은 Equation (1)을 통해 변환할 수 있고, 3×3 윈도우에서 0 또는 1을 가지는 지역 구조적 특징이 511개 생성되기 때문에 조명 변화에 강건하고 계산이 간단하여 얼굴검출에 소요되는 계산시간을 단축시킬 수 있다.
하지만 회귀트리를 이용한 형상 기반의 얼굴특징은 실시간 시스템에 적합하고 ASM보다 높은 정확도를 보인다. 따라서 본 논문에서는 Equation (2)를 통해 회귀트리를 이용하여 얼굴특징을 추출한다. 얼굴특징은 얼굴에서 의미 있는 눈, 코, 입 등을 포함한 68개의 점을 추출한다.
하지만 카메라의 위치와 회전에 따라서 원근투영법에 의해 영상에 보이는 사용자는 실제 자세와는 다르게 보인다. 따라서 원근투영법[16]을 기반으로 카메라의 회전정보와 위치를 통해 3차원 모델이 영상에서 어떤 자세로 투영될지 예측하고 재구성한다. 이 정보들을 기반으로 최종적으로 3차원 모델을 변환한다.
Kong 등은 모핑(morphing)된 3차원 얼굴모델을 사용해 얼굴영상에서 머리자세를 추정했다[10]. 모핑된 3차원 얼굴모델은 인종과 성별을 기준으로 구분하였고, 모델의 깊이는 얼굴 특징점들의 매개변수를 조정해 산출 했으며 얼굴을 사실적으로 표현하기 위해 모델에 질감정보 (texture)를 추가하였다. 얼굴 특징점과 3차원 모델의 대응하는 점들 사이의 차(disparity)를 최소화하는 방법으로 머리자세를 추정했다.
실제 사용자의 머리자세 추정을 위해 본 논문에서는 PTZ 카메라를 통해 사용자의 얼굴을 검출하고 원근투영법을 적용해 카메라의 위치와 회전변화에 강건한 머리자세 추정방법을 제안한다. 제안하는 방법의 개요도는 Fig.
성능 평가는 기존의 머리자세 추정 알고리즘인 POSIT 알고리즘과 제안한 방법으로 추정한 머리자세 추정 각도의 오차를 비교한다. 실험에는 카메라의 회전 변화를 포함하고 있다.
모핑된 3차원 얼굴모델은 인종과 성별을 기준으로 구분하였고, 모델의 깊이는 얼굴 특징점들의 매개변수를 조정해 산출 했으며 얼굴을 사실적으로 표현하기 위해 모델에 질감정보 (texture)를 추가하였다. 얼굴 특징점과 3차원 모델의 대응하는 점들 사이의 차(disparity)를 최소화하는 방법으로 머리자세를 추정했다. 질감정보가 추가된 모델은 얼굴을 구체적으로 표현할 수 있기 때문에 실제 얼굴과 유사한 얼굴모델을 생성할 수 있는 장점이 있다.
따라서 원근투영법을 기반으로 카메라의 회전과 위치정보를 통해 3차원 얼굴 모델이 영상에 어떻게 투영될지 예측하고 재구성한다. 얼굴검출 단계에서는 MCT 특징[6]을 이용하고, AdaBoost 분류기[7]를 통해 얼굴을 검출한다. 얼굴의 특징점은 회귀트리를 이용해 얼굴의 눈, 눈썹, 코끝, 얼굴 윤곽등의 68개 점을 추출한다[8].
얼굴을 검출하기 위해 MCT 특징을 추출하고 AdaBoost 분류기로 얼굴인지 아닌지를 판별한다. 분류기 생성을 위해 얼굴인 영상과 그렇지 않은 영상을 입력으로 한다.
Zhan-Li 등은 얼굴영상에서 비선형 최소자승모델을 이용해 얼굴을 3차원으로 재구성하기 위한 깊이값을 추정하는 알고리즘을 제안했다[11]. 여러 가지 자세를 포함하는 얼굴영상을 3차원으로 재구성하기 위해 첫 번째로 비선형 최소제곱모델을 유사성 변환에 의해 얼굴 특징점의 깊이값과 관련된 머리자세를 추정했다. 머리자세의 변화로 인해 발생하는 민감도를 줄이기 위해 얼굴의 대칭속성을 사용한 것이 특징이다.
원근법 기반의 머리자세 추정 방법을 실험하고 성능 평가를 한다. 성능 평가는 기존의 머리자세 추정 알고리즘인 POSIT 알고리즘과 제안한 방법으로 추정한 머리자세 추정 각도의 오차를 비교한다.
제안하는 방법은 카메라의 광각모드에서 사용자를 감지한 후 얼굴 크기와 위치에 맞춰 협각모드로 전환한다. 획득한 영상은 카메라의 회전변화에 따라 실제 머리자세와 영상에서의 머리자세가 다르게 보이고, 영상에서 머리 자세를 추정할 경우 오차각이 크게 발생하는 것을 확인할 수 있다.
하지만 기존의 POSIT 알고리즘은 고정 카메라 환경에 최적화 되어있어 사용자 위치에 대한 제약이 있고, 카메라의 초점거리만을 이용하는 방법이기 때문에 카메라의 위치와 회전변화에 따라 추정되는 결과가 민감하다. 카메라의 자세변환에 대한 정보를 이용해 POSIT 알고리즘에 적용해 카메라의 위치와 회전변화에 강건한 머리자세 추정방법을 제안한다. Fig.
하지만 기존의 연구들은 다양한 환경에 따라 제약적이며 대부분 모니터를 이용한 환경이 많다. 하지만 본 논문에서는 PTZ 카메라를 사용하여 환경에 제약적인 사항을 완화시키고, 사용자가 카메라 중심에 위치하지 않아도 카메라를 회전시켜 사용자의 머리자세를 추정 하는 방법을 제안하고 실험을 통하여 그 성능을 확인한 결과. 카메라의 회전이 발생했을 경우 기존의 머리자세 추정방법보다 좋은 성능을 보였다.
형상 기반의 얼굴특징 추출 방법들 중에 ASM(Active Shape Model)과 AAM가 대표적인 이다. 형상을 구성해 입력영상에서 형상이 매개변수에 의해 변화하며 객체를 검출한다. 실시간 시스템에서 AAM보다 ASM의 속도가 더 빠르지만 정확도는 AAM이 높다.

대상 데이터

10을 사용했다. 실험을 위해 GT(Ground Truth)를 제작하였는데, GT는 E2BOX의 EBIMU-9DOF3 센서를 이용하였다. 센서를 통해 실험할 사용자의 머리자세를 산출했다.
실험을 위해서 사용한 컴퓨터는 Intel Core i7-2600 3.40GHz, RAM 32.0GB를 사용하였고, 운영체제는 Windows 8.1 Pro, 개발 언어는 C/C++로 Visual Studio 2010 32비트와 라이브러리는 dlib, Opencv 2.4.10을 사용했다. 실험을 위해 GT(Ground Truth)를 제작하였는데, GT는 E2BOX의 EBIMU-9DOF3 센서를 이용하였다.
강분류기는 캐스케이드(cascade) 구조로 얼굴검출을 수행한다. 얼굴검출은 정면, 상측면, 하측면, 좌측면, 우측면, 그리고 배경영상으로 구성되어 있다. 분류기에서 얼굴이 검출되었을 때 검출에 대한 점수를 계산하고, 얼굴과 배경의 점수를 비교해 얼굴 혹은 배경을 검출한다.
따라서 본 논문에서는 Equation (2)를 통해 회귀트리를 이용하여 얼굴특징을 추출한다. 얼굴특징은 얼굴에서 의미 있는 눈, 코, 입 등을 포함한 68개의 점을 추출한다.

데이터처리

하지만 제안하는 방법으로 머리자세 추정을 했을 때 Tilt각이 최대 7° 까지 발생하는 것을 확인할 수 있었다. 머리자세 추정에 대한 성능 평가는 RMSE(Root Mean Square Error)로 평가했다. RMSE는 제안한 방법을 통해 산출된 머리자세 각도가 GT에 근접하는 정도를 평균 제곱근 오차로 나타낸 것이다.
센서를 통해 실험할 사용자의 머리자세를 산출했다. 생성된 GT를 통해 POSIT 알고리즘과 제안한 방법을 통해 머리자세 각도를 추정하고 비교하였다. 카메라의 위치는 지면으로부터 약 170cm 위치에 설치해 디스플레이 상단에 카메라가 있다고 가정하였다.
원근법 기반의 머리자세 추정 방법을 실험하고 성능 평가를 한다. 성능 평가는 기존의 머리자세 추정 알고리즘인 POSIT 알고리즘과 제안한 방법으로 추정한 머리자세 추정 각도의 오차를 비교한다. 실험에는 카메라의 회전 변화를 포함하고 있다.

이론/모형

x^'은 A와 I의 곱으로 특징점의 좌표, y^'은 A와 J의 곱으로 특징점의 좌표를 나타낸다. I와 J의 단위벡터를 계산하기 위해 최소자승법(Least Square Method)[15]을 사용한다.
추출된 얼굴의 형상과 모델을 통해 머리자세 추정을 한다. 머리자세의 추정을 위해 사용되는 모델은 얼굴특징의 68개점과 대응되는 68개의 점을 포함하고 POSIT 알고리즘을 이용해 머리자세를 추정한다.
본 논문에서는 얼굴의 특징점과 3차원 모델의 좌표들을 이용해 머리자세를 추정하기 위해 POSIT 알고리즘을 이용한 다. 하지만 기존의 POSIT 알고리즘은 고정 카메라 환경에 최적화 되어있어 사용자 위치에 대한 제약이 있고, 카메라의 초점거리만을 이용하는 방법이기 때문에 카메라의 위치와 회전변화에 따라 추정되는 결과가 민감하다.
얼굴의 특징점은 회귀트리를 이용해 얼굴의 눈, 눈썹, 코끝, 얼굴 윤곽등의 68개 점을 추출한다[8]. 추출된 특징점을 이용해 카메라의 회전과 위치 변화에 따라서 원근투영법을 적용한 개선된 POSIT 알고리즘[9]을 통해 머리 자세를 추정한다.

성능/효과

POSIT 알고리즘으로 머리자세 추정을 했을 때 Tilt각이 최대 20° 까지 오차가 발생하는 것을 확인할 수 있었다.
하지만 제안하는 방법으로 머리자세 추정을 했을 때 Tilt각이 최대 7° 까지 발생하는 것을 확인할 수 있었다.
제안하는 방법은 카메라의 광각모드에서 사용자를 감지한 후 얼굴 크기와 위치에 맞춰 협각모드로 전환한다. 획득한 영상은 카메라의 회전변화에 따라 실제 머리자세와 영상에서의 머리자세가 다르게 보이고, 영상에서 머리 자세를 추정할 경우 오차각이 크게 발생하는 것을 확인할 수 있다. 따라서 원근투영법을 기반으로 카메라의 회전과 위치정보를 통해 3차원 얼굴 모델이 영상에 어떻게 투영될지 예측하고 재구성한다.

후속연구

카메라의 회전이 발생했을 경우 기존의 머리자세 추정방법보다 좋은 성능을 보였다. 향후 머리자세 추정 시스템이 다양한 환경 변화에서 강건하게 머리자세를 추정할 수 있도록 연구 된다면, 카메라의 회전뿐만 아니라 다른 환경에서도 머리자세 추정을 할 수 있을 것으로 생각한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	컴퓨터 비전에서 머리자세 추정이란?	본 논문에서는 머리자세 추정에 대하여 서술한다. 컴퓨터 비전에서 머리자세 추정이란 이력영상을 자동으로 분석하여 머리의 위치 및 각도를 산출하는 기술을 의미하며, 얼굴인식, 시선추적, 동작인식 등에서 요소기술로 사용되고 있다. 머리 자세 추정을 위한 새로운 방법들이 개발됨에 따라 그 정확도가 향상되고 있다[1].
	머리자세를 추정하는 접근법에는 무엇이 있는가?	머리자세를 추정하는 접근법은 통계적 접근방법, 모델 기반 접근방법, 기하학적 접근방법, 추적 접근방법 등이 있다[1]. 이들 중에서 모델 기반의 머리자세 추정방법은 영상에서 얼굴 구조와 일치하도록 모델을 정합시켜 머리자세를 산출하는 방법으로, 다른 방법들보다 얼굴 구조에 최대한 정확하게 접근하도록 설계되었기 때문에 다른 방법들보다 정확하게 머리자세를 산출할 수 있어서 최근에는 모델기반 접근법이 각광받고 있다.
	PTZ 카메라의 카메라 제어부에서는 카메라의 어떤 모드로 전환할 수 있는가?	따라서 고정된 카메라와 달리 화면의 크기나 모양에 구애 받지 않고, 사용자의 위치에 상관없이 카메라의 회전과 확대를 통해 얼굴영상을 획득할 수 있다. 카메라 제어부에서는 카메라의 광각모드, 협각모드로 전환한다. 즉, 광각 모드에서는 얼굴검출을 통해 사용자의 얼굴을 영상 중앙에 위치시키고, 협각모드 전환을 위해 확대 배율을 계산한다.

참고문헌 (16)

B. Czuprynski and A. Strupczewski, "High Accuracy Head Pose Tracking Survey," Proc. International Conference on Active Media Technology, pp.407-420, 2014.
Z., Feng, H. B.-L. Duh, and M. Billinghurst, "Trends in augmented reality tracking, interaction and display: A review of ten years of ISMAR," IEEE/ACM International Symposium on Mixed and Augmented Reality (ISMAR), Cambridge, UK. (2008 September). http://dx.doi.org/10.1109/ismar.2008.4637362.
G. Fanelli, J. Gall, and L. Van Gool, "Real time head pose estimation with random regression forests," IEEE Conference on Computer Vision and Pattern Recognition, pp.617-624, 2011.
C. Huang, X. Ding, and C. Fang, "Head pose estimation based on random forests for multiclass classification," International Conference on Pattern Recognition, pp.934-937, 2010.
Y. Ohta, K. Maenobu, and T. Sakai, "Obtaining Surface Orientation from Texels Under Perspective Projection," Proc. Seventh Int'l Joint Conf. Artificial Intelligence, pp.746-751, 1981.
R. Zabih and J. Woodfill, "Non-parametric Local Transforms for Computing Visual Correspondence," pp.151-158, 1994.
Y. Freund and R. E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting," Journal of Computer and System Sciences, pp.119-139, 1997.
V. Kazemi and J. Sullivan, "One Millisecond Face Alignment with an Ensemble of Regression Trees," The IEEE Conference on Computer Vision and Pattern Recognition, pp. 1867-1874, 2014.
D. F. Dementhon and L. S. Davis, "Model-based object pose in 25 lines of code," International Journal of Computer Vision, Vol.15, No.1-2, pp.123-141, 1995.

상세보기
S. G. Kong and R. O. Mbouna, "Head Pose Estimation From a 2D Face Image Using 3D Face Morphing With Depth Parameters," IEEE Transactions on Image Processing, Vol.24, No.6, pp.1801-1808, 2015.

상세보기
Z. L. Sun, K. M. Lam, and Q. W. Gao, "Depth Estimation of Face Images Using the Nonlinear Least-Squares Model," IEEE Transactions on Image Processing, pp.17-30, 2013.
P. Martins and J. Batista, "Single view head pose estimation," IEEE International Conference on Image Processing, pp. 1652-1655, 2008.
T. F. Cootes, G. J. Edwards, and C. J. Taylor, "Active Appearance Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.681-685, 2001.
T. Funahashi, M. Tominaga, T. Fujiwara, and H. Koshimizu, "Hierarchical face tracking by using PTZ camera," IEEE International Conference on Automatic Face and Gesture Recognition, pp.427-432, 2004.
S. J. Miller, "The Method of Least Squares," in Brown University, 2006.
W. J. Wolfe, D. Mathis, C. W. Sklair, and M. Magee, "The perspective view of three points," IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.66-73, 1991.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증