[국내논문]얼굴의 다양한 포즈 및 표정의 변환에 따른 얼굴 인식률 향상에 관한 연구 A Study on Improvement of Face Recognition Rate with Transformation of Various Facial Poses and Expressions원문보기
다양한 얼굴 포즈 검출 및 인식은 매우 어려운 문제로서, 이는 특징 공간상의 다양한 포즈의 분포가 정면 영상에 비해 매우 흩어져있고 복잡하기 때문이다. 이에 본 논문에서는 기존의 얼굴 인식 방법들이 제한 사항으로 두었던 입력 영상의 다양한 포즈 및 표정에 강인한 얼굴 인식 시스템을 제안하였다. 제안한 방법은 먼저, TLS 모델을 사용하여 얼굴 영역을 검출한 뒤, 얼굴의 구성요소를 통하여 얼굴 포즈를 추정한다. 추정된 얼굴 포즈는 3차원 X-Y-Z축으로 분해되는데, 두 번째 과정에서는 추정된 벡터를 통하여 만들어진 가변 템플릿과 3D CAN/DIDE모델을 이용하여 얼굴을 정합한다 마지막으로 정합된 얼굴은 분석된 포즈와 표정에 의하여 얼굴 인식에 적합한 정면의 정규화 된 얼굴로 변환된다. 실험을 통하여 얼굴 검출 모델의 사용과 포즈 추정 방법의 타당성을 보였으며, 포즈 및 표정 정규화를 통하여 인식률이 향상됨을 확인하였다.
다양한 얼굴 포즈 검출 및 인식은 매우 어려운 문제로서, 이는 특징 공간상의 다양한 포즈의 분포가 정면 영상에 비해 매우 흩어져있고 복잡하기 때문이다. 이에 본 논문에서는 기존의 얼굴 인식 방법들이 제한 사항으로 두었던 입력 영상의 다양한 포즈 및 표정에 강인한 얼굴 인식 시스템을 제안하였다. 제안한 방법은 먼저, TLS 모델을 사용하여 얼굴 영역을 검출한 뒤, 얼굴의 구성요소를 통하여 얼굴 포즈를 추정한다. 추정된 얼굴 포즈는 3차원 X-Y-Z축으로 분해되는데, 두 번째 과정에서는 추정된 벡터를 통하여 만들어진 가변 템플릿과 3D CAN/DIDE모델을 이용하여 얼굴을 정합한다 마지막으로 정합된 얼굴은 분석된 포즈와 표정에 의하여 얼굴 인식에 적합한 정면의 정규화 된 얼굴로 변환된다. 실험을 통하여 얼굴 검출 모델의 사용과 포즈 추정 방법의 타당성을 보였으며, 포즈 및 표정 정규화를 통하여 인식률이 향상됨을 확인하였다.
Various facial pose detection and recognition has been a difficult problem. The problem is due to the fact that the distribution of various poses in a feature space is mere dispersed and more complicated than that of frontal faces, This thesis proposes a robust pose-expression-invariant face recogni...
Various facial pose detection and recognition has been a difficult problem. The problem is due to the fact that the distribution of various poses in a feature space is mere dispersed and more complicated than that of frontal faces, This thesis proposes a robust pose-expression-invariant face recognition method in order to overcome insufficiency of the existing face recognition system. First, we apply the TSL color model for detecting facial region and estimate the direction of face using facial features. The estimated pose vector is decomposed into X-V-Z axes, Second, the input face is mapped by deformable template using this vectors and 3D CANDIDE face model. Final. the mapped face is transformed to frontal face which appropriates for face recognition by the estimated pose vector. Through the experiments, we come to validate the application of face detection model and the method for estimating facial poses, Moreover, the tests show that recognition rate is greatly boosted through the normalization of the poses and expressions.
Various facial pose detection and recognition has been a difficult problem. The problem is due to the fact that the distribution of various poses in a feature space is mere dispersed and more complicated than that of frontal faces, This thesis proposes a robust pose-expression-invariant face recognition method in order to overcome insufficiency of the existing face recognition system. First, we apply the TSL color model for detecting facial region and estimate the direction of face using facial features. The estimated pose vector is decomposed into X-V-Z axes, Second, the input face is mapped by deformable template using this vectors and 3D CANDIDE face model. Final. the mapped face is transformed to frontal face which appropriates for face recognition by the estimated pose vector. Through the experiments, we come to validate the application of face detection model and the method for estimating facial poses, Moreover, the tests show that recognition rate is greatly boosted through the normalization of the poses and expressions.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 J. Ahlberg가 기존의 CAND1DE 를 향상시킨 CANDIDE-3 3D 와이어 프레임 모델을 사용하는데, 이 형상 모델은 Linkoping University에서 모델 기반 영상 코딩과 컴퓨터 애니메이션의 목적으로 처음 만들어졌다[3]. 그림 8은 113개의 점들과 183개의 삼각형의 집합으로 이루어진 CANDIDE-3 얼굴 모델이다.
본 논문에서는 얼굴 정합 과정에서 얻은 특징점의 이동 변위를 FACS(Facial Action Coding System) 에서 정한 표정 유닛 (AU : Action Unit)의 범주 내에서 판단하예6], 그림 11 및 그림 12와 같이 만약 특징점이 기준으로 설정한 임계 값 이상의 범위로 이동하였을 경우 이를 정상적인 위치로 보정함으로써 개인의 얼굴 특성을 손상시키지 않고 얼굴 인식에 적합한 정규화된 얼굴을 만들고자 하였다.
즉, 같은 사람의 영상일지라도 포즈가 다른 두 영상은 공간 영역에서 큰 차이를 나타나기 때문에 이를 입력받는 기존의 정면 영상 인식 시스템은 큰 에러를 발생할 확률이 크다. 이에 본 논문에서는 다양한 포즈 및 표정을 갖는 얼굴 영상이 입력되면 얼굴의 포즈를 기하학적으로 추정하고 기본 표정을 분석한 후에 이를 얼굴 인식에 적합한 정면 영상으로 변환하는 방법을 제안한다.
이에 본 논문에서는 다양한 포즈 및 표정을 분 석하여 이를 정면 영상으로 변환시키는 알고리즘을 얼굴인식 단계에 추가함으로써 기존의 인식시스템에서도 얼굴의 다양한 입력 영상을 정면 얼굴처럼 인식하고자 하는 방법을 제안하였다.
특히, 얼굴 전체의 무게중심을 검출된 얼굴색의 화소분포로서 산출하는 본 논문에 있어서 확장된 얼굴 영역 검출은 필수적이다. 이에 본 논문에서는 얼굴의 각도별 조명의 영향을 분석하여 광원을 찾아 낸 다음 조명의 영향을 받은 부위에는 조명 보정 을 통하여 얼굴색을 검줄하는 방법을 제안한다.
가설 설정
하지만, 현재 검출하려는 입력영상은 다양한 얼굴 방향을 가지고 있기 때문에 이들의 얼굴 구성요소도 수평성분이라고 볼 수 없다. 따라서, 방향정보를 전혀 가지고 있지 않는 홀은 얼굴색 영역에서 제외된 얼굴내의 요소이므로 이들을 일단 눈, 코, 입 등의 영역이라고 가정하고 이들 서로간의 기하학적 관계를 비용함수로 연산하여 최종 얼굴 요소를 추출한다. 홀을 탐색하는 방법은 그림 4의 (a)와 같이 4방향으로 탐색을 거치게 되는데, 그 중에서 3-방향 이상이 막혀있다면 홀로 판정하게 된다.
제안 방법
AU의 움직임에 의한 얼굴 표정 변화는 얼굴 영상에 정합된 형상 모델의 꼭지점의 위치에 그 대로 반영되며, 정규화된 기본 형상 모델 템플릿을 기준으로 변화된 꼭지점의 위치를 알아낸 후 그 차이를 비교하여 표정을 알아낸다. 즉, 식(16)에 사용되었던 형태 유닛 S의 이동 변위 σ를 측정하여 표정을 분석한다.
하지만 템플릿 매칭 단점중의 다른 하나는 찾고자 하는 대상과 미리 설정한 마스크가 매우 유사하여야 하는데, 현재 본 연구에서 사용하는 입력데이터는 다양한 포즈를 가지고 있으므로 이에 해당하는 템플릿 마스크를 사전에 모두 준비하고 있다는 것은 매우 비효율적이며, 템플릿을 적용할 때 적합한 마스크를 선택한다는 것도 연산의 복잡도가 높아지는 현상을 초래한다. 따라서, 본 연구에서는 그림 10의 (a)와 같이 기본 정규화된 템플릿 하나를 가지고 이미 추정된 기하학적 특징(포즈 분석에 의한 회전 값)으로 그림 10의 (c)와 같이 변형시키는 가변 템플릿 방식을 제안하여 템플릿 매칭을 시도하였다.
제안한 방법은 TSL 색상모델을 사용하여 입력 영상의 얼굴 영역과 얼굴의 구성요소인 양 눈과 입을 추출하고, 이를 통한 기하학적 구조를 분석 하였다. 또한 분석된 구조를 이용하여 입력된 영상의 얼굴 포즈를 추정하고, 추정된 포즈를 3차원의 X축, Y축, Z축으로 성분 분해하여 이들의 조합을 통하여 정면 얼굴 영상으로 합성하였으며, 기본적인 표정의 움직임을 고려하여 표정의 정규화 방안도 제안하였다.
또한, 본 논문에서 제시한 방법의 최종 목표인 얼굴 인식에 관한 성능 평가를 위하여 그림 14와 같이 다양한 포즈를 가진 입력 영상을 원래대로 인식했을 경우와 실험 1과 실험 2를 각각 거쳤을 때의 인식률을 비교해 본다. 실험 1은 다양한 포즈를 가진 입력 영상을 포즈값 계산 후에 포즈만 정규화 시킨 방법이며, 실험 2는 실험 1의 과정에 표정 정규화 단계가 더 추가된 것이다.
이때, 형상 모델을 회전시키는 데 있어서 회전운동 R= R(rx,ry,rz)은 각각 X 축, Y축, 그리고 Z축을 중심으로 한 회전으로 분해할 수 있다. 또한, 회전과 이동 운동은 동차 형식 (homogeneous form)을 사용하면 편리하므로 이를 위해 3차원 위치 벡터에 1을 더하여 재정의 하였다.
식 (1)은 TSL 색상 모델의 계산식이며, T는색조(tint), S는 선명함(saturation), 그리고 L은 휘도(luminance)를 나타낸다[2]. 본 논문에서 T-S정보는 얼굴 및 입술 검출에 이용하며, L 정보는 조명을 분석하고 보정하는데 사용한다.
본 논문에서 추출하고자 하는 추가적인 특징점은 눈썹의 양끝, 눈의 양끝과 상하, 코의 양끝, 입의 양끝과 상하, 턱, 그리고 얼굴 폭이다.
본 연구에서 제안한 얼굴 영역 검출 및 구성 요소 추출 과정에서 얻어진 순수 얼굴 영역의 중심 좌표로부터 얼굴 구조 요소(양 눈, 입)들의 삼각형 무게 중심을 연결하여 벡터를 얻을 수 있으며, 이 벡터를 통하여 얼굴의 포즈 추정 값을 산출한다.
본 장에서는 TSL 모델을 이용하여 얼굴을 검출하고 검출된 얼굴 영역 내에서 얼굴 구성 요소로 가정할 수 있는 홀들을 찾아내며, 이들의 기하학적 관계를 규명하여 최종 구성 요소인 양 눈과 입을 찾아낸다. 찾아진 구성요소는 포즈를 추정하는 데 사용되며, 추정된 포즈를 통하여 좌우 및 상 하, 회전각도를 산출하게 된다.
본 절에서는 2장에서 추정한 포즈값을 토대로 얼굴의 다양한 포즈를 정면의 얼굴로 정규화하는 과정을 제안한다. 여기서 사용한 정규화라는 용어는 다양한 각도로 움직인 포즈값 즉, 그림 8의 X축 회전(tilt), Y축 회전(yaw), 그리고 Z축으로 회전(roll)된 포즈값을 각각 0으로 보정함으로써 회 전된 얼굴 템플릿을 정면의 얼굴로 합성하여 복 원하는 방법을 일컫는다.
또한, 본 논문에서 제시한 방법의 최종 목표인 얼굴 인식에 관한 성능 평가를 위하여 그림 14와 같이 다양한 포즈를 가진 입력 영상을 원래대로 인식했을 경우와 실험 1과 실험 2를 각각 거쳤을 때의 인식률을 비교해 본다. 실험 1은 다양한 포즈를 가진 입력 영상을 포즈값 계산 후에 포즈만 정규화 시킨 방법이며, 실험 2는 실험 1의 과정에 표정 정규화 단계가 더 추가된 것이다. 일반 방법과 두 가지 실험을 통하여 나온 3개의 영상은 주성분 분석 방법을 이용하여 비교되며, 이 때 산출되는 인식률 및 인식을 위한 거리 값의 차이를 그래프로 도식하여 비교 분석한다.
기본적인 얼굴 형상 모델의 회전은 3.1 절에서 구한 포즈 추정값에 의하여 7?을 회전시켰으며, 얼굴의 크기를 고려하여 s를 조절하고 추가적으로 추출된 특징점을 통하여 특징점 위치를 세부 조정하였다.
이때, 템플릿의 텍스쳐가 비트맵으로 저장되는 경우 텍스쳐의 화소의 위치는 항상 정수가 되어야 하지만 이동되어 변형된 템플릿 텍스쳐의 위치는 꼭 정수가 되라는 보장이 없기 때문에 그림 9와 같이 정수 위치에 대응하는 이동전 텍스쳐의 인접하는 4개의 화소 값을 이용하여 보간하는 역 방향 워핑 방법을 수행함으로써 선형도를 만족시키는 화소 값을 구한다.
실험 1은 다양한 포즈를 가진 입력 영상을 포즈값 계산 후에 포즈만 정규화 시킨 방법이며, 실험 2는 실험 1의 과정에 표정 정규화 단계가 더 추가된 것이다. 일반 방법과 두 가지 실험을 통하여 나온 3개의 영상은 주성분 분석 방법을 이용하여 비교되며, 이 때 산출되는 인식률 및 인식을 위한 거리 값의 차이를 그래프로 도식하여 비교 분석한다.
이런 경우 레이블링을 시행하여 가장 큰 영역을 선택함으로써 최종 얼굴 영역을 찾는다. 일반적으로 잡음 제거를 위한 방법으로 모폴로지 (morphology)의 열림 (opening) 연산등의 방법이 있으나, 모폴로지 방법은 본 논문의 다음단계에서 시행할 홀 검출과정에서 흘의 변형을 가져올 수 있으므로 그림 1과 같이 레이블링 방법을 수행하였다.
포즈 정규화는 3차원 얼굴 모델을 정합시키기 위한 얼굴 구성요소 외의 몇가지 특징점을 추가로 찾고, 이 값을 이용하여 얼굴 모델과 입력 영상을 정합 시킨다. 정합된 입력 영상은 2장에서 추정된 포즈의 역값을 이용하여 그림 8과 같이 X, Y, Z 축의 회전 조합을 통하여 정면 영상이 되도록 형 상 모델과 이에 매핑된 텍스쳐를 변환한다.
제안한 방법은 TSL 색상모델을 사용하여 입력 영상의 얼굴 영역과 얼굴의 구성요소인 양 눈과 입을 추출하고, 이를 통한 기하학적 구조를 분석 하였다. 또한 분석된 구조를 이용하여 입력된 영상의 얼굴 포즈를 추정하고, 추정된 포즈를 3차원의 X축, Y축, Z축으로 성분 분해하여 이들의 조합을 통하여 정면 얼굴 영상으로 합성하였으며, 기본적인 표정의 움직임을 고려하여 표정의 정규화 방안도 제안하였다.
제안한 시스템은 검출된 얼굴 구성 요소와 얼굴 영역의 기하학적 구조를 이용하여 입력 영상에 대한 포즈를 추정하며, 이를 통하여 얻은 포즈의 방향(direction)을 분해하여 좌우회전(yaw), 상 하회전(tilt), 그리고 얼굴 자체 회전(roll)값을 수치로 산출한다.
주성분 분석을 위하여 그림 15와 같이 대상 인물을 포함한 10명의 정면 얼굴을 학습시켜 식(17)과 같은 고유벡터를 산출했으며 이들간의 관계를 통하여 구하여진 고유벡터들의 거리값 차이를 이용하여 식 (18)과 같이 정규화된 얼굴의 오차 여부를 측정하였다.
얼굴 구성 요소 후보들이 추출되면 세선화를 통해 얻어진 입의 정보를 이용하여 그림 5와 같이 얼굴의 기하학적 관계를 구성한다. 즉, 입의 양끝점을 지나는 직선과 수직인 직선을 가상으로 정한 후 이를 중심으로 왼쪽에 있는 구성 후보를 L-part로, 오른쪽에 있는 구성 후보를 R- part로 놓고 서로 간의 관계를 고려하여 최종 구성 요소를 선정한다.
이론/모형
본 논문에서는 얼굴의 특징점을 찾기 위하여 템플릿 매칭방법을 사용하는데, 이 방법은 기하학적 방법보다 정확도가 뛰어나며, 눈, 코, 그리고 입의 대략적인 위치를 알고 있는 경우 기존의 단점으로 여겨졌던 탐색 속도를 향상시킬 수 있어 널리 쓰이고 있다[4].
식 (1)을 사용하여 한국인의 피부 샘플을 학습 시킨 후에 학습한 얼굴색 공간을 가지고 얼굴 영역을 분류하는 방법은 TSL 색상 공간이 타원형 분포를 이루고 있다는 점에 착안하여, 식 (2)-(3) 과 같이 타원형 분포의 거리 측정에 적합한 마할 라노비스 거리 측정법을 이용한다.
성능/효과
본 논문에서 제안한 포즈 및 표정 추정 및 정규화 얼굴로의 변환을 실험하기 위하여 다양한 각도 및 표정을 가진 얼굴 영상을 테스트하였으 며, 95% 이상의 인식률 향상을 보였다. 물론, 이러한 수치는 얼굴 포즈의 각도 및 표정의 여부가 어느 정도냐에 따라 성능이 크게 좌우되겠지만 인식률의 차이값을 고려하지 않더라도 포즈 및 표정의 정규화 과정에 대한 타당성을 충분히 입증할 수 있는 실험이었다.
이러한 결과는 입력 영상을 그대로 인식하는 것보다는 포즈를 정규화 시킨 영상이 주성분 분석 방법과 같은 현재의 인식 시스템의 성능향상 에 도움을 주며, 더 나아가서는 표정까지 분석하여 이를 교정시켜주는 것이 훨씬 효율적임을 보여준다.
이때 인식의 향상율이 저조한 이유는 비록 포즈를 정면 영상으로 정규화 시켰지만 다양한 표정으로 인하여 찾고자 하는 얼굴 영상과의 유사도가 많이 떨어지기 때문이다. 이러한 원인은 표정 정규화 과정까지 수행한 후 에야 비로소 95%의 높은 인식률을 가질 수 있었으며, 이상의 실험들을 통하여 포즈 및 표정의 정규화가 주성분 분석 방법 등을 사용하는 기존의 얼굴 인식 시스템의 인식률 향상에 기여할 수 있음을 확인할 수 있었다.
그림 18은 주성분 분석의 학습에 쓰인 그림 15의 10명과 다양한 포즈 및 표정을 가지고 있는 그림 13 영상과의 고유벡터 차이값을 비교하여 최소의 거리차이를 갖는 영상을 인식 얼굴로 판단하여 보여준 결과이다. 일반적으로 얼굴 인식을 위한 주성분 분석의 고유벡터는 유클리디언 거리를 가지고 입력 영상과 학습 영상과의 차이값을 계산하며 일정한 임계값을 설정하여 이 값을 기준으로 인식 여부를 판단하지만, 본 실험에서는 정규화된 영상과 원래의 정면 영상과의 왜곡 여부를 확인하기 위한 차원이므로 오거부율을 없애기 위하여 최소값을 갖는 얼굴 영상이 유사도가 가장 높은 영상으로 판단하였다.
그림 18의 (a)는 입력 영상을 인식한 것으로서 정면에 가까운 몇 영상만이 인식하고자 하는 얼굴을 정확히 지목했을 뿐 대부분이 그림 15 (b) 의 9번 영상과 5번 영상으로 분리되었다. 포즈 변환 후의 인식 결과를 살펴보면 9번 얼굴 영상의 유사도가 많이 줄어들어 찾고자 하는 6번 얼굴 영상의 인식률이 많이 늘었지만, 반면에 5번 영상에 대한 인식도 상대적으로 많이 늘었다. 이는 5번 얼굴 영상을 지목하는 분포가 널리 퍼져 있는 것으로 보아 아직까지 표정이 정규화되지 않은 영상의 얼굴 형태가 5번 얼굴 영상과 유사 하다고 볼수 있다.
하지만 템플릿 매칭 단점중의 다른 하나는 찾고자 하는 대상과 미리 설정한 마스크가 매우 유사하여야 하는데, 현재 본 연구에서 사용하는 입력데이터는 다양한 포즈를 가지고 있으므로 이에 해당하는 템플릿 마스크를 사전에 모두 준비하고 있다는 것은 매우 비효율적이며, 템플릿을 적용할 때 적합한 마스크를 선택한다는 것도 연산의 복잡도가 높아지는 현상을 초래한다. 따라서, 본 연구에서는 그림 10의 (a)와 같이 기본 정규화된 템플릿 하나를 가지고 이미 추정된 기하학적 특징(포즈 분석에 의한 회전 값)으로 그림 10의 (c)와 같이 변형시키는 가변 템플릿 방식을 제안하여 템플릿 매칭을 시도하였다.
이러한 영상은 대부분 눈을 크게 뜨고 있어서 눈썹이 기준치 이상으로 올라가거나 입을 크게 벌리고 있기 때문에 이를 정면 영상으로 정규화 시키는 과정에서 얼굴의 형태가 변형된 경우이다. 하지만, 표정까지 변환 하여 최종 정규화된 영상은 그림 17의 동그란 표 식이 보여주는 것처럼 입력 영상의 평균 고유벡터 차이값 1559.8과 포즈만 변환한 영상의 평균 고유벡터 차이값 1405.9보다 훨씬 적은 평균 922.5의 값을 보였다.
후속연구
제안한 방법은 정확한 얼굴 특징값을 얻기 위하여 사용자에게 입력 장치의 틀에 정확히 일치 하는 얼굴의 정면 영상을 요구하는 현재의 출입 관리 시스템보다는 움직이는 사람의 형체를 인식 하고 이로 인하여 발생하는 얼굴의 다양한 각도 및 표정에 강인하게 사람을 판별하여 대화를 나눌 수 있는 로봇 비젼 시스템 및 모바일 폰의 화상 채팅과 같은 분야에서 더 유용하게 쓰일 것으로 기대한다.
즉, 영상에 따라 일정하지 않은 조명의 밝기는 결과적으로 다른 얼굴색을 가진 화소값으로 나타나며, 이는 다른 영역으로 분류될 수 있기 때문에 조명 보정을 통하여 조명에 대한 영향을 최소화하도록 한다. 특히, 얼굴 전체의 무게중심을 검출된 얼굴색의 화소분포로서 산출하는 본 논문에 있어서 확장된 얼굴 영역 검출은 필수적이다. 이에 본 논문에서는 얼굴의 각도별 조명의 영향을 분석하여 광원을 찾아 낸 다음 조명의 영향을 받은 부위에는 조명 보정 을 통하여 얼굴색을 검줄하는 방법을 제안한다.
향후 연구과제로는 각도가 큰 부분의 왜곡 요 인 해결 방안 및 얼굴 구성요소의 워핑에 최적화 될 수 있는 전용 얼굴 모델의 설계이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.