[논문]얼굴의 다양한 포즈 및 표정의 변환에 따른 얼굴 인식률 향상에 관한 연구

최재영; 황보 택근; 김낙빈

문제 정의

본 논문에서는 J. Ahlberg가 기존의 CAND1DE 를 향상시킨 CANDIDE-3 3D 와이어 프레임 모델을 사용하는데, 이 형상 모델은 Linkoping University에서 모델 기반 영상 코딩과 컴퓨터 애니메이션의 목적으로 처음 만들어졌다[3]. 그림 8은 113개의 점들과 183개의 삼각형의 집합으로 이루어진 CANDIDE-3 얼굴 모델이다.
본 논문에서는 얼굴 정합 과정에서 얻은 특징점의 이동 변위를 FACS(Facial Action Coding System) 에서 정한 표정 유닛 (AU : Action Unit)의 범주 내에서 판단하예6], 그림 11 및 그림 12와 같이 만약 특징점이 기준으로 설정한 임계 값 이상의 범위로 이동하였을 경우 이를 정상적인 위치로 보정함으로써 개인의 얼굴 특성을 손상시키지 않고 얼굴 인식에 적합한 정규화된 얼굴을 만들고자 하였다.
즉, 같은 사람의 영상일지라도 포즈가 다른 두 영상은 공간 영역에서 큰 차이를 나타나기 때문에 이를 입력받는 기존의 정면 영상 인식 시스템은 큰 에러를 발생할 확률이 크다. 이에 본 논문에서는 다양한 포즈 및 표정을 갖는 얼굴 영상이 입력되면 얼굴의 포즈를 기하학적으로 추정하고 기본 표정을 분석한 후에 이를 얼굴 인식에 적합한 정면 영상으로 변환하는 방법을 제안한다.
이에 본 논문에서는 다양한 포즈 및 표정을 분 석하여 이를 정면 영상으로 변환시키는 알고리즘을 얼굴인식 단계에 추가함으로써 기존의 인식시스템에서도 얼굴의 다양한 입력 영상을 정면 얼굴처럼 인식하고자 하는 방법을 제안하였다.
특히, 얼굴 전체의 무게중심을 검출된 얼굴색의 화소분포로서 산출하는 본 논문에 있어서 확장된 얼굴 영역 검출은 필수적이다. 이에 본 논문에서는 얼굴의 각도별 조명의 영향을 분석하여 광원을 찾아 낸 다음 조명의 영향을 받은 부위에는 조명 보정 을 통하여 얼굴색을 검줄하는 방법을 제안한다.

가설 설정

하지만, 현재 검출하려는 입력영상은 다양한 얼굴 방향을 가지고 있기 때문에 이들의 얼굴 구성요소도 수평성분이라고 볼 수 없다. 따라서, 방향정보를 전혀 가지고 있지 않는 홀은 얼굴색 영역에서 제외된 얼굴내의 요소이므로 이들을 일단 눈, 코, 입 등의 영역이라고 가정하고 이들 서로간의 기하학적 관계를 비용함수로 연산하여 최종 얼굴 요소를 추출한다. 홀을 탐색하는 방법은 그림 4의 (a)와 같이 4방향으로 탐색을 거치게 되는데, 그 중에서 3-방향 이상이 막혀있다면 홀로 판정하게 된다.

제안 방법

AU의 움직임에 의한 얼굴 표정 변화는 얼굴 영상에 정합된 형상 모델의 꼭지점의 위치에 그 대로 반영되며, 정규화된 기본 형상 모델 템플릿을 기준으로 변화된 꼭지점의 위치를 알아낸 후 그 차이를 비교하여 표정을 알아낸다. 즉, 식(16)에 사용되었던 형태 유닛 S의 이동 변위 σ를 측정하여 표정을 분석한다.
하지만 템플릿 매칭 단점중의 다른 하나는 찾고자 하는 대상과 미리 설정한 마스크가 매우 유사하여야 하는데, 현재 본 연구에서 사용하는 입력데이터는 다양한 포즈를 가지고 있으므로 이에 해당하는 템플릿 마스크를 사전에 모두 준비하고 있다는 것은 매우 비효율적이며, 템플릿을 적용할 때 적합한 마스크를 선택한다는 것도 연산의 복잡도가 높아지는 현상을 초래한다. 따라서, 본 연구에서는 그림 10의 (a)와 같이 기본 정규화된 템플릿 하나를 가지고 이미 추정된 기하학적 특징(포즈 분석에 의한 회전 값)으로 그림 10의 (c)와 같이 변형시키는 가변 템플릿 방식을 제안하여 템플릿 매칭을 시도하였다.
제안한 방법은 TSL 색상모델을 사용하여 입력 영상의 얼굴 영역과 얼굴의 구성요소인 양 눈과 입을 추출하고, 이를 통한 기하학적 구조를 분석 하였다. 또한 분석된 구조를 이용하여 입력된 영상의 얼굴 포즈를 추정하고, 추정된 포즈를 3차원의 X축, Y축, Z축으로 성분 분해하여 이들의 조합을 통하여 정면 얼굴 영상으로 합성하였으며, 기본적인 표정의 움직임을 고려하여 표정의 정규화 방안도 제안하였다.
또한, 본 논문에서 제시한 방법의 최종 목표인 얼굴 인식에 관한 성능 평가를 위하여 그림 14와 같이 다양한 포즈를 가진 입력 영상을 원래대로 인식했을 경우와 실험 1과 실험 2를 각각 거쳤을 때의 인식률을 비교해 본다. 실험 1은 다양한 포즈를 가진 입력 영상을 포즈값 계산 후에 포즈만 정규화 시킨 방법이며, 실험 2는 실험 1의 과정에 표정 정규화 단계가 더 추가된 것이다.
이때, 형상 모델을 회전시키는 데 있어서 회전운동 R= R(rx,ry,rz)은 각각 X 축, Y축, 그리고 Z축을 중심으로 한 회전으로 분해할 수 있다. 또한, 회전과 이동 운동은 동차 형식 (homogeneous form)을 사용하면 편리하므로 이를 위해 3차원 위치 벡터에 1을 더하여 재정의 하였다.
식 (1)은 TSL 색상 모델의 계산식이며, T는색조(tint), S는 선명함(saturation), 그리고 L은 휘도(luminance)를 나타낸다[2]. 본 논문에서 T-S정보는 얼굴 및 입술 검출에 이용하며, L 정보는 조명을 분석하고 보정하는데 사용한다.
본 논문에서 추출하고자 하는 추가적인 특징점은 눈썹의 양끝, 눈의 양끝과 상하, 코의 양끝, 입의 양끝과 상하, 턱, 그리고 얼굴 폭이다.
본 연구에서 제안한 얼굴 영역 검출 및 구성 요소 추출 과정에서 얻어진 순수 얼굴 영역의 중심 좌표로부터 얼굴 구조 요소(양 눈, 입)들의 삼각형 무게 중심을 연결하여 벡터를 얻을 수 있으며, 이 벡터를 통하여 얼굴의 포즈 추정 값을 산출한다.
본 장에서는 TSL 모델을 이용하여 얼굴을 검출하고 검출된 얼굴 영역 내에서 얼굴 구성 요소로 가정할 수 있는 홀들을 찾아내며, 이들의 기하학적 관계를 규명하여 최종 구성 요소인 양 눈과 입을 찾아낸다. 찾아진 구성요소는 포즈를 추정하는 데 사용되며, 추정된 포즈를 통하여 좌우 및 상 하, 회전각도를 산출하게 된다.
본 절에서는 2장에서 추정한 포즈값을 토대로 얼굴의 다양한 포즈를 정면의 얼굴로 정규화하는 과정을 제안한다. 여기서 사용한 정규화라는 용어는 다양한 각도로 움직인 포즈값 즉, 그림 8의 X축 회전(tilt), Y축 회전(yaw), 그리고 Z축으로 회전(roll)된 포즈값을 각각 0으로 보정함으로써 회 전된 얼굴 템플릿을 정면의 얼굴로 합성하여 복 원하는 방법을 일컫는다.
또한, 본 논문에서 제시한 방법의 최종 목표인 얼굴 인식에 관한 성능 평가를 위하여 그림 14와 같이 다양한 포즈를 가진 입력 영상을 원래대로 인식했을 경우와 실험 1과 실험 2를 각각 거쳤을 때의 인식률을 비교해 본다. 실험 1은 다양한 포즈를 가진 입력 영상을 포즈값 계산 후에 포즈만 정규화 시킨 방법이며, 실험 2는 실험 1의 과정에 표정 정규화 단계가 더 추가된 것이다. 일반 방법과 두 가지 실험을 통하여 나온 3개의 영상은 주성분 분석 방법을 이용하여 비교되며, 이 때 산출되는 인식률 및 인식을 위한 거리 값의 차이를 그래프로 도식하여 비교 분석한다.
기본적인 얼굴 형상 모델의 회전은 3.1 절에서 구한 포즈 추정값에 의하여 7?을 회전시켰으며, 얼굴의 크기를 고려하여 s를 조절하고 추가적으로 추출된 특징점을 통하여 특징점 위치를 세부 조정하였다.
이때, 템플릿의 텍스쳐가 비트맵으로 저장되는 경우 텍스쳐의 화소의 위치는 항상 정수가 되어야 하지만 이동되어 변형된 템플릿 텍스쳐의 위치는 꼭 정수가 되라는 보장이 없기 때문에 그림 9와 같이 정수 위치에 대응하는 이동전 텍스쳐의 인접하는 4개의 화소 값을 이용하여 보간하는 역 방향 워핑 방법을 수행함으로써 선형도를 만족시키는 화소 값을 구한다.
실험 1은 다양한 포즈를 가진 입력 영상을 포즈값 계산 후에 포즈만 정규화 시킨 방법이며, 실험 2는 실험 1의 과정에 표정 정규화 단계가 더 추가된 것이다. 일반 방법과 두 가지 실험을 통하여 나온 3개의 영상은 주성분 분석 방법을 이용하여 비교되며, 이 때 산출되는 인식률 및 인식을 위한 거리 값의 차이를 그래프로 도식하여 비교 분석한다.
이런 경우 레이블링을 시행하여 가장 큰 영역을 선택함으로써 최종 얼굴 영역을 찾는다. 일반적으로 잡음 제거를 위한 방법으로 모폴로지 (morphology)의 열림 (opening) 연산등의 방법이 있으나, 모폴로지 방법은 본 논문의 다음단계에서 시행할 홀 검출과정에서 흘의 변형을 가져올 수 있으므로 그림 1과 같이 레이블링 방법을 수행하였다.
포즈 정규화는 3차원 얼굴 모델을 정합시키기 위한 얼굴 구성요소 외의 몇가지 특징점을 추가로 찾고, 이 값을 이용하여 얼굴 모델과 입력 영상을 정합 시킨다. 정합된 입력 영상은 2장에서 추정된 포즈의 역값을 이용하여 그림 8과 같이 X, Y, Z 축의 회전 조합을 통하여 정면 영상이 되도록 형 상 모델과 이에 매핑된 텍스쳐를 변환한다.
제안한 방법은 TSL 색상모델을 사용하여 입력 영상의 얼굴 영역과 얼굴의 구성요소인 양 눈과 입을 추출하고, 이를 통한 기하학적 구조를 분석 하였다. 또한 분석된 구조를 이용하여 입력된 영상의 얼굴 포즈를 추정하고, 추정된 포즈를 3차원의 X축, Y축, Z축으로 성분 분해하여 이들의 조합을 통하여 정면 얼굴 영상으로 합성하였으며, 기본적인 표정의 움직임을 고려하여 표정의 정규화 방안도 제안하였다.
제안한 시스템은 검출된 얼굴 구성 요소와 얼굴 영역의 기하학적 구조를 이용하여 입력 영상에 대한 포즈를 추정하며, 이를 통하여 얻은 포즈의 방향(direction)을 분해하여 좌우회전(yaw), 상 하회전(tilt), 그리고 얼굴 자체 회전(roll)값을 수치로 산출한다.
주성분 분석을 위하여 그림 15와 같이 대상 인물을 포함한 10명의 정면 얼굴을 학습시켜 식(17)과 같은 고유벡터를 산출했으며 이들간의 관계를 통하여 구하여진 고유벡터들의 거리값 차이를 이용하여 식 (18)과 같이 정규화된 얼굴의 오차 여부를 측정하였다.
얼굴 구성 요소 후보들이 추출되면 세선화를 통해 얻어진 입의 정보를 이용하여 그림 5와 같이 얼굴의 기하학적 관계를 구성한다. 즉, 입의 양끝점을 지나는 직선과 수직인 직선을 가상으로 정한 후 이를 중심으로 왼쪽에 있는 구성 후보를 L-part로, 오른쪽에 있는 구성 후보를 R- part로 놓고 서로 간의 관계를 고려하여 최종 구성 요소를 선정한다.

이론/모형

본 논문에서는 얼굴의 특징점을 찾기 위하여 템플릿 매칭방법을 사용하는데, 이 방법은 기하학적 방법보다 정확도가 뛰어나며, 눈, 코, 그리고 입의 대략적인 위치를 알고 있는 경우 기존의 단점으로 여겨졌던 탐색 속도를 향상시킬 수 있어 널리 쓰이고 있다[4].
식 (1)을 사용하여 한국인의 피부 샘플을 학습 시킨 후에 학습한 얼굴색 공간을 가지고 얼굴 영역을 분류하는 방법은 TSL 색상 공간이 타원형 분포를 이루고 있다는 점에 착안하여, 식 (2)-(3) 과 같이 타원형 분포의 거리 측정에 적합한 마할 라노비스 거리 측정법을 이용한다.

성능/효과

본 논문에서 제안한 포즈 및 표정 추정 및 정규화 얼굴로의 변환을 실험하기 위하여 다양한 각도 및 표정을 가진 얼굴 영상을 테스트하였으 며, 95% 이상의 인식률 향상을 보였다. 물론, 이러한 수치는 얼굴 포즈의 각도 및 표정의 여부가 어느 정도냐에 따라 성능이 크게 좌우되겠지만 인식률의 차이값을 고려하지 않더라도 포즈 및 표정의 정규화 과정에 대한 타당성을 충분히 입증할 수 있는 실험이었다.
이러한 결과는 입력 영상을 그대로 인식하는 것보다는 포즈를 정규화 시킨 영상이 주성분 분석 방법과 같은 현재의 인식 시스템의 성능향상 에 도움을 주며, 더 나아가서는 표정까지 분석하여 이를 교정시켜주는 것이 훨씬 효율적임을 보여준다.
이때 인식의 향상율이 저조한 이유는 비록 포즈를 정면 영상으로 정규화 시켰지만 다양한 표정으로 인하여 찾고자 하는 얼굴 영상과의 유사도가 많이 떨어지기 때문이다. 이러한 원인은 표정 정규화 과정까지 수행한 후 에야 비로소 95%의 높은 인식률을 가질 수 있었으며, 이상의 실험들을 통하여 포즈 및 표정의 정규화가 주성분 분석 방법 등을 사용하는 기존의 얼굴 인식 시스템의 인식률 향상에 기여할 수 있음을 확인할 수 있었다.
그림 18은 주성분 분석의 학습에 쓰인 그림 15의 10명과 다양한 포즈 및 표정을 가지고 있는 그림 13 영상과의 고유벡터 차이값을 비교하여 최소의 거리차이를 갖는 영상을 인식 얼굴로 판단하여 보여준 결과이다. 일반적으로 얼굴 인식을 위한 주성분 분석의 고유벡터는 유클리디언 거리를 가지고 입력 영상과 학습 영상과의 차이값을 계산하며 일정한 임계값을 설정하여 이 값을 기준으로 인식 여부를 판단하지만, 본 실험에서는 정규화된 영상과 원래의 정면 영상과의 왜곡 여부를 확인하기 위한 차원이므로 오거부율을 없애기 위하여 최소값을 갖는 얼굴 영상이 유사도가 가장 높은 영상으로 판단하였다.
그림 18의 (a)는 입력 영상을 인식한 것으로서 정면에 가까운 몇 영상만이 인식하고자 하는 얼굴을 정확히 지목했을 뿐 대부분이 그림 15 (b) 의 9번 영상과 5번 영상으로 분리되었다. 포즈 변환 후의 인식 결과를 살펴보면 9번 얼굴 영상의 유사도가 많이 줄어들어 찾고자 하는 6번 얼굴 영상의 인식률이 많이 늘었지만, 반면에 5번 영상에 대한 인식도 상대적으로 많이 늘었다. 이는 5번 얼굴 영상을 지목하는 분포가 널리 퍼져 있는 것으로 보아 아직까지 표정이 정규화되지 않은 영상의 얼굴 형태가 5번 얼굴 영상과 유사 하다고 볼수 있다.
하지만 템플릿 매칭 단점중의 다른 하나는 찾고자 하는 대상과 미리 설정한 마스크가 매우 유사하여야 하는데, 현재 본 연구에서 사용하는 입력데이터는 다양한 포즈를 가지고 있으므로 이에 해당하는 템플릿 마스크를 사전에 모두 준비하고 있다는 것은 매우 비효율적이며, 템플릿을 적용할 때 적합한 마스크를 선택한다는 것도 연산의 복잡도가 높아지는 현상을 초래한다. 따라서, 본 연구에서는 그림 10의 (a)와 같이 기본 정규화된 템플릿 하나를 가지고 이미 추정된 기하학적 특징(포즈 분석에 의한 회전 값)으로 그림 10의 (c)와 같이 변형시키는 가변 템플릿 방식을 제안하여 템플릿 매칭을 시도하였다.
이러한 영상은 대부분 눈을 크게 뜨고 있어서 눈썹이 기준치 이상으로 올라가거나 입을 크게 벌리고 있기 때문에 이를 정면 영상으로 정규화 시키는 과정에서 얼굴의 형태가 변형된 경우이다. 하지만, 표정까지 변환 하여 최종 정규화된 영상은 그림 17의 동그란 표 식이 보여주는 것처럼 입력 영상의 평균 고유벡터 차이값 1559.8과 포즈만 변환한 영상의 평균 고유벡터 차이값 1405.9보다 훨씬 적은 평균 922.5의 값을 보였다.

후속연구

제안한 방법은 정확한 얼굴 특징값을 얻기 위하여 사용자에게 입력 장치의 틀에 정확히 일치 하는 얼굴의 정면 영상을 요구하는 현재의 출입 관리 시스템보다는 움직이는 사람의 형체를 인식 하고 이로 인하여 발생하는 얼굴의 다양한 각도 및 표정에 강인하게 사람을 판별하여 대화를 나눌 수 있는 로봇 비젼 시스템 및 모바일 폰의 화상 채팅과 같은 분야에서 더 유용하게 쓰일 것으로 기대한다.
즉, 영상에 따라 일정하지 않은 조명의 밝기는 결과적으로 다른 얼굴색을 가진 화소값으로 나타나며, 이는 다른 영역으로 분류될 수 있기 때문에 조명 보정을 통하여 조명에 대한 영향을 최소화하도록 한다. 특히, 얼굴 전체의 무게중심을 검출된 얼굴색의 화소분포로서 산출하는 본 논문에 있어서 확장된 얼굴 영역 검출은 필수적이다. 이에 본 논문에서는 얼굴의 각도별 조명의 영향을 분석하여 광원을 찾아 낸 다음 조명의 영향을 받은 부위에는 조명 보정 을 통하여 얼굴색을 검줄하는 방법을 제안한다.
향후 연구과제로는 각도가 큰 부분의 왜곡 요 인 해결 방안 및 얼굴 구성요소의 워핑에 최적화 될 수 있는 전용 얼굴 모델의 설계이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 얼굴의 다양한 포즈 및 표정의 변환에 따른 얼굴 인식률 향상에 관한 연구
A Study on Improvement of Face Recognition Rate with Transformation of Various Facial Poses and Expressions 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 얼굴의 다양한 포즈 및 표정의 변환에 따른 얼굴 인식률 향상에 관한 연구 A Study on Improvement of Face Recognition Rate with Transformation of Various Facial Poses and Expressions 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 얼굴의 다양한 포즈 및 표정의 변환에 따른 얼굴 인식률 향상에 관한 연구
A Study on Improvement of Face Recognition Rate with Transformation of Various Facial Poses and Expressions 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper