본 논문에서는 SIFT 기술자를 이용한 얼굴 특징과 SVM 분류기로 표정인식을 수행하는 방법에 대하여 제안한다. 기존 SIFT 기술자는 물체 인식 분야에 있어 키포인트 검출 후, 검출된 키포인트에 대한 특징 기술자로써 주로 사용되나, 본 논문에서는 SIFT 기술자를 얼굴 표정인식의 특징벡터로써 적용하였다. 표정인식을 위한 특징은 키포인트 검출 과정 없이 얼굴영상을 서브 블록 영상으로 나누고 각 서브 블록 영상에 SIFT 기술자를 적용하여 계산되며, 표정분류는 SVM 알고리즘으로 수행된다. 성능평가는 기존의 LBP 및 LDP와 같은 이진패턴 특징기반의 표정인식 방법과 비교 수행되었으며, 실험에는 공인 CK 데이터베이스와 JAFFE 데이터베이스를 사용하였다. 실험결과, SIFT 기술자를 이용한 제안방법은 기존방법보다 CK 데이터베이스에서 6.06%의 향상된 인식결과를 보였으며, JAFFE 데이터베이스에서는 3.87%의 성능향상을 보였다.
본 논문에서는 SIFT 기술자를 이용한 얼굴 특징과 SVM 분류기로 표정인식을 수행하는 방법에 대하여 제안한다. 기존 SIFT 기술자는 물체 인식 분야에 있어 키포인트 검출 후, 검출된 키포인트에 대한 특징 기술자로써 주로 사용되나, 본 논문에서는 SIFT 기술자를 얼굴 표정인식의 특징벡터로써 적용하였다. 표정인식을 위한 특징은 키포인트 검출 과정 없이 얼굴영상을 서브 블록 영상으로 나누고 각 서브 블록 영상에 SIFT 기술자를 적용하여 계산되며, 표정분류는 SVM 알고리즘으로 수행된다. 성능평가는 기존의 LBP 및 LDP와 같은 이진패턴 특징기반의 표정인식 방법과 비교 수행되었으며, 실험에는 공인 CK 데이터베이스와 JAFFE 데이터베이스를 사용하였다. 실험결과, SIFT 기술자를 이용한 제안방법은 기존방법보다 CK 데이터베이스에서 6.06%의 향상된 인식결과를 보였으며, JAFFE 데이터베이스에서는 3.87%의 성능향상을 보였다.
This paper proposed a facial expression recognition approach using SIFT feature and SVM classifier. The SIFT was generally employed as feature descriptor at key-points in object recognition fields. However, this paper applied the SIFT descriptor as feature vector for facial expression recognition. I...
This paper proposed a facial expression recognition approach using SIFT feature and SVM classifier. The SIFT was generally employed as feature descriptor at key-points in object recognition fields. However, this paper applied the SIFT descriptor as feature vector for facial expression recognition. In this paper, the facial feature was extracted by applying SIFT descriptor at each sub-block image without key-point detection procedure, and the facial expression recognition was performed using SVM classifier. The performance evaluation was carried out through comparison with binary pattern feature-based approaches such as LBP and LDP, and the CK facial expression database and the JAFFE facial expression database were used in the experiments. From the experimental results, the proposed method using SIFT descriptor showed performance improvements of 6.06% and 3.87% compared to previous approaches for CK database and JAFFE database, respectively.
This paper proposed a facial expression recognition approach using SIFT feature and SVM classifier. The SIFT was generally employed as feature descriptor at key-points in object recognition fields. However, this paper applied the SIFT descriptor as feature vector for facial expression recognition. In this paper, the facial feature was extracted by applying SIFT descriptor at each sub-block image without key-point detection procedure, and the facial expression recognition was performed using SVM classifier. The performance evaluation was carried out through comparison with binary pattern feature-based approaches such as LBP and LDP, and the CK facial expression database and the JAFFE facial expression database were used in the experiments. From the experimental results, the proposed method using SIFT descriptor showed performance improvements of 6.06% and 3.87% compared to previous approaches for CK database and JAFFE database, respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
여기서, T는 전체 서브 블록 개수, 8은 8방향의 빈을 갖는 방향을 의미한다. 고차원의 특징 벡터는 표정인식 시스템의 수행 속도와 밀접한 연관성을 갖으며, 이에 다음 실험에서는 SIFT 특징 차원 축소에 따른 효과를 살펴보고자 한다. 특징 차원 축소는 한 서브 블록에서의 그리드를 4×4에서 2×2로 바꾸어 수행되었으며, 이는 전체 특징 벡터의 차원을 4배 줄이는 효과를 갖는다.
본 논문에서는 ASM 특징점을 이용하여 얼굴 정규화를 수행하고, 정규화 영상을 SIFT 특징과 SVM 분류기를 이용하여 표정인식을 수행하는 방법에 대하여 제안하였다. CK 데이터베이스와 JAFFE 데이터베이스에서 제안 방법의 성능 평가는 다양한 서브 블록 윈도우의 크기에 따라 기존의 이진패턴 특징 기반의 접근법과 비교하여 수행되었다.
제안 방법
그러나, 본 논문에서는 객체 인식 및 정합 등을 위한 키 포인트 검출 과정을 수행하지 않고, SIFT 기술자만을 얼굴 영상에 적용하여, 이를 표정인식 특징벡터로 사용하였다. 즉, Fig.
다음으로, 얼굴영상에 대한 특징벡터는 N× N 크기의 각 서브 블록마다 SIFT 기술자를 적용하고, 모든 블록의 특징을 결합함으로써 구성된다. 한 서브 블록에 대한 SIFT 특징 추출의 첫 과정은 Equation (3)으로 표현되는 블러링 영상 L(x,y)을 생성하는 것이다.
본 논문에서 제안하는 SIFT 기술자 기반 표정인식 방법은 CK 표정 데이터베이스[7]와 JAFFE 표정 데이터베이스[8] 상에서 기존의 LBP[9, 10] 및 LDP[11, 12] 등의 이진패 턴 특징을 SVM으로 인식하는 방법과 성능비교를 수행하였다. CK 표정 데이터베이스는 100명의 학생에 대한 7가지 표정을 갖는 이미지 시퀀스로 구성되어 있으며, 이중에서 320개의 시퀀스를 실험에 사용하였다.
특징추출 단계는 표정인식에 중요한 역할을 차지하며, 본 논문에서는 기존의 객체 인식, 중복성 검출 및 객체 추적에 사용되는 SIFT(Scale Invariant Feature Transform)[4, 5] 기술자를 이용하여 특징벡터를 생성하고, 이를 SVM(Support Vector Machine)[3, 6] 분류기로 표정인식을 수행하는 방법에 대하여 제안한다. 제안 방법의 성능평가는 CK(Cohn-Kanade AU-Coded Facial Expression) 표정 데이터베이스[7]와 JAFFE (Japanese Female Facial Expression) 표정 데이터베이스[8] 상에서 기존의 LBP(Local Binary Pattern)[9, 10] 및 LDP (Local Directional Pattern) [11, 12] 등의 이진패턴 특징을 이용한 표정인식 방법과 성능비교를 수행하였다.
또한, 제안하는 SIFT 기술자를 이용한 표정인식 방법에 대한 실험 결과를 각각 Table 3과 Table 4에 나타내었다. 제안 방법의 실험 결과는 표정 특성을 잘 표현할 수 있는 최적의 윈도우 크기를 찾기 위하여 서브 블록의 크기 N을 16∼48까지 변화하고 O는 N/ 2으로 고정하였으며, 한 서브 블록에서의 그리드는 4×4로 고정하여 인식률을 도출하였다. 여기서, 한 서브 블록에서의 그리드 개수가 고정되므로 N의 크기가 커질수록 전체 영상에서의 SIFT 특징 차원이 작아지는 것을 직관적으로 알 수 있다.
표정인식의 첫 단계인 얼굴영역 검출 단계는 얼굴의 크기가 개인별, 표정별로 달라지므로, 정밀한 얼굴영역 검출이 요구되며, 본 논문에서는 ASM(Active Shape Model)[2, 3]을 이용하여 얼굴 영역을 획득하였다. 특징추출 단계는 표정인식에 중요한 역할을 차지하며, 본 논문에서는 기존의 객체 인식, 중복성 검출 및 객체 추적에 사용되는 SIFT(Scale Invariant Feature Transform)[4, 5] 기술자를 이용하여 특징벡터를 생성하고, 이를 SVM(Support Vector Machine)[3, 6] 분류기로 표정인식을 수행하는 방법에 대하여 제안한다. 제안 방법의 성능평가는 CK(Cohn-Kanade AU-Coded Facial Expression) 표정 데이터베이스[7]와 JAFFE (Japanese Female Facial Expression) 표정 데이터베이스[8] 상에서 기존의 LBP(Local Binary Pattern)[9, 10] 및 LDP (Local Directional Pattern) [11, 12] 등의 이진패턴 특징을 이용한 표정인식 방법과 성능비교를 수행하였다.
대상 데이터
본 논문에서 제안하는 SIFT 기술자 기반 표정인식 방법은 CK 표정 데이터베이스[7]와 JAFFE 표정 데이터베이스[8] 상에서 기존의 LBP[9, 10] 및 LDP[11, 12] 등의 이진패 턴 특징을 SVM으로 인식하는 방법과 성능비교를 수행하였다. CK 표정 데이터베이스는 100명의 학생에 대한 7가지 표정을 갖는 이미지 시퀀스로 구성되어 있으며, 이중에서 320개의 시퀀스를 실험에 사용하였다. JAFFE 표정 데이터베이스는 213장의 일본인 여성 모델 10명으로 구성되어 있으며, 한 사람에 대하여 7가지 표정 이미지로 구성되어 있다.
CK 표정 데이터베이스는 100명의 학생에 대한 7가지 표정을 갖는 이미지 시퀀스로 구성되어 있으며, 이중에서 320개의 시퀀스를 실험에 사용하였다. JAFFE 표정 데이터베이스는 213장의 일본인 여성 모델 10명으로 구성되어 있으며, 한 사람에 대하여 7가지 표정 이미지로 구성되어 있다. Fig.
데이터처리
본 논문에서는 ASM 특징점을 이용하여 얼굴 정규화를 수행하고, 정규화 영상을 SIFT 특징과 SVM 분류기를 이용하여 표정인식을 수행하는 방법에 대하여 제안하였다. CK 데이터베이스와 JAFFE 데이터베이스에서 제안 방법의 성능 평가는 다양한 서브 블록 윈도우의 크기에 따라 기존의 이진패턴 특징 기반의 접근법과 비교하여 수행되었다. 실험 결과, 제안방법은 CK 데이터베이스에서 기존의 방법보다 6.
4는 ASM 특징점 정보를 이용하여 정규화를 수행한 CK 표정 데이터베이스 및 JAFFE 표정 데이터베이스의 샘플 영상을 나타낸다. 더불어, 본 논문에서는 각 데이터베이스에 대한 데이터셋을 5개의 그룹으로 나누고, 한 개 그룹을 테스트에, 나머지 4개 그룹을 학습에 사용하는 5-fold 교차 검증을 수행하여 실험 결과를 도출하였다.
이론/모형
다음으로 SIFT 기술자를 이용하여 특징 벡터를 추출하고, 얼굴 표정인식은 SVM 알고리즘으로 수행된다. SVM[3, 6]은 인식 성능과 처리 속도 성능이 매우 뛰어나 최근에 패턴인식, 얼굴인식, 문자인식, 데이터마이닝 등의 다양한 분류 문제에 적용되고 있으며, 이에 본 논문에서도 표정 분류를 위하여 SVM을 이용하였다. SVM은 최초 이진패턴 분류 문제를 해결하기 위해 제안된 지도학습 방법 중 하나로, 일반적으로 분류하려는 부류의 결정 초평면 사이에 존재하는 여백을 최대화하여 분류기의 일반화 능력을 극대화하는 방법이다.
다음으로 SIFT 기술자를 이용하여 특징 벡터를 추출하고, 얼굴 표정인식은 SVM 알고리즘으로 수행된다. SVM[3, 6]은 인식 성능과 처리 속도 성능이 매우 뛰어나 최근에 패턴인식, 얼굴인식, 문자인식, 데이터마이닝 등의 다양한 분류 문제에 적용되고 있으며, 이에 본 논문에서도 표정 분류를 위하여 SVM을 이용하였다.
본 논문에서는 표정인식을 위한 정밀한 얼굴영역 획득을 위하여 ASM 특징점(Landmark)을 이용하였다. 일반적으로, ASM은 통계적인 모델을 이용하여 특징점을 추출하는 방법으로 특징점 검출 속도가 빠르고, 형태 모델의 여러 가지 변형을 잘 표현할 수 있으며, 조명변화에 덜 민감한 방법으로 알려져 있다[2, 3].
본 논문에서는 표정인식을 위한 특징으로 SIFT 기술자를 사용하였다. SIFT 알고리즘은 David Lowe[4, 5]에 의해 처음 제안되었으며, 영상 회전, 스케일 변화, 조명 변화에 매우 강인성을 가진 특징 추출 알고리즘이다.
일반적으로, 얼굴 표정인식은 얼굴검출, 특징추출, 그리고 표정분류의 단계로 수행된다. 표정인식의 첫 단계인 얼굴영역 검출 단계는 얼굴의 크기가 개인별, 표정별로 달라지므로, 정밀한 얼굴영역 검출이 요구되며, 본 논문에서는 ASM(Active Shape Model)[2, 3]을 이용하여 얼굴 영역을 획득하였다. 특징추출 단계는 표정인식에 중요한 역할을 차지하며, 본 논문에서는 기존의 객체 인식, 중복성 검출 및 객체 추적에 사용되는 SIFT(Scale Invariant Feature Transform)[4, 5] 기술자를 이용하여 특징벡터를 생성하고, 이를 SVM(Support Vector Machine)[3, 6] 분류기로 표정인식을 수행하는 방법에 대하여 제안한다.
성능/효과
87%의 향상된 인식 성능을 확인할 수 있었다. 더불어, CK 데이터베이스와 JAFFE 데이터베이스를 이용한 실험 결과를 함께 고려할 때, 제안 방법에서의 SIFT 특징추출을 위한 최적의 서브 블록 윈도우 크기는 32×32와 40×40임을 인식 결과로부터 알 수 있었다.
74%의 최대 인식률을 보였다. 반면, SIFT 특징을 이용한 제안 방법은 CK 데이터베이스에서는 83.69%, JAFFE 데이터베이스의 경우에는 73.61%의 최대 인식률을 보였다. 이로부터 제안하는 표정인식 방법은 기존 방법보다 CK 데이터베이스의 경우 6.
실험 결과, CK 데이터베이스 경우에 최대 인식률은 83.34%, JAFFE 데이터베이스의 경우는 73.16%를 보였으며, 이러한 결과는 4×4 그리드를 사용할 경우보다 CK 데이터베이스는 0.35%, JAFFE 데이터베이스는 0.45%의 다소 저하된 인식 성능을 확인할 수 있다. 그러나 위와 같은 소폭의 인식 성능 손실 대비, SIFT 특징 차원 축소에 따른 계산 복잡도를 크게 개선한 점을 고려할 때, 2×2 그리드를 사용하여 SIFT 특징을 추출하는 방법은 4×4 그리드를 사용하는 경우보다 실시간 표정인식 시스템에서 보다 효율성이 높을 것으로 사료된다.
CK 데이터베이스와 JAFFE 데이터베이스에서 제안 방법의 성능 평가는 다양한 서브 블록 윈도우의 크기에 따라 기존의 이진패턴 특징 기반의 접근법과 비교하여 수행되었다. 실험 결과, 제안방법은 CK 데이터베이스에서 기존의 방법보다 6.06%의 성능향상을 보였고, JAFFE 데이터베이스에서는 기존 방법보다 3.87%의 성능향상을 보였으며, 이로부터 제안 방법의 효용성을 확인하였다.
여기서, 한 서브 블록에서의 그리드 개수가 고정되므로 N의 크기가 커질수록 전체 영상에서의 SIFT 특징 차원이 작아지는 것을 직관적으로 알 수 있다. 실험 결과로부터 LBP 특징을 사용하는 기존 방법에서 CK 데이터베이스는 77.63%의 최대 인식률을 보였으며, JAFFE 데이터베이스의 경우에는 69.74%의 최대 인식률을 보였다. 반면, SIFT 특징을 이용한 제안 방법은 CK 데이터베이스에서는 83.
61%의 최대 인식률을 보였다. 이로부터 제안하는 표정인식 방법은 기존 방법보다 CK 데이터베이스의 경우 6.06%, JAFEE 데이터베이스의 경우 3.87%의 향상된 인식 성능을 확인할 수 있었다. 더불어, CK 데이터베이스와 JAFFE 데이터베이스를 이용한 실험 결과를 함께 고려할 때, 제안 방법에서의 SIFT 특징추출을 위한 최적의 서브 블록 윈도우 크기는 32×32와 40×40임을 인식 결과로부터 알 수 있었다.
질의응답
핵심어
질문
논문에서 추출한 답변
인간의 감정은 어떻게 구분할 수 있는가?
표정은 인간의 감정을 표현하는 수단이므로 몇 개의 표정만으로 다양한 감정을 표현하기는 어렵다. 이에, Ekman[1]은 인간의 감정을 놀람, 화남, 공포, 혐오, 슬픔, 기쁨의 6가지 기본 정서로 구분하였으며, 이후 얼굴을 이용한 표정인식은 이러한 6가지 표정을 구분하는 문제를 다루고 있다. 일반적으로, 얼굴 표정인식은 얼굴검출, 특징추출, 그리고 표정분류의 단계로 수행된다.
ASM 특징점을 이용하는 방법의 특징은 무엇인가?
본 논문에서는 표정인식을 위한 정밀한 얼굴영역 획득을 위하여 ASM 특징점(Landmark)을 이용하였다. 일반적으로, ASM은 통계적인 모델을 이용하여 특징점을 추출하는 방법으로 특징점 검출 속도가 빠르고, 형태 모델의 여러 가지 변형을 잘 표현할 수 있으며, 조명변화에 덜 민감한 방법으로 알려져 있다[2, 3]. ASM에서 형태 모델을 만드는 학습 과정은 학습 데이터로부터 라벨링된 특징점들을 이용하여 평균 형태를 구한다.
기존 SIFT 기술자는 주로 어떻게 사용되는가?
본 논문에서는 SIFT 기술자를 이용한 얼굴 특징과 SVM 분류기로 표정인식을 수행하는 방법에 대하여 제안한다. 기존 SIFT 기술자는 물체 인식 분야에 있어 키포인트 검출 후, 검출된 키포인트에 대한 특징 기술자로써 주로 사용되나, 본 논문에서는 SIFT 기술자를 얼굴 표정인식의 특징벡터로써 적용하였다. 표정인식을 위한 특징은 키포인트 검출 과정 없이 얼굴영상을 서브 블록 영상으로 나누고 각 서브 블록 영상에 SIFT 기술자를 적용하여 계산되며, 표정분류는 SVM 알고리즘으로 수행된다.
참고문헌 (12)
P. Ekman and W. V. Friesen, "Constants across cultures in the face and emotion," Journal of Personality and Social Psychology, Vol.17, No.2, pp.124-129, 1971.
T. F. Cootes, C. J. Taylor, D. H. Cooper, and J. Graham, "Active shape models - their training and application," Computer Vision and Image Understanding, Vol.61, pp.38-59, 1995.
H. T. Le and N. T. Vo, "Face alignment using active shape model and support vector machine," International Journal of Biometrics and Bioinformatics, Vol.4, No.6, pp.224-234, 2012.
David G. Lowe, "Object recognition from local scale-invariant features," Proceedings of the International Conference on Computer Vision, Vol.2. pp.1150-1157, 1999.
M. T. Carlos, P. B. Marcos, and B. A. Jesus, "Fused intra-bimodal face verification approach based on scaleinvariant feature transform and a vocabulary tree," Pattern Recognition Letters, Vol.36, pp.254-260, 2014.
T. Kanade, J. Cohn, and Y. Tian, "Comprehensive database for facial expression analysis," IEEE International Conference Automatic Face Gesture Recognition, pp.46-53, 2000.
M. J. Lyons, J. Budynek, and S. Akamatsu, "Automatic classification of single facial images," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.21, No.12, pp. 357-1362, 1999.
C. Shan, S. Gong, and P. W. McOwan, "Facial expression recognition based on local binary patterns: A Comprehensive study," Image and Vision Computing, Vol.27, No.6, pp.803- 816, 2009.
W. L. Chao, J. J. Ding, and J. Z. Liu, "Facial expression recognition based on improved local binary pattern and class-regularized locality preserving projection," Signal Processing, Vol.117, pp.1-10, 2015.
T. Jabid, M. H. Kabir, and O. Chae, "Robust facial expression recognition based on local directional pattern," ETRI Journal, Vol.32, No.5, pp.784-794, 2010.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.