얼굴인식, 홍채인식과 같은 생체보안 분야에서 눈, 코, 입술 등 얼굴특징을 추출하는 과정은 필수적이다. 본 논문은 초고속(faster) R-CNN을 이용하여 얼굴영상에서 눈 및 입술영역을 검출하는 방법을 연구하였다. 초고속 R-CNN은 딥러닝을 이용한 물체검출 방법으로 기존의 특징기반 방법에 비해 성능이 우수한 것으로 알려져 있다. 본 논문에서는 얼굴영상에 콘볼루션, 선형정류과정, max pooling과정을 차례로 적용하여 특징맵을 추출하고 이로부터 제안영역(region proposal)을 검출하는 RPN(region proposal network)을 학습한다. 그리고 제안영역과 특징맵을 이용하여 눈 및 입술 검출기(detector)를 학습한다. 제안방법의 성능을 검토하기 위해 남녀한국인 얼굴영상 800장으로 실험하였다. 학습을 위해 480장을 이용했으며 테스트용으로 320장을 사용하였다. 컴퓨터모의 실험결과 눈 및 입술영역 검출의 평균정확도는 50 에포치일 때 각각 97.7%, 91.0%를 얻을 수 있었다.
얼굴인식, 홍채인식과 같은 생체보안 분야에서 눈, 코, 입술 등 얼굴특징을 추출하는 과정은 필수적이다. 본 논문은 초고속(faster) R-CNN을 이용하여 얼굴영상에서 눈 및 입술영역을 검출하는 방법을 연구하였다. 초고속 R-CNN은 딥러닝을 이용한 물체검출 방법으로 기존의 특징기반 방법에 비해 성능이 우수한 것으로 알려져 있다. 본 논문에서는 얼굴영상에 콘볼루션, 선형정류과정, max pooling과정을 차례로 적용하여 특징맵을 추출하고 이로부터 제안영역(region proposal)을 검출하는 RPN(region proposal network)을 학습한다. 그리고 제안영역과 특징맵을 이용하여 눈 및 입술 검출기(detector)를 학습한다. 제안방법의 성능을 검토하기 위해 남녀한국인 얼굴영상 800장으로 실험하였다. 학습을 위해 480장을 이용했으며 테스트용으로 320장을 사용하였다. 컴퓨터모의 실험결과 눈 및 입술영역 검출의 평균정확도는 50 에포치일 때 각각 97.7%, 91.0%를 얻을 수 있었다.
In the field of biometric security such as face and iris recognition, it is essential to extract facial features such as eyes and lips. In this paper, we have studied a method of detecting eye and lip region in face image using faster R-CNN. The faster R-CNN is an object detection method using deep ...
In the field of biometric security such as face and iris recognition, it is essential to extract facial features such as eyes and lips. In this paper, we have studied a method of detecting eye and lip region in face image using faster R-CNN. The faster R-CNN is an object detection method using deep running and is well known to have superior performance compared to the conventional feature-based method. In this paper, feature maps are extracted by applying convolution, linear rectification process, and max pooling process to facial images in order. The RPN(region proposal network) is learned using the feature map to detect the region proposal. Then, eye and lip detector are learned by using the region proposal and feature map. In order to examine the performance of the proposed method, we experimented with 800 face images of Korean men and women. We used 480 images for the learning phase and 320 images for the test one. Computer simulation showed that the average precision of eye and lip region detection for 50 epoch cases is 97.7% and 91.0%, respectively.
In the field of biometric security such as face and iris recognition, it is essential to extract facial features such as eyes and lips. In this paper, we have studied a method of detecting eye and lip region in face image using faster R-CNN. The faster R-CNN is an object detection method using deep running and is well known to have superior performance compared to the conventional feature-based method. In this paper, feature maps are extracted by applying convolution, linear rectification process, and max pooling process to facial images in order. The RPN(region proposal network) is learned using the feature map to detect the region proposal. Then, eye and lip detector are learned by using the region proposal and feature map. In order to examine the performance of the proposed method, we experimented with 800 face images of Korean men and women. We used 480 images for the learning phase and 320 images for the test one. Computer simulation showed that the average precision of eye and lip region detection for 50 epoch cases is 97.7% and 91.0%, respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
초고속 R-CNN은 고속 R-CNN에서 제안영역을 생성하는 과정을 신경망내부에 포함시켜 입력영상으로부터 물체 영역을 검출하는 전체 과정을 하나의 CNN에 통합한 것이다. 본 논문에서는 입력영상으로 부터 특징맵을 구하는 CNN을 연구하였으며, 제안영역을 생성하는 RPN과 눈 및 입술 영역을 검출하는 검출기를 실험하였다.
본 논문에서는 초고속 R-CNN을 이용하여 얼굴영상에서 눈 및 입술 영역을 동시에 검출하는 방법을 연구하였다. 초고속 R-CNN은 고속 R-CNN에서 제안영역을 생성하는 과정을 신경망내부에 포함시켜 입력영상으로부터 물체 영역을 검출하는 전체 과정을 하나의 CNN에 통합한 것이다.
본 논문에서는 초고속 R-CNN을 이용하여 얼굴영상에서 눈 및 입술 위치를 검출하는 알고리즘을 연구하였다. 제안방법은 먼저 학습데이터의 입력과정, 초고속 R-CNN을 위한 CNN과정, 학습을 위한 변수설정 및 검출기 학습과정으로 구성된다.
본 논문에서는 초고속(faster) R-CNN(region convolutional neural network)을 이용하여 얼굴영상에서 눈 및 입술영역을 검출하는 방법을 연구한다. 기존 검출방법은 크게 특징기반 방법과 콘볼루션신경망 기반 방법으로 나눌 수 있다[3,5].
본 논문에서는 최근 다중물체 인식 알고리즘으로 활발한 연구가 진행되고 있는 초고속 R-CNN[11-13,17]을 이용하여 얼굴영상에서 눈 및 입술영역을 동시에 검출하는 방법을 제안하고 성능을 평가한다.
제안 방법
첫 번째 단계는 학습데이터를 이용하여 RPN을 학습한다. 두 번째 단계는 학습된 RPN으로부터 얻은 제안영역을 이용하여 검출기를 학습한다. 세 번째 단계는 블록도의 콘볼루션(CNN) 및 max pooloing 단계의 가중치를 고정한 후 RPN을 미세조정 한다.
즉 고속 R-CNN은 제안영역을 사전에 별도과정에서 독립적으로 추출하는 것은 R-CNN과 동일하지만, 검출된 각 제안영역마다 별도로 CNN을 실행하던 것을 하나의 CNN을 이용하여 특징맵을 추출하는 구조로 변경하여 시간을 대폭 단축하였다[12]. 입력영상에 CNN을 한번만 실행하여 특징맵을 생성하고 제안영역 정보를 특징맵의 마지막 층에 적용하여 관심영역(RoI: Region of Interest) 중 하나를 선택하는 RoI pooling과정을 수행한다. 그리고 RoI특징벡터는 영역분류를 위한 softmax단계와 검출한 물체에 최적으로 외접한 사각형을 구하기 위한 사각선형회귀(bounding-box regression)과정을 거친다.
본 논문에서는 초고속 R-CNN을 이용하여 얼굴영상에서 눈 및 입술 위치를 검출하는 알고리즘을 연구하였다. 제안방법은 먼저 학습데이터의 입력과정, 초고속 R-CNN을 위한 CNN과정, 학습을 위한 변수설정 및 검출기 학습과정으로 구성된다. 제안방법의 블록도는 Fig.
제안방법의 성능을 평가하기 위해 본 연구에서는 남녀한국인 800장의 칼라 얼굴영상을 이용하여 눈 및 입술영역을 검출하는 컴퓨터모의실험을 한다. 초고속 R-CNN 학습용으로 480장을 이용하고, 테스트용으로 320장을 사용하였다.
콘볼루션을 적용할 때 각 필터의 상하좌우 이동(stride)은 각각 1화소씩 움직이고, 영상 크기를 입력영상과 동일하게 유지하도록 지주박스 가장자리에 추가하는 padding값은 1로 하였다.
대상 데이터
이 때 CNN은 32개의 3x3크기 필터를 두 번 적용하고 마지막 층에서 2x2 max pooling으로 다운샘플링 한다. 본 논문에서 사용한 검출기의 특징맵의 크기는 14x19이며 채널수는 32개이다. 이 특징맵은 RPN의 입력이 되며 RPN은 다시 두 단계로 나누어진다.
6에 눈과 입술 샘플영상을 나타내었다. 실험에 사용된 영상은 남녀 얼굴을 일정한 거리에서 상하좌우로 조금씩 회전하고 조명을 좌우에서 비추어 조명 변화가 발생하도록 하여 영상을 획득한 것이다. Table 1에 얼굴영상에서 초고속 R-CNN을 학습하기 위한 기준 영상인 눈 및 입술영역의 크기정보(최소, 최대, 평균)를 화소단위로 표시하였다.
실험에 사용된 영상은 얼굴영상으로 부터 눈 및 입술 영역을 추출한 영상을 사용하여 RPN 및 검출기를 학습하였다. 컴퓨터모의 실험결과 제안방법을 얼굴인식을 위한 전단계로 눈 및 입술 영역을 검출하는데 사용될 수 있음을 알 수 있었으나, 앞으로 개선할 점들도 많이 있다.
초고속 R-CNN 학습용으로 480장을 이용하고, 테스트용으로 320장을 사용하였다. 실험은 Intel Xeon 2.2GHz CPU, 32GB 주기억장치, Titan X GPU(12GB) 및 64비트 운영체제에서 수행하였다.
제안방법의 성능을 평가하기 위해 본 연구에서는 남녀한국인 800장의 칼라 얼굴영상을 이용하여 눈 및 입술영역을 검출하는 컴퓨터모의실험을 한다. 초고속 R-CNN 학습용으로 480장을 이용하고, 테스트용으로 320장을 사용하였다. 실험은 Intel Xeon 2.
성능/효과
결론적으로 R-CNN, 고속 R-CNN 및 초고속 R-CNN은 공통적으로 모두 CNN을 사용한다. 다만 제안영역을 추출하는 방법과 그들을 분류하는 방법이 다를 뿐이다.
13은 50 epoch일 때의 눈 및 입술영역 검출의 평균정확도을 나타낸 것이다. 본 연구의 눈 및 입술영역 검출을 위한 평균정확도는 각각 97.7%, 91.0%이다. 웃는 영상에서 입술영역은 검출하지 못하는 경우가 일부 발생한다.
후속연구
평균정확도는 눈 영역이 입술영역 보다 상대적으로 높았는데, 이는 웃는 얼굴영상에서 이가 보이는 입술영역의 학습데이터 부족으로 입술영역을 검출하지 못하는 경우가 일부 발생한 것으로 향후 연구에서 개선이 필요하다. 그리고 얼굴영상에서 눈 영역뿐만 아니라 코, 귀, 턱, 머리부분 등 얼굴인식을 위한 주요특징을 검출하는 다중물체 검출시스템으로 확장하는 방법을 연구할 필요가 있다.
실험에 사용된 영상은 얼굴영상으로 부터 눈 및 입술 영역을 추출한 영상을 사용하여 RPN 및 검출기를 학습하였다. 컴퓨터모의 실험결과 제안방법을 얼굴인식을 위한 전단계로 눈 및 입술 영역을 검출하는데 사용될 수 있음을 알 수 있었으나, 앞으로 개선할 점들도 많이 있다. 평균정확도는 눈 영역이 입술영역 보다 상대적으로 높았는데, 이는 웃는 얼굴영상에서 이가 보이는 입술영역의 학습데이터 부족으로 입술영역을 검출하지 못하는 경우가 일부 발생한 것으로 향후 연구에서 개선이 필요하다.
컴퓨터모의 실험결과 제안방법을 얼굴인식을 위한 전단계로 눈 및 입술 영역을 검출하는데 사용될 수 있음을 알 수 있었으나, 앞으로 개선할 점들도 많이 있다. 평균정확도는 눈 영역이 입술영역 보다 상대적으로 높았는데, 이는 웃는 얼굴영상에서 이가 보이는 입술영역의 학습데이터 부족으로 입술영역을 검출하지 못하는 경우가 일부 발생한 것으로 향후 연구에서 개선이 필요하다. 그리고 얼굴영상에서 눈 영역뿐만 아니라 코, 귀, 턱, 머리부분 등 얼굴인식을 위한 주요특징을 검출하는 다중물체 검출시스템으로 확장하는 방법을 연구할 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
고속 R-CNN이 R-CNN과 다른 점은 무엇인가?
이러한 R-CNN을 개선한 것이 고속(fast) R-CNN이다. 즉 고속 R-CNN은 제안영역을 사전에 별도과정에서 독립적으로 추출하는 것은 R-CNN과 동일하지만, 검출된 각 제안영역마다 별도로 CNN을 실행하던 것을 하나의 CNN을 이용하여 특징맵을 추출하는 구조로 변경하여 시간을 대폭 단축하였다[12]. 입력영상에 CNN을 한번만 실행하여 특징맵을 생성하고 제안영역 정보를 특징맵의 마지막 층에 적용하여 관심영역(RoI: Region of Interest) 중 하나를 선택하는 RoI pooling과정을 수행한다.
CNN은 어떤 방법을 말하는가?
그리고 각 제안영역에 대하여 CNN을 독립적으로 적용하므로 제안영역이 서로 중복되는 경우도 많기 때문에 물체를 검출하는데 많은 시간이 소요되는 단점이 있다. CNN은 미리 학습된(pre-trained) AlexNet, VGG 등을 사용해서 특징을 추출하고, 분류기로 성능이 우수한 것으로 알려진 SVM을 특징맵의 가장 마지막 층에 적용하여 물체를 분류(classification)하는 방법이다[9,10,14]. 그러나 R-CNN은 모든 제안영역 마다 CNN을 별도로 실행해야하고 물체분류기로 작동하는 SVM이 CNN과 통합되지 않아 분류기 결과를 CNN을 학습하는데 사용할 수 없는 단점이 있다.
R-CNN에서 말하는 제안영역은 어떤 단점을 가지고 있는가?
여기서 제안영역이란 콘볼루션으로 구한 특징맵(feature map)에서 검출할 물체를 포함하고 있는 후보영역이다. 그리고 각 제안영역에 대하여 CNN을 독립적으로 적용하므로 제안영역이 서로 중복되는 경우도 많기 때문에 물체를 검출하는데 많은 시간이 소요되는 단점이 있다. CNN은 미리 학습된(pre-trained) AlexNet, VGG 등을 사용해서 특징을 추출하고, 분류기로 성능이 우수한 것으로 알려진 SVM을 특징맵의 가장 마지막 층에 적용하여 물체를 분류(classification)하는 방법이다[9,10,14].
참고문헌 (19)
S. Zafeiriou, C. Zhang & Z. Zhang. (2015). A survey on face detection in the wild: past, present and future. Computer Vision and Image Understanding, 138, 1-24. DOI : 10.1016/j.cviu.2015.03.015
Vinay Kumar, Arpit Agarwal & Kanika Mittal. (2011). Tutorial: introduction to emotion recognition for digital images, [Technical report] , 1-47.
Oya Celiktutan, Sezer Ulukaya & Bulent Sankur, (2013). A comparative study of face landmarking techniques. EURASIP Journal on Image and Video Processing, 13. DOI : 10.1186/1687-5281-2013-13
Dan Witzner Hansen & Qiang Ji. (2010). In the eye of the beholder: a survey of models for eyes and gaze. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(3), 478-500. DOI : 10.1109/TPAMI.2009.30
Waqas, Haider, Hadia Bashir, Abida Sharif, Irfan Sharif & Abdul Wahab1Smola. (2014). A survey on face detection and recognition approaches. Research Journal of Recent Sciences, 3(4), 56-62.
A. Al-Rahayfeh & M. Faezipour. (2013). Eye tracking and head movement detection: a state-of-art survey. IEEE Journal of Translational Engineering in Health and Medicine, 1. DOI: 10.1109/JTEHM.2013.2289879
P. Viola & M. Jones. (2004). Robust real-time object detection. International Journal of Computer Vision 57(2), 137-154. DOI : 10.1023/B:VISI.0000013087.49260.fb
R. Girshick, J. Donahue, T. Darrell & J. Malik. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 5.
Girshick, Ross. (2015). Fast r-cnn. Proceedings of the IEEE International Conference on Computer Vision.(ICCV 2015).
S. Ren, K. He, R. Girshick, & J. Sun. (2017). Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6), 1137-1149. DOI: 10.1109/TPAMI.2016.2577031
J. R. Uijlings, K. E. van de Sande, T. Gevers & A. W. Smeulders. (2013). Selective search for object recognition. International Journal of Computer Vision, 154-171.
C. L. Zitnick & P. Dollar. (2014). Edge boxes: Locating object proposals from edges. in European Conference on Computer Vision (ECCV), 391-405.
https://kr.mathworks.com/help/vision/examples
Y. Zhang, K. Lee & H. Lee. (2016). Augmenting supervised neural networks with unsupervised objectives for large-scale image classification. International Conference on Machine Learning(ICML), 612-621.
K. Kim, et al. (2017), Detail focused image classifier model for traditional images. Journal of the Korea Convergence Society, 8(12), 85-92. DOI: 10.15207/JKCS.2017.8.12.085
※ AI-Helper는 부적절한 답변을 할 수 있습니다.