본 논문에서는 실시간 시선 식별을 위한 능동적 적외선 조명을 기반으로 한 컴퓨터 비전 시스템을 제안 하고자 한다. 현존하는 대다수의 시선 식별 방법은 고정된 얼굴에서만 원활하게 동작하고 개개인에 대한 교정 절차를 필요로 한다. 그러므로 본 논문에서는 교정 작업 없이 얼굴 움직임이 있는 경우에도 견실하고 정확하게 동작하는 시선 식별 시스템을 제안하고 있다. 제안된 시스템은 추출된 변수로부터 시선을 스크린 좌표로 매핑하기 위해 GRNN을 이용하였다. 동공을 추적하여 GRNN을 사용함으로서, 시선 매핑에 분석적 기능이나 얼굴 움직임에 대한 계산이 필요 없을 뿐 아니라 다른 개개인에 대하여 학습과정에서 매핑 기능을 일반화 할 수 있었다. 시선 예측 정확도를 개선하고자 계층적 식별을 제안함으로써 오분류를 줄일 수 있었고, 공간 시선 해상도는 스크린에서 1m 정도 떨어진 거리에서 수평으로 10cm, 수직으로 약 13cm, 즉 수평으로 8도 수직으로 5도 이었다. 실험 결과, 재식별 하였을 경우 1차 시선 식별시 84%보다 약 9% 정도 정확성이 향상되어 93%를 나타냄으로써 제안된 시스템의 유효성을 증명하였다.
본 논문에서는 실시간 시선 식별을 위한 능동적 적외선 조명을 기반으로 한 컴퓨터 비전 시스템을 제안 하고자 한다. 현존하는 대다수의 시선 식별 방법은 고정된 얼굴에서만 원활하게 동작하고 개개인에 대한 교정 절차를 필요로 한다. 그러므로 본 논문에서는 교정 작업 없이 얼굴 움직임이 있는 경우에도 견실하고 정확하게 동작하는 시선 식별 시스템을 제안하고 있다. 제안된 시스템은 추출된 변수로부터 시선을 스크린 좌표로 매핑하기 위해 GRNN을 이용하였다. 동공을 추적하여 GRNN을 사용함으로서, 시선 매핑에 분석적 기능이나 얼굴 움직임에 대한 계산이 필요 없을 뿐 아니라 다른 개개인에 대하여 학습과정에서 매핑 기능을 일반화 할 수 있었다. 시선 예측 정확도를 개선하고자 계층적 식별을 제안함으로써 오분류를 줄일 수 있었고, 공간 시선 해상도는 스크린에서 1m 정도 떨어진 거리에서 수평으로 10cm, 수직으로 약 13cm, 즉 수평으로 8도 수직으로 5도 이었다. 실험 결과, 재식별 하였을 경우 1차 시선 식별시 84%보다 약 9% 정도 정확성이 향상되어 93%를 나타냄으로써 제안된 시스템의 유효성을 증명하였다.
This paper describes a computer vision system based on active IR illumination for real-time gaze discrimination system. Unlike most of the existing gaze discrimination techniques, which often require assuming a static head to work well and require a cumbersome calibration process for each person, ou...
This paper describes a computer vision system based on active IR illumination for real-time gaze discrimination system. Unlike most of the existing gaze discrimination techniques, which often require assuming a static head to work well and require a cumbersome calibration process for each person, our gaze discrimination system can perform robust and accurate gaze estimation without calibration and under rather significant head movement. This is made possible by a new gaze calibration procedure that identifies the mapping from pupil parameters to screen coordinates using generalized regression neural networks (GRNNs). With GRNNs, the mapping does not have to be an analytical function and head movement is explicitly accounted for by the gaze mapping function. Furthermore, the mapping function can generalize to other individuals not used in the training. To further improve the gaze estimation accuracy, we employ a reclassification scheme that deals with the classes that tend to be misclassified. This leads to a 10% improvement in classification error. The angular gaze accuracy is about $5^{\circ}$horizontally and $8^{\circ}$vertically. The effectiveness of our gaze tracker is demonstrated by experiments that involve gaze-contingent interactive graphic display.
This paper describes a computer vision system based on active IR illumination for real-time gaze discrimination system. Unlike most of the existing gaze discrimination techniques, which often require assuming a static head to work well and require a cumbersome calibration process for each person, our gaze discrimination system can perform robust and accurate gaze estimation without calibration and under rather significant head movement. This is made possible by a new gaze calibration procedure that identifies the mapping from pupil parameters to screen coordinates using generalized regression neural networks (GRNNs). With GRNNs, the mapping does not have to be an analytical function and head movement is explicitly accounted for by the gaze mapping function. Furthermore, the mapping function can generalize to other individuals not used in the training. To further improve the gaze estimation accuracy, we employ a reclassification scheme that deals with the classes that tend to be misclassified. This leads to a 10% improvement in classification error. The angular gaze accuracy is about $5^{\circ}$horizontally and $8^{\circ}$vertically. The effectiveness of our gaze tracker is demonstrated by experiments that involve gaze-contingent interactive graphic display.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
동공과 글린트로부터 적합한 매개변수를 추출하여 GRNN 알고리즘으로 시선을 식별하고자 하였다. 추출된 매개변수를 가지고 GRNN을 통하여 교정함으로써 교정작업을 일반화하여 사용자가 바뀌거나 얼굴의 움직임이 있는 경우에도 교정작업 없이 시선을 식별할 수가 있었다.
동공과 글린트에 관한 매개변수가 충분히 주어진다면 시선에 따라 유일한 기능을 갖는 동공과 글린트 매개변수를 찾고자 GRNN을 이용하여 교정을 일반화 하고자 하였다.
본 논문에서는 기존의 문제점인 얼굴 움직임이 있을 시 시선 식별이 어려운 점과 사용자에 따른 교정작업이 필요하다는 점을 해결하고자 새로운 시선 식별 시스템을 제안하고자 한다.
본 논문에서는 실시간으로 모니터 앞의 사용자에 대한 동공을 검출, 추적하여 시선을 식별하는 새로운 시스템을 제안하고자 하였다. 기존의 시선 식별 연구들은 단지 홍채나 동공의 기하학적 특성만을 이용하여 추정함으로, 얼굴을 조금만 움직여도 식별이 이루어지지 않았고 사용자에 따른 각각의 교정작업이 필요하다는 단점이 있으므로, 교정작업 없이 얼굴 움직임이 있는 경우에도 견실하고 정확하게 동작하는 시선 식별 시스템을 제안하였다.
제안 방법
각각의 시선 영역에 대한 인접 영역을 확인하고 인접한 영역에 대한 학습 데이터만을 이용하여 학습을 수행한 후, 인접한 영역만으로 재식별 하도록 하여 식별 결과를 검증하도록 하였다. 즉, 식별 결과 영역 1로 식별되었을 경우, 검증을 위하여 영역 1, 2, 8의 학습데이터만을 가지고 재학습하여, 영역 1로 1차 식별한 결과가 인접한 영역인 2, 8영역을 혹 1영역으로 오인식한 것이 아닌지를 검증하도록 한 것이다.
검출된 동공과 글린트를 이용하여 시선 식별을 위한 매개변수[7]를 추출하였다.
제안된 식별 알고리즘을 실험하기 위하여 모니터상의 스크린을 몇 개의 영역으로 분할하고, 사용자가 얼굴을 자연스럽게 움직이게 하면서 레이저 포인터로 지시하는 화면을 응시하도록 하였다. 그리고 각각의 프레임에서 시선을 실시간 식별하여 실제 시선 위치와의 정확도를 측정하였다.
정규화는 모두 입력 특징들이 같은 범위에 있게 하여 준다. 다른 머리 위치에 따른 막대한 학습 데이터가 GRNN의 학습으로 모아지고, 학습 데이터가 수집되는 동안에, 사용자가 각 시선 영역에 시선을 고정하도록 요청하여, 각각의 시선이 고정되는 동안 적합한 10개의 매개변수 조합을 수집하도록 하였다.
동공 표적의 특징 확률 분포를 표현한 m과 회색조의 어두운 동공 영상을 끌어낸 1차원 히스토그램을 사용하였다. 히스토그램을 계산하기 전에, 동공표적의 중심에서 먼 위치일수록 가중을 작게 할당하는 볼록하고 단조 감소하는 커널 프로파일 k 를 선택하였다.
동공영상을 획득하기 위하여 Hutchinson[5]의 방법에 근거하여 880nm파장의 적외선 LED를 두 개의 고리모양으로 구성한 능동적 적외선 조명기를 제작하여 40nm파장에서 32mW의 강도로 적외선을 조사하였다.
교차된 입력 영상은 비디오 디코더로 잔상을 제거하여 그림 2의 (a), (b)와 같은 짝수 필드 영상과 홀수 필드 영상을 만들어 내었다. 두 개의 영상은 같은 배경과 외부 조명을 사용하지만 짝수 필드의 동공이 홀수 필드보다 밝게 보였고, 배경과 외부조명의 간섭을 제거하고자 짝수 필드 영상에서 홀수 필드 영상을 제거하여 차영상을 만들었다. 차영상에서는 대부분의 배경과 외부 조명의 간섭효과가 제거되었다.
영상 획득을 위하여 두 개의 고리 형태의 적외선 LED를 장치한 조명기[5]와 그 중앙에 적외선 카메라를 장치한 영상 획득 도구를 구성하였다. 또한, 적외선 카메라는 초당 15프레임으로 영상을 획득하게 되는데, 영상 획득 시 짝수 필드와 홀수 필드에서 안쪽 LED와 바깥쪽 LED가 교차 점멸하도록 하여 밝은 동공효과와 어두운 동공효과를 만들어 차영상을 구한 후 SVM[8]을 사용하여 동공을 검출하도록 하였으며, 동공의 검출 후 객체 추적 알고리즘인 Kalman 필터 알고리즘에 의하여 연속되는 프레임에서 동공을 추적하였다. 그러나 얼굴의 회전이나 폐색에 의하여 동공검출이 이루어지지 않는 경우가있으므로 Kalman 필터에 의한 얼굴 추적이 불가능할 경우 평균 이동 알고리즘으로 동공을 계속적으로 추적함으로써 언제나 견실하게 동공을 추적할 수 있었다.
그림 6. 시선 교정을 위한 GRNN 구조.
시선 식별에서 오인식을 줄이기 위한 일련의 방편으로, 인식된 결과에 대하여 비교대상을 줄여 다시 한번 식별을 하도록 하는 검증을 하였다. 시선 영역에서 오인식을 확인하여 이 영역에 대한 재식별을 하도록 하는데 주안점을 두었다.
시선 식별을 위한 전처리 과정에서 얻은 동공과 글린트를 가지고 동공-글린트 벡터를 구성하고, 동공-글린트 벡터를 모니터 상에 매핑하는 기능을 수행토록 하였다. 그림 5는 글린트와 동공의 위치와 시선과의 연관성을 나타내었다.
시선 식별에서 오인식을 줄이기 위한 일련의 방편으로, 인식된 결과에 대하여 비교대상을 줄여 다시 한번 식별을 하도록 하는 검증을 하였다. 시선 영역에서 오인식을 확인하여 이 영역에 대한 재식별을 하도록 하는데 주안점을 두었다. 검증을 위한 재식별은 각각의 시선 영역에 인접한 영역과 다시 식별을 수행하도록 하는 것이다.
모니터상의 스크린 영역은 머리 움직임과 같은 외부 요인에 따라 수직 동공-글린트 벡터 측정이 수평에 비해 보다 민감하게 작용함으로써 동공의 수직 이동범위가 수평 이동범위보다 작게 나타나고, 수평 데이터에 비해 수직 데이터의 신호 대 잡음비가 낮게 됨으로써 시선의 수직 분류를 수평 분류보다 작게 잡아 모니터 영역을 그림 7과 같이 2×4로 나누었다. 실험 시 시선 영역으로 분류된 영역을 점멸하게 함으로써 식별결과를 확인 할 수 있도록 하였다.
안쪽과 바깥쪽의 LED 고리를 교차 영상의 짝수 필드와 홀수 필드에 맞추어 점멸하기 위한 동기화 회로를 구성하여, 짝수 필드를 읽어 들일 때, 안쪽 LED가 켜지고 바깥쪽 LED가 꺼지도록 하였으며, 반대로 홀수 필드를 읽어 들일 때는 바깥쪽 LED가 켜지고 안쪽 LED가 꺼지도록 하였다. 교차된 입력 영상은 비디오 디코더로 잔상을 제거하여 그림 2의 (a), (b)와 같은 짝수 필드 영상과 홀수 필드 영상을 만들어 내었다.
얼굴 움직임이 있는 경우와 사용자에 따른 교정 작업 없이도 견실하게 동작하는지를 확인하기 위하여 시선 식별 시스템의 성능을 실험하였다.
영상 획득을 위하여 두 개의 고리 형태의 적외선 LED를 장치한 조명기[5]와 그 중앙에 적외선 카메라를 장치한 영상 획득 도구를 구성하였다. 또한, 적외선 카메라는 초당 15프레임으로 영상을 획득하게 되는데, 영상 획득 시 짝수 필드와 홀수 필드에서 안쪽 LED와 바깥쪽 LED가 교차 점멸하도록 하여 밝은 동공효과와 어두운 동공효과를 만들어 차영상을 구한 후 SVM[8]을 사용하여 동공을 검출하도록 하였으며, 동공의 검출 후 객체 추적 알고리즘인 Kalman 필터 알고리즘에 의하여 연속되는 프레임에서 동공을 추적하였다.
기존의 시선 식별 연구들은 단지 홍채나 동공의 기하학적 특성만을 이용하여 추정함으로, 얼굴을 조금만 움직여도 식별이 이루어지지 않았고 사용자에 따른 각각의 교정작업이 필요하다는 단점이 있으므로, 교정작업 없이 얼굴 움직임이 있는 경우에도 견실하고 정확하게 동작하는 시선 식별 시스템을 제안하였다. 제안된 시스템은 동공을 실시간으로 검출, 추적하였고, GRNN을 통하여 교정작업을 일반화하였다.
제안된 식별 알고리즘을 실험하기 위하여 모니터상의 스크린을 몇 개의 영역으로 분할하고, 사용자가 얼굴을 자연스럽게 움직이게 하면서 레이저 포인터로 지시하는 화면을 응시하도록 하였다. 그리고 각각의 프레임에서 시선을 실시간 식별하여 실제 시선 위치와의 정확도를 측정하였다.
동공추적을 위하여 Kalman 필터를 기반으로 한 밝은 동공을 이용하였다. 초기 프레임에서 동공의 위치를 확인하고 Kalman 필터에 의하여 밝은 동공을 추적하게 하였다. 그러나 Kalman 필터로 추적 시 눈이 감기거나 폐색에 의하여 밝은 동공이 사라질 경우 Kalman 필터에 의한 추적이 불가능해지는 단점이 있으므로 평균 이동 알고리즘을 이용하여 눈 추적의 정확성을 높이었다.
총 4명의 사용자에게 얼굴을 자연스럽게 좌우 ±20°, 상하 ±15°정도로 움직이도록 한 상태에서 초당 15프레임으로 사용자마다 각 40초간 총 2400개의 프레임에 대하여 시선을 식별하였다.
그러나 얼굴의 회전이나 폐색에 의하여 동공검출이 이루어지지 않는 경우가있으므로 Kalman 필터에 의한 얼굴 추적이 불가능할 경우 평균 이동 알고리즘으로 동공을 계속적으로 추적함으로써 언제나 견실하게 동공을 추적할 수 있었다. 추적된 동공에서 글린트와 동공의 변화량과 동공의 타원정도, 동공과 글린트와의 기울기 정보 등을 추출하였다. 추출된 정보를 가지고 일반 회귀 신경망(GRNN: Generalized Regression Neural Network)[9]을 이용하여 사용자가 모니터의 8개 영역 중 어느 한 영역을 응시하고 있는지 식별토록 한 결과, 일부 결과에서 실제 응시하고 있는 영역과 인접한 영역으로 잘못 인식되는 경우가 있었다.
이론/모형
동공추적을 위하여 Kalman 필터를 기반으로 한 밝은 동공을 이용하였다. 초기 프레임에서 동공의 위치를 확인하고 Kalman 필터에 의하여 밝은 동공을 추적하게 하였다.
차영상에서 타원적합법에 의하여 동공후보영역을 선정하고 선정된 영역에서 SVM(support vector machine)[8,10]을 이용하여 동공을 자동으로 검출하는 방법을 사용하였다.
성능/효과
그 결과, 시선을 재식별 하였을 경우 기존의 84% 정확성에 비해 약 9%정도 정확성이 향상되어 93%를 나타내었다. 그러나 연산량의 증대로 처리시간은 다소 증가하여 50ms정도 소요되었다.
초기 프레임에서 동공의 위치를 확인하고 Kalman 필터에 의하여 밝은 동공을 추적하게 하였다. 그러나 Kalman 필터로 추적 시 눈이 감기거나 폐색에 의하여 밝은 동공이 사라질 경우 Kalman 필터에 의한 추적이 불가능해지는 단점이 있으므로 평균 이동 알고리즘을 이용하여 눈 추적의 정확성을 높이었다.
또한, 적외선 카메라는 초당 15프레임으로 영상을 획득하게 되는데, 영상 획득 시 짝수 필드와 홀수 필드에서 안쪽 LED와 바깥쪽 LED가 교차 점멸하도록 하여 밝은 동공효과와 어두운 동공효과를 만들어 차영상을 구한 후 SVM[8]을 사용하여 동공을 검출하도록 하였으며, 동공의 검출 후 객체 추적 알고리즘인 Kalman 필터 알고리즘에 의하여 연속되는 프레임에서 동공을 추적하였다. 그러나 얼굴의 회전이나 폐색에 의하여 동공검출이 이루어지지 않는 경우가있으므로 Kalman 필터에 의한 얼굴 추적이 불가능할 경우 평균 이동 알고리즘으로 동공을 계속적으로 추적함으로써 언제나 견실하게 동공을 추적할 수 있었다. 추적된 동공에서 글린트와 동공의 변화량과 동공의 타원정도, 동공과 글린트와의 기울기 정보 등을 추출하였다.
추출된 정보를 가지고 일반 회귀 신경망(GRNN: Generalized Regression Neural Network)[9]을 이용하여 사용자가 모니터의 8개 영역 중 어느 한 영역을 응시하고 있는지 식별토록 한 결과, 일부 결과에서 실제 응시하고 있는 영역과 인접한 영역으로 잘못 인식되는 경우가 있었다. 그러므로 1차 식별된 결과를 바르게 식별하였는지 검증하고자 인접한 영역만을 가지고 재식별하도록 하여 인식률을 향상시킬 수가 있었다.
그리고 화면을 4×2로 양자화 하여 실험한 결과 공간 시선 해상도는 화면에서 1m정도 떨어진 거리에서 수평으로 10cm, 수직으로 약 13cm정도였다.
이러한 매개변수들을 사용함으로써 얼굴과 동공이 움직이면 얼굴 움직임과 동공 이동을 계산하여 그에 부합하는 매개변수로 갱신함으로써, 머리 움직임에 따른 영향을 감소할 수 있다. 또한, 매개변수들은 동공의 크기에 대해서 독립적이므로 시선 매핑 기능을 일반화시킬 수 있어 다른 사용자를 위한 재계산 작업을 효과적으로 제거할 수 있었다.
모니터 좌표를 4×2로 양자화 하여 실험한 결과, 얼굴의 움직임 있을 경우에 2400개의 프레임 중 2075개의 프레임에 대하여 바르게 시선을 식별하여 약 84%의 정확성을 얻을 수 있었고, 오인식을 줄이고자 식별결과에 대하여 재식별을 하여 시선 영역을 검증토록 하였다.
같은 데이터를 이용하여 재식별을 수행 한 결과를 표 2에 나타내었고, 또한 같은 데이터를 이용한 1차 식별 결과인 표 1과 비교하여 그림 9에 나타내었다. 재식별을 한 경우가 하지 않은 경우보다 대략 9%정도 정확성이 향상되어 약 93% 정확도를 얻을 수 있었다. 특히, 인접 영역 1과 2사이의 오인식률은 18%에서 8%로, 시선 영역 3과 4사이에 오인식률은 이전 24%에서 5%로 감소하였다.
광원을 교차 조사함에 따라 안쪽 고리의 적외선 LED들이 켜졌을 때는 동공에서 반사된 적외선이 검출되어 밝은 동공영상이 생성되었고, 바깥쪽 고리의 적외선 LED들이 켜졌을 때는 동공에 반사된 적외선이 검출되지 않으므로 어두운 동공이 생성되었다. 적외선 조명 이외의 광원들로부터 간섭을 최소화하기 위하여, 10nm파장만을 통과시키는 광학 대역 필터를 사용함으로써 신호 대 잡음비를 20이상 증가시키어 획득한 영상의 질을 향상 시킬 수가 있었다. 그림 1은 중심이 같은 2개의 적외선 LED 고리와 대역 필터로 이루어져 있는 적외선 조명기를 나타내었다.
각막에 반사되는 글린트는 양쪽 영상 모두에서 나타났으나, 밝은 동공 영상에서는 동공과 같은 위치에 겹쳐지게 되는 경우가 많이 발생하여, 어두운 동공 영상에서 보다 쉽게 검출 할 수 있었다. 즉, 어두운 영상에서 글린트는 다른 부분보다 밝게 나타나므로 글린트 검출과 추적을 수월하게 할 수 있었다. 동공 검출과 추적 방법은 어두운 영상에서 글린트를 검출하고 추적하는데도 사용하였다.
동공과 글린트로부터 적합한 매개변수를 추출하여 GRNN 알고리즘으로 시선을 식별하고자 하였다. 추출된 매개변수를 가지고 GRNN을 통하여 교정함으로써 교정작업을 일반화하여 사용자가 바뀌거나 얼굴의 움직임이 있는 경우에도 교정작업 없이 시선을 식별할 수가 있었다.
후속연구
제안된 시선 식별기의 해상도가 기존의 다른 시선 식별기보다 높다고 할 수는 없지만, GRNN을 통하여 시선 교정작업을 일반화함으로써 개개인에 대한 교정작업이 필요 없고, 얼굴의 움직임이 있는 경우에도 견실하게 동작하는 것이 큰 이점이라 할 것이다.
향후에는 사용자의 안경 착용과 같은 제한사항을 극복하고 시선의 공간 해상도를 높이어서 시선 영역을 좀 더 세분화하여야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
시선 식별이란 무엇인가?
시선 식별이란 현재 사용자가 응시하고 있는 위치를 자동적으로 식별해내는 것으로 휴먼 컴퓨터 인터페이스의 한 연구 분야로 시선에 의한 가전제품 제어 등 많은 응용분야[1]를 가지고 있다.
기존의 시선 식별 시스템은 시선을 식별하기 위해 무엇을 이용하는가?
기존의 시선 식별 시스템[2-7]은 시선을 식별하기 위해 얼굴의 움직임과 눈동자의 움직임을 이용한다. 얼굴의 움직임만을 이용할 경우 얼굴의 위치에 따라 시선의 위치를 결정하게 되는데 미세한 시선 변화를 감지하지 못하는 단점을 지니고 있다.
눈동자에 근거한 시선 추정 방식의 단점은 무엇인가?
현재까지 연구된 눈동자에 근거한 시선 추정 방식의 가장 큰 공통점은 각막의 글린트와 동공 사이의 상대적인 위치[2-7]에 근거한다는 것이다. 이러한 방식은 머리를 정지시킨 후, 기준점으로써 글린트를 사용하고, 동공의 중심으로부터 글린트까지를 나타낸 벡터로 시선 방향을 나타내었는데 얼굴의 작은 움직임에도 잘못된 결과를 나타내었다. 또한, 현존하는 눈과 시선 식별 시스템의 또 다른 문제는 각각의 사용자에 대하여 교정작업이 필요하다는 점이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.