조태훈
(Schoool of Computer Science and Engineering, Korea University of Technology and Education)
,
강현민
(Schoool of Computer Science and Engineering, Korea University of Technology and Education)
본 논문에서는 두 개의 카메라를 이용하여 보다 정확한 동공 인식을 통한 원격방식의 시선 추적을 제안한다. 헤드 장착형 시선추적용으로 개발된 Starburst 알고리즘은 원격방식의 시선추적에서는 카메라가 보다 넓은 영역을 보기 때문에 눈썹, 눈꼬리 등 외란이 많아 스타버스트 알고리즘을 바로 적용하면 동공 중심 추출에 실패하는 경우가 많았다. 이에 템플렛매칭을 이용하여 대략적인 동공영역을 찾고, 찾은 영역 내에서만 스타버스트 알고리즘으로 동공의 경계 후보점들을 찾은 후 보완된 RANSAC 알고리즘으로 타원근사하여 동공의 중심을 추출하였다. 추출된 동공중심을 머리의 움직임에 거의 영향을 받지 않도록 4개의 적외선 LED를 모니터 네 구석에 부착하고 Homography normalization을 적용하였다. 스크린 좌표계로 변환할 때 기존에는 호모그래피를 사용하였으나, 카메라 렌즈의 비선형왜곡을 보상하기 위해 여기서는 고차다항식을 이용한 캘리브레이션 기법을 이용하였다. 끝으로, 두 대의 카메라를 사용하여 정확도와 신회성이 향상됨을 보인다.
본 논문에서는 두 개의 카메라를 이용하여 보다 정확한 동공 인식을 통한 원격방식의 시선 추적을 제안한다. 헤드 장착형 시선추적용으로 개발된 Starburst 알고리즘은 원격방식의 시선추적에서는 카메라가 보다 넓은 영역을 보기 때문에 눈썹, 눈꼬리 등 외란이 많아 스타버스트 알고리즘을 바로 적용하면 동공 중심 추출에 실패하는 경우가 많았다. 이에 템플렛매칭을 이용하여 대략적인 동공영역을 찾고, 찾은 영역 내에서만 스타버스트 알고리즘으로 동공의 경계 후보점들을 찾은 후 보완된 RANSAC 알고리즘으로 타원근사하여 동공의 중심을 추출하였다. 추출된 동공중심을 머리의 움직임에 거의 영향을 받지 않도록 4개의 적외선 LED를 모니터 네 구석에 부착하고 Homography normalization을 적용하였다. 스크린 좌표계로 변환할 때 기존에는 호모그래피를 사용하였으나, 카메라 렌즈의 비선형왜곡을 보상하기 위해 여기서는 고차다항식을 이용한 캘리브레이션 기법을 이용하였다. 끝으로, 두 대의 카메라를 사용하여 정확도와 신회성이 향상됨을 보인다.
In this paper, an accurate remote gaze tracking method with two cameras is presented using a modified Starburst algorithm and honography normalization. Starburst algorithm, which was originally developed for head-mounted systems, often fails in detecting accurate pupil centers in remote tracking sys...
In this paper, an accurate remote gaze tracking method with two cameras is presented using a modified Starburst algorithm and honography normalization. Starburst algorithm, which was originally developed for head-mounted systems, often fails in detecting accurate pupil centers in remote tracking systems with a larger field of view due to lots of noises. A region of interest area for pupil is found using template matching, and then only within this area Starburst algorithm is applied to yield pupil boundary candidate points. These are used in improved RANSAC ellipse fitting to produce the pupil center. For gaze estimation robust to head movement, an improved homography normalization using four LEDs and calibration based on high order polynomials is proposed. Finally, it is shown that accuracy and robustness of the system is improved using two cameras rather than one camera.
In this paper, an accurate remote gaze tracking method with two cameras is presented using a modified Starburst algorithm and honography normalization. Starburst algorithm, which was originally developed for head-mounted systems, often fails in detecting accurate pupil centers in remote tracking systems with a larger field of view due to lots of noises. A region of interest area for pupil is found using template matching, and then only within this area Starburst algorithm is applied to yield pupil boundary candidate points. These are used in improved RANSAC ellipse fitting to produce the pupil center. For gaze estimation robust to head movement, an improved homography normalization using four LEDs and calibration based on high order polynomials is proposed. Finally, it is shown that accuracy and robustness of the system is improved using two cameras rather than one camera.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 개선된 리모트 방식의 시선 추적 시스템을 제안한다. 동공 중심 추출을 위해서는 헤드마운트 방식의 스타버스트 알고리즘을 리모트 방식에 맞도록, 수정, 보완하여 사용하였고, 머리의 움직임에 강인한 시선추적을 위해 [6]과 같이 네 개의 적외선 LED를 사용한 Homography Normalization을 이용하였다.
본 논문에서는 두 개의 카메라를 이용하여 보다 정확한 동공 인식을 통한 시선 추적을 제안하였다. 동공 중심 추출을 위해 Starburst 소스를 수정 보완하였다.
제안 방법
[6]에서는 이를 위해 호모그래피 매핑을 사용하였으나, 호모그래피 매핑은 카메라 렌즈의 비선형 왜곡에 대한 보정이 거의 어렵다. 그래서 여기서는 카메라렌즈의 비선형 왜곡의 보정이 가능한 고차 다항식에 의한 매핑[9]을 사용하여 캘리브레이션을 수행하였다.
왼쪽과 오른쪽 눈 영상을 이용하여 동공 중심 추출, 적외선 LED 중심 추출, 이미지 상의 좌표를 노멀라이즈 좌표계로 사상시킨다. 그리고 이것을 다시 스크린 좌표계로 사상시켜 왼쪽과 오른쪽 눈 좌표 그리고 평균을 이용한 좌표를 실제 캘리브레이션 좌표와 비교하였다. 캘리브레이션은 2차 다항식을 이용했으며 캘리브레이션때 5장의 미디언 값을 사용하였다.
본 논문에서는 두 개의 카메라를 이용하여 보다 정확한 동공 인식을 통한 시선 추적을 제안하였다. 동공 중심 추출을 위해 Starburst 소스를 수정 보완하였다. 기존의 스타버스트 알고리즘은 헤드 장착형 시선추적용으로 개발되어 대부분 동공 및 홍채부분 만 영상으로 취득되어 스타버스트 알고리즘이 잘 동작하지만, 여기서 사용하는 원격방식의 시선추적에서는 카메라가 보다 넓은 영역을 보기 때문에 눈썹, 눈꼬리 등 외란이 많아 스타버스트 알고리즘을 바로 적용하면 동공 중심 추출에 실패하는 경우가 많았다.
본 논문에서는 개선된 리모트 방식의 시선 추적 시스템을 제안한다. 동공 중심 추출을 위해서는 헤드마운트 방식의 스타버스트 알고리즘을 리모트 방식에 맞도록, 수정, 보완하여 사용하였고, 머리의 움직임에 강인한 시선추적을 위해 [6]과 같이 네 개의 적외선 LED를 사용한 Homography Normalization을 이용하였다. 보다 정확한 카메라 렌즈의 비선형왜곡 보정을 위해 #를구할 때 호모그래피를 사용하지 않고 고차다항식을 사용하였다.
보다 정확한 카메라 렌즈의 비선형왜곡 보정을 위해 #를구할 때 호모그래피를 사용하지 않고 고차다항식을 사용하였다. 또한 두 개의 카메라를 사용하여 시선추적의 정확성과 신뢰성을 향상시켰다
일반적으로 대수거리보다는 기하학적인 거리를 사용하는 것이 보다 강건한 타원 피팅을 이룰 수 있다. 여기에서는 기하학적인 거리를 이용하여 인라이어를 판단한다.
왼쪽과 오른쪽 눈 영상을 이용하여 동공 중심 추출, 적외선 LED 중심 추출, 이미지 상의 좌표를 노멀라이즈 좌표계로 사상시킨다. 그리고 이것을 다시 스크린 좌표계로 사상시켜 왼쪽과 오른쪽 눈 좌표 그리고 평균을 이용한 좌표를 실제 캘리브레이션 좌표와 비교하였다.
적외선 LED의 반사점을 제거하기 위해서 처음엔 Starburst 소스에 있는 알고리즘을 적용해 보았지만 완벽하게 동작하지 않아, 좀 더 간단하지만 확실한 방법을 사용하였다. 위에서 찾은 적외선 LED의 반사점의 외곽선을 두꺼운 선으로 그리는 방법을 사용하였다. 영상에서 실제 적외선 LED의 반사점은 몇 픽셀이 되지 않기 때문에 조금만 두꺼운 선으로 그려도 충분히 반사점을 제거할 수 있다.
위의 동공중심 검출과정에서 적외선 LED 반사점 후보군을 검출하였다. 하지만 이렇게 구하였을 때 동공의 외곽 쪽에 다른 반사에 의해 잡음이 발생할 수 있다.
기존의 스타버스트 알고리즘은 헤드 장착형 시선추적용으로 개발되어 대부분 동공 및 홍채부분 만 영상으로 취득되어 스타버스트 알고리즘이 잘 동작하지만, 여기서 사용하는 원격방식의 시선추적에서는 카메라가 보다 넓은 영역을 보기 때문에 눈썹, 눈꼬리 등 외란이 많아 스타버스트 알고리즘을 바로 적용하면 동공 중심 추출에 실패하는 경우가 많았다. 이에 템플렛매칭을 이용하여 대략적인 동공영역을 찾고, 찾은 영역 내에서만 스타버스트 알고리즘으로 동공의 경계 후보점들을 찾은 후 보완된 RANSAC 알고리즘으로 타원근사하여 동공의 중심을 추출하였다.
렌즈는 초점 거리가 50mm인 CCTV 렌즈를 사용하였고 렌즈 앞에는 가시광선을 차단하는 적외선 통과 필터를 장착하였다. 적외선 LED는 모두 4개를 사용하였는데, 모니터의 네 모서리에 하나씩 부착하고 LED가 사람의 눈 쪽을 향하도록 하였다. 모니터는 1280x1024해상도의 19인치 모니터를 사용하였으며 사용자와 카메라의 거리는 약 60~70 센티 정도이다.
적외선 LED의 반사점을 제거하기 위해서 처음엔 Starburst 소스에 있는 알고리즘을 적용해 보았지만 완벽하게 동작하지 않아, 좀 더 간단하지만 확실한 방법을 사용하였다. 위에서 찾은 적외선 LED의 반사점의 외곽선을 두꺼운 선으로 그리는 방법을 사용하였다.
이를 위해 흔희 두 개 이상의 점광원(보통, 적외선 LED)을 모니터 스크린 테두리에 부착하는 방법을 많이 사용한다. 점광원이 각막에 반사되어 나타나는 점과 동공의 중심으로부터 시선의 방향을 눈의 기하학적인 3D 모델에 기반하여 추정한다. 이를 위해 일반적으로 여러 가지의 눈 모델, 카메라 파라미터를 구하기 위한 복잡한 캘리브레이션 과정이 요구된다[5].
추출된 동공중심을 머리의 움직임에 거의 영향을 받지 않고 스크린 좌표로 변환하기 위해 4개의 적외선 LED를 모니터 네 구석에 부착하고 Homography normalization을 적용하였다. 노멀라이즈 좌표계를 스크린 좌표계로 변환할 때 기존에는 호모그래피를 사용하였으나, 카메라 렌즈의 비선형왜곡을 보상하기 위해 여기서는 고차다항식을 이용한 캘리브레이션 기법을 이용하였다.
대상 데이터
이러한 복잡한 캘리브레이션 과정을 보다 단순화한 여러 방법들이 제시되었는데, 그 중 하나는 한 개의 카메라와 모니터 모서리에 부착된 네 개의 적외선 LED를 사용하고 Homography Normalization을 이용하는 것이다[6]. 4개의 적외선 LED에서 나온 빛은 각막(cornea)에 4개의 반사점으로 나타나고 이를 카메라에서 영상으로 취득하게 된다. 이때, 각막의 표면은 곡면이지만 카메라/스크린과의 거리가 훨씬 크기 때문에 각막의 네점은 동일 평면에 있다고 근사화할 수 있다.
카메라는 그림 3과 같이 모니터의 하단부에 2대의 카메라가 각각 왼쪽과 오른쪽 눈을 찍을 수 있도록 위치시켰다. 렌즈는 초점 거리가 50mm인 CCTV 렌즈를 사용하였고 렌즈 앞에는 가시광선을 차단하는 적외선 통과 필터를 장착하였다. 적외선 LED는 모두 4개를 사용하였는데, 모니터의 네 모서리에 하나씩 부착하고 LED가 사람의 눈 쪽을 향하도록 하였다.
먼저 템플릿 매칭을 해서 나온 관심영역 안에 들어 있는 적외선 LED 반사점 후보군들만 선택을 한다. 적외선 LED 반사점의 후보군들이 4개보다 많을 경우 동공의 중심까지의 거리를 구해 그중 가장 가까운 4개의 포인트를 LED 반사점으로 선택한다.
적외선 LED는 모두 4개를 사용하였는데, 모니터의 네 모서리에 하나씩 부착하고 LED가 사람의 눈 쪽을 향하도록 하였다. 모니터는 1280x1024해상도의 19인치 모니터를 사용하였으며 사용자와 카메라의 거리는 약 60~70 센티 정도이다.
실험 영상은 각각의 카메라가 왼쪽 눈과 오른쪽 눈을 각각 찍어서 한번에 30장/초로 30장씩 찍었다. 영상의 크기는 640x 480이다.
실험 영상은 각각의 카메라가 왼쪽 눈과 오른쪽 눈을 각각 찍어서 한번에 30장/초로 30장씩 찍었다. 영상의 크기는 640x 480이다. 찍은 영상은 20개의 캘리브레이션 포인트를 각각 바라보는 왼쪽과 오른쪽 눈 영상이다.
영상의 크기는 640x 480이다. 찍은 영상은 20개의 캘리브레이션 포인트를 각각 바라보는 왼쪽과 오른쪽 눈 영상이다.
하드웨어는 크게 카메라, 렌즈, 적외선 필터, 적외선 LED, 모니터로 이루어져 있다. 카메라는 근적외선 영역에서 감도가 양호한 PointGrey사의 Firefly MV (FFMV-03) 두 대(USB2, IEEE1394)를 사용하였다. 이 센서는 1/3” progressive scan CMOS 센서로 해상도는 752 x 480, 최대 프레임 레이트는 60장/초이다.
이론/모형
추출된 동공중심을 머리의 움직임에 거의 영향을 받지 않고 스크린 좌표로 변환하기 위해 4개의 적외선 LED를 모니터 네 구석에 부착하고 Homography normalization을 적용하였다. 노멀라이즈 좌표계를 스크린 좌표계로 변환할 때 기존에는 호모그래피를 사용하였으나, 카메라 렌즈의 비선형왜곡을 보상하기 위해 여기서는 고차다항식을 이용한 캘리브레이션 기법을 이용하였다.
동공 중심 추출을 위해서는 헤드마운트 방식의 스타버스트 알고리즘을 리모트 방식에 맞도록, 수정, 보완하여 사용하였고, 머리의 움직임에 강인한 시선추적을 위해 [6]과 같이 네 개의 적외선 LED를 사용한 Homography Normalization을 이용하였다. 보다 정확한 카메라 렌즈의 비선형왜곡 보정을 위해 #를구할 때 호모그래피를 사용하지 않고 고차다항식을 사용하였다. 또한 두 개의 카메라를 사용하여 시선추적의 정확성과 신뢰성을 향상시켰다
동공의 중심을 찾기 위해서 동공 경계 특징점들을 찾지만 잡음 또한 검출하게 된다. 이러한 잡음들에 대해 강인하게 동공의 중심을 찾기 위해 RANSAC (RANdom SAmple Consensus) 알고리즘 [7]을 사용한다. 그림 7은 RANSAC을 이용한 타원근사 알고리즘의 순서도이다.
현재 알고리즘의 반복 횟수가 최대 반복 횟수에 도달할 때까지 5개의 특징점을 다시 선택하여 처리하는 과정을 반복하게 된다. 최대 반복 횟수에 도달하면 구해진 인라이어들을 이용하여 최소자승법(Least squares method)으로 타원 피팅한다. 타원의 중심은 바로 동공의 중심이 된다.
그리고 이것을 다시 스크린 좌표계로 사상시켜 왼쪽과 오른쪽 눈 좌표 그리고 평균을 이용한 좌표를 실제 캘리브레이션 좌표와 비교하였다. 캘리브레이션은 2차 다항식을 이용했으며 캘리브레이션때 5장의 미디언 값을 사용하였다.
성능/효과
끝으로, 두 대의 카메라를 사용하는 것이 하나의 카메라를 사용할 때 보다 최대 26% 정확도가 향상되었다. 또한, 카메라를 두 개 사용하게 되면 한쪽이 잘 찾지 못하더라도 다른 한쪽을 사용하면 되므로 한 개를 사용할 때보다는 신뢰성이 향상된다.
36도의 오차를 보였다. 두 대의 카메라를 사용하는 것이 하나의 카메라를 사용할 때 보다 최대 26% 정확도가 향상되는 것을 알 수 있다.
5도의 오차를 나타냈다. 왼쪽과 오른쪽에서 구한 스크린 추정좌표를 평균해서 구하면 최소 0.11, 최대 0.76, 평균 0.36도의 오차를 보였다. 두 대의 카메라를 사용하는 것이 하나의 카메라를 사용할 때 보다 최대 26% 정확도가 향상되는 것을 알 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
시선 추적이란?
시선 추적(gaze tracking)은 눈의 위치를 인식하고 눈이 응시하는 방향을 추정하고 추적하는 것을 말한다. 강건한 시선 추적은 손을 사용하지 못하는 사람들이 안구의 움직임으로 커서를 움직이게 하는 안구 마우스, 주의(attention) 분석 등의 많은 응용분야에서 매우 중요한 역할을 한다.
시선 추적 시스템은 카메라의 장착 위치에 따라 어떻게 나뉠 수 있는가?
시선 추적 시스템은 카메라의 장착 위치에 따라 보통 카메라를 머리에 부착하여 카메라가 바로 눈앞에서 찍게 하는 헤드 마운트(Head-mounted)방식과 카메라를 모니터 앞 아래에 놓고 찍는 리모트(Remote)방식으로 나뉜다. 헤드 마운트 방식은 카메라가 눈앞 가까이에서 찍기 때문에 카메라의 시야범위를 눈 부근 영역만으로 좁게 한정할 수 있어 영상해상도가 높아져서 보다 정확한 눈 중심 추출이 가능하고, 머리 움직임에 영향을 받지 않는 장점이 있지만 사람이 항상 장비를 머리에 착용하고 있어야 하는 불편함이 있다.
Starburst 알고리즘의 문제점은 무엇인가?
헤드 마운트 방식으로 눈 검출 및 시선 추적하는 시스템으로 대표적인 예는 Starburst 알고리즘[2, 3]으로 공개 소프트웨어로 제공되어 많이 사용되고 있다. 하지만, 이것은 헤드마운트 방식을 가정하고 구현된 알고리즘이라서 카메라의 시야범위가 좀 더 넓은 리모트 방식에 바로 적용할 경우에 눈 이외의 다른 부분(속눈썹, 눈썹, 눈꼬리, 눈 주위 피부 등)에 의한 외란으로 눈 중심 검출이 제대로 되지 않는 경우가 자주 발생한다.
참고문헌 (9)
D. W. Hansen, "In the Eye of the Beholder : A survey of Models for Eyes and Gaze," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 32, no. 3, pp. 478-500, 2010.
Dongheng Li, "Low-cost eye-tracking for human computer interaction, " MS Thesis, Iowa State Univ., 2006.
D. Li, D. Winfield, D.J. Parkhurst, "Starburst: A hybrid algorithm for video-based eye tracking combining featurebased and model-based approaches," Proc. of the IEEE Vision for Human and Computer Interaction Workshop at CVPR 2005, pp.1-8, 2005.
http://www.eyetechds.com.
E.D. Guestrin and M. Eizenman, "General Theory of Remote Gaze Estimation Using the Pupil Center and Corneal Reflections," IEEE Transactions on Biomedical Engineering, vol. 53, no. 6, pp. 1124.1133, 2006.
D. W. Hansen, J. S. Agustin, A. Villanueva, "Homography Normalization for robust Gaze Estimation in Uncalibrated Setups," ETRA '10 Proceedings of the 2010 Symposium on Eye-Tracking Research & Applications, 2010.
R. Hartley and A. Zisserman, Multiple View Geometry in Computer Vision, 2nd ed., Cambride University Press, 2003.
R. Jain, R. Kasturi, B. G. Schunck, Machine Vision, 1995.
T.-H. Cho, "Accurate camera calibration using high order polynomials," Korean Institue of Intelligent Systems 2007 Spring Conference Proceedings, vol. 17, no. 1, pp.413-416.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.