본 논문에서는 시각 기반의 증강현실 (vision-based augmented reality)구현에 필수적인 실시간 카메라 추적 기법에 대해서 논한다. 시각 기반의 카메라 추적은 일반적으로 위치 추적 장치(position tracker), 자이로스코프, RFID 등의 부가적인 장비의 도움 없이 카메라로부터 취득한 2차원 영상만을 이용하여 카메라의 현재의 위치 및 방향을 실시간으로 추정하기 위한 기술이며, 이러한 작업은 일련의 영상 시퀀스를 기반으로 하여 카메라의 정보뿐만 아니라 영상 내의 장면에 대한 기하학적 정보 전체를 추정하고자 하는 ...
본 논문에서는 시각 기반의 증강현실 (vision-based augmented reality)구현에 필수적인 실시간 카메라 추적 기법에 대해서 논한다. 시각 기반의 카메라 추적은 일반적으로 위치 추적 장치(position tracker), 자이로스코프, RFID 등의 부가적인 장비의 도움 없이 카메라로부터 취득한 2차원 영상만을 이용하여 카메라의 현재의 위치 및 방향을 실시간으로 추정하기 위한 기술이며, 이러한 작업은 일련의 영상 시퀀스를 기반으로 하여 카메라의 정보뿐만 아니라 영상 내의 장면에 대한 기하학적 정보 전체를 추정하고자 하는 3차원 재구성 기법과 밀접한 관련이 있다. 하지만 일반적인 3차원 재구성 기법은 카메라 정보 추정 및 3차원 공간 정보의 복원을 위해서 많은 수의 영상 및 특징점 정보를 필요로 하며, 또한 복잡한 최적화 과정으로 인한 막대한 계산량 때문에 실시간 구현에 상당한 어려움이 존재한다. 본 논문에서는 입자필터(PF; Particle Filter)및 UKF를 연동하는 실시간 카메라 추적 기법에 대해서 논한다. 입자 필터링은 순차적 몬테카를로 추정법(sequential Monte-Carlo estimation)에 기반한 필터링 기법으로, 칼만 필터, 또는 확장 칼만 필터와 같이 시스템의 가우스 분포 특성에 대한 가정이 필요 없으며, 또한 시스템의 전이(transition) 및 측정(measure) 과정의 비선형 특성이 매우 강한 조건에서도 강건한 필터링 및 추적이 가능하다고 알려져 있다. 본 논문에서 제안하는 실시간 카메라 추적 기법은 실시간 카메라 추적을 위하여 입자필터를 이용하며, 또한 실시간 특징점 검출을 위해서 UT(Unscented Transformation)가 조합된 칼만 필터인 UKF(Unscented Kalman Filter)를 병용한다. 제안된 카메라 추적 기법은 입자필터를 이용하기 때문에 급격한 카메라의 흔들림 및 장면의 가려짐 등과 같은 예외 상황이 발생한 경우에도 신속하게 정상상태로의 복구가 가능하며 매우 강건한 추적 성능을 제공한다. 한편, 제안된 방법은 이전 주기의 카메라 정보에 대한 불확실도를 이용하여 현재 주기 입력 영상에서의 특징점 검출 영역을 제한하는 능동 탐색(active search)을 구현함으로써 특징점 탐색의 계산량 및 수행 시간을 단축시켰으며, 입자필터로부터 직접 제공받는 입자들의 공분산을 기반으로하여 능동 탐색을 위한 불확실도를 취득하였다. 제안된 방법에서의 새로운 특징점 검출 및 추적은 UKF를 이용하여 수행한다. UKF는 기존의 선형 칼만 필터에 비해서 비선형 추적에 보다 강건하고 정확한 성능을 제공한다. 비선형 추적을 위해서는 EKF가 많이 이용되지만, EKF는 기본적으로 전이 상태 및 측정값 근방에서의 시스템 특성이 선형이라고 가정한 상태에서 추적을 수행하기 때문에 비선형 특성이 매우 강한 조건에서는 추적 결과가 정확하지 않을 수 있다. 반면에 UKF는 UT를 통하여 시스템의 상태를 예측한 다음 칼만 필터를 이용한 추적을 수행하며, EKF에 비해서 비선형 조건 하에서의 추적 성능이 보다 뛰어난 것으로 알려져 있다. 하지만 UKF는 시스템의 차원 (dimension)에 맞는 적절한 수의 시그마 포인트(sigma point)를 생성한 다음, 이들 각각에 대한 필요 연산을 수행해야 하기 때문에 시스템의 차원이 증가할 경우 수행 속도가 급격히 감소하는 문제가 있다. 본 연구에서는 개별 특징점마다 독립적인 UKF를 할당함으로써 이러한 문제를 최소화시켰다. 즉, 각 특징점이 고정된 차원을 갖는 개별적인 필터를 할당 받기 때문에 기존의 방법과 같은 UKF의 차원 증가로 인한 문제 및 시스템의 차원 증가로 인한 문제가 발생하지 않는다. 또한 특징점 추정에 비선형 필터가 이용되기 때문에, 카메라의 렌즈로 인한 방사형 왜곡(radial distortion)등과 같은 비선형 왜곡에 강건한 특성을 보인다. 본 연구를 통하여 구현된 실시간 카메라 추적 기법은 입자필터와 UKF 간의 상호 작용을 통하여 구현된다. 즉, 입자필터는 3차원 특징점 추정 결과를 UKF로부터 제공받으며, 카메라 정보에 대한 불확실도를 UKF 측으로 전달한다. 그리고 UKF는 입자필터로부터 제공받은 불확실도를 기반으로 하여 특징점의 3차원 좌표를 추적하고, 추적 결과를 입자필터에 제공한다. 본 논문의 구성은 1장 서론에 이어, 2장에서는 일반적인 카메라 모델 및 사영 기하에 대해서 설명하고 카메라 사영 행렬의 추정 방법 및 카메라 교정기법에 대해서 설명한다. 설명된 이론적 배경을 바탕으로 실시간 카메라 추적 기법을 구현하고, 각 방법의 특성 및 구현 상의 제약조건/한계 등에 대해서 논한다. 3장에서는 입자필터를 이용한 카메라 추적 기법에 대해서 설명하고, 구현된 결과를 바탕으로 보다 강건한 카메라 추적 기법에 대해서 논한다. 4장에서는 보다 일반적인 환경 하에서의 카메라 추적을 구현하기 위한 입자필터-UKF 필터링에 대해서 논하며, 마지막으로 5장에서 결론을 맺는다.
본 논문에서는 시각 기반의 증강현실 (vision-based augmented reality)구현에 필수적인 실시간 카메라 추적 기법에 대해서 논한다. 시각 기반의 카메라 추적은 일반적으로 위치 추적 장치(position tracker), 자이로스코프, RFID 등의 부가적인 장비의 도움 없이 카메라로부터 취득한 2차원 영상만을 이용하여 카메라의 현재의 위치 및 방향을 실시간으로 추정하기 위한 기술이며, 이러한 작업은 일련의 영상 시퀀스를 기반으로 하여 카메라의 정보뿐만 아니라 영상 내의 장면에 대한 기하학적 정보 전체를 추정하고자 하는 3차원 재구성 기법과 밀접한 관련이 있다. 하지만 일반적인 3차원 재구성 기법은 카메라 정보 추정 및 3차원 공간 정보의 복원을 위해서 많은 수의 영상 및 특징점 정보를 필요로 하며, 또한 복잡한 최적화 과정으로 인한 막대한 계산량 때문에 실시간 구현에 상당한 어려움이 존재한다. 본 논문에서는 입자필터(PF; Particle Filter)및 UKF를 연동하는 실시간 카메라 추적 기법에 대해서 논한다. 입자 필터링은 순차적 몬테카를로 추정법(sequential Monte-Carlo estimation)에 기반한 필터링 기법으로, 칼만 필터, 또는 확장 칼만 필터와 같이 시스템의 가우스 분포 특성에 대한 가정이 필요 없으며, 또한 시스템의 전이(transition) 및 측정(measure) 과정의 비선형 특성이 매우 강한 조건에서도 강건한 필터링 및 추적이 가능하다고 알려져 있다. 본 논문에서 제안하는 실시간 카메라 추적 기법은 실시간 카메라 추적을 위하여 입자필터를 이용하며, 또한 실시간 특징점 검출을 위해서 UT(Unscented Transformation)가 조합된 칼만 필터인 UKF(Unscented Kalman Filter)를 병용한다. 제안된 카메라 추적 기법은 입자필터를 이용하기 때문에 급격한 카메라의 흔들림 및 장면의 가려짐 등과 같은 예외 상황이 발생한 경우에도 신속하게 정상상태로의 복구가 가능하며 매우 강건한 추적 성능을 제공한다. 한편, 제안된 방법은 이전 주기의 카메라 정보에 대한 불확실도를 이용하여 현재 주기 입력 영상에서의 특징점 검출 영역을 제한하는 능동 탐색(active search)을 구현함으로써 특징점 탐색의 계산량 및 수행 시간을 단축시켰으며, 입자필터로부터 직접 제공받는 입자들의 공분산을 기반으로하여 능동 탐색을 위한 불확실도를 취득하였다. 제안된 방법에서의 새로운 특징점 검출 및 추적은 UKF를 이용하여 수행한다. UKF는 기존의 선형 칼만 필터에 비해서 비선형 추적에 보다 강건하고 정확한 성능을 제공한다. 비선형 추적을 위해서는 EKF가 많이 이용되지만, EKF는 기본적으로 전이 상태 및 측정값 근방에서의 시스템 특성이 선형이라고 가정한 상태에서 추적을 수행하기 때문에 비선형 특성이 매우 강한 조건에서는 추적 결과가 정확하지 않을 수 있다. 반면에 UKF는 UT를 통하여 시스템의 상태를 예측한 다음 칼만 필터를 이용한 추적을 수행하며, EKF에 비해서 비선형 조건 하에서의 추적 성능이 보다 뛰어난 것으로 알려져 있다. 하지만 UKF는 시스템의 차원 (dimension)에 맞는 적절한 수의 시그마 포인트(sigma point)를 생성한 다음, 이들 각각에 대한 필요 연산을 수행해야 하기 때문에 시스템의 차원이 증가할 경우 수행 속도가 급격히 감소하는 문제가 있다. 본 연구에서는 개별 특징점마다 독립적인 UKF를 할당함으로써 이러한 문제를 최소화시켰다. 즉, 각 특징점이 고정된 차원을 갖는 개별적인 필터를 할당 받기 때문에 기존의 방법과 같은 UKF의 차원 증가로 인한 문제 및 시스템의 차원 증가로 인한 문제가 발생하지 않는다. 또한 특징점 추정에 비선형 필터가 이용되기 때문에, 카메라의 렌즈로 인한 방사형 왜곡(radial distortion)등과 같은 비선형 왜곡에 강건한 특성을 보인다. 본 연구를 통하여 구현된 실시간 카메라 추적 기법은 입자필터와 UKF 간의 상호 작용을 통하여 구현된다. 즉, 입자필터는 3차원 특징점 추정 결과를 UKF로부터 제공받으며, 카메라 정보에 대한 불확실도를 UKF 측으로 전달한다. 그리고 UKF는 입자필터로부터 제공받은 불확실도를 기반으로 하여 특징점의 3차원 좌표를 추적하고, 추적 결과를 입자필터에 제공한다. 본 논문의 구성은 1장 서론에 이어, 2장에서는 일반적인 카메라 모델 및 사영 기하에 대해서 설명하고 카메라 사영 행렬의 추정 방법 및 카메라 교정기법에 대해서 설명한다. 설명된 이론적 배경을 바탕으로 실시간 카메라 추적 기법을 구현하고, 각 방법의 특성 및 구현 상의 제약조건/한계 등에 대해서 논한다. 3장에서는 입자필터를 이용한 카메라 추적 기법에 대해서 설명하고, 구현된 결과를 바탕으로 보다 강건한 카메라 추적 기법에 대해서 논한다. 4장에서는 보다 일반적인 환경 하에서의 카메라 추적을 구현하기 위한 입자필터-UKF 필터링에 대해서 논하며, 마지막으로 5장에서 결론을 맺는다.
Real-time camera tracking is steadily gaining in importance due to the drive from various applications, such as AR(Augmented Reality), human-machine interfaces, and ubiquitous computing. In Augmented Reality applications, the real environment is annotated or enhanced with artificially generated grap...
Real-time camera tracking is steadily gaining in importance due to the drive from various applications, such as AR(Augmented Reality), human-machine interfaces, and ubiquitous computing. In Augmented Reality applications, the real environment is annotated or enhanced with artificially generated graphic contents. These graphics should be exactly registered to the real world scene, and this requires the camera of an AR system to track a user’s viewpoint. Typically, vision-based AR systems operate on the basis of prior knowledge of the environment. This could be a known 3D model, or a pattern which is supposed to be present in the scene. The application then allows the user to interact with this environment based on prior information on this known model. If the information about the known model or fiducial is accurate, registration can be performed directly from it, and this is the typical method of vision-based AR system. Quite often, however, accurate information is not available, and this limits range and quality of registration. This has led to the development of a class of techniques known as extensible tracking in which the system attempts to add unknown 3D features to its initial map, and these then provide registration even when the original map is out of visible range. This thesis describes real-time camera tracking frameworks specifically designed to track a monocular camera in an AR workspace. To address the needs of accurate tracking for AR, several primitive AR systems are considered. First, the theoretical background about the projective camera model is presented. In general, projective geometry of an ideal pin-hole camera represents the projective mapping between the real world scene, and 2D camera image. Once this projective mapping is given, it is then possible to estimate the camera pose in the 3D scene space. To implement the AR on an uncalibrated video sequence, we build an AR system, which employs the 2D planar homography between the image plane and a plane resident in the real world scene space and the orthogonality condition of the coordinate axes. This system is initialized in the conventional method which uses a rectangular to provide four corner points as the initial geometric constraints. In addition, a camera tracking framework which uses the geometrical constraints such as parallelism and orthogonality in the 3D scene is presented. These geometric entities can easily be acquired from human-made scene, and, therefore, they may lead to very simple and geometrically intuitive solution to the camera tracking and registration. In order to compare the performances of the systems, we build additional AR system which receives the camera pose information from a 3D position tracker directly. The accuracy and robustness of the systems are compared from several experiments on desktop AR environments. One of the critical problems in many of the AR application is that the camera pose (i.e., the user’s view point) is not static. This situation becomes more serious problem when the camera undergoes more general motion such as that exhibited by a hand held camera or a wearable computer. Many of conventional methods have therefore relied on off-line pre-calibration of 3D scene structure analysis to stabilize the camera tracking. In this thesis, a real-time camera tracking framework which employs a particle filter is presented. Typically, the Kalman filter is often used for the camera tracking, and it works good if approximate linearity is maintained between the tracking phases and if the estimates and measurements are consistently have Gaussian distributions. In general, however, the deviation from this condition causes instability and tracking failure. Moreover, some problems such as ambiguity in feature detection, occlusion of features and rapid camera shake may cause critical problems. In this thesis, a Bayesian sampling framework which is also known as the particle filter is adopted for the camera pose estimation. In order to verify the accuracy of the system, we compare the results with those of the systemwhich uses the 3D position tracker to get the camera pose information. In addition, we conduct several experiments for unstable situations in the desktop AR environments to verify the robustness of the systems. Visual tracking which has previously been applied to conventional AR system has used artificial markers for known 3D models placed in the scene. If the known model or marker is accurate, registration can be performed directly from it. Unfortunately, however, accurate information is often not available, and this seriously limits range and quality of registration. Therefore, the extensible tracking which is to track in scenes without any prior map is essential to provide the user with more degree of freedom. However, real-time camera tracking using a single camera in an unknown environment is not a trivial work. We describe a real-time camera tracking framework which does not need the known understanding of the user’s environment. In our method, camera tracking is achieved by a main particle filter which deals with the task of robust camera localization, while feature mapping is performed by auxiliary unscented Kalman filters coupled to the main particle filter via measurement covariance. The proposed method splits the camera tracking and feature mapping into two separate tasks, which are handled in two parallel processes. The particle filter is initialized with four known points corresponding to the corners of a black rectangular pattern. Once the initialization is completed successfully, the particle filter produces the camera pose estimates on the video sequence, and, in the subsequent frames, new feature detection is attempted to find and incorporate new feature being resident in the scene image. Once a new feature is detected, the system assigns a new feature tracker that is achieved by an unscented Kalman filter. These feature trackers estimate the statistics of the feature states, and hand the estimates over the particle filter to provide the scene map on the current tracking phase. In addition, the proposed method performs template prediction that is for the warping of the feature template corresponding to the current viewpoint of the camera. Typically, conventional methods which use a single filter framework, and therefore a full-covariance, operate an additional framework for the feature template prediction. In the proposed method, however, the 3D feature state is managed in the feature tracker, and this allows the prediction of the feature’s warped appearance from the current viewpoint. The camera tracking and the feature tracking are processed asynchronously in the separate processes. The experimental results show that the processing time of the proposed camera tracking framework operates in real-time with a frame rate over 24 frames per second, whereas processing time of conventional monolithic framework grows as the number of features increases. The experimental results also present the effectiveness of the approach when operating within a desktop environment.
Real-time camera tracking is steadily gaining in importance due to the drive from various applications, such as AR(Augmented Reality), human-machine interfaces, and ubiquitous computing. In Augmented Reality applications, the real environment is annotated or enhanced with artificially generated graphic contents. These graphics should be exactly registered to the real world scene, and this requires the camera of an AR system to track a user’s viewpoint. Typically, vision-based AR systems operate on the basis of prior knowledge of the environment. This could be a known 3D model, or a pattern which is supposed to be present in the scene. The application then allows the user to interact with this environment based on prior information on this known model. If the information about the known model or fiducial is accurate, registration can be performed directly from it, and this is the typical method of vision-based AR system. Quite often, however, accurate information is not available, and this limits range and quality of registration. This has led to the development of a class of techniques known as extensible tracking in which the system attempts to add unknown 3D features to its initial map, and these then provide registration even when the original map is out of visible range. This thesis describes real-time camera tracking frameworks specifically designed to track a monocular camera in an AR workspace. To address the needs of accurate tracking for AR, several primitive AR systems are considered. First, the theoretical background about the projective camera model is presented. In general, projective geometry of an ideal pin-hole camera represents the projective mapping between the real world scene, and 2D camera image. Once this projective mapping is given, it is then possible to estimate the camera pose in the 3D scene space. To implement the AR on an uncalibrated video sequence, we build an AR system, which employs the 2D planar homography between the image plane and a plane resident in the real world scene space and the orthogonality condition of the coordinate axes. This system is initialized in the conventional method which uses a rectangular to provide four corner points as the initial geometric constraints. In addition, a camera tracking framework which uses the geometrical constraints such as parallelism and orthogonality in the 3D scene is presented. These geometric entities can easily be acquired from human-made scene, and, therefore, they may lead to very simple and geometrically intuitive solution to the camera tracking and registration. In order to compare the performances of the systems, we build additional AR system which receives the camera pose information from a 3D position tracker directly. The accuracy and robustness of the systems are compared from several experiments on desktop AR environments. One of the critical problems in many of the AR application is that the camera pose (i.e., the user’s view point) is not static. This situation becomes more serious problem when the camera undergoes more general motion such as that exhibited by a hand held camera or a wearable computer. Many of conventional methods have therefore relied on off-line pre-calibration of 3D scene structure analysis to stabilize the camera tracking. In this thesis, a real-time camera tracking framework which employs a particle filter is presented. Typically, the Kalman filter is often used for the camera tracking, and it works good if approximate linearity is maintained between the tracking phases and if the estimates and measurements are consistently have Gaussian distributions. In general, however, the deviation from this condition causes instability and tracking failure. Moreover, some problems such as ambiguity in feature detection, occlusion of features and rapid camera shake may cause critical problems. In this thesis, a Bayesian sampling framework which is also known as the particle filter is adopted for the camera pose estimation. In order to verify the accuracy of the system, we compare the results with those of the systemwhich uses the 3D position tracker to get the camera pose information. In addition, we conduct several experiments for unstable situations in the desktop AR environments to verify the robustness of the systems. Visual tracking which has previously been applied to conventional AR system has used artificial markers for known 3D models placed in the scene. If the known model or marker is accurate, registration can be performed directly from it. Unfortunately, however, accurate information is often not available, and this seriously limits range and quality of registration. Therefore, the extensible tracking which is to track in scenes without any prior map is essential to provide the user with more degree of freedom. However, real-time camera tracking using a single camera in an unknown environment is not a trivial work. We describe a real-time camera tracking framework which does not need the known understanding of the user’s environment. In our method, camera tracking is achieved by a main particle filter which deals with the task of robust camera localization, while feature mapping is performed by auxiliary unscented Kalman filters coupled to the main particle filter via measurement covariance. The proposed method splits the camera tracking and feature mapping into two separate tasks, which are handled in two parallel processes. The particle filter is initialized with four known points corresponding to the corners of a black rectangular pattern. Once the initialization is completed successfully, the particle filter produces the camera pose estimates on the video sequence, and, in the subsequent frames, new feature detection is attempted to find and incorporate new feature being resident in the scene image. Once a new feature is detected, the system assigns a new feature tracker that is achieved by an unscented Kalman filter. These feature trackers estimate the statistics of the feature states, and hand the estimates over the particle filter to provide the scene map on the current tracking phase. In addition, the proposed method performs template prediction that is for the warping of the feature template corresponding to the current viewpoint of the camera. Typically, conventional methods which use a single filter framework, and therefore a full-covariance, operate an additional framework for the feature template prediction. In the proposed method, however, the 3D feature state is managed in the feature tracker, and this allows the prediction of the feature’s warped appearance from the current viewpoint. The camera tracking and the feature tracking are processed asynchronously in the separate processes. The experimental results show that the processing time of the proposed camera tracking framework operates in real-time with a frame rate over 24 frames per second, whereas processing time of conventional monolithic framework grows as the number of features increases. The experimental results also present the effectiveness of the approach when operating within a desktop environment.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.