모바일 기기의 기술 발전과 대중화는 어디서든 사용자의 위치를 확인할 수 있으며 인터넷을 사용할 수 있도록 발전되었다. 그러나 실내의 경우 인터넷은 끊김없이 사용할 수 있지만 global positioning system (GPS) 기능은 활용하기 어렵다. 실내 공공장소인 백화점, 박물관, 컨퍼런스장, 학교, 터널 등 GPS가 수신되지 않는 음영 지역에서 실시간 위치정보 제공의 필요성이 증가하고 있다. 이에 따라 최근의 실내 측위 기술은 랜드마크 데이터베이스를 구축하기 위해 light detection and ranging (LiDAR) 장비를 기반으로 연구가 증가하고 있다. 본 연구에서는 랜드마크 데이터베이스 구축의 접근성에 초점을 두어 모바일 기기를 기반으로 랜드마크를 촬영한 단일 이미지와 사전에 구축된 랜드마크 데이터베이스 정보를 이용하여 사용자의 위치를 추정하는 기법을 개발하고자 하였다. 첫 번째로, 랜드마크 데이터베이스를 구축하였다. 랜드마크를 촬영한 모바일 이미지만으로 사용자 위치를 추정하기 위해서는 모바일 이미지에서 랜드마크 검출이 필수적이고, 검출된 랜드마크에서 고정적인 성격을 가진 지점의 지상좌표 취득이 필수적이다. 두 번째 단계에서는 bag of words (BoW) 영상 검색 기술을 적용해 랜드마크 데이터베이스 중 모바일 이미지가 촬영한 랜드마크를 유사한 4위까지 검색하였다. 세 번째 단계에서는 scale invariant feature transform (SIFT) 특징점 추출 기법과 Homography random sample consensus (RANSAC)을 통해 검색된 4개의 후보 랜드마크들 중 가장 유사한 하나의 랜드마크를 선정하였고, 이때 임계값 설정을 통해 정합점 수를 기반으로 한 차례 더 필터링을 수행하였다. 네 번째 단계에서는 대응된 랜드마크와 모바일 이미지간의 Homography 행렬을 통해 랜드마크 이미지를 모바일 이미지에 투사하여 랜드마크의 영역과 코너(외곽선)점을 검출하였다. 마지막으로, 위치추정 기법을 통해 사용자의 위치를 추정하였다. 해당 기술의 성능을 분석한 결과, 랜드마크 검색 성능은 약 86%로 측정되었다. 위치추정 결과와 사용자의 실제 지상좌표를 비교한 결과, 약 0.56 m의 수평 위치 정확도를 갖는 것이 확인되어 별도의 고가 장비 없이 랜드마크 데이터베이스를 구축하여 모바일 영상으로 사용자 위치 추정이 가능한 것을 확인하였다.
모바일 기기의 기술 발전과 대중화는 어디서든 사용자의 위치를 확인할 수 있으며 인터넷을 사용할 수 있도록 발전되었다. 그러나 실내의 경우 인터넷은 끊김없이 사용할 수 있지만 global positioning system (GPS) 기능은 활용하기 어렵다. 실내 공공장소인 백화점, 박물관, 컨퍼런스장, 학교, 터널 등 GPS가 수신되지 않는 음영 지역에서 실시간 위치정보 제공의 필요성이 증가하고 있다. 이에 따라 최근의 실내 측위 기술은 랜드마크 데이터베이스를 구축하기 위해 light detection and ranging (LiDAR) 장비를 기반으로 연구가 증가하고 있다. 본 연구에서는 랜드마크 데이터베이스 구축의 접근성에 초점을 두어 모바일 기기를 기반으로 랜드마크를 촬영한 단일 이미지와 사전에 구축된 랜드마크 데이터베이스 정보를 이용하여 사용자의 위치를 추정하는 기법을 개발하고자 하였다. 첫 번째로, 랜드마크 데이터베이스를 구축하였다. 랜드마크를 촬영한 모바일 이미지만으로 사용자 위치를 추정하기 위해서는 모바일 이미지에서 랜드마크 검출이 필수적이고, 검출된 랜드마크에서 고정적인 성격을 가진 지점의 지상좌표 취득이 필수적이다. 두 번째 단계에서는 bag of words (BoW) 영상 검색 기술을 적용해 랜드마크 데이터베이스 중 모바일 이미지가 촬영한 랜드마크를 유사한 4위까지 검색하였다. 세 번째 단계에서는 scale invariant feature transform (SIFT) 특징점 추출 기법과 Homography random sample consensus (RANSAC)을 통해 검색된 4개의 후보 랜드마크들 중 가장 유사한 하나의 랜드마크를 선정하였고, 이때 임계값 설정을 통해 정합점 수를 기반으로 한 차례 더 필터링을 수행하였다. 네 번째 단계에서는 대응된 랜드마크와 모바일 이미지간의 Homography 행렬을 통해 랜드마크 이미지를 모바일 이미지에 투사하여 랜드마크의 영역과 코너(외곽선)점을 검출하였다. 마지막으로, 위치추정 기법을 통해 사용자의 위치를 추정하였다. 해당 기술의 성능을 분석한 결과, 랜드마크 검색 성능은 약 86%로 측정되었다. 위치추정 결과와 사용자의 실제 지상좌표를 비교한 결과, 약 0.56 m의 수평 위치 정확도를 갖는 것이 확인되어 별도의 고가 장비 없이 랜드마크 데이터베이스를 구축하여 모바일 영상으로 사용자 위치 추정이 가능한 것을 확인하였다.
The technological development and popularization of mobile devices have developed so that users can check their location anywhere and use the Internet. However, in the case of indoors, the Internet can be used smoothly, but the global positioning system (GPS) function is difficult to use. There is a...
The technological development and popularization of mobile devices have developed so that users can check their location anywhere and use the Internet. However, in the case of indoors, the Internet can be used smoothly, but the global positioning system (GPS) function is difficult to use. There is an increasing need to provide real-time location information in shaded areas where GPS is not received, such as department stores, museums, conference halls, schools, and tunnels, which are indoor public places. Accordingly, research on the recent indoor positioning technology based on light detection and ranging (LiDAR) equipment is increasing to build a landmark database. Focusing on the accessibility of building a landmark database, this study attempted to develop a technique for estimating the user's location by using a single image taken of a landmark based on a mobile device and the landmark database information constructed in advance. First, a landmark database was constructed. In order to estimate the user's location only with the mobile image photographing the landmark, it is essential to detect the landmark from the mobile image, and to acquire the ground coordinates of the points with fixed characteristics from the detected landmark. In the second step, by applying the bag of words (BoW) image search technology, the landmark photographed by the mobile image among the landmark database was searched up to a similar 4th place. In the third step, one of the four candidate landmarks searched through the scale invariant feature transform (SIFT) feature point extraction technique and Homography random sample consensus(RANSAC) was selected, and at this time, filtering was performed once more based on the number of matching points through threshold setting. In the fourth step, the landmark image was projected onto the mobile image through the Homography matrix between the corresponding landmark and the mobile image to detect the area of the landmark and the corner. Finally, the user's location was estimated through the location estimation technique. As a result of analyzing the performance of the technology, the landmark search performance was measured to be about 86%. As a result of comparing the location estimation result with the user's actual ground coordinate, it was confirmed that it had a horizontal location accuracy of about 0.56 m, and it was confirmed that the user's location could be estimated with a mobile image by constructing a landmark database without separate expensive equipment.
The technological development and popularization of mobile devices have developed so that users can check their location anywhere and use the Internet. However, in the case of indoors, the Internet can be used smoothly, but the global positioning system (GPS) function is difficult to use. There is an increasing need to provide real-time location information in shaded areas where GPS is not received, such as department stores, museums, conference halls, schools, and tunnels, which are indoor public places. Accordingly, research on the recent indoor positioning technology based on light detection and ranging (LiDAR) equipment is increasing to build a landmark database. Focusing on the accessibility of building a landmark database, this study attempted to develop a technique for estimating the user's location by using a single image taken of a landmark based on a mobile device and the landmark database information constructed in advance. First, a landmark database was constructed. In order to estimate the user's location only with the mobile image photographing the landmark, it is essential to detect the landmark from the mobile image, and to acquire the ground coordinates of the points with fixed characteristics from the detected landmark. In the second step, by applying the bag of words (BoW) image search technology, the landmark photographed by the mobile image among the landmark database was searched up to a similar 4th place. In the third step, one of the four candidate landmarks searched through the scale invariant feature transform (SIFT) feature point extraction technique and Homography random sample consensus(RANSAC) was selected, and at this time, filtering was performed once more based on the number of matching points through threshold setting. In the fourth step, the landmark image was projected onto the mobile image through the Homography matrix between the corresponding landmark and the mobile image to detect the area of the landmark and the corner. Finally, the user's location was estimated through the location estimation technique. As a result of analyzing the performance of the technology, the landmark search performance was measured to be about 86%. As a result of comparing the location estimation result with the user's actual ground coordinate, it was confirmed that it had a horizontal location accuracy of about 0.56 m, and it was confirmed that the user's location could be estimated with a mobile image by constructing a landmark database without separate expensive equipment.
본 논문에서는 모바일 기기에서 촬영된 단일 영상과 사전에 구축된 랜드마크 데이터베이스 정보를 이용하여 단일 영상 만으로 사용자의 위치를 개산하는 기법을 개발하고자 한다.
제안 방법
가장 유사한 1개의 랜드마크 선별을 위해 본 연구에서는 후보 이미지들과 모바일 이미지간 특징점 추출을 수행하였고, 매칭된 keypoint들에 대하여 Homography RANSAC을 수행하였다. 모바일 이미지와 랜드마크 이미지간의 특징점을 추출하고 필터링을 수행하여 기하적으로 유사성이 낮은 특징점을 제외하는 과정을 통해 정제된 매칭점을 취득할 수 있다.
그러나 모바일 이미지에서 촬영된 랜드마크가 아니지만, 랜드마크와 주변 환경의 조건이 유사하다면 정확한 선별에 실패할 가능성이 존재한다. 따라서 본 논문에서는 실험적으로 정합점의 수의 임계값을 설정하여 해당 임계값을 만족하지 못한 경우 동일한 랜드마크가 아닌 것으로 분류하였다.
랜드마크 구축 대상 지역은 GPS 측량을 위해 낮은 건물이 많은 인하대학교로 선정하였다. 랜드마크 이미지와 모바일 촬영 이미지는 Galaxy S22+ 기종의 일반 모드로 촬영하였다. 랜드마크 이미지는 정면인 상태에서 촬영하였고, 모바일 촬영 이미지는 랜드마크를 기준으로 좌-우 방향에서 취득하였다.
랜드마크의 지상좌표와 모바일 이미지의 촬영 시점의 지상좌표 취득을 위해서는 GPS 측량을 수행하였다. 측량기기는 Trimble 사의 R4s 기기를 사용하여 측량을 수행하였다.
본 과제에서는 모바일 이미지 촬영 시점의 위치를 추정하기 위해서 모바일 이미지와 랜드마크 이미지 간의 1:1 대응 관계가 되도록 랜드마크 후보군에서 가장 유사한 랜드마크 1장을 선별하고, 모바일 이미지에서 랜드마크의 영역을 추출하도록 하였다.
본 논문에서는 모바일 촬영 이미지에서 랜드마크 객체를 탐지하고 영역정보와 지상좌표을 매핑하여 사용자 위치 추정을 위한 기준점으로 활용하였다. PnP 기법은 앞선2장에서소개한 Direct Linear Transformation (DLT) 모델의 한 종류로, 기하 변환행렬을 추정한다는 공통점이 있다.
본 연구에서 제안하는 단일 영상 기반 측위 기법은 랜드마크 데이터베이스 구축을 위한 사전 준비 단계와 처리 단계로 구분할 수 있다. 처리 단계는 Fig.
DBoW2 라이브러리는 훈련 이미지들로부터 특징점과 설명자를 계산하여 BoW 벡터로 변환하고, 이를 군집화하여 랜드마크 이미지를 BoW 벡터로 표현한다. 신규 모바일 이미지가 입력되면 해당 이미지에 대한 Bow 벡터가 산출되고, 랜드마크 이미지와 모바일 이미지간의 유사도를 계산하여 후보 이미지를 도출하도록 하였다. 이때 산출되는 설명자를 데이터베이스화하여 파일 형태로 저장함으로써 기존에 제작한 설명자 데이터베이스를 읽어와 vocabulary를 생성할 수 있도록 설계하였다.
랜드마크 이미지는 정면인 상태에서 촬영하였고, 모바일 촬영 이미지는 랜드마크를 기준으로 좌-우 방향에서 취득하였다. 위치추정에 사용된 모바일 카메라의 내부표정요소는 카메라 캘리브레이션(calibration)을 통해 산출하였다. Table 1은 Galaxy S22+의 카메라 사양과 사용된 내부표정요소를 나타내었다.
모바일 이미지에서 랜드마크의 영역정보(영상좌표)를 추출한다. 이후 랜드마크 데이터베이스에서 검색된 랜드마크의 지상좌표 정보를 전달받아 영상좌표와 결합된 형태로 측위에 사용되어 위치추정이 수행된다. 다음 그림은 객체 검색 및 위치 추정 과정을 나타낸다.
오정합점을 제거하는 Homography RANSAC 알고리즘은 두 이미지에서 추출된 매칭점 간의 오정합점을 필터링하고 호모그래피 행렬을 산출한다. 해당 행렬을 통해 랜드마크 이미지를 모바일 이미지로 투시변환을 수행함으로써 코너점과 중심점을 추출하였다. 다음은 모바일 이미지에서 특징점 추출 후 필터링된 매칭점(노란색 점)과 이를 기반으로 산출된 호모그래피 행렬을 기반으로 랜드마크 이미지의 코너점(외곽선)을 검출한 결과(초록선)이다.
대상 데이터
랜드마크 구축 대상 지역은 GPS 측량을 위해 낮은 건물이 많은 인하대학교로 선정하였다. 랜드마크 이미지와 모바일 촬영 이미지는 Galaxy S22+ 기종의 일반 모드로 촬영하였다.
랜드마크 이미지와 모바일 촬영 이미지는 Galaxy S22+ 기종의 일반 모드로 촬영하였다. 랜드마크 이미지는 정면인 상태에서 촬영하였고, 모바일 촬영 이미지는 랜드마크를 기준으로 좌-우 방향에서 취득하였다. 위치추정에 사용된 모바일 카메라의 내부표정요소는 카메라 캘리브레이션(calibration)을 통해 산출하였다.
본 논문에서는 랜드마크 선별을 위해 BoW를 라이브러리화 한 DBoW2를 활용하였다. DBoW2 라이브러리는 훈련 이미지들로부터 특징점과 설명자를 계산하여 BoW 벡터로 변환하고, 이를 군집화하여 랜드마크 이미지를 BoW 벡터로 표현한다.
랜드마크 데이터베이스는 영상부와 좌표정보부로 나뉜다. 영상부는 랜드마크의 영상 데이터가 저장된 저장소이고, 좌표정보부는 랜드마크의 좌상단, 우상단, 좌하단, 우하단, 중심 지점의 지상좌표가 저장된 데이터베이스다. 본 논문에서 사용한 랜드마크의 영상부와 좌표 정보부의 구조를 다음과 같이 나타내었다(Figs.
랜드마크의 지상좌표와 모바일 이미지의 촬영 시점의 지상좌표 취득을 위해서는 GPS 측량을 수행하였다. 측량기기는 Trimble 사의 R4s 기기를 사용하여 측량을 수행하였다. Table 2는 측량기기의 사양을 나타내었다.
이론/모형
또한, PnP 기법의 경우 더욱 세분화되어 지상기준점의 취득 조건 및 평면/비평면/반복추정/오정합 필터링 등의 조건에 따라 세분화된 알고리즘을 활용할 수 있다는 장점이 있다. 본 논문에서는 훈련 이미지로써 평면인 사물을 사용하였고 향후 실증 및 확장성 있는 훈련 이미지를 고려하여 PnP 기법을 활용하였다.
성능/효과
랜드마크를 촬영한 모바일 이미지를 입력하여 랜드마크 이미지를 후보 상위 4위까지 분류한 결과 대부분의 테스트 이미지에서 후보 4위 내에 랜드마크를 검색에 성공한 것을 확인할 수 있다. 10개의 랜드마크 중 Land#3의 경우 영상 기반의 측위를 위해 랜드마크로 사용하기에 특징점이 분명하지 않아 검색되지 않은 것이 확인되었다. 해당 랜드마크의 경우 영상기반의 측위에 적합하지 않은 것으로 판단되어 랜드마크 데이터베이스 구축에서 제외되어야 한다.
본 논문에서는 랜드마크 데이터베이스를 기반으로 한 프로세스이기 때문에 취득과 가공이 쉽다는 장점이 있다. 또한 본 논문에서 활용한 모바일 폰과 비교하였을 때 컴퓨터 비전 분야에서 실내/외 측위에 활발히 사용중인 라이다 장비와는 경제적인 측면에서 우수하다. 또한 딥러닝 기술을 적용하지 않아도 객체 검출 기술이 우수한 성능을 보였다.
본 논문에서 개발한 단일 영상 기반의 사용자 위치 추정 기술은 육안으로 특징점 추출이 난해했던 랜드마크를 제외하고 약 86% 모바일 이미지에서 가장 유사한 하나의 랜드마크 검색에 성공하였다. 또한 위치 추정 결과를 모바일 촬영 위치의 지상좌표와 비교하였을 때 0.56 m의 수평 위치 오차를 갖는 것을 확인하였다.
가장 많은 정합점 수를 가진 랜드마크가 가장 유사한 랜드마크로 선정되며, 정합점 수가 가장 많아도 설정한 임계값보다 낮은 경우 최종 랜드마크 검색에 실패한 이미지로 분류되어 다음 단계로 이어지지 않는다. 랜드마크 검색 결과 49개의 모바일 이미지 중 42개(약 85.7%)에서 랜드마크 검색에 성공한 결과를 확인하였다.
랜드마크 검색에 실패한 모바일 이미지 7장을 분석한 결과, 과하게 틀어 촬영되었거나 특징점 추출에 어려운 조건의 구조를 가졌다는 점을 확인할 수 있다. 과하게 틀어 촬영한 경우 특징점 추출 성능 저하 요소가 되며, 특징점 추출에 적합하지 않은 이미지도 특징점 추출 성능 저하 요소가 되었다.
랜드마크 검색에 실패한 모바일 이미지를 제외한 나머지의 케이스에서 위치추정이 수행되었고, 사용자 위치의 지상좌표와 비교한 결과 올바른 방향과 함께 약 –0.6 m ~ 1.5 m 내에 촬영된 것을 확인할 수 있었고, 평균 0.56 m의 수평 위치정확도를 갖는 것을 확인하였다
랜드마크를 촬영한 모바일 이미지를 입력하여 랜드마크 이미지를 후보 상위 4위까지 분류한 결과 대부분의 테스트 이미지에서 후보 4위 내에 랜드마크를 검색에 성공한 것을 확인할 수 있다. 10개의 랜드마크 중 Land#3의 경우 영상 기반의 측위를 위해 랜드마크로 사용하기에 특징점이 분명하지 않아 검색되지 않은 것이 확인되었다.
본 논문에서 개발한 단일 영상 기반의 사용자 위치 추정 기술은 육안으로 특징점 추출이 난해했던 랜드마크를 제외하고 약 86% 모바일 이미지에서 가장 유사한 하나의 랜드마크 검색에 성공하였다. 또한 위치 추정 결과를 모바일 촬영 위치의 지상좌표와 비교하였을 때 0.
후속연구
해당 랜드마크의 경우 영상기반의 측위에 적합하지 않은 것으로 판단되어 랜드마크 데이터베이스 구축에서 제외되어야 한다. 그러나 향후에는 다양하고 폭넓은 랜드마크 데이터베이스를 구축하기 위해 이러한 랜드마크도 고려되어야 할 것이다. Table 4는 테스 이미지별로 4개 랜드마크 후보에 대한 최종 정합점 수를 나타내었다.
과하게 틀어 촬영한 경우 특징점 추출 성능 저하 요소가 되며, 특징점 추출에 적합하지 않은 이미지도 특징점 추출 성능 저하 요소가 되었다. 이러한 한계들은 추후 모바일 기기의 초기 위치를 고려하여 근접한 영역 내에 있는 랜드마크를 우선하여 검색하는 방법 등을 고안할 예정이다.
또한 앞서 랜드마크 검출에 실패하였던 랜드마크#3와 같이 어두운 랜드마크의 경우 랜드마크 데이터베이스 구축에 제한적이라는 단점이 있다. 이러한 한계들은 추후 모바일 기기의 초기 위치를 기반으로 근접한 영역 내에 있는 랜드마크를 우선하여 검색하는 방법 등을 고안하여 영상 밝기값에 덜 민감한 방안을 모색할 예정이다.
참고문헌 (9)
Fei-Fei, L., Fergus, R., and Torralba, A., 2005. Recognizing?and learning object categories. In Proceedings of?the 2005 International Conference on Computer?Vision (ICCV) Workshop on Human-Computer?Interaction, Beijing, China, Oct. 21. https://people.csail.mit.edu/torralba/shortCourseRLOC/
Galvez-Lopez, D., and Tardos, J. D., 2012. Bags of?binary words for fast place recognition in image?sequences. IEEE Transactions on Robotics, 28(5),?1188-1197. https://doi.org/10.1109/TRO.2012.2197158
Kim, H., and Kim, I., 2015. VILODE: A real-time visual?loop closure detector using key frames and bag?of words. KIPS Transactions on Software and?Data Engineering, 4(5), 225-230. https://doi.org/10.3745/KTSDE.2015.4.5.225
Mirabdollah, M. H., and Mertsching, B., 2015. Fast?techniques for monocular visual odometry. In:?Gall, J., Gehler, P., Leibe, B. (eds.), DAGM 2015:?Pattern recognition, Springer, pp. 297-307. https://doi.org/10.1007/978-3-319-24947-6_24
Mur-Artal, R., Montiel, J. M. M., and Tardos, J. D., 2015. ORB-SLAM: A versatile and accurate?monocular SLAM system. IEEE Transactions on?Robotics, 31(5), 1147-1163. https://doi.org/10.1109/TRO.2015.2463671
Mur-Artal, R., and Tardos, J. D., 2014. Fast relocalisation?and loop closing in keyframe-based SLAM. In?Proceedings of the 2014 IEEE International?Conference on Robotics and Automation (ICRA),?Hong Kong, China, May 31-June 7, pp. 846-853,?https://doi.org/10.1109/ICRA.2014.6906953
Pena, M. G., 2011. A comparative study of three image?matching algorithms: SIFT, SURF, and FAST.?Master's thesis, Utah State University, Logan,?UT, USA. https://doi.org/10.26076/8c1f-83f8
Riba Pi, E., 2015. Implementation of a 3D post estimation?algorithm. Master's thesis, Polytechnic University?of Catalonia, Barcelona, Spain. http://hdl.handle.net/10261/155306
Rublee, E., Rabaud, V., Konolige, K., and Bradski, G., 2011. ORB: An efficient alternative to SIFT or?SURF. In Proceedings of the 2011 International?Conference on Computer Vision, Barcelona, Spain,?Nov. 6-13, pp. 2564-2571. https://doi.org/10.1109/ICCV.2011.6126544
※ AI-Helper는 부적절한 답변을 할 수 있습니다.