홍경우
(Korea Advanced Institute of Science and Technology)
,
김성중
(Korea Advanced Institute of Science and Technology)
,
박준우
(Korea Advanced Institute of Science and Technology)
,
방효충
(Korea Advanced Institute of Science and Technology)
,
허준회
(Poongsan R&D Institute)
,
김진원
(Poongsan R&D Institute)
,
박장호
(Poongsan R&D Institute)
,
서송원
(Poongsan R&D Institute)
영상 기반 항법은 GPS/INS 통합 항법 시스템의 취약점을 보강할 수 있는 보조 항법 기술로 비행체에서 촬영한 항공 영상과 기존의 데이터베이스를 비교하여 비행체의 위치를 구한다. 하지만 데이터베이스가 생성된 시점은 항공 영상 촬영 시점과 다를 수밖에 없으며, 이러한 시점 차이로 인해 두 영상 간의 다른 특징점들이 생성된다. 즉, 유사하지만 다른 두 영상이므로 일반적인 영상 대조 알고리즘을 항법 문제에 적용하기 힘들다. 따라서 본 논문에서는 인공지능 기법인 의미론적 분할을 활용하여 항공 영상에서 항법에 필요한 정보를 분류한 후 영상 대조를 수행하는 방법을 제안한다. 의미론적 분할로 시점 변화, 촬영 조건 변화가 있더라도 강건하게 두 영상이 정합 되도록 한다. 제안한 방법은 시뮬레이션과 비행 실험을 통해 성능을 확인하며, 일반적인 영상 대조 알고리즘을 이용하여 항법을 수행한 결과와 비교한다.
영상 기반 항법은 GPS/INS 통합 항법 시스템의 취약점을 보강할 수 있는 보조 항법 기술로 비행체에서 촬영한 항공 영상과 기존의 데이터베이스를 비교하여 비행체의 위치를 구한다. 하지만 데이터베이스가 생성된 시점은 항공 영상 촬영 시점과 다를 수밖에 없으며, 이러한 시점 차이로 인해 두 영상 간의 다른 특징점들이 생성된다. 즉, 유사하지만 다른 두 영상이므로 일반적인 영상 대조 알고리즘을 항법 문제에 적용하기 힘들다. 따라서 본 논문에서는 인공지능 기법인 의미론적 분할을 활용하여 항공 영상에서 항법에 필요한 정보를 분류한 후 영상 대조를 수행하는 방법을 제안한다. 의미론적 분할로 시점 변화, 촬영 조건 변화가 있더라도 강건하게 두 영상이 정합 되도록 한다. 제안한 방법은 시뮬레이션과 비행 실험을 통해 성능을 확인하며, 일반적인 영상 대조 알고리즘을 이용하여 항법을 수행한 결과와 비교한다.
This paper proposes a new method for vision-based navigation using semantically segmented aerial images. Vision-based navigation can reinforce the vulnerability of the GPS/INS integrated navigation system. However, due to the visual and temporal difference between the aerial image and the database i...
This paper proposes a new method for vision-based navigation using semantically segmented aerial images. Vision-based navigation can reinforce the vulnerability of the GPS/INS integrated navigation system. However, due to the visual and temporal difference between the aerial image and the database image, the existing image matching algorithms have difficulties being applied to aerial navigation problems. For this reason, this paper proposes a suitable matching method for the flight composed of navigational feature extraction through semantic segmentation followed by template matching. The proposed method shows excellent performance in simulation and even flight situations.
This paper proposes a new method for vision-based navigation using semantically segmented aerial images. Vision-based navigation can reinforce the vulnerability of the GPS/INS integrated navigation system. However, due to the visual and temporal difference between the aerial image and the database image, the existing image matching algorithms have difficulties being applied to aerial navigation problems. For this reason, this paper proposes a suitable matching method for the flight composed of navigational feature extraction through semantic segmentation followed by template matching. The proposed method shows excellent performance in simulation and even flight situations.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문은 실제 비행 상황에 적합한 영상 기반 항법을 제안하였다. 데이터베이스 영상과 항공 영상의 차이에도 시불변의 특징들의 추출하여 대조함으로써 더욱 강건하게 작동되는 것을 확인하였다.
가설 설정
따라서, 이러한 특징들은 정합에 고려하지 말아야 하며 시간이 지나도 추출이 가능한 물체 정보를 이용하여 정합해야 한다. 본 논문에서는 도심지 비행을 가정하며 시불변의 특징으로 건물과 도로 2가지를 사용한다. 즉, FCN을 이용하여 사진에서 건물과 도로인 픽셀 정보들을 얻어낸다.
비행체는 일정한 고도, 자세, 그리고 속도를 유지한다고 가정한다. 고도는 200m이며, 동쪽으로 10m/s 속도로 비행한다.
비행체는 장착된 카메라를 통해 직하방의 영상을 얻는다고 가정한다. 본 시뮬레이션 상에서의 직하방 영상은 Vworld에서 제공하는 항공 영상을 사용한다.
항공 영상의 크기는 비행 고도와 연관되며, 카메라가 김발에 장착되었다고 가정하면 방향은 비행체의 yaw 자세 각과 연관되어 있다. 여기서 고도는 기압 고도계 등의 센서를 통해 얻어진다고 가정하며, 자세 센서를 통해 비행체의 yaw 값이 얻어진다고 가정한다. 이산시간 k 때의 고도는 실제 값에 σh만큼의 표준편차를 가지는 가우시안 오차를 추가하여 사용한다.
영상 갱신 주기는 1Hz이며, 마찬가지로 템플릿 정합을 1초마다 수행한다. 카메라의 AFOV(Augular Field Of View)는 가로 53.26°로 가정하였으며 영상 해상도는 640, 480으로 가정하였다.
두 영상을 템플릿 정합하기 위해서는 크기와 방향이 같도록 정렬해야 한다. 항공 영상의 크기는 비행 고도와 연관되며, 카메라가 김발에 장착되었다고 가정하면 방향은 비행체의 yaw 자세 각과 연관되어 있다. 여기서 고도는 기압 고도계 등의 센서를 통해 얻어진다고 가정하며, 자세 센서를 통해 비행체의 yaw 값이 얻어진다고 가정한다.
제안 방법
데이터베이스는 FCN 결과를 위한 것과 회색조 영상을 위한 것 2가지를 준비한다. FCN 결과 정합용은 시뮬레이션과 마찬가지로 Vworld에서 제공하는 GIS 데이터를 활용하여 만들었으며, 회색조 영상정합용은 Vworld에서 제공하는 항공 영상을 회색조로 변환하여 만들었다(Fig. 4).
FCN 결과를 측정치로 사용한 템플릿 정합의 성능을 확인하기 위해 Vworld에서 제공하는 항공 영상을 사용하여 정합을 수행한다. Fig.
1). 따라서, 이러한 시점 변화 상황에서 항법에 필요한 특징들을 추출하기 위해 의미론적 분할(Semantic Segmentation)을 수행한다.
대상 데이터
앞선 시뮬레이션 결과로 FCN을 이용한 템플릿 정합의 가능성을 확인하였다. 그러나, 시뮬레이션의 경우 FCN 학습에 사용되었던 Vworld의 항공 영상을 측정치로 사용하였다. 물론 시뮬레이션 지역을 학습 데이터로 사용하지 않았지만 같은 고도 및 조건으로 촬영된 영상이므로 실제 비행에서 얻어진 항공 영상을 통해 확인할 필요가 있다.
카메라는 logitech c920을 사용하였으며 김발에 장착되어 계속해서 직하방을 주시하도록 만들었다. 김발은 Infinity MR-S2를 사용하였다.
비행체는 장착된 카메라를 통해 직하방의 영상을 얻는다고 가정한다. 본 시뮬레이션 상에서의 직하방 영상은 Vworld에서 제공하는 항공 영상을 사용한다. 해당 직하방의 영상을 의미론적 분할되어 특징들로 분류된 영상이 된다.
무인기는 김발 및 카메라, 항법 센서를 탑재하고 비행한다. 비행 중 김발에 장착된 카메라에서 직하방의 항공 영상을 수집한다. 또한, 김발이 정확히 직하방을 바라보지 못할 경우를 대비하여 카메라의 지향 각을 측정할 수 있는 별도의 자세 센서를 부착한다.
실험기체는 대각선 길이 약 1.4m의 X8 기체를 사용하였으며, 영상처리 컴퓨터는 Jetson AGX Xavier 를 사용하였다. 카메라는 logitech c920을 사용하였으며 김발에 장착되어 계속해서 직하방을 주시하도록 만들었다.
또한, 데이터베이스도 분류할 특징, 건물과 도로가 표시된 영상으로 구성한다. 여기서 데이터베이스는 FCN 학습에 사용되었던 Vworld의 GIS 데이터를 이용한다. 마지막으로, 특징들이 분류된 항공 영상은 데이터베이스와 대조하여 비행체의 위치를 추출한다.
즉, 항공 영상과 함께 해당 항공 영상에 건물과 도로, 특징들이 표시된 해답 영상도 함께 필요하다. 이는 Vworld 공간 정보 오픈 플랫폼에서 제공하는 항공 영상과 GIS(Geographic Information System)데이터를 이용하여 해답 영상을 만들었다. 시뮬레이션에서도 Vworld에서 제공하는 항공 영상을 측정치로 활용한다.
데이터처리
따라서, 실제 무인기에서 촬영한 항공 영상을 측정치로 사용하여 템플릿 정합을 수행한다. 또한, 일반 회색조 영상의 템플릿 정합 결과와 제안하는 FCN을 이용한 항법 결과를 비교한다.
이론/모형
본 논문에서는 기존의 영상 대조 알고리즘인 템플릿 정합(Template Matching)을 항법에 적용하기 위해 인공지능 기법을 적용한다. 최근, 인공지능의 발달로 인해 사진 속 의미론적 분류의 성능이 대폭 향상되었다[11-13].
따라서, 이를 이용하여 항공 영상 중 필요한 정보들과 방해가 되는 정보들과 도움이 되는 정보들을 분리할 수 있다. 여러 의미론적 분할 방법이 있지만, 본 논문에서는 그 중에 널리 사용되고 있는 FCN(Fully Convolutional Network)를 사용한다[13].
두 영상이 비슷할수록 큰 값을 가지며 가장 높은 곳을 비행체의 위치로 본다. 참고로 FCN 수행 시 특징들의 모서리 및 변 부분이 보존이 안 되기 때문에 SIFT, ORB 등의 특징점 기반 대조 알고리즘 대신 템플릿 기반의 영상 대조 알고리즘을 사용하였다.
그러나 시뮬레이션에서 측정치로 사용하는 항공 영상은 FCN의 학습 데이터로 사용하지 않는다. 학습은 NVIDIA Digits을 활용하였으며 Caffe frameworks을 이용하였다.
성능/효과
본 논문은 실제 비행 상황에 적합한 영상 기반 항법을 제안하였다. 데이터베이스 영상과 항공 영상의 차이에도 시불변의 특징들의 추출하여 대조함으로써 더욱 강건하게 작동되는 것을 확인하였다. 시뮬레이션뿐만 아니라 비행실험을 통하여 항법을 검증하였으며, 대조 수렴률과 위치 오차 측면에서 우수한 성능을 보였다.
데이터베이스 영상과 항공 영상의 차이에도 시불변의 특징들의 추출하여 대조함으로써 더욱 강건하게 작동되는 것을 확인하였다. 시뮬레이션뿐만 아니라 비행실험을 통하여 항법을 검증하였으며, 대조 수렴률과 위치 오차 측면에서 우수한 성능을 보였다.
앞선 시뮬레이션 결과로 FCN을 이용한 템플릿 정합의 가능성을 확인하였다. 그러나, 시뮬레이션의 경우 FCN 학습에 사용되었던 Vworld의 항공 영상을 측정치로 사용하였다.
후속연구
이는 실패를 인식하는 로직을 추가하여 해결할 수 있을 것이다. 게다가, INS와 함께 정합 결과를 측정치로 사용하는 필터를 설계한다면 더욱 높은 성능을 보여줄 것으로 기대된다. 수행 시간 측면에서도, 수행 시간은 참조 영상의 크기와 관계가 있어 필터의 공분산 값으로 참조 영상의 크기를 결정한다면 불필요한 계산을 획기적으로 줄일 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
GPS / INS 통합 항법 시스템은 어떤 문제점을 가지고 있는가?
매우 강력한 성능을 보여주는 GPS / INS (Global Positioning System/Inertial Navigation System) 통합 항법 시스템은 GPS 재밍(Jamming) 등의 문제점을 가지고 있다. 이에, 이를 보완하기 위한 보조 항법 시스템에 관한 연구가 많은 관심을 받고 있다.
영상 기반 항법에는 어떤 방식이 있는가?
이에, 이를 보완하기 위한 보조 항법 시스템에 관한 연구가 많은 관심을 받고 있다. 영상 기반 항법 또한 보조 항법 중 하나로 랜드마크(Landmark) 기반 방식[1,2]과 그리고 비행체에서 촬영한 영상과 데이터베이스를 비교하는 방식이 있다. 데이터베이스는 항공 영상의 형태로 또는 항공 영상에서 얻을 수 있는 특징들 형태로 위치 정보와 함께 미리 제작되며, 비행체에서 촬영한 항공 영상 또는 그로부터 얻은 특징들과 비교하여 비행체의 현재 위치를 추정한다[3-6].
영상 대조(Image Matching) 문제는 일반적으로 무엇을 추출하여 정합하는가?
영상 기반 항법은 두 사진을 비교하는 측면에서, 기존의 영상 대조(Image Matching) 문제와 유사하다. 영상 대조 문제는 일반적으로 특징점들을 추출하여 정합한다. 대표적인 특징점 기술자(descriptor)로는 DoG(Difference of Gaussian) 기반으로 크기 변화에 강건한 SIFT(Scale Invariant Feature Transform)[7], SIFT의 수행 속도 문제를 보완한 SURF(Speed Up Robust Feature)[8] 등이 있으며 해당 기법들의 대안으로 FAST 특징점 추출 및 BRIEF(Binary Robust Independent Elementary Features) 기술사를 이용한 ORB(Oriented FAST and Rotated BRIEF)[9,10] 등이 있다.
참고문헌 (20)
Kim, J. M. and Leeghim, H., "INS/Multi-Vision Integrated Navigation System Based on Landmark," Journal of the Korean Society for Aeronautical and Space Sciences, Vol. 45, No. 8, July 2017, pp. 671-677.
Won, D. H., Chun, S. B., Sung, S. K., Cho, J. S. and Lee, Y. J., "Observability Analysis of a Vision-INS Integrated Navigation System Using Landmark," Journal of the Korean Society for Aeronautical and Space Sciences, Vol. 38, No. 3, March 2010, pp. 236-242.
Conte, G. and Doherty, P., "Vision-based unmanned aerial vehicle navigation using georeferenced information," EURASIP Journal on Advances in Signal Processing, 2009, 10.
Wu, A. D., "Vision-based navigation and mapping for flight in GPS-denied environments," PhD Thesis, Georgia Institute of Technology, 2010.
Dumble, S. J. and Gibbens, P. W., "Airborne vision-aided navigation using road intersection features," Journal of Intelligent and Robotic Systems, Vol. 78, No. 2, May. 2015, pp. 185-204.
Hong, K. W., Kim, S. J., Bang, H. C., Kim, J. W., Seo, I. W. and Pak, C. H., "Particle Filters using Gaussian Mixture Models for Vision-Based Navigation," Journal of the Korean Society for Aeronautical and Space Sciences, Vol. 47, No. 4, April 2019. pp. 274-282.
Lowe, D. G., "Distinctive image features from scale-invariant keypoints," International journal of computer vision, Vol. 60, No. 2, November 2004, pp. 91-110.
Bay, H., Ess, A., Tuytelaars, T. and Van Gool, L., "Speeded-up robust features (SURF)," Computer vision and image understanding, Vol. 110, No. 3, June 2008, pp. 346-359.
Calonder, M., Lepetit, V., Strecha, C. and Fua, P., "Brief: Binary robust independent elementary features," In European conference on computer vision, Springer, Berlin, Heidelberg, September 2010, pp. 778-792.
Karami, E., Prasad, S. and Shehata, M., "Image matching using SIFT, SURF, BRIEF and ORB: performance comparison for distorted images," arXiv preprint arXiv:1710.02726.
He, K., Gkioxari, G., Dollar, P. and Girshick, R., "Mask r-cnn," Proceedings of the IEEE international conference on computer vision 2017, pp. 2961-2969.
Noh, H. W., Hong, S. H. and Han, B. H., "Learning deconvolution network for semantic segmentation," Proceedings of the IEEE international conference on computer vision 2015, pp. 1520-1528.
Long, J., Shelhamer, E. and Darrell, T., "Fully convolutional networks for semantic segmentation," Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431-3440.
Chai, D., Newsam, S. and Huang, J., "Aerial image semantic segmentation using DCNN predicted distance maps," ISPRS Journal of Photogrammetry and Remote Sensing, Vol. 161, March 2020, pp. 309-322.
Montoya-Zegarra, J. A., Wegner, J. D. and Schindler, K., "Semantic segmentation of aerial images in urban areas with class-specific higherorder cliques," ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Vol. 2, 2015, pp. 127-133.
Hong, K. W., Kim, S. J. and Bang, H. C., "Vision-based Navigation using Gaussian Mixture Model of Terrain Features," AIAA Scitech 2020 Forum, Jan 2020, p. 1344.
Briechle, K. and Hanebeck, U. D., "Template matching using fast normalized cross correlation," Optical Pattern Recognition XII, International Society for Optics and Photonics, Vol. 4387, March 2001, pp. 95-102.
Mahmood, A. and Khan, S., "Exploiting transitivity of correlation for fast template matching," IEEE Transactions on Image Processing, Vol. 19, No. 8, August 2010, pp. 2190-2200.
Uchida, A., Ito, Y. and Nakano, K., "Fast and accurate template matching using pixel rearrangement on the GPU," 2011 Second International Conference on Networking and Computing IEEE, December 2011, pp. 153-159
Pele, O. and Werman, M., "Accelerating pattern matching or how much can you slide?," Asian Conference on Computer Vision, November 2007, pp. 435-446.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.