원격탐사 자료는 재난, 농업, 도시계획 및 군사 등 다양한 분야에서 활용되며, 최근 다양한 고해상도 센서에서 취득된 시계열 자료의 활용에 대한 요구가 증대되고 있다. 본 연구에서는 시계열 원격탐사 자료의 활용을 위해 딥러닝 기법을 이용한 영상 매칭 방법을 제안하였다. 본 연구에서 적용한 딥러닝 모델은 영상분할 영역에서 많이 사용되고 있는 HRNet을 기반으로 하였다. 특히, 기본영상과 목표영상 간 상관도 맵을 효과적으로 계산하고, 학습의 효율을 높이기 위하여 denseblock을 추가하였다. 국토지리정보원의 다시기 항공정사영상을 이용하여 제안된 모델의 학습을 수행하였으며, 학습에 사용하지 않은 자료를 이용하여 평가를 하고자 하였다. 딥러닝 모델을 이용한 영상매칭 성능을 평가하기 위해 영상 매칭결과와의 비교평가를 수행하였다. 실험 결과, 제안기법을 통한 영상 매칭률이 80%일 때의 평균 오차는 3화소로 ZNCC에 의한 결과인 25화소에 비해 더 높은 정확도를 보였다. 제안된 기법은 식생의 생장에 따라 영상의 변화가 심한 산지 및 농지 지역에 대해서도 효과적임을 확인하였다. 이를 통해 딥러닝을 이용한 기준영상과 목표영상의 매칭을 수행할 수 있을 것으로 판단되며, 위성영상의 상호좌표등록 및 다시기 영상의 정합 등에 활용할 수 있을 것으로 예상된다.
원격탐사 자료는 재난, 농업, 도시계획 및 군사 등 다양한 분야에서 활용되며, 최근 다양한 고해상도 센서에서 취득된 시계열 자료의 활용에 대한 요구가 증대되고 있다. 본 연구에서는 시계열 원격탐사 자료의 활용을 위해 딥러닝 기법을 이용한 영상 매칭 방법을 제안하였다. 본 연구에서 적용한 딥러닝 모델은 영상분할 영역에서 많이 사용되고 있는 HRNet을 기반으로 하였다. 특히, 기본영상과 목표영상 간 상관도 맵을 효과적으로 계산하고, 학습의 효율을 높이기 위하여 denseblock을 추가하였다. 국토지리정보원의 다시기 항공정사영상을 이용하여 제안된 모델의 학습을 수행하였으며, 학습에 사용하지 않은 자료를 이용하여 평가를 하고자 하였다. 딥러닝 모델을 이용한 영상매칭 성능을 평가하기 위해 영상 매칭결과와의 비교평가를 수행하였다. 실험 결과, 제안기법을 통한 영상 매칭률이 80%일 때의 평균 오차는 3화소로 ZNCC에 의한 결과인 25화소에 비해 더 높은 정확도를 보였다. 제안된 기법은 식생의 생장에 따라 영상의 변화가 심한 산지 및 농지 지역에 대해서도 효과적임을 확인하였다. 이를 통해 딥러닝을 이용한 기준영상과 목표영상의 매칭을 수행할 수 있을 것으로 판단되며, 위성영상의 상호좌표등록 및 다시기 영상의 정합 등에 활용할 수 있을 것으로 예상된다.
Remotely sensed data have been used in various fields, such as disasters, agriculture, urban planning, and the military. Recently, the demand for the multitemporal dataset with the high-spatial-resolution has increased. This manuscript proposed an automatic image matching algorithm using a deep lear...
Remotely sensed data have been used in various fields, such as disasters, agriculture, urban planning, and the military. Recently, the demand for the multitemporal dataset with the high-spatial-resolution has increased. This manuscript proposed an automatic image matching algorithm using a deep learning technique to utilize a multitemporal remotely sensed dataset. The proposed deep learning model was based on High Resolution Net (HRNet), widely used in image segmentation. In this manuscript, denseblock was added to calculate the correlation map between images effectively and to increase learning efficiency. The training of the proposed model was performed using the multitemporal orthophotos of the National Geographic Information Institute (NGII). In order to evaluate the performance of image matching using a deep learning model, a comparative evaluation was performed. As a result of the experiment, the average horizontal error of the proposed algorithm based on 80% of the image matching rate was 3 pixels. At the same time, that of the Zero Normalized Cross-Correlation (ZNCC) was 25 pixels. In particular, it was confirmed that the proposed method is effective even in mountainous and farmland areas where the image changes according to vegetation growth. Therefore, it is expected that the proposed deep learning algorithm can perform relative image registration and image matching of a multitemporal remote sensed dataset.
Remotely sensed data have been used in various fields, such as disasters, agriculture, urban planning, and the military. Recently, the demand for the multitemporal dataset with the high-spatial-resolution has increased. This manuscript proposed an automatic image matching algorithm using a deep learning technique to utilize a multitemporal remotely sensed dataset. The proposed deep learning model was based on High Resolution Net (HRNet), widely used in image segmentation. In this manuscript, denseblock was added to calculate the correlation map between images effectively and to increase learning efficiency. The training of the proposed model was performed using the multitemporal orthophotos of the National Geographic Information Institute (NGII). In order to evaluate the performance of image matching using a deep learning model, a comparative evaluation was performed. As a result of the experiment, the average horizontal error of the proposed algorithm based on 80% of the image matching rate was 3 pixels. At the same time, that of the Zero Normalized Cross-Correlation (ZNCC) was 25 pixels. In particular, it was confirmed that the proposed method is effective even in mountainous and farmland areas where the image changes according to vegetation growth. Therefore, it is expected that the proposed deep learning algorithm can perform relative image registration and image matching of a multitemporal remote sensed dataset.
본 연구에서는 시계열 원격탐사 자료를 활용하기 위하여 딥러닝 기법을 이용한 영상매칭 방법을 제안하였다. 이를 위하여 의미론적 분할에 활용 가능한 HRNet을 이용하여 특징맵을 생성하였고, 매칭하고자 하는 두개의 영상의 특징맵으로 합성곱 연산을 하여 영상 매칭의 결과로 활용할 수 있는 영상 간 유사도를 계산하였다.
제안 방법
대상영상은 영상매칭을 위한 검색영역의 선정을 위하여 대상영상에서 무작위 위치로 128×128화소 크기의 영상을 재추출하고, 이에 대한 위치를 활용하여 영상 매칭에 따른 이동량을 산출하였다
또한, 학습에 수행하지 않은 자료를 이용하여 모델의 성능을 검증하고자 하였다. 딥러닝 모델을 통하여 생성된 매칭영상에서 추출된 값 중에서 가장 큰 값의 위치를 매칭 위치로 선정하였으며, 자료 제작 시에 무작위로 생성한 위치 값의 거리 차이를 계산하였다. 모델에 위하여 추출된 매칭결과는 참조자료의 위치값을 기준으로 한 오차의 크기별로 매칭률을 통하여 모델의 성능을 평가하고자 하였다.
산지로 구성되어지는 영역은 불변하는 특징이 부족하기 때문에 산림으로만 이루어진 지역들은 육안 판독을 활용하여 매칭점을 추출하는 것도 어려운 문제이다. 따라서, 영상 매칭이 어려운 산림지역은 실험자료에서 배제하고자 하였으며, 경험적인 방법을 통하여 산림이 20% 미만이 되는 영역에 대해서만 훈련자료로 사용될 영상 패치(image patch)를 제작하였다. 먼저 동일한 지역의 다시기 항공정사영상을 이용하여 기준영상(base image)과 대상영상(target image)을 192×192화소(pixel) 크기로 추출하였다.
이를 위하여 의미론적 분할에 활용 가능한 HRNet을 이용하여 특징맵을 생성하였고, 매칭하고자 하는 두개의 영상의 특징맵으로 합성곱 연산을 하여 영상 매칭의 결과로 활용할 수 있는 영상 간 유사도를 계산하였다. 또한, denseblock을 활용하여 유사도를 통한 매칭 위치의 정확도를 향상시키고자 하였다. 실험결과, 제안된 HRNet-CorrConv-DenseNet 모델은 서로 다른 시기의 두 영상에 대하여 효과적으로 매칭점을 산정할 수 있음을 확인하였다.
먼저 동일한 지역의 다시기 항공정사영상을 이용하여 기준영상(base image)과 대상영상(target image)을 192×192화소(pixel) 크기로 추출하였다
딥러닝 모델을 통하여 생성된 매칭영상에서 추출된 값 중에서 가장 큰 값의 위치를 매칭 위치로 선정하였으며, 자료 제작 시에 무작위로 생성한 위치 값의 거리 차이를 계산하였다. 모델에 위하여 추출된 매칭결과는 참조자료의 위치값을 기준으로 한 오차의 크기별로 매칭률을 통하여 모델의 성능을 평가하고자 하였다.
본 연구에서 제안한 HRNet-CorrConv-DenseNet은 항공정사영상을 이용하여 생성된 훈련자료를 이용하여 학습을 수행하였다. 또한, 학습에 수행하지 않은 자료를 이용하여 모델의 성능을 검증하고자 하였다.
본 연구에서는 기하특성이 동일한 다시기 항공정사영상을 이용하여 딥러닝 모델의 훈련을 수행하였다. 특히, 매칭을 위해 사용한 딥러닝 모델은 HRNet과 denseblock을 활용하였다.
영상 매칭 과정에서 발생하는 오차의 경향을 파악하기 위하여, 영상 매칭 결과에 대한 x, y 축 별 오차의 방향을 도식화하였다. Fig.
본 연구에서는 시계열 원격탐사 자료를 활용하기 위하여 딥러닝 기법을 이용한 영상매칭 방법을 제안하였다. 이를 위하여 의미론적 분할에 활용 가능한 HRNet을 이용하여 특징맵을 생성하였고, 매칭하고자 하는 두개의 영상의 특징맵으로 합성곱 연산을 하여 영상 매칭의 결과로 활용할 수 있는 영상 간 유사도를 계산하였다. 또한, denseblock을 활용하여 유사도를 통한 매칭 위치의 정확도를 향상시키고자 하였다.
그 다음 추출된 특징으로 매칭점을 찾기 위하여 denseblock을 사용하였다. 특히, 다양한 해상도로 예측된 매칭점에 대하여 손실함수(loss function)을 구성하여 학습이 효과적으로 진행되도록 구성하였다.
학습된 HRNet-CorrConv-DenseNet 모델을 활용하여 서로 다른 시기의 두 입력 영상에 대해 매칭영상을 생성하고 최대값을 이용하여 매칭점을 추출하고자 하였다. Fig.
대상 데이터
또한 서로 다른 영상의 매칭을 위하여 Fig. 1과 같은 2015, 2017, 2019년도의 항공정사영상을 사용하였다.
HRNet은 영상을 위한 전통적인 딥러닝 모델과는 다르게 영상학습을 진행하는 동안 여러 해상도로 구성되는 서브네트워크(sub-network)를 만들며, 각 서브네트워크들을 혼합하여 여러 크기의 객체들에 대하여 특징을 학습한다. 두 영상의 매칭점을 찾기 위하여 기준영상과 대상영상 각각의 특징을 추출하는 두 개의 HRNet을 사용하였다. 이를 이용하여 12개의 특징맵(feature map)을 추출하였다.
시계열 원격탐사 자료를 활용하기 위하여 영상 매칭기법은 지역의 특성에 강건해야 한다. 따라서 실험지역은 도심, 농지, 산지로 구성되어 있는 강원도 정선 일대를 선정하였다. 학습 및 실험을 위하여 51 cm의 해상도를 가지고 RGB 3개의 밴드로 구성 되어있는 총 6장의 항공정사영상을 사용하였다.
4은 생성되어진 기준영상, 대상영상, 참조의 예이다. 생성된 자료의 총 수는 8,418이며, 6,818장은 학습(training), 758개는 검증(validation), 842개는 평가(test)에 사용하였다.
따라서 실험지역은 도심, 농지, 산지로 구성되어 있는 강원도 정선 일대를 선정하였다. 학습 및 실험을 위하여 51 cm의 해상도를 가지고 RGB 3개의 밴드로 구성 되어있는 총 6장의 항공정사영상을 사용하였다. 또한 서로 다른 영상의 매칭을 위하여 Fig.
이론/모형
먼저 특징을 추출하기 위하여 HRNet을 사용하였다. 그 다음 추출된 특징으로 매칭점을 찾기 위하여 denseblock을 사용하였다. 특히, 다양한 해상도로 예측된 매칭점에 대하여 손실함수(loss function)을 구성하여 학습이 효과적으로 진행되도록 구성하였다.
특히, 매칭을 위해 사용한 딥러닝 모델은 HRNet과 denseblock을 활용하였다. 먼저 특징을 추출하기 위하여 HRNet을 사용하였다. 그 다음 추출된 특징으로 매칭점을 찾기 위하여 denseblock을 사용하였다.
모델의 학습은 Pytorch를 이용하여 수행하였으며, 모델의 훈련에 사용한 파라미터(hyperparameter)는 Table 1과 같이 설정하였다.
본 연구에서 제안하는 기법과의 평가를 위하여 영역기반 매칭기법인 ZNCC를 사용하여 비교평가를 수행하였다. ZNCC는 기준영상과 목표영상의 화소값에 대한 유사도를 측정하는 방법이며, 식(4)와 같다.
본 연구에서는 기하특성이 동일한 다시기 항공정사영상을 이용하여 딥러닝 모델의 훈련을 수행하였다. 특히, 매칭을 위해 사용한 딥러닝 모델은 HRNet과 denseblock을 활용하였다. 먼저 특징을 추출하기 위하여 HRNet을 사용하였다.
성능/효과
14는 허용오차 대비 영상의 매칭률을 나타낸 것으로써, 허용오차 미만으로 오차가 발생하였을 때 매칭을 성공했다고 판단한다. NCC의 경우 매칭점의 오차가 없는 영상은 481장으로써 57%로의 비율로 나타났다. 그리고 전체영상의 80%에 대한 평균 매칭률 오차는 25화소로 발생하였다.
그리고 전체영상의 80%에 대한 평균 매칭률 오차는 25화소로 발생하였다. 딥러닝 모델에 의한 영상 매칭의 경우, 매칭결과의 오차가 없는 경우는 총 403장으로, 48%의 비율이었으며, 전체영상의 80%에 대한 매칭률 오차는 3화소로 나타났다. 따라서, 딥러닝 기법에 의한 결과가 다시기 영상에 대하여 더욱 강건하게 영상 매칭을 수행할 수 있을 것으로 판단하였다.
6와 같이 학습과정을 통해서 매칭을 위해 기준영상과 목표영상의 공통적인 특징들이 나타나게 될 것이고, 영상 간의 유사도를 산출하기 위하여 더욱 효과적인 자료로 구성될 수 있다. 따라서, HRNet를 통하여 생성되 특징맵을 이용하여 산출된 유사도 정보를 이용하여 영역기반 영상매칭의 성능을 높일 수 있을 것으로 판단하였다. 딥러닝 모델에서 생성된 특징 맵에 대하여 식(1)과 같은 합성곱연산을 수행하여 각각의 유사도를 생성한다.
딥러닝 모델에 의한 영상 매칭의 경우, 매칭결과의 오차가 없는 경우는 총 403장으로, 48%의 비율이었으며, 전체영상의 80%에 대한 매칭률 오차는 3화소로 나타났다. 따라서, 딥러닝 기법에 의한 결과가 다시기 영상에 대하여 더욱 강건하게 영상 매칭을 수행할 수 있을 것으로 판단하였다. 오차가 없는 영상의 경우, NCC에 의한 결과가 10% 가량 우수한 결과를 나타내었으나, 실제 다시기 영상 패치간 실제 참조자료 내에서도 0–1 화소 간의 오차가 내재된다는 점에서는 제안된 기법에 의한 결과가 우수한 결과를 나타내고 있다고 할 수 있다.
또한, denseblock을 활용하여 유사도를 통한 매칭 위치의 정확도를 향상시키고자 하였다. 실험결과, 제안된 HRNet-CorrConv-DenseNet 모델은 서로 다른 시기의 두 영상에 대하여 효과적으로 매칭점을 산정할 수 있음을 확인하였다. 하지만 식생의 발달 정도에 따라 쉽게 영상의 구성이 달라지는 산지나, 농지 그리고 유량의 정도에 따라 강변의 폭이 달라지는 경우, 그리고 새로운 구조물이 생성됨에 따라 영상의 구성이 확연히 달라지는 경우에는 딥러닝 모델에서 또한 매칭점을 찾지 못하는 것을 확인하였다.
오차가 없는 영상의 경우, NCC에 의한 결과가 10% 가량 우수한 결과를 나타내었으나, 실제 다시기 영상 패치간 실제 참조자료 내에서도 0–1 화소 간의 오차가 내재된다는 점에서는 제안된 기법에 의한 결과가 우수한 결과를 나타내고 있다고 할 수 있다.
11과 같이 도심지로 구성되어 있는 영상에서의 매칭이다. 이 경우는 변화하지 않은 건물과 도로 등에 대한 정보로 인하여 NCC도 매칭점의 위치에서 주변지역보다 높은 유사도 나오는 것을 확인되며, 딥러닝 모델의 매칭영상에서 또한 매칭점을 잘 추출하는 것으로 나타났으며, 두 방법 모두 오차가 발생하지 않았다.
실험결과, 제안된 HRNet-CorrConv-DenseNet 모델은 서로 다른 시기의 두 영상에 대하여 효과적으로 매칭점을 산정할 수 있음을 확인하였다. 하지만 식생의 발달 정도에 따라 쉽게 영상의 구성이 달라지는 산지나, 농지 그리고 유량의 정도에 따라 강변의 폭이 달라지는 경우, 그리고 새로운 구조물이 생성됨에 따라 영상의 구성이 확연히 달라지는 경우에는 딥러닝 모델에서 또한 매칭점을 찾지 못하는 것을 확인하였다. 향후 산정된 매칭점에 대하여 참, 거짓을 판단하는 연구가 필요할 것으로 판단된다.
후속연구
12, 13과 같이, 새로운 건물이 영상 전체에 걸쳐 있는 경우, 식생의 변화로 인하여 차이가 심해지는 산지로만 구성되어 있거나, 확연하게 달라진 지역에 대해서는 제안된 기법을 활용하여도 정확한 매칭위치를 찾지 못하였다. 그러나 육안 판독을 통해서도 해당 매칭위치를 정확하게 찾아내는 것을 불가능하기 때문에, 해당 부분들은 향후 다양한 기법 등을 통하여 해결하거나, 해당 오매칭 결과를 제거하는 기법이 필요할 것으로 판단된다.
향후 산정된 매칭점에 대하여 참, 거짓을 판단하는 연구가 필요할 것으로 판단된다. 또한, 본 연구는 항공영상을 대상으로 진행되었기 때문에, 향후 고해상도 위성영상 간의 상호좌표등록 및 영상 정합을 위한 연구로 확장되어야 할 것이다.
하지만 식생의 발달 정도에 따라 쉽게 영상의 구성이 달라지는 산지나, 농지 그리고 유량의 정도에 따라 강변의 폭이 달라지는 경우, 그리고 새로운 구조물이 생성됨에 따라 영상의 구성이 확연히 달라지는 경우에는 딥러닝 모델에서 또한 매칭점을 찾지 못하는 것을 확인하였다. 향후 산정된 매칭점에 대하여 참, 거짓을 판단하는 연구가 필요할 것으로 판단된다. 또한, 본 연구는 항공영상을 대상으로 진행되었기 때문에, 향후 고해상도 위성영상 간의 상호좌표등록 및 영상 정합을 위한 연구로 확장되어야 할 것이다.
참고문헌 (12)
Chung. M and Y. Kim, 2020. Analysis on topographic normalization methods for 2019 Gangneung-East Sea wildfire area using PlanetScope imagery, Korean Journal of Remote Sensing, 36(2-1): 179-197 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2020.36.2.1.7
Huang, G., Z. Liu, L. Van Der Maaten, and K.Q. Weinberger, 2017. Densely connected convolutional networks, arXiv preprint arXiv:1608.06993. https://doi.org/10.48550/arXiv.1608.06993
Hughes, L., D. Marcos, S. Lobry, D. Tuia, and M. Schmitt, 2020. A deep learning framework for matching of SAR and optical imagery, ISPRS Journal of Photogrammetry and Remote Sensing, 169: 166-179. https://doi.org/10.1016/j.isprsjprs.2020.09.012
Kim, E., B. Lee, and J. Lim, 2019. Forest damage detection using daily normal vegetation index based on time series LANDSAT images, Korean Journal of Remote Sensing, 35(6-2): 1133-1148 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2019.35.6.2.9
Kuglin, C. and D. Hines, 1975. The phase correlation image alignment method, Proc. of IEEE 1975 International Conference on Cybernetics and Society, San Francisco, CA, Sep. 23-25, pp. 163-165.
Li, L., L. Han, M. Ding, H. Cao, and H. Hu, 2021. A deep learning semantic template matching framework for remote sensing image registration, ISPRS Journal of Photogrammetry and Remote Sensing, 181: 205-217. https://doi.org/10.1016/j.isprsjprs.2021.09.012
Merkle, N., W. Luo, S. Auer, R. Muller, and R. Urtasun, 2017. Exploiting deep matching and SAR data for the geo-localization accuracy improvement of optical satellite images, Remote Sensing, 9(6):586. https://doi.org/10.3390/rs9060586
Rocco, I., M. Cimpoi, R. Arandjelovic, A. Torii, T. Pajdla, and J. Sivic, 2020. NCNet: neighborhood consensus networks for estimating image correspondences, IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(2): 1020-1034. https://doi.org/10.1109/TPAMI.2020.3016711
Rocco, I., R. Arandjelovic, and J. Sivic, 2017. Convolutional neural network architecture for geometric matching, arXiv preprint arXiv:1703.05593. https://doi.org/10.48550/arXiv.1703.05593
Seong, S., J. Mo, S. Na, and J. Choi, 2021. Attention gated FC-DenseNet for extracting crop cultivation area by multispectral satellite imagery, Korean Journal of Remote Sensing, 37(5-1): 1061-1071 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2021.37.5.1.18
Wang, J., K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu, Y. Mu, M. Tan, X. Wang, W. Liu, and B. Xiao, 2019. Deep high-resolution representation learning for visual recognition, arXiv preprint arXiv:198.07919. https://doi.org/10.48550/arXiv.1908.07919
Zitova, B and J. Flusser, 2003. Image registration methods: a survey, Image and Vision Computing, 21(11): 997-1000. https://doi.org/10.1016/S0262-8856(03)00137-9
※ AI-Helper는 부적절한 답변을 할 수 있습니다.