지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구 Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data원문보기
자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.
자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.
Automatic Target Recognition (ATR) technology is emerging as a core technology of Future Combat Systems (FCS). Conventional ATR is performed based on IMINT (image information) collected from the SAR sensor, and various image-based deep learning models are used. However, with the development of IT an...
Automatic Target Recognition (ATR) technology is emerging as a core technology of Future Combat Systems (FCS). Conventional ATR is performed based on IMINT (image information) collected from the SAR sensor, and various image-based deep learning models are used. However, with the development of IT and sensing technology, even though data/information related to ATR is expanding to HUMINT (human information) and SIGINT (signal information), ATR still contains image oriented IMINT data only is being used. In complex and diversified battlefield situations, it is difficult to guarantee high-level ATR accuracy and generalization performance with image data alone. Therefore, we propose a knowledge graph-based ATR method that can utilize image and text data simultaneously in this paper. The main idea of the knowledge graph and deep model-based ATR method is to convert the ATR image and text into graphs according to the characteristics of each data, align it to the knowledge graph, and connect the heterogeneous ATR data through the knowledge graph. In order to convert the ATR image into a graph, an object-tag graph consisting of object tags as nodes is generated from the image by using the pre-trained image object recognition model and the vocabulary of the knowledge graph. On the other hand, the ATR text uses the pre-trained language model, TF-IDF, co-occurrence word graph, and the vocabulary of knowledge graph to generate a word graph composed of nodes with key vocabulary for the ATR. The generated two types of graphs are connected to the knowledge graph using the entity alignment model for improvement of the ATR performance from images and texts. To prove the superiority of the proposed method, 227 documents from web documents and 61,714 RDF triples from dbpedia were collected, and comparison experiments were performed on precision, recall, and f1-score in a perspective of the entity alignment..
Automatic Target Recognition (ATR) technology is emerging as a core technology of Future Combat Systems (FCS). Conventional ATR is performed based on IMINT (image information) collected from the SAR sensor, and various image-based deep learning models are used. However, with the development of IT and sensing technology, even though data/information related to ATR is expanding to HUMINT (human information) and SIGINT (signal information), ATR still contains image oriented IMINT data only is being used. In complex and diversified battlefield situations, it is difficult to guarantee high-level ATR accuracy and generalization performance with image data alone. Therefore, we propose a knowledge graph-based ATR method that can utilize image and text data simultaneously in this paper. The main idea of the knowledge graph and deep model-based ATR method is to convert the ATR image and text into graphs according to the characteristics of each data, align it to the knowledge graph, and connect the heterogeneous ATR data through the knowledge graph. In order to convert the ATR image into a graph, an object-tag graph consisting of object tags as nodes is generated from the image by using the pre-trained image object recognition model and the vocabulary of the knowledge graph. On the other hand, the ATR text uses the pre-trained language model, TF-IDF, co-occurrence word graph, and the vocabulary of knowledge graph to generate a word graph composed of nodes with key vocabulary for the ATR. The generated two types of graphs are connected to the knowledge graph using the entity alignment model for improvement of the ATR performance from images and texts. To prove the superiority of the proposed method, 227 documents from web documents and 61,714 RDF triples from dbpedia were collected, and comparison experiments were performed on precision, recall, and f1-score in a perspective of the entity alignment..
본 논문에서는 지식 그래프를 활용하여 ATR의 정확도 및 일반화 성능을 향상시키는 지식 그래프 기반 이미지와 텍스트 데이터를 활용한 ATR 프레임워크를 제안한다. 제안된 프레임워크는 ATR 이미지와 텍스트에 대해서 각각 적합한 사전 학습된 모델과 그래프 변환 방법을 통해, 효과적으로 형태가 다른 두 유형의 데이터가 그래프로 얼라이먼트 될 수 있도록 한다.
이러한 문제를 해결하기 위해, 본 논문에서 국방 도메인에서 이미지와 텍스트 데이터를 동시에 고려한 ATR을 수행하기 위해, 지식 그래프 기반 이미지와 텍스트를 활용한 ATR 프레임워크를 제안한다.
이러한 한계를 극복하기 위해, 본 논문에서는 지식 그래프 얼라이먼트를 이용한 이미지와 텍스트의 의미 관계 (semantic relationship) 식별 방법을 제안한다. 이미지와 텍스트 데이터에 대해 개별적인 임베딩 벡터를 획득하는 대신, 이미지와 텍스트 데이터를 구조화한 그래프로 그래프를 활용하는 이유는 이미지 및 텍스트 데이터로부터 표적과 직접 관련이 있는 부분만이 아니라 ATR의 성능의 높이는 데 기여할 수 있는 표적과 간접적으로 연관되어 있는 정보도 활용하기 위해서이다.
이러한 한계를 극복하기 위해, 본 논문에서는 지식 그래프 얼라이먼트를 이용한 이미지와 텍스트의 의미 관계 (semantic relationship) 식별 방법을 제안한다. 이미지와 텍스트 데이터에 대해 개별적인 임베딩 벡터를 획득하는 대신, 이미지와 텍스트 데이터를 구조화한 그래프로 그래프를 활용하는 이유는 이미지 및 텍스트 데이터로부터 표적과 직접 관련이 있는 부분만이 아니라 ATR의 성능의 높이는 데 기여할 수 있는 표적과 간접적으로 연관되어 있는 정보도 활용하기 위해서이다. 예를 들어, 표적으로 인식해야 할 특정 비행체가 이미지 및 텍스트 데이터에서 관측되었을 때, 해당 비행체의 모델명이나 외관 구조의 정보만으로 관측된 비행체가 물리적으로 유일한 표적임을 판단하기 어렵다.
제안 방법
첫째, ATR 이미지 및 텍스트로부터 그래프 변환을 수행할 때 지식 그래프의 구조는 활용하지 않고 어휘 정보만을 활용하였다. 둘째, 최종 엔터티 얼라이먼트 과정에서 생성된 텍스트 및 이미지 그래프의 특징을 충분히 고려하지 않은 단일 모델을 활용하였다. 이러한 한계를 극복하기 위해, 추후연구에서 서로 다른 리소스로부터 발생한 그래프를 일반화된 방법으로 얼라이먼트할 수 있는 그래프 뉴럴 네트워크 모델이나 이의 구조를 지식 그래프와 유사하게 변환하여 얼라이먼트의 성능을 간접적으로 향상시키는 그래프 샘플링 방법에 대해 연구를 수행할 계획이다.
Doc2vec는 고차원의 문서를 가장 효과적으로 저차원으로 투영하는 방법 중 하나이기 때문에 본 논문에서 제안한 co-word 그래프와의 우수성을 평가하기 위해 비교 방법으로 선정하였다. 또한, 분류 모델로 서로 접근법이 다른 SVM 및 KNN을 활용하여 분류 모델에 의한 영향을 함께 비교하였다. 실험 결과는 표 1과 같다.
두 번째, 그래프의 구조에 따라 MKG에서 NE와 유사한 그래프 특징을 갖는 후보 NE를 MKG에서 샘플링하고 이를 다시 NER 모델에 입력하여 학습을 수행한다. 세 번째, 기존 NER 모델과 새롭게 학습된 NER 모델에 원본 또는 실제 값 셋을 활용하여 정확도를 평가한다. 새롭게 학습된 NER 모델의 정확도가 기존에 비해 크거나 같다면 두 번째 과정부터 반복한다.
이때, 모든 표적 및 표적 관련 엔터티에 대해 ATR를 수행한다면 정보 처리의 부담을 야기할 수 있다. 이러한 부담을 줄이기 위해, 본 논문에서는 특정 이벤트와 관련된 이미지 및 텍스트 데이터를 컨텍스트, 특히 시공간 컨텍스트에 기반하여 그룹핑을 수행한다. 이를 통해, 시공간적으로 관계를 맺기 어려운 표적 및 표적 관련 엔터티간의 불필요한 정보 처리 부담을 줄일 수 있다.
본 논문에서는 지식 그래프를 활용하여 ATR의 정확도 및 일반화 성능을 향상시키는 지식 그래프 기반 이미지와 텍스트 데이터를 활용한 ATR 프레임워크를 제안한다. 제안된 프레임워크는 ATR 이미지와 텍스트에 대해서 각각 적합한 사전 학습된 모델과 그래프 변환 방법을 통해, 효과적으로 형태가 다른 두 유형의 데이터가 그래프로 얼라이먼트 될 수 있도록 한다. 제안된 프레임워크는 ATR이 이미지에 국한되지 않고 텍스트를 포함한 복수개의 유형의 데이터를 그래프에 기반한 방법을 통해 활용할 수 있도록 하여 정확도와 일반화 성능, 즉 표적에 대한 인식 성능을 직접적으로 향상시키는데 기여한다.
제안된 프레임워크는 ATR 이미지와 텍스트에 대해서 각각 적합한 사전 학습된 모델과 그래프 변환 방법을 통해, 효과적으로 형태가 다른 두 유형의 데이터가 그래프로 얼라이먼트 될 수 있도록 한다. 제안된 프레임워크는 ATR이 이미지에 국한되지 않고 텍스트를 포함한 복수개의 유형의 데이터를 그래프에 기반한 방법을 통해 활용할 수 있도록 하여 정확도와 일반화 성능, 즉 표적에 대한 인식 성능을 직접적으로 향상시키는데 기여한다. 왜냐하면, 저조도 환경이나 운무로 인한 제한된 가시 환경과 같이 이미지 데이터만으로 부족한 표적에 대한 추가 정보를 다양한 센서 및 관측된 데이터가 기록된 텍스트 데이터로부터 획득 및 보완할 수 있기 때문이다.
제안된 프레임워크는 그래프 구조를 활용하여 ATR이 이미지뿐만 아니라 텍스트 데이터도 활용할 수 있도록 기여하나, 다음과 같은 한계가 있다. 첫째, ATR 이미지 및 텍스트로부터 그래프 변환을 수행할 때 지식 그래프의 구조는 활용하지 않고 어휘 정보만을 활용하였다. 둘째, 최종 엔터티 얼라이먼트 과정에서 생성된 텍스트 및 이미지 그래프의 특징을 충분히 고려하지 않은 단일 모델을 활용하였다.
대상 데이터
국방 관련 데이터셋에 접근하는 것이 제한되어, 본 논문에서는 국방 ATR 환경과 가장 유사한 "2022년 3월 8일 북한 경비정의 국방한계선(NLL) 침범"과 관련된 기사 및 웹 문서를 ATR 텍스트 데이터로 수집하여 이를 실험 데이터셋으로 활용하였다
이를 위해, 기존 수집된 문서에서 같은 엔터티 명에 대해 설명한 문서를 위키피디아 및 네이버로부터 수집하였다. 또한, 마찬가지로 기존 지식 그래프에서도 같은 엔터티 명에 대한 RDF 집합을 DBpedia와 이 외의 리소스(Yago 혹은 freebase)로부터 수집하였다. 위와 같은 수집 과정으로 85개의 엔터티에 대한 학습 데이터셋을 구축하였다.
국방 관련 데이터셋에 접근하는 것이 제한되어, 본 논문에서는 국방 ATR 환경과 가장 유사한 "2022년 3월 8일 북한 경비정의 국방한계선(NLL) 침범"과 관련된 기사 및 웹 문서를 ATR 텍스트 데이터로 수집하여 이를 실험 데이터셋으로 활용하였다. 수집된 실험 데이터셋은 평균 단어 개수가 165.69개인 227개의 문서와 지식 그래프의 단위인 61,714개의 RDF(Resource Description Framework)로 구성되어 있다. 또한, 모든 텍스트 데이터는 기본적인 자연어에 대한 전처리를 수행하였다.
엔터티 정렬 방법의 우수성을 평가하기 위해서는 이음동의관계에 있는 문서 집합 및 지식 그래프 데이터가 필요하다. 이를 위해, 기존 수집된 문서에서 같은 엔터티 명에 대해 설명한 문서를 위키피디아 및 네이버로부터 수집하였다. 또한, 마찬가지로 기존 지식 그래프에서도 같은 엔터티 명에 대한 RDF 집합을 DBpedia와 이 외의 리소스(Yago 혹은 freebase)로부터 수집하였다.
데이터처리
Doc2vec의 파라미터로는 임베딩 벡터 크기 v와 윈도우 사이즈 w를 조정하였으며, 이를 doc2vec{v}/{w}로 표1에 나타낸다. Doc2vec는 고차원의 문서를 가장 효과적으로 저차원으로 투영하는 방법 중 하나이기 때문에 본 논문에서 제안한 co-word 그래프와의 우수성을 평가하기 위해 비교 방법으로 선정하였다. 또한, 분류 모델로 서로 접근법이 다른 SVM 및 KNN을 활용하여 분류 모델에 의한 영향을 함께 비교하였다.
두 번째 실험은 본 논문에서 제안한 co-word 그래프를 활용한 그래프 기반 엔터티 정렬 방법과 다른 방법과의 비교실험을 수행한다. 엔터티 정렬 방법의 우수성을 평가하기 위해서는 이음동의관계에 있는 문서 집합 및 지식 그래프 데이터가 필요하다.
위와 같은 수집 과정으로 85개의 엔터티에 대한 학습 데이터셋을 구축하였다. 제안한 방법과 비교 실험할 방법으로 doc2vec 기반의 문서 임베딩 기법과 비교하였다. Doc2vec의 파라미터로는 임베딩 벡터 크기 v와 윈도우 사이즈 w를 조정하였으며, 이를 doc2vec{v}/{w}로 표1에 나타낸다.
첫 번째 실험은 하이퍼파라미터 분석이다. 먼저, 하이퍼파라미터 α는 상위 TF-IDF 값을 갖는 어휘의 선택 비율로 생성되는 co-word 그래프 노드의 수 및 그래프의 크기와 연관이 있다.
이론/모형
실험 결과는 표 1과 같다. 비교 지표로는 정확도(acc), 재현율(recall), 및 f1-score를 활용했다.
제안된 방법에 대한 보다 상세한 내용은 다음과 같다. 이미지 및 텍스트 데이터를 그래프 구조로 변환하기 위해, 데이터 유형에 적합한 사전 학습된 딥러닝 모델과 지식 그래프를 활용한다. 이때, 사전 학습된 딥러닝 모델은 비정형화 된 이미지 및 텍스트 데이터로부터 객체 태그 (object tag)나 핵심 단어와 같은 정보를 추출하여 정형화된 구조의 그래프를 생성하는데 필요한 핵심 정보를 해석하기 위해 활용한다.
연속적으로 ρ회 이상 새로 학습된 NER 모델의 성능이 기존보다 좋지 않다면 학습 과정을 종료한다. 최종적으로, 국방 분야에 적합한 Military-specific NER 모델을 획득한다.
성능/효과
실험 결과 모든 지표에서 제안한 모델이 가장 좋은 성능을 나타냄을 알 수 있다. 특히, KNN 모델을 활용한 경우 doc2vec의 어떠한 파라미터에서도 낮은 성능을 나타냈다.
후속연구
둘째, 최종 엔터티 얼라이먼트 과정에서 생성된 텍스트 및 이미지 그래프의 특징을 충분히 고려하지 않은 단일 모델을 활용하였다. 이러한 한계를 극복하기 위해, 추후연구에서 서로 다른 리소스로부터 발생한 그래프를 일반화된 방법으로 얼라이먼트할 수 있는 그래프 뉴럴 네트워크 모델이나 이의 구조를 지식 그래프와 유사하게 변환하여 얼라이먼트의 성능을 간접적으로 향상시키는 그래프 샘플링 방법에 대해 연구를 수행할 계획이다.
참고문헌 (14)
Matsumurr, J., et al., "Exploring advanced technologies for the future combat systems program," RAND ARROYO CENTER SANTA MONICA CA, 2002. https://doi.org/10.7249/mr1332
Huang, Z., Z. Pan, and B. Lei, "What, where, and how to transfer in SAR target recognition based on deep CNNs,"IEEE Transactions on Geoscience and Remote Sensing, 58(4), p. 2324-2336, 2019. https://doi.org/10.1109/tgrs.2019.2947634
Mithun, N.C., et al., "Webly supervised joint embedding for cross-modal image-text retrieval," in Proceedings of the 26th ACM international conference on Multimedia, 2018. https://doi.org/10.1145/3240508.3240712
Wang, H., et al., "Consensus-aware visual-semantic embedding for image-text matching," in European Conference on Computer Vision, Springer, 2020. https://doi.org/10.1007/978-3-030-58586-0_2
Shi, B., et al., "Knowledge Aware Semantic Concept Expansion for Image-Text Matching," in IJCAI, 2019. https://doi.org/10.24963/ijcai.2019/720
Kim, S., W.-J. Song, and S.-H. Kim, "Double weight-based SAR and infrared sensor fusion for automatic ground target recognition with deep learning," Remote Sensing, 10(1), p. 72, 2018. https://doi.org/10.3390/rs10010072
Xu, C., et al., "An Optimal Faster-RCNN Algorithm for Intelligent Battlefield Target Recognition," in 2020 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA), IEEE, 2020. https://doi.org/10.1109/icaica50127.2020.9181857
Zheng, Z., et al., "Dual-path convolutional image-text embeddings with instance loss," ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 16(2), p. 1-23, 2020. https://doi.org/10.1145/3383184
Sakla, W., G. Konjevod, and T.N. Mundhenk, "Deep multi-modal vehicle detection in aerial ISR imagery," in 2017 IEEE Winter Conference on Applications of Computer Vision (WACV), IEEE, 2017. https://doi.org/10.1109/wacv.2017.107
Zhang, D., et al., "Multi-modal graph fusion for named entity recognition with targeted visual guidance," in Proceedings of the AAAI Conference on Artificial Intelligence, 2021. https://doi.org/10.1609/aaai.v35i16.17687
Lang, C., A. Braun, and A. Valada, "Contrastive object detection using knowledge graph embeddings," Computer Vision and Pattern Recognition, 2021. https://doi.org/10.48550/arXiv.2112.11366
Birant, D. and A. Kut, "ST-DBSCAN: An algorithm for clustering spatial-temporal data," Data & knowledge engineering, 60(1), p. 208-221, 2007. https://doi.org/10.1016/j.datak.2006.01.013
Yan, H., et al., "TENER: adapting transformer encoder for named entity recognition," Computation and Language, 2019. https://doi.org/10.48550/arXiv.1911.04474
Jo, S.-H., et al., "A study on building knowledge base for intelligent battlefield awareness service," Journal of the Korea Society of Computer and Information, 25(4), p. 11-17, 2020. https://doi.org/10.9708/jksci.2020.25.04.011
※ AI-Helper는 부적절한 답변을 할 수 있습니다.