[논문]지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구

김종모; 이정빈; 전호철; 손미애

doi:10.7472/jksii.2022.23.5.145

지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구
Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.23 no.5, 2022년, pp.145 - 154

김종모 (Dept. of Industrial Engineering, Sungkyunkwan University) , 이정빈 (Dept. of Industrial Engineering, Sungkyunkwan University) , 전호철 (Agency for Defense Development) , 손미애 (Dept. of Industrial Engineering, Sungkyunkwan University)

초록
AI-Helper

자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.

Abstract ▼ AI-Helper

Automatic Target Recognition (ATR) technology is emerging as a core technology of Future Combat Systems (FCS). Conventional ATR is performed based on IMINT (image information) collected from the SAR sensor, and various image-based deep learning models are used. However, with the development of IT and sensing technology, even though data/information related to ATR is expanding to HUMINT (human information) and SIGINT (signal information), ATR still contains image oriented IMINT data only is being used. In complex and diversified battlefield situations, it is difficult to guarantee high-level ATR accuracy and generalization performance with image data alone. Therefore, we propose a knowledge graph-based ATR method that can utilize image and text data simultaneously in this paper. The main idea of the knowledge graph and deep model-based ATR method is to convert the ATR image and text into graphs according to the characteristics of each data, align it to the knowledge graph, and connect the heterogeneous ATR data through the knowledge graph. In order to convert the ATR image into a graph, an object-tag graph consisting of object tags as nodes is generated from the image by using the pre-trained image object recognition model and the vocabulary of the knowledge graph. On the other hand, the ATR text uses the pre-trained language model, TF-IDF, co-occurrence word graph, and the vocabulary of knowledge graph to generate a word graph composed of nodes with key vocabulary for the ATR. The generated two types of graphs are connected to the knowledge graph using the entity alignment model for improvement of the ATR performance from images and texts. To prove the superiority of the proposed method, 227 documents from web documents and 61,714 RDF triples from dbpedia were collected, and comparison experiments were performed on precision, recall, and f1-score in a perspective of the entity alignment..

주제어

표/그림 (6)

그림 (그림 1) 기존의 이미지-텍스트 임베딩 접근법(상단)과 제안된 지식 그래프 얼라이먼트 접근법(하단) 비교 (Figure 1) Comparison between conventional image-text embedding (upper) and the proposed knowledge graph alignment (lower) approaches
그림 (그림 2) 이미지와 텍스트 데이터를 이용한 자동 표적 인식의 제안된 프레임워크 (Figure 2) The proposed framework of knowledge graph-based ATR using image and text data source
그림 (그림 3) 초기 객체-태그 그래프 생성 과정 (Figure 3) Process of initial object-tag graph generation
그림 (그림 4) α값에 따른 동시 출현 빈도 매트릭스 (Figure 4) Co-occurrence frequency matrix by the α
그림 (그림 5) α,β값에 따라 생성된 co-word 그래프 (Figure 5) Generated co-word graphs by the α,β
표 (표 1) Doc2vec과의 비교 실험 결과 (Table 1) Comparative experiment result with Doc2vec

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 지식 그래프를 활용하여 ATR의 정확도 및 일반화 성능을 향상시키는 지식 그래프 기반 이미지와 텍스트 데이터를 활용한 ATR 프레임워크를 제안한다. 제안된 프레임워크는 ATR 이미지와 텍스트에 대해서 각각 적합한 사전 학습된 모델과 그래프 변환 방법을 통해, 효과적으로 형태가 다른 두 유형의 데이터가 그래프로 얼라이먼트 될 수 있도록 한다.
이러한 문제를 해결하기 위해, 본 논문에서 국방 도메인에서 이미지와 텍스트 데이터를 동시에 고려한 ATR을 수행하기 위해, 지식 그래프 기반 이미지와 텍스트를 활용한 ATR 프레임워크를 제안한다.
이러한 한계를 극복하기 위해, 본 논문에서는 지식 그래프 얼라이먼트를 이용한 이미지와 텍스트의 의미 관계 (semantic relationship) 식별 방법을 제안한다. 이미지와 텍스트 데이터에 대해 개별적인 임베딩 벡터를 획득하는 대신, 이미지와 텍스트 데이터를 구조화한 그래프로 그래프를 활용하는 이유는 이미지 및 텍스트 데이터로부터 표적과 직접 관련이 있는 부분만이 아니라 ATR의 성능의 높이는 데 기여할 수 있는 표적과 간접적으로 연관되어 있는 정보도 활용하기 위해서이다.
이러한 한계를 극복하기 위해, 본 논문에서는 지식 그래프 얼라이먼트를 이용한 이미지와 텍스트의 의미 관계 (semantic relationship) 식별 방법을 제안한다. 이미지와 텍스트 데이터에 대해 개별적인 임베딩 벡터를 획득하는 대신, 이미지와 텍스트 데이터를 구조화한 그래프로 그래프를 활용하는 이유는 이미지 및 텍스트 데이터로부터 표적과 직접 관련이 있는 부분만이 아니라 ATR의 성능의 높이는 데 기여할 수 있는 표적과 간접적으로 연관되어 있는 정보도 활용하기 위해서이다. 예를 들어, 표적으로 인식해야 할 특정 비행체가 이미지 및 텍스트 데이터에서 관측되었을 때, 해당 비행체의 모델명이나 외관 구조의 정보만으로 관측된 비행체가 물리적으로 유일한 표적임을 판단하기 어렵다.

제안 방법

첫째, ATR 이미지 및 텍스트로부터 그래프 변환을 수행할 때 지식 그래프의 구조는 활용하지 않고 어휘 정보만을 활용하였다. 둘째, 최종 엔터티 얼라이먼트 과정에서 생성된 텍스트 및 이미지 그래프의 특징을 충분히 고려하지 않은 단일 모델을 활용하였다. 이러한 한계를 극복하기 위해, 추후연구에서 서로 다른 리소스로부터 발생한 그래프를 일반화된 방법으로 얼라이먼트할 수 있는 그래프 뉴럴 네트워크 모델이나 이의 구조를 지식 그래프와 유사하게 변환하여 얼라이먼트의 성능을 간접적으로 향상시키는 그래프 샘플링 방법에 대해 연구를 수행할 계획이다.
Doc2vec는 고차원의 문서를 가장 효과적으로 저차원으로 투영하는 방법 중 하나이기 때문에 본 논문에서 제안한 co-word 그래프와의 우수성을 평가하기 위해 비교 방법으로 선정하였다. 또한, 분류 모델로 서로 접근법이 다른 SVM 및 KNN을 활용하여 분류 모델에 의한 영향을 함께 비교하였다. 실험 결과는 표 1과 같다.
두 번째, 그래프의 구조에 따라 MKG에서 NE와 유사한 그래프 특징을 갖는 후보 NE를 MKG에서 샘플링하고 이를 다시 NER 모델에 입력하여 학습을 수행한다. 세 번째, 기존 NER 모델과 새롭게 학습된 NER 모델에 원본 또는 실제 값 셋을 활용하여 정확도를 평가한다. 새롭게 학습된 NER 모델의 정확도가 기존에 비해 크거나 같다면 두 번째 과정부터 반복한다.
이때, 모든 표적 및 표적 관련 엔터티에 대해 ATR를 수행한다면 정보 처리의 부담을 야기할 수 있다. 이러한 부담을 줄이기 위해, 본 논문에서는 특정 이벤트와 관련된 이미지 및 텍스트 데이터를 컨텍스트, 특히 시공간 컨텍스트에 기반하여 그룹핑을 수행한다. 이를 통해, 시공간적으로 관계를 맺기 어려운 표적 및 표적 관련 엔터티간의 불필요한 정보 처리 부담을 줄일 수 있다.
본 논문에서는 지식 그래프를 활용하여 ATR의 정확도 및 일반화 성능을 향상시키는 지식 그래프 기반 이미지와 텍스트 데이터를 활용한 ATR 프레임워크를 제안한다. 제안된 프레임워크는 ATR 이미지와 텍스트에 대해서 각각 적합한 사전 학습된 모델과 그래프 변환 방법을 통해, 효과적으로 형태가 다른 두 유형의 데이터가 그래프로 얼라이먼트 될 수 있도록 한다. 제안된 프레임워크는 ATR이 이미지에 국한되지 않고 텍스트를 포함한 복수개의 유형의 데이터를 그래프에 기반한 방법을 통해 활용할 수 있도록 하여 정확도와 일반화 성능, 즉 표적에 대한 인식 성능을 직접적으로 향상시키는데 기여한다.
제안된 프레임워크는 ATR 이미지와 텍스트에 대해서 각각 적합한 사전 학습된 모델과 그래프 변환 방법을 통해, 효과적으로 형태가 다른 두 유형의 데이터가 그래프로 얼라이먼트 될 수 있도록 한다. 제안된 프레임워크는 ATR이 이미지에 국한되지 않고 텍스트를 포함한 복수개의 유형의 데이터를 그래프에 기반한 방법을 통해 활용할 수 있도록 하여 정확도와 일반화 성능, 즉 표적에 대한 인식 성능을 직접적으로 향상시키는데 기여한다. 왜냐하면, 저조도 환경이나 운무로 인한 제한된 가시 환경과 같이 이미지 데이터만으로 부족한 표적에 대한 추가 정보를 다양한 센서 및 관측된 데이터가 기록된 텍스트 데이터로부터 획득 및 보완할 수 있기 때문이다.
제안된 프레임워크는 그래프 구조를 활용하여 ATR이 이미지뿐만 아니라 텍스트 데이터도 활용할 수 있도록 기여하나, 다음과 같은 한계가 있다. 첫째, ATR 이미지 및 텍스트로부터 그래프 변환을 수행할 때 지식 그래프의 구조는 활용하지 않고 어휘 정보만을 활용하였다. 둘째, 최종 엔터티 얼라이먼트 과정에서 생성된 텍스트 및 이미지 그래프의 특징을 충분히 고려하지 않은 단일 모델을 활용하였다.

대상 데이터

국방 관련 데이터셋에 접근하는 것이 제한되어, 본 논문에서는 국방 ATR 환경과 가장 유사한 "2022년 3월 8일 북한 경비정의 국방한계선(NLL) 침범"과 관련된 기사 및 웹 문서를 ATR 텍스트 데이터로 수집하여 이를 실험 데이터셋으로 활용하였다
이를 위해, 기존 수집된 문서에서 같은 엔터티 명에 대해 설명한 문서를 위키피디아 및 네이버로부터 수집하였다. 또한, 마찬가지로 기존 지식 그래프에서도 같은 엔터티 명에 대한 RDF 집합을 DBpedia와 이 외의 리소스(Yago 혹은 freebase)로부터 수집하였다. 위와 같은 수집 과정으로 85개의 엔터티에 대한 학습 데이터셋을 구축하였다.
국방 관련 데이터셋에 접근하는 것이 제한되어, 본 논문에서는 국방 ATR 환경과 가장 유사한 "2022년 3월 8일 북한 경비정의 국방한계선(NLL) 침범"과 관련된 기사 및 웹 문서를 ATR 텍스트 데이터로 수집하여 이를 실험 데이터셋으로 활용하였다. 수집된 실험 데이터셋은 평균 단어 개수가 165.69개인 227개의 문서와 지식 그래프의 단위인 61,714개의 RDF(Resource Description Framework)로 구성되어 있다. 또한, 모든 텍스트 데이터는 기본적인 자연어에 대한 전처리를 수행하였다.
엔터티 정렬 방법의 우수성을 평가하기 위해서는 이음동의관계에 있는 문서 집합 및 지식 그래프 데이터가 필요하다. 이를 위해, 기존 수집된 문서에서 같은 엔터티 명에 대해 설명한 문서를 위키피디아 및 네이버로부터 수집하였다. 또한, 마찬가지로 기존 지식 그래프에서도 같은 엔터티 명에 대한 RDF 집합을 DBpedia와 이 외의 리소스(Yago 혹은 freebase)로부터 수집하였다.

데이터처리

Doc2vec의 파라미터로는 임베딩 벡터 크기 v와 윈도우 사이즈 w를 조정하였으며, 이를 doc2vec{v}/{w}로 표1에 나타낸다. Doc2vec는 고차원의 문서를 가장 효과적으로 저차원으로 투영하는 방법 중 하나이기 때문에 본 논문에서 제안한 co-word 그래프와의 우수성을 평가하기 위해 비교 방법으로 선정하였다. 또한, 분류 모델로 서로 접근법이 다른 SVM 및 KNN을 활용하여 분류 모델에 의한 영향을 함께 비교하였다.
두 번째 실험은 본 논문에서 제안한 co-word 그래프를 활용한 그래프 기반 엔터티 정렬 방법과 다른 방법과의 비교실험을 수행한다. 엔터티 정렬 방법의 우수성을 평가하기 위해서는 이음동의관계에 있는 문서 집합 및 지식 그래프 데이터가 필요하다.
위와 같은 수집 과정으로 85개의 엔터티에 대한 학습 데이터셋을 구축하였다. 제안한 방법과 비교 실험할 방법으로 doc2vec 기반의 문서 임베딩 기법과 비교하였다. Doc2vec의 파라미터로는 임베딩 벡터 크기 v와 윈도우 사이즈 w를 조정하였으며, 이를 doc2vec{v}/{w}로 표1에 나타낸다.
첫 번째 실험은 하이퍼파라미터 분석이다. 먼저, 하이퍼파라미터 α는 상위 TF-IDF 값을 갖는 어휘의 선택 비율로 생성되는 co-word 그래프 노드의 수 및 그래프의 크기와 연관이 있다.

이론/모형

실험 결과는 표 1과 같다. 비교 지표로는 정확도(acc), 재현율(recall), 및 f1-score를 활용했다.
제안된 방법에 대한 보다 상세한 내용은 다음과 같다. 이미지 및 텍스트 데이터를 그래프 구조로 변환하기 위해, 데이터 유형에 적합한 사전 학습된 딥러닝 모델과 지식 그래프를 활용한다. 이때, 사전 학습된 딥러닝 모델은 비정형화 된 이미지 및 텍스트 데이터로부터 객체 태그 (object tag)나 핵심 단어와 같은 정보를 추출하여 정형화된 구조의 그래프를 생성하는데 필요한 핵심 정보를 해석하기 위해 활용한다.
연속적으로 ρ회 이상 새로 학습된 NER 모델의 성능이 기존보다 좋지 않다면 학습 과정을 종료한다. 최종적으로, 국방 분야에 적합한 Military-specific NER 모델을 획득한다.

성능/효과

실험 결과 모든 지표에서 제안한 모델이 가장 좋은 성능을 나타냄을 알 수 있다. 특히, KNN 모델을 활용한 경우 doc2vec의 어떠한 파라미터에서도 낮은 성능을 나타냈다.

후속연구

둘째, 최종 엔터티 얼라이먼트 과정에서 생성된 텍스트 및 이미지 그래프의 특징을 충분히 고려하지 않은 단일 모델을 활용하였다. 이러한 한계를 극복하기 위해, 추후연구에서 서로 다른 리소스로부터 발생한 그래프를 일반화된 방법으로 얼라이먼트할 수 있는 그래프 뉴럴 네트워크 모델이나 이의 구조를 지식 그래프와 유사하게 변환하여 얼라이먼트의 성능을 간접적으로 향상시키는 그래프 샘플링 방법에 대해 연구를 수행할 계획이다.

참고문헌 (14)

Matsumurr, J., et al., "Exploring advanced technologies for the future combat systems program," RAND ARROYO CENTER SANTA MONICA CA, 2002. https://doi.org/10.7249/mr1332
Huang, Z., Z. Pan, and B. Lei, "What, where, and how to transfer in SAR target recognition based on deep CNNs,"IEEE Transactions on Geoscience and Remote Sensing, 58(4), p. 2324-2336, 2019. https://doi.org/10.1109/tgrs.2019.2947634

상세보기
Mithun, N.C., et al., "Webly supervised joint embedding for cross-modal image-text retrieval," in Proceedings of the 26th ACM international conference on Multimedia, 2018. https://doi.org/10.1145/3240508.3240712
Wang, H., et al., "Consensus-aware visual-semantic embedding for image-text matching," in European Conference on Computer Vision, Springer, 2020. https://doi.org/10.1007/978-3-030-58586-0_2
Shi, B., et al., "Knowledge Aware Semantic Concept Expansion for Image-Text Matching," in IJCAI, 2019. https://doi.org/10.24963/ijcai.2019/720
Kim, S., W.-J. Song, and S.-H. Kim, "Double weight-based SAR and infrared sensor fusion for automatic ground target recognition with deep learning," Remote Sensing, 10(1), p. 72, 2018. https://doi.org/10.3390/rs10010072

상세보기
Xu, C., et al., "An Optimal Faster-RCNN Algorithm for Intelligent Battlefield Target Recognition," in 2020 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA), IEEE, 2020. https://doi.org/10.1109/icaica50127.2020.9181857
Zheng, Z., et al., "Dual-path convolutional image-text embeddings with instance loss," ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 16(2), p. 1-23, 2020. https://doi.org/10.1145/3383184

상세보기
Sakla, W., G. Konjevod, and T.N. Mundhenk, "Deep multi-modal vehicle detection in aerial ISR imagery," in 2017 IEEE Winter Conference on Applications of Computer Vision (WACV), IEEE, 2017. https://doi.org/10.1109/wacv.2017.107
Zhang, D., et al., "Multi-modal graph fusion for named entity recognition with targeted visual guidance," in Proceedings of the AAAI Conference on Artificial Intelligence, 2021. https://doi.org/10.1609/aaai.v35i16.17687

상세보기
Lang, C., A. Braun, and A. Valada, "Contrastive object detection using knowledge graph embeddings," Computer Vision and Pattern Recognition, 2021. https://doi.org/10.48550/arXiv.2112.11366
Birant, D. and A. Kut, "ST-DBSCAN: An algorithm for clustering spatial-temporal data," Data & knowledge engineering, 60(1), p. 208-221, 2007. https://doi.org/10.1016/j.datak.2006.01.013

상세보기
Yan, H., et al., "TENER: adapting transformer encoder for named entity recognition," Computation and Language, 2019. https://doi.org/10.48550/arXiv.1911.04474
Jo, S.-H., et al., "A study on building knowledge base for intelligent battlefield awareness service," Journal of the Korea Society of Computer and Information, 25(4), p. 11-17, 2020. https://doi.org/10.9708/jksci.2020.25.04.011

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증