Image-text matching은 이미지와 텍스트의 연결고리 역할을 하기 때문에 관심도가 증가하고 있다. 이러한 작업에는 cross-modal 검색(즉, 시각적 질의가 주어지면 해당되는 텍스트를 검색하거나, 반대로 언어적 질의가 주어지면 해당되는 이미지를 검색하는 작업)이 포함된다. 이 분야의 핵심은 이미지와 텍스트 사이의 유사성을 어떻게 학습하는지에 달려있다. 본 논문에서는 Image-text matching 작업에서 이미지 및 텍스트 사이의 동적 정보를 교대로 전달하는 intra-modal과 inter-modal 정보 흐름을 가진 Dynamic ...
Image-text matching은 이미지와 텍스트의 연결고리 역할을 하기 때문에 관심도가 증가하고 있다. 이러한 작업에는 cross-modal 검색(즉, 시각적 질의가 주어지면 해당되는 텍스트를 검색하거나, 반대로 언어적 질의가 주어지면 해당되는 이미지를 검색하는 작업)이 포함된다. 이 분야의 핵심은 이미지와 텍스트 사이의 유사성을 어떻게 학습하는지에 달려있다. 본 논문에서는 Image-text matching 작업에서 이미지 및 텍스트 사이의 동적 정보를 교대로 전달하는 intra-modal과 inter-modal 정보 흐름을 가진 Dynamic Attention Network(DMAN) 모델을 제안하고자 한다. 이 모델을 사용하면 이미지와 텍스트 사이에서 높은 수준의 문맥적 상호작용을 포착할 수 있기 때문에 image-text matching에서의 성능향상을 기대할 수 있다. 본 논문에서는 교차모달 검색을 통해 성능비교를 하기 위해 Flickr30K와 MS-COCO라는 두 가지 이미지, 텍스트 검색 데이터에 대해서 실험을 진행하였고, 그 결과 기존의 모델과 비교하여 성능 향상을 확인하였다.
Image-text matching은 이미지와 텍스트의 연결고리 역할을 하기 때문에 관심도가 증가하고 있다. 이러한 작업에는 cross-modal 검색(즉, 시각적 질의가 주어지면 해당되는 텍스트를 검색하거나, 반대로 언어적 질의가 주어지면 해당되는 이미지를 검색하는 작업)이 포함된다. 이 분야의 핵심은 이미지와 텍스트 사이의 유사성을 어떻게 학습하는지에 달려있다. 본 논문에서는 Image-text matching 작업에서 이미지 및 텍스트 사이의 동적 정보를 교대로 전달하는 intra-modal과 inter-modal 정보 흐름을 가진 Dynamic Attention Network(DMAN) 모델을 제안하고자 한다. 이 모델을 사용하면 이미지와 텍스트 사이에서 높은 수준의 문맥적 상호작용을 포착할 수 있기 때문에 image-text matching에서의 성능향상을 기대할 수 있다. 본 논문에서는 교차모달 검색을 통해 성능비교를 하기 위해 Flickr30K와 MS-COCO라는 두 가지 이미지, 텍스트 검색 데이터에 대해서 실험을 진행하였고, 그 결과 기존의 모델과 비교하여 성능 향상을 확인하였다.
Image-text matching problem is a link between image and text, so it has attracted great interest in the past decades. Tasks in Image-text matching include cross-modal retrieval (, image search for given sentences with visual descriptions and the retrieval of sentences from image queries.). The key t...
Image-text matching problem is a link between image and text, so it has attracted great interest in the past decades. Tasks in Image-text matching include cross-modal retrieval (, image search for given sentences with visual descriptions and the retrieval of sentences from image queries.). The key to this study depends on how we learn the similarity between images and texts. In this paper, we propose a Dynamic Attention Network (DMAN) with Intra-modal and inter-modal information flow that alternately delivers dynamic information between images and texts in cross-modal task. DMAN can capture high level of contextual interaction between images and texts, so we expect to improve performance in cross-modal retrieval. In this study, two data such as Flickr30K and MS-COCO were experimented to compare performance through cross-modal retrieval, and as a result, performance improvement was confirmed compared with other models.
Image-text matching problem is a link between image and text, so it has attracted great interest in the past decades. Tasks in Image-text matching include cross-modal retrieval (, image search for given sentences with visual descriptions and the retrieval of sentences from image queries.). The key to this study depends on how we learn the similarity between images and texts. In this paper, we propose a Dynamic Attention Network (DMAN) with Intra-modal and inter-modal information flow that alternately delivers dynamic information between images and texts in cross-modal task. DMAN can capture high level of contextual interaction between images and texts, so we expect to improve performance in cross-modal retrieval. In this study, two data such as Flickr30K and MS-COCO were experimented to compare performance through cross-modal retrieval, and as a result, performance improvement was confirmed compared with other models.
주제어
#딥 러닝 멀티모달검색 어텐션기법 Deep learning Multi-modal retrieval Attention algorithm
학위논문 정보
저자
김영동
학위수여기관
중앙대학교 대학원
학위구분
국내석사
학과
통계학과 통계학전공
지도교수
임창원
발행연도
2021
총페이지
iv, 29장
키워드
딥 러닝 멀티모달검색 어텐션기법 Deep learning Multi-modal retrieval Attention algorithm
※ AI-Helper는 부적절한 답변을 할 수 있습니다.