[논문]Bi-GRU 이미지 캡션의 서술 성능 향상을 위한 Parallel Injection 기법 연구

이준희; 이수환; 태수호; 서동환

doi:10.9717/kmms.2019.22.11.1223

Bi-GRU 이미지 캡션의 서술 성능 향상을 위한 Parallel Injection 기법 연구
Parallel Injection Method for Improving Descriptive Performance of Bi-GRU Image Captions 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.11, 2019년, pp.1223 - 1232

이준희 (Dept. of Electrical and Electronics Engineering, Korea Maritime and Ocean University) , 이수환 (Dept. of Electrical and Electronics Engineering, Korea Maritime and Ocean University) , 태수호 (Dept. of Electrical and Electronics Engineering, Korea Maritime and Ocean University) , 서동환 (Div. of Electronics and Electrical Information Engineering, Korea Maritime and Ocean University)

Abstract ▼ AI-Helper

The injection is the input method of the image feature vector from the encoder to the decoder. Since the image feature vector contains object details such as color and texture, it is essential to generate image captions. However, the bidirectional decoder model using the existing injection method only inputs the image feature vector in the first step, so image feature vectors of the backward sequence are vanishing. This problem makes it difficult to describe the context in detail. Therefore, in this paper, we propose the parallel injection method to improve the description performance of image captions. The proposed Injection method fuses all embeddings and image vectors to preserve the context. Also, We optimize our image caption model with Bidirectional Gated Recurrent Unit (Bi-GRU) to reduce the amount of computation of the decoder. To validate the proposed model, experiments were conducted with a certified image caption dataset, demonstrating excellence in comparison with the latest models using BLEU and METEOR scores. The proposed model improved the BLEU score up to 20.2 points and the METEOR score up to 3.65 points compared to the existing caption model.

주제어

표/그림 (4)

그림 Fig. 1. Proposed Image caption model.
그림 Fig. 2. Decrease of image vector size due to caption generation.
표 Table 1. BLEU and METEOR score for each model in the data set
그림 Fig. 3. Sample of the subtitle generated by the model. (a) A boy in blue, (b) A blond woman, (c) A group of people, and (d) Four young kids.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 이미지 특징 벡터의 소멸로 인한 문장 구조의 파괴와 이미지의 내용과는 전혀 다른 문장이 생성되는 문맥적인 오류를 최소화하기 위한 캡션 모델을 제안한다. 제안하는 이미지 캡션모델은 기존의 연구들과 달리 임베딩 레이어에 계속 이미지 특징 벡터를 입력하는 Parallel Injection 방식을 사용하며, 양방향 구조를 통해 이미지 특징 벡터 소실 문제를 최소화한다.
본 논문에서는 문장 표현력을 향상시키고 이미지 특징 벡터의 소멸을 방지할 수 있는 Parallel Injection 기법과 문맥에 맞는 문장의 순서를 생성하는 Bi-GRU을 적용한 디테일한 이미지 캡션 모델을 제안하였다. Parallel Injection 기법을 사용한 제안한 모델은 RNN의 재귀과정에서 이미지 특징 벡터의 소멸을 방지하기 위하여 이미지 특징 벡터를 단어 벡터와 융합하여 반복적으로 삽입해주어 문장 구성 요소 누락을 방지한다.
본 연구는 더블 임베딩 및 멀티모달을 적용한 m-RNN[18]과 Bi-RNN 구조를 사용한 Repeated review[19]의 문제점을 개선한다. 제안한 모델은 LSTM을 간소화한 Gated Recurrent Unit(GRU)[21]를 적용하고 양방향 RNN 구조에 최적화된 임베딩 및 모달 레이어에 이미지 특징 벡터를 입력해주는 Parallel Injection 방식을 통해 구문적 오류뿐만 아니라 문맥적 오류를 최소화하는 이미지 캡션 모델을 설계하였다.

제안 방법

본 논문에서는 문장 표현력을 향상시키고 이미지 특징 벡터의 소멸을 방지할 수 있는 Parallel Injection 기법과 문맥에 맞는 문장의 순서를 생성하는 Bi-GRU을 적용한 디테일한 이미지 캡션 모델을 제안하였다. Parallel Injection 기법을 사용한 제안한 모델은 RNN의 재귀과정에서 이미지 특징 벡터의 소멸을 방지하기 위하여 이미지 특징 벡터를 단어 벡터와 융합하여 반복적으로 삽입해주어 문장 구성 요소 누락을 방지한다. 또한 양방향에서 획득하는 어휘 및 이미지 특징을 이용하는 Bi-GRU으로 디코더를 구성하여 문맥에 맞는 문장의 순서를 학습한다.
하지만 멀티모달 방식은 RNN에 이미지 특징 벡터가 입력되지 않기 때문에 성능향상이 크지 않다. 따라서 본 연구에서는 Parallel Injection 방식과 함께 Multimodal 레이어의 이미지 특징 벡터를 최종 캡션 생성에서 사용함으로써 이미지 전체특징을 고려한 캡션을 생성 할 수 있도록 하였다.
[19]은 멀티모달뿐만 아니라 임베딩 레이어도 이미지 특징을 피드백하여 문장의 생성 과정에서 이미지 특징 벡터 소멸을 개선하였다. 또한 Bidirectional Recurrent Neural Network(Bi-RNN) 구조[20]를 바탕의 LSTM 레이어를 통해 양방향의 문장 특성을 고려하였다. 하지만 이 모델은 RNN의 첫 순간에만 이미지 특징 벡터가 입력되는 Prefix Injection 방식을 적용했기 때문에 역방향 RNN에는 이미지 특징 벡터가 전달되지 않아 Bi-RNN 구조에 최적화 되지 않았다.
Parallel Injection 기법을 사용한 제안한 모델은 RNN의 재귀과정에서 이미지 특징 벡터의 소멸을 방지하기 위하여 이미지 특징 벡터를 단어 벡터와 융합하여 반복적으로 삽입해주어 문장 구성 요소 누락을 방지한다. 또한 양방향에서 획득하는 어휘 및 이미지 특징을 이용하는 Bi-GRU으로 디코더를 구성하여 문맥에 맞는 문장의 순서를 학습한다. 이 둘을 결합하여 기존의 Bi-RNN에 최적화 되어있지 않은 기존의 Injection 방식을 개선하여 이미지 및 문장 의 순서, 문장의 표현력을 모두 고려한 디테일한 캡션을 생성한다.
또한 양방향에서 획득하는 어휘 및 이미지 특징을 이용하는 Bi-GRU으로 디코더를 구성하여 문맥에 맞는 문장의 순서를 학습한다. 이 둘을 결합하여 기존의 Bi-RNN에 최적화 되어있지 않은 기존의 Injection 방식을 개선하여 이미지 및 문장 의 순서, 문장의 표현력을 모두 고려한 디테일한 캡션을 생성한다. 제안하는 모델은 BLEU와 METEOR 점수를 통해 모델의 성능을 객관적으로 비교하였고 기존의 캡션 모델에 비해 BLEU 점수는 최대 20.
따라서 인코더는 하위 레이어의 특징을 추출할 필요가 있다. 제안하는 이미지 캡션 모델은 부분적인 공간 영역에 대한 객체 및 이미지의 정보가 포함되어 있는 완전연결 레이어에서 이미지 특징을 추출하여 이미지 캡션에 사용한다. 완전연결 레이어에서 캡션에 사용되는 이미지 특징을 추출하기 위해서는 이미지에 주어진 캡션과 어휘의 크기를 사용하여 이미지와 대응하는 차원으로 캡션을 정리하는 과정이 필요하다.
제안하는 이미지 캡션 모델의 타당성을 검증하기 위해 Google NIC[16], Hard Attention[17], m-RNN[18], Repeated Review[19]과 제안한 모델에 대하여 자연어 처리 분야에서 대표적으로 사용되는 Bi-Lingual Evaluation Understudy(BLEU)[25], Metric for Evaluation of Translation with Explicit ORdering(METEOR)[26] 기반 성능지표를 기준으로 평가하였으며, 실험 결과는 Table 1과 같이 나타난다. Flickr 8K 경우 BLEU-3에서 Repeated Review에 비해 점수가 낮지만 BLEU-4에서 다른 모델들에 비해 높은 점수를 가져 캡션 성능이 우수한 것을 객관적으로 확인 가능하다.
따라서 본 논문에서는 이미지 특징 벡터의 소멸로 인한 문장 구조의 파괴와 이미지의 내용과는 전혀 다른 문장이 생성되는 문맥적인 오류를 최소화하기 위한 캡션 모델을 제안한다. 제안하는 이미지 캡션모델은 기존의 연구들과 달리 임베딩 레이어에 계속 이미지 특징 벡터를 입력하는 Parallel Injection 방식을 사용하며, 양방향 구조를 통해 이미지 특징 벡터 소실 문제를 최소화한다. 또한 경사 소실 문제에 강건하고 적은 연산을 필요로 하는 GRU를 적용하여 모든 RNN 노드에 이미지 특징 벡터가 입력되어 경사 소실로 인한 이미지 특징 벡터 소실을 막을 수 있다.
본 연구는 더블 임베딩 및 멀티모달을 적용한 m-RNN[18]과 Bi-RNN 구조를 사용한 Repeated review[19]의 문제점을 개선한다. 제안한 모델은 LSTM을 간소화한 Gated Recurrent Unit(GRU)[21]를 적용하고 양방향 RNN 구조에 최적화된 임베딩 및 모달 레이어에 이미지 특징 벡터를 입력해주는 Parallel Injection 방식을 통해 구문적 오류뿐만 아니라 문맥적 오류를 최소화하는 이미지 캡션 모델을 설계하였다.

대상 데이터

또한 Flickr 8K의 확장된 데이터세트인 Flickr 30K는 30,000장의 이미지를 제공하며 검증 및 테스트에 사용하기 위해 동일한 비율로 구성한다. 마지막으로 MS-COCO 데이터세트는 82,783개의 교육 이미지와 40,504개의 검증 이미지가 포함되어 있다. 또한 학습을 진행하기 이전에 데이터세트에서 5회 미만으로 등장하는 단어를 포함한 캡션은 학습 및 검증 데이터에서 배제하도록 전처리 과정을 거친다.
제안된 이미지 캡션 모델은 공인된 Flickr 8K[22],Flickr 30K[23]와 MS-COCO[24] 데이터세트를 사용하여 학습 및 검증을 진행하였다. 실험은 Flickr에서 추출한 8,000장의 이미지로 구성된 Flickr 8K를 학습 및 검증, 테스트를 진행하기 위해 각각 6,000장,1,000장, 1,000장을 사용한다. 또한 Flickr 8K의 확장된 데이터세트인 Flickr 30K는 30,000장의 이미지를 제공하며 검증 및 테스트에 사용하기 위해 동일한 비율로 구성한다.
제안된 이미지 캡션 모델은 공인된 Flickr 8K[22],Flickr 30K[23]와 MS-COCO[24] 데이터세트를 사용하여 학습 및 검증을 진행하였다. 실험은 Flickr에서 추출한 8,000장의 이미지로 구성된 Flickr 8K를 학습 및 검증, 테스트를 진행하기 위해 각각 6,000장,1,000장, 1,000장을 사용한다.
제안하는 모델의 구성은 인코더, 임베딩, Bi-RNN과 멀티모달 레이어로 구성된다. Fig.
1의 좌측 인코더가 이 부분을 나타낸다. 제안하는 모델의 인코더는 ImageNet에서 우수한 성능을 보인 Inception V3[12]를 사용한다. 인코더는 기존의 ImageNet 데이터세트를 이용하여 선학습 되어있는 가중치지도를 이용한다.

이론/모형

이 방식을 통해 문장 생성의 정확도는 향상되었으나 역방향 RNN에는 영향을 주지 않기 때문에 캡션 생성 정확도 향상이 제한적이다. 따라서 본 논문에서는 모든 임베딩 레이어에 이미지 특징 벡터 a를 삽입하여 Bi-RNN 구조에 최적화된 Parallel Injection 방식을 사용한다. Parallel Injection 방식은 인코더에서 획득한 2개의 벡터를 융합하여 단어 벡터와 이미지 벡터가 지속적으로 디코더에 주입한다.

성능/효과

BLEU와 METEOR 점수의 결과를 통해 제안하는 모델은 Parallel Injection 기법을 통해 캡션 생성 과정에서 발생하는 이미지 특징 벡터의 소멸을 방지함으로써 이미지 자체가 가지는 정보를 기존의 모델에 비해 풍부하게 획득할 수 있으며, 일반적인 RNN이 아닌 Bi-GRU로 디코더를 구성함으로써 이전 및 이후 단어의 영향을 고려하여 캡션 생성 과정에서 전체 문맥에 맞춰 현재의 단어들을 수용하는 것을 알 수 있다. Fig.
Flickr 8K 경우 BLEU-3에서 Repeated Review에 비해 점수가 낮지만 BLEU-4에서 다른 모델들에 비해 높은 점수를 가져 캡션 성능이 우수한 것을 객관적으로 확인 가능하다. 또한 Flickr 30K의 경우 전체적으로 제안하는 모델의 성능이 우수하며 MS-COCO의 경우에는 BLEU-1을 제외하면 다른 모델에 비해 점수가 낮지만 캡션 문장의 표현력을 구조적으로 분석하는 METEOR 점수를 통해 본 모델이 사람의 표현과 유사하게 표현되는 것을 알 수 있다. 실험 결과를 통해 구문의 존재를 판별하는 BLEU-2에서 4까지는 임베딩 레이어 Injection 방식을 적용하는 2개의 모델 모두 우수하게 나왔으나, 이미지 특징 벡터 소실로 인한 단어의 유무를 판단할 수 있는 BLEU-1 과 문맥적 특징을 분석하는 METEOR 점수는 제안한 Parallel Injection 방식이 기존의 다른 방식들에 비해 우수한 성능을 가지는 것을 나타낸다.
본 모델에서 사용하는 Parallel Injection 방식은 단어 벡터가 입력으로 사용될 때 이미지 벡터도 함께 입력되기 때문에 캡션 생성 과정에서 이미지 벡터가 계속 공급되어 벡터의 크기가 증감을 반복하는 모습을 보이며 캡션의 길이가 늘어나도 전체적인 벡터의 크기 감소가 다른 방식들에 비해 일정한 것을 알 수 있다.
또한 경사 소실 문제에 강건하고 적은 연산을 필요로 하는 GRU를 적용하여 모든 RNN 노드에 이미지 특징 벡터가 입력되어 경사 소실로 인한 이미지 특징 벡터 소실을 막을 수 있다. 본 모델은 이를 통해 이미지 캡션 모델에서 발생하는 구문적 오류를 줄여 정확도를 높이며, 이미지에 대한 상위 수준의 의미전달이 가능한 상세한 캡션이 가능하다. 또한 이전 단어뿐만 아니라 이후에 나오는 단어도 학습하여 배치를 고려하므로 문맥적 오류가 적은 캡션 표현이 가능하다.
또한 Flickr 30K의 경우 전체적으로 제안하는 모델의 성능이 우수하며 MS-COCO의 경우에는 BLEU-1을 제외하면 다른 모델에 비해 점수가 낮지만 캡션 문장의 표현력을 구조적으로 분석하는 METEOR 점수를 통해 본 모델이 사람의 표현과 유사하게 표현되는 것을 알 수 있다. 실험 결과를 통해 구문의 존재를 판별하는 BLEU-2에서 4까지는 임베딩 레이어 Injection 방식을 적용하는 2개의 모델 모두 우수하게 나왔으나, 이미지 특징 벡터 소실로 인한 단어의 유무를 판단할 수 있는 BLEU-1 과 문맥적 특징을 분석하는 METEOR 점수는 제안한 Parallel Injection 방식이 기존의 다른 방식들에 비해 우수한 성능을 가지는 것을 나타낸다.
이 둘을 결합하여 기존의 Bi-RNN에 최적화 되어있지 않은 기존의 Injection 방식을 개선하여 이미지 및 문장 의 순서, 문장의 표현력을 모두 고려한 디테일한 캡션을 생성한다. 제안하는 모델은 BLEU와 METEOR 점수를 통해 모델의 성능을 객관적으로 비교하였고 기존의 캡션 모델에 비해 BLEU 점수는 최대 20.2점,METEOR 점수는 최대 3.65점이 향상되어 제안한 모델의 우수함을 보였다. 이 연구를 통하여 향후 영상의학 및 법영상 분야의 수준 높은 데이터세트가 구축되고 이를 학습한다면 해당 분야에 필요한 캡션을 생성함으로써 이미지의 자동 주석이나, 사용자의 질문에 대한 간단한 답변 표현에 적용이 가능 할 것으로 기대된다.
또한 Multimodal Injection 방식도 동일하게 적용하여 이미지의 세부적인 특징이나 다중 객체가 등장하는 경우, 객체에 대한 설명이 누락되는 경우를 방지한다. 제안하는 모델은 이 두 방식을 통해 이미지에 포함된 작은 객체에 대해서도 문장표현이 가능하며 전체 이미지의 상황에 대한 고려도 가능하다.
(c)에서는 NIC의 경우 단일객체에 대한 표현에 이미지 특징을 모두 소모하여 제일 처음에 나오는 자전거를 타는 사람의 헬멧과 같은 세부적인 특징은 캡션에 등장하지만 다른 사람들은 표현되지 않는다. 제안하는 모델은 자전거를 타는 사람과 쓰레기봉투 및 환경에 대한 표현까지 세밀한 캡션 생성이 가능한 것을 확인 할 수 있다.
(d)는 4명의 어린이가 공중에 떠 있는 이미지로 NIC는 캡션 표현이 이미지의 내용과는 전혀 다른 문맥적 오류가 발생하며, Hard attention의 경우 학습데이터의 원반던지기와 관련된 이미지에서 사람 또는 강아지가 공중에 떠 있는 장면이 많아 원반던지기를 하는 상황이라는 캡션을 출력한다. 제안하는 모델은 정확하게 4명의 어린이가 공중에 점프하고 있는 상황을 캡션으로 출력함으로써 모델의 캡션 표현이 전체 이미지의 특징 및 특징 소멸에 강인함을 보여준다.
(b)에서는 다른 3개의 모델에서는 여자 옷에 대한 색 표현이 캡션에 등장하지 않고, 현재 이미지의 환경에 대한 표현도 등장하지 않는다. 제안한 모델은 여성의 옷의 색과 현재 이미지의 환경이 도로에서 발생하는 것까지 정확하게 표현함으로써 세밀한 이미지 특징을 사용하는 것을 확인 할 수 있다.
(a)에서 Injection 방식을 적용하지 않은 NIC와 Hard attention은 보드를 타는 사람에 대해서는 표현이 잘 진행되고 있으나, 옆에 있는 사람에 대해서는 캡션 생성과정에서 이미지 특징 벡터의 소멸로 인해 캡션에 등장하지 않는다. 특히 제안한 모델은 Parallel Injection 방식으로 인해 세밀한 특징이 남아있어 오히려 기준 캡션에 비해 벤치에 앉아있다는 표현과 같이 더 세밀한 묘사를 하는 것을 확인할 수 있다.

후속연구

65점이 향상되어 제안한 모델의 우수함을 보였다. 이 연구를 통하여 향후 영상의학 및 법영상 분야의 수준 높은 데이터세트가 구축되고 이를 학습한다면 해당 분야에 필요한 캡션을 생성함으로써 이미지의 자동 주석이나, 사용자의 질문에 대한 간단한 답변 표현에 적용이 가능 할 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	인코더디코더 모델은 어떠한 기술인가?	최근의 높은 성과를 내는 딥러닝 기반 이미지 캡션 모델은 인코더-디코더 구조로 설계된다. 인코더디코더 모델은 이미지 내의 객체를 인식하는 객체인식 기법과 단어를 통해 문장으로 재배치하는 자연어 처리 기법이 결합된 기술이다.
	최근의 이미지 캡션 기술은 어떠한 모델을 적용하는가?	최근의 이미지 캡션 기술은 주어진 이미지를 문장으로 변형하기 위해 이미지에서 특징을 획득하는 Convolutional Neural Network(CNN)로 구성된 인코더와 단어를 문장으로 재배치하는 RecurrentNeural Network(RNN)로 구성된 디코더를 가지는 인코더-디코더 모델을 적용한다. 이러한 접근법은 이미지의 객체를 바탕으로 문장을 생성 가능하지만 RNN 기반 디코더의 한계인 경사 소실 문제와 이미지 특징 벡터 소실 문제로 인해 문장의 길이가 길어질수록 문장 구조가 파괴되기 쉽다.
	본 논문에서의 Bi-GRU을 적용한 디테일한 이미지 캡션 모델은 기존 모델보다 얼마나 향상되었는가?	이 둘을 결합하여 기존의 Bi-RNN에 최적화 되어있지 않은 기존의 Injection 방식을 개선하여 이미지 및 문장의 순서, 문장의 표현력을 모두 고려한 디테일한 캡션을 생성한다. 제안하는 모델은 BLEU와 METEOR 점수를 통해 모델의 성능을 객관적으로 비교하였고 기존의 캡션 모델에 비해 BLEU 점수는 최대 20.2점, METEOR 점수는 최대 3.65점이 향상되어 제안한 모델의 우수함을 보였다. 이 연구를 통하여 향후 영상의학 및 법 영상 분야의 수준 높은 데이터세트가 구축되고 이를 학습한다면 해당 분야에 필요한 캡션을 생성함으로써 이미지의 자동 주석이나, 사용자의 질문에 대한 간단한 답변 표현에 적용이 가능 할 것으로 기대된다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증