[논문]이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이

김동하; 김인철

문제 정의

하지만 이미지 캡션 생성을 위한 멀티 모달 순환신경망 모델에 관한 몇 가지 중요한 질문들은 아직 명확히 해결되지 않은 상태로 남아 있다. 그중 첫 번째 질문은 시각 모델과 언어 모델의 결합 방식에 관한 것으로서, 이미지의 시각 정보를 추출하는 컨볼루션 신경망(CNN)의 출력을 캡션 문장 생성을 위한 순환 신경망(RNN)에 어떤 방식으로 연결할 것인가이다. 기존 연구들에서는 이미지에서 추출한 시각 정보들을 언어 모델이 처음 시작되는 임베딩 층(embedding layer)에만 연결하는 방식과 이들을 캡션 문장 생성을 위한 매 단계에서 이용할 수 있도록 멀티 모달 층(multimodal layer)에도 연결하는 두 가지 방식이 시도되었다.
본 논문에서는 앞서 언급한 질문들에 답하기 위해, 효과적인 이미지 캡션 생성을 위한 멀티 모달 순환 신경망 모델을 제시한다. 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛들로 순환 신경망 층(RNN layer)을 구성하며, 컨볼루션 신경망 층(CNN layer)을 통해 추출되는 시각 정보들을 매번 다음 단계 캡션 단어를 예측하는데 이용할 수 있도록 임베딩 층(embedding layer)뿐만 아니라 멀티 모달 층(multimodal layer)에도 연결하는 구조를 가진다.
본 논문에서는 이미지 캡션 생성에 효과적인 심층 신경망 모델을 제시하였다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 순환 신경망 층(RNN layer)은 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛들로 구성되며,시각 정보를 제공하는 컨볼루션 신경망 층(CNN layer)의출력은 임베딩 층(embedding layer)과 멀티 모달 층(multimodal layer)에 모두 연결되는 구조를 가진다.

제안 방법

첫 번째 실험에서는 (그림 3)의 (a)와 (b)에 제시된 서로 다른 시각 정보 연결 구조와 LSTM, GRU 등 서로 다른 순환 신경망 유닛에 따른 캡션의 정확도와 모델 학습 시간을 비교해 보았다. <표 1>, <표 2>, <표 3>은 시각 정보 연결 구조 {(a), (b)}와 유닛 종류 {GRU, LSTM}의서로 다른 네 가지 조합들에 따른 캡션 정확도(caption accuracy)를 평가한 실험 결과를 나타낸다.
두 번째 실험에서는 Flick8k, Flickr30k, MSCOCO 등 서로 다른 데이터 집합들을 이용하여, LSTM 유닛과 GRU 유닛을 채용한 멀티 모달 순환 신경망 모델들 간의 모델 전이 효과를 분석해보았다. <표 5>와 <표 6>는 모델 학습을 위한 훈련 데이터 집합과 캡션 생성을 위한 테스트 데이터 집합의 서로 다른 조합들에 대해, 각각 GRU 유닛과 LSTM 유닛의 모델 전이 실험 결과를 나타낸다.
하지만 비교적 단순한 내부 구조로 인해 캡션 생성 모델의 정확도는 LSTM 유닛에 비해 낮을 것으로 예상한다. 따라서 본 논문의 멀티 모달 순환 신경망 모델에서는 학습 시간 면에서 약간 유리한 GRU 유닛 대신 캡션 생성 모델의 정확도가 높은 LSTM유닛을 선택하였다.
본 논문에서는 (그림 2)와 같이 이미지 캡션 생성을 위해 크게 두 가지 유형의 신경망들을 포함한 이미지 캡션 생성 모델을 사용한다. 그 중 하나는 이미지의 시각 모델을 학습하는 컨볼루션 신경망(CNN)이고, 다른 하나는 캡션의 언어 모델을 학습하는 순환 신경망(RNN)이다.
본 논문에서는 제안하는 이미지 캡션 자동 생성을 위한 멀티 모달 순환 신경망 모델은 (그림 3)과 같이 서로 다른 시각 정보 연결 구조를 가질 수 있다.
본 논문에서는 앞서 언급한 질문들에 답하기 위해, 효과적인 이미지 캡션 생성을 위한 멀티 모달 순환 신경망 모델을 제시한다. 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛들로 순환 신경망 층(RNN layer)을 구성하며, 컨볼루션 신경망 층(CNN layer)을 통해 추출되는 시각 정보들을 매번 다음 단계 캡션 단어를 예측하는데 이용할 수 있도록 임베딩 층(embedding layer)뿐만 아니라 멀티 모달 층(multimodal layer)에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등 서로 다른 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해,본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증한다.
<표 4>는 시각 정보 연결 구조 {(a), (b)}와 유닛 종류{GRU, LSTM}의 서로 다른 네 가지 조합들에 따른 모델 학습 시간(model learning time)들을 비교 실험한 결과들을 나타낸다. 본 실험에서 모델 학습 시간은 각 모델의 에러 함수 값이 2.3 이하로 감소할 때까지 학습에 소요된 시간을 측정하였다. 실험 결과, (a) 연결 구조와 GRU 유닛의 조합이 가장 짧은 학습 시간을 소모하였다.
Lee의 연구[5]에서는 Mao의 모델에 언어 모델 부분의 연결 구조를 다양화한 확장형 멀티 모달 순환 신경망 모델을 제안하였다. 이 모델에서는 순환 신경망 층(RNN layer)의 구성을 위해 GRU 유닛들을 이용하였고,컨볼루션 신경망 층(CNN layer)의 출력인 이미지 시각 정보는 멀티 모달 층(multimodal layer)에 공급하는 연결 구조를 사용하였다.
Mao의 연구[4]에서는 보다 언어 모델을 강화하기 위한 멀티 모달 순환 신경망(multimodal RNN) 모델을 제시하였다. 이 모델에서는 시각 모델 학습을 위한 컨볼루션 신경망 층(CNN layer)외에 언어 모델 학습을 위한 두 개의 임베딩 층(embedding layer)과 하나의 순환 신경망 층(RNN layer)을 두었고, 언어 모델과 시각 모델의 결합을 위한 별도의 멀티 모달 층(multimodal layer)을 두었다. 이 모델에서 순환 신경망 층은 확장형 단순 순환 신경망 유닛들로 구성하였다.
Vinyals의 연구[2]에서는 기계 번역에 효과적으로 사용된 한 쌍의 인코더 순환 신경망(encoder RNN)과 디코더 순환 신경망(decoder RNN) 구성에 영감을 얻어, 이미지 캡션 생성을 위한 새로운 심층 신경망 모델을 제시하였다. 이 모델에서는 인코더 순환 신경망 대신, 주로 영상 분류와 물체 인식 등에 적용되어 오던 컨볼루션 신경망(CNN)을 이미지 캡션 생성을 위한 이미지 인코더(image encoder)로 사용하는 방식을 채택하였다. 그리고 이 디코더 순환 신경망을 LSTM 유닛들로 구성하였으며, 컨볼루션 신경망(CNN)을 통해 추출된 이미지의 시각 정보들은 디코더 순환 신경망(decoder RNN)의 첫 단계 입력으로만 제공하는 연결 구조를 가지고 있다.
한편, Vinyals의 모델을 확장한 Xu의 연구[3]에서는 이미지에서 주목할 중요한 관심 영역들(attention)을 먼저 찾아내고, 이들을 토대로 이미지 캡션을 생성하는 순환 신경망 모델을 제안하였다. 이 모델에서도 이미지로부터 시각 특징을 추출하기 위해서는 컨볼루션 신경망 층(CNN layer)을 이용하며, 순환신경망 층(RNN layer)은 LSTM 유닛들로 구성하였다. Mao의 연구[4]에서는 보다 언어 모델을 강화하기 위한 멀티 모달 순환 신경망(multimodal RNN) 모델을 제시하였다.
본 논문에서는 앞서 설명한 두 가지 순환 신경망 유닛들 중에서 다양한 조절 게이트들을 포함한 LSTM 유닛이 비교적 단순한 GRU 유닛에 비해 모델 전이에도 더 효과적이라고 판단하였다. 이러한 가설을 입증하기 위해, 본 논문에서는 (그림 5)와 같이 원래 도메인(source domain)과 목표 도메인(target domain)의 다양한 변화에 대한 모델 전이 실험들을 수행한다.
좀 더 구체적인 심층 신경망 모델은 이미지로부터 시각 특징을 추출하는 컨볼루션 신경망 층(CNN layer), 각 단어를 저차원의 특징으로 변환하는 임베딩 층(embedding layer), 캡션 문장 구조를 학습하는 순환 신경망 층(RNN layer), 시각 특징과 언어 특징을 결합하는 멀티 모달 층(multimodal layer) 등 총 5 개의 계층(layer)들로 구성된 멀티 모달 순환 신경망 모델이다. 이러한 이미지 캡션 생성을 위한 멀티 모달 순환 신경망 모델의 중요한 설계 요소들로 (1) 컨볼루션 신경망 층(CNN layer)의 시각 정보 출력을 캡션 언어 정보를 학습하는 순환 신경망 층(RNN layer)과 연결하는 연결 구조(connection structure)와 (2) 순환 신경망 층(RNN layer)을 구성하는 유닛들의 종류(type of RNN units)를 결정하는 일 등이다.

대상 데이터

훈련 및 검증 데이터와 테스트 데이터의 분포는 Flickr8k의 경우 훈련 데이터 6,000개, 검증 데이터 1000개, 테스트 데이터 1000개를 사용하였다. Flickr30k의 경우는 훈련 데이터 25,381개, 테스트 데이터 3,000개, 나머지 데이터는 검증에 사용하였다. MSCCCO 의 경우는 훈련데이터 82,783개, 테스트 데이터 40775개를 사용하였다.
Flickr30k의 경우는 훈련 데이터 25,381개, 테스트 데이터 3,000개, 나머지 데이터는 검증에 사용하였다. MSCCCO 의 경우는 훈련데이터 82,783개, 테스트 데이터 40775개를 사용하였다. 각 이미지에는 다섯 문장 이상의 캡션이 함께 제공된다.
본 논문에서는 성능 실험을 위해 Flick8k, Flickr30k,MSCOCO 등 세 개의 공개 데이터 집합을 사용하였다. Flickr8k과 Flickr30k는 Flickr에서 추출한 8,000개, 30,000개의 이미지와 캡션들로 구성되어 있으며, MSCOCO는 국제경진대회용으로 수집한 대규모 이미지 캡션 데이터 집합이다.
본 논문에서는 이미지 캡션 생성에 효과적인 심층 신경망 모델을 제시하였다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 순환 신경망 층(RNN layer)은 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛들로 구성되며,시각 정보를 제공하는 컨볼루션 신경망 층(CNN layer)의출력은 임베딩 층(embedding layer)과 멀티 모달 층(multimodal layer)에 모두 연결되는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 비교 실험을 통해, 본 논문에서 제안한 멀티 모달 순환 신경망 모델의 우수성을 확인할 수 있었다.
04 LTS 64bit 컴퓨터 환경에서 수행되었다. 훈련 및 검증 데이터와 테스트 데이터의 분포는 Flickr8k의 경우 훈련 데이터 6,000개, 검증 데이터 1000개, 테스트 데이터 1000개를 사용하였다. Flickr30k의 경우는 훈련 데이터 25,381개, 테스트 데이터 3,000개, 나머지 데이터는 검증에 사용하였다.

데이터처리

Flickr8k과 Flickr30k는 Flickr에서 추출한 8,000개, 30,000개의 이미지와 캡션들로 구성되어 있으며, MSCOCO는 국제경진대회용으로 수집한 대규모 이미지 캡션 데이터 집합이다. 실험을 위한 심층 신경망 모델 학습을 위해서 Python 딥러닝 라이브러리인 TensorFlow를 이용하였으며, 실험은 Ubuntu 14.04 LTS 64bit 컴퓨터 환경에서 수행되었다. 훈련 및 검증 데이터와 테스트 데이터의 분포는 Flickr8k의 경우 훈련 데이터 6,000개, 검증 데이터 1000개, 테스트 데이터 1000개를 사용하였다.

이론/모형

<표 1>, <표 2>, <표 3>은 시각 정보 연결 구조 {(a), (b)}와 유닛 종류 {GRU, LSTM}의서로 다른 네 가지 조합들에 따른 캡션 정확도(caption accuracy)를 평가한 실험 결과를 나타낸다. 캡션 정확도는(식 1)과 (식 2)에 정의된 N 그램 문장 단위 평가 척도인 BLEU-N 계산식을 이용하여 평가하였다. (식 2)에서 r은 정답인 문장 수를, c는 생성된 문장 수를 나타낸다.

성능/효과

3 이하로 감소할 때까지 학습에 소요된 시간을 측정하였다. 실험 결과, (a) 연결 구조와 GRU 유닛의 조합이 가장 짧은 학습 시간을 소모하였다. 순환 신경망 유닛만 비교해보면, 예상한대로 전반적으로 LSTM 유닛의 학습 시간이 GRU의 경우에 비해 좀 더 긴 것을 확인할 수 있다.
실험 결과, 본 논문에서 제안한 (b) 연결 구조와 LSTM 유닛의 조합((a)-LSTM)이 다른 모든 연결 구조와 유닛의 조합들에 비해 Flickr8k, Flickr30k, MSCOCO 등 거의 모든 데이터 집합들에서 공통적으로 가장 높은 캡션 정확도를 보여주었다. 또한, (a) 연결 구조에 비해 (b) 연결 구조의 캡션 정확도 증가는 모든 데이터 집합들에서 매우 분명하며, GRU 유닛에 비해 LSTM 유닛의 캡션 정확도 증가도 MSCOCO 데이터 집합의 일부를 제외한 Flickr8k, Flickr30k 등에서는 분명히 확인할 수 있다.
실험 결과, 본 논문에서 제안한 (b) 연결 구조와 LSTM 유닛의 조합((a)-LSTM)이 다른 모든 연결 구조와 유닛의 조합들에 비해 Flickr8k, Flickr30k, MSCOCO 등 거의 모든 데이터 집합들에서 공통적으로 가장 높은 캡션 정확도를 보여주었다. 또한, (a) 연결 구조에 비해 (b) 연결 구조의 캡션 정확도 증가는 모든 데이터 집합들에서 매우 분명하며, GRU 유닛에 비해 LSTM 유닛의 캡션 정확도 증가도 MSCOCO 데이터 집합의 일부를 제외한 Flickr8k, Flickr30k 등에서는 분명히 확인할 수 있다.
본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛들로 순환 신경망 층(RNN layer)을 구성하며, 컨볼루션 신경망 층(CNN layer)을 통해 추출되는 시각 정보들을 매번 다음 단계 캡션 단어를 예측하는데 이용할 수 있도록 임베딩 층(embedding layer)뿐만 아니라 멀티 모달 층(multimodal layer)에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등 서로 다른 공개 데이터 집합들을 이용한 다양한 비교 실험을 통해,본 논문에서 제시한 멀티 모달 순환 신경망 모델의 우수성을 입증한다.
본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 순환 신경망 층(RNN layer)은 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛들로 구성되며,시각 정보를 제공하는 컨볼루션 신경망 층(CNN layer)의출력은 임베딩 층(embedding layer)과 멀티 모달 층(multimodal layer)에 모두 연결되는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 비교 실험을 통해, 본 논문에서 제안한 멀티 모달 순환 신경망 모델의 우수성을 확인할 수 있었다.
이러한 모델 전이의 효과를 고려한다면 과연 어떤 순환 신경망 모델을 이용하는 것이 유리한가하는 판단을 순환 신경망 설계에 반영할 수 있다. 본 논문에서는 앞서 설명한 두 가지 순환 신경망 유닛들 중에서 다양한 조절 게이트들을 포함한 LSTM 유닛이 비교적 단순한 GRU 유닛에 비해 모델 전이에도 더 효과적이라고 판단하였다. 이러한 가설을 입증하기 위해, 본 논문에서는 (그림 5)와 같이 원래 도메인(source domain)과 목표 도메인(target domain)의 다양한 변화에 대한 모델 전이 실험들을 수행한다.
실험 결과, (a) 연결 구조와 GRU 유닛의 조합이 가장 짧은 학습 시간을 소모하였다. 순환 신경망 유닛만 비교해보면, 예상한대로 전반적으로 LSTM 유닛의 학습 시간이 GRU의 경우에 비해 좀 더 긴 것을 확인할 수 있다.
두 표에 제시된 모델 전이 결과는 BLEU_1로 측정한 캡션 정확도이다. 실험 결과에서, Flickr30k를 훈련 데이터 집합으로, MSCOCO를 테스트 데이터 집합으로 실험한 경우를 제외하면, 모든 실험 조합들에서 본 논문의 LSTM 유닛을 사용한 멀티 모달 순환 신경망 모델이 GRU 유닛을 사용한 모델에 비해 모델 전이 결과로 더 높은 캡션정확도를 얻었음을 알 수 있다. 이러한 실험 결과들은 생성되는 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제안한 멀티 모달 순환 신경망 모델의 시각 정보연결 구조와 LSTM 순환 신경망 유닛의 우수성을 확인해주는 결과로 볼 수 있다.
실험 결과에서, Flickr30k를 훈련 데이터 집합으로, MSCOCO를 테스트 데이터 집합으로 실험한 경우를 제외하면, 모든 실험 조합들에서 본 논문의 LSTM 유닛을 사용한 멀티 모달 순환 신경망 모델이 GRU 유닛을 사용한 모델에 비해 모델 전이 결과로 더 높은 캡션정확도를 얻었음을 알 수 있다. 이러한 실험 결과들은 생성되는 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제안한 멀티 모달 순환 신경망 모델의 시각 정보연결 구조와 LSTM 순환 신경망 유닛의 우수성을 확인해주는 결과로 볼 수 있다.

핵심어	질문	논문에서 추출한 답변
	멀티 모달 순환 신경망은 무엇으로 구성되었는가?	최근 연구들을 통해 제시된 이미지 캡션 생성을 위한 다양한 순환 신경망 모델들 중에서 현재 가장 보편적인 모델은 멀티 모달 순환 신경망(multimodal recurrent neural network) 모델로서, 크게 언어 모델 부분(language model part)과 시각 모델 부분(visual model part), 그리고 이들을 결합하는 멀티 모달 부분(multimodal part)들로 구성된다. 하지만 이미지 캡션 생성을 위한 멀티 모달 순환신경망 모델에 관한 몇 가지 중요한 질문들은 아직 명확히 해결되지 않은 상태로 남아 있다.
	본 연구에서 제시한 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 구성하는 5개의 개층은 무엇인가?	본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하고, 컨볼루션 신경망 층의 출력을 임베딩 층뿐만 아니라 멀티 모달 층에도 연결함으로써, 캡션 문장 생성을 위한 매 단계마다 이미지의 시각 정보를 이용할 수 있는 연결 구조를 가진다.
	이미지 캡션 생성(image caption generation) 기술이란 무엇인가?	이미지(image)로부터 그 이미지가 어떤 내용(content)을 담고 있는가를 표현하는 문장(sentence)들을 자동으로 생성하는 기술을 이미지 캡션 생성(image caption generation) 기술이라고 한다[1, 2]. 예컨대, (그림 1)에는 이미지 캡션 예들을 보여주고 있는데, 위쪽에는 이미지들이 주어져 있고, 아래쪽에는 각 이미지에 담긴 내용을 설명하는 캡션 문장들이 주어져 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이
Learning and Transferring Deep Neural Network Models for Image Caption Generation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이 Learning and Transferring Deep Neural Network Models for Image Caption Generation 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

이미지 캡션 생성을 위한 심층 신경망 모델 학습과 전이
Learning and Transferring Deep Neural Network Models for Image Caption Generation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper