$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Bi-GRU 이미지 캡션의 서술 성능 향상을 위한 Parallel Injection 기법 연구
Parallel Injection Method for Improving Descriptive Performance of Bi-GRU Image Captions 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.22 no.11, 2019년, pp.1223 - 1232  

이준희 (Dept. of Electrical and Electronics Engineering, Korea Maritime and Ocean University) ,  이수환 (Dept. of Electrical and Electronics Engineering, Korea Maritime and Ocean University) ,  태수호 (Dept. of Electrical and Electronics Engineering, Korea Maritime and Ocean University) ,  서동환 (Div. of Electronics and Electrical Information Engineering, Korea Maritime and Ocean University)

Abstract AI-Helper 아이콘AI-Helper

The injection is the input method of the image feature vector from the encoder to the decoder. Since the image feature vector contains object details such as color and texture, it is essential to generate image captions. However, the bidirectional decoder model using the existing injection method on...

주제어

표/그림 (4)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 이미지 특징 벡터의 소멸로 인한 문장 구조의 파괴와 이미지의 내용과는 전혀 다른 문장이 생성되는 문맥적인 오류를 최소화하기 위한 캡션 모델을 제안한다. 제안하는 이미지 캡션모델은 기존의 연구들과 달리 임베딩 레이어에 계속 이미지 특징 벡터를 입력하는 Parallel Injection 방식을 사용하며, 양방향 구조를 통해 이미지 특징 벡터 소실 문제를 최소화한다.
  • 본 논문에서는 문장 표현력을 향상시키고 이미지 특징 벡터의 소멸을 방지할 수 있는 Parallel Injection 기법과 문맥에 맞는 문장의 순서를 생성하는 Bi-GRU을 적용한 디테일한 이미지 캡션 모델을 제안하였다. Parallel Injection 기법을 사용한 제안한 모델은 RNN의 재귀과정에서 이미지 특징 벡터의 소멸을 방지하기 위하여 이미지 특징 벡터를 단어 벡터와 융합하여 반복적으로 삽입해주어 문장 구성 요소 누락을 방지한다.
  • 본 연구는 더블 임베딩 및 멀티모달을 적용한 m-RNN[18]과 Bi-RNN 구조를 사용한 Repeated review[19]의 문제점을 개선한다. 제안한 모델은 LSTM을 간소화한 Gated Recurrent Unit(GRU)[21]를 적용하고 양방향 RNN 구조에 최적화된 임베딩 및 모달 레이어에 이미지 특징 벡터를 입력해주는 Parallel Injection 방식을 통해 구문적 오류뿐만 아니라 문맥적 오류를 최소화하는 이미지 캡션 모델을 설계하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
인코더디코더 모델은 어떠한 기술인가?  최근의 높은 성과를 내는 딥러닝 기반 이미지 캡션 모델은 인코더-디코더 구조로 설계된다. 인코더디코더 모델은 이미지 내의 객체를 인식하는 객체인식 기법과 단어를 통해 문장으로 재배치하는 자연어 처리 기법이 결합된 기술이다.
최근의 이미지 캡션 기술은 어떠한 모델을 적용하는가?  최근의 이미지 캡션 기술은 주어진 이미지를 문장으로 변형하기 위해 이미지에서 특징을 획득하는 Convolutional Neural Network(CNN)로 구성된 인코더와 단어를 문장으로 재배치하는 RecurrentNeural Network(RNN)로 구성된 디코더를 가지는 인코더-디코더 모델을 적용한다. 이러한 접근법은 이미지의 객체를 바탕으로 문장을 생성 가능하지만 RNN 기반 디코더의 한계인 경사 소실 문제와 이미지 특징 벡터 소실 문제로 인해 문장의 길이가 길어질수록 문장 구조가 파괴되기 쉽다.
본 논문에서의 Bi-GRU을 적용한 디테일한 이미지 캡션 모델은 기존 모델보다 얼마나 향상되었는가? 이 둘을 결합하여 기존의 Bi-RNN에 최적화 되어있지 않은 기존의 Injection 방식을 개선하여 이미지 및 문장의 순서, 문장의 표현력을 모두 고려한 디테일한 캡션을 생성한다. 제안하는 모델은 BLEU와 METEOR 점수를 통해 모델의 성능을 객관적으로 비교하였고 기존의 캡션 모델에 비해 BLEU 점수는 최대 20.2점, METEOR 점수는 최대 3.65점이 향상되어 제안한 모델의 우수함을 보였다. 이 연구를 통하여 향후 영상의학 및 법 영상 분야의 수준 높은 데이터세트가 구축되고 이를 학습한다면 해당 분야에 필요한 캡션을 생성함으로써 이미지의 자동 주석이나, 사용자의 질문에 대한 간단한 답변 표현에 적용이 가능 할 것으로 기대된다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로