[논문]전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론

김태진; 김남규

doi:10.13088/jiis.2020.26.2.079

전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론
Deep Learning-based Professional Image Interpretation Using Expertise Transplant 원문보기

지능정보연구 = Journal of intelligence and information systems, v.26 no.2, 2020년, pp.79 - 104

김태진 (국민대학교 비즈니스IT 전문대학원) , 김남규 (국민대학교 비즈니스IT 전문대학원)

초록
AI-Helper

최근 텍스트와 이미지 딥러닝 기술의 괄목할만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 주어진 이미지에 대한 캡션을 자동으로 생성하는 기술로, 이미지 이해와 텍스트 생성을 동시에 다룬다. 다양한 활용 가능성 덕분에 인공지능의 핵심 연구 분야 중 하나로 자리매김하고 있으며, 성능을 다양한 측면에서 향상시키고자 하는 시도가 꾸준히 이루어지고 있다. 하지만 이처럼 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안한다. 구체적으로 제안 방법론은 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 전이 학습을 통해 해당 분야의 전문성을 이식한다. 또한 본 연구에서는 이 과정에서 발생하게 되는 관찰간 간섭 문제를 해결하기 위해 '특성 독립 전이 학습' 방안을 제안한다. 제안 방법론의 실현 가능성을 파악하기 위해 MSCOCO의 이미지-캡션 데이터 셋을 활용하여 사전 학습을 수행하고, 미술 치료사의 자문을 토대로 생성한 '이미지-전문 캡션' 데이터를 활용하여 전문성을 이식하는 실험을 수행하였다. 실험 결과 일반 데이터에 대한 학습을 통해 생성된 캡션은 전문적 해석과 무관한 내용을 다수 포함하는 것과 달리, 제안 방법론에 따라 생성된 캡션은 이식된 전문성 관점에서의 캡션을 생성함을 확인하였다. 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하였고, 이를 위해 전이 학습의 새로운 활용 방안과 특정 도메인에 특화된 캡션을 생성하는 방법을 제시하였다.

Abstract ▼ AI-Helper

Recently, as deep learning has attracted attention, the use of deep learning is being considered as a method for solving problems in various fields. In particular, deep learning is known to have excellent performance when applied to applying unstructured data such as text, sound and images, and many studies have proven its effectiveness. Owing to the remarkable development of text and image deep learning technology, interests in image captioning technology and its application is rapidly increasing. Image captioning is a technique that automatically generates relevant captions for a given image by handling both image comprehension and text generation simultaneously. In spite of the high entry barrier of image captioning that analysts should be able to process both image and text data, image captioning has established itself as one of the key fields in the A.I. research owing to its various applicability. In addition, many researches have been conducted to improve the performance of image captioning in various aspects. Recent researches attempt to create advanced captions that can not only describe an image accurately, but also convey the information contained in the image more sophisticatedly. Despite many recent efforts to improve the performance of image captioning, it is difficult to find any researches to interpret images from the perspective of domain experts in each field not from the perspective of the general public. Even for the same image, the part of interests may differ according to the professional field of the person who has encountered the image. Moreover, the way of interpreting and expressing the image also differs according to the level of expertise. The public tends to recognize the image from a holistic and general perspective, that is, from the perspective of identifying the image's constituent objects and their relationships. On the contrary, the domain experts tend to recognize the image by focusing on some specific elements necessary to interpret the given image based on their expertise. It implies that meaningful parts of an image are mutually different depending on viewers' perspective even for the same image. So, image captioning needs to implement this phenomenon. Therefore, in this study, we propose a method to generate captions specialized in each domain for the image by utilizing the expertise of experts in the corresponding domain. Specifically, after performing pre-training on a large amount of general data, the expertise in the field is transplanted through transfer-learning with a small amount of expertise data. However, simple adaption of transfer learning using expertise data may invoke another type of problems. Simultaneous learning with captions of various characteristics may invoke so-called 'inter-observation interference' problem, which make it difficult to perform pure learning of each characteristic point of view. For learning with vast amount of data, most of this interference is self-purified and has little impact on learning results. On the contrary, in the case of fine-tuning where learning is performed on a small amount of data, the impact of such interference on learning can be relatively large. To solve this problem, therefore, we propose a novel 'Character-Independent Transfer-learning' that performs transfer learning independently for each character. In order to confirm the feasibility of the proposed methodology, we performed experiments utilizing the results of pre-training on MSCOCO dataset which is comprised of 120,000 images and about 600,000 general captions. Additionally, according to the advice of an art therapist, about 300 pairs of 'image / expertise captions' were created, and the data was used for the experiments of expertise transplantation. As a result of the experiment, it was confirmed that the caption generated according to the proposed methodology generates captions from the perspective of implanted expertise whereas the caption generated through learning on

주제어

표/그림 (22)

그림 Seeing AI - Application of Image Captioning
그림 Different Captions with Various Expertise
그림 Preliminary Results of Expertized Image Captioning
그림 Training and Inference Process of Image Captioning
그림 Recent Researches in the Literature of Image Captioning
그림 Training of Image Captioning Using Transfer Learning
그림 Overview of the Proposed Model
그림 O2I Map and E-Quad
표 A Simple Example of E-Quad
그림 Interference Preventing Transfer-learning
그림 Generation and Integration of Interpretation
그림 Interpretation based on Mapping between Caption and E-Quad
그림 Example of Images in Each Experiment
그림 Imaginary Example of Expected Results
표 Characteristics of Each Experiment
그림 A Result of Caption Generation with Version 1
그림 A Result of Caption Generation with Version 2
그림 A Result of Caption Generation with Version 3
그림 A Result of Caption Generation with Version 4
그림 Some Results of Caption Generation
그림 General Caption inference
그림 Preliminary Results of Expertized Image Captioning (Figure 3, Revisited)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구에서는 전문가가 여러 개별 특성을 동시에 관찰하고 그 특성을 종합하여 이미지를 해석하는 과정에 착안하여, 종합적인 해석을 생성하기에 앞서 각 특성에 대한 ‘관찰 캡션’을 분리하여 생성하고, 이를 종합하여 ‘전문 해석’을 도출하는 방안을 제시하고자 한다.
하지만 이처럼 전문가에 의해 작성된 이미지/캡션 쌍은 그 수가 매우 부족하며 확보도 어려우므로, 기존의 이미지 캡셔닝 기법을 통해 각 분야의 전문적 캡션을 자동으로 생성하기란 현실적으로 불가능하다. 따라서 본 연구에서는 전이 학습, 즉 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 미세 조정을 진행하여 이러한 문제를 해결하고자 한다.
본 연구에서는 주어진 이미지에 대해 관련 캡션을 자동으로 생성하는 기술인 이미지 캡셔닝을 더욱 고도화하기 위한 방안을 제시하였다. 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다.
본 절에서는 일반 캡션의 생성 결과와 전문 캡션의 생성 결과를 비교함으로써 제안 방법론의 우수성을 평가한다. [Figure 19]는 주어진 이미지에 대해 일반적인 관점을 학습한 사전 학습 모델을 사용하여 이미지를 추론한 결과를 보이고 있다.
이를 해결하기 위해 미술 치료의 일부 과정을 인공지능으로 보완하여 객관성을 높이고자 하는 연구가 이루어진 바 있다. 이러한 맥락에서 본 연구에서는 미술 치료사의 그림 해석을 지원하기 위해, 입력 이미지에 대해 미술 치료 관점에서의 전문적 캡션을 생성하는 기법을 제안하고자 한다.
이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 전문 캡션을 도출하기 위한 방안을 제안하고자 한다. [Figure 3]은 미술치료 전문가의 관점에서 캡션 전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론을 생성한 실제 실험 결과의 일부를 나타내고 있다.
이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안 하였다. 또한 데이터의 편향을 줄이고 학습에 악영향을 주는 요소를 제거하기 위해 이미지 복잡도에 따른 캡션의 품질 비교 실험을 진행하였으며, 그 결과를 토대로 전문 캡션 생성 모델을 구축하고 캡션을 추론한 결과를 제시하였다.
또한 전이 학습은 한 분야의 학습 결과를 다른 분야의 추론에 활용하기 위한 기법으로, 주로 딥러닝 학습에 필요한 데이터의 부족 현상을 극복하고 학습에 소요되는 시간을 줄이기 위해 사용되고 있다. 하지만 본 연구에서는 특정 분야의 전문성을 구조화하고, 이를 통해 일반적 사전 학습의 결과에 해당 분야의 전문성을 이식하기 위한 방안으로 전이 학습을 사용하는 방안을 제시했다. 향후 제안 방법론을 다양한 분야의 전문성 이식에 적용하여 전문 데이터 부족 문제를 해결하고 성능을 고도화하기 위한 연구가 활발하게 이루어질 것으로 기대한다.

제안 방법

학습 데이터의 특징에 따른 결과의 차이를 파악하기 위해 이미지/캡션 데이터를 여러 버전으로 나누어 생성하였으며, 이미지는 창문이 없는 집의 이미지를 기본으로 하여 임의의 형태의 창문 임의의 개수를 임의의 위치에 추가하는 방식으로 생성했다. 가장 단순한 특징을 가지는 version1에서부터 가장 복잡한 특징을 가지는 version4까지 복잡도를 변화시켜가며 다양한 학습 이미지를 생성하고, 각각에 대해 반복 실험을 수행하였다. [Figure 12]는 버전에 따른 이미지 데이터의 예시이며, 아래 [Table 2]는 버전별 데이터의 특징을 간략히 요약하고 있다.
그림에서 (a) General은 사전 학습 모델을 그대로 적용하여 생성한 일반적인 관점의 캡션을 나타내며, (b) Expertise는 제안 방법론을 활용하여 창문의 개수에만 집중하여 생성한 전문 캡션을 나타낸다. 구체적으로 전문 캡션은 사전 학습 모델을 사용하여 이미지의 일반적인 특성을 학습한 뒤, 4.2절의 Version 4 유형의 전문 데이터에 대한 미세 조정을 통해 도출한 모델로부터 추론하였다. [Figure 20]에서 일반적 캡션을 학습한 모델은 이미지에 포함된 객체 식별을 중심으로 비교적 자연스러운 표현의 캡션을 생성하였으나, 전문적 해석에 중요하게 사용되는 객체와 특성을 누락하거나 전문적 해석과 무관한 내용을 포함하고 있는 것으로 나타났다.
먼저 소량의 전문 데이터로 제안 모델이 관찰 속성(객체, 특성, 상태)을 잘 분리하여 학습할 수 있도록 데이터의 특징(이미지 및 캡션의 복잡도)에 따른 캡션 품질을 평가하는 실험을 진행하며, 이를 활용하여 ‘전문 관찰 캡션’을 생성하는 실험을 진행한다. 그 후 일반적인 캡션을 학습한 모델과 전문적인 캡션을 학습한 모델이 동일한 이미지에 대해 추론한 캡션의 결과를 비교하는 실험을 진행한다.
소량의 전문 캡션 데이터를 이용해 전문 캡션 모델을 생성하는 경우, 데이터의 편향이 학습에 많은 영향을 미치게 된다. 따라서 데이터의 편향을 줄이고 학습에 악영향을 주는 요소를 제거하기 위해 이미지 복잡도에 따른 캡션의 품질 비교 실험을 진행했다. [Figure 18]은 버전별 모델을 적용한 실제 추론 결과의 일부를 보이며, 이를 통해 학습 이미지의 복잡도에 따른 캡션의 품질을 비교할 수 있다.
이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안 하였다. 또한 데이터의 편향을 줄이고 학습에 악영향을 주는 요소를 제거하기 위해 이미지 복잡도에 따른 캡션의 품질 비교 실험을 진행하였으며, 그 결과를 토대로 전문 캡션 생성 모델을 구축하고 캡션을 추론한 결과를 제시하였다.
구체적인 실험 모델은 PyTorch를 기반으로 구현했으며, 이미지 인코딩을 위한 사전 학습 모델은 ResNet-101을 이용했다. 또한 어텐션 모델의 적용은 Show attend and tell(Xu et al, 2015)의 모델을 참고했으며, Attention Map을 이용하여 제안 모델이 관찰 특성을 제대로 추출하여 학습하는 지를 확인하였다. 일반 캡션 학습에는 MSCOCO의 2014년 데이터를 사용하였으며, 구체적으로 훈련용(Training) 데이터 약 8만 건, 검증용(Validation) 데이터 약 4만 건, 그리고 이미지 각각에 대해 5개씩 부여된 캡션을 실험에 사용하였다.
먼저 소량의 전문 데이터로 제안 모델이 관찰 속성(객체, 특성, 상태)을 잘 분리하여 학습할 수 있도록 데이터의 특징(이미지 및 캡션의 복잡도)에 따른 캡션 품질을 평가하는 실험을 진행하며, 이를 활용하여 ‘전문 관찰 캡션’을 생성하는 실험을 진행한다.
본 실험은 전문 해석 캡션의 이전 단계로, 전문가가 주목하는 각 특성에 대한 ‘전문 관찰 캡션’을 분리하여 생성하는 과정을 다룬다.
사전 학습을 위한 대량의 데이터로는 Imagenet, MSCOCO 등의 이미지 셋이 널리 활용되고 있으며, 이미지 모델로는 Densenet(Huang et al, 2017), InceptionV3 (Christain et al, 2015), ResNet(He et al, 2016) 등이 많은 연구에서 사용되고 있다. 본 연구에서는 MSCOCO 데이터를 사용하고 Residual Block과 Skip-Connection의 특징을 가지며, 딥러닝의 깊은 레이어에도 정보의 손실이 적다는 강점을 갖는 ResNet-101 모델을 채택하여 실험을 진행한다.
본 연구의 제안 방법론은 (1) 관찰/해석 지도 및 전문성 쿼드 생성, (2) 특성 독립 전이 학습 모델, (3) 전문적 통합 해석 생성의 세 단계로 구성된다. 아래 [Figure 7]은 제안 방법론의 전체 개요를 나타내고 있다.
주어진 이미지와 관련된 완성도 높은 문장을 생성하였지만, 생성된 캡션은 미술 치료 분야의 HTP Test와 관련된 요소에 대한 내용은 중요하게 다루고 있지 않다. 본 절의 이후 부분에서 는 주어진 이미지에 대해 일반적인 관점에서 생성한 캡션과 미술 치료 전문가의 관점, 구체적으로는 창문의 개수에만 집중하여 생성한 캡션을 비교한다.
이미지의 복잡도에 따라 다르게 생성된 이미지/캡션 데이터로부터 각각 모델을 생성하고, 이를 통해 생성한 추론 결과를 비교하였다. [Figure 13]은 왼쪽 이미지로부터 추론할 수 있는 다양한 유형의 가상 결과들이며, 문장의 완성도와 객체 인식의 정확도에 따라 다양한 결과가 도출될 수 있음을 보이고 있다.
전문 캡션 학습은 미술 치료사의 전문성 이식을 주제로 수행했으며, 하나의 관찰 속성(window-count)에 초점을 맞춰 진행하였다. 학습 데이터의 특징에 따른 결과의 차이를 파악하기 위해 이미지/캡션 데이터를 여러 버전으로 나누어 생성하였으며, 이미지는 창문이 없는 집의 이미지를 기본으로 하여 임의의 형태의 창문 임의의 개수를 임의의 위치에 추가하는 방식으로 생성했다.
제안 방법론의 마지막 단계에서는 이전 단계에서 특성별로 생성된 캡션 및 E-Quad로부터 특성별 해석을 도출하고, 특성별 캡션과 해석을 통합하여 해당 이미지에 대한 전문적인 통합 해석을 생성한다. 이 과정은 [Figure 10]에 나타나 있으며, 그림에서 밝게 표시된 부분은 이전 단계에서 학습된 모델을 통해 각 특성별 캡션을 추론하는 과정을, 그리고 어둡게 표시된 부분은 추론된 캡션으로부터 해석을 도출하고 통합 해석을 생 성하는 과정을 나타낸다.
전문 캡션 학습은 미술 치료사의 전문성 이식을 주제로 수행했으며, 하나의 관찰 속성(window-count)에 초점을 맞춰 진행하였다. 학습 데이터의 특징에 따른 결과의 차이를 파악하기 위해 이미지/캡션 데이터를 여러 버전으로 나누어 생성하였으며, 이미지는 창문이 없는 집의 이미지를 기본으로 하여 임의의 형태의 창문 임의의 개수를 임의의 위치에 추가하는 방식으로 생성했다. 가장 단순한 특징을 가지는 version1에서부터 가장 복잡한 특징을 가지는 version4까지 복잡도를 변화시켜가며 다양한 학습 이미지를 생성하고, 각각에 대해 반복 실험을 수행하였다.

대상 데이터

Version 1의 실험 이미지는 창문과 집의 종류를 고정하고 창문의 위치와 개수만 임의로 변경하여 생성하였으며, 총 51개의 학습 데이터와 13개의 검증 데이터를 사용했다. 생성된 모델로 추론을 진행한 결과, 63개의 이미지 중 count를 바르게 생성한 데이터가 33개로 정확도는 약 52.
Version 2는 Version 1과 마찬가지로 창문과 집의 종류는 고정하되 창문의 크기를 변화시킨 이미지를 사용하였으며, 마찬가지로 51개의 학습 데이터와 13개의 검증 데이터로 모델을 생성했다. 추론 결과 63개의 이미지 중 count를 바르게 생성한 데이터가 37개로 정확도는 약 58.
Version 3은 집의 종류는 하나로 통일하되 창문의 종류를 2가지로 변경하며 데이터를 생성하였으며, 총 67개의 학습 데이터와 19개의 검증 데이터로 모델을 생성하고 추론했다. 추론 결과 63개의 이미지 중 count를 바르게 생성한 데이터가 35개이고 정확도는 약 55.
Version 4는 창문의 종류와 크기는 고정하고 창문 이외에 집과 배경을 11가지로 다양하게 사용하였으며, 총 76개의 학습 데이터와 25개의 검증 데이터를 활용해 모델을 생성했다. 생성된 모델로 63개의 이미지를 추론한 결과, count를 바르게 생성한 데이터가 52개, 정확도가 약 82.
또한 어텐션 모델의 적용은 Show attend and tell(Xu et al, 2015)의 모델을 참고했으며, Attention Map을 이용하여 제안 모델이 관찰 특성을 제대로 추출하여 학습하는 지를 확인하였다. 일반 캡션 학습에는 MSCOCO의 2014년 데이터를 사용하였으며, 구체적으로 훈련용(Training) 데이터 약 8만 건, 검증용(Validation) 데이터 약 4만 건, 그리고 이미지 각각에 대해 5개씩 부여된 캡션을 실험에 사용하였다.

이론/모형

구체적인 실험 모델은 PyTorch를 기반으로 구현했으며, 이미지 인코딩을 위한 사전 학습 모델은 ResNet-101을 이용했다. 또한 어텐션 모델의 적용은 Show attend and tell(Xu et al, 2015)의 모델을 참고했으며, Attention Map을 이용하여 제안 모델이 관찰 특성을 제대로 추출하여 학습하는 지를 확인하였다.
고수준 모듈은 추출된 저수준의 특성을 기반으로 전문 데이터에 대한 미세 조정을 수행하여 전문적인 특성을 추출하는 역할을 한다. 또한 텍스트 디코딩에는 어텐션을 접목한 LSTM 모델이 사용된다.
실험 결과는 위에서 소개한 객체 특성 인식의 정확도와 문장의 완성도 외에 Attention Map을 활용하여 평가할 수 있다. Attention Map은 추론 과정에서 생성된 캡션의 각 단어가 이미지의 어떤 부분에 집중하였는지를 시각적으로 나타내며, 강조된 부분과 실제 단어의 일치 여부를 판단하여 모델의 성능을 직관적으로 평가할 수 있다.

성능/효과

3%로 나타났다. Version 1에 비해 다소 높은 객체 인식 정확도를 보였지만, 문장의 완성도와 Attention Map 일치도는 여전히 낮음을 확인하였다(Figure 15).
5%로 이전 실험들에 비해 상대적으로 높은 정확도를 나타냄을 확인할 수 있었다. 또한 문장의 완성도도 비교적 높게 나타났으며, Attention Map의 경우도 각 단어에 해당되는 이미지 영역을 제대로 강조하고 있음을 확인하였다(Figure 17).
이는 곧 모델이 객체의 특성을 제대로 학습하지 못함을 의미한다. 반면 Version 4의 데이터를 이용한 실험은 객체 인식의 정확도와 문장의 완성도, 그리고 Attention Map의 일치도 측면 모두에서 만족할 만한 결과를 도출하였다. Version 4는 관심 속성인 창문은 고정시키고 오히려 그 외의 요소를 다양하게 학습한 것으로, 본 실험을 통해 전문성 이식에 사용되는 데이터는 관심 속성과 비 관심 속성을 구분해서 활용할 필요가 있음을 확인하였다.
Version 4는 창문의 종류와 크기는 고정하고 창문 이외에 집과 배경을 11가지로 다양하게 사용하였으며, 총 76개의 학습 데이터와 25개의 검증 데이터를 활용해 모델을 생성했다. 생성된 모델로 63개의 이미지를 추론한 결과, count를 바르게 생성한 데이터가 52개, 정확도가 약 82.5%로 이전 실험들에 비해 상대적으로 높은 정확도를 나타냄을 확인할 수 있었다. 또한 문장의 완성도도 비교적 높게 나타났으며, Attention Map의 경우도 각 단어에 해당되는 이미지 영역을 제대로 강조하고 있음을 확인하였다(Figure 17).
생성된 모델로 추론을 진행한 결과, 63개의 이미지 중 count를 바르게 생성한 데이터가 33개로 정확도는 약 52.3%로 나타났다.
제시된 그림에서 일반적인 캡션은 ‘man’, ‘house’, ‘flower’, ‘dog’, 그리고 ‘barn’ 등 일반적인 객체의 인식에 초점을 두는 반면 전문적인 캡션은 본 실험의 목적인 창문의 수에 초점을 둔 캡션을 생성함을 확인할 수 있다.
Version 3은 집의 종류는 하나로 통일하되 창문의 종류를 2가지로 변경하며 데이터를 생성하였으며, 총 67개의 학습 데이터와 19개의 검증 데이터로 모델을 생성하고 추론했다. 추론 결과 63개의 이미지 중 count를 바르게 생성한 데이터가 35개이고 정확도는 약 55.5%로 이전 실험들과 유사하게 나타났지만, 문장의 완성도는 다소 높게 나타났다(Figure 16).
Version 2는 Version 1과 마찬가지로 창문과 집의 종류는 고정하되 창문의 크기를 변화시킨 이미지를 사용하였으며, 마찬가지로 51개의 학습 데이터와 13개의 검증 데이터로 모델을 생성했다. 추론 결과 63개의 이미지 중 count를 바르게 생성한 데이터가 37개로 정확도는 약 58.3%로 나타났다. Version 1에 비해 다소 높은 객체 인식 정확도를 보였지만, 문장의 완성도와 Attention Map 일치도는 여전히 낮음을 확인하였다(Figure 15).
Version 1~3의 데이터를 이용한 실험 결과, 데이터가 지나치게 단순하여 모델이 데이터의 특성을 충분히 학습하지 못한 것으로 파악된다. 추론으로 생성한 캡션의 약 절반이 창문의 수를 정확하게 파악하지 못했고, Attention Map에서도 각 단어가 이미지의 관련된 부분에 제대로 집중하고 있지 못한 것을 확인할 수 있었다. 이는 곧 모델이 객체의 특성을 제대로 학습하지 못함을 의미한다.

후속연구

본 연구에서는 단 하나의 도메인, 그 중에서도 관찰 속성 중 일부분에 대한 캡션 생성 실험을 수행하였으며, 이는 본 연구의 한계로 지적될 수 있다. 추후 연구에서는 다양한 도메인의 다양한 객체 및 관찰 속성에 대한 캡션 생성 실험을 수행할 필요가 있다.
하지만 딥러닝 방법론 자체의 변형을 통해 성능을 개선하거나 새로운 활용 분야를 찾기 위한 연구는 상대적으로 매우 드물다. 이러한 측면에서 둘째, 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하고, 이를 달성하기 위해 최근 관심이 집중되고 있는 전이 학습의 새로운 활용 방안을 제안했다는 점에서 그 기여를 인정받을 수 있을 것이다. 또한 전이 학습은 한 분야의 학습 결과를 다른 분야의 추론에 활용하기 위한 기법으로, 주로 딥러닝 학습에 필요한 데이터의 부족 현상을 극복하고 학습에 소요되는 시간을 줄이기 위해 사용되고 있다.
본 연구에서는 단 하나의 도메인, 그 중에서도 관찰 속성 중 일부분에 대한 캡션 생성 실험을 수행하였으며, 이는 본 연구의 한계로 지적될 수 있다. 추후 연구에서는 다양한 도메인의 다양한 객체 및 관찰 속성에 대한 캡션 생성 실험을 수행할 필요가 있다. 또한 더욱 정교하고 견고한 학습을 위해 각 전문 분야의 관찰 속성 미세 조정을 위한 이미지/캡션 데이터를 충분히 확보할 수 있는 방안에 대한 고찰이 이루어져야 한다.
하지만 본 연구에서는 특정 분야의 전문성을 구조화하고, 이를 통해 일반적 사전 학습의 결과에 해당 분야의 전문성을 이식하기 위한 방안으로 전이 학습을 사용하는 방안을 제시했다. 향후 제안 방법론을 다양한 분야의 전문성 이식에 적용하여 전문 데이터 부족 문제를 해결하고 성능을 고도화하기 위한 연구가 활발하게 이루어질 것으로 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이미지 캡셔닝이란 무엇인가?	최근에는 이미지 딥러닝과 텍스트 딥러닝 기술의 괄목할 만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝(Image Captioning)의 활용 및 기술에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 입력 이미지를 이해하고 그에 적합한 캡션을 출력으로 생성하는 기술이며, 이미지 인코딩과 텍스트 생성을 동시에 다룬다(Ryan et al, 2014). 이미지 캡셔닝은 기본적으로 이미지 인덱싱 및 검색에 사용될 수 있으며, 의학, 심리학, 교육, 그리고 소셜 미디어 등 다양한 분야에서 활용될 수 있다.
	어텐션이란 무엇이며, 어떤 장점을 갖는가?	하지만 LSTM 역시도 장기 의존성 문제를 완벽하게 해결하지 못한다는 한계가 있으며, 이를 해결하기 위해 등장한 것이 어텐션 메커니즘이다(Ashnish et al, 2017). 어텐션은 문장에서 학습에 필요한 중요한 정보에 초점을 맞추는 방식으로, 처리해야 할 정보의 양을 줄여준다는 장점을 갖는다. 최근 많은 연구에서 어텐션 메커니즘이 적용되고 있으며, 이는 그 동안 연구된 딥러닝 기법의 성능을 한 차원 끌어 올리는데 기여하였다.
	대표적인 신경망 기반 사전 학습 언어 모델인 ELMo, BERT, XLNet 각각의 특징은 무엇인가?	대표적인 신경망 기반 사전 학습 언어 모델로는 ELMo(Embeddings from Language Model), BERT(Bidirectional Encoder Representations from Transformer)(Devlin et al, 2018; Peters et al, 2018), 그리고 XLNet(eXtra Long Network)(Yang et al, 2019) 등이 널리 알려져 있다. ELMo는 LSTM을 활용하여 텍스트 시퀀스를 정방향, 역방향의 두 방향으로 학습하는 양방향 학습 언어 모델이다. BERT 역시 양방향 학습 언어 모델이며, ELMo에서 나타나는 신호의 전달 강도 한계를 극복하기 위해 특정 단어에 대해 동일 시퀀스에 존재하는 다른 단어와의 관계를 파악하는 알고리즘인 어텐션 메커니즘 기반의 학습을 수행한다. 최근에 고안된 사전 학습 언어 모델인 XLNet은 전체 텍스트를 부분으로 분할하여 학습을 수행하기 때문에 장문의 텍스트에 대한 학습이 가능하다는 점, 그리고 텍스트의 시퀀스를 무작위로 바꾼 학습을 수행하여 원래 텍스트가 가지고 있던 자연스러운 문맥을 더욱 정확하게 파악할 수 있다는 점으로 인해 최근 텍스트 분석의 다양한 분야에서 많은 관심을 받고 있다.

참고문헌 (38)

Alex, K., S. Ilya, and E. H. Geoffrey, "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, Vol. 25, (2012), 1097-1105.
Ali, F. B., G. Lluis, R. Marcal, and D. Karatzas, "Good News, Everyone! Context Driven Entity-Aware Captioning for News Images," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2019), 12466-12475.
Ashnish, V., S. Noam, P. Niki, U. Jakob, J. Llion, N. G. Aidan, K. Lukasz, and P. Illia, "Attention is All You Need,", arXiv:1706.03762, (2017).
Buck J.N., "The H-T-P test," Journal of Clinical Psychology, Vol 4, (1948), 151-159.

상세보기
Caigny, A. D., C. Krsitof, W. D. B. Koen, and L. Stefan, "Incorporating Textual Information in Customer Churn Prediction Models Based on a Convolutional Neural Network," International Journal of Forecasting, (2019), 1-16.
Chen, L., T. Zhang, and Y. Chen, "Customer Purchase Intent Prediction Under Online Multi-Channel Promotion: A Feature-Combined Deep Learning Framework," IEEE Access, Vol. 7, (2019), 112963-112976.

상세보기
Christain, S., W. Liu, Y. Jia, S. Pierre, R. Scott, A. Dragomir, E. Dumitru, V. Vincent, and R. Andrew, "Going Deeper with Convolutions," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2015), 1-9.
Devlin, J., MW. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," arXiv:1810.04805, (2018).
Feng, M., T. Shaonan, C. Lee, and M. Ling, "Deep Learning Models for Bankruptcy Prediction Using Textual Disclosures," European Journal of Operational Research, Vol. 274, No. 2, (2019), 743-758.

상세보기
Forrest, N. I., S. Han, W. M. Matthew, A. Khalid, J. D. William, and K. Kurt, "SqueezeNet:AlexNet-level Accuracy with 50x Fewer Parameters and <0.5MB Model Size," arXiv:1602.07360, (2016).
Gan, C., Z. Gan, X. He, J. Gao, and D. Li, "StyleNet: Generating Attractive Visual Captions with Styles," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2017), 3137-3146.
He, K., X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2016), 770-778.
Hossain, M. D. Z., S. Ferdous, F. S. Mohd, and L. Hamid, "A Comprehensive Survey of Deep Learning for Image Captioning," ACM Computing Surveys, Vol. 51, No. 6, (2019), 1-36.

상세보기
Huang, G., Z. Liu, V. D. M. Laurens, and Q.W. Kilian, "Densely Connected Convolutional Networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2017), 4700-4708.
Ian, G., B. Yoshua., and C. Aaron, Deep Learning, MIT Press, United Strates, 2016.
Jeffrey, P., S. Richard., and D. M. Christopher, "Glove: Global Vectors for Word Representation," in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, (2014), 1532-1543.
Justin, J., K. Andrej, and F. Li., "Densecap: Fully Convolutional Localization Networks for Dense Captioning," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2016), 4565-4574.
Karl, W., M. K. Taghi, and D. Wang, "A Survey of Transfer Learning," Journal of Big Data, Vol. 3, (2016) 1-40.
Kim, B. N., J. W. Choi, H. S. Ko, "Replication crisis in psychology: A review of its causes and solutions," Korean Journal of Psychology:general, Vol. 36. No. 3, (2017), 359-396.

상세보기
Lecun, Y., B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, Vol. 1, No. 4, (1989), 541-551.

상세보기
Liu, Y. and L. Wu, "Geological Disaster Recognition on Optical Remote Sensing Images Using Deep Learning," Procedia Computer Science, Vol. 91, (2016), 566-575.

상세보기
Marc, T., G. Albert, and P. C. Kenneth, "Transfer Learning from Language Models to Image Caption Generators: Better Models may not Transfer Better," arXiv:1901.01216, (2019).
Micheal, I. J., "Attractor Dynamics and Parallelism in a Connectionist Sequential Machine," Artificial Neural Networks: Concept Learning, (1990), 112-127.
Pan, S. J. and Q. Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, (2010), 1345-1359.

상세보기
Pang, G., X. Wang, F. Hao, J. Xie, X. Wang, Y. Lin, and X. Qin, "ACNN-FM: A Novel Recommender with Attention-based Convolutional Neural Network and Factorization Machines," Knowledge-Based Systems, Vol. 181, (2019), 1-13.
Peters, M. E., N. Mark, I. Mohi, G. Matt, C. Christopher, K. Lee, and Z. Luke, "Deep Contextualized Word Representations," arXiv:1802.05365, (2018).
Piotr, B., G. Eduard, J. Armand, and M. Tomas, "Enriching Word Vectors with Subword Information," arXiv:1607.04606, (2016)
Qi D., L. S., J. Song, E. Cui, T. Bharti, A. Sacheti, "ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data," arXive:2001.07966, (2020).
Ren, S., K. He, G. Ross, and J. Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems, Vol. 28, (2015), 91-99.
Ryan, K., S. Ruslan, and Z. Richard, "Multimodal Neural Language Models," in Proceedings of the International Conference on Machine Learning, Vol. 32, (2014), 592-603.
Sanjiban, S. R., M. Abhinav, G. Rishab, S. O. Mohammad, and P. V. Krishna, "A Deep Learning Based Artificial Neural Network Approach for Intrusion Detection," in Proceedings of the International Conference Mathematics and Computing, (2017), 44-53.
Hochreiter, S. and S. Jurgen, "Long Short-Term Memory," Neural Computation, Vol. 9, No. 8, (1997), 1735-1780.

상세보기
Tan, C., F. Sun, T. Kong, W. Zhang, C. Yang, and C. Liu, "A Survey on Deep Transfer Learning," arXiv:1808.01974, (2018).
Tomas, M., K. Chen, C. Greg, and D. Jeffrey, "Efficient Estimation of Word Representations in Vector Space," arXiv:1301.3781, (2013).
Tomas, M., S. Ilya, K. Chen, C. Greg, and D. Jeffrey, "Distributed Representations of Words and Phrases and their Compositionality," Advances in Neural Information Processing Systems, Vol. 26, (2013), 3111-3119.
Xu, K., J. Ba, K. Ryan, K. Cho, C. Aaron, S. Ruslan, S. Z. Richard, and B. Yoshua, "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention," in Proceedings of the International Conference on Machine Learning, Vol. 32, (2015), 2048-2057.
Yang, Y., L. Zheng, J. Zhang, Q. Cui, Z. Li, and P. S. Yu, "TI-CNN: Convolutional Neural Networks for Fake News Detection," arXiv:1806.00749, (2018).
Yang, Z., Z. Dai, Y. Yang, C. Jaime, R. S. Russ, and Q. V. Le, "XLNet: Generalized Autoregressive Pretraining for Language Understanding," arXiv:1906.08237, (2019).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증