[논문]다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선

김택수; 김상범

다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선
Improving a CNN-based Image Annotation System Using Multi-Labeled Images 원문보기

김택수 (네이버) , 김상범 (네이버)

최근 딥러닝 기술의 발전에 힘입어 이미지로부터 자동으로 관련된 단어 혹은 문장을 생성하는 연구들이 진행되고 있는데, 많은 연구들은 이미지와 단어가 1:1로 대응된 잘 정련된 학습 집합을 필요로 한다. 한편 스마트폰 보급의 확산으로 인스타그램, 폴라 등의 이미지 기반 SNS가 급속하게 성장함에 따라 인터넷에는 한 이미지의 복수개의 단어(태그)가 부착되어있는 데이터들이 폭증하고 있는 것이 현실이다. 본 논문에서는 소규모의 잘 정련된 학습 집합뿐 아니라 이러한 대규모의 다중 레이블 데이터를 같이 활용하여 이미지로부터 태그를 생성하는 개선된 CNN구조 및 학습알고리즘을 제안한다. 기존의 분류 기반 모델에 은닉층을 추가하고 새로운 학습 방법을 도입한 결과, 어노테이션 성능이 기존 모델보다 11% 이상 향상되었다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 대량의 다중 레이블 이미지와 소량의 단일 레이블 이미지를 순차적으로 이용해 모델을 학습시켰으며, 학습에 사용되지 않은 단일 레벨 데이터를 이용해 성능을 평가하였다.
본 연구에서는 이미지 기반 SNS에 업로드 된 대량의 다중 레이블 이미지와, 수작업으로 만들어진 소량의 단일 레이블 이미지를 모두 활용한 이미지 어노테이션 시스템을 제안한다. 즉, 해당 시스템은 이미지들 입력으로 받고 이미지와 가장 관련된 단어들을 출력해준다.

제안 방법

그림 2. AlexNet의 변형, FC7층과 OUT층 사이에 추가은닉층 H를 두었다
다중 레이블과 단일 레이블을 모두 이용한 모델 B의 성능을 측정할 때에는 시멘틱-보존 업데이트 방식의 유효성을 측정하기 위해, 일반 업데이트만 사용한 비교모델 (NU/NU)을 추가로 학습시켰다. 표 2에서 시멘틱-보존 업데이트 방식을 사용해 학습한 모델(NU/SPU) 이 다른 4개 모델에 비해 뛰어난 성능을 보임을 확인할 수 있다.
둘째, 레이블이 이미지를 잘 설명한다고 보장되는 단일 레이블 데이터와 이미지와의 관련성과, 태그간의 관련성을 동시에 부분적으로 갖는 다중 레이블 데이터는 그 성격이 다르기 때문에, 두 서로 다른 종류의 데이터를 학습 과정에서 다른 방식으로 사용하는 선별적 업데이트 방식을 제안한다.
따라서 수만~수십만 개의 OUT층 노드로 확장하기 위해서는 마찬가지로 각 태그가 유일하게 할당된 이미지집합이 있어야 하는데 이를 수작업으로 구축하는 것은 매우 비용이 많이 든다. 따라서 본 논문에서는 이미 사진기반 SNS로부터 생성된 다소 부정확하나 대규모로 존재하는 다중 레이블 이미지 집합을 활용하도록 AlexNet을 그림 2과 같이 변형하였다.
먼저, 기존의 AlexNet분류기에 은닉층을 추가하고 평균 손실 함수 기법을 도입해, 함께 나타난 레이블 간의 유사성을 인코딩하는 방법을 제시하였다. 또한 선택적 부분 업데이트 방식을 도입하여 다중 레이블과 단일 레이블 이미지에 차등을 둠과 동시에, 학습된 시멘틱 정보를 유지하면서 성능을 상향시키는 학습 방식을 제시하였다.
학습을 위해 이미지 기반의 SNS에 축적된 대량의 다중 레이블 이미지와, 직접 구축한 소량의 단일 레이블 이미지를 이용하였으며, 평가에는 학습에 사용되지 않은 단일 레이블 이미지를 사용하였다. 먼저 다중 레이블 데이터만 사용해 모델을 학습시킨 뒤 성능을 평가해보고, 소량의 단일 레이블 데이터를 이용해 모델을 파인튜닝 시킨 뒤 다시 성능을 평가하였다. 2장에서 간단히 관련연구들에 대해 살펴보고, 3장과 4장에서 제안하는 방법과 그 실험결과를 보이고자 한다.
먼저 다중 레이블만으로 학습시킨 모델 A의 성능 측정을 위해, 각 이미지에 붙어 있는 첫 레이블만을 취해 학습한 경우 (first), 임의로 하나의 레이블을 선택해 학습한 경우 (random), 그리고 [2]와 같이 평균학습 손실 함수를 적용한 경우(mean)의 세 가지 AlexNet을 각각 학습시켰다.
본 연구의 의의는 다음과 같다. 먼저, 기존의 AlexNet분류기에 은닉층을 추가하고 평균 손실 함수 기법을 도입해, 함께 나타난 레이블 간의 유사성을 인코딩하는 방법을 제시하였다. 또한 선택적 부분 업데이트 방식을 도입하여 다중 레이블과 단일 레이블 이미지에 차등을 둠과 동시에, 학습된 시멘틱 정보를 유지하면서 성능을 상향시키는 학습 방식을 제시하였다.
본 논문에서는 그림 1에 나타난 기존의 AlexNet의 구조를 다중 레이블 이미지 분석에 적합한 구조로 바꾸고, 이에 따른 새로운 학습 방식을 제안한다.
첫째, 기존 AlexNet의 분류층(다나어노드층) 앞에 단어의 의미정보를 인코딩할 수 있는 새로운 은닉층을 추가하고, 입력 이미지에 대응되는 복수개의 단어 노드들에서의 평균손실함수[2]를 최소화시키는 방향으로 학습을 진행하였다. 즉, 이미지의 특징벡터(입력층)가 단어의 의미벡터(은닉층)을 거쳐 실제단어(출력층)로 연결되는 구조로 학습시키는데, 이를 통해 함께 출현하는 태그들의 의미적 유사성도 모델링될 수 있도록 하였다.
첫째, 기존 AlexNet의 분류층(다나어노드층) 앞에 단어의 의미정보를 인코딩할 수 있는 새로운 은닉층을 추가하고, 입력 이미지에 대응되는 복수개의 단어 노드들에서의 평균손실함수[2]를 최소화시키는 방향으로 학습을 진행하였다. 즉, 이미지의 특징벡터(입력층)가 단어의 의미벡터(은닉층)을 거쳐 실제단어(출력층)로 연결되는 구조로 학습시키는데, 이를 통해 함께 출현하는 태그들의 의미적 유사성도 모델링될 수 있도록 하였다.

대상 데이터

AlexNet의 처음 7개의 층은 ImageNet의 Large Scale Visual Recognition Challenge 2012 데이터로 미리 학습된 값을 사용하였으며, 학습 과정에서 값을 변화시키지 않았다.
먼저 다중 레이블 데이터는 한 상용 이미지 기반 SNS에 2015년 2월부터 2015년 6월까지 업로드 된 약 40만개의 이미지-태그열 쌍으로 구성되며 모두 학습에만 사용하였다. 단일 레이블 데이터는 총 540개 클래스에 대해 수작업으로 구축하였으며, 이 중 380개 클래스에 대한 34,221개의 이미지를 파인튜닝용으로 사용하고, 540개 전체 태그에 대한 3,000개의 이미지를 추출해 평가용으로 사용하였다.¹⁾
구체적으로 학습 및 평가에 사용된 데이터는 다음과 같다. 먼저 다중 레이블 데이터는 한 상용 이미지 기반 SNS에 2015년 2월부터 2015년 6월까지 업로드 된 약 40만개의 이미지-태그열 쌍으로 구성되며 모두 학습에만 사용하였다. 단일 레이블 데이터는 총 540개 클래스에 대해 수작업으로 구축하였으며, 이 중 380개 클래스에 대한 34,221개의 이미지를 파인튜닝용으로 사용하고, 540개 전체 태그에 대한 3,000개의 이미지를 추출해 평가용으로 사용하였다.
먼저, 40만여개 다중 레이블 데이터로 모델을 학습하였다 (모델 A).
모델의 추가은닉층은 1,000차원으로 구성하였으며, 마지막 분류층은 다중 레이블 데이터에 일정 빈도 이상 나타난 22,808개의 태그들로 구성하였다. AlexNet의 처음 7개의 층은 ImageNet의 Large Scale Visual Recognition Challenge 2012 데이터로 미리 학습된 값을 사용하였으며, 학습 과정에서 값을 변화시키지 않았다.
즉, 해당 시스템은 이미지들 입력으로 받고 이미지와 가장 관련된 단어들을 출력해준다. 본 연구에서 제안하는 모델은 기본적으로 이미지 분류 모델인 AlexNet[1] 의 변형체이며, 크게 2가지 요소로 특징지을 수 있다.
학습을 위해 이미지 기반의 SNS에 축적된 대량의 다중 레이블 이미지와, 직접 구축한 소량의 단일 레이블 이미지를 이용하였으며, 평가에는 학습에 사용되지 않은 단일 레이블 이미지를 사용하였다. 먼저 다중 레이블 데이터만 사용해 모델을 학습시킨 뒤 성능을 평가해보고, 소량의 단일 레이블 데이터를 이용해 모델을 파인튜닝 시킨 뒤 다시 성능을 평가하였다.

이론/모형

즉, 레이블 간 유사성을 손실시키게 된다. 그러므로 단일 레이블을 이용할 때에는 레이블 간의 의미적 관계 정보는 유지하면서 이미지 특징으로부터 의미를 생성해주는 신경망만 학습시키는 PU 방식을 사용하였다.
보통 이미지 특징 벡터 추출을 위해 CNN을, 텍스트 특징 벡터 추출을 위해 워드 임베딩[7,8,9]을 사용한다.

성능/효과

두번째로, 다중 레이블 데이터와 단일 레이블 데이터를 서로 다른 방식으로 활용하는 선택적 부분 업데이트(SPU:Selective Partial Update) 방식이 사용되었다.
본 연구에서는 다중 레이블 이미지를 활용한 이미지 어노테이션 시스템을 제안하였으며, 기존의 분류 방식들과 비교했을 때 어노테이션 추출 성능이 최대 11% 이상 향상되었다.
전반적으로 제안된 모델이 3가지 AlexNet 기반의 모델보다 뛰어난 성능을 보이고 있으며 hit@k의 k값이 커질수록 점점 더 성능 향상의 폭이 커짐을 알 수 있다. 이는 본 연구에서 제안한 시멘틱-은닉층이 추가됨으로써 높은 빈도로 함께 나타났던 레이블들이 상위 결과에 함께 나타나는 효과로 보여진다.
전반적으로 제안된 모델이 3가지 AlexNet 기반의 모델보다 뛰어난 성능을 보이고 있으며 hit@k의 k값이 커질수록 점점 더 성능 향상의 폭이 커짐을 알 수 있다.
다중 레이블과 단일 레이블을 모두 이용한 모델 B의 성능을 측정할 때에는 시멘틱-보존 업데이트 방식의 유효성을 측정하기 위해, 일반 업데이트만 사용한 비교모델 (NU/NU)을 추가로 학습시켰다. 표 2에서 시멘틱-보존 업데이트 방식을 사용해 학습한 모델(NU/SPU) 이 다른 4개 모델에 비해 뛰어난 성능을 보임을 확인할 수 있다.

후속연구

특히 인스타그램이나 폴라와 같은 이미지 기반 SNS 시스템에는 이러한 이미지-다중 레이블 형태의 데이터가 매 시간 폭발적으로 업로드되고 있다. 이미지-다중 레이블 형식의 데이터는 비교적 정제된 형태를 지니므로 태그 추천이나 태그 랭킹 알고리즘을 위한 학습 데이터로 사용 가능할 것으로 기대된다.
향수에는 이미지-태그 형식의 데이터에 한정하지 않고 모든 형식의 이미지-텍스트 쌍을 훈련 집합으로 사용할 수 있는 모델에 대한 연구를 진행하려고 한다.

핵심어

질문

논문에서 추출한 답변

딥 러닝을 이용해 이미지에서 텍스트를 추출하는 기술은 어떻게 나눌 수 있는가?

딥 러닝을 이용해 이미지에서 텍스트를 추출하는 기술은 크게 분류기, 결합 임베딩, 이미지 캡셔닝의 세 종류로 나눌 수 있다. 먼저 분류기 방식[1,3,4]은 AlexNet과 같은 Convolutional Neural Network (CNN) 기반의 분류 모델을 의미하며, 주로 분류층의 노드 개수를 필요한 클래스의 개수만큼 늘려 사용한다.

딥러닝 기술은 어떤 분야에서 매우 가시적인 성과를 나타내고 있는가?

최근 급부상한 딥러닝 기술은 데이터에 내재된 구조적 특징을 스스로 학습한다는 점과, 특정 분야에 대한 노하우가 없이도 손쉽게 사용할 수 있다는 점으로 인해 큰 인기를 얻고 있다. 특히 이미지 분류[1,3,4], 이미지 검출 [5,6] 등 컴퓨터 비전 분야에서 매우 가시적인 성과가 나타나고 있으며, 기계 번역[18,19]과 같은 자연어처리 분야에서도 그 영역을 넓히고 있다.

딥 러닝을 이용해 이미지에서 텍스트를 추출하는 기술 중 분류기 방식이란?

딥 러닝을 이용해 이미지에서 텍스트를 추출하는 기술은 크게 분류기, 결합 임베딩, 이미지 캡셔닝의 세 종류로 나눌 수 있다. 먼저 분류기 방식[1,3,4]은 AlexNet과 같은 Convolutional Neural Network (CNN) 기반의 분류 모델을 의미하며, 주로 분류층의 노드 개수를 필요한 클래스의 개수만큼 늘려 사용한다. 두 번째는 결합 임베딩[10,11]으로, 이미지 특징 벡터와 새로운 벡터 공간 내 인접한 공간으로 사상시키는 방식이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선
Improving a CNN-based Image Annotation System Using Multi-Labeled Images 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선 Improving a CNN-based Image Annotation System Using Multi-Labeled Images 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선
Improving a CNN-based Image Annotation System Using Multi-Labeled Images 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper