딥 러닝의 학습을 위해서 일반적으로 많은 양의 데이터가 필요하다. 그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다. 그러나 이러한 기법들은 이미 보유하고 있는 데이터 세트만을 이용하기 때문에 확장성에 제약을 갖는다. 이런 문제를 해결하기 위해 본고에서는 보유하고 있는 영상 데이터를 이용하여 새로운 영상 데이터를 획득하는 기술을 제안한다. 이는 기존 데이터 세트의 영상 데이터를 CBIR(Contents based image retrieval)의 쿼리로 이용하여 유사 영상들을 검색하여 획득하는 방식으로 이루어진다. 최종적으로 CBIR을 이용해 확장한 데이터를 딥 러닝으로 학습시켜 확장 전후의 성능을 비교하였다.
딥 러닝의 학습을 위해서 일반적으로 많은 양의 데이터가 필요하다. 그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다. 그러나 이러한 기법들은 이미 보유하고 있는 데이터 세트만을 이용하기 때문에 확장성에 제약을 갖는다. 이런 문제를 해결하기 위해 본고에서는 보유하고 있는 영상 데이터를 이용하여 새로운 영상 데이터를 획득하는 기술을 제안한다. 이는 기존 데이터 세트의 영상 데이터를 CBIR(Contents based image retrieval)의 쿼리로 이용하여 유사 영상들을 검색하여 획득하는 방식으로 이루어진다. 최종적으로 CBIR을 이용해 확장한 데이터를 딥 러닝으로 학습시켜 확장 전후의 성능을 비교하였다.
Generally, a large data set is required for learning of deep learning. However, since it is not easy to create large data sets, there are a lot of techniques that make small data sets larger through data expansion such as rotation, flipping, and filtering. However, these simple techniques have limit...
Generally, a large data set is required for learning of deep learning. However, since it is not easy to create large data sets, there are a lot of techniques that make small data sets larger through data expansion such as rotation, flipping, and filtering. However, these simple techniques have limitation on extendibility because they are difficult to escape from the features already possessed. In order to solve this problem, we propose a method to acquire new image data by using existing data. This is done by retrieving and acquiring similar images using existing image data as a query of the content-based image retrieval (CBIR). Finally, we compare the performance of the base model with the model using CBIR.
Generally, a large data set is required for learning of deep learning. However, since it is not easy to create large data sets, there are a lot of techniques that make small data sets larger through data expansion such as rotation, flipping, and filtering. However, these simple techniques have limitation on extendibility because they are difficult to escape from the features already possessed. In order to solve this problem, we propose a method to acquire new image data by using existing data. This is done by retrieving and acquiring similar images using existing image data as a query of the content-based image retrieval (CBIR). Finally, we compare the performance of the base model with the model using CBIR.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이는 이전의 데이터 확장 기술과는 다르게 데이터 세트의 양적인 확장뿐만 아니라 질적인 확장 또한 이루어졌다. CBIR로 획득한 영상이 영상 분류 학습의 overfitting을 줄여 분류 정확도를 높이는 것을 목표로 하였고, 실험을 통해 분류 정확도가 높아진 것을 확인하였다. 그러나 CBIR의 특성상, 사용자가 원하지 않는 영상이나 질이 낮은 영상을 추가 데이터 세트로 획득할 가능성이 있기 때문에 사용자는 자신의 적용 환경에 맞게 우리가 제안한 방법을 사용해야 원하는 결과를 얻을 수 있을 것이다.
본고에서는 딥 러닝을 위한 CBIR 기반의 데이터 확장기술을 제안하였다. 이는 이전의 데이터 확장 기술과는 다르게 데이터 세트의 양적인 확장뿐만 아니라 질적인 확장 또한 이루어졌다.
본고에서는 이러한 문제를 해결하기 위해 다양한 특징을 가지는 확장 데이터를 획득하는 아이디어를 제시한다. 이 기술은 기존의 영상을 이용하되 기존의 영상과는 거리가 먼 영상들을 획득하여 확장하는 기술이다.
제안 방법
이를 위한 과정은 다음과 같다. 먼저, 데이터 세트를 가지고 있는 하드를 서버화 하여 하드 내의 영상을 웹에서 접근 가능하도록 한다. 그 다음, 웹 코드를 이용하여 하드 내의 영상을 구글 영상 검색의 쿼리로 전송한다.
비교를 위해 CBIR 확장 모델과 기본 모델 모두 10 에폭(epoch)을 학습하였다. 학습률(learning rate)은 0.
우리의 기술의 효과를 측정하기 위하여 CIFAR-100 데이터 세트와 Caltech-256 세트, 그리고 이를 CBIR의 쿼리로 이용하여 얻은 추가 데이터를 딥 러닝으로 학습하고, CBIR 확장 데이터의 활용 유무에 따른 분류기의 정확도 결과를 비교하였다[3].
대상 데이터
비교를 위해 기본 CIFAR-100 데이터 세트의 학습 영상 50,000장에 CIFAR100 데이터 세트 내에서 246,775장을 추가하여 296,775장으로 양을 늘린 모델도 따로 학습한다. 이 때, 추가한 영상은 1) CIFAR-100 데이터 세트의 학습 영상에 50,000장을 4번 복제한 200,000장의 영상, 2) CBIR에서 유사 영상을 찾지 못한 3,225장만큼의 영상을 CIFAR-100 데이터 세트의 학습 영상 50,000장에서 임의로 제거한 46,775장의 영상이다(총합 246,775장). 이는 기본 모델이라 후술한다.
딥 러닝 학습 실험의 모델은 다음과 같이 두 모델로 나뉜다. 1) CIFAR-100 데이터 세트의 학습영상인 총 50,000장과 2) CBIR을 통해 획득한 추가 246,775장(원래는 50,000장의 5배인 250,000장이어야 하나, 3,225장은 유사 영상을 찾지 못해 손실 됨)을 추가하여 296,775장을 학습한다. 이를 CBIR 확장 모델이라 후술한다.
Caltech-256의 경우, 테스트 세트가 따로 존재하지 않아 전체 데이터 세트의 5분의 1인 임의의 4,121장을 유효성 검사 세트로 지정하고 나머지 26,486을 학습을 위한 데이터 세트로 지정하였다. CBIR을 이용하여 획득한 영상은 131,220장으로(학습 데이터 세트의 242장이 검색에 실패하였다) 총 157,706장의 학습 데이터세트가 만들어졌고 비교를 위한 데이터 세트는 CIFAR100과 같은 방법으로 기존 24,486장의 데이터 세트를 157,706장으로 복제하여 만들어졌다. 이후의 실험은 CIFAR100 데이터 세트의 실험과 동일하게 이루어졌다.
이를 CBIR 확장 모델이라 후술한다. 비교를 위해 기본 CIFAR-100 데이터 세트의 학습 영상 50,000장에 CIFAR100 데이터 세트 내에서 246,775장을 추가하여 296,775장으로 양을 늘린 모델도 따로 학습한다. 이 때, 추가한 영상은 1) CIFAR-100 데이터 세트의 학습 영상에 50,000장을 4번 복제한 200,000장의 영상, 2) CBIR에서 유사 영상을 찾지 못한 3,225장만큼의 영상을 CIFAR-100 데이터 세트의 학습 영상 50,000장에서 임의로 제거한 46,775장의 영상이다(총합 246,775장).
그 결과로 검색 결과 도메인(그림 2의 위)을 획득하고 도메인을 분석하여 유사 이미지 원도우(window)의 도메인(그림 2의 아래)을 획득한다. 최종적으로 유사 이미지 윈도우의 도메인을 분석하여 유사 영상 5장의 source url을 획득하고 다운로드한다. 이 과정은 그림 2에, 과정을 통해 얻은 영상의 예는 그림 4에 나타나 있다.
이론/모형
만약, 검색 결과에 충분한 양의 영상이 없거나 아예 유사 영상이 없을 경우 가능한 범위의 영상만을 다운로드한다. 웹 소스 분석은 크롬 브라우저(Chrome browser)의 개발자 도구를 이용해 이루어졌다. 이 과정은 그림 2에 나타나 있다.
학습에는 빠르고 효과적인 실험을 위해 파라미터 수가 적고 학습 효율이 높은 Inception Net V1 모델을 사용하였다[2]. InceptionNet V1 모델의 구조는 그림 5와 같으며, 파란 블록은 CNN 모듈, 빨간 블록은 Pooling 모듈, 녹색 블록은 normalize와 concatenate 모듈 그리고 노란 블록은 soft-max모듈이다.
성능/효과
실험을 통해, CBIR을 이용한 데이터 확장이 효과적임을 보였다. CIFAR-100 데이터 세트와 Caltech-256 데이터 세트는 학습을 위한 충분한 데이터 양이 확보된 데이터 세트이며 데이터 세트의 크기가 동일함에도 불구하고 정확도의 향상이 있었다. 이것이 의미하는 것은 같은 영상을 반복 학습하는 것에 비해 다양한 영상을 이용하여 학습할수록 딥러닝의 학습이 더 효율적이며 CBIR을 통해 획득한 영상이 학습에 사용해도 될 정도로 유효하다는 것이다.
실험 결과, 기본 모델에 비해 CBIR 확장 모델이 CIFAR100 테스트 세트 Top-1 정확도에서 약 1.2%, Caltech-256 유효성 검사 세트 Top-1에서는 약 0.8%의 향상을 이뤘다. 결과는 [표 1]에 나타나 있다.
실험을 통해, CBIR을 이용한 데이터 확장이 효과적임을 보였다. CIFAR-100 데이터 세트와 Caltech-256 데이터 세트는 학습을 위한 충분한 데이터 양이 확보된 데이터 세트이며 데이터 세트의 크기가 동일함에도 불구하고 정확도의 향상이 있었다.
후속연구
CBIR로 획득한 영상이 영상 분류 학습의 overfitting을 줄여 분류 정확도를 높이는 것을 목표로 하였고, 실험을 통해 분류 정확도가 높아진 것을 확인하였다. 그러나 CBIR의 특성상, 사용자가 원하지 않는 영상이나 질이 낮은 영상을 추가 데이터 세트로 획득할 가능성이 있기 때문에 사용자는 자신의 적용 환경에 맞게 우리가 제안한 방법을 사용해야 원하는 결과를 얻을 수 있을 것이다. 또한 최근 Bing, 얀덱스 그리고 바이두 등 검색 엔진이나 자체적으로 많은 양의 데이터 세트를 보유하고 있는 웹사이트 등에서 이미지 기반 검색 서비스를 제공하기 시작한 추세다.
질의응답
핵심어
질문
논문에서 추출한 답변
작은 데이터 세트를 큰 데이터 세트로 만드는 시도들에는 어떤 것들이 있는가?
딥 러닝의 학습을 위해서 일반적으로 많은 양의 데이터가 필요하다. 그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다. 그러나 이러한 기법들은 이미 보유하고 있는 데이터 세트만을 이용하기 때문에 확장성에 제약을 갖는다.
딥 러닝의 학습을 위해 필요한 것은?
딥 러닝의 학습을 위해서 일반적으로 많은 양의 데이터가 필요하다. 그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다.
회전, 반전, 필터링 등의 데이터 확장 기법에는 어떤 문제점이 있는가?
그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다. 그러나 이러한 기법들은 이미 보유하고 있는 데이터 세트만을 이용하기 때문에 확장성에 제약을 갖는다. 이런 문제를 해결하기 위해 본고에서는 보유하고 있는 영상 데이터를 이용하여 새로운 영상 데이터를 획득하는 기술을 제안한다.
참고문헌 (7)
R. Datta, J. Li, and J.Z. Wang, "Content-Based Image Retrieval: Approaches and Trends of the New Age," Proceedings of the 7th ACM SIGMM international workshop on Multimedia information retrieval, ACM, New York, USA, pp.253-262, November, 2005, doi:10.1145/1101826.1101866.
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "Going deeper with convolutions," Computer Vision and Pattern Recognition(CVPR), Boston, USA, June, 2015, doi:10.1109/CVPR.2015.7298594.
G. Griffin, A. Holub, and P. Perona. "Caltech-256 object category dataset," California Institute of Technology, 2007.
A. Krizhevsky, V. Nair, and G. Hinton, "The CIFAR-10 dataset," 2014, http://www.cs.toronto.edu/kriz/cifar.html.
J. Cho, K. lee, E. Shin, G. Choy. S. Do "How much data is needed to train a medical image deep learning system to achieve necessary high accuracy?," 2015. https://arxiv.org/abs/1511.06348.
K. Yee, K. Swearingen, K. Li, and M. Hearst, "Faceted metadata for image search and browsing," Proceedings of the SIGCHI conference on Human factors in computing systemsm, Florida, USA, April, 2003, doi:10.1145/642611.642681.
A. Radford, M. Luke, and C. Soumith, "Unsupervised representation learning with deep convolutional generative adversarial networks," International Conference on Learning Representations(ICLR), San Juan, Puerto Rico, May, 2016.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.