콘텐트 기반 이미지 검색은 기존의 태그 또는 레이블이 있는 텍스트 기반의 검색이 아닌 이미지의 특징을 이용하여 검색하는 방법이다. 실생활 이미지 데이터는 태그나 레이블이 달려있는 경우가 많지 않기 때문에 텍스트 기반의 검색 방법을 사용하기 힘든 경우가 있다. 또한, 기존에 주로 사용되는 이미지 특징 벡터의 유사도를 사용하여 검색하는 방법은 추출 벡터의 유사도 기준으로 사용자가 의도한 결과가 나올지 확신할 수 없다. 예를 들어 사용자가 입력한 질의 이미지와 검색된 이미지들의 종류가 일치하는지의 문제가 있다. 본 논문에서는 사용자가 질의 이미지의 클래스를 예상하고 결과도 동일한 클래스를 원한다는 가정에 착안하여 이미지 검색 엔진의 성능을 개선하였다. 기존의 유사도 기반의 검색에 머신 러닝 기법을 사용한 이미지 분류기를 적용하여 질의와 동일한 클래스의 결과를 찾는 방법을 제안하였으며, 그 성능을 20개 카테고리에 속하는 11,530개의 이미지로 구성되어 있는 PASCAL VOC 공개 데이터를 이용하여 검증하였다.
콘텐트 기반 이미지 검색은 기존의 태그 또는 레이블이 있는 텍스트 기반의 검색이 아닌 이미지의 특징을 이용하여 검색하는 방법이다. 실생활 이미지 데이터는 태그나 레이블이 달려있는 경우가 많지 않기 때문에 텍스트 기반의 검색 방법을 사용하기 힘든 경우가 있다. 또한, 기존에 주로 사용되는 이미지 특징 벡터의 유사도를 사용하여 검색하는 방법은 추출 벡터의 유사도 기준으로 사용자가 의도한 결과가 나올지 확신할 수 없다. 예를 들어 사용자가 입력한 질의 이미지와 검색된 이미지들의 종류가 일치하는지의 문제가 있다. 본 논문에서는 사용자가 질의 이미지의 클래스를 예상하고 결과도 동일한 클래스를 원한다는 가정에 착안하여 이미지 검색 엔진의 성능을 개선하였다. 기존의 유사도 기반의 검색에 머신 러닝 기법을 사용한 이미지 분류기를 적용하여 질의와 동일한 클래스의 결과를 찾는 방법을 제안하였으며, 그 성능을 20개 카테고리에 속하는 11,530개의 이미지로 구성되어 있는 PASCAL VOC 공개 데이터를 이용하여 검증하였다.
Content-Based image retrieval is a method to search by image features such as local color, texture, and other image content information, which is different from conventional tag or labeled text-based searching. In real life data, the number of images having tags or labels is relatively small, so it ...
Content-Based image retrieval is a method to search by image features such as local color, texture, and other image content information, which is different from conventional tag or labeled text-based searching. In real life data, the number of images having tags or labels is relatively small, so it is hard to search the relevant images with text-based approach. Existing image search method only based on image feature similarity has limited performance and does not ensure that the results are what the user expected. In this study, we propose and validate a machine learning based approach to improve the performance of the image search engine. We note that when users search relevant images with a query image, they would expect the retrieved images belong to the same category as that of the query. Image classification method is combined with the traditional image feature similarity method. The proposed method is extensively validated on a public PASCAL VOC dataset consisting of 11,530 images from 20 categories.
Content-Based image retrieval is a method to search by image features such as local color, texture, and other image content information, which is different from conventional tag or labeled text-based searching. In real life data, the number of images having tags or labels is relatively small, so it is hard to search the relevant images with text-based approach. Existing image search method only based on image feature similarity has limited performance and does not ensure that the results are what the user expected. In this study, we propose and validate a machine learning based approach to improve the performance of the image search engine. We note that when users search relevant images with a query image, they would expect the retrieved images belong to the same category as that of the query. Image classification method is combined with the traditional image feature similarity method. The proposed method is extensively validated on a public PASCAL VOC dataset consisting of 11,530 images from 20 categories.
이러한 방법의 단점은 이미지 벡터의 유사도로 검색된 이미지가 사용자의 검색 의도와 일치하는 결과를 보이는지 명확하지 않다. 이러한 점을 보완하기 위해 본 연구에서는 사용자의 질의 이미지와 유사도를 기반으로 한 결과 이미지에 이미지 분류기를 적용하여 질의 이미지와 결과 이미지가 동일한 분류항목일 때 검색 결과로 보여주는 접근방식을 제안한다.
제안 방법
결과적으로 질의 이미지와 같은 종류의 이미지만 검색되는 결과를 얻을 수 있다. 본 논문에서는 검색이미지의 수를 상위 50, 100, 150으로 설정하였고, 분류기의 상위 예측 카테고리는 3, 5개로 고정하여 각각의 성능을 측정하고 서로 다른 분류 알고리즘을 적용하여 성능을 비교, 분석한다.
대상 데이터
본 연구에서 사용한 데이터는 PASCAL VOC[4] 공개 데이터이다. PASCAL VOC는 20개의 클래스로 구성된 총 11,530개의 이미지 데이터이다.
데이터처리
이미지 분류기를 학습시켜 주어진 데이터의 예측 정확도를 평가하였다. 데이터는 PASCAL VOC데이터인 11,530개 데이터를 80%는 훈련데이터로 사용하고 20%는 테스트 데이터로 사용하여 성능평가를 진행하였다. SVM, SSL, MLP, RF 분류기를 따로 훈련하여 성능을 비교하였다.
이론/모형
이미지 분류 알고리즘으로는 SVM (Support Vector Machine)[8], RF (Random Forest)[9], SSL (Semi-Supervised Learning)[10] 그리고, MLP (Multilayer Perceptron)[11]을 사용하였다. SVM은 전통적으로 머신러닝 분류 문제에서 높은 성능을 보여왔던 강점이 있는 반면 분류하는 클래스의 개수가 많을 때 성능이 낮아지는 단점이 있다.
성능/효과
기존의 유사도 접근의 방법에 분류기를 사용한 방법이 전체적인 성능향상이 있는 것을 확인 할 수 있었다. 그림 9는 지금까지 분류기를 적용한 모델들의 MAP 성능 값을 비교한 것이다.
상위 3개의 모델은 모두 MLP를 적용한 것이고, 뒤를 따르는 3개는 랜덤포레스트 모델을 적용한 모델이었다. 분류기의 성능만 비교했을 때 SVM 성능이 가장 우수하였지만 상위 Top k 방법을 적용하였을 때 상위권 확률에 포함되는 카테고리가 랜덤포레스트와 MLP가 우수한 것으로 분석된다. 향후 연구로서 유사도 방법의 기본 성능을 매칭 방법[14]을 활용하여 향상시키고, 분류기 정확도를 높이는 연구를 진행하여 이 미지 검색 엔진의 성능을 높이는 접근으로 연구가 진행될 것이다.
후속연구
분류기의 성능만 비교했을 때 SVM 성능이 가장 우수하였지만 상위 Top k 방법을 적용하였을 때 상위권 확률에 포함되는 카테고리가 랜덤포레스트와 MLP가 우수한 것으로 분석된다. 향후 연구로서 유사도 방법의 기본 성능을 매칭 방법[14]을 활용하여 향상시키고, 분류기 정확도를 높이는 연구를 진행하여 이 미지 검색 엔진의 성능을 높이는 접근으로 연구가 진행될 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
BoVW의 장점은 무엇인가?
이미지의 유사도를 구하기 위해 이미지의 특징벡터를 추출해야 하는데, 이 과정은 SIFT (Scale-invariant feature transform)[5,6] 알고리즘을 사용하였고, BoVW(Bag of Visual Word)[7]를 이용하여 이미지들이 모두 같은 길이의 이미지벡터로 표현되도록 하였다. BoVW는 하나의 이미지가 여러 시각단어의 묶음으로 표현될 수 있다는 이론을 바탕으로 벡터의 사이즈를 시각단어의 수로 고정할 수 있는 장점으로 SIFT과 함께 이미지 특징 벡터 추출에 많이 사용되는 알고리즘이다.
콘텐트 기반 이미지 검색은 무엇인가?
콘텐트 기반 이미지 검색은 기존의 태그 또는 레이블이 있는 텍스트 기반의 검색이 아닌 이미지의 특징을 이용하여 검색하는 방법이다. 실생활 이미지 데이터는 태그나 레이블이 달려있는 경우가 많지 않기 때문에 텍스트 기반의 검색 방법을 사용하기 힘든 경우가 있다.
랜덤 포레스트의 장점은 무엇인가?
마지막으로 랜덤 포레스트 (RF, Random Forest)는 앙상블 학습 방법의 하나로써 다수의 결정 트리를 이용하여 하나의 의견으로 수렴하는 방식을 취한다. 이러한 방법은 다수의 약한 분류기를 이용하여 하나의 강한 분류기를 만들어내는데 특정한 데이터에 편향되지 않는 장점과 결정트리의 장점인 예측 클래스가 많은 경우 학습하기 좋은 강점이 있다.
참고문헌 (14)
P. S. Suhasini, K. Krishna, and I. M. Krishna, "CBIR using color histogram processing," J. Theoretical & Appl. Inf. Technol., vol. 6, no. 1, 2009.
W. J. Han and K. A. Sohn, "Image classification approach for Improving CBIR system performance," in Proc. 2016 KICS Conf. Winter, pp. 308-309, Jeongseon, Korea, Jan. 2016.
J. S. Song, S. J. Hur, Y. W. Park, and J. H. Choi, "User positioning method based on image similarity comparison using single camera," J. KICS, vol. 40, no. 8, pp. 1655-1666, Aug. 2015.
Y. Ke and R. Sukthankar, "PCA-SIFT: A more distinctive representation for local image descriptors," in Proc. IEEE Computer Soc. Conf. CVPR 2004, vol. 2, 2004.
H. J. Jung and J. S. Yoo, "Feature matching algorithm robust to viewpoint change," J. KICS, vol. 40, no. 12, pp. 2363-2371, Dec. 2015.
J. Yang, Y. G. Jiang, A. G. Hauptmann, C. W. Ngo, "Evaluating bag-of-visual-words representations in scene classification," in Proc. MIR '07, pp. 197-206, Sept. 2007.
S. Jain, "A machine learning approach: SVM for image classification in CBIR," IJAIEM, vol. 2, no. 4, Apr. 2013.
A. Liaw and M. Wiener, "Classification and regression by randomForest" R news, vol. 2, no. 3, pp. 18-22, Dec. 2002.
X. Zhu, In Encyclopedia of Machine Learning, Springer US, "Semi-supervised learning," pp. 892-897, 2011.
B. B. Chaudhuri and Ujjwal Bhattacharya, "Efficient training and improved performance of multilayer perceptron in pattern classification," Neurocomputing, vol 34, no. 1, pp. 11-27, 2000.
M. Lin, Q. Chen, and S. Yan. "Network in network," arXiv preprint arXiv: 1312.4400, Dec. 2013.
Tyler Byers, "Mean average precision" Retrieved Apr. 29, 2016. https://www.kaggle.com/wiki/MeanAveragePrecision.
G. R. Choi, H. W. Jung, J. H. Lee, "Contens-based image retrieval system design of shopping mall using SIFT matching," KIIS Spring Conf., vol. 22, no. 1, pp. 161-163, Mokpo, Korea, Apr. 2012.
이 논문을 인용한 문헌
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.