[논문]주 객체 위치 검출을 위한 Grad-CAM 기반의 딥러닝 네트워크

김선진; 이종근; 곽내정; 류성필; 안재형

doi:10.6109/jkiice.2020.24.2.204

주 객체 위치 검출을 위한 Grad-CAM 기반의 딥러닝 네트워크
Grad-CAM based deep learning network for location detection of the main object 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.24 no.2, 2020년, pp.204 - 211

김선진 (Department of Information and Communication Engineering, Chung-buk National University) , 이종근 (Department of Information and Communication Engineering, Chung-buk National University) , 곽내정 (Department of Information and Communication Engineering, Chung-buk National University) , 류성필 (Department of Information and Communication Engineering, Chung-buk National University) , 안재형 (Department of Information and Communication Engineering, Chung-buk National University)

초록
AI-Helper

본 논문에서는 약한 지도학습을 통한 주 객체 위치 검출을 위한 최적의 딥러닝 네트워크 구조를 제안한다. 제안된 네트워크는 약한 지도학습을 통한 주 객체의 위치 검출 정확도를 향상시키기 위해 컨벌루션 블록을 추가하였다. 추가적인 딥러닝 네트워크는 VGG-16을 기반으로 합성곱 층을 더해주는 5가지 추가적인 블록으로 구성되며 객체의 실제 위치 정보가 필요하지 않는 약한 지도 학습의 방법으로 학습하였다. 또한 객체의 위치 검출에는 약한 지도학습의 방법 중, CAM에서 GAP이 필요하다는 단점을 보완한 Grad-CAM을 사용하였다. 제안한 네트워크는 CUB-200-2011 데이터 셋을 이용하여 성능을 테스트하였으며 Top-1 Localization Error를 산출하였을 때 50.13%의 결과를 얻을 수 있었다. 또한 제안한 네트워크는 기존의 방법보다 주 객체를 검출하는데 더 높은 정확도를 보인다.

Abstract ▼ AI-Helper

In this paper, we propose an optimal deep learning network architecture for main object location detection through weak supervised learning. The proposed network adds convolution blocks for improving the localization accuracy of the main object through weakly-supervised learning. The additional deep learning network consists of five additional blocks that add a composite product layer based on VGG-16. And the proposed network was trained by the method of weakly-supervised learning that does not require real location information for objects. In addition, Grad-CAM to compensate for the weakness of GAP in CAM, which is one of weak supervised learning methods, was used. The proposed network was tested through the CUB-200-2011 data set, we could obtain 50.13% in top-1 localization error. Also, the proposed network shows higher accuracy in detecting the main object than the existing method.

주제어

표/그림 (7)

표 Table. 1 Configuration of proposed additional blocks
그림 Fig. 1 The image that removes unwanted parts through the grad-CAM image and threshold processing.
그림 Fig. 2 Grad-CAM extracted from CUB-200-2011 data sets according to the experimental process
표 Table. 2 Top-1 Localization Error of the main object by threshold processing
그림 Fig. 3 Results of B-Box data generation on Pre-trained VGG-16 and Block C on CUB-200-2011
표 Table. 3 Evaluation of top-1 localization error and top-1 classification accuracy.
표 Table. 4 Comparison of results from Choe and Shim[4] with proposed method

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 CAM의 방법 대신 Grad-CAM 을 활용하여 주 객체의 인식을 통하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다. 본 논문에서는 VGG-16[10] 구조에서 추가적인 컨벌루션 블록을 삽입하여 딥러닝 네트워크 구조에서 컨벌루션 층을 늘리고 학습 과정에서 더욱 많은 특징을 보게 하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다.
Zhang 등[11] 은 너무 큰 값으로 임계값 처리를 하게 되면 유용한 부분을 검출하기 힘들고, 너무 작은 값으로 임계값 처리를 하게 되면 영상에 잡음이 섞일 수 있다고 하였다. 따라서 본 논문에서는 주 객체의 위치 검출의 효율을 최대화하기 위하여 최적의 임계값을 찾았다.
객체 인식의 정확도를 향상하고자 한다. 본 논문에서는 VGG-16[10] 구조에서 추가적인 컨벌루션 블록을 삽입하여 딥러닝 네트워크 구조에서 컨벌루션 층을 늘리고 학습 과정에서 더욱 많은 특징을 보게 하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다. 이러한 방법을 통한 주 객체 인식의 정확도 향상 방법은 다른 연구에서보다 간단히 구현할 수 있으며, 본 논문에서 제안하는 방법은 다른 네트워크와 간단히 결합하여 객체 검출 정확도에 향상을 가져올 수 있다.
본 논문에서는 서로 다른 깊이의 컨벌루션 층을 가진 5개의 블록을 설계하여 컨벌루션 층의 깊이에 따른 주객 체 위치 검출 효율을 비교하며 5개 블록의 결과의 비교로 주 객체 검출 효율이 가장 높은 블록을 찾는다. 서로 다른 5개의 블록은 1개부터 5개의 컨벌루션 층을 추가로 가지며, 컨벌루션 층의 커널은 3×3의 크기로 고정한다.
본 논문에서는 성능 평가 방법을 위해 Ⅱ.SVRC에서 제안한 이미지 분류 효율 알고리즘과 객체 위치 검출 효율 알고리즘을 사용한다[1].
본 논문에서는 약한 지도학습을 통한 주 객체의 위치검출 효율을 높이는 방법으로 기존의 VGG-16 구조에 컨벌루션 층으로 이루어진 추가적인 블록을 제안하고 최적화된 딥러닝 모델(VGG16 + Block C)을 제시하였다. 이렇게 Grad-CAM에 최적화된 딥러닝 모델은 분류 정확도에 큰 영향을 미치지 않으며, 주 객체의 위치 검출 효율은 향상되는 결과를 보였다.
본 논문에서는 이미지 분류와 Grad-CAM을 적용한 객체 검출 성능을 확인하기 위하여 사전 훈련된 VGG-16과 표 1의 추가적인 블록을 삽입한 5개의 네트워크 의총 6가지의 네트워크 모델을 구성하고 이미지 분류 정확도와 객체 위치 검출 정확도를 평가한다.
서로 다른 5개의 블록은 1개부터 5개의 컨벌루션 층을 추가로 가지며, 컨벌루션 층의 커널은 3×3의 크기로 고정한다. 이때 공통으로 1개의 최대 풀링 층을 가지게 설계하였는데, 5개의 블록이 공통으로 1개의 최대 풀링 층을 갖는 이유는 컨벌루션 층의 깊이 외에 다른 변수를 차단하여 컨벌루션 층의 깊이와 객체 검출 효율의 상관관계를 분석하기 위한 것이다. 표 1은 본 논문에서 제안하는 추가적인 블록의 구성을 보여준다.

제안 방법

딥러닝 모델 학습과 예측 모두 Python으로 진행하였다. Python에서 딥러닝을 위해 Tensorflow와 Keras 라이브러리를 병행하여 사용하였다.
GPU를 위한 그래픽 카드는 NVIDIA Geforce GTX1050Ti를 사용했으며 그래픽 메모리는 4GB이다. 딥러닝 모델 학습과 예측 모두 Python으로 진행하였다. Python에서 딥러닝을 위해 Tensorflow와 Keras 라이브러리를 병행하여 사용하였다.
따라서 본 논문에서는 먼저 입력 영상에서 객체를 Grad-CAM을 통해 검출하고, 최적화된 임계값 수치를 찾아내어 B-Box(Bounding Box)를 생성하여 성능 평가에 필요한 데이터를 생성하였다.
또한 VGGNet[10]의 연구결과를 기반으로 객체 위치 검출 정확도를 높이기 위해 VGGNet에 컨벌루션 층을 추가하여 그 성능을 분석하고 약한 지도학습을 통한 주 객체 위치 검출을 위한 최적의 네트워크 구조를 구성한다.
본 논문에서는 주 객체의 위치 검출에 있어서 Grad-CAM 을 검출한 이후 임계값 처리를 수행한다. Zhang 등[11] 은 너무 큰 값으로 임계값 처리를 하게 되면 유용한 부분을 검출하기 힘들고, 너무 작은 값으로 임계값 처리를 하게 되면 영상에 잡음이 섞일 수 있다고 하였다.
623%의 주 객체 위치 검출을 보이며 가장 높은 효율을 보였다. 이후 20% 임계값에서 ∓2% 범위를 추가로 설정하고 1% 간격을 두고 추가로 실험을 진행하였다. 실험결과를 통해 19% 임계값을 주었을 때가장 높은 효율을 보임을 알 수 있었다.
CUB-200-2--011은 각 종의 새들로 이루어진 200가지 클래스 레이블로 이루어져 있으며 물체의 위치에 대한 실제 정보를 포함하고 있다. 학습 과정에서는 두 가지 데이터 셋 모두 이미지 데이터와 클래스 레이블만을 활용하여 약한 지도학습 방법으로 학습하였다. 물체의 위치에 대한 실제 정보 레이블은 평가 과정에서만 사용한다.

대상 데이터

PC 메모리는 12GB이며, 딥러닝을 위한 GPU를 따로 사용하였다. GPU를 위한 그래픽 카드는 NVIDIA Geforce GTX1050Ti를 사용했으며 그래픽 메모리는 4GB이다. 딥러닝 모델 학습과 예측 모두 Python으로 진행하였다.
본 논문에서는 CUB-200-2011(Caltech-USCD Bird--s-200-2011)[12]을 데이터를 활용하였다. CUB-200-2--011은 각 종의 새들로 이루어진 200가지 클래스 레이블로 이루어져 있으며 물체의 위치에 대한 실제 정보를 포함하고 있다.
본 논문의 실험은 윈도우 환경에서 진행하였다. PC 메모리는 12GB이며, 딥러닝을 위한 GPU를 따로 사용하였다.

데이터처리

이다. 최적화된 임계값을 검출하기 위한 실험은 CUB-20--0-2011 데이터 셋을 사용하였으며, Grad-CAM을 통해 검출한 영상에서의 최대 픽셀에 따라 임계값을 설정하여 진행하였다. 먼저 임계값을 10%~35%의 범위에서 5%의 간격을 두고 실험을 진행한 경우, 20%의 임계 값을 주었을 때 35.

이론/모형

Ⅱ.SVRC에서 제안한 이미지 분류 효율 알고리즘과 객체 위치 검출 효율 알고리즘을 사용한다[1]. 해당 성능 평가 방법은 다양한 연구에서 활용되고 있으며, ILSVRC에서 사용된 객체의 위치 검출 에러 측정 방식은 기존의 IoU 방식보다 명확한 기준을 가진 방식이다.
따라서 본 논문에서는 약한 지도학습을 통한 주 객체의 위치 검출 방법 중, 기존의 CNN 구조를 변경하지 않는 Grad-CAM의 방법을 활용하여 주 객체의 위치를 검출한다. 또한 VGGNet[10]의 연구결과를 기반으로 객체 위치 검출 정확도를 높이기 위해 VGGNet에 컨벌루션 층을 추가하여 그 성능을 분석하고 약한 지도학습을 통한 주 객체 위치 검출을 위한 최적의 네트워크 구조를 구성한다.
신경망의 구조를 가진다. 이런 합성곱 신경망의 구조에서 주 객체의 위치를 검출하기 위하여 본 논문에서는 CAM의 일반화된 방법인 Grad-CAM을 사용한다. Grad-CAM을 검출한 후 출력된 이미지는 최적화된 임계 값 수치를 통해 임계값 처리 과정을 거친다.

성능/효과

결론적으로 제안하는 추가적인 블록은 기존의 사전학습된 VGG-16에서 완전 연결 계층 이전에 추가로 삽입되고, 컨벌루션 층의 깊이를 늘려 기존의 구조보다 더욱 많은 특징을 학습한 결과를 출력한다.
또한 제안된 네트워크를 구성하는 실험 방법을 통하여, 컨벌루션 층의 깊이에 따른 주 객체의 위치 검출 효율 향상과 그 한계점을 보여주었다. 또한, 기존의 CNN 구조에서 단순히 컨벌루션 층을 늘려주는 추가적인 블록을 사용함으로써 다양한 CNN 구조의 딥러닝 네트워크에서 사용할 수 있음을 보여주었다.
영향을 미치지 않게 한다. 또한, 추가된 블록을 사용하면 학습 과정에서 입력 이미지의 다양한 특징을 학습하기 때문에, 주 객체 검출 정확도는 증가시키는 효과가 있다.
최적화된 임계값을 검출하기 위한 실험은 CUB-20--0-2011 데이터 셋을 사용하였으며, Grad-CAM을 통해 검출한 영상에서의 최대 픽셀에 따라 임계값을 설정하여 진행하였다. 먼저 임계값을 10%~35%의 범위에서 5%의 간격을 두고 실험을 진행한 경우, 20%의 임계 값을 주었을 때 35.623%의 주 객체 위치 검출을 보이며 가장 높은 효율을 보였다. 이후 20% 임계값에서 ∓2% 범위를 추가로 설정하고 1% 간격을 두고 추가로 실험을 진행하였다.
이후 20% 임계값에서 ∓2% 범위를 추가로 설정하고 1% 간격을 두고 추가로 실험을 진행하였다. 실험결과를 통해 19% 임계값을 주었을 때가장 높은 효율을 보임을 알 수 있었다.
본 논문에서는 VGG-16[10] 구조에서 추가적인 컨벌루션 블록을 삽입하여 딥러닝 네트워크 구조에서 컨벌루션 층을 늘리고 학습 과정에서 더욱 많은 특징을 보게 하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다. 이러한 방법을 통한 주 객체 인식의 정확도 향상 방법은 다른 연구에서보다 간단히 구현할 수 있으며, 본 논문에서 제안하는 방법은 다른 네트워크와 간단히 결합하여 객체 검출 정확도에 향상을 가져올 수 있다.
이렇게 Grad-CAM에 최적화된 딥러닝 모델은 분류 정확도에 큰 영향을 미치지 않으며, 주 객체의 위치 검출 효율은 향상되는 결과를 보였다. 또한 제안된 네트워크를 구성하는 실험 방법을 통하여, 컨벌루션 층의 깊이에 따른 주 객체의 위치 검출 효율 향상과 그 한계점을 보여주었다.
주 객체의 검출 효율을 보면 완전 연결 계층을 제거한 CAM을 사용한 Choe와 Shim의 방법보다 본 논문에서 제시한 기존의 VGG-16 구조에서 Block C를 추가한 Proposed Method를 사용했을 때 더 높은 정확도를 가지는 것을 알 수 있다.

후속연구

또한 Fickle-Net[14]의 연구에서 보여준 Drop-Out에 따른 주 객체의 위치 검출 정확도의 증가 방법에 기반을 두어 더 나은 정확도를 가져올 수 있을 것으로 기대된다.
이렇게 Grad-CAM에 최적화된 딥러닝 모델은 분류 정확도에 큰 영향을 미치지 않으며, 주 객체의 위치 검출 효율은 향상되는 결과를 보였다. 또한 제안된 네트워크를 구성하는 실험 방법을 통하여, 컨벌루션 층의 깊이에 따른 주 객체의 위치 검출 효율 향상과 그 한계점을 보여주었다. 또한, 기존의 CNN 구조에서 단순히 컨벌루션 층을 늘려주는 추가적인 블록을 사용함으로써 다양한 CNN 구조의 딥러닝 네트워크에서 사용할 수 있음을 보여주었다.
본 논문은 제안하는 추가적인 블록을 시간적, 물리적 제약으로 인하여 VGG-16의 네트워크 구조에서만 실험했으므로 향후 제안하는 방법을 ResNet[13]이나 GoogLeNet 등과 같은 다양한 CNN의 구조에서 적용하는 연구가 필요하다. 또한 Fickle-Net[14]의 연구에서 보여준 Drop-Out에 따른 주 객체의 위치 검출 정확도의 증가 방법에 기반을 두어 더 나은 정확도를 가져올 수 있을 것으로 기대된다.

참고문헌 (14)

O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. "ImageNet Large Scale Visual Recognition Challenge," arXiv:1409.0575v3, 2015.
S. Ren, K. He, R. Girshick, and J. Sun. "Faster R-CNN: towards real-time object detection with region proposal networks," arXiv:1506.01497v3, 2016.
W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu, and A. C. Berg., "SSD: Single Shot MultiBox Detector," arXiv:1512.02325v5, 2016.
J. Choe, and H. Shim, "ADL:Attention-based Dropout Layer for Weakly Supervised Object Localization," arXiv:1908.10028v1, 2019.
Y. Wei, J. Feng, X. Liang, M. M. Cheng, Y. Zhao, and S. Yan, "Object region mining with adversarial erasing: A simple classification to semantic segmentation approach," arXiv:1703.08448v3, 2018.
B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. "Learning Deep Features for Discriminative Localization," arXiv:1512.04150, 2015.
R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization," arXiv: 1610.02391, 2016.
K. K. Singh, and Y. J. Lee, "Hide-and-Seek: Forcing a network to be meticulous for weakly-supervised object and action localization," arXiv:1704.04232v2, 2017.
M. Lin, Q. Chen, and S. Yan, "Network In Network," arXiv:1312.4400, 2013.
K. Simonyan, and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv: 1409.1556, 2014.
X. Zhang, Y. Wei, J. Feng, Y. Yang, and T. Huang, "Adversarial complementary learning for weakly supervised object localization," arXiv:1804.06962v1, 2018.
C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, "The Caltech-UCSD Birds-200-2011 Dataset," California Institute of Technology, 2011.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," arXiv:1512.03385, 2015.
J. Lee, E. Kim, S. Lee, J. Lee, and S. Yoon, "FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference," arXiv:1902.10421, 2019.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증