$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

주 객체 위치 검출을 위한 Grad-CAM 기반의 딥러닝 네트워크
Grad-CAM based deep learning network for location detection of the main object 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.24 no.2, 2020년, pp.204 - 211  

김선진 (Department of Information and Communication Engineering, Chung-buk National University) ,  이종근 (Department of Information and Communication Engineering, Chung-buk National University) ,  곽내정 (Department of Information and Communication Engineering, Chung-buk National University) ,  류성필 (Department of Information and Communication Engineering, Chung-buk National University) ,  안재형 (Department of Information and Communication Engineering, Chung-buk National University)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 약한 지도학습을 통한 주 객체 위치 검출을 위한 최적의 딥러닝 네트워크 구조를 제안한다. 제안된 네트워크는 약한 지도학습을 통한 주 객체의 위치 검출 정확도를 향상시키기 위해 컨벌루션 블록을 추가하였다. 추가적인 딥러닝 네트워크는 VGG-16을 기반으로 합성곱 층을 더해주는 5가지 추가적인 블록으로 구성되며 객체의 실제 위치 정보가 필요하지 않는 약한 지도 학습의 방법으로 학습하였다. 또한 객체의 위치 검출에는 약한 지도학습의 방법 중, CAM에서 GAP이 필요하다는 단점을 보완한 Grad-CAM을 사용하였다. 제안한 네트워크는 CUB-200-2011 데이터 셋을 이용하여 성능을 테스트하였으며 Top-1 Localization Error를 산출하였을 때 50.13%의 결과를 얻을 수 있었다. 또한 제안한 네트워크는 기존의 방법보다 주 객체를 검출하는데 더 높은 정확도를 보인다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose an optimal deep learning network architecture for main object location detection through weak supervised learning. The proposed network adds convolution blocks for improving the localization accuracy of the main object through weakly-supervised learning. The additional deep...

주제어

표/그림 (7)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 CAM의 방법 대신 Grad-CAM 을 활용하여 주 객체의 인식을 통하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다. 본 논문에서는 VGG-16[10] 구조에서 추가적인 컨벌루션 블록을 삽입하여 딥러닝 네트워크 구조에서 컨벌루션 층을 늘리고 학습 과정에서 더욱 많은 특징을 보게 하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다.
  • Zhang 등[11] 은 너무 큰 값으로 임계값 처리를 하게 되면 유용한 부분을 검출하기 힘들고, 너무 작은 값으로 임계값 처리를 하게 되면 영상에 잡음이 섞일 수 있다고 하였다. 따라서 본 논문에서는 주 객체의 위치 검출의 효율을 최대화하기 위하여 최적의 임계값을 찾았다.
  • 객체 인식의 정확도를 향상하고자 한다. 논문에서는 VGG-16[10] 구조에서 추가적인 컨벌루션 블록을 삽입하여 딥러닝 네트워크 구조에서 컨벌루션 층을 늘리고 학습 과정에서 더욱 많은 특징을 보게 하여 약한 지도학습을 통한 객체 인식의 정확도를 향상하고자 한다. 이러한 방법을 통한 주 객체 인식의 정확도 향상 방법은 다른 연구에서보다 간단히 구현할 수 있으며, 본 논문에서 제안하는 방법은 다른 네트워크와 간단히 결합하여 객체 검출 정확도에 향상을 가져올 수 있다.
  • 본 논문에서는 서로 다른 깊이의 컨벌루션 층을 가진 5개의 블록을 설계하여 컨벌루션 층의 깊이에 따른 주객 체 위치 검출 효율을 비교하며 5개 블록의 결과의 비교로 주 객체 검출 효율이 가장 높은 블록을 찾는다. 서로 다른 5개의 블록은 1개부터 5개의 컨벌루션 층을 추가로 가지며, 컨벌루션 층의 커널은 3×3의 크기로 고정한다.
  • 본 논문에서는 성능 평가 방법을 위해 Ⅱ.SVRC에서 제안한 이미지 분류 효율 알고리즘과 객체 위치 검출 효율 알고리즘을 사용한다[1].
  • 본 논문에서는 약한 지도학습을 통한 주 객체의 위치검출 효율을 높이는 방법으로 기존의 VGG-16 구조에 컨벌루션 층으로 이루어진 추가적인 블록을 제안하고 최적화된 딥러닝 모델(VGG16 + Block C)을 제시하였다. 이렇게 Grad-CAM에 최적화된 딥러닝 모델은 분류 정확도에 큰 영향을 미치지 않으며, 주 객체의 위치 검출 효율은 향상되는 결과를 보였다.
  • 본 논문에서는 이미지 분류와 Grad-CAM을 적용한 객체 검출 성능을 확인하기 위하여 사전 훈련된 VGG-16과 표 1의 추가적인 블록을 삽입한 5개의 네트워크 의총 6가지의 네트워크 모델을 구성하고 이미지 분류 정확도와 객체 위치 검출 정확도를 평가한다.
  • 서로 다른 5개의 블록은 1개부터 5개의 컨벌루션 층을 추가로 가지며, 컨벌루션 층의 커널은 3×3의 크기로 고정한다. 이때 공통으로 1개의 최대 풀링 층을 가지게 설계하였는데, 5개의 블록이 공통으로 1개의 최대 풀링 층을 갖는 이유는 컨벌루션 층의 깊이 외에 다른 변수를 차단하여 컨벌루션 층의 깊이와 객체 검출 효율의 상관관계를 분석하기 위한 것이다. 표 1은 본 논문에서 제안하는 추가적인 블록의 구성을 보여준다.
본문요약 정보가 도움이 되었나요?

참고문헌 (14)

  1. O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. "ImageNet Large Scale Visual Recognition Challenge," arXiv:1409.0575v3, 2015. 

  2. S. Ren, K. He, R. Girshick, and J. Sun. "Faster R-CNN: towards real-time object detection with region proposal networks," arXiv:1506.01497v3, 2016. 

  3. W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu, and A. C. Berg., "SSD: Single Shot MultiBox Detector," arXiv:1512.02325v5, 2016. 

  4. J. Choe, and H. Shim, "ADL:Attention-based Dropout Layer for Weakly Supervised Object Localization," arXiv:1908.10028v1, 2019. 

  5. Y. Wei, J. Feng, X. Liang, M. M. Cheng, Y. Zhao, and S. Yan, "Object region mining with adversarial erasing: A simple classification to semantic segmentation approach," arXiv:1703.08448v3, 2018. 

  6. B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. "Learning Deep Features for Discriminative Localization," arXiv:1512.04150, 2015. 

  7. R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization," arXiv: 1610.02391, 2016. 

  8. K. K. Singh, and Y. J. Lee, "Hide-and-Seek: Forcing a network to be meticulous for weakly-supervised object and action localization," arXiv:1704.04232v2, 2017. 

  9. M. Lin, Q. Chen, and S. Yan, "Network In Network," arXiv:1312.4400, 2013. 

  10. K. Simonyan, and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv: 1409.1556, 2014. 

  11. X. Zhang, Y. Wei, J. Feng, Y. Yang, and T. Huang, "Adversarial complementary learning for weakly supervised object localization," arXiv:1804.06962v1, 2018. 

  12. C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, "The Caltech-UCSD Birds-200-2011 Dataset," California Institute of Technology, 2011. 

  13. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," arXiv:1512.03385, 2015. 

  14. J. Lee, E. Kim, S. Lee, J. Lee, and S. Yoon, "FickleNet: Weakly and Semi-supervised Semantic Image Segmentation using Stochastic Inference," arXiv:1902.10421, 2019. 

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로