[논문]주의 집중 기법을 활용한 객체 검출 모델

김근식; 배정수; 차의영

doi:10.6109/jkiice.2020.24.12.1581

주의 집중 기법을 활용한 객체 검출 모델
Object Detection Model Using Attention Mechanism 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.24 no.12, 2020년, pp.1581 - 1587

김근식 (Department of Information Convergence Engineering, Pusan National University) , 배정수 (College of Software Convergence, Dongseo University) , 차의영 (Department of Computer Engineering, Pusan National University)

초록
AI-Helper

기계 학습 분야에 합성 곱 신경망이 대두되면서 이미지 처리 문제를 해결하는 모델은 비약적인 발전을 맞이했다. 하지만 그만큼 요구되는 컴퓨팅 자원 또한 상승하여 일반적인 환경에서 이를 학습해보기는 쉽지 않은 일이다. 주의 집중 기법은 본래 순환 신경망의 기울기 소실 문제를 방지하기 위해 제안된 기법이지만, 이는 합성 곱 신경망의 학습에도 유리한 방향으로 활용될 수 있다. 본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하고, 이때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다. 제안하는 모델은 YOLO를 기반으로 한 객체 검출에서 주의 집중 기법을 적용하지 않은 모델에 비해 학습 시간, 성능 모두 우수한 것으로 나타났으며, 특히 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였다. 또한, 이를 통해 일반 사용자의 기계 학습에 대한 접근성 증대가 기대된다.

Abstract ▼ AI-Helper

With the emergence of convolutional neural network in the field of machine learning, the model for solving image processing problems has seen rapid development. However, the computing resources required are also rising, making it difficult to learn from a typical environment. Attention mechanism is originally proposed to prevent the gradient vanishing problem of the recurrent neural network, but this can also be used in a direction favorable to learning of the convolutional neural network. In this paper, attention mechanism is applied to convolutional neural network, and the excellence of the proposed method is demonstrated through the comparison of learning time and performance difference at this time. The proposed model showed that both learning time and performance were superior in object detection based on YOLO compared to models without attention mechanism, and experimentally demonstrated that learning time could be significantly reduced. In addition, this is expected to increase accessibility to machine learning by end users.

주제어

표/그림 (7)

그림 Fig. 1 Intersection over union.
그림 Fig. 2 Proposed model overview.
표 Table. 1 Proposed backbone model structure.
그림 Fig. 3 Comparison of IoU and GIoU.
그림 Fig. 4 Average precision.
표 Table. 2 Performance comparison.
표 Table. 3 Convergence time comparison.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

예측할 때 가중치를 부여한다. 병목 층에서 다음 층으로 넘어가기 전, 즉, 정보량이 줄기 전에 모듈을 추가하여 중요한 부분의 값을 키우고, 덜 중요한 부분의 값을 줄이는 것이 핵심이며, 적은 연산량 증가로도 큰 성능 향상을 보이는 것이 목적이다.
본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하여 이미지 처리 문제에서의 학습 시간을 줄이고, 좀 더 최적화된 모델을 학습할 수 있도록 하는 방법을 제안한다. 백본 모델(Backbone model)로 YOLO(You only look once)[1]의 Darknet을 사용하였으며, 병목 층 (Bottleneck layer)에 주의 집중 기법을 적용하였다.
본 논문에서는 합성 곱 신경망에 주의 집중 및 다양한 최신 기법을 적용하여, 객체 검출에 활용할 수 있는 모델을 설계하였다. 제안하는 모델이 기존 모델보다 성능향상은 물론 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였으며, 이를 통해 일반적인 사용 환경에서의 기계 학습에 대한 접근성 증가가 기대된다.

가설 설정

파이토치(PyTorch)를 사용하였다. 또한, 일반적인 사용자 환경을 가정하여 단일 GPU만을 사용해 학습하였다.

제안 방법

표 1 은 백본에 사용된 모델의 구조를 나타낸 것으로, 특징추출을 위한 9개의 3×3 합성 곱 층과 계산량 감소 및 비선형성 증가를 위한 1개의 1×1 합성 곱 층으로 이루어져 있다. 그리고 해당 구조에 업샘플링(Upsampling)을 추가하여 두 가지 스케일의 특징에 대해 학습을 하고, 이를 기반으로 좀 더 높은 정확도를 가질 수 있도록 모델을 수정하였다.
본 연구에서 사용한 세 가지 기법 모두 단순한 합성 곱과 풀링(Pooling)으로 이루어져 있으며, 어떤 합성 곱 신경망에도 쉽게 끼워 넣을 수 있도록 설계되었다.
제안하는 모델은 윈도우(Microsoft windows) 운영체제 환경에서 파이썬(Python)으로 구현, 학습되었으며, 이를 위해 토치(Torch)기반의 오픈소스 머신 러닝 라이브러리인 파이토치(PyTorch)를 사용하였다. 또한, 일반적인 사용자 환경을 가정하여 단일 GPU만을 사용해 학습하였다.
제안하는 모델은 이러한 백본, 헤드를 연결하는 병목 층에 주의 집중 모듈을 끼워 넣어 성능 향상과 학습 시간 단축을 보이려 한다. 그림 2는 모델의 전체 구조를 도식화한 것으로, 백본에 Tiny Darknet, 병목 층에는 각종 주의 집중 기법(SENet, CBAM, ECA-Net), 그리고 헤드부분에 YOLOv3를 적용하였다.

대상 데이터

학습 데이터는 9, 163장의 학습 데이터 세트, 2, 031장의 검증 데이터 세트, 그리고 821장의 테스트 데이터 세트로 이루어진 옥스퍼드 대학교의 Hand Dataset[17] 을 사용하였으며, 총 800세대(Epoch)동안 학습을 진행하였다.

이론/모형

단축을 보이려 한다. 그림 2는 모델의 전체 구조를 도식화한 것으로, 백본에 Tiny Darknet, 병목 층에는 각종 주의 집중 기법(SENet, CBAM, ECA-Net), 그리고 헤드부분에 YOLOv3를 적용하였다. 사용의 편의를 위해 각 부분은 전부 모듈화되어 원하는 부분을 손쉽게 다른 구조로 변경할 수 있도록 구성되었다.
백본 모델(Backbone model)로 YOLO(You only look once)[1]의 Darknet을 사용하였으며, 병목 층 (Bottleneck layer)에 주의 집중 기법을 적용하였다. 그리고 백본 모델을 단독으로 사용했을 때와 주의 집중 기법을 적용하였을 때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다.
본 연구에서는 성능 측면에서 평균 정밀도와 속도 측면에서 최적 성능으로의 수렴 속도를 평가지표로 사용하였다.

성능/효과

백본 모델(Backbone model)로 YOLO(You only look once)[1]의 Darknet을 사용하였으며, 병목 층 (Bottleneck layer)에 주의 집중 기법을 적용하였다. 그리고 백본 모델을 단독으로 사용했을 때와 주의 집중 기법을 적용하였을 때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다.
여기서 볼 수 있듯이 두 영역의 빈 공간에 대한정보까지 계산에 반영되면서, 손실함수로 사용하기에도 무리가 없다. 또한, 일반적인 IoU에 비해 수렴 속도가 빠르다는 것도 실험적으로 증명되었다.
세 가지 주의 집중 기법 모두 단독 사용과 비교해 일정 부분 성능 향상을 보였으며, CBAM, ECA-Net, SENet 순으로 성능이 우수한 것으로 나타났다. 이때 오버헤드는 3% 미만으로, 학습 파라미터를 많이 증가시키지 않으면서도 검출 성능에 긍정적인 영향을 미침을 확인하였다.
위 결과로 보아 주의 집중 기법을 적용한 모델 모두 성능과 수렴 속도에 이점이 있고, 특히 최적 성능으로의 수렴 속도가 단독 모델에 비해 월등히 빠른 것으로 나타났다.
성능이 우수한 것으로 나타났다. 이때 오버헤드는 3% 미만으로, 학습 파라미터를 많이 증가시키지 않으면서도 검출 성능에 긍정적인 영향을 미침을 확인하였다.
이러한 기울기 소실 문제를 해결하기 위해 주의 집중기법은 전체 입력을 동일한 비율로 참고하는 것이 아니라, 특정 부분에 가중치를 주어 학습을 진행함으로써 해당 문제를 해결함과 동시에 모델의 성능 또한 비약적으로 향상할 수 있었다.
설계하였다. 제안하는 모델이 기존 모델보다 성능향상은 물론 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였으며, 이를 통해 일반적인 사용 환경에서의 기계 학습에 대한 접근성 증가가 기대된다.
표 3은 총 800세대 학습 중 최적 성능으로의 수렴 시간을 나타낸 것으로, 일반적인 Tiny YOLO 모델이 거의 마지막 세대에 이르러 최적 성능으로 수렴한 것과는 달리, 주의 집중 기법이 적용된 모델은 설정한 학습 세대의 절반도 지나지 않아 최적 성능으로 수렴한 것을 확인할 수 있다.

참고문헌 (17)

J. Redmon and A. Farhadi, "YOLOv3: An Incremental Improvement," University of Washington, Washington: WA, Technical Report, 2018.
K. Xu, J. Ba, R. Kiros, K. Cho, and A. Courville, "Show, attend and tell: Neural image caption generation with visual attention," in International conference on machine learning, France: FR, pp. 2048-2057, 2015.
H. Nam, J. Ha, and J. Kim, "Dual attention networks for multimodal reasoning and matching," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 299-307, 2017.
F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, and X. Tang, "Residual attention network for image classification," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 3156-3164, 2017.
J. Hu, L. Shen, and G. Sun, "Squeeze-and-excitation networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Utah: UT, pp. 7132-7141, 2018.
S. Woo, J. Park, J. Lee, and K. So, "Convolutional block attention module," in Proceedings of the European conference on computer vision (ECCV), Germany: DE, pp. 3-19, 2018.
Q. Wang, B. Wu, P. Zhu, P. Li, W. Zuo, and Q. Hu, "ECA-net: Efficient channel attention for deep convolutional neural networks," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Virtual, pp. 11534-11542, 2020.
Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, "Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression," in Proceeding of the AAAI Conference on Artificial Intelligence, New York: NY, vol. 34, no. 7, pp. 12993-13000, 2020.
K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask r-cnn," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 2961-2969, 2017.
H. Qassim, A. Verma, and D. Feinzimer, "Compressed residual-VGG16 CNN model for big data places image recognition," in 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC), Nevada: NV, pp. 169-175, 2018.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Nevada: NV, pp. 770-778, 2016.
G. Huang, Z. Liu, L. V. D. Maaten, and K. Q. Weinberger, "Densely connected convolutional networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 4700-4708, 2017.
T. Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, "Focal loss for dense object detection," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 2980-2988, 2017.
H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, California: CA, pp. 658-666, 2019.
T. Dozat, "Incorporating nesterov momentum into adam," in ICLR 2016 workshop submission, Puerto Rico: PR, 2016.
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," in Proceedings of the 3rd International Conference on Learning Representations (ICLR), California: CA, pp. 1-15, 2015.
A. Mittal, A. Zisserman, and P. Torr. Hand Dataset [Internet]. Available: http://www.robots.ox.ac.uk/-vgg/data/hands/.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증