기계 학습 분야에 합성 곱 신경망이 대두되면서 이미지 처리 문제를 해결하는 모델은 비약적인 발전을 맞이했다. 하지만 그만큼 요구되는 컴퓨팅 자원 또한 상승하여 일반적인 환경에서 이를 학습해보기는 쉽지 않은 일이다. 주의 집중 기법은 본래 순환 신경망의 기울기 소실 문제를 방지하기 위해 제안된 기법이지만, 이는 합성 곱 신경망의 학습에도 유리한 방향으로 활용될 수 있다. 본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하고, 이때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다. 제안하는 모델은 YOLO를 기반으로 한 객체 검출에서 주의 집중 기법을 적용하지 않은 모델에 비해 학습 시간, 성능 모두 우수한 것으로 나타났으며, 특히 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였다. 또한, 이를 통해 일반 사용자의 기계 학습에 대한 접근성 증대가 기대된다.
기계 학습 분야에 합성 곱 신경망이 대두되면서 이미지 처리 문제를 해결하는 모델은 비약적인 발전을 맞이했다. 하지만 그만큼 요구되는 컴퓨팅 자원 또한 상승하여 일반적인 환경에서 이를 학습해보기는 쉽지 않은 일이다. 주의 집중 기법은 본래 순환 신경망의 기울기 소실 문제를 방지하기 위해 제안된 기법이지만, 이는 합성 곱 신경망의 학습에도 유리한 방향으로 활용될 수 있다. 본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하고, 이때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다. 제안하는 모델은 YOLO를 기반으로 한 객체 검출에서 주의 집중 기법을 적용하지 않은 모델에 비해 학습 시간, 성능 모두 우수한 것으로 나타났으며, 특히 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였다. 또한, 이를 통해 일반 사용자의 기계 학습에 대한 접근성 증대가 기대된다.
With the emergence of convolutional neural network in the field of machine learning, the model for solving image processing problems has seen rapid development. However, the computing resources required are also rising, making it difficult to learn from a typical environment. Attention mechanism is ...
With the emergence of convolutional neural network in the field of machine learning, the model for solving image processing problems has seen rapid development. However, the computing resources required are also rising, making it difficult to learn from a typical environment. Attention mechanism is originally proposed to prevent the gradient vanishing problem of the recurrent neural network, but this can also be used in a direction favorable to learning of the convolutional neural network. In this paper, attention mechanism is applied to convolutional neural network, and the excellence of the proposed method is demonstrated through the comparison of learning time and performance difference at this time. The proposed model showed that both learning time and performance were superior in object detection based on YOLO compared to models without attention mechanism, and experimentally demonstrated that learning time could be significantly reduced. In addition, this is expected to increase accessibility to machine learning by end users.
With the emergence of convolutional neural network in the field of machine learning, the model for solving image processing problems has seen rapid development. However, the computing resources required are also rising, making it difficult to learn from a typical environment. Attention mechanism is originally proposed to prevent the gradient vanishing problem of the recurrent neural network, but this can also be used in a direction favorable to learning of the convolutional neural network. In this paper, attention mechanism is applied to convolutional neural network, and the excellence of the proposed method is demonstrated through the comparison of learning time and performance difference at this time. The proposed model showed that both learning time and performance were superior in object detection based on YOLO compared to models without attention mechanism, and experimentally demonstrated that learning time could be significantly reduced. In addition, this is expected to increase accessibility to machine learning by end users.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
예측할 때 가중치를 부여한다. 병목 층에서 다음 층으로 넘어가기 전, 즉, 정보량이 줄기 전에 모듈을 추가하여 중요한 부분의 값을 키우고, 덜 중요한 부분의 값을 줄이는 것이 핵심이며, 적은 연산량 증가로도 큰 성능 향상을 보이는 것이 목적이다.
본 논문에서는 합성 곱 신경망에 주의 집중 기법을 적용하여 이미지 처리 문제에서의 학습 시간을 줄이고, 좀 더 최적화된 모델을 학습할 수 있도록 하는 방법을 제안한다. 백본 모델(Backbone model)로 YOLO(You only look once)[1]의 Darknet을 사용하였으며, 병목 층 (Bottleneck layer)에 주의 집중 기법을 적용하였다.
본 논문에서는 합성 곱 신경망에 주의 집중 및 다양한 최신 기법을 적용하여, 객체 검출에 활용할 수 있는 모델을 설계하였다. 제안하는 모델이 기존 모델보다 성능향상은 물론 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였으며, 이를 통해 일반적인 사용 환경에서의 기계 학습에 대한 접근성 증가가 기대된다.
가설 설정
파이토치(PyTorch)를 사용하였다. 또한, 일반적인 사용자 환경을 가정하여 단일 GPU만을 사용해 학습하였다.
제안 방법
표 1 은 백본에 사용된 모델의 구조를 나타낸 것으로, 특징추출을 위한 9개의 3×3 합성 곱 층과 계산량 감소 및 비선형성 증가를 위한 1개의 1×1 합성 곱 층으로 이루어져 있다. 그리고 해당 구조에 업샘플링(Upsampling)을 추가하여 두 가지 스케일의 특징에 대해 학습을 하고, 이를 기반으로 좀 더 높은 정확도를 가질 수 있도록 모델을 수정하였다.
본 연구에서 사용한 세 가지 기법 모두 단순한 합성 곱과 풀링(Pooling)으로 이루어져 있으며, 어떤 합성 곱 신경망에도 쉽게 끼워 넣을 수 있도록 설계되었다.
제안하는 모델은 윈도우(Microsoft windows) 운영체제 환경에서 파이썬(Python)으로 구현, 학습되었으며, 이를 위해 토치(Torch)기반의 오픈소스 머신 러닝 라이브러리인 파이토치(PyTorch)를 사용하였다. 또한, 일반적인 사용자 환경을 가정하여 단일 GPU만을 사용해 학습하였다.
제안하는 모델은 이러한 백본, 헤드를 연결하는 병목 층에 주의 집중 모듈을 끼워 넣어 성능 향상과 학습 시간 단축을 보이려 한다. 그림 2는 모델의 전체 구조를 도식화한 것으로, 백본에 Tiny Darknet, 병목 층에는 각종 주의 집중 기법(SENet, CBAM, ECA-Net), 그리고 헤드부분에 YOLOv3를 적용하였다.
대상 데이터
학습 데이터는 9, 163장의 학습 데이터 세트, 2, 031장의 검증 데이터 세트, 그리고 821장의 테스트 데이터 세트로 이루어진 옥스퍼드 대학교의 Hand Dataset[17] 을 사용하였으며, 총 800세대(Epoch)동안 학습을 진행하였다.
이론/모형
단축을 보이려 한다. 그림 2는 모델의 전체 구조를 도식화한 것으로, 백본에 Tiny Darknet, 병목 층에는 각종 주의 집중 기법(SENet, CBAM, ECA-Net), 그리고 헤드부분에 YOLOv3를 적용하였다. 사용의 편의를 위해 각 부분은 전부 모듈화되어 원하는 부분을 손쉽게 다른 구조로 변경할 수 있도록 구성되었다.
백본 모델(Backbone model)로 YOLO(You only look once)[1]의 Darknet을 사용하였으며, 병목 층 (Bottleneck layer)에 주의 집중 기법을 적용하였다. 그리고 백본 모델을 단독으로 사용했을 때와 주의 집중 기법을 적용하였을 때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다.
본 연구에서는 성능 측면에서 평균 정밀도와 속도 측면에서 최적 성능으로의 수렴 속도를 평가지표로 사용하였다.
성능/효과
백본 모델(Backbone model)로 YOLO(You only look once)[1]의 Darknet을 사용하였으며, 병목 층 (Bottleneck layer)에 주의 집중 기법을 적용하였다. 그리고 백본 모델을 단독으로 사용했을 때와 주의 집중 기법을 적용하였을 때의 학습 시간과 성능 차이 비교를 통해 제안하는 방법의 우수성을 입증한다.
여기서 볼 수 있듯이 두 영역의 빈 공간에 대한정보까지 계산에 반영되면서, 손실함수로 사용하기에도 무리가 없다. 또한, 일반적인 IoU에 비해 수렴 속도가 빠르다는 것도 실험적으로 증명되었다.
세 가지 주의 집중 기법 모두 단독 사용과 비교해 일정 부분 성능 향상을 보였으며, CBAM, ECA-Net, SENet 순으로 성능이 우수한 것으로 나타났다. 이때 오버헤드는 3% 미만으로, 학습 파라미터를 많이 증가시키지 않으면서도 검출 성능에 긍정적인 영향을 미침을 확인하였다.
위 결과로 보아 주의 집중 기법을 적용한 모델 모두 성능과 수렴 속도에 이점이 있고, 특히 최적 성능으로의 수렴 속도가 단독 모델에 비해 월등히 빠른 것으로 나타났다.
성능이 우수한 것으로 나타났다. 이때 오버헤드는 3% 미만으로, 학습 파라미터를 많이 증가시키지 않으면서도 검출 성능에 긍정적인 영향을 미침을 확인하였다.
이러한 기울기 소실 문제를 해결하기 위해 주의 집중기법은 전체 입력을 동일한 비율로 참고하는 것이 아니라, 특정 부분에 가중치를 주어 학습을 진행함으로써 해당 문제를 해결함과 동시에 모델의 성능 또한 비약적으로 향상할 수 있었다.
설계하였다. 제안하는 모델이 기존 모델보다 성능향상은 물론 학습 시간을 현저히 낮출 수 있음을 실험적으로 증명하였으며, 이를 통해 일반적인 사용 환경에서의 기계 학습에 대한 접근성 증가가 기대된다.
표 3은 총 800세대 학습 중 최적 성능으로의 수렴 시간을 나타낸 것으로, 일반적인 Tiny YOLO 모델이 거의 마지막 세대에 이르러 최적 성능으로 수렴한 것과는 달리, 주의 집중 기법이 적용된 모델은 설정한 학습 세대의 절반도 지나지 않아 최적 성능으로 수렴한 것을 확인할 수 있다.
참고문헌 (17)
J. Redmon and A. Farhadi, "YOLOv3: An Incremental Improvement," University of Washington, Washington: WA, Technical Report, 2018.
K. Xu, J. Ba, R. Kiros, K. Cho, and A. Courville, "Show, attend and tell: Neural image caption generation with visual attention," in International conference on machine learning, France: FR, pp. 2048-2057, 2015.
H. Nam, J. Ha, and J. Kim, "Dual attention networks for multimodal reasoning and matching," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 299-307, 2017.
F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, and X. Tang, "Residual attention network for image classification," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 3156-3164, 2017.
J. Hu, L. Shen, and G. Sun, "Squeeze-and-excitation networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Utah: UT, pp. 7132-7141, 2018.
S. Woo, J. Park, J. Lee, and K. So, "Convolutional block attention module," in Proceedings of the European conference on computer vision (ECCV), Germany: DE, pp. 3-19, 2018.
Q. Wang, B. Wu, P. Zhu, P. Li, W. Zuo, and Q. Hu, "ECA-net: Efficient channel attention for deep convolutional neural networks," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Virtual, pp. 11534-11542, 2020.
Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, "Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression," in Proceeding of the AAAI Conference on Artificial Intelligence, New York: NY, vol. 34, no. 7, pp. 12993-13000, 2020.
K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask r-cnn," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 2961-2969, 2017.
H. Qassim, A. Verma, and D. Feinzimer, "Compressed residual-VGG16 CNN model for big data places image recognition," in 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC), Nevada: NV, pp. 169-175, 2018.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Nevada: NV, pp. 770-778, 2016.
G. Huang, Z. Liu, L. V. D. Maaten, and K. Q. Weinberger, "Densely connected convolutional networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 4700-4708, 2017.
T. Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, "Focal loss for dense object detection," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: HI, pp. 2980-2988, 2017.
H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, California: CA, pp. 658-666, 2019.
T. Dozat, "Incorporating nesterov momentum into adam," in ICLR 2016 workshop submission, Puerto Rico: PR, 2016.
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," in Proceedings of the 3rd International Conference on Learning Representations (ICLR), California: CA, pp. 1-15, 2015.
A. Mittal, A. Zisserman, and P. Torr. Hand Dataset [Internet]. Available: http://www.robots.ox.ac.uk/-vgg/data/hands/.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.