[논문]지능형 엣지 컴퓨팅 기기를 위한 온디바이스 AI 비전 모델의 경량화 방식 분석

주혜현; 강남희

doi:10.7236/jiibc.2024.24.1.1

지능형 엣지 컴퓨팅 기기를 위한 온디바이스 AI 비전 모델의 경량화 방식 분석
Analysis on Lightweight Methods of On-Device AI Vision Model for Intelligent Edge Computing Devices 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.24 no.1, 2024년, pp.1 - 8

주혜현 (덕성여자대학 사이버보안전공) , 강남희 (덕성여자대학 데이터사이언스학과)

초록
AI-Helper

실시간 처리 및 프라이버시 강화를 위해 인공지능 모델을 엣지에서 동작시킬 수 있는 온디바이스 AI 기술이 각광받고 있다. 지능형 사물인터넷 기술이 다양한 산업에 적용되면서 온디바이스 AI 기술을 활용한 서비스가 크게 증가하고 있다. 그러나 일반적인 딥러닝 모델은 추론 및 학습을 위해 많은 연산 자원을 요구하고 있다. 따라서 엣지에 적용되는 경량 기기에서 딥러닝 모델을 동작시키기 위해 양자화나 가지치기와 같은 다양한 경량화 기법들이 적용되어야 한다. 본 논문에서는 다양한 경량화 기법 중 가지치기 기술을 중심으로 엣지 컴퓨팅 기기에서 딥러닝 모델을 경량화하여 적용할 수 있는 방안을 분석한다. 특히, 동적 및 정적 가지치기 기법을 적용하여 경량화된 비전 모델의 추론 속도, 정확도 그리고 메모리 사용량을 시험한다. 논문에서 분석된 내용은 실시간 특성이 중요한 지능형 영상 관제 시스템이나 자율 이동체의 영상 보안 시스템에 적용될 수 있다. 또한 사물인터넷 기술이 적용되는 다양한 서비스와 산업에 더욱 효과적으로 활용될 수 있을 것으로 기대된다.

Abstract ▼ AI-Helper

On-device AI technology, which can operate AI models at the edge devices to support real-time processing and privacy enhancement, is attracting attention. As intelligent IoT is applied to various industries, services utilizing the on-device AI technology are increasing significantly. However, general deep learning models require a lot of computational resources for inference and learning. Therefore, various lightweighting methods such as quantization and pruning have been suggested to operate deep learning models in embedded edge devices. Among the lightweighting methods, we analyze how to lightweight and apply deep learning models to edge computing devices, focusing on pruning technology in this paper. In particular, we utilize dynamic and static pruning techniques to evaluate the inference speed, accuracy, and memory usage of a lightweight AI vision model. The content analyzed in this paper can be used for intelligent video control systems or video security systems in autonomous vehicles, where real-time processing are highly required. In addition, it is expected that the content can be used more effectively in various IoT services and industries.

주제어

표/그림 (10)

그림 그림 1. 2차원 합성 곱 층의 희소성 연산 의사 코드 Fig. 1. Pseudo code for calculating sparsity of conv2d layer
그림 그림 2. 2차원 배치 정규화 층의 희소성 연산 의사 코드 Fig. 2. Pseudo code for calculating sparsity of batchnorm2d layer
그림 그림 3. 2차원 합성 곱 층의 가지치기 의사 코드 Fig. 3. Pruning pseudo code for conv2d layers
그림 그림 4. 2차원 배치 정규화 층의 가지치기 의사 코드 Fig. 4. Pruning pseudo code for batchnorm2d layers
표 표 1. COCO128 데이터 세트에 대한 가지치기 적용 결과 Table 1. Pruning results for COCO128 dataset
표 표 2. Traffic detection 데이터 세트에 대한 가지치기 적용 결과 Table 2. Pruning results for traffic detection
그림 그림 5. 깊이가 얕은 모델 (Yolov5n)에 대한 가지치기 적용 결과 FIg. 5. Pruning results for shallow neural network (Yolov5n)
그림 그림 6. 깊이가 깊은 모델 (Yolov5m)에 대한 가지치기 적용 결과 Fig. 6. Pruning results for deep neural network (Yolov5m)
그림 그림 7. 깊이가 얕은 모델 (Yolov5n)에 대한 가지치기 적용 결과 Fig. 7. Pruning results for shallow neural network (Yolov5n)
그림 그림 8. 깊이가 깊은 모델(Yolov5m)에 대한 가지치기 적용 결과 Fig. 8. Pruning results for deep neural network (Yolov5m)

AI 본문요약
AI-Helper

제안 방법

본 논문에서는 2차원 합성 곱 층 (Conv2d) 및 2차원 배치 정규화 층(Batchnorm2d)에 학습 과정 중 각 에폭(epoch)에서 L1 노름을 기반으로 가지치기를 수행한다. 이를 통해 2차원 합성 곱 층과 2차원 배치 정규화 층의 가중치 텐서에서 가장 작은 L1 노름 값을 가진 가중치를 제거한다.
본 논문에서는 데이터 세트를 구성하는 클래스 개수와 신경망의 깊이를 변수로 삼아 가지치기를 수행하는 동적 방식과 정적 방식 기술의 성능을 비교하였다.
본 논문은 2차원 합성 곱 층과 2차원 배치 정규화 층에 가지치기를 적용하였다. 동적 가지치기는 학습 중 에폭마다 가지치기를 수행했고, 정적 가지치기는 학습 시작 전 모델 초기 구조에 가지치기를 적용하였다.
경우의 수는 총 4가지로, 클래스 개수가 많은 데이터 세트를 학습하는 신경망 깊이가 깊은 모델, 클래스 개수가 많은 데이터 세트를 학습하는 신경망 깊이가 얕은 모델, 클래스 개수가 적은 데이터 세트를 학습하는 신경망 깊이가 깊은 모델, 클래스 개수가 적은 데이터 세트를 학습하는 신경망 깊이가 얕은 모델로 구성된다. 이를 통해 메모리, 자원 및 전력이 한정적인 온디바이스 AI가 적용되는 경량 기기에서 데이터 세트와 신경망 깊이에 따라 성능 저하를 최소화하면서 모델을 경량화할 수 있는 가장 효율적인 경량화 방식을 제안한다.

대상 데이터

클래스 개수가 다른 데이터 세트와 신경망 깊이가 다른 모델에 동적 가지치기와 정적 가지치기를 적용한 뒤 라즈베리파이에서 실행되는 실시간 객체 탐지 과정에서 가장 높은 정확도와 추론 시간을 비교한다. 경우의 수는 총 4가지로, 클래스 개수가 많은 데이터 세트를 학습하는 신경망 깊이가 깊은 모델, 클래스 개수가 많은 데이터 세트를 학습하는 신경망 깊이가 얕은 모델, 클래스 개수가 적은 데이터 세트를 학습하는 신경망 깊이가 깊은 모델, 클래스 개수가 적은 데이터 세트를 학습하는 신경망 깊이가 얕은 모델로 구성된다. 이를 통해 메모리, 자원 및 전력이 한정적인 온디바이스 AI가 적용되는 경량 기기에서 데이터 세트와 신경망 깊이에 따라 성능 저하를 최소화하면서 모델을 경량화할 수 있는 가장 효율적인 경량화 방식을 제안한다.
모델 형식은 경량 기기에서 널리 활용되는 오픈비노 형식을 채택하였다. 데이터 세트는 80 개의 클래스를 포함하는 COCO128 데이터 세트와 Yusuf Berk Sarıdoğan이 제작한 5 개의 클래스를 포함하는 Traffic detection 데이터 세트를 활용하였다.
데이터 세트의 클래스 개수와 신경망의 깊이를 변화시킨 상황에서 가지치기 기술 적용 후의 성능을 비교하기 위해 이에 적합한 모델 구조와 데이터 세트를 선정하였다. 모델 형식은 경량 기기에서 널리 활용되는 오픈비노 형식을 채택하였다.
이 데이터 세트는 Microsoft COCO (Common objects in context)의 일부로서 다양한 객체를 포함하고 있다. 두 번째로, Yusuf Berk Sarıdoğan가 제작한 Traffic detection 데이터 세트를 사용한다. 이 데이터 세트는 데이터 사이언스 커뮤니티인 캐글 (Kaggle)에서 내려받아 사용하였으며, 총 5 개의 클래스를 가진다.
로그에 기록된 값들 중 최댓값을 메모리 사용량으로 판단하였다. 모델의 정확도와 추론 시간은 COCO128로 학습시킨 경우 COCO128로, Yusuf Berk Sarıdoğan의 Traffic detection 데이터 세트로 학습시킨 경우 Yusuf Berk Sarıdoğan의 Traffic detection 데이터 세트를 활용하여 측정한다. 정확도와 추론 시간의 측정은 Yolov5에서 제공하는 detect.
본 논문에서 사용된 응용 시스템은 소프트웨어(Yolov5m, Yolov5n), 시스템 모니터링 도구 (Pidstat), 하드웨어(라즈베리파이, 로지텍 C270 웹캠 (Logitech C270 Webcam)), 그리고 데이터 세트 (COCO128, Yusuf Berk Sarıdoğan의 Traffic detection dataset)를 포함한다.
상기 기술한 선행 연구와는 다르게 본 연구는 경량 기기 중 하나인 라즈베리파이 (Raspberry Pi)를 사용하며 CNN 기반 딥러닝 모델을 대상으로 한다. 클래스 개수가 다른 데이터 세트와 신경망 깊이가 다른 모델에 동적 가지치기와 정적 가지치기를 적용한 뒤 라즈베리파이에서 실행되는 실시간 객체 탐지 과정에서 가장 높은 정확도와 추론 시간을 비교한다.
두 번째로, Yusuf Berk Sarıdoğan가 제작한 Traffic detection 데이터 세트를 사용한다. 이 데이터 세트는 데이터 사이언스 커뮤니티인 캐글 (Kaggle)에서 내려받아 사용하였으며, 총 5 개의 클래스를 가진다. 본 논문의 모든 학습, 평가에는 위 두 가지의 데이터 세트를 사용한다.
클래스 개수에 따른 경량화 기술의 영향을 더욱 명확하게 분석하기 위해, 클래스 개수의 차이가 큰 두 개의 데이터 세트를 사용한다. 첫 번째로, 80 개의 클래스를 포함하는 COCO128 데이터 세트를 사용한다. 이 데이터 세트는 Microsoft COCO (Common objects in context)의 일부로서 다양한 객체를 포함하고 있다.
클래스 개수에 따른 경량화 기술의 영향을 더욱 명확하게 분석하기 위해, 클래스 개수의 차이가 큰 두 개의 데이터 세트를 사용한다. 첫 번째로, 80 개의 클래스를 포함하는 COCO128 데이터 세트를 사용한다.

데이터처리

py)가 실행되는 동안 전체 시스템 메모리의 사용률 (%)을 나타낸다. 메모리 사용량은 신경망의 깊이에 따라 비교하였다.
상기 기술한 선행 연구와는 다르게 본 연구는 경량 기기 중 하나인 라즈베리파이 (Raspberry Pi)를 사용하며 CNN 기반 딥러닝 모델을 대상으로 한다. 클래스 개수가 다른 데이터 세트와 신경망 깊이가 다른 모델에 동적 가지치기와 정적 가지치기를 적용한 뒤 라즈베리파이에서 실행되는 실시간 객체 탐지 과정에서 가장 높은 정확도와 추론 시간을 비교한다. 경우의 수는 총 4가지로, 클래스 개수가 많은 데이터 세트를 학습하는 신경망 깊이가 깊은 모델, 클래스 개수가 많은 데이터 세트를 학습하는 신경망 깊이가 얕은 모델, 클래스 개수가 적은 데이터 세트를 학습하는 신경망 깊이가 깊은 모델, 클래스 개수가 적은 데이터 세트를 학습하는 신경망 깊이가 얕은 모델로 구성된다.

이론/모형

실험 장비로는 라즈베리파이 4와 로지텍 C270 웹캠을 사용했다. 메모리 사용량에 대한 분석은 Yolov5의 detect.py 스크립트를 리눅스 커널에서 웹캠을 통해 실행되는 동안 발생하는 메모리 변화를 Pidstat을 활용하여 1초 간격으로 로그에 기록하여 진행한다. 로그에 기록된 값들 중 최댓값을 메모리 사용량으로 판단하였다.
모델 간의 정확도를 비교하기 위해 mAP50 지표를 활용하였으며, 이때 정확도를 평가하는 표의 작성 기준은 각각의 데이터 세트로 설정하였다.
py 내부의 함수를 기반으로 연구 요구사항에 맞게 적절히 수정하여 구현하였다. 모델 형식은 경량 기기에서 널리 활용되는 오픈비노 (OpenVINO) 형식을 채택하였다.
모델의 초기 구조를 가지치기 된 상태로 설정하기 위해 학습이 시작되기 전 2차원 합성 곱 층과 2차원 배치 정규화 층의 가중치 텐서에서 L1 노름 값이 가장 작은 가중치를 제거한다. 모델 형식은 경량 기기에서 널리 활용되는 오픈비노 형식을 채택하였다. 2차원 합성 곱 층과 2차원 배치 정규화 층에서 수행된 희소성 연산 및 가지치기에 대한 알고리즘은 동적 가지치기에서 사용된 것과 동일하다.
모델의 초기 구조를 가지치기 된 상태로 설정하기 위해 학습이 시작되기 전 2차원 합성 곱 층과 2차원 배치 정규화 층의 가중치 텐서에서 L1 노름 값이 가장 작은 가중치를 제거한다. 모델 형식은 경량 기기에서 널리 활용되는 오픈비노 형식을 채택하였다. 2차원 합성 곱 층과 2차원 배치 정규화 층에서 수행된 희소성 연산 및 가지치기에 대한 알고리즘은 동적 가지치기에서 사용된 것과 동일하다.
본 논문에서는 온디바이스 AI의 정확도, 추론 시간 그리고 메모리 사용량의 비교를 위해 경량 오픈 하드웨어 플랫폼인 라즈베리파이 4를 사용한다. 스크립트의 실행은 라즈베리파이의 리눅스 터미널을 통해 이루어진다.
모델의 정확도와 추론 시간은 COCO128로 학습시킨 경우 COCO128로, Yusuf Berk Sarıdoğan의 Traffic detection 데이터 세트로 학습시킨 경우 Yusuf Berk Sarıdoğan의 Traffic detection 데이터 세트를 활용하여 측정한다. 정확도와 추론 시간의 측정은 Yolov5에서 제공하는 detect.py 스크립트를 활용해 수행한다.

성능/효과

가지치기 방식에 따라 전체 시스템 메모리 중 스크립트가 웹캠을 통해 실시간으로 실행되며 사용하는 메모리양을 비교한 결과, 데이터 세트의 클래스 개수나 신경망의 깊이와 관계없이 모든 경우에서 동적 가지치기를 수행했을 때 정적 가지치기보다 메모리 효율이 더 높음을 확인할 수 있었다.
신경망의 깊이가 깊은 모델인 Yolov5m은 2차원 합성 곱 층에서 40%, 2차원 배치 정규화 층에서는 30%의 희소성을 달성시켰다. 그 결과 COCO128 데이터 세트로 학습한 Yolov5m 모델은 총 212 개의 층과 21,172,173개의 파라미터를 가지며, 48.9 GFLOPs의 연산 속도를 보였다. Yusuf Berk Sarıdoğan의 Traffic detection 데이터 세트를 학습한 Yolov5m 모델의 경우, 212 개의 층과 20,869,098 개의 파라미터를 가지며, 47.
시험 결과, 클래스 개수가 많고 신경망의 깊이가 깊은 모델에서는 가지치기 수행 방식에 따른 정확도 변화가 크지 않았다. 이는 모델의 신경망 깊이가 깊고 클래스 개수가 적은 데이터 세트를 학습하는 상황과 모델의 신경망 깊이가 얕고 클래스 개수가 적은 데이터 세트를 학습하는 상황에서도 동일하게 나타났다.

후속연구

본 논문에서는 가지치기 방식에 대한 성능 비교를 중점적으로 다루었지만, 네트워크 슬리밍, 양자화, 그룹 컨볼루션 방식 등과 같은 다른 경량화 기법들의 성능 비교에 관한 추가적인 연구가 필요할 것으로 보인다.

참고문헌 (17)

V. K. Prasad, P. Bhattacharya, D. Maru, S. Tanwar, A.？Verma, A. Singh, A. K. Tiwari, R. Sharma, A.？Alkhayyat, F.-E. Turcanu, M. S. Raboaca, "Federated？Learning for the Internet-of-Medical-Things: A？Survey," Mathematics, Vol. 11, No. 1, pp. 1-151, 2022.？DOI: https://doi.org/10.3390/math11010151

상세보기
M. Ham, J. J. Moon, G. Lim, W. Song, J. Jung, H. Ahn,？S. Woo, Y. Cho, J. Park, S. Oh, H.-S. Kim,？"NNStreamer: Stream Processing Paradigm for Neural？Networks, Toward Efficient Development and？Execution of On-Device AI Applications," CoRR, Vol.？abs/1901.04985, 2019.？DOI: https://doi.org/10.48550/arXiv.1901.04985
Z. Liu, J. Li, Z. Shen, G. Huang, S. Yan, C. Zhang,？"Proceedings of the IEEE International Conference on？Computer Vision (ICCV)," pp. 2736-2744, 2017.？DOI: https://doi.org/10.1109/ICCV.1995.466933
N. Fragoulis, I. Theodorakopoulos, V. Pothos, E.？Vassalos, "Dynamic Pruning of CNN networks. In 2019？10th International Conference on Information, Intelligence,？Systems and Applications (IISA)," IEEE, 2019.？DOI: https://doi.org/10.1109/IISA.2019.8900711
X. Gao, Y. Zhao, L. Dudziak, R. Mullins, C. Xu,？"Dynamic Channel Pruning: Feature Boosting and？Suppression," ICLR 2019 Conference, 2018.？DOI: https://doi.org/10.48550/arXiv.1810.05331
S. Han, H. Mao, W.J. Dally, "Deep Compression:？Compressing Deep Neural Network with Pruning,？Trained Quantization and Huffman Coding," arXiv:？Computer Vision and Pattern Recognition, 2015.？DOI: https://doi.org/10.48550/arXiv.1510.00149
B. Hassibi 등, "Optimal Brain Surgeon and General？Network Pruning," Proc. of 1993 IEEE Intl. Conference？on Neural Networks, 1993.？DOI: https://doi.org/10.1109/ICNN.1993.298572
F. Daghero, D.J. Pagliari, M. Poncino, "Energy-efficient？deep learning inference on edge devices," In Advances？in Computers, Vol. 122, pp. 247-301, Department of？Control and Computer Engineering, Politecnico di？Torino, 2021.？DOI: https://doi.org/10.1016/bs.adcom.2020.07.002
Glenn-Jocher, "YOLOv5", Github, Available:https://github.com/ultralytics/yolov5
Y. B. Saridogan, "Traffic Detection Project dataset,"？Kaggle, Available:？https://www.kaggle.com/datasets/yusufberksardoan/traffic-detection-project/data
N.K. Jha, R. Saini, S. Nag, S. Mittal, "E2GC:？Energy-efficient Group Convolution in Deep Neural？Networks," In 2020 33rd International Conference on？VLSI Design and 2020 19th International Conference？on Embedded Systems (VLSID), 2020.？DOI: https://doi.org/10.48550/arXiv.2006.15100
A.-T. Shumba, T. Montanaro, I. Sergi, L. Fachechi, M.？De Vittorio, L. Patrono, "Leveraging IoT-Aware？Technologies and AI Techniques for Real-Time？Critical Healthcare Applications," Sensors, Vol. 22,？No. 19, 7675, 2022.？DOI: https://doi.org/10.3390/s22197675

상세보기
S. Lee, H. Ahn, J. Seo, Y. Chung, D. Park, S. Pan,？"Practical Monitoring of Undergrown Pigs for？IoT-Based Large-Scale Smart Farm," IEEE Access, Vol.？7, pp. 173796-173810, 2019.？DOI: https://dx.doi.org/10.1109/ACCESS.2019.2955761

상세보기
Hong-Jin Park, "Trend Analysis of Korea Papers in the？Fields of 'Artificial Intelligence', 'Machine Learning'？and 'Deep Learning'," Journal of Korea Institute of？Information, Electronics, and Communication Technology,？Vol. 13, No. 4, pp. 283-292, 2020.？DOI: https://dx.doi.org/10.17661/jkiiect.2020.13.4.283

원문보기 상세보기
Kyoung-Chul Kim, Dasom Seo, Inchan Choi, Young-Ki？Hong, Gookhwan Kim, and Kyung-Do Kwon,？"Development of Vespa velutina Monitoring System？Based on Deep Learning," Journal of the Korea？Academia-Industrial cooperation Society, Vol. 22, No.10, pp. 31-36, 2021.？DOI: 10.5762/KAIS.2021.22.10.31

상세보기
Byoung-Guk Min and Sun-Ho Min, "Research on？Home Digital Healthcare Urine Analyzer," The Journal？of Korean Institute of Information Technology, Vol.？19, No. 2, pp. 11-19, 2021.？DOI: 10.14801/jkiit.2021.19.2.11

상세보기
Namhi Kang, "Development of an intelligent edge？computing device equipped with on-device AI vision？model," The Journal of The Institute of Internet,？Broadcasting and Communication (IIBC), Vol. 22, No.？5, pp.17-22, 2022.？DOI: https://doi.org/10.7236/JIIBC.2022.22.5.17？

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증