[논문]양자화 기반의 모델 압축을 이용한 ONNX 경량화

장두혁; 이정수; 허준영

doi:10.7236/jiibc.2021.21.1.93

양자화 기반의 모델 압축을 이용한 ONNX 경량화
Lightweight of ONNX using Quantization-based Model Compression 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.21 no.1, 2021년, pp.93 - 98

장두혁 (한성대학교 컴퓨터공학부) , 이정수 (한성대학교 컴퓨터공학과) , 허준영 (한성대학교 컴퓨터공학부)

초록
AI-Helper

딥 러닝의 발전으로 다양한 AI 기반의 응용이 많아지고, 그 모델의 규모도 매우 커지고 있다. 그러나 임베디드 기기와 같이 자원이 제한적인 환경에서는 모델의 적용이 어렵거나 전력 부족 등의 문제가 존재한다. 이를 해결하기 위해서 클라우드 기술 또는 오프로딩 기술을 활용하거나, 모델의 매개변수 개수를 줄이거나 계산을 최적화하는 등의 경량화 방법이 제안되었다. 본 논문에서는 다양한 프레임워크들의 상호 교환 포맷으로 사용되고 있는 ONNX(개방형 신경망 교환 포맷) 포맷에 딥러닝 경량화 방법 중 학습된 모델의 양자화를 적용한다. 경량화 전 모델과의 신경망 구조와 추론성능을 비교하고, 양자화를 위한 다양한 모듈 방식를 분석한다. 실험을 통해 ONNX의 양자화 결과, 정확도는 차이가 거의 없으며 기존 모델보다 매개변수 크기가 압축되었으며 추론 시간 또한 전보다 최적화되었음을 알 수 있었다.

Abstract ▼ AI-Helper

Due to the development of deep learning and AI, the scale of the model has grown, and it has been integrated into other fields to blend into our lives. However, in environments with limited resources such as embedded devices, it is exist difficult to apply the model and problems such as power shortages. To solve this, lightweight methods such as clouding or offloading technologies, reducing the number of parameters in the model, or optimising calculations are proposed. In this paper, quantization of learned models is applied to ONNX models used in various framework interchange formats, neural network structure and inference performance are compared with existing models, and various module methods for quantization are analyzed. Experiments show that the size of weight parameter is compressed and the inference time is more optimized than before compared to the original model.

주제어

표/그림 (12)

그림 그림 1. CNN 모델의 ONNX 변환 결과 Fig. 1. Result of CNN model converted to ONNX
표 표 1. 실험 파라미터 Table 1. Experiment parameter
그림 그림 2. CNN 모델의 TFLiteConverter 변환 결과 (좌 : Float32, 우 : UINT8) Fig. 2. Result of CNN model used TFLiteConverter
그림 그림 3. CNN 모델의 ONNX Runtime Quantization 적용 결과 Fig. 3. Result of CNN model used ONNX Runtime Quantization
그림 그림 4. DNN 모델의 ONNX Runtime Quantization 적용 결과 Fig. 4. Result of DNN model used ONNX Runtime Quantization
표 표 2. ONNX 변환 및 양자화 적용에 따른 DNN 모델 크기 Table 2. DNN model size according to ONNX transform and quantization
표 표 3. ONNX 변환 및 양자화 적용에 따른 CNN 모델 크기 Table 3. CNN model size according to ONNX transform and quantization
표 표 4. 양자화 전 h5 모델과 ONNX 양자화가 적용된 모델의 추론 성능 Table 4. Inference performance of h5 models before quantization and models after ONNX quantization is applied
표 표 5. TFLite INT8 모델과 ONNX INT8 모델의 추론 시간 Table 5. Inference time of TFLite INT8 model and ONNX INT8 model
표 표 6. h5모델, ONNX모델 과 ONNX INT 8 모델의 추론시간 Table 6. Inference time of model h5, ONNX and ONNX INT8 by dense rate
표 표 7. CNN h5 모델과 ONNX INT 8 모델의 메모리 할당량 Table 7. Memory useage of CNN h5 and ONNX model
표 표 8. DNN h5 모델과 ONNX INT 8 모델의 메모리 할당량 Table 8. Memory useage of DNN h5 and ONNX model

AI 본문요약
AI-Helper

제안 방법

본 연구에서는 ONNX 모델과 양자화를 통해 모델의 경량화 및 변환된 신경망의 구조를 파악하였으며, 타 경량화 라이브러리와 양자화 성능을 비교하였다. 그 결과 ONNX로 변환된 신경망은 기존 프레임워크의 층이 ONNX 고유의 층으로 변환되었으며, 모델의 크기 또한 확연히 줄어들었다.

데이터처리

h5 모델과 양자화된 ONNX 모델을 통해, 두 모델 추론 시 메모리 할당량을 비교했다. python의 tracemalloc 모듈을 이용해 PID를 호출하여 프로세스의 할당된 메모리 크기를 가져와 추론 코드 전후로 메모리 변화량을 측정했다.
AI 시스템 개발자들은 기존 시스템에 맞춰 이 런타임을 최적화 및 통합할 수 있고, 여러 운영체제 환경에서 컴파일 및 빌드할 수 있다. 본 논문에서는 Keras의 .h5 모델의 자체 엔진을 이용한 추론 결과와 변환된 ONNX 모델의 ONNX런타임 엔진을 이용한 추론 결과를 비교하였다.

이론/모형

CPU의 연산 지원을 받는 ONNX런타임 추론과 실제 임베디드 환경을 고려해 h5 모델과 onnx 모델 모두 CPU 추론을 진행하였다. 모델은 CNN 모델과 DNN 모델을 활용했다. 데이터셋은 각각 CIFAR-10과 MNIST를 사용했다.
본 실험에 사용된 ONNX 모델의 원시 모델은 대표적인 딥러닝 프레임워크 중 하나인 Keras를 통해 생성하여, 해당 프레임워크로 저장한 .h5 모델을 keras2onnx 라이브러리의 API를 사용하여 ONNX 모델로 변환하였다. 이 과정에서 기존 Keras 모델 그래프의 일부분은 ONNX 연산자로 표현되며, 그림1은 해당 변환 전 후의 모습이다.

성능/효과

그 결과 ONNX로 변환된 신경망은 기존 프레임워크의 층이 ONNX 고유의 층으로 변환되었으며, 모델의 크기 또한 확연히 줄어들었다. ONNX런타임 라이브러리의 양자화를 적용한 후 정확도는 1% 내외의 변동이 있었으며 추론 시간은 기존보다 약 30% 감소하였다. 또한, TFLite 라이브러리에 비해 좋은 성능을 보였다.
본 연구에서는 ONNX 모델과 양자화를 통해 모델의 경량화 및 변환된 신경망의 구조를 파악하였으며, 타 경량화 라이브러리와 양자화 성능을 비교하였다. 그 결과 ONNX로 변환된 신경망은 기존 프레임워크의 층이 ONNX 고유의 층으로 변환되었으며, 모델의 크기 또한 확연히 줄어들었다. ONNX런타임 라이브러리의 양자화를 적용한 후 정확도는 1% 내외의 변동이 있었으며 추론 시간은 기존보다 약 30% 감소하였다.
ONNX런타임 라이브러리의 양자화를 적용한 후 정확도는 1% 내외의 변동이 있었으며 추론 시간은 기존보다 약 30% 감소하였다. 또한, TFLite 라이브러리에 비해 좋은 성능을 보였다. 메모리 할당량 역시 기존의 10%-12.
또한, TFLite 라이브러리에 비해 좋은 성능을 보였다. 메모리 할당량 역시 기존의 10%-12.5%로 감소하였다. 합성곱(convolution) 층이 포함된 모델의 경우, 양자화를 적용하지 않은 ONNX 모델의 추론 시간이 더 짧았다는 사실이 개선점으로 남았다.
실험 결과 양자화 전후로 비교했을 때, 표 4와 같게 두 모델 모두 높은 정확도를 유지하였다. 게다가 표7, 표8처럼 양자화 결과 CNN 모델의 메모리 사용량은 약 12.
실험 결과 양자화를 적용하여도 큰 정확도 감소가 없음을 보였으며, TFLite 라이브러리보다 ONNX 라이브러리의 양자화를 적용한 모델의 추론 속도가 더 빠른 것으로 나타났다. 한편 파라미터 비중에 따른 추론 시간 변화량 측정 결과, 네트워크가 전결합(fully conntected) 층으로 구성될 때 양자화 효과가 가장 좋았으며, 합성곱(convolution) 층이 추가되자 반대로 추론 시간이 증가하는 결과를 보였다.
실험 결과 양자화를 적용하여도 큰 정확도 감소가 없음을 보였으며, TFLite 라이브러리보다 ONNX 라이브러리의 양자화를 적용한 모델의 추론 속도가 더 빠른 것으로 나타났다. 한편 파라미터 비중에 따른 추론 시간 변화량 측정 결과, 네트워크가 전결합(fully conntected) 층으로 구성될 때 양자화 효과가 가장 좋았으며, 합성곱(convolution) 층이 추가되자 반대로 추론 시간이 증가하는 결과를 보였다. 이는 현재 ONNX 라이브러리의 합성곱(convolution) 층 최적화 성능이 전결합(fully connected) 층 최적화보다 뒤떨어지나, 전겹합 층 최적화 수준으로 미루어 봤을 때 이후 개선이 이루어진다면 합성곱(convolution) 층의 연산시간도 대폭 감소할 수 있을 것으로 예상된다.
5%로 감소하였다. 합성곱(convolution) 층이 포함된 모델의 경우, 양자화를 적용하지 않은 ONNX 모델의 추론 시간이 더 짧았다는 사실이 개선점으로 남았다.

참고문헌 (11)

M. Habib ur Rehman, S. L. Chee, T. Y. Wah, A. Iqbal and P. P. Jayaraman, "Opportunistic Computation Offloading in Mobile Edge Cloud Computing Environments," 2016 17th IEEE International Conference on Mobile Data Management (MDM), Porto, 2016, pp. 208-213, DOI: https://doi.org/10.1109/MDM.2016.40.
Park, Jong-Cheon, and Lee, Keun-Wang. "Mobile Phone Camera Based Scene Text Detection Using Edge and Color Quantization." Journal of the Korea Academia-Industrial cooperation Society v.11 no.3 (March 31, 2010): 847-52. DOI: 10.5762/KAIS.2010.11.3.847.

원문보기 상세보기
S. Park and J. Heo, "Conversion Tools of Spiking Deep Neural Network based on ONNX," The journal of the institute of internet, broadcasting and communication, vol. 20, no. 2, pp. 165-170, Apr. 2020. DOI: https://doi.org/10.7236/JIIBC.2020.20.2.165

원문보기 상세보기
Wu, Di, et al. "EasyQuant: Post-training Quantization via Scale Optimization." Post training quantization arXiv preprint arXiv:2006.16669 (2020). DOI: arxiv-2006.16669
H.-P. Kwon and J.-C. Ha, "Power Analysis Attack of Block Cipher AES Based on Convolutional Neural Network,"Journal of the Korea Academia-Industrial cooperation Society, vol. 21, no. 5, pp. 14-21, May 2020. DOI: http://dx.doi.org/10.5762/KAIS.2020.21.5.14

원문보기 상세보기
Paupamah, Kimessha, Steven James, and Richard Klein. "Quantisation and Pruning for Neural Network Compression and Regularisation." Pruning 2020 International SAUPEC/RobMech/PRASA Conference. IEEE, 2020. DOI: 10.1109/SAUPEC/RobMech/PRASA48453.2020.9041096
Louis, Marcia S., Zahra Azad, Leila Delshadtehrani, S. Gupta, Pete Warden, V. Reddi and A. Joshi. "Towards Deep Learning using TensorFlow Lite on RISC-V." (2019). DOI: 10.13140/RG.2.2.30400.89606
Verhelst, M. and Bert Moons. "Embedded Deep Neural Network Processing: Algorithmic and Processor Techniques Bring Deep Learning to IoT and Edge Devices." IEEE Solid-State Circuits Magazine 9 (2017): 55-65. DOI: 10.1109/MSSC.2017.2745818

상세보기
Lin, Wei-Fen et al. "ONNC: A Compilation Framework Connecting ONNX to Proprietary Deep Learning Accelerators." 2019 IEEE International Conference on Artificial Intelligence Circuits and Systems (AICAS) (2019): 214-218. DOI:10.1109/AICAS.2019.8771510
Ashiquzzman Akm, Dong Su Lee, Sang Woo Kim, Lin Van Ma, Um-Tae Won, Jin Sul Kim "Node Pruning for Improved Neural Network Design" Korean Institute of Information Technology, 87-89, November. 2018.
Bongkyu Lee. (2020). "A Study on the Analysis of Structural Textures using CNN (Convolution Neural Network)". The Journal of the Institute of Internet, Broadcasting and Communication, 20(4), 201-205. DOI : 10.7236/JIIBC.2020.20.4.201

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증