최근 임베디드 디바이스에서 딥러닝 사용이 확장됨에 따라 딥러닝 활용에 대한 연구가 임베디드 시스템 분야에서도 진행되고 있다. 딥러닝은 이미지 분류와 객체 인식과 같은 분야에서 좋은 성능을 보이며 두각을 나타내고 있으며, 이에 임베디드 시스템에서도 이를 도입하려는 시도가 증가하고 있다. 하지만 계산 복잡도와 메모리 사용량이 높은 관계로 ...
최근 임베디드 디바이스에서 딥러닝 사용이 확장됨에 따라 딥러닝 활용에 대한 연구가 임베디드 시스템 분야에서도 진행되고 있다. 딥러닝은 이미지 분류와 객체 인식과 같은 분야에서 좋은 성능을 보이며 두각을 나타내고 있으며, 이에 임베디드 시스템에서도 이를 도입하려는 시도가 증가하고 있다. 하지만 계산 복잡도와 메모리 사용량이 높은 관계로 임베디드 기기에서 수행은 어려운 것이 사실이다. 이를 위해 다양한 최적화 방법이 연구되고 있으며, 연결 시냅스의 양을 줄이거나 양자화(quantization)을 통해 가중치의 크기를 줄임으로서 메모리의 사용을 절감하고, 연산 가속기를 사용하여 수행시간까지 절감하려고 하는 연구들이 많이 수행되고 있다. 하지만 이러한 기법들을 적용할 시에는 일정부분의 정확도가 감소해야 하는 문제점을 안고 있다. 제안된 방법은 이러한 양자화 방식의 최적화를 진행할 때 버퍼 사용의 절감을 통해 정확도가 반비례하여 감소한다는 사실에 착안하여 연구를 진행하였다. 딥러닝 수행중의 입출력을 저장하는 버퍼를 재사용하는 방식으로 정확도의 손실을 최소한으로 줄일 수 있는 양자화 방식의 최적화 지점을 찾고자 하였다. 실험 결과, 연결 가중치의 비트를 8비트로 표현하였을 때 기존의 단일 양자화 방식의 사용 때와 비교하여 25%의 메모리 밖에는 사용되지 않음을 확인할 수 있었다. 하지만 4비트로 표현하였을 때는 정확도가 급격하게 감소함을 보이면서 정확도를 유지하기 위해서는 8비트의 연결가중치를 사용해야함을 밝혔다. 또한 이러한 양자화 방식의 사용을 기반으로 VGGNet 19의 네트워크보다 새로 제안된 13 layer에서의 시간, 정확도 및 메모리 사용량이 최적화됨을 보이며, 8비트의 개선된 13 layer에 버퍼 재사용 방식을 적용하였다. 이로 인하여 기존의 방식보다 실행 시간을 소폭 줄이면서, 양자화 방식과 버퍼 재사용 방식으로 메모리 사용량을 기존 사용량의 35.5% 만을 사용하며 정확도를 8%가량 상승시킬 수 있지는 모델을 제시하였다
최근 임베디드 디바이스에서 딥러닝 사용이 확장됨에 따라 딥러닝 활용에 대한 연구가 임베디드 시스템 분야에서도 진행되고 있다. 딥러닝은 이미지 분류와 객체 인식과 같은 분야에서 좋은 성능을 보이며 두각을 나타내고 있으며, 이에 임베디드 시스템에서도 이를 도입하려는 시도가 증가하고 있다. 하지만 계산 복잡도와 메모리 사용량이 높은 관계로 임베디드 기기에서 수행은 어려운 것이 사실이다. 이를 위해 다양한 최적화 방법이 연구되고 있으며, 연결 시냅스의 양을 줄이거나 양자화(quantization)을 통해 가중치의 크기를 줄임으로서 메모리의 사용을 절감하고, 연산 가속기를 사용하여 수행시간까지 절감하려고 하는 연구들이 많이 수행되고 있다. 하지만 이러한 기법들을 적용할 시에는 일정부분의 정확도가 감소해야 하는 문제점을 안고 있다. 제안된 방법은 이러한 양자화 방식의 최적화를 진행할 때 버퍼 사용의 절감을 통해 정확도가 반비례하여 감소한다는 사실에 착안하여 연구를 진행하였다. 딥러닝 수행중의 입출력을 저장하는 버퍼를 재사용하는 방식으로 정확도의 손실을 최소한으로 줄일 수 있는 양자화 방식의 최적화 지점을 찾고자 하였다. 실험 결과, 연결 가중치의 비트를 8비트로 표현하였을 때 기존의 단일 양자화 방식의 사용 때와 비교하여 25%의 메모리 밖에는 사용되지 않음을 확인할 수 있었다. 하지만 4비트로 표현하였을 때는 정확도가 급격하게 감소함을 보이면서 정확도를 유지하기 위해서는 8비트의 연결가중치를 사용해야함을 밝혔다. 또한 이러한 양자화 방식의 사용을 기반으로 VGGNet 19의 네트워크보다 새로 제안된 13 layer에서의 시간, 정확도 및 메모리 사용량이 최적화됨을 보이며, 8비트의 개선된 13 layer에 버퍼 재사용 방식을 적용하였다. 이로 인하여 기존의 방식보다 실행 시간을 소폭 줄이면서, 양자화 방식과 버퍼 재사용 방식으로 메모리 사용량을 기존 사용량의 35.5% 만을 사용하며 정확도를 8%가량 상승시킬 수 있지는 모델을 제시하였다
Recently, as the use of deep learning has been expanded in embedded devices, research on the use of deep learning is also being carried out in the field of embedded systems. Deep learning has shown good performance in the fields of image classification and object recognition, and there is an increas...
Recently, as the use of deep learning has been expanded in embedded devices, research on the use of deep learning is also being carried out in the field of embedded systems. Deep learning has shown good performance in the fields of image classification and object recognition, and there is an increasing tendency to introduce it in embedded systems. However, it is a fact that it is difficult to perform in embedded device due to high calculation complexity and memory usage. Various optimization methods have been studied for this purpose. There have been a lot of studies to reduce memory usage by reducing the amount of connection synapses or quantization to reduce the weight, and to reduce the execution time by using a computational accelerator. However, there is a problem in that a certain amount of accuracy must be reduced when these techniques are applied. The proposed method is based on the fact that the accuracy is reduced in inverse proportion by reducing the buffer usage when optimizing the quantization method. We tried to find the optimization point of the quantization method which can reduce the loss of accuracy to the minimum by reusing the buffer that stores the input and output during deep running. Experimental results show that when the bits of the connection weight are represented by 8 bits, only 25% of the memory is used as compared with the conventional single quantization method. However, when expressed in 4 bits, we show that the accuracy decreases sharply, and that 8-bit connection weights should be used to maintain accuracy. Based on the use of such a quantization scheme, the time, accuracy, and memory usage of the 13 proposed layers are optimized more than the network of VGGNet 19, and the buffer reuse method is applied to the improved 13 layers of 8 bits. As a result, we proposed a model that can reduce the execution time by a little bit compared to the existing method and use only 35.5% of the memory usage and the accuracy by 8% using the quantization method and the buffer reuse method.
Recently, as the use of deep learning has been expanded in embedded devices, research on the use of deep learning is also being carried out in the field of embedded systems. Deep learning has shown good performance in the fields of image classification and object recognition, and there is an increasing tendency to introduce it in embedded systems. However, it is a fact that it is difficult to perform in embedded device due to high calculation complexity and memory usage. Various optimization methods have been studied for this purpose. There have been a lot of studies to reduce memory usage by reducing the amount of connection synapses or quantization to reduce the weight, and to reduce the execution time by using a computational accelerator. However, there is a problem in that a certain amount of accuracy must be reduced when these techniques are applied. The proposed method is based on the fact that the accuracy is reduced in inverse proportion by reducing the buffer usage when optimizing the quantization method. We tried to find the optimization point of the quantization method which can reduce the loss of accuracy to the minimum by reusing the buffer that stores the input and output during deep running. Experimental results show that when the bits of the connection weight are represented by 8 bits, only 25% of the memory is used as compared with the conventional single quantization method. However, when expressed in 4 bits, we show that the accuracy decreases sharply, and that 8-bit connection weights should be used to maintain accuracy. Based on the use of such a quantization scheme, the time, accuracy, and memory usage of the 13 proposed layers are optimized more than the network of VGGNet 19, and the buffer reuse method is applied to the improved 13 layers of 8 bits. As a result, we proposed a model that can reduce the execution time by a little bit compared to the existing method and use only 35.5% of the memory usage and the accuracy by 8% using the quantization method and the buffer reuse method.
주제어
#딥러닝 양자화 최적화 임베디드 시스템 deep learning quantization optimization embedded system
학위논문 정보
저자
김승재
학위수여기관
연세대학교 공학대학원
학위구분
국내석사
학과
컴퓨터공학 전공
지도교수
이인권
발행연도
2018
총페이지
v, 42장
키워드
딥러닝 양자화 최적화 임베디드 시스템 deep learning quantization optimization embedded system
※ AI-Helper는 부적절한 답변을 할 수 있습니다.