인공신경망 기술이 자율주행 자동차, 인공지능 기반 CCTV와 같은 에지 디바이스에 적용되면서 임베디드 환경을 위한 NPU가 주목받고 있다. 그러나 대부분의 NPU에 관한 연구는 기업을 중심으로 이루어져 NPU Microarchitecture에 접근하고 활용하기 어렵다. 이로 인해, 접근이 용이한 NPU Microarchitecture 와 NPU에 관한 새로운 전략을 실험할 환경의 조성이 필요하다. Cycle-accurate Simulator는 하드웨어의 동작을 사이클 단위로 ...
인공신경망 기술이 자율주행 자동차, 인공지능 기반 CCTV와 같은 에지 디바이스에 적용되면서 임베디드 환경을 위한 NPU가 주목받고 있다. 그러나 대부분의 NPU에 관한 연구는 기업을 중심으로 이루어져 NPU Microarchitecture에 접근하고 활용하기 어렵다. 이로 인해, 접근이 용이한 NPU Microarchitecture 와 NPU에 관한 새로운 전략을 실험할 환경의 조성이 필요하다. Cycle-accurate Simulator는 하드웨어의 동작을 사이클 단위로 시뮬레이션 가능한 프로그램으로, Microarchitecture의 변경과 디버깅이 쉽다는 특성이 있다. 본 논문에서는 임베디드 환경을 위한NPU Microarchitecture를 설계하고 이를 Cycle-Accurate Simulator로 구현하여 NPU 실험을 위한 환경을 조성하였다. Convolution Layer의 추론 연산을 시행하는 Convolution Instruction Stream을 설계하고 VGGNet-16과 MobileNet-v1의 Convolution Layer 추론을 통해 정상 동작을 검증하였다. 조성한 환경에서 CNN Acceleration 기법의 적용 및 성능 평가가 가능함을 보이기 위해 IFM Data Reuse 전략을 적용하고 이에 따른 성능 차이를 측정하였다. 이를 위해 IFM Data Reuse 전략을 구현하기 위한 NPU 명령어를 추가하고 Convolution Instruction Stream을 수정하였다. VGGNet-16과 MobileNet-v1 Convolution Layer 추론 처리 결과 IFM Data Reuse 전략을 적용함에 따라 Convolution Layer 추론 속도가 최대 1.326배 증가하였다. IFM을 불러오기 위한 메모리 접근 횟수는 최대 2.8배 감소하였다. 이를 통해 임베디드 시스템을 위한 NPU Microarchitecture를 확보하고 CNN Acceleration 전략을 시험할 수 있는 환경을 구축하였다.
인공신경망 기술이 자율주행 자동차, 인공지능 기반 CCTV와 같은 에지 디바이스에 적용되면서 임베디드 환경을 위한 NPU가 주목받고 있다. 그러나 대부분의 NPU에 관한 연구는 기업을 중심으로 이루어져 NPU Microarchitecture에 접근하고 활용하기 어렵다. 이로 인해, 접근이 용이한 NPU Microarchitecture 와 NPU에 관한 새로운 전략을 실험할 환경의 조성이 필요하다. Cycle-accurate Simulator는 하드웨어의 동작을 사이클 단위로 시뮬레이션 가능한 프로그램으로, Microarchitecture의 변경과 디버깅이 쉽다는 특성이 있다. 본 논문에서는 임베디드 환경을 위한NPU Microarchitecture를 설계하고 이를 Cycle-Accurate Simulator로 구현하여 NPU 실험을 위한 환경을 조성하였다. Convolution Layer의 추론 연산을 시행하는 Convolution Instruction Stream을 설계하고 VGGNet-16과 MobileNet-v1의 Convolution Layer 추론을 통해 정상 동작을 검증하였다. 조성한 환경에서 CNN Acceleration 기법의 적용 및 성능 평가가 가능함을 보이기 위해 IFM Data Reuse 전략을 적용하고 이에 따른 성능 차이를 측정하였다. 이를 위해 IFM Data Reuse 전략을 구현하기 위한 NPU 명령어를 추가하고 Convolution Instruction Stream을 수정하였다. VGGNet-16과 MobileNet-v1 Convolution Layer 추론 처리 결과 IFM Data Reuse 전략을 적용함에 따라 Convolution Layer 추론 속도가 최대 1.326배 증가하였다. IFM을 불러오기 위한 메모리 접근 횟수는 최대 2.8배 감소하였다. 이를 통해 임베디드 시스템을 위한 NPU Microarchitecture를 확보하고 CNN Acceleration 전략을 시험할 수 있는 환경을 구축하였다.
NPU for embedded environments is attaching attention as artificial neural network technology is applied to edge devices such as self-driving cars and AI-based CCTV. However, it is difficult to access NPU microarchitecture because most of the research about NPU is done by big companies. For this reas...
NPU for embedded environments is attaching attention as artificial neural network technology is applied to edge devices such as self-driving cars and AI-based CCTV. However, it is difficult to access NPU microarchitecture because most of the research about NPU is done by big companies. For this reason, it is necessary to design a new NPU microarchitecture and create an environment for experimenting with new ideas for NPU. Cycle-accurate simulator is often used at the hardware development stage because it is easy to modify and debug hardware microarchitecture. In this paper, I designed an NPU microarchitecture for an embedded environment and implemented it with a cycle-accurate simulator to build an environment for research about NPU. I made a NPU instruction stream that performs the inference operation of the convolution layer and verified it by processing the convolution layers of VGGNet-16 and MobileNet-v1. To show using this environment to apply new strategies and evaluate performance is available, I applied the IFM data reuse strategy and measured performance change with it. For this, I added a new instruction for the IFM data reuse strategy in NPU and modified the NPU instruction stream. The experiment shows up to 1.326x speedup processing a convolution layer by applying IFM Data Reuse Strategy. Also, memory access to load IFM data in the NPU register reduces by 2.8x by applying IFM data reuse strategy. Through this, I built the NPU microarchitecture for embedded system and environment to evaluate new CNN acceleration ideas.
NPU for embedded environments is attaching attention as artificial neural network technology is applied to edge devices such as self-driving cars and AI-based CCTV. However, it is difficult to access NPU microarchitecture because most of the research about NPU is done by big companies. For this reason, it is necessary to design a new NPU microarchitecture and create an environment for experimenting with new ideas for NPU. Cycle-accurate simulator is often used at the hardware development stage because it is easy to modify and debug hardware microarchitecture. In this paper, I designed an NPU microarchitecture for an embedded environment and implemented it with a cycle-accurate simulator to build an environment for research about NPU. I made a NPU instruction stream that performs the inference operation of the convolution layer and verified it by processing the convolution layers of VGGNet-16 and MobileNet-v1. To show using this environment to apply new strategies and evaluate performance is available, I applied the IFM data reuse strategy and measured performance change with it. For this, I added a new instruction for the IFM data reuse strategy in NPU and modified the NPU instruction stream. The experiment shows up to 1.326x speedup processing a convolution layer by applying IFM Data Reuse Strategy. Also, memory access to load IFM data in the NPU register reduces by 2.8x by applying IFM data reuse strategy. Through this, I built the NPU microarchitecture for embedded system and environment to evaluate new CNN acceleration ideas.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.