최근 DeepMind사의 AlphaGo를 필두로, 머신러닝에 관련한 대중적 관심이 높아지고 있다. 영상인식분야에서는 CNN (Convolutional Neural Network) 구조가 머신러닝에 사용된다. 실제로 CNN은 이미 인간의 인식률을 뛰어 넘는 성능을 보이고 있다. 이러한 영상 인식관련 머신러닝은 ‘모빌아이’, ‘엔비디아’ 등 여러 업체에서 자율주행을 위한 영상 솔루션으로 사용되고 있다. 하지만, CNN은 높은 FLOPS (FLoating point OPeration per Second)를 요구한다. 이는 낮은 ...
최근 DeepMind사의 AlphaGo를 필두로, 머신러닝에 관련한 대중적 관심이 높아지고 있다. 영상인식분야에서는 CNN (Convolutional Neural Network) 구조가 머신러닝에 사용된다. 실제로 CNN은 이미 인간의 인식률을 뛰어 넘는 성능을 보이고 있다. 이러한 영상 인식관련 머신러닝은 ‘모빌아이’, ‘엔비디아’ 등 여러 업체에서 자율주행을 위한 영상 솔루션으로 사용되고 있다. 하지만, CNN은 높은 FLOPS (FLoating point OPeration per Second)를 요구한다. 이는 낮은 컴퓨팅 파워를 갖고 있는 차량용 임베디드 시스템에 적합하지 않다는 치명적인 단점을 안고 있다. 본 논문에서는, 이러한 문제를 해결하고자 DSDLNet이라는 CNN 구조를 제안하고, 임베디드 시스템에 적합한 영상인식 딥러닝소프트웨어 구조를 제안한다. DSDLNet은 빠른 학습시간과 상대적으로 낮은 연산량을 요구하는 CNN 구조이다. DSDLNet은 VGGNet을 큰 틀로, Inception과 ResNet에서 영감을 받아 구현된 CNN 아키텍처이다. DSDLNet만의 특징으로는 1D 모드와 2D 모드를 제공함으로서, 컴퓨팅 파워가 낮은 임베디드 시스템에서도 괄목할 만큼의 연산량을 줄일 수 있게 고안되었다. DSDLNet은 GTSRB와 DSDL-DDB dataset에 대하여 실험하고 검증되었다. 임베디드 시스템에서 가격, 전력 소모 등의 이유로 SoC (System on Chip)에 높은 성능의 병렬 처리를 위한 GPU를 사용하지 못한다. 하지만, 최근의 CNN 구조들은 GPU와 같은 병렬처리 하드웨어의 도움없이 프로세서만으로 동작하기는 너무 연산요구량이 높다. 따라서 본 논문에서는, 임베디드 시스템에 적용할 수 있는 프로그래머블 CNN 하드웨어 가속기 구조를 Verilog-HDL로 설계하고 검증한다. 제안하는 하드웨어 가속기는 Row Sationary (RS) 구조를 적용하여, 하나의 convolution 연산을 최소 단위로 동작을 하는 아키텍처로 설계하였다. 연산기 최소 단위는 PE (Processing Element)이며, PE는 하나의 1차원 필터 형태로 구현하였다. 제안된 회로는 ARM 프로세서와 호환이 가능한 AXI 인터페이스를 사용하여, 대부분의 임베디드 시스템에 바로 적용할 수 있도록 설계하였다.
최근 DeepMind사의 AlphaGo를 필두로, 머신러닝에 관련한 대중적 관심이 높아지고 있다. 영상인식분야에서는 CNN (Convolutional Neural Network) 구조가 머신러닝에 사용된다. 실제로 CNN은 이미 인간의 인식률을 뛰어 넘는 성능을 보이고 있다. 이러한 영상 인식관련 머신러닝은 ‘모빌아이’, ‘엔비디아’ 등 여러 업체에서 자율주행을 위한 영상 솔루션으로 사용되고 있다. 하지만, CNN은 높은 FLOPS (FLoating point OPeration per Second)를 요구한다. 이는 낮은 컴퓨팅 파워를 갖고 있는 차량용 임베디드 시스템에 적합하지 않다는 치명적인 단점을 안고 있다. 본 논문에서는, 이러한 문제를 해결하고자 DSDLNet이라는 CNN 구조를 제안하고, 임베디드 시스템에 적합한 영상인식 딥러닝 소프트웨어 구조를 제안한다. DSDLNet은 빠른 학습시간과 상대적으로 낮은 연산량을 요구하는 CNN 구조이다. DSDLNet은 VGGNet을 큰 틀로, Inception과 ResNet에서 영감을 받아 구현된 CNN 아키텍처이다. DSDLNet만의 특징으로는 1D 모드와 2D 모드를 제공함으로서, 컴퓨팅 파워가 낮은 임베디드 시스템에서도 괄목할 만큼의 연산량을 줄일 수 있게 고안되었다. DSDLNet은 GTSRB와 DSDL-DDB dataset에 대하여 실험하고 검증되었다. 임베디드 시스템에서 가격, 전력 소모 등의 이유로 SoC (System on Chip)에 높은 성능의 병렬 처리를 위한 GPU를 사용하지 못한다. 하지만, 최근의 CNN 구조들은 GPU와 같은 병렬처리 하드웨어의 도움없이 프로세서만으로 동작하기는 너무 연산요구량이 높다. 따라서 본 논문에서는, 임베디드 시스템에 적용할 수 있는 프로그래머블 CNN 하드웨어 가속기 구조를 Verilog-HDL로 설계하고 검증한다. 제안하는 하드웨어 가속기는 Row Sationary (RS) 구조를 적용하여, 하나의 convolution 연산을 최소 단위로 동작을 하는 아키텍처로 설계하였다. 연산기 최소 단위는 PE (Processing Element)이며, PE는 하나의 1차원 필터 형태로 구현하였다. 제안된 회로는 ARM 프로세서와 호환이 가능한 AXI 인터페이스를 사용하여, 대부분의 임베디드 시스템에 바로 적용할 수 있도록 설계하였다.
Recently, the interest of machine learning is rapidly increased, because of AlphaGo from DeepMind. In image recognition field, CNN (Convolutional Neural Network) architecture is widely used for machine learning. From 2015 CNN architecture overtake the human’s recognition performance. This state-of-a...
Recently, the interest of machine learning is rapidly increased, because of AlphaGo from DeepMind. In image recognition field, CNN (Convolutional Neural Network) architecture is widely used for machine learning. From 2015 CNN architecture overtake the human’s recognition performance. This state-of-art technology is used for autonomous driving solution by ‘Mobileye’, ‘NVIDIA’ and more companies. However, CNN demands a high FLOPS (FLoating point OPeration per Second). For this reason, it is not suitable for embedded system which has low computation power. To eliminate above problems, I propose DSDLNet which is suitable for embedded real-time image recognition via CNN solution. The beneficial of DSDLNet are fast learning and low computation demand. The major feature of DSDLNet is providing 1D and 2D compute mode which can adoptable for low computational power machine such as SoC or embedded system. DSDLNet is verified with GTSRB and DSDL-DDB dataset. Furthermore, In embedded system, high performance GPU is cannot be used due to its cost and power consumption. However, all of the state-of-art CNN architecture use multiple GPUs which are installed in server. For this reason, I propose CNN hardware accelerator which is suitable for embedded system. Proposed hardware accelerator use row stationary (RS) architecture. RS architecture consist of one kernel computing circuit for its minimum calculation unit. Minimum unit is called as processing element (PE) which designed to handle one dimensional filter. Proposed circuit is compatible with ARM processor, so that AXI intreface is adopted as its system wrapper.
Recently, the interest of machine learning is rapidly increased, because of AlphaGo from DeepMind. In image recognition field, CNN (Convolutional Neural Network) architecture is widely used for machine learning. From 2015 CNN architecture overtake the human’s recognition performance. This state-of-art technology is used for autonomous driving solution by ‘Mobileye’, ‘NVIDIA’ and more companies. However, CNN demands a high FLOPS (FLoating point OPeration per Second). For this reason, it is not suitable for embedded system which has low computation power. To eliminate above problems, I propose DSDLNet which is suitable for embedded real-time image recognition via CNN solution. The beneficial of DSDLNet are fast learning and low computation demand. The major feature of DSDLNet is providing 1D and 2D compute mode which can adoptable for low computational power machine such as SoC or embedded system. DSDLNet is verified with GTSRB and DSDL-DDB dataset. Furthermore, In embedded system, high performance GPU is cannot be used due to its cost and power consumption. However, all of the state-of-art CNN architecture use multiple GPUs which are installed in server. For this reason, I propose CNN hardware accelerator which is suitable for embedded system. Proposed hardware accelerator use row stationary (RS) architecture. RS architecture consist of one kernel computing circuit for its minimum calculation unit. Minimum unit is called as processing element (PE) which designed to handle one dimensional filter. Proposed circuit is compatible with ARM processor, so that AXI intreface is adopted as its system wrapper.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.