FPGA 임베디드 플랫폼 탑재를 위한 심층신경망 압축모델 기반 객체탐지 알고리즘 개발 Development of Compressed Deep Neural Networks based Object Detection Algorithm for Implementation on FPGA Embedded Platform원문보기
최근 딥러닝 연구가 발전함에 따라 컴퓨터 비전, 자율 주행, 소셜 네트워크 등 다양한 분야에서 딥러닝을 어플리케이션에 적용하는 연구가 활발하게 진행되고 있다. 딥러닝 알고리즘은 각종 어플리케이션에서 카메라, Lidar, ...
최근 딥러닝 연구가 발전함에 따라 컴퓨터 비전, 자율 주행, 소셜 네트워크 등 다양한 분야에서 딥러닝을 어플리케이션에 적용하는 연구가 활발하게 진행되고 있다. 딥러닝 알고리즘은 각종 어플리케이션에서 카메라, Lidar, Radar 등의 센서들과 결합하여 객체 판별 및 객체 탐지의 기능을 주로 수행한다. 이 중 카메라 센서는 물체의 색 및 재질 정보를 통해 객체 탐지를 효율적으로 수행하며, 이에 관련한 연구가 활발히 진행되고 있다. 기존 카메라 센서를 활용한 객체탐지 알고리즘은 1-stage detector와 2-stage detector로 분류되며, 2-stage detector는 높은 정확성을 보장하지만, 느린 속도로 인해 어플리케이션 적용에 어려움이 존재한다. 반면에 1-stage detector는 실시간 구현이 가능하지만, 상대적으로 낮은 정확도의 단점을 지니고 있다. 최근에는 1-stage detector와 2-stage detector의 장점을 취하며 단점을 보완하는 연구가 활발히 수행되고 있으나, 깊은 신경망 구조와 방대한 학습 파라미터 수로 인해 임베디드 시스템 적용에 한계가 존재한다. 본 연구에서는 위 문제 해결을 위해 임베디드 시스템에 적용 가능한 경량화된 심층신경망 기반 객체탐지 알고리즘 개발연구를 수행한다. 또한, GPU의 고전력 한계를 해결하기 위해 저전력이지만 Deep Learning 알고리즘 구현이 가능한 FPGA-SoC에 탑재 및 성능 검증 실험을 수행하였다. 대표적인 객체탐지 알고리즘인 YOLOv3는 1-stage detector로 고성능 GPU (GTX1080Ti)에서 높은 정확도로 실시간 추론이 가능한 알고리즘이다. 하지만, 저사양인 임베디드 프로세서에서 YOLO의 실시간 구현에는 한계가 있으며, 이를 보완하기 위해 경량화 된 YOLO-tiny가 개발되었으나, 낮은 정확도로 인해 높은 안정성이 요구되는 시스템에 적용하기엔 한계가 존재한다. 위의 한계점을 해결하기 위해 기존 YOLOv3 모델에 SqueezeNet Fire Module을 적용하여 정확도는 유지하되 메모리 및 연산량을 줄이는 연구를 수행하였다. 제안한 모델의 성능 검증을 위해 Pascal VOC 2007 + 2012 데이터 셋을 사용하여 학습을 수행하였다. YOLOv3와 비교 결과, 정확도(mAP)는 3.36% 감소한 75.01%로 측정되었으며, 메모리와 FLOPS는 각각 47.2%, 52.5% 경량화 된 것을 검증하였다. FPGA-SoC는 SW (ARM CPU) 및 HW (FPGA)의 co-design을 통해 고성능으로 알고리즘 구현이 가능하며 저전력의 장점을 지니고 있다. 하지만, 메모리 및 로직 셀의 한계로 인해 Deep Learning 기반의 객체탐지 알고리즘 탑재에는 한계가 존재한다. 이를 해결하기 위해, 제안하는 객체탐지 알고리즘의 학습 파라미터(weight 및 activation function)를 8bit로 줄이는 ModelQuantization 기법을 적용하였다. 제안하는 객체탐지 모델의 어플리케이션 적용 가능성 검토를 위해 FPGA-SoC 기반의 보행 신호 탐지 기기를 개발하여 성능 평가를 수행하였다. 보행신호 탐지 알고리즘 구현을 위해 본 연구에서 제안하는 객체탐지 알고리즘에 직접 취득한 데이터셋으로 학습하였다. 학습에 사용된 객체 수는 2개로 보행 신호, 정지 신호이며, 객체에 대한 이미지 데이터는 포항시 북구 양덕동 교차로에서 취득한 Training 5,869장, Validation 2,141장을 사용하였다. 학습한 보행신호 탐지 알고리즘을 Xilinx사의 FPGA-SoC 보드인 ZCU-102보드에 탑재 후, 성능 분석 실험을 수행하였다. 수행 결과 보행 신호 및 정지신호에 대한 정밀도(p) 및 재현율(r)은 각각 (p = 96.99%, r = 96.92%), (p = 91.72%, r = 90.38%)로 측정되었으며, 메모리 및 추론시간(fps)은 13.18MB, 23.2fps로 실시간 구현의 가능성을 확인하였다. 본 연구에서는 임베디드 시스템에 적용 가능한 Deep Learning 기반 객체 탐지 알고리즘을 개발하였으며, Xilinx사의 FPGA-SoC 보드인 ZCU-102에서 성능 검증을 수행함으로 높은 정확도 및 실시간 구현의 가능성을 확인하였다.
최근 딥러닝 연구가 발전함에 따라 컴퓨터 비전, 자율 주행, 소셜 네트워크 등 다양한 분야에서 딥러닝을 어플리케이션에 적용하는 연구가 활발하게 진행되고 있다. 딥러닝 알고리즘은 각종 어플리케이션에서 카메라, Lidar, Radar 등의 센서들과 결합하여 객체 판별 및 객체 탐지의 기능을 주로 수행한다. 이 중 카메라 센서는 물체의 색 및 재질 정보를 통해 객체 탐지를 효율적으로 수행하며, 이에 관련한 연구가 활발히 진행되고 있다. 기존 카메라 센서를 활용한 객체탐지 알고리즘은 1-stage detector와 2-stage detector로 분류되며, 2-stage detector는 높은 정확성을 보장하지만, 느린 속도로 인해 어플리케이션 적용에 어려움이 존재한다. 반면에 1-stage detector는 실시간 구현이 가능하지만, 상대적으로 낮은 정확도의 단점을 지니고 있다. 최근에는 1-stage detector와 2-stage detector의 장점을 취하며 단점을 보완하는 연구가 활발히 수행되고 있으나, 깊은 신경망 구조와 방대한 학습 파라미터 수로 인해 임베디드 시스템 적용에 한계가 존재한다. 본 연구에서는 위 문제 해결을 위해 임베디드 시스템에 적용 가능한 경량화된 심층신경망 기반 객체탐지 알고리즘 개발연구를 수행한다. 또한, GPU의 고전력 한계를 해결하기 위해 저전력이지만 Deep Learning 알고리즘 구현이 가능한 FPGA-SoC에 탑재 및 성능 검증 실험을 수행하였다. 대표적인 객체탐지 알고리즘인 YOLOv3는 1-stage detector로 고성능 GPU (GTX1080Ti)에서 높은 정확도로 실시간 추론이 가능한 알고리즘이다. 하지만, 저사양인 임베디드 프로세서에서 YOLO의 실시간 구현에는 한계가 있으며, 이를 보완하기 위해 경량화 된 YOLO-tiny가 개발되었으나, 낮은 정확도로 인해 높은 안정성이 요구되는 시스템에 적용하기엔 한계가 존재한다. 위의 한계점을 해결하기 위해 기존 YOLOv3 모델에 SqueezeNet Fire Module을 적용하여 정확도는 유지하되 메모리 및 연산량을 줄이는 연구를 수행하였다. 제안한 모델의 성능 검증을 위해 Pascal VOC 2007 + 2012 데이터 셋을 사용하여 학습을 수행하였다. YOLOv3와 비교 결과, 정확도(mAP)는 3.36% 감소한 75.01%로 측정되었으며, 메모리와 FLOPS는 각각 47.2%, 52.5% 경량화 된 것을 검증하였다. FPGA-SoC는 SW (ARM CPU) 및 HW (FPGA)의 co-design을 통해 고성능으로 알고리즘 구현이 가능하며 저전력의 장점을 지니고 있다. 하지만, 메모리 및 로직 셀의 한계로 인해 Deep Learning 기반의 객체탐지 알고리즘 탑재에는 한계가 존재한다. 이를 해결하기 위해, 제안하는 객체탐지 알고리즘의 학습 파라미터(weight 및 activation function)를 8bit로 줄이는 Model Quantization 기법을 적용하였다. 제안하는 객체탐지 모델의 어플리케이션 적용 가능성 검토를 위해 FPGA-SoC 기반의 보행 신호 탐지 기기를 개발하여 성능 평가를 수행하였다. 보행신호 탐지 알고리즘 구현을 위해 본 연구에서 제안하는 객체탐지 알고리즘에 직접 취득한 데이터셋으로 학습하였다. 학습에 사용된 객체 수는 2개로 보행 신호, 정지 신호이며, 객체에 대한 이미지 데이터는 포항시 북구 양덕동 교차로에서 취득한 Training 5,869장, Validation 2,141장을 사용하였다. 학습한 보행신호 탐지 알고리즘을 Xilinx사의 FPGA-SoC 보드인 ZCU-102보드에 탑재 후, 성능 분석 실험을 수행하였다. 수행 결과 보행 신호 및 정지신호에 대한 정밀도(p) 및 재현율(r)은 각각 (p = 96.99%, r = 96.92%), (p = 91.72%, r = 90.38%)로 측정되었으며, 메모리 및 추론시간(fps)은 13.18MB, 23.2fps로 실시간 구현의 가능성을 확인하였다. 본 연구에서는 임베디드 시스템에 적용 가능한 Deep Learning 기반 객체 탐지 알고리즘을 개발하였으며, Xilinx사의 FPGA-SoC 보드인 ZCU-102에서 성능 검증을 수행함으로 높은 정확도 및 실시간 구현의 가능성을 확인하였다.
In recent years, deep learning is actively applied to various fields such as computer vision, autonomous driving, and social network services with development of GPU. Deep learning plays a role mainly as an object classifier and detector with various sensors such as a camera, LiDAR, and Radar. Among...
In recent years, deep learning is actively applied to various fields such as computer vision, autonomous driving, and social network services with development of GPU. Deep learning plays a role mainly as an object classifier and detector with various sensors such as a camera, LiDAR, and Radar. Among the sensors, a camera sensor is cost-effective and accurately detects objects based on texture and color. Conventional object detection algorithms using a camera have deep networks and large parameter sizes. Because of their deep networks, they are limited to implement on embedded system. YOLOv3, one of the state-of-art object detectors, is a real-time object detector with reasonable accuracy, but it also has large parameters to implement on embedded system. To overcome the limitation, YOLOv3-tiny, a light version of YOLOv3 for embedded, is developed, but it is also unsuitable for embedded due to its low accuracy. Therefore, this paper proposes compressed deep neural networks based object detection algorithm for embedded system. The proposed object detection algorithm applied SqueezeNet Fire modules to YOLOv3 architecture to reduce parameters with less accuracy loss. The proposed algorithm is validated using Pascal VOC 2007+2012 dataset. According to the simulation result, the proposed method has 75.01% of mAP which is 3.36% less than YOLOv3 and reduces a half of YOLOv3 in terms of memory size. The proposed object detection algorithm is implemented on FPGA-SoC by model quantization and software/hardware co-design. The proposed model is quantized into 8-bit fixed point and heavy loaded function, object detection algorithm, is accelerated using parallel processing of FPGA. This paper proposes the FPGA-SoC based crosswalk assistive device for the visually impaired to evaluate the performance of the proposed object detection algorithm. Pedestrian signal dataset acquired from local crosswalks are used to verify the device. As an experiment result, precision (p) and recall (r) of green signal and red signal are measured as (p = 96.99%, r = 96.92%), (p = 91.72%, r = 90.38%), respectively. Detection speed of the proposed object detector is 23.2 fps which needs to be improved in further research for a real-time operation.
In recent years, deep learning is actively applied to various fields such as computer vision, autonomous driving, and social network services with development of GPU. Deep learning plays a role mainly as an object classifier and detector with various sensors such as a camera, LiDAR, and Radar. Among the sensors, a camera sensor is cost-effective and accurately detects objects based on texture and color. Conventional object detection algorithms using a camera have deep networks and large parameter sizes. Because of their deep networks, they are limited to implement on embedded system. YOLOv3, one of the state-of-art object detectors, is a real-time object detector with reasonable accuracy, but it also has large parameters to implement on embedded system. To overcome the limitation, YOLOv3-tiny, a light version of YOLOv3 for embedded, is developed, but it is also unsuitable for embedded due to its low accuracy. Therefore, this paper proposes compressed deep neural networks based object detection algorithm for embedded system. The proposed object detection algorithm applied SqueezeNet Fire modules to YOLOv3 architecture to reduce parameters with less accuracy loss. The proposed algorithm is validated using Pascal VOC 2007+2012 dataset. According to the simulation result, the proposed method has 75.01% of mAP which is 3.36% less than YOLOv3 and reduces a half of YOLOv3 in terms of memory size. The proposed object detection algorithm is implemented on FPGA-SoC by model quantization and software/hardware co-design. The proposed model is quantized into 8-bit fixed point and heavy loaded function, object detection algorithm, is accelerated using parallel processing of FPGA. This paper proposes the FPGA-SoC based crosswalk assistive device for the visually impaired to evaluate the performance of the proposed object detection algorithm. Pedestrian signal dataset acquired from local crosswalks are used to verify the device. As an experiment result, precision (p) and recall (r) of green signal and red signal are measured as (p = 96.99%, r = 96.92%), (p = 91.72%, r = 90.38%), respectively. Detection speed of the proposed object detector is 23.2 fps which needs to be improved in further research for a real-time operation.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.