최근 딥 러닝(Deep learning)에 대한 관심이 증가하면서 관련 연구가 활발히 진행되고 있다. 구글 학술 문헌 검색에 따르면, “딥 러닝(Deep learning)” 키워드로 검색되는 학술 문헌 횟수는 매년 급증하고 있다. 또한, 산업계에서도 세계적인 IT 기업을 중심으로 딥 러닝에 대한 연구 개발이 활발히 진행되고 있다. 딥 러닝은 기존 알고리즘에 비하여 높은 정확도를 보여주었지만 방대한 연산량으로 인하여 2000년대 중반까지는 거의 활용되지 않았다. 이러한 문제점은 최근 하드웨어 시스템의 성능이 급격히 향상됨에 따라 해결할 수 있게 되었다. 최근에는 ...
최근 딥 러닝(Deep learning)에 대한 관심이 증가하면서 관련 연구가 활발히 진행되고 있다. 구글 학술 문헌 검색에 따르면, “딥 러닝(Deep learning)” 키워드로 검색되는 학술 문헌 횟수는 매년 급증하고 있다. 또한, 산업계에서도 세계적인 IT 기업을 중심으로 딥 러닝에 대한 연구 개발이 활발히 진행되고 있다. 딥 러닝은 기존 알고리즘에 비하여 높은 정확도를 보여주었지만 방대한 연산량으로 인하여 2000년대 중반까지는 거의 활용되지 않았다. 이러한 문제점은 최근 하드웨어 시스템의 성능이 급격히 향상됨에 따라 해결할 수 있게 되었다. 최근에는 GPGPU(General Purpose Graphic Processing Unit), FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuits) 등 다양한 하드웨어 시스템에서 딥 러닝 알고리즘을 가속화하는 방안에 대한 연구가 활발히 진행되고 있다. 이에 따라서, 본 논문에서는 GPGPU 기반 CNN(Convolutional Neural Network)알고리즘의 병렬화 구현 및 FPGA 기반 ANN(Artificial Neural Network)가속기 설계 방법을 제안한다. 본 논문에서 제안하는 GPGPU 기반 CNN 학습 병렬화는 NVIDIA에서 제공하는 CUDA 플랫폼을 사용하였다. CNN의 각 계층(Layer)에 스레드(Thread) 기법을 적용하여 병렬 처리로 학습 속도를 향상시켰다. GPGPU 기반 병렬화가 적용된 CNN은 CPU에서 동작하는 CNN 학습 프로그램과 비교하여 약 72% 학습 시간을 단축하여 성능이 향상된 것을 확인할 수 있었다. FPGA 기반 ANN 가속기는 Verilog HDL로 구현하였으며 FSM(Finite State Machine) 기반 제어부(Control unit)의 신호로 동작한다. 고정소수점 및 근사치를 이용한 활성화 함수모듈 등을 통하여 자원 사용량을 감소시켰다. 설계된 가속기는 기존 ANN 가속기[25]와 비교하여 사용되는 자원량 대비 학습 수렴 속도가 빠르다는 것을 확인할 수 있었으며 동일 구조의 ANN을 GPGPU로 학습한 결과와 비교하여 약 41% 학습 속도가 향상되었다.
최근 딥 러닝(Deep learning)에 대한 관심이 증가하면서 관련 연구가 활발히 진행되고 있다. 구글 학술 문헌 검색에 따르면, “딥 러닝(Deep learning)” 키워드로 검색되는 학술 문헌 횟수는 매년 급증하고 있다. 또한, 산업계에서도 세계적인 IT 기업을 중심으로 딥 러닝에 대한 연구 개발이 활발히 진행되고 있다. 딥 러닝은 기존 알고리즘에 비하여 높은 정확도를 보여주었지만 방대한 연산량으로 인하여 2000년대 중반까지는 거의 활용되지 않았다. 이러한 문제점은 최근 하드웨어 시스템의 성능이 급격히 향상됨에 따라 해결할 수 있게 되었다. 최근에는 GPGPU(General Purpose Graphic Processing Unit), FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuits) 등 다양한 하드웨어 시스템에서 딥 러닝 알고리즘을 가속화하는 방안에 대한 연구가 활발히 진행되고 있다. 이에 따라서, 본 논문에서는 GPGPU 기반 CNN(Convolutional Neural Network) 알고리즘의 병렬화 구현 및 FPGA 기반 ANN(Artificial Neural Network) 가속기 설계 방법을 제안한다. 본 논문에서 제안하는 GPGPU 기반 CNN 학습 병렬화는 NVIDIA에서 제공하는 CUDA 플랫폼을 사용하였다. CNN의 각 계층(Layer)에 스레드(Thread) 기법을 적용하여 병렬 처리로 학습 속도를 향상시켰다. GPGPU 기반 병렬화가 적용된 CNN은 CPU에서 동작하는 CNN 학습 프로그램과 비교하여 약 72% 학습 시간을 단축하여 성능이 향상된 것을 확인할 수 있었다. FPGA 기반 ANN 가속기는 Verilog HDL로 구현하였으며 FSM(Finite State Machine) 기반 제어부(Control unit)의 신호로 동작한다. 고정소수점 및 근사치를 이용한 활성화 함수 모듈 등을 통하여 자원 사용량을 감소시켰다. 설계된 가속기는 기존 ANN 가속기[25]와 비교하여 사용되는 자원량 대비 학습 수렴 속도가 빠르다는 것을 확인할 수 있었으며 동일 구조의 ANN을 GPGPU로 학습한 결과와 비교하여 약 41% 학습 속도가 향상되었다.
Recently, as the visual deep learning attracts more and more attention, related research has been actively initiated. According to the Google Scholar Search results, the number of academic literatures searched by the keyword “deep learning” has increased dramatically every year. Furthermore, there h...
Recently, as the visual deep learning attracts more and more attention, related research has been actively initiated. According to the Google Scholar Search results, the number of academic literatures searched by the keyword “deep learning” has increased dramatically every year. Furthermore, there have been active research and development activities on the deep learning leaded by the world-renowned IT companies in the industry. However, until the mid-2000s, the deep learning was barely used on commercial products, because of its vast amount of calculation. Due to this problem, it was hard to apply the deep learning technology to our everyday life, and accordingly, the relevant research was not actively carried out. However, recently, such problem was resolved as the hardware system performance has been dramatically improved. Today, researches are being actively carried out on measures to accelerate the deep learning algorithm under various hardware systems including the GPGPU (General Purpose Graphic Processing Unit), the FPGA (Field Programmable Gate Array), and the ASIC (Application Specific Integrated Circuits). As such, this study aims to suggest methods of (i) the parallel implementation of the GPGPU-based CNN (Convolutional Neural Network) algorithm and (ii) the design of the FPGA-based ANN (Artificial Neural Network) accelerator. The parallel implementation of the GPGPU-based CNN learning, which is suggested in this study, uses the CUDA platform provided by NVIDIA. The learning speed was improved by parallel processing that implements the thread method for each layer of the CNN. The CNN with the GPGPU-based parallel implementation shortens the learning time by approximately 72% in comparison with the CNN learning program runs on the CPU. The FPGA-based ANN accelerator, implemented through Verilog HDL, operates by the signal from the Finite State Machine (FSM)-based control unit. The amount of resource use was reduced with the activation function module using the fixed-point and the approximate value. It was confirmed that the designed accelerator showed the performance improvement through faster learning convergence speed against the amount of used resources compared to the existing ANN accelerator [25]. In addition, in comparison with the learning of the ANN, which has the same structure with the GPGPU, the learning speed was improved by approximately 41%.
Recently, as the visual deep learning attracts more and more attention, related research has been actively initiated. According to the Google Scholar Search results, the number of academic literatures searched by the keyword “deep learning” has increased dramatically every year. Furthermore, there have been active research and development activities on the deep learning leaded by the world-renowned IT companies in the industry. However, until the mid-2000s, the deep learning was barely used on commercial products, because of its vast amount of calculation. Due to this problem, it was hard to apply the deep learning technology to our everyday life, and accordingly, the relevant research was not actively carried out. However, recently, such problem was resolved as the hardware system performance has been dramatically improved. Today, researches are being actively carried out on measures to accelerate the deep learning algorithm under various hardware systems including the GPGPU (General Purpose Graphic Processing Unit), the FPGA (Field Programmable Gate Array), and the ASIC (Application Specific Integrated Circuits). As such, this study aims to suggest methods of (i) the parallel implementation of the GPGPU-based CNN (Convolutional Neural Network) algorithm and (ii) the design of the FPGA-based ANN (Artificial Neural Network) accelerator. The parallel implementation of the GPGPU-based CNN learning, which is suggested in this study, uses the CUDA platform provided by NVIDIA. The learning speed was improved by parallel processing that implements the thread method for each layer of the CNN. The CNN with the GPGPU-based parallel implementation shortens the learning time by approximately 72% in comparison with the CNN learning program runs on the CPU. The FPGA-based ANN accelerator, implemented through Verilog HDL, operates by the signal from the Finite State Machine (FSM)-based control unit. The amount of resource use was reduced with the activation function module using the fixed-point and the approximate value. It was confirmed that the designed accelerator showed the performance improvement through faster learning convergence speed against the amount of used resources compared to the existing ANN accelerator [25]. In addition, in comparison with the learning of the ANN, which has the same structure with the GPGPU, the learning speed was improved by approximately 41%.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.