최근 임베디드 GPU가 OpenCL프레임워크를 지원하기 시작하면서, 임베디드 GPU도 GPGPU로 수행을 할 수 있게 되었다. 그러나, 임베디드 GPU는 제한된 수의 프로세싱 코어를 탑재하고 있기 때문에, 최적의 성능을 얻기 위해서는 멀티코어 CPU와 임베디드 GPU를 모두 활용해야 한다. 한편, 얼굴인식은 많은 응용에서 중요해지고 있는데, 보다 정확한 인식을 위해서는 실시간에 더 많은 계산을 해야 한다. 본 논문에서는, 널리 알려진 얼굴인식 알고리즘인 지역적 이진패턴 기반의 얼굴 인식기를 OpenCL을 사용하여 임베디드 GPU에서 가속한 결과를 제시한다. ARM Cortex-A15 듀얼코어 CPU와 ARM Mali쿼드코어 GPU가 하나의 칩으로 구성된 Exynos 5250 시스템에서 가속했고, 태스크 병렬성과 데이터 병렬성을 모두 활용한 병렬화 방안들을 살펴보았다. 단일 쓰레드로 수행하는 CPU 구현에 비해서, 수행시간은 최대 7.5배까지 줄어들었고, 이에 따라 에너지 사용량도 최대 7.0배까지 줄어들었다. 본 논문은 OpenCL을 사용하여 지역적 이진 패턴 기반 얼굴인식을 가속한 최초의 논문이자, Mali GPU에서 OpenCL을 사용한 병렬화에 대한 최초의 논문이다.
최근 임베디드 GPU가 OpenCL 프레임워크를 지원하기 시작하면서, 임베디드 GPU도 GPGPU로 수행을 할 수 있게 되었다. 그러나, 임베디드 GPU는 제한된 수의 프로세싱 코어를 탑재하고 있기 때문에, 최적의 성능을 얻기 위해서는 멀티코어 CPU와 임베디드 GPU를 모두 활용해야 한다. 한편, 얼굴인식은 많은 응용에서 중요해지고 있는데, 보다 정확한 인식을 위해서는 실시간에 더 많은 계산을 해야 한다. 본 논문에서는, 널리 알려진 얼굴인식 알고리즘인 지역적 이진패턴 기반의 얼굴 인식기를 OpenCL을 사용하여 임베디드 GPU에서 가속한 결과를 제시한다. ARM Cortex-A15 듀얼코어 CPU와 ARM Mali쿼드코어 GPU가 하나의 칩으로 구성된 Exynos 5250 시스템에서 가속했고, 태스크 병렬성과 데이터 병렬성을 모두 활용한 병렬화 방안들을 살펴보았다. 단일 쓰레드로 수행하는 CPU 구현에 비해서, 수행시간은 최대 7.5배까지 줄어들었고, 이에 따라 에너지 사용량도 최대 7.0배까지 줄어들었다. 본 논문은 OpenCL을 사용하여 지역적 이진 패턴 기반 얼굴인식을 가속한 최초의 논문이자, Mali GPU에서 OpenCL을 사용한 병렬화에 대한 최초의 논문이다.
Recently, embedded Graphics Processing Units (GPUs) have started to support OpenCL framework which enables general-purpose computing on a GPU (GPGPU). However, the current embedded GPUs usually have a limited number of cores. To achieve better performance in such a system, it is essential to utilize...
Recently, embedded Graphics Processing Units (GPUs) have started to support OpenCL framework which enables general-purpose computing on a GPU (GPGPU). However, the current embedded GPUs usually have a limited number of cores. To achieve better performance in such a system, it is essential to utilize both the multi-core CPU and the GPU at the same time. On the other hand, face recognition is becoming popular in many applications, demanding more computation for higher recognition accuracy in real-time. In this paper, we present an efficient Local Binary Pattern (LBP) based face recognizer implemented using OpenCL on an embedded GPU. We explored different parallelization strategies exploiting both task-parallelism and data-parallelism on a heterogeneous embedded system, Exynos 5250: a system with a dual-core ARM Cortex-A15 CPU and a quad-core ARM Mali GPU. The experimental results show 7.5 times speedup compared to a single threaded CPU execution, and 7.0 times smaller energy consumption. To the best of our knowledge, this is the first work that presents the acceleration of LBP-based face recognition using OpenCL, and more importantly the first work that reports the performance of Mali GPU as a GPGPU using OpenCL.
Recently, embedded Graphics Processing Units (GPUs) have started to support OpenCL framework which enables general-purpose computing on a GPU (GPGPU). However, the current embedded GPUs usually have a limited number of cores. To achieve better performance in such a system, it is essential to utilize both the multi-core CPU and the GPU at the same time. On the other hand, face recognition is becoming popular in many applications, demanding more computation for higher recognition accuracy in real-time. In this paper, we present an efficient Local Binary Pattern (LBP) based face recognizer implemented using OpenCL on an embedded GPU. We explored different parallelization strategies exploiting both task-parallelism and data-parallelism on a heterogeneous embedded system, Exynos 5250: a system with a dual-core ARM Cortex-A15 CPU and a quad-core ARM Mali GPU. The experimental results show 7.5 times speedup compared to a single threaded CPU execution, and 7.0 times smaller energy consumption. To the best of our knowledge, this is the first work that presents the acceleration of LBP-based face recognition using OpenCL, and more importantly the first work that reports the performance of Mali GPU as a GPGPU using OpenCL.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.