보고서 정보
주관연구기관 |
한국과학기술원 Korea Advanced Institute of Science and Technology |
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2014-12 |
과제시작연도 |
2014 |
주관부처 |
미래창조과학부 Ministry of Science, ICT and Future Planning |
등록번호 |
TRKO201500010822 |
과제고유번호 |
1711017699 |
사업명 |
한국과학기술원연구운영비지원(0.5) |
DB 구축일자 |
2015-07-18
|
키워드 |
증강현실.스마트 글래스.물체 인식.비전 프로세서.사용자 입력 처리.Augmented reality.smart glasses.object recognition.vision processor.UI/UX.
|
DOI |
https://doi.org/10.23000/TRKO201500010822 |
초록
▼
최근에, 물체 인식은 다양한 실생활 어플리케이션에서 활용되고 있는데, 그 예로서, Microsoft의 Kinect의 body-part 인식 기반 게임 인터페이스와 Toyota나 BMW의 보행자차선 인식 기반 기반 운전자 보조 장치를 들 수 있다. 스마트 폰과 같이 저전력 플랫폼에서 또한 증강 현실이나 얼굴인식 기반 안전장치, 동작 인식 기반 사용자 인터페이스 등에 물체인식 기술을 활용하고 있다. 이러한 어플리케이션들은 90% 이상의 높은 인식 정확도를 위하여, Scale Invariant Feature Transform (SIFT)
최근에, 물체 인식은 다양한 실생활 어플리케이션에서 활용되고 있는데, 그 예로서, Microsoft의 Kinect의 body-part 인식 기반 게임 인터페이스와 Toyota나 BMW의 보행자차선 인식 기반 기반 운전자 보조 장치를 들 수 있다. 스마트 폰과 같이 저전력 플랫폼에서 또한 증강 현실이나 얼굴인식 기반 안전장치, 동작 인식 기반 사용자 인터페이스 등에 물체인식 기술을 활용하고 있다. 이러한 어플리케이션들은 90% 이상의 높은 인식 정확도를 위하여, Scale Invariant Feature Transform (SIFT)을 사용하는데, 입력 영상에서 목표 물체를 인식하기 위해 영상의 모든 특징점을 128-D 벡터로 기술하고 데이터베이스의 모든 벡터들과 하나씩 비교하는 과정을 필요로 한다. SIFT는 물체의 회전, 크기, 시점의 변화에 대한 강인성을 확보하고 있는데, 환경 변화에 무관하게 높은 인식률을 확보할 수 있다는 장점이 있지만 그를 위한 복잡한 계산에 따른 높은 연산량이 문제가 된다. 그리고 오늘날의 모바일 비전 플랫폼의 입출력 영상 장치의 높은 해상도와 낮은 전력 마진은 SIFT 기반 실시간 물체인식을 구현하기 더욱 어렵게 만들고 있다. 최근의 모바일 카메라는 1280×720 이상의 해상도를 30 frame/sec 의 처리성능을 유지하고 있으나, 모바일 CPU와 GPU는 0.1~1W의 전력소모가 요구된다.
위의 해상도 및 저전력 요구 조건을 동시에 만족시키며, 실시간 SIFT 기반 물체인식을 구현하기 위하여, 본 연구는 저전력 물체 인식 알고리즘 및 그를 가속하는 하드웨어 아키텍쳐를 제안한다. 그 첫 번째 기술로서 (1) 주의 집중 기반 물체 인식 알고리즘으로서 Context-Aware Visual Attention Model (CAVAM) 을 제안하여 기존의 SIFT기반 인식 모델 대비 Workload을 50% 이상 감소시킨다. 그리고 (2) 이를 위한 이종 멀티코어 프로세서를 설계하여 높은 데이터/쓰레드 병렬도로서 물체 인식 처리 성능을 30 frame/sec로 극대화시키는 시스템을 완성하였다. CAVAM 기반 물체 인식프로세서의 에너지 효율성을 증가 시키기 위하여 (3) 프로세싱 코어의 성능 예측 모델을 제안하고 예측 모델 기반Dynamic Voltage Frequency (DVFS) 기법을 구현하여, 기존 프레임 단위의 DVFS 기법 대비 36%의 에너지 소모량을 감소시켰다.
위 기술을 종합하여 설계한 342 GOPS(Giga Operations Per Second) 의 고성능 물체인식 프로세서는 최종적으로30 frame/sec 의 실시간 성능을 보유하였고 이 때 9.6mJ/frame 전력효율로서, 이는 기존 최신 기술 대비 2.54 배의 에너지 효율 증가를 달성하였다. 최종적으로, 프로세서를 스마트 글래스 시스템에 집적하여 실제 환경에서 물체 인식동작과 에너지 관리 기법을 성공적으로 검증 및 시연하였다.
Abstract
▼
In recent years, object recognition has been widely adopted in various real-life applications. Microsoft's Kinect uses body-part recognition as a gaming interface, and auto makers such as Toyota and BMW incorporate vehicle, pedestrian, and lane detection in their advanced driver-assistance systems.
In recent years, object recognition has been widely adopted in various real-life applications. Microsoft's Kinect uses body-part recognition as a gaming interface, and auto makers such as Toyota and BMW incorporate vehicle, pedestrian, and lane detection in their advanced driver-assistance systems. Smartphones that operate within a low power budget also use object recognition for booming applications such as augmented reality, face-recognition-based security, and gesture-recognition-based user interfaces. In such applications, the Scale Invariant Feature Transform (SIFT) is the most popular candidate for how to extract some interest points out of the objects and describe them in a way that invariants to translation, scaling, and rotation. However, SIFT-based object recognition consumes a lot of power because of the heavy computations required in descriptor generation and matching. In addition, today's high-resolution image sensors and tight power budgets make real-time SIFT implementation in mobile devices even harder; recent mobile cameras provide more than 720p resolution at 30 frames per second (fps), while the power consumption on mobile CPUs and GPUs ranges from roughly 0.1 W to 1 W.
To realize real-time SIFT-based object recognition that meets these high resolution and low power requirements, we propose an object-recognition processor using (1) an attention-based recognition algorithm for energy efficiency, (2) a heterogeneous multicore architecture for data and thread parallelism, and (3) performance model based fine-grain dynamic voltage and frequency scaling. The processor determines regions of interest (ROIs)-the parts of the image that likely contain target objects-which lets us perform the main recognition on only the selected regions, minimizing unnecessary computations. The heterogeneous multicore architecture provides several types of parallelism and so achieves high throughput and low power consumption for highly parallelizable recognition processing. The high bandwidth NoC plays a role as the communications backbone for tens of processing cores while meeting the high-resolution video sequence's streaming demand of more than a few hundred megabytes per frame. To increase energy efficiency of the multi-core processor, the performance model based fine-grain dynamic voltage and frequency scaling is proposed for processing cores of 5-stage task-level pipeline.
As a result, the fabricated SoC achieves 30 fps dynamic object recognition for a smart glass system with 720p video streams while dissipating 320mW, achieving 2.54 times higher energy efficiency with 10.5nJ/pixel compared to the state-of-the-art vision processors.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.