본 논문에서는 고성능 HEVC부호기 화면내 예측기의 적은 연산 시간 및 연산 복잡도, 하드웨어 면적 감소를 위한 하드웨어 구조를 제안한다. 제안하는 화면내 예측기의 하드웨어 구조는 연산 복잡도를 감소시키기 위해 공통 연산기를 사용하였고, 저면적 하드웨어 구조를 위해 $4{\times}4$ 블록 단위 연산기를 사용하였다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 화면내 예측 하드웨어 구조는 $4{\times}4$PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, $32{\times}32$ PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 화면내 예측기의 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$CMOS 표준 셀 라이브러리로 합성한 결과 41.5k개의 게이트로 구현되었다. 제안하는 화면내 예측기 하드웨어 구조는 150MHz의 동작주파수에서 4K UHD@30fps 영상의 실시간 처리가 가능하며, 최대 200MHz까지 동작 가능하다.
본 논문에서는 고성능 HEVC 부호기 화면내 예측기의 적은 연산 시간 및 연산 복잡도, 하드웨어 면적 감소를 위한 하드웨어 구조를 제안한다. 제안하는 화면내 예측기의 하드웨어 구조는 연산 복잡도를 감소시키기 위해 공통 연산기를 사용하였고, 저면적 하드웨어 구조를 위해 $4{\times}4$ 블록 단위 연산기를 사용하였다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 화면내 예측 하드웨어 구조는 $4{\times}4$ PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, $32{\times}32$ PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 화면내 예측기의 하드웨어 구조는 Verilog HDL로 설계하였으며, TSMC $0.13{\mu}m$ CMOS 표준 셀 라이브러리로 합성한 결과 41.5k개의 게이트로 구현되었다. 제안하는 화면내 예측기 하드웨어 구조는 150MHz의 동작주파수에서 4K UHD@30fps 영상의 실시간 처리가 가능하며, 최대 200MHz까지 동작 가능하다.
In this paper, we propose an intra prediction hardware architecture with less processing time, computations and reduced hardware area for a high performance HEVC encoder. The proposed intra prediction hardware architecture uses common operation units to reduce computational complexity and uses ...
In this paper, we propose an intra prediction hardware architecture with less processing time, computations and reduced hardware area for a high performance HEVC encoder. The proposed intra prediction hardware architecture uses common operation units to reduce computational complexity and uses $4{\times}4$ block unit to reduce hardware area. In order to reduce operation time, common operation unit uses one operation unit to generate predicted pixels and filtered pixels in all prediction modes. Intra prediction hardware architecture introduces the $4{\times}4$ PU design processing to reduce the hardware area and uses intemal registers to support $32{\times}32$ PU processmg. The proposed hardware architecture uses ten common operation units which can reduce execution cycles of intra prediction. The proposed Intra prediction hardware architecture is designed using Verilog HDL(Hardware Description Language), and has a total of 41.5k gates in TSMC $0.13{\mu}m$ CMOS standard cell library. At 150MHz, it can support 4K UHD video encoding at 30fps in real time, and operates at a maximum of 200MHz.
In this paper, we propose an intra prediction hardware architecture with less processing time, computations and reduced hardware area for a high performance HEVC encoder. The proposed intra prediction hardware architecture uses common operation units to reduce computational complexity and uses $4{\times}4$ block unit to reduce hardware area. In order to reduce operation time, common operation unit uses one operation unit to generate predicted pixels and filtered pixels in all prediction modes. Intra prediction hardware architecture introduces the $4{\times}4$ PU design processing to reduce the hardware area and uses intemal registers to support $32{\times}32$ PU processmg. The proposed hardware architecture uses ten common operation units which can reduce execution cycles of intra prediction. The proposed Intra prediction hardware architecture is designed using Verilog HDL(Hardware Description Language), and has a total of 41.5k gates in TSMC $0.13{\mu}m$ CMOS standard cell library. At 150MHz, it can support 4K UHD video encoding at 30fps in real time, and operates at a maximum of 200MHz.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
제안 방법
본 논문에서는 HEVC 화면 내 예측의 연산시간과 연산량, 하드웨어 면적을 최소화하기 위해 4x4 PU 블록 단위 연산기를 사용하였고, 공통 연산기 구조로 최대 32x32 PU 블록 단위까지 지원하는 방식을 채택하였다. 또한, 제안하는 화면 내 예측 하드웨어 구조는 3단 파이프라인으로 연산 시간을 최소화하였다.
본 논문에서 제안하는 화면 내 예측 하드웨어 구조는 Verilog HDL로 설계하였으며, ASIC 설계를 위한 하드웨어 합성은 IDEC에서 지원하는 CAD Tool인 Synopsys사의 Design Complier를 통해 합성하였다. 표 1은 하드웨어 합성 결과를 나타낸다.
본 논문에서는 HEVC 화면 내 예측의 연산시간과 연산량, 하드웨어 면적을 최소화하기 위해 4x4 PU 블록 단위 연산기를 사용하였고, 공통 연산기 구조로 최대 32x32 PU 블록 단위까지 지원하는 방식을 채택하였다. 또한, 제안하는 화면 내 예측 하드웨어 구조는 3단 파이프라인으로 연산 시간을 최소화하였다.
본 논문에서는 화면 내 예측 하드웨어 구조는 4x4 PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, 32x32 PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면 내 예측의 수행 사이클 수를 감소시킨다.
RP_Unit_1 모듈 내부 공통 연산기 구조는 그림 6과 같다. 예측모드에 따라 스위치 모듈에서 선택된 참조샘플들을 필터링하며, 필터링에 필요한 수식이 P1+2P2+P3+2 라는 공통 수식을 가지고 있기 때문에 2P2에 대한 부분을 P2를 2번 입력하여 2P2로 연산하는 구조로 설계하였다. 총 10개의 공통연산기를 사용하여 필터링에 필요한 참조샘플들을 생성가능하다.
본 논문에서는 화면 내 예측 하드웨어 구조는 4x4 PU 공통 연산기를 사용하여 하드웨어 면적은 감소 시켰으며, 32x32 PU까지 지원하는 하드웨어 구조로 설계하였다. 제안하는 하드웨어 구조는 10개의 공통 연산기를 사용하여 병렬처리함으로써 화면 내 예측의 수행 사이클 수를 감소시킨다.
제안하는 화면 내 예측 하드웨어 구조는 그림 4와 같이 RP_Gen 모듈, C_Unit 모듈, CP_Unit 모듈, Intra_Controller 모듈로 구분된다. RP_Gen 모듈은 외부로부터 참조샘플을 입력받아 예측샘플을 생성하는 기능을 수행하며, C_Unit 모듈은 RP_Gen 모듈에서 생성된 예측샘플과 원본샘플과의 차이를 구하는 모듈이다.
제안하는 화면 내 예측 하드웨어 구조는 참조샘플 생성 작업과 연산 작업, 비교 작업의 3단계 파이프라인 구조를 가지며, 파이프라인 구조를 통해 연산시간을 최소화 하였다. 제안하는 3단계 파이프라인 구조는 그림 7과 같다.
대상 데이터
264/AVC와 비교하여 약 50% 이상 개선된 부호화 효율을 갖는다[1]. 새로운 기술들 중 화면 내 예측은 현재 프레임과 가장 유사한 예측 프레임을 생성하기 위해 4x4 PU(Prediction Unit)부터 64x64 PU까지 다양한 크기의 PU에 대한 예측을 수행하고, 35개의 예측모드를 갖는다. HEVC의 화면 내 예측은 많은 예측모드 수와 다양한 크기의 PU를 지원하고 참조 픽셀 및 예측 픽셀의 필터링 과정을 수행하기 때문에 하드웨어 구현 시 기존 H.
성능/효과
제안하는 하드웨어 구조를 TSMC 0.13μm CMOS 표준 셀 라이브러리로 합성한 결과 최대 동작 주파수는 150MHz이고, 게이트 수는 41.5k이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.