[논문]딥러닝을 하드웨어 가속기를 위한 저전력 BSPE Core 구현

조철원; 이광엽; 남기훈

doi:10.7471/ikeee.2020.24.3.895

초록
AI-Helper

본 논문에서 BSPE는 전력이 많이 소모되는 기존의 곱셈 알고리즘을 대체했다. Bit-serial Multiplier를 이용해 하드웨어 자원을 줄였으며, 메모리 사용량을 줄이기 위해 가변적인 정수 형태의 데이터를 사용한다. 또한, 부분 합을 더하는 MOA(Multi Operand Adder)에 LOA(Lower-part OR Approximation)를 적용해서 MOA의 자원 사용량 및 전력사용량을 줄였다. 따라서 기존 MBS(Multiplication by Barrel Shifter)보다 하드웨어 자원과 전력이 각각 44%와 42%가 감소했다. 또한, BSPE Core를 위한 hardware architecture design을 제안한다.

Abstract ▼ AI-Helper

In this paper, BSPE replaced the existing multiplication algorithm that consumes a lot of power. Hardware resources are reduced by using a bit-serial multiplier, and variable integer data is used to reduce memory usage. In addition, MOA resource usage and power usage were reduced by applying LOA (Lo...

In this paper, BSPE replaced the existing multiplication algorithm that consumes a lot of power. Hardware resources are reduced by using a bit-serial multiplier, and variable integer data is used to reduce memory usage. In addition, MOA resource usage and power usage were reduced by applying LOA (Lower-part OR Approximation) to MOA (Multi Operand Adder) used to add partial sums. Therefore, compared to the existing MBS (Multiplication by Barrel Shifter), hardware resource reduction of 44% and power consumption of 42% were reduced. Also, we propose a hardware architecture design for BSPE Core.

주제어

표/그림 (10)

그림 Fig. 1. Architecture of MBS. 그림 1. MBS(Multiplication by Barrel Shifter)의 구조
표 Table 1. Definition of terms in Equation 1. 표 1. 수식 1의 용어 정의
그림 Fig. 2. Architecture of BSPE. 그림 2. BSPE의 구조
그림 Fig. 3. Data prefetching and overlapping. 그림 3. 데이터 프리페칭과 오버래핑
표 Table 1. Comparison between MBS and BSPE. 표 1. MBS와 BSPE의 비교
그림 Fig. 4. Data prefetching and overlapping. 그림 4. 데이터 프리페칭과 오버래핑
그림 Fig. 6. BSPE Core. 그림 6. BSPE Core
그림 Fig. 5. Data reuse through variable data tiling. 그림 5. 가변적 데이터 타일링을 통한 데이터 재사용
표 Table 2. Used parameter on this experiment. 표 2. 실험에서 사용된 파라미터
표 Table 3. Synthesis result of BSPE Core. 표 3. BSPE Core 합성 결과

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서, 딥러닝 하드웨어 가속기에서 MOA는 약 69%를 차지한다.[9] 본 논문의 MOA는 딥러닝 알고리즘의 성능에는 영향을 끼치지 않고 하드웨어 자원의 소모를 줄이기 위해 LOA를 적용해 MOA의 크기를 줄였다. 본 논문은 BSPE를 활용한 BSPE Core에서의 효율적인 연산을 위한 hardware design을 제안한다.
본 논문에서는 저전력으로 딥러닝 알고리즘을 수행하는 BSPE Core를 제안한다. BSPE Core 내부에는 m개의 BSPE가 있어 최대 m개의 데이터를 이용해서 MAC 연산을 수행할 수 있다.
[9] 본 논문의 MOA는 딥러닝 알고리즘의 성능에는 영향을 끼치지 않고 하드웨어 자원의 소모를 줄이기 위해 LOA를 적용해 MOA의 크기를 줄였다. 본 논문은 BSPE를 활용한 BSPE Core에서의 효율적인 연산을 위한 hardware design을 제안한다.
본 논문은 기존의 곱셈 알고리즘인 MBS보다 적은 하드웨어 자원과 전력을 소모하여 컨벌루션 연산을 수행하는 BSPE를 제시했다. MBS를 Bit-Serial Multiplier로 대체하고 MOA에 LOA를 적용해서하드웨어 자원과 전력 사용을 낮췄다.
이러한 한계점을 보완하기 위해 본 논문에서는 BSPE(Bit-Serial Processing Element)를 제안한다.

제안 방법

MBS[9]는 기존의 곱셈기를 대체하는 곱셈 알고리즘이며 구조는 그림 1과 같다. 2개의 Bit-Brick[11]을 이용해서 기존의 곱셈 알고리즘을 대체한다. 입력으로 들어온 weight는 Booth’s algorithms에 의해 인코딩된다.
BSPE를 기반으로 합성곱 신경망에 응용하기 위해 BSPE에 최적하는 CNN 구조를 다음과 같이 제안한다.
본 논문은 기존의 곱셈 알고리즘인 MBS보다 적은 하드웨어 자원과 전력을 소모하여 컨벌루션 연산을 수행하는 BSPE를 제시했다. MBS를 Bit-Serial Multiplier로 대체하고 MOA에 LOA를 적용해서하드웨어 자원과 전력 사용을 낮췄다. 결과적으로 하드웨어 자원과 전력이 각각 44%와 42%가 감소했다.
또한, BSPE를 이용한 BSPE Core를 위한 하드웨어 구조를 제안한다. 가변적인 타일링 길이와 col, row단위의 overlapping computation을 이용해서 데이터 전송 횟수를 최소화했으며, 다음 연산할 tile 데이터를 prefetch해서 latency hiding을 통해 소모하는 사이클을 최소화했다.
R6를 가져오는 동안 연산기는 동작을 수행하지 않는다. 따라서 Data Prefetching 기법을 이용해 낭비되는 사이클을 제거했다.
따라서 본 논문에서는 가변적 tiling width를 두어 row 단위의 데이터도 재사용할 수 있다. Row stationary data reuse를 사용하지 않을 때 W*H를 수행하려면 데이터를 30번 전송해야 한다.
또한, BSPE를 이용한 BSPE Core를 위한 하드웨어 구조를 제안한다. 가변적인 타일링 길이와 col, row단위의 overlapping computation을 이용해서 데이터 전송 횟수를 최소화했으며, 다음 연산할 tile 데이터를 prefetch해서 latency hiding을 통해 소모하는 사이클을 최소화했다.
그림 5에서 W는 데이터 타일링의 width를 의미한다. 본 구조에서는 데이터를 overlapping computation row 단위로 수행한다. 만약 W를 본 실험의 예시에서처럼 kernel size 단위로 tiling을 한다면 파란색으로 표기된 부분은 Next kernel을 연산할 때 다시 가져온다.

대상 데이터

Activation은 8-bit를 사용했으며 weight는 5-bit를 사용했다. 또한, BSPE 내부의 곱셈기의 개수는 25개를 사용했다. 따라서 최대 5×5의 크기의 커널을 지원할 수 있다.

성능/효과

MBS를 Bit-Serial Multiplier로 대체하고 MOA에 LOA를 적용해서하드웨어 자원과 전력 사용을 낮췄다. 결과적으로 하드웨어 자원과 전력이 각각 44%와 42%가 감소했다.
이로 인해 사용할 수 있는 데이터의 정밀도는 한정된다. 둘째, 인코딩을할 수 없는 가중치는 근사화를 한다. 정수 형태의 데이터를 사용하는 MBS는 인코딩 테이블에 의해 weight가 ±11 또는 13일 경우 각각 10과 12로 근사화 한다.
또한, MBS는 2개의 barrel-shifter의 출력값과 2개의 INV를 더하기 때문에 더 많은 Adder Tree를 소모하지만 BSPE는 1개의 출력값과 1개의 INV가 출력으로 나오기 때문에 이들의 합을 구하는 Adder Tree의 규모가 작아져 자원 소모량을 줄일 수 있었다.
MBS는 가중치 인코딩과 Barrel shifter를 이용해 효율적으로 곱셈 연산을 하지만 한계가 있다. 첫째, 가중치를 인코딩하기 때문에 정해진 precision을 넘은 데이터는 사용할 수 없다. 이로 인해 사용할 수 있는 데이터의 정밀도는 한정된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	모바일 또는 엣지 디바이스에서 딥러닝 어플리케이션을 수행할 때 한계점은?	모바일 또는 엣지 디바이스에서 딥러닝 어플리케이션을 수행하기에는 다양한 한계점이 있다. 하드웨어의 자원이 한정적이며, 전력 사용의 제한이 있다. 또한, 네트워크의 연결이 원활하지 않으며 계산집약적인 딥러닝 알고리즘을 수행하기에는 부담이 크다.
	BSPE가 기존의 곱셈 알고리즘을 대체했을 때, 이에 대한 효과는?	본 논문에서 BSPE는 전력이 많이 소모되는 기존의 곱셈 알고리즘을 대체했다. Bit-serial Multiplier를 이용해 하드웨어 자원을 줄였으며, 메모리 사용량을 줄이기 위해 가변적인 정수 형태의 데이터를 사용한다. 또한, 부분 합을 더하는 MOA(Multi Operand Adder)에 LOA(Lower-part OR Approximation)를 적용해서 MOA의 자원 사용량 및 전력사용량을 줄였다. 따라서 기존 MBS(Multiplication by Barrel Shifter)보다 하드웨어 자원과 전력이 각각 44%와 42%가 감소했다. 또한, BSPE Core를 위한 hardware architecture design을 제안한다.
	딥러닝 전용 하드웨어 가속기가 모바일 또는 엣지 디바이스에서 딥러닝 애플리케이션을 수행하기에 적합한 이유는?	위와 같은 한계점을 극복하기 위해 전용 하드웨어 가속기의 연구가 활발히 진행되고 있다. 딥러닝 전용 하드웨어 가속기는 GP-GPU(General Purpose computing on Graphics Processing Units)보다 자원 대비 연산 효율과 전성비가 좋아 모바일 또는 엣지 디바이스에서 딥러닝 애플리케이션을 수행하기에 적합하다.

참고문헌 (12)

C. W. Cho, G. Y. Lee, "Low power for deep learning hardware accelerators Bit-Serial Multiplier based Processing Element," IKEEE Conference, 2020.
C. W. Cho, G. Y. Lee, "Bit-Serial multiplier based Neural Processing Element with Approximate adder tree," International SoC Design Conference (ISOCC), 2020.
Mahdiani, Hamid Reza, et al. "Bio-inspired imprecise computational blocks for efficient VLSI implementation of soft-computing applications," IEEE Transactions on Circuits and Systems I: Regular Papers, Vol.57, No.4 pp.850-862, 2009. DOI: 10.1109/TCSI.2009.2027626

상세보기
Abdelouahab, Kamel, Maxime Pelcat, and Francois Berry. "The challenge of multi-operand adders in CNNs on FPGAs: how not to solve it!," Proceedings of the 18th International Conference on Embedded Computer Systems: Architectures, Modeling, and Simulation. pp.157-160, 2018. DOI: 10.1145/3229631.3235024
Chen, Tianshi, et al. "Diannao: A small-footprint high-throughput accelerator for ubiquitous machinelearning," ACM SIGARCH Computer Architecture News, Vol.42, No.1, pp.269-284, 2014. DOI: 10.1145/2541940.2541967

상세보기
Chen, Yu-Hsin, et al. "Eyeriss: An energyefficient reconfigurable accelerator for deep convolutional neural networks," IEEE journal of solidstate circuits, Vol.52, No.1 pp.127-138, 2016. DOI: 10.1109/JSSC.2016.2616357

상세보기
Jouppi, Norman P., et al. "In-datacenter performance analysis of a tensor processing unit," Proceedings of the 44th Annual International Symposium on Computer Architecture, Vol.45, No.2, 2017. DOI: 10.1145/3140659.3080246
Lee, Jinmook, et al. "UNPU: A 50.6 TOPS/W unified deep neural network accelerator with 1b-to-16b fully-variable weight bit-precision," 2018 IEEE International Solid-State Circuits Conference-(ISSCC). IEEE, 2018. DOI: 10.1109/ISSCC.2018.8310262
Abdelouahab, Kamel, Maxime Pelcat, and Francois Berry. "The challenge of multi-operand adders in CNNs on FPGAs: how not to solve it!," Proceedings of the 18th International Conference on Embedded Computer Systems: Architectures, Modeling, and Simulation. pp.187-160, 2018. DOI: 10.1145/3229631.3235024
Park, Hyunbin, Dohyun Kim, and Shiho Kim. "Digital Neuron: A Hardware Inference Accelerator for Convolutional Deep Neural Networks," arXiv preprint arXiv:1812.07517, 2018.
Sharma, Hardik, et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network," 2018 ACM/IEEE 45th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2018. DOI: 10.1109/ISCA.2018.00069
Alwani, Manoj, et al. "Fused-layer CNN accelerators," 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). IEEE, 2016. DOI: 10.5555/3195638.3195664

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

딥러닝을 하드웨어 가속기를 위한 저전력 BSPE Core 구현
Implementation of low power BSPE Core for deep learning hardware accelerators 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (10)

표/그림 (10)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

딥러닝을 하드웨어 가속기를 위한 저전력 BSPE Core 구현 Implementation of low power BSPE Core for deep learning hardware accelerators 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (10) 모든 표/그림 보기

표/그림 (10) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

이광엽 (43) 남기훈 (4)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

딥러닝을 하드웨어 가속기를 위한 저전력 BSPE Core 구현
Implementation of low power BSPE Core for deep learning hardware accelerators 원문보기

초록
AI-Helper

표/그림 (10)

표/그림 (10)

AI 본문요약
AI-Helper