[논문]CNN 가속기의 효율적인 데이터 전송을 위한 메모리 데이터 레이아웃 및 DMA 전송기법 연구

조석재; 박성경; 박성정

doi:10.7471/ikeee.2020.24.2.559

CNN 가속기의 효율적인 데이터 전송을 위한 메모리 데이터 레이아웃 및 DMA 전송기법 연구
Memory data layout and DMA transfer technique research For efficient data transfer of CNN accelerator 원문보기

전기전자학회논문지 = Journal of IKEEE, v.24 no.2, 2020년, pp.559 - 569

조석재 (Dept. of Electronics Engineering, Pusan National University) , 박성경 (Dept. of Electronics Engineering, Pusan National University) , 박성정 (Dept. of Electronics Engineering, Konkuk University)

초록
AI-Helper

딥 러닝 알고리즘 중 하나인 CNN 인공지능 어플리케이션은 하드웨어 측면에서 컨벌루션 레이어의 많은 데이터들을 저장하기 위해 오프 칩 메모리를 사용 하고, DMA를 사용하여 매 데이터 전송 시 프로세서의 부하를 줄여 성능을 향상 시킬 수 있다. 또한 컨벌루션 레이어의 데이터를 가속기의 글로벌 버퍼에 전송되는 순서를 다르게 하여 어플리케이션의 성능의 저하를 줄일 수 있다. 불 연속된 메모리 주소를 가지고 있는 베이직 레이아웃의 경우 SG-DMA를 사용 할 때 ordinary DMA를 사용할 때보다 DMA를 사전 설정하는 부분에서 약 3.4배의 성능향상을 보였고 연속적인 메모리 주소를 가지고 있는 아이디얼 레이아웃의 경우 ordinary DMA 와 SG-DMA를 사용하는 두가지 경우 모두 1396 사이클 정도의 오버헤드를 가졌다. 가장 효율적인 메모리 데이터 레이아웃과 DMA의 조합은 프로세서의 DMA 사전 설정 부하를 약 86 퍼센트까지 감소할 수 있음을 실험을 통해 확인했다.

Abstract ▼ AI-Helper

One of the deep-running algorithms, CNN's artificial intelligence application uses off-chip memory to store data on the Convolution Layer. DMA can reduce processor load at every data transfer. It can also reduce application performance degradation by varying the order in which data from the Convolution layer is transmitted to the global buffer of the accelerator. For basic layouts with continuous memory addresses, SG-DMA showed about 3.4 times performance improvement in pre-setting DMA compared to using ordinaly DMA, and for Ideal layouts with discontinuous memory addresses, the ordinal DMA was about 1396 cycles faster than SG-DMA. Experiments have shown that a combination of memory data layout and DMA can reduce the DMA preset load by about 86 percent.

주제어

표/그림 (19)

그림 Fig. 1. Scatter Gather Function description of SG-DMA. 그림 1. SG-DMA의 Scatter Gather 기능
그림 Fig. 2. Structure of a Convolution layers. 그림 2. 컨벌루션 레이어의 기본 구조
그림 Fig. 3. Basic Pseudo Code of a Convolution layers. 그림 3 컨벌루션 레이어의 기본 슈도코드
그림 Fig. 4. Structure of a Tiled Convolution layers. 그림 4. 타일링 된 컨벌루션 레이어의 기본 구조
그림 Fig. 5. Pseudo Code of a Convolution layer. 그림 5. 타일링 된 컨벌루션 레이어의 슈도코드
그림 Fig. 6. Basic layout of Input Feature map. 그림 6. 인풋 특성 맵의 베이직 레이아웃
그림 Fig. 7. Basic layout of Input Feature map data in global buffer. 그림 7. 글로벌 버퍼에 저장 될 인풋 특성 맵 데이터의 베이직 레이아웃
그림 Fig. 8. Pseudo Code of Basic layout. 그림 8. 베이직 레이아웃의 슈도코드
그림 Fig. 9. Ideal layout of Input Feature map data. 그림 9. 인풋 특성 맵 데이터의 아이디얼 레이아웃
그림 Fig. 10. Ideal layout of Input Feature map data in global buffer. 그림 10. 글로벌 버퍼에 저장될 인풋 특성 맵 데이터의 아이디얼 레이아웃
그림 Fig. 11. Pseudo Code of Ideal layout. 그림 11. 아이디얼 레이아웃의 슈도코드
그림 Fig. 12. hardware block diagram. 그림 12. 하드웨어 블록 다이아 그램
표 Table 1. Experiment Environment of CNN parameter. 표 1. 실험 환경의 CNN 매계변수 설정 값
그림 Fig. 13. basic layout timing diagram with ordinary DMA. 그림 13. ordinary DMA를 사용한 베이직 레이아웃의 타이밍 다이어 그램
그림 Fig. 14. basic layout timing diagram with SG-DMA. 그림 14. SG-DMA를 사용한 베이직 레이아웃의 타이밍 다이어그램.
그림 Fig. 15. Ideal layout timing diagram with ordinary DMA. 그림 15. ordinary DMA를 사용한 아이디얼 레이아웃의 타이밍 다이어그램.
그림 Fig. 16. Ideal layout timing diagram with SG-DMA. 그림 16. SG-DMA를 사용한 아이디얼 레이아웃의 타이밍 다이어그램
그림 Fig. 17. Model scailing method of CNN hardware architecture. 그림 17. CNN 하드웨어 아키텍쳐의 모델 스케일링 방법
표 Table 2. Comparison of DMA transfer overhead. 표 2. DMA 전송 오버헤드 비교

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 NLR 데이터플로우를 사용하고 두 종류의 DMA의 성능을 비교/분석하여, 오프 칩 메모리의 접근을 최소화하는 적합한 메모리 데이터 레이아웃과 두 종류의 DMA의 조합을 기술한다.
또한 MAC 연산을 위해 필요한 데이터들이 오프 칩 디램에 연속된 메모리 주소를 가지고 있다고 가 정하므로, ordinary DMA를 사용하여 데이터를 가속기의 글로벌 버퍼에 공급하는 것만 고려하고 있다.이 논문은 기존의 논문들과 다르게 오프 칩 디램 에 저장되어 있는 연속된 메모리 주소에 데이터를 가속기의 글로벌 버퍼에 공급하는 것 뿐만 아니라 연속되지 않은 메모리 주소에 데이터를 가속기에 공급하는 방식과 데이터를 가속기에 전달하는 방법에 따른 적절한 DMA 선택과 메모리 데이터 레이아웃의 조합을 제안한다.

제안 방법

멀티 DMA를 사용하지 않고 싱글 DMA를 사용 하는 이유는 AXI 버스에서의 데이터 전송 효율을 최대화하기 위해 싱글 채널 DMA를 사용하였다. 프로세서는 오프 칩 디램 속의 픽셀들을 가속기의 글로벌 버퍼로 전달하기 위해 AXI 프로토콜을 사용한다.
이 논문에서는 2가지의 메모리 데이터 레이아웃과 2가지의 DMA를 조합한 총 4가지 환경을 적용 하여 실험을 진행하였다.
이를 해결하기 위해 매 데이터 전송 시 프로세서가 관여하는 부하를 DMA(Direct Memory Access) 를 사용하여 계산 속도나 에너지 소모 측면에서 어 플리케이션의 성능의 저하를 줄인다.

이론/모형

베이직 레이아웃과 ordinary DMA의 조합의 경우 오프 칩 디램에는 인풋 특성 맵 데이터, 특성 맵 데이터가, 아웃풋 특성 맵 데이터가 저장되어 있다. 가속기의 글로벌 버퍼는 오프 칩 디램에 저장 되어 있는 특성맵 데이터들에 접근하기 위해 ordinary DMA를 사용한다. 각 ordinary DMA는 불연속적인 데이터로의 접근을 위해 다수의 컨피규레이션 정보가 요구된다.

성능/효과

가장 비효율적인 메모리 데이터 레이아웃과 DMA 의 조합에 비해, 가장 효율적인 메모리 데이터 레이아웃과 DMA 조합의 오버헤드는 약 86 퍼센트까 지 감소할 수 있음을 실험을 통해 확인한다.
두 번째, 네 번째, 다섯 번째 컨벌루션 레이어들은 전 단계의 같은 채널의 특성 맵들만 연결되어 있는 반면, 세 번째 컨볼루션 레이어는 전 단계의 두 채널의 특성 맵들과 모두 연결되어 있다.
이 연구를 통해, DMA를 사용할 때 데이터 재정렬을 위한 오버헤드와 DMA set을 위한 오버헤드 간의 트레이드 오프 관계를 따져볼 필요성이 있음 을 확인했다.
즉 CNN 하드웨어 아키텍쳐의 구성은 CNN 하드 웨어 아키텍쳐 모델을 변경하더라도 크게 바뀌지 않으며, 아이디얼 레이아웃의 메모리맵 데이터 레이아웃의 재정렬 시간은 인풋 특성 맵 데이터의 크 기에 따라 베이직 레이아웃보다 큰 오버헤드를 가 질 것이며, 아이디얼 레이아웃에서 각 ordinary DMA와 SG-DMA의 전송 오버헤드는 비슷 할 것 이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	딥 러닝이란?	딥 러닝은 인간의 정보 처리 방식을 기계에 적용한 인공 신경망을 기반으로 대량의 데이터를 컴퓨 터가 스스로 학습하는 기계학습 알고리즘의 분야이다. 수많은 딥 러닝 알고리즘 중 하나인 CNN (Convolution Neural Network)은 현재 컴퓨터 비 전, 음성 인식, 로봇공학을 포함하는 인공지능 어플리케이션에 널리 쓰이고 있다[1], [2], [3], [4], [5].
	CNN이 현재 사용되는 분야는?	딥 러닝은 인간의 정보 처리 방식을 기계에 적용한 인공 신경망을 기반으로 대량의 데이터를 컴퓨 터가 스스로 학습하는 기계학습 알고리즘의 분야이다. 수많은 딥 러닝 알고리즘 중 하나인 CNN (Convolution Neural Network)은 현재 컴퓨터 비 전, 음성 인식, 로봇공학을 포함하는 인공지능 어플리케이션에 널리 쓰이고 있다[1], [2], [3], [4], [5].
	DMA의 3가지의 동작 방식은?	DMA는 크게 3가지의 동작 방식으로 나뉜다. 전송할 데이터의 메모리 주소와 데이터가 전송될 메모리 주소를 설정하는 DMA set 동작과, 데이터가 전송될 메모리 주소로 데이터를 전송하는 DMA run과 DMA의 작동 여부를 확인하는 busy check 동작 방식으로 나뉜다.

참고문헌 (27)

K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv:1409.1556v6, 2015.
LeCun, Yann, Leon Bottou, Yoshua Bengio, and Patrick Haffner, "Gradient-based learning applied to document recognition," in IEEE, 1998. DOI: 10.1109/5.726791
C. Farabet, C. Poulet, J. Y. Han, and Y. LeCun. Cnp: "An fpga-based processor for convolutional networks. In Field Programmable Logic and Applications," 2009. FPL 2009. International Conference on IEEE, pp.32-37, 2009. DOI: 10.1109/FPL.2009.5272559
Google. Improving photo search: A step across the semantic gap. http://googleresearch.blogspot.com/2013/06/improving-photo-search-step-across.html.
S. Ji, W. Xu, M. Yang, and K. Yu. "3d convolutional neural networks for human action recognition," IEEE Trans. Pattern Anal. Mach. Intell., Vol.35, No.1, pp.221-231, 2013. DOI: 10.1109/TPAMI.2012.59

상세보기
S. Cadambi, A. Majumdar, M. Becchi, S. Chakradhar, and H. P. Graf. "A programmable parallel Accelerator for learning and classication," In Proceedings of the 19th international conference on Parallel architectures and compilation techniques, pp.273-284. ACM, 2010.
R. Hadsell, A. Erkan, P. Sermanet, J. Ben, K. Kavukcuoglu, U. Muller, and Y. LeCun, "A multi-range vision strategy for autonomous offroad navigation," in Proc. Robotics and Applications (RA'07), 2007.
Y. Ma, Y. Cao, S. Vrudhula and J. Seo, "Optimizing the Convolution Operation to Accelerate Deep Neural Networks on FPGA," in IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol.26, no.7, pp.1354-1367, 2018. DOI: 10.1109/TVLSI.2018.2815603

상세보기
Lukas Cavigelli, Luca Benini "Origami: A 803 GOp/s/W Convolutional Network Accelerator in Origami: A 803 GOp/s/W Convolutional Network Accelerator," 2017.
V. Gokhale, J. Jin, A. Dundar, B. Martini, and E. Culurciello, "A 240 G-ops/s Mobile Coprocessor for Deep Neural Networks," in IEEE CVPRW, 2014. DOI: 10.1109/CVPRW.2014.106
Zidong Du, Robert Fasthuber, Tianshi Chen, Paolo Ienne, Ling Li, Tao Luo, Xiaobing Feng, Yunji Chen, and Olivier Temam, "Shidiannao: shifting vision processing closer to the sensor," in Proceedings of the 42nd. Annual International Symposium on Computer Architecture, pp.92-104, 2015.
Dao-Fu Liu, Tianshi Chen, Shaoli Liu, Jinhong Zhou, Shengyuan Zhou, Olivier Temam, XiaobingFeng, Xuehai Zhou, and Yunji Chen "PuDianNao: A Polyvalent Machine Learning Accelerator," in ASPLOS '15 Proceedings of the Twentieth International Conference on Architectural Support for Programming Languages and Operating Systems, 2015. DOI: 10.1145/2786763.2694358
Y.-H. Chen, T. Krishna, J. Emer, and V. Sze, "Eyeriss: An energy-efficient reconfigurable Accelerator for deep convolutional neural networks," in IEEE Journal of Solid-State Circuits (JSSC), Vol.52, No.1, pp.127-138, 2017. DOI: 10.1109/JSSC.2016.2616357

상세보기
Y.-H. Chen, J. Emer, and V. Sze, "Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks," in 43rd Annual International Symposium on Computer Architecture (ISCA), 2016. DOI: 10.1145/3007787.3001177
Yunji Chen, Tao Luo, Shaoli Liu, Shijin Zhang, Liqiang He, Jia Wang, Ling Li, Tianshi Chen, Zhiwei Xu, Ninghui Sun, and Olivier Temam, "DaDianNao: A Machine-Learning Supercomputer," in Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture, 2014. DOI: 10.1109/MICRO.2014.58
Tianshi Chen, Zidong Du, Ninghui Sun, Jia Wang, Chengyong Wu, Yunji Chen, and Olivier Temam "DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning," in ASPLOS '14 Proceedings of the 19th international conference on Architectural support for programming languages and operating systems, 2014. DOI: 10.1145/2644865.2541967
C. Zhang, P. Li, G. Sun, Y. Guan, B. Xiao, and J. Cong, "Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks," in FPGA, 2015. DOI: 10.1145/2684746.2689060
Youngjin Jo, Youngnam Kim, Sanghyuk Jung, Yong Ho Song "Implementation of Low Cost and High Performance DMA for PCI Express based SSD," in Korea Institute Of Communication Sciences, 2012.
GUO, Kaiyuan, et al. "A survey of fpga-based neural network accelerator," arXiv preprint arXiv: 1712.08934, 2017.
Ma, Yufei, et al. "Optimizing loop operation and dataflow in FPGA acceleration of deep convolutional neural networks," Proceedings of the 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. 2017. DOI: 10.1145/3020078.3021736
A. Krizhevsky, I. Sutskever, and G. E. Hinton. "Imagenet classification with deep convolutional neural networks," In F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, "Advances in Neural Information Processing Systems 25," Curran Associates, Inc., pp.1097-1105, 2012.
K. Simonyan and A. "Zisserman. Very deep convolutional networks for largescale image recognition," CoRR, abs/1409.1556, 2014.
Chen, Y. H., Emer, J., & Sze, V. (2018). "Eyeriss v2: A flexible and high-performance accelerator for emerging deep neural networks," arXiv preprint arXiv:1807.07928
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Microsoft Research, "Deep Residual Learning for Image Recognition," arXiv:1512.03385v1, 2015.
Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto. Hartwig Adam, "MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications," arXiv:1704.04861v1, 2017.
Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun, "ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices," arXiv:1707.01083, Dec 2017.
Mingxing Tan, Quoc V. L, "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks," arXiv:1905.11946v3, 2019.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증