[논문]텐서 처리부의 분석 및 파이썬을 이용한 모의실행

이종복

doi:10.7236/jiibc.2019.19.3.165

텐서 처리부의 분석 및 파이썬을 이용한 모의실행
Analysis of Tensor Processing Unit and Simulation Using Python 원문보기

The journal of the institute of internet, broadcasting and communication : JIIBC, v.19 no.3, 2019년, pp.165 - 171

초록
AI-Helper

컴퓨터 구조의 연구 결과, 특정 영역의 하드웨어를 개발하는 과정에서 가격 대 에너지 성능의 획기적인 개선이 이뤄진다고 알려져 있다. 본 논문은 인공신경망(NN)의 추론을 가속화시킬 수 있는 텐서 처리부(TPU) ASIC에 대한 분석을 수행하였다. 텐서 처리부의 핵심장치는 고속의 연산이 가능한 MAC 행렬곱셈기와 소프트웨어로 관리되는 온칩 메모리이다. 텐서 처리부의 실행모델은 기존의 CPU와 GPU의 실행모델보다 인공신경망의 반응시간 요구사항을 제대로 충족시킬 수 있으며, 수많은 MAC과 큰 메모리를 장착함에도 불구하고 면적이 작고 전력 소비가 낮다. 텐서플로우 벤치마크 프레임워크에 대하여 텐서 처리부를 활용함으로써, CPU 또는 GPU보다 높은 성능과 전력 효율을 나타낼 수가 있다. 본 논문에서는 텐서 처리부를 분석하고, 파이썬을 이용하여 모델링한 OpenTPU에 대하여 모의실행을 하였으며, 그 핵심장치인 행렬 곱셈부에 대한 합성을 시행하였다.

Abstract ▼ AI-Helper

The study of the computer architecture has shown that major improvements in price-to-energy performance stems from domain-specific hardware development. This paper analyzes the tensor processing unit (TPU) ASIC which can accelerate the reasoning of the artificial neural network (NN). The core device of the TPU is a MAC matrix multiplier capable of high-speed operation and software-managed on-chip memory. The execution model of the TPU can meet the reaction time requirements of the artificial neural network better than the existing CPU and the GPU execution models, with the small area and the low power consumption even though it has many MAC and large memory. Utilizing the TPU for the tensor flow benchmark framework, it can achieve higher performance and better power efficiency than the CPU or CPU. In this paper, we analyze TPU, simulate the Python modeled OpenTPU, and synthesize the matrix multiplication unit, which is the key hardware.

주제어

표/그림 (5)

그림 그림 1. 텐서 처리부의 블럭도 Fig. 1. The block diagram of TPU
그림 그림 2. 행렬 곱셈부의 시스톨릭 데이터의 흐름 Fig. 2. The Systolic Data Flow of Matrix Multiply Unit
표 표 1. OpenTPU의 명령어 집합 Table 1. The instruction set of the OpenTPU
표 표 2. OpenTPU 모의실행 결과 Table 2. The simulation result of OpenTPU
표 표 3 행렬 곱셈부를 Xilinx FPGA로 합성한 결과 Table 3. The XilinX FPGA synthesys report of Matrix Multipy Unit

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기존의 신경망 하드웨어를 되짚어보고, 구글의 텐서 처리부를 고찰 및 분석하였다. 또한, 텐서 처리부를 파이썬으로 모델링한 OpenTPU를 이용하여 모의실행을 하였다.

가설 설정

가중치들이 오프칩 가중치 DRAM에서 이동할 때 정지되는 것을 방지하기 위하여 버퍼 타일에 길이 4의 FIFO가 이용된다. 가중치 DRAM에 연결할 때, 데이터를 64 B 단위로 이동하는 표준 DDR 인터페이스를 가정한다.
호스트 메모리에 대한 연결 넓이는 한 개 벡터의 크기이며, 가중치 DRAM에 대한 연결은 64 B의 표준 크기를 이용한다. 에뮬레이션으로 동작하는 메모리 제어기는 매 싸이클마다 새로운 값을 반환해주기 때문에 OpenTPU 하드웨어 시뮬레이션은 고정적인 메모리 접근 지연시간을 가정한다.

제안 방법

한편, Synapse-I 시스템은 MA-16이라는 시스톨릭 곱셈 및 누산 칩을 기반으로 하였는데, 한 번에 16 개의 16 비트 곱셈을 수행할 수 있다^[4] . MA-16 칩을 여러 개 연결하여 기존의 하드웨어를 이용하여 활성기능을 수행했다.
이 코드는 어셈블리 프로그램, 호스트 메모리 화일, 가중치 화일로 구성되는 세 개의 인자를 읽어들인다. TensorFlow로 작성된 고급 응용 프로그램과 OpenTPU 간의 상이한 양자화 원리를 고려하여 모의실험기는 32 비트 실수형 모드와 8 비트 정수형 모드 두 가지로 실행되며, 출력 역시 32 비트 실수형과 8 비트 정수형의 두 가지 세트로 내보낸다.
또한, 텐서 처리부를 파이썬으로 모델링한 OpenTPU를 이용하여 모의실행을 하였다. 나아가서, 텐서 처리부의 핵심장치인 행렬곱셈부를 Xilinx FPGA를 목표로 합성하였다.
본 논문에서는 기존의 신경망 하드웨어를 되짚어보고, 구글의 텐서 처리부를 고찰 및 분석하였다. 또한, 텐서 처리부를 파이썬으로 모델링한 OpenTPU를 이용하여 모의실행을 하였다. 나아가서, 텐서 처리부의 핵심장치인 행렬곱셈부를 Xilinx FPGA를 목표로 합성하였다.
텐서 처리부는 지연시간을 줄이기 위하여, CPU와 밀결합시키지 않고, GPU처럼 기존의 호스트 서버에 장착할 수 있도록 PCI 입출력버스용 보조프로세서로 설계되었다. 또한, 하드웨어 설계와 디버깅을 간단화하기 위하여 텐서 처리부가 직접 텐서 처리부 명령어를 인출하지 않고, 호스트 서버가 텐서 처리부로 명령어를 보내서 텐서 처리부가 실행하도록 하였다. 즉, 텐서 처리부의 인터페이스는 호스트 CPU와의 상호작용을 최소화하고 융통성이 있도록 설계하는 것을 목표로 하였으며, 그림 1에 텐서 처리부의 블럭도를 나타냈다^[1] .
마지막으로, 텐서처리부의 핵심장치인 행렬 곱셈부를 파이썬의 OutputToVerilog 기능과 PyRTL 0.8.6을 연동하여 Verilog 코드로 변환하였고, 이것을 다시 버클리 대학에서 개발한 Yosys 0.7에 입력하여 Xilinx FPGA를 목표로 합성하였다. Yosys 0.
. 본 논문에서는 텐서 처리부에 대하여 기술하고 분석하며, 파이썬을 이용하여 모의실행하고, 핵심장치인 행렬 곱셈부를 합성하였다. 본 논문은 다음과 같이 구성된다.
이 때, 학습을 하기 위하여 16 비트가 부족하다고 판단하여 두 개의 16 비트 워드를 이용한 결과, 학습 시간이 두 배 소요되었다. 이러한 단점을 극복하기 위하여 32 개에서 1000 개의 데이터 세트에 대한 배치작업을 수행하여 가중치를 업데이트하는 시간을 단축하였다.
텐서 처리부는 지연시간을 줄이기 위하여, CPU와 밀결합시키지 않고, GPU처럼 기존의 호스트 서버에 장착할 수 있도록 PCI 입출력버스용 보조프로세서로 설계되었다. 또한, 하드웨어 설계와 디버깅을 간단화하기 위하여 텐서 처리부가 직접 텐서 처리부 명령어를 인출하지 않고, 호스트 서버가 텐서 처리부로 명령어를 보내서 텐서 처리부가 실행하도록 하였다.

대상 데이터

1 GHz로 동작하는 Intel Core i7-950 데스크탑 PC에서 시행하였다. 모의실험은 UCSB ArchLab 연구실에서 구글의 텐서 처리부를 재구현한 OpenTPU를 기반으로 하였으며^[6] , 모의실험 환경 구축을 위하여 Python 3.4.3, PyRTL 0.8.6, Numpy 1.8.2를 이용하였다.
행렬 곱셈부는 256×256 MAC으로 구성되는데, 이것은 부호화 또는 부호화되지 않은 8 비트 정수에 대하여 8 비트 곱셈과 덧셈을 수행한다. 이 때 생성된 16 비트는 행렬 곱셈부의 아래에 위치한 4MB 32 비트 누산기로 출력되는데, 이것은 32 비트 누산기 256 개의 요소를 4096 개 모아서 설계되었다. 행렬 곱셈부는 매 클럭 싸이클마다 한 개의 256 요소의 부분합을 생성하는데, 4096 개로 설계한 이유는 최고성능에 도달하기 위한 바이트 당 연산수가 1350이므로 2048로 잡고, 컴파일러가 더블버퍼링을 이용할 수 있도록 그 두 배로 잡았기 때문이다.
환경 본 논문의 모의실험은 운영체제 Ubuntu 14.04 LTS에서 3.1 GHz로 동작하는 Intel Core i7-950 데스크탑 PC에서 시행하였다. 모의실험은 UCSB ArchLab 연구실에서 구글의 텐서 처리부를 재구현한 OpenTPU를 기반으로 하였으며^[6] , 모의실험 환경 구축을 위하여 Python 3.

성능/효과

첫 번째인 다층퍼셉트론 신경망 (MLP)에서 각 신경망 층은 선행하는 신경망 층의 모든 출력의 가중치 합계의 비선형 함수 집합으로서, 가중치는 재사용된다. 두 번째, 콘볼루션 신경망 (CNN)에서 각 신경망 층은 선행하는 신경망 층의 출력과 공간적으로 인접한 부분집합의 가중치 합계의 비선형 함수 집합이며 가중치는 역시 재사용된다. 세 번째로 순환 신경망(RNN)에서 각 신경망 층은 출력과 이전 상태의 가중치 합계의 비선형 함수 집합이다.
오늘날 모든 학습은 실수형 데이터를 이용하기 때문에 GPU가 인기를 얻게 되었으나, 양자화의 단계를 거치면 실수형 데이터를 8 비트 정수형 데이터로 변환할 수 있으며, 정수형 데이터를 이용하더라도 신경망으로 추론하기에는 문제가 없다. 본 연산에 필요한 8 비트 정수형 곱셈기는 IEEE 754 16 비트 실수형 곱셈기에 비하여 전력과 면적이 1/6에 불과하며, 정수형 덧셈기는 실수형 덧셈기에 비하여 전력이 1/13이고 면적은 1/38에 그치기 때문에 매우 효율적이다.

후속연구

추후로, 행렬 곱셈부에 결여되어있는 콘볼루션 기능을 포함시키고, 행렬 곱셈부뿐만이 아니라 전체 텐서처리부에 대하여 Verilog 코드를 생성한 후에 합성하여 타이밍 시뮬레이션을 거친 후에, 정적 시간 분석(STA)과 합성후 모의실험(Post synthesis simulation)을 거쳐 최종적인 동작을 검증하고 FPGA로 프로그래밍하여 동작을 검증할 예정이다. FPGA로 검증을 완료한 후에는, Synopsis로 합성하여 국내 기관인 IDEC을 통하여 ASIC 칩으로 구현할 예정이다.
추후로, 행렬 곱셈부에 결여되어있는 콘볼루션 기능을 포함시키고, 행렬 곱셈부뿐만이 아니라 전체 텐서처리부에 대하여 Verilog 코드를 생성한 후에 합성하여 타이밍 시뮬레이션을 거친 후에, 정적 시간 분석(STA)과 합성후 모의실험(Post synthesis simulation)을 거쳐 최종적인 동작을 검증하고 FPGA로 프로그래밍하여 동작을 검증할 예정이다. FPGA로 검증을 완료한 후에는, Synopsis로 합성하여 국내 기관인 IDEC을 통하여 ASIC 칩으로 구현할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	정수형 덧셈기가 실수형 덧셈기에 비해 어떤 이점이 있는가?	오늘날 모든 학습은 실수형 데이터를 이용하기 때문에 GPU가 인기를 얻게 되었으나, 양자화의 단계를 거치면 실수형 데이터를 8 비트 정수형 데이터로 변환할 수 있으며, 정수형 데이터를 이용하더라도 신경망으로 추론하기에는 문제가 없다. 본 연산에 필요한 8 비트 정수형 곱셈기는 IEEE 754 16 비트 실수형 곱셈기에 비하여 전력과 면적이 1/6에 불과하며, 정수형 덧셈기는 실수형 덧셈기에 비하여 전력이 1/13이고 면적은 1/38에 그치기 때문에 매우 효율적이다.
	비선형함수의 역할은 무엇인가?	신경망에서 비선형함수를 사용하는 이유는 신경망의 출력을 0과 1 또는 -1과 1 사이에서 결정하기 위해서이다. 출력을 결정할 때, 비선형 함수를 사용하여 다양한 데이터에 대하여 적용하고 일반화시킬 수 있으며 출력을 구분할 수 있다. 현재 콘볼루션 신경망과 딥러닝에 가장 많이 쓰이는 비선형함수는 ReLU 함수로서, z가 0보다 작을 때는 출력이 0이고, z가 0보다 크거나 같을 때는 출력이 z이다.
	텐서 처리부 소프트웨어 스택은 무엇으로 구성되어 있는가?	텐서 처리부 소프트웨어 스택은 CPU 및 GPU와 호환 가능하도록 하여 응용프로그램을 텐서 처리부에 신속하게 이식할 수 있도록 하였으며, 텐서 처리부에서 실행되는 응용프로그램의 부분은 TensorFlow를 이용하여 프로그래밍되어 CPU 및 GPU에서 수행 가능한 API로 컴파일된다. GPU와 마찬가지로 텐서 처리부 스택은 사용자 공간 드라이버와 커널 드라이버로 구성되는데, 경량인 커널 드라이버는 장기간 동안 바뀌지 않으며, 메모리관리와 인터럽트만 처리한다. 반면에, 사용자 공간 드라이버는 자주 변경되며 텐서 처리부의 실행을 설정, 제어하고 데이터를 텐서 처리부의 순서대로 재형성하며, API 호출을 텐서 처리부 명령어로 번역하여 응용 프로그램의 기계어로 전환한다.

참고문헌 (6)

N. P. Jouppi et al., "In-Datacenter Performance Analysis of a Tensor Processing Unit," 44th International Symposium on Computer Architecture (ISCA), Jun. 2017.
P. Ienne, T. Cornu, and G. Kuhn, "Special Purpose digital hardware for neural networks: An architectural survery," Journal of VLSI signal processing systems for signal, image and video technology, Vol. 1, No. 13, 1996.
D. Hammerstrom, "A VLSI Architecture for high-performnace, low-cost, on-chip learning," International Joint Conference on Neural Networks, Jun. 1990.
U. Ramacher et. al., "Design of a 1st Generation Nerocomputer," VLSI design of Neural Networks. 1991.
K. Asanovik et. al, "Training Neural Networks with Spert-II," Parallel Architectures for Artificial Networks : Paradigm and Implementations, Nov. 1998.
https://github.com/UCSBarchlab/OpenTPU

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증