[논문]다중 GPU의 성능에 대한 연구

김예림; 김영태

다중 GPU의 성능에 대한 연구
A Study on the Performance of Multiple GPU's 원문보기

김예림 (강릉원주대학교 컴퓨터공학과) , 김영태 (강릉원주대학교 컴퓨터공학과)

본 논문에서는 다중 GPU의 효율성을 알아보기 위하여 정적분 계산을 이용하여 원주율(${\pi}$)를 계산하는 CUDA 프로그램을 구현하였으며, 다중 GPU를 사용하기 위해서는 병렬처리 라이브러리인 MPI를 사용하였다. 실험 결과 GPU의 수에 비례하여 성능이 선형으로 증가함을 보였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

MPI는 대표적인 분산 병렬프로그래밍 방식이며[4,5], 본 논문에서는 다른 각각 컴퓨터에 설치되어 있는 GPU에서 동시에 계산하기 위하여 MPI 방식을 사용하여 병렬프로그램을 구현하였다[6].
구분구적법에서는 도형을 여러 개의 조각으로 나누어 넓이를 계산하는데, 조각 수가 많을수록 오차가 작아지므로 본 프로그램에서는 조각 수를 충분히 큰 개수인 256 × 108개로 설정하여 실험하였다.
다중 GPU의 성능을 알아보기 위한 프로그램을 2장에서 설명한 방식으로 구현하였으며, 이 장에서는 프로그램의 실행 시간을 GPU 개수가 1개, 2개, 그리고 4개일 경우로 나누어 비교 분석한다.
본 논문에서는 GPU를 두 개 이상 병렬로 사용하여 원주율(π)를 구하는 정적분 프로그램을 구현하였으며, 그 성능을 비교 분석하여 보았다.
원주율(π)를 적분으로 구하는 방법에는 대표적으로 몬테카를로 적분법이 있지만, 본 연구에서는 구분구적법으로 π값을 계산하는 정적분 프로그램을 구현하였다.
이에 본 논문에서는 두 개 이상의 다중 GPU의 계산성능을 알아보기 위하여 원주율(π)를 계산하는 정적분 프로그램을 GPU에서 실행할 수 있도록 구현하였으며, 프로그램에는 Nvidia GPU 프로그램 모델인 CUDA(Compute Unified Device Architecture)와 병렬처리 라이브러리인 MPI(Message Passing Interface)를 사용하였다.

대상 데이터

GPU를 이용한 병렬 연산을 처리하기 위해 GPU 구동은 CUDA 라이브러리, 병렬처리는 MPI 라이브러리를 이용하였으며, 계산에 사용된 GPU는 Nvidia Tesla C1060(1.3GHz)이다. 이 장에서는 병렬 프로그램의 구조와 연산 환경, 그리고 적분 계산에 대해 설명한다.
본 실험에서는 n을 256 × 108개로 설정하였으며, 이는 CUDA 함수에서 256(=28)개의 스레드가 사용되기 때문에 계산 구간 분할을 용이하게 하기 위한 숫자이다.
이 실험은 CUDA 함수에서 256개의 스레드를 사용하였으며, 총 256 × 108번의 충분한 연산을 통해 이루어졌다.
최근 화제가 된 구글 딥마인드가 개발한 인공지능 바둑 프로그램 알파고는 1,202개의 CPU와 176개의 GPU를 사용하였다[1]. 알파고와 같이 연산 처리량이 많은 프로그램의 경우, GPU를 사용한 연산이 CPU 기반 시스템에 비교하여 효율적인 성능을 보여준다.

이론/모형

GPU 구동에는 CUDA, 병렬처리에는 MPI 라이브러리를 사용했으며, π값을 구하는 방식으로는 정적분 계산법 중 구분구적법을 이용하였다.

성능/효과

실험 결과, GPU의 동시 사용 개수가 많을수록 실행 시간은 선형으로 비례하여 감소하였다. 따라서 정적분 계산 시 다중 GPU를 사용한 병렬 연산 프로그램이 효율적임을 보였으며, 처리 속도가 중요한 연산의 경우 GPU가 많을수록 효과적일 것으로 기대된다.
구분구적법에서는 도형을 여러 개의 조각으로 나누어 넓이를 계산하는데, 조각 수가 많을수록 오차가 작아지므로 본 프로그램에서는 조각 수를 충분히 큰 개수인 256 × 10⁸개로 설정하여 실험하였다. 실험 결과, GPU의 동시 사용 개수가 많을수록 실행 시간은 선형으로 비례하여 감소하였다. 따라서 정적분 계산 시 다중 GPU를 사용한 병렬 연산 프로그램이 효율적임을 보였으며, 처리 속도가 중요한 연산의 경우 GPU가 많을수록 효과적일 것으로 기대된다.
원주율(π) 값의 계산을 통해 GPU 개수에 따른 실행 시간을 비교한 결과, (그림 3)에서 볼 수 있듯이, GPU 1개를 사용했을 경우, GPU가 2개인 경우보다 약 2배, 4개인 경우보다 약 4배 빠른 것으로 나타났다.

후속연구

한편, 본 논문은 GPU 간 데이터 교환이 없는 프로그램에 대한 연구이므로, 만약 GPU 간 통신이 필요한 계산의 경우는 본 연구 결과와 다를 수 있으며, 이는 향후 연구 과제가 될 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다중 GPU의 성능에 대한 연구
A Study on the Performance of Multiple GPU's 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다중 GPU의 성능에 대한 연구 A Study on the Performance of Multiple GPU's 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다중 GPU의 성능에 대한 연구
A Study on the Performance of Multiple GPU's 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper