$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

다중 GPU의 성능에 대한 연구
A Study on the Performance of Multiple GPU's 원문보기

한국정보처리학회 2016년도 춘계학술발표대회, 2016 Apr. 29, 2016년, pp.49 - 50  

김예림 (강릉원주대학교 컴퓨터공학과) ,  김영태 (강릉원주대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 다중 GPU의 효율성을 알아보기 위하여 정적분 계산을 이용하여 원주율(${\pi}$)를 계산하는 CUDA 프로그램을 구현하였으며, 다중 GPU를 사용하기 위해서는 병렬처리 라이브러리인 MPI를 사용하였다. 실험 결과 GPU의 수에 비례하여 성능이 선형으로 증가함을 보였다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • MPI는 대표적인 분산 병렬프로그래밍 방식이며[4,5], 본 논문에서는 다른 각각 컴퓨터에 설치되어 있는 GPU에서 동시에 계산하기 위하여 MPI 방식을 사용하여 병렬프로그램을 구현하였다[6].
  • 구분구적법에서는 도형을 여러 개의 조각으로 나누어 넓이를 계산하는데, 조각 수가 많을수록 오차가 작아지므로 본 프로그램에서는 조각 수를 충분히 큰 개수인 256 × 108개로 설정하여 실험하였다.
  • 다중 GPU의 성능을 알아보기 위한 프로그램을 2장에서 설명한 방식으로 구현하였으며, 이 장에서는 프로그램의 실행 시간을 GPU 개수가 1개, 2개, 그리고 4개일 경우로 나누어 비교 분석한다.
  • 본 논문에서는 GPU를 두 개 이상 병렬로 사용하여 원주율(π)를 구하는 정적분 프로그램을 구현하였으며, 그 성능을 비교 분석하여 보았다.
  • 원주율(π)를 적분으로 구하는 방법에는 대표적으로 몬테카를로 적분법이 있지만, 본 연구에서는 구분구적법으로 π값을 계산하는 정적분 프로그램을 구현하였다.
  • 이에 본 논문에서는 두 개 이상의 다중 GPU의 계산성능을 알아보기 위하여 원주율(π)를 계산하는 정적분 프로그램을 GPU에서 실행할 수 있도록 구현하였으며, 프로그램에는 Nvidia GPU 프로그램 모델인 CUDA(Compute Unified Device Architecture)와 병렬처리 라이브러리인 MPI(Message Passing Interface)를 사용하였다.

대상 데이터

  • GPU를 이용한 병렬 연산을 처리하기 위해 GPU 구동은 CUDA 라이브러리, 병렬처리는 MPI 라이브러리를 이용하였으며, 계산에 사용된 GPU는 Nvidia Tesla C1060(1.3GHz)이다. 이 장에서는 병렬 프로그램의 구조와 연산 환경, 그리고 적분 계산에 대해 설명한다.
  • 본 실험에서는 n을 256 × 108개로 설정하였으며, 이는 CUDA 함수에서 256(=28)개의 스레드가 사용되기 때문에 계산 구간 분할을 용이하게 하기 위한 숫자이다.
  • 이 실험은 CUDA 함수에서 256개의 스레드를 사용하였으며, 총 256 × 108번의 충분한 연산을 통해 이루어졌다.
  • 최근 화제가 된 구글 딥마인드가 개발한 인공지능 바둑 프로그램 알파고는 1,202개의 CPU와 176개의 GPU를 사용하였다[1]. 알파고와 같이 연산 처리량이 많은 프로그램의 경우, GPU를 사용한 연산이 CPU 기반 시스템에 비교하여 효율적인 성능을 보여준다.

이론/모형

  • GPU 구동에는 CUDA, 병렬처리에는 MPI 라이브러리를 사용했으며, π값을 구하는 방식으로는 정적분 계산법 중 구분구적법을 이용하였다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로