[논문]통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석

신필규; 홍성수

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석
Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory 원문보기

한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호, 2018 July 13, 2018년, pp.7 - 10

신필규 (서울대학교 전기정보공학부) , 홍성수 (서울대학교 전기정보공학부)

초록
AI-Helper

통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 CPU 메모리와 GPU 메모리 사이에서 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 이 데이터 통신이 끼치는 영향을 분석한다. 우리는 이를 위해 두 가지 실험을 수행한다.

가설 설정

둘째, 똑같은 데이터를 옮긴다면 통합 메모리와 전통적 CUDA 프로그래밍 모델은 수행시간에 차이가 없다. (a)의 라인 13과 (b)의 라인 8은 수행시간은 비슷하다. (a)의 라인 14와 (b)의 라인 14도 마찬가지다.

제안 방법

2의 의사코드를 작성한 프로그램을 수행한 결과다. 8번째 줄의 의사코드가 시작된 시점을 0으로 하여 13번째 줄의 의사코드가 종료된 시점까지 코드 라인별 수행시간을 측정하였다.
1의 의사코드를 작성한 프로그램을 수행한 결과다. 8번째 줄의 의사코드가 시작된 시점을 0으로 하여 16번째 줄의 의사코드가 종료된 시점까지 코드 라인별 수행시간을 측정하였다.
첫 번째 실험에서는 데이터 통신과 커널들이 연속적으로 수행되는 상황에서 CPU에서 수행되는 함수와 GPU에서 수행되는 커널이 접근하는 데이터를 바꾸면서 데이터 통신과 커널의 수행시간을 측정한다. 두 번째 실험에서는 데이터 통신과 커널들을 여러 스트림에 할당하여 동시에 수행될 수 있도록 한 상황에서 위와 같은 것을 측정한다.
우리는 NVIDIA 파스칼 GPU를 대상으로 하여, 통합 메모리를 사용할 시 CPU 메모리와 GPU 메모리 사이에서 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 이 데이터 통신이 끼치는 영향을 실험을 통해 분석하였다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다.
우리는 이 실험들을 위해 CUDA 프로그램들¹⁾ 을 작성하여 NVIDIA Visual Profiler로 프로파일링한다. 우리는 첫 번째 실험을 위해서 Fig.
을 작성하여 NVIDIA Visual Profiler로 프로파일링한다. 우리는 첫 번째 실험을 위해서 Fig. 1의 의사코드를 통합 메모리를 사용한 경우와 전통적인 CUDA 프로그래밍 모델을 사용한 경우의 두 가지 프로그램으로 작성한다. 두 번째 실험을 위해서는 Fig.
우리는 통합 메모리를 사용할 시 CPU 메모리와 GPU 메모리 사이에서 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 이 데이터 통신이 끼치는 영향을 분석하기 위해 두 가지 실험을 수행한다. 이 장에서는 그 실험과 결과를 설명한다.
우리는 이를 위해 두 가지 실험을 수행한다. 첫 번째 실험에서는 데이터 통신과 커널들이 연속적으로 수행되는 상황에서 CPU에서 수행되는 함수와 GPU에서 수행되는 커널이 접근하는 데이터를 바꾸면서 데이터 통신과 커널의 수행시간을 측정한다. 두 번째 실험에서는 데이터 통신과 커널들을 여러 스트림에 할당하여 동시에 수행될 수 있도록 한 상황에서 위와 같은 것을 측정한다.

대상 데이터

우리는 Ubuntu 17.10과 CUDA 9.2에서 동작하는 GTX 1080 Ti GPU에서 두 가지 실험을 수행한다. 첫 번째 실험에서는 데이터 통신과 커널들이 연속적으로 수행되는 상황에서 CPU에서 수행되는 함수와 GPU에서 수행되는 커널이 접근하는 데이터를 바꾸면서 데이터 통신과 커널의 수행시간을 측정한다.
우리의 실험은 Ubuntu 17.10과 CUDA (Compute Unified Device Architecture) 9.2에서 동작하는 GTX 1080 Ti GPU에서 이루어졌다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다.

성능/효과

둘째, 똑같은 데이터를 옮긴다면 통합 메모리와 전통적 CUDA 프로그래밍 모델은 수행시간에 차이가 없다. (a)의 라인 13과 (b)의 라인 8은 수행시간은 비슷하다.
따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.
우리는 이 실험 결과로부터 통합 메모리를 사용할 때 서로 다른 스트림에 할당된 데이터 통신과 커널들이 거의 동시에 수행되지 못한다는 것을 알아냈다. 라인 8, 9, 10은 데이터 의존성이 없는데도 불구하고 (b)와 다르게 (a)에서 거의 동시에 수행되지 않는다.
실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다.
이는 두 가지 관측에 근거한다. 첫째, 통합 메모리를 사용하였을 때 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	전통적인 CUDA 프로그램은 어떤 단계를 거쳐 수행되나요?	전통적인 CUDA 프로그램은 크게 세 단계를 거쳐 수행된다. 첫번째 단계에서는 CPU 메모리에 있는 데이터를 GPU 메모리로 옮긴다. 이는 cudaMemcpy()라는 CUDA API를 통해 이루어진다. 두 번째 단계에서는 GPU 메모리에 있는 데이터를 사용하여 연산을 수행한다. 수행하는 연산은 C나 C++ 언어의 함수로 표현되는데, 이를 커널이라고 한다. 개발자는 커널을 수행시킬 때 스레드 수와 블록 수를 지정하여야 한다. 스레드 수는 동시에 커널을 수행하는 인스턴스의 수를 의미하고 블록 수는 동시에 수행되는 인스턴스 묶음의 수를 의미한다. 세 번째 단계에서는 연산 수행 결과를 다시 cudaMemcpy()를 사용하여 GPU 메모리에서 CPU 메모리로 옮긴다.
	GPU란 무엇인가요?	GPU는 데이터 병렬 처리에 강점을 가진 하드웨어로 그래픽 응용뿐만 아니라 심층 학습과 같은 광범위한 GPGPU 응용에 사용되고 있다. 이러한 GPU 응용들은 데이터 집약적인 특성이 있으므로 CPU 메모리와 GPU 메모리 사이의 데이터 통신은 개별 GPU에서 성능에 있어 매우 중요한 요소 중 하나다.
	전통적인 GPU 프로그래밍 모델에서는 데이터 통신을 누가 관리하고 최적화하나요?	전통적인 GPU 프로그래밍 모델에서는 이 데이터 통신을 개발자가 명시적으로 관리하고 최적화한다. 하지만 이는 개발자에게 GPU의메모리 아키텍처를 고려하여 프로그래밍해야만 하는 부담을 준다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석
Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석 Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석
Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper