[논문]매니코어 GPU 구조의 성능 저하 요소 분석과 최신 연구 동향

오윤호; 윤명국; 박종현; 노원우

문제 정의

먼저 GPU 구조에 적합한 새로운 쓰레드 스케줄링기법들의 연구 사례들을 소개한다. 이 연구들은 공통적으로 컨트롤 플로우를 분석하여 쓰레드 그룹을 재구성하는 기술을 제안하였다.
본 고는 앞서 설명한 GPU의 최신 연구 이슈과 관련 연구 사례들을 보다 자세히 소개한다. 본 고의 2절에서는 GPU의 하드웨어 구조 병렬 컴퓨팅 동작 원리에 대해 소개한다.
본 고에서는 GPGPU 기반 어플리케이션을 구동할 수 있는 최신 GPU에서 이론상 최대 성능을 발휘하는데 문제가 되는 요소에 대해 분석하고, 이를 극복하기 위한 최신 연구 동향을 소개하였다. GPU는 TLP와 MLP 를 통해 큰 성능 향상을 얻을 수 있는데, SIMT기반 동작 구조의 한계로 인해 다양한 어플리케이션에서 발생하는 상황에 대해 유연하게 대처하기 어려운 단점이 있다.
본 고에서는 위와 같은 이슈들을 극복하기 위한, GPU 구조 관련 최신 연구 사례들을 소개한다. 이를 통해, 최근 컴퓨터 구조 분야에서 관심이 집중되고 있는 GPU 구조 관련 연구 동향에 대한 이해를 돕고자 한다.
본 절에서는 GPU 구조에 관련한 주요 성능 이슈들을 소개한다. 소개할 이슈는 TLP 동작 중 발생하는 분기 다이버전스, MLP 동작을 저해하는 메모리 다이버전스, 그리고 전력 소비량 대비 비효율적인 하드웨어 활용으로 나눌 수 있다.
제안되었다[12]. 이 연구는 쓰레드 스케줄러가 분기다이버전스가 메모리 다이버전스를 일으킬 수 있다는 점에 착안하여, 메모리 다이버전스가 일어나는 지점을 저장한다. 이 정보를 토대로 메모리 다이버전스를예측하여 캐시에서 해당 라인의 적출이 일어나기 전에 해당 주소를 접근하는 쓰레드 그룹을 먼저 스케줄링 하도록 한다.
연구 사례들을 소개한다. 이 연구들은 공통적으로 컨트롤 플로우를 분석하여 쓰레드 그룹을 재구성하는 기술을 제안하였다. 그러나 재구성을 하기 위한 방식은 연구마다 조금씩 차이를 보인다.
이 연구에서는 SRAM 보다 셀 면적이 작고, 전력 효율이 높은 임베디드 DRAM(eDRAM)을 사용하여 GPU의 레지스터 파일을 설계하였다. 이 연구에서는 레지스터 파일 자체의 구조는 기존과 유사하게 설계하였지만, 데이터 유지를 위해 대기 전력이 필요한 eDRAM의 특성에 맞추어 리프레쉬 카운터를 이용하여 레지스터 파일에 데이터 유지를 위한 최소 전력을 공급하거나, 유휴 레지스터들의 전력을 차단하는 기술을 제안하였다. 또한 이 연구는 레지스터 파일이 뱅크 기반으로 구성되어 있는 점에 착안하여, 뱅크 경쟁(树nk conflict)을 미리 카운팅하여 각 뱅크의 접근 패턴을 예상하고 그에 따른 전력 배분 정책을 적용하였다.
이러한 전제를 바탕으로, 이 연구에서는 어플리케이션의 컴파일 과정에서 메모리 접근에 대한 지역성이 어느 정도 적용되는지 예측했다. 이후, 예측된 정보를통해 지역성이 낮다고 판단되는 경우, demand-fetched L1 캐시를 사용하지 않고 그 반대의 경우에는 이를 사용해서 성능을 향상시켰다.
이후 GPU에서 특화된 명령어를 실행할 때, 해당 명령어의 연산자를 별도로 저장할 수 있는 레지스터(Com posite Register File, CRF)들을 연산기에 추가하였다. 이를 통해 해당 명령어와 의존 관계에 있는 다른 명령어들이 이 연산기에서 빠르게 계산된 결과를 지연 없이 접근할 수 있도록 하였다. 이러한 새 구조를 통해 처리해야 할 명령어의 개수를 감소시키고, 연관성이 있는 명령어들의 처리 효율을 개선하여 GPU의 전체성능을 향상함과 동시에 전체 전력 소비 효율을 높이는 효과도 가져올 수 있다.
이를 통해, 최근 컴퓨터 구조 분야에서 관심이 집중되고 있는 GPU 구조 관련 연구 동향에 대한 이해를 돕고자 한다. 본 고에서 소개할 연구 사례들은 다음과 같이 요약된다.

제안 방법

MLP에서의 문제는 GPGPU 동작에 맞는 메모리 접근 구조 활용 기술, 프리패칭 동작에 최적화된 스케줄링 방법, 또는 GPU에 적합한 새로운 메모리 계층 구조 제안을 통해 해결하려는 시도를 하고 있다. 그리고 GPU의 소비 전력의 효율적 활용을 위한 기술로는 향상된 파워 게이팅 기술, 파이프라인 구조 개선, 연산기구조 최적화, 그리고 레지스터 파일 구조 변화가 제안되었다.
두 GPU 구조 모두 멀티 쓰레딩과 벡터 프로세싱이 혼합된 형태인 Sin이e Instruction Multiple Threads(SIMT) 구조를 바탕으로, 각 쓰레드에 할당된 서로 다른 데이터를 이용하여 연산을 처리한다. 이 때 각 코어는 SM 또는 CU에서 스케줄링되는 쓰레드들의 동작 중, 하나의 쓰레드 동작을 전담한다.
또한 demand-fetched 캐시의 사용 여부를 조절하여 메모리 다이버전스 문제를 해결하는 방안도 제시되었다 . [10] GPU의 demand-fetched 캐시는 기존의 L1 캐시의 동작 구조를 GPGPU 어플리케이션의 특성에 맞게 변형한 것이다.
그리고 어플리케이션의 메모리 접근패턴에 따라 적절한 메모리 구조를 골라서 사용할 수 있도록 하는 구조도 발표되었다. 또한 메모리 지역성을 최대한 활용할 수 있도록 하는 쓰레드 스케줄링 기법도 제안되었다.
이 연구에서는 레지스터 파일 자체의 구조는 기존과 유사하게 설계하였지만, 데이터 유지를 위해 대기 전력이 필요한 eDRAM의 특성에 맞추어 리프레쉬 카운터를 이용하여 레지스터 파일에 데이터 유지를 위한 최소 전력을 공급하거나, 유휴 레지스터들의 전력을 차단하는 기술을 제안하였다. 또한 이 연구는 레지스터 파일이 뱅크 기반으로 구성되어 있는 점에 착안하여, 뱅크 경쟁(树nk conflict)을 미리 카운팅하여 각 뱅크의 접근 패턴을 예상하고 그에 따른 전력 배분 정책을 적용하였다. 이를 통해 제안된 레지스터 파일은 SRAM에 비해 상대적으로 낮은 DRAM의 성능을 최대한 극복하고, 전력 소비효율을 올릴 수 있다.
이 구조는 기존과 달리 캐시가 4개의 구역으로 나누어져 있기 때문에 16 바이트 단위로 데이터를 사용할 수 있다. 또한 제안된 구조는 필요에 따라 불러들일 데이터 크기를 조절하여 메모리에 요청한다. 이러한 동작을 위해 GPU의 캐시 메모리에는 최적의 분할 단위(granularity)를 계산하기 위한 하드웨어를 추가 했다.
그리고 연산기 구조를 최적화하여 다양한 데이터를 효율적으로 처리하고 전력 소비를 개선하고자 하는 연구 사례도 발표되었다. 마지막으로 GPU 상의 메모리 구조가 비효율적으로 활용되고 있는 점을 착안하여 개선된 메모리 구조가 제안되었다.
분류한다. 스케줄러는 이 그룹들의 중요도를 INT-LDST-SFU-FP 또는 FP-LDST-SFU-INT 순으로 정하고 쓰레드 그룹들의 실행하고 있는 명령어의 상태를 수시로 수집하여 두 중요도 중 하나를 꼽아 그룹들을 모아서 순서대로 실행한다. 그림 10은 이러한 메카니즘을 적용한 쓰레드그룹 스케줄링의 예를 설명한 것이다.
높이는 연구가 진행되었다[15]. 이 아이디어는 GPU어】 3개의 뱅크로 구성된 포워딩 버퍼를 추가하여각 코어가 실행을 완료한 연산의 결과를 임시로 저장하도록 하였다. 또한 이 버퍼들은 코어 및 데이터 의존성을 보장하기 위한 스코어보드와 연결되는 포트를 가지고 있어서, 스코어보드에 항상 쓰레드들이 연산한 결과들 중 가장 최신의 것을 저장하여 스코어보드가 참고할 수 있도록 하였다.
이 연구에서는 SRAM 보다 셀 면적이 작고, 전력 효율이 높은 임베디드 DRAM(eDRAM)을 사용하여 GPU의 레지스터 파일을 설계하였다. 이 연구에서는 레지스터 파일 자체의 구조는 기존과 유사하게 설계하였지만, 데이터 유지를 위해 대기 전력이 필요한 eDRAM의 특성에 맞추어 리프레쉬 카운터를 이용하여 레지스터 파일에 데이터 유지를 위한 최소 전력을 공급하거나, 유휴 레지스터들의 전력을 차단하는 기술을 제안하였다.
계층 구조를 제안했다. 이 연구에서는 기존의 GPU 가 메모리 지역성을 활용하기 위해 Coarse-Grained(CG) 메모리 계층 구조를 사용한다고 설명한다. CG 메모리계층 구조는 연속된 주소의 많은 데이터를 한 번의 메모리 접근에 가져올 수 있게 설계된 것이다.
이 연구에서는 메모리 지역성을 고려하여 필요에 따라 메모리 계층 구조를 fine-grained 하게 변경하여 낭비되는 메모리 대역폭을 줄였다. 그림 7의 (a)는 기존의 CG 메모리 계층 구조를 나타내고 (b)는 필요에 따라 fine-grained흐]-게 접근할 수 있는, 새로운 메모리 시스템 구조를 나타낸다.
그룹 스케줄러 구조가 제안되었다[11]. 이 연구에서는 쓰레드 그룹 스케줄러가 로드/스토어 유닛으로부터 지역성 관련 정보를 받아 쓰레드 그룹을 스케줄링한다. 로드/스토어 유닛에서는 L1 캐시에서 라인 적출이 발생할 때, 해당 라인의 캐시 태그 정보를 저장하여 메모리 지역성 정보를 계산한다.
프로그래마틱 분기는 어플리케이션 코드 분석을 통해 예측이 가능하다. 이러한 분석을 기반으로, 동일한 레인에서 분기 다이버전스가 발생하여 그룹 재구성이 불가능한 쓰레드를 찾아낸다. 그 후, SLP는 쓰레드의 위치를 변경하여, 기존 레인과 다른 곳에서 동작이 가능하도록 한다.
만약 쓰레드 그룹의 상태를 파악하지 않고 코어 들을 유휴 상태로 만들 경우, 코어들이 예측하지 못한 시점에 처리해야 하는 명령어들이 지연되어 성능이 급격히 저하될 수 있다. 이를 방지하기 위해서 스케줄러가 보내는 동작 중인 쓰레드 워프의 개수와 종류에 관한 정보를 바탕으로 몇 개의 코어를 몇 사이클 동안 쉬게 할 것인지 결정할 수 있도록 상태머신에 기반한 동작 구조를 사용한다.
이에 반해, 이 논문에서 제안된 Prefetch- Aware(PA) 스케줄러는 쓰레드 그룹을 두 개로 나누어 워프 2가 연산하는 동안 워프1에서 메모리 요청을 보내서, 기존에 발생했던 지연 시간을 감추는 효과가 나타나도록 하였다. 이를 통해 모든 프리패칭을 통한 메모리 지연 시간 감소의 효과와 병렬 쓰레드 스케줄링으로 인한 성능 향상 두 가지 모두를 얻을 수 있도록 하였다.
그림 9의 (a)가 같이 기존의 Round-Robin(RR) 스케줄러를 사용하게 되면 다음 그룹을 위한 프리패칭 요청을 보내기 위해 소요되는 시간으로 인해 다른 쓰레드 그룹의 동작이 지연된다. 이에 반해, 이 논문에서 제안된 Prefetch- Aware(PA) 스케줄러는 쓰레드 그룹을 두 개로 나누어 워프 2가 연산하는 동안 워프1에서 메모리 요청을 보내서, 기존에 발생했던 지연 시간을 감추는 효과가 나타나도록 하였다. 이를 통해 모든 프리패칭을 통한 메모리 지연 시간 감소의 효과와 병렬 쓰레드 스케줄링으로 인한 성능 향상 두 가지 모두를 얻을 수 있도록 하였다.
개선된 연산기는 이 특화된 명령어를 빠르게 처리할 수 있는 회로를 내장하도록 하였다. 이후 GPU에서 특화된 명령어를 실행할 때, 해당 명령어의 연산자를 별도로 저장할 수 있는 레지스터(Com posite Register File, CRF)들을 연산기에 추가하였다. 이를 통해 해당 명령어와 의존 관계에 있는 다른 명령어들이 이 연산기에서 빠르게 계산된 결과를 지연 없이 접근할 수 있도록 하였다.
파워 게이팅에 최적화된 쓰레드 그룹 스케줄러는 쓰레드 그룹을 실행하고 있는 동작에 따라 정수 연산 그룹(INT), 부동소수점 연산 그룹(FP), 특수 함수 그룹 (SFU), 그리고 로드/스토어 그룹(LDST)으로 분류한다. 스케줄러는 이 그룹들의 중요도를 INT-LDST-SFU-FP 또는 FP-LDST-SFU-INT 순으로 정하고 쓰레드 그룹들의 실행하고 있는 명령어의 상태를 수시로 수집하여 두 중요도 중 하나를 꼽아 그룹들을 모아서 순서대로 실행한다.

대상 데이터

그림 7의 (a)는 기존의 CG 메모리 계층 구조를 나타내고 (b)는 필요에 따라 fine-grained흐]-게 접근할 수 있는, 새로운 메모리 시스템 구조를 나타낸다. 이 구조는 기존과 달리 캐시가 4개의 구역으로 나누어져 있기 때문에 16 바이트 단위로 데이터를 사용할 수 있다. 또한 제안된 구조는 필요에 따라 불러들일 데이터 크기를 조절하여 메모리에 요청한다.

이론/모형

특호], 메모리 지역성이 떨어지는 패턴이 사용되는 경우, 메모리 대역폭을 낭비하게 된다. 이러한 문제를 분석하면서 메모리 다이버전스(memory divergence) 라는 개념이 사용되었다. 그림 4의 (b)는 메모리 다이버전스의 개념을 나타낸 것이다.

성능/효과

검색된 쓰레드들은 새로운 그룹으로 편성되어 스케줄링이 된다. 결과적으로, TBC는 PDOM과 달리 컨트롤 플로우를 순차적으로 실행하는 횟수를 줄여 성능을 높일 수 있다.
둘째, GPU의 최적화되지 않은 메모리 접근 동작 구조로 인해 지연 시간이 길어져서 성능이 떨어지게 된다. GPU는 쓰레드들이 인접한 메모리 주소에 접근할 경우, 메모리 접근 요청을 통합하여 접근 횟수를 줄임으로써 메모리 시스템을 효율적으로 활용한다.
둘째, GPU의 파이프라인 구조는 CPU에 비해 세분화되어 있어서, 이로 인한 데이터 의존성(data depen- dency)문제로 인해 지연되는 사이클 수가 CPU에 비해 크다. 또한 데이터 의존성을 풀고 다음 동작을 이어나가기 위해 파이프라인 지연(pipeline stall)이 일어나면, 다른 쓰레드들의 동작도 지연되어 성능 손실이 더욱 커진다.
셋째, GPU 내의 연산기의 경우, 부동소수점 연산자를 기반으로 한 곱셈-덧셈 통합기(Fused Multiply-Add unit, FMA)가 가장 큰 비중을 차지한다. 그러나 데이터 압축, 암호화, 의료영상처리 어플리케이션의 경우 정수 연산이 주를 이루고 있다.
로드/스토어 유닛에서는 L1 캐시에서 라인 적출이 발생할 때, 해당 라인의 캐시 태그 정보를 저장하여 메모리 지역성 정보를 계산한다. 이 정보를 이용하여 인접한 메모리 주소를 접근하는 쓰레드 그룹들을 연속적으로 스케줄링하고, 결과적으로 캐시 적중 성공확률을 높였다.
이를 통해 해당 명령어와 의존 관계에 있는 다른 명령어들이 이 연산기에서 빠르게 계산된 결과를 지연 없이 접근할 수 있도록 하였다. 이러한 새 구조를 통해 처리해야 할 명령어의 개수를 감소시키고, 연관성이 있는 명령어들의 처리 효율을 개선하여 GPU의 전체성능을 향상함과 동시에 전체 전력 소비 효율을 높이는 효과도 가져올 수 있다.
만약 최신 값으로 업데이트하기 전에 스코어보드에 데이터 의존성을 해결해야 하는 쓰레드 엔트리가 존재할 경우, 포워딩이 필요한 명령어와 현재 동작 중인 명령어 간의 간격에 따라 갱신할 값의 저장소를 결정하여 가장 최신 연산 결과들만 저장되도록 한다. 이를 통해 데이터 의존성을 해결하기 위한 데이터 포워딩 동작이 기존 구조에 비해 빨리 이루어지고, 결과적으로 전력 소비 대비 성능의 효율성을 올릴 수 있다.
또한 이 연구는 레지스터 파일이 뱅크 기반으로 구성되어 있는 점에 착안하여, 뱅크 경쟁(树nk conflict)을 미리 카운팅하여 각 뱅크의 접근 패턴을 예상하고 그에 따른 전력 배분 정책을 적용하였다. 이를 통해 제안된 레지스터 파일은 SRAM에 비해 상대적으로 낮은 DRAM의 성능을 최대한 극복하고, 전력 소비효율을 올릴 수 있다.
정도 적용되는지 예측했다. 이후, 예측된 정보를통해 지역성이 낮다고 판단되는 경우, demand-fetched L1 캐시를 사용하지 않고 그 반대의 경우에는 이를 사용해서 성능을 향상시켰다.
첫째, GPGPU 어플리케이션은 수백 또는 수천 개의쓰레드(thread)들이 GPU에서 병렬로 처리되는 구조로 동작하는데, 쓰레드 스케줄링이 원활하게 되지 않는 경우 성능 저하로 이어지게 된다. GPU의 경우, 모든 쓰레드들이 동일한 컨트롤 플로우(control flow)를 기반으로 동작하도록 설계되어 있다.

후속연구

것으로 예상된다. 또한 GPU의 효율적인 활용이 가능해짐에 따라 다양한 플랫폼에서 GPGPU의 활용사례는 더욱 늘어날 것으로 보인다 특히 어플리케이션의 수가 계속 증가하고 있는 저전력 모바일 플랫폼에서의 활용도가 높아져서, 어플리케이션들이 고급화되고 다양한 기능을 제공할 수 있을 것으로 전망된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

매니코어 GPU 구조의 성능 저하 요소 분석과 최신 연구 동향 원문보기

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (22)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

매니코어 GPU 구조의 성능 저하 요소 분석과 최신 연구 동향 원문보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (22)

이 논문을 인용한 문헌

저자의 다른 논문 :

윤명국 (1) 박종현 (1) 노원우 (12)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper