[논문]Memory Latency Penalty를 개선한 SIMT 기반 Stream Processor의 Memory Operation System Architecture 설계

이광엽

doi:10.7471/ikeee.2014.18.3.392

초록
AI-Helper

본 논문은 Memory Latency Penalty를 개선한 SIMT Architecture 기반 Stream Processor의 Memory Operation System Architecture를 제안한다. 제안하는 구조는 Non-Blocking Cache Architecture를 적용하여 기존의 Blocking Cache Architecture에서 발생하는 Cache Miss Penalty를 개선하였고 다양한 알고리즘의 처리속도를 비교하여 제안하는 Memory Operation System Architecture를 적용한 Stream Processor의 성능 향상을 검증하였다. 실험은 각 알고리즘의 Memory 명령어의 비율에 따라 향상된 성능을 측정하여 Stream Processor의 성능이 최소 8.2%에서 최대 46.5%까지 향상됨을 확인하였다.

Abstract ▼ AI-Helper

In this paper, we propose a memory operation system architecture for memory latency penalty reduction in SIMT architecture based stream processor. The proposed architecture applied non-blocking cache architecture to reduce cache miss penalty generated by blocking cache architecture. We verified that...

In this paper, we propose a memory operation system architecture for memory latency penalty reduction in SIMT architecture based stream processor. The proposed architecture applied non-blocking cache architecture to reduce cache miss penalty generated by blocking cache architecture. We verified that the proposed memory operation architecture improve the performance of the stream processor by comparing processing performances of various algorithms. We measured the performance improvement rate that was improved in accordance with the ratio of memory instruction in each algorithm. As a result, we confirmed that the performance of stream processor improves up to minimum 8.2% and maximum 46.5%.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 기존의 Memory Operation System Architecture를 개선하여 외부 메모리로 접근할 경우 발생하는 Latency[3]를 개선한 Memory Operation System Architecture의 설계를 제안한다.
본 논문은 기존의 SIMT Architecture 기반 Processor의 Memory Operation System Architecture 에서 발생하는 Cache Miss Penalty를 개선하기 위한 Memory Operation System Architecture를 제안한다. 그림 8은 1000개의 명령어 중 25%가 Memory 명령어로 발행되는 환경에서 기존의 Memory Operation System Architecture의 Cache Miss Ratio에 따른 Cache Miss Penalty Cycle과 제안하는 구조의 Cache Miss penalty Cycle의 비교치를 나타내며 표1은 이에 따라 제안하는 Memory Operation Unit의 향상된 성능을 표기한 것이다.
본 논문은 기존의 SIMT Architecture 기반 Stream Processor의 Memory Operation System Architecture 의 Cache Miss Penalty Cycle을 개선하기 위해 Non-Blocking Cache Architecure를 적용한 Memory Operation System Architecture를 제안하였다.

제안 방법

그림 8은 1000개의 명령어 중 25%가 Memory 명령어로 발행되는 환경에서 기존의 Memory Operation System Architecture의 Cache Miss Ratio에 따른 Cache Miss Penalty Cycle과 제안하는 구조의 Cache Miss penalty Cycle의 비교치를 나타내며 표1은 이에 따라 제안하는 Memory Operation Unit의 향상된 성능을 표기한 것이다. Cache Miss Penalty Cycle은 일반적으로 Bus Interface의 traffic 상황에 따라 변하기 때문에 본 논문에서는 메인 메모리인 DRAM으로 접근할 때 소요되는 Latency를 120 Cycle로 고정하여 Cache Miss Penalty Cycle의 기준으로 사용하였고 Stream Processor의 전체 파이프라인은 20 스테이지로 구성하였다. 제안하는 Memory Operation System Architecture는 Non-Blocking Cache Architecure의 특성으로 인해 Cache Miss가 발생하는 집적도에 따라 명령어 전부를 수행하였을 때 측정되는 Cache Miss Penalty Cycle이 다르므로 최소 Cache Miss Penalty Cycle과 최대 Cache Miss Penalty Cycle, 그리고 평균 Cache Miss Penalty Cycle을 함께 측정하였다.
그림 6은 제안하는 SIMT Architecture 기반 Stream Processor에서 Memory Operation System 의 High level 블록도이다. 기존 SIMT Architecture 기반 Stream Processor의 Memory Operation System Architecture와 달리 Non-Blocking Cache Architecture를 적용하여 설계하였다. 제안하는 Non-Blocking Cache는 Cache Miss가 발생할 경우 Miss가 발생한 명령어의 정보와 함께 Cache Hit가된 Thread의 유효 데이터를 Miss Handling Unit의 Hit Save Queue에 저장해두고 Miss Handling Queue를 통해 Cache Miss로 인한 Miss Data가 유효 데이터로 교체될 때 교체된 데이터를 그림 7과 같이 Hit-Save-Queue의 유효 데이터와 결합하여 모든 Load/Store Unit이 유효데이터를 전달받을 수 있도록 보장하기 때문에 기존의 Load/Store Unit과 L1 Data Cache의 데이터 전송을 지원하기 위해 설계되었던 Memory Operation Interface의 Queue를 제거한 구조로 변경되었다.
Cache Miss Penalty Cycle은 일반적으로 Bus Interface의 traffic 상황에 따라 변하기 때문에 본 논문에서는 메인 메모리인 DRAM으로 접근할 때 소요되는 Latency를 120 Cycle로 고정하여 Cache Miss Penalty Cycle의 기준으로 사용하였고 Stream Processor의 전체 파이프라인은 20 스테이지로 구성하였다. 제안하는 Memory Operation System Architecture는 Non-Blocking Cache Architecure의 특성으로 인해 Cache Miss가 발생하는 집적도에 따라 명령어 전부를 수행하였을 때 측정되는 Cache Miss Penalty Cycle이 다르므로 최소 Cache Miss Penalty Cycle과 최대 Cache Miss Penalty Cycle, 그리고 평균 Cache Miss Penalty Cycle을 함께 측정하였다.[8]
기존 SIMT Architecture 기반 Stream Processor의 Memory Operation System Architecture와 달리 Non-Blocking Cache Architecture를 적용하여 설계하였다. 제안하는 Non-Blocking Cache는 Cache Miss가 발생할 경우 Miss가 발생한 명령어의 정보와 함께 Cache Hit가된 Thread의 유효 데이터를 Miss Handling Unit의 Hit Save Queue에 저장해두고 Miss Handling Queue를 통해 Cache Miss로 인한 Miss Data가 유효 데이터로 교체될 때 교체된 데이터를 그림 7과 같이 Hit-Save-Queue의 유효 데이터와 결합하여 모든 Load/Store Unit이 유효데이터를 전달받을 수 있도록 보장하기 때문에 기존의 Load/Store Unit과 L1 Data Cache의 데이터 전송을 지원하기 위해 설계되었던 Memory Operation Interface의 Queue를 제거한 구조로 변경되었다.
향상된 성능을 검증하기 위해 기존의 Memory Operation System Architecture와의 성능차이를 비교 하였고 이를 통해 제안하는 Memory Operation System Architecture의 성능 향상률과 Stream Processor 전체 동작 성능의 향상률을 측정하였다.

성능/효과

그 결과, 다양한 알고리즘 수행에 대한 처리 성능이 기존의 Stream Processor 대비 최소 8.2%에서 최대 46.5%까지 향상되었고 지속적으로 메모리 명령어가 발행되는 환경에서 Cache Miss ratio에 따른 Cache Miss Penalty Cycle은 기존의 Memory Operation System Architecture 대비 최소 2%에서 최대 99.2%까지 감소하여 평균 약 51%의 감소율을 보였다.
설계한 L1 Data Cache의 Miss Handling Unit 내부에 Hit-Save-Queue를 두어 Stream Processor Core와 Cache 사이의 데이터 안정성을 보장하였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Blocking Cache Architecture의 기능은?	그림 2는 Blocking Cache의 동작 구조를 나타낸 것이다. Blocking Cache Architecture는 전통적인 Cache Architecture로써 Cache Miss가 발생하면 발생한 Miss를 처리할 때 까지 Cache의 동작을 멈췄다가 Miss가 모두 처리되었을 때 다시 동작을 하는 순차적인 처리 흐름을 가진다.
	최근 임베디드 기기들의 스마트화를 통해 다양한 고성능의 어플리케이션들을 지원하고 있는데 이때 어플리케이션의 원할한 동작을 위해 어떠한 방안이 적용되고 있는가?	이러한 고성능의 어플리케이션을 스마트 기기에서 원활히 동작시키기 위해 어플리케이션의 구조를 최적화하여 연산량을 최소화하는 방안과 하드웨어적인 측면에서 스마트 기기에 다양한 Co-Processor를 탑재함으로써 스마트 기기의 처리 속도를 향상시키는 방안을 함께 적용하고 있다.
	SIMT Architecture 기반 Stream Processor의 특징은?	스마트 기기의 여러 Co-Processor 중 하나인 SIMT(Single Instruction Multiple Thread) Architecture 기반 Stream Processor[1][2]는 수백, 수천 개 이상의 쓰레드를 통해 많은 연산량을 요구하는 다양한 어플리케이션을 병렬처리를 통해 처리함으로써 중앙 프로세서의 부담을 줄여주고 어플리케이션의 처리속도를 향상시키는 Co-Processor로 현재 활발한 연구가 진행되고 있다.

참고문헌 (8)

Sung Su Kim, "Table-based thread reconvergence mechanism on SIMT processor", The Graduate School of Yonsei University, 2011
Kwang-Yeob Lee, Tae-Ryong Park, "Method of Multi Thread Management based on Shader Instruction for Mobile GPGPU", Journal of IKEEE. Vol.16, No.4, 310-315, December 2012

원문보기 상세보기
Jianmin Chen, Xi Tao, Jih-Kwon Peir, "Guided Region-Based GPU Scheduling: Utilizing Multi-thread Parallelism to Hide Memory Latency", 2013 IEEE 27th International Symposium on, 441-451, 2013
Xiaosong Ma, Gomes, B, Quittek, J.W. "Efficient fine-grain thread migration with active threads", Parallel Processing Symposium 1998, 410-414, 1998
Wilson W. L. Fung, Ivan Sham, George Yuan, Tor M., "DynamicWarp Formation and Scheduling for Efficient GPU Control Flow", MICRO 2007, 407--420,2007
Ji Kim, Christoper Torng, Shreesha Srinath, "Microarchitectural mechanisms to exploit value structure in simt architectures", 40th ACM/IEEE Int'l Symp. on Computer Architecture (ISCA), 2013
Seungpil Lee, "Design of a non-blocking instruction and data cache controller for SMT microprocessors", The Graduate School of Yonsei University, 2002
J. A. Stratton et al. parboil, "A Revised Benchmark Suite for Scientific and Commercial Throughput Computing", Technical report, UIUC, IMPACT-12-01, 2009

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Memory Latency Penalty를 개선한 SIMT 기반 Stream Processor의 Memory Operation System Architecture 설계
An Implementation of a Memory Operation System Architecture for Memory Latency Penalty Reduction in SIMT Based Stream Processor 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

성능/효과

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Memory Latency Penalty를 개선한 SIMT 기반 Stream Processor의 Memory Operation System Architecture 설계 An Implementation of a Memory Operation System Architecture for Memory Latency Penalty Reduction in SIMT Based Stream Processor 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

성능/효과

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

이광엽 (43)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Memory Latency Penalty를 개선한 SIMT 기반 Stream Processor의 Memory Operation System Architecture 설계
An Implementation of a Memory Operation System Architecture for Memory Latency Penalty Reduction in SIMT Based Stream Processor 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper