$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

매니코어 GPU 구조의 성능 저하 요소 분석과 최신 연구 동향 원문보기

정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers, v.32 no.5, 2014년, pp.22 - 33  

오윤호 (연세대학교) ,  윤명국 (연세대학교) ,  박종현 (연세대학교) ,  노원우 (연세대학교)

초록이 없습니다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 먼저 GPU 구조에 적합한 새로운 쓰레드 스케줄링기법들의 연구 사례들을 소개한다. 이 연구들은 공통적으로 컨트롤 플로우를 분석하여 쓰레드 그룹을 재구성하는 기술을 제안하였다.
  • 본 고는 앞서 설명한 GPU의 최신 연구 이슈과 관련 연구 사례들을 보다 자세히 소개한다. 본 고의 2절에서는 GPU의 하드웨어 구조 병렬 컴퓨팅 동작 원리에 대해 소개한다.
  • 본 고에서는 GPGPU 기반 어플리케이션을 구동할 수 있는 최신 GPU에서 이론상 최대 성능을 발휘하는데 문제가 되는 요소에 대해 분석하고, 이를 극복하기 위한 최신 연구 동향을 소개하였다. GPU는 TLP와 MLP 를 통해 큰 성능 향상을 얻을 수 있는데, SIMT기반 동작 구조의 한계로 인해 다양한 어플리케이션에서 발생하는 상황에 대해 유연하게 대처하기 어려운 단점이 있다.
  • 본 고에서는 위와 같은 이슈들을 극복하기 위한, GPU 구조 관련 최신 연구 사례들을 소개한다. 이를 통해, 최근 컴퓨터 구조 분야에서 관심이 집중되고 있는 GPU 구조 관련 연구 동향에 대한 이해를 돕고자 한다.
  • 본 절에서는 GPU 구조에 관련한 주요 성능 이슈들을 소개한다. 소개할 이슈는 TLP 동작 중 발생하는 분기 다이버전스, MLP 동작을 저해하는 메모리 다이버전스, 그리고 전력 소비량 대비 비효율적인 하드웨어 활용으로 나눌 수 있다.
  • 제안되었다[12]. 이 연구는 쓰레드 스케줄러가 분기다이버전스가 메모리 다이버전스를 일으킬 수 있다는 점에 착안하여, 메모리 다이버전스가 일어나는 지점을 저장한다. 이 정보를 토대로 메모리 다이버전스를예측하여 캐시에서 해당 라인의 적출이 일어나기 전에 해당 주소를 접근하는 쓰레드 그룹을 먼저 스케줄링 하도록 한다.
  • 연구 사례들을 소개한다. 이 연구들은 공통적으로 컨트롤 플로우를 분석하여 쓰레드 그룹을 재구성하는 기술을 제안하였다. 그러나 재구성을 하기 위한 방식은 연구마다 조금씩 차이를 보인다.
  • 이 연구에서는 SRAM 보다 셀 면적이 작고, 전력 효율이 높은 임베디드 DRAM(eDRAM)을 사용하여 GPU의 레지스터 파일을 설계하였다. 연구에서는 레지스터 파일 자체의 구조는 기존과 유사하게 설계하였지만, 데이터 유지를 위해 대기 전력이 필요한 eDRAM의 특성에 맞추어 리프레쉬 카운터를 이용하여 레지스터 파일에 데이터 유지를 위한 최소 전력을 공급하거나, 유휴 레지스터들의 전력을 차단하는 기술을 제안하였다. 또한 이 연구는 레지스터 파일이 뱅크 기반으로 구성되어 있는 점에 착안하여, 뱅크 경쟁(树nk conflict)을 미리 카운팅하여 각 뱅크의 접근 패턴을 예상하고 그에 따른 전력 배분 정책을 적용하였다.
  • 이러한 전제를 바탕으로, 이 연구에서는 어플리케이션의 컴파일 과정에서 메모리 접근에 대한 지역성이 어느 정도 적용되는지 예측했다. 이후, 예측된 정보를통해 지역성이 낮다고 판단되는 경우, demand-fetched L1 캐시를 사용하지 않고 그 반대의 경우에는 이를 사용해서 성능을 향상시켰다.
  • 이후 GPU에서 특화된 명령어를 실행할 때, 해당 명령어의 연산자를 별도로 저장할 수 있는 레지스터(Com­ posite Register File, CRF)들을 연산기에 추가하였다. 이를 통해 해당 명령어와 의존 관계에 있는 다른 명령어들이 이 연산기에서 빠르게 계산된 결과를 지연 없이 접근할 수 있도록 하였다. 이러한 새 구조를 통해 처리해야 할 명령어의 개수를 감소시키고, 연관성이 있는 명령어들의 처리 효율을 개선하여 GPU의 전체성능을 향상함과 동시에 전체 전력 소비 효율을 높이는 효과도 가져올 수 있다.
  • 이를 통해, 최근 컴퓨터 구조 분야에서 관심이 집중되고 있는 GPU 구조 관련 연구 동향에 대한 이해를 돕고자 한다. 본 고에서 소개할 연구 사례들은 다음과 같이 요약된다.
본문요약 정보가 도움이 되었나요?

참고문헌 (22)

  1. NVIDIA Corporation. CUDA Programming Guide, V5.5 

  2. Sangpil Lee, Won Woo Ro, “Parallel GPU architecture simulation framework exploiting work allocation unit parallelism,” Performance Analysis of Systems and Software(ISPASS), 2013 IEEE International Symposium on , Vol., No., pp.107,117, 21-23 April 2013 

  3. Fung W.W.L., Sham I., Yuan G. and Aamodt T.M., “Dynamic warp formation and scheduling for efficient GPU control flow,” in Proceedings of the 40th Annual IEEE/ACM International Symposium on Microarchitecture, Washington, DC, USA, 2007. 

  4. Fung W.W.L. and Aamodt T.M., “Thread block compaction for efficient SIMT control flow,” in International Symposium on High Performance Computer Architecture, 2011. 

  5. Lashgar A., and Baniasadi A., “Performance in GPU architectures: potentials and distances:” in 9th Annual Workshop on Duplicating, Deconstructing, and Debunking, 2011. 

  6. Lindholm E., Nickolls J., Oberman S. and Montrym J., “NVIDIA Tesla: A unified graphics and computing architecture,” IEEE micro, Vol. 28, No. 2, pp. 39-55, 2008. 

  7. Rhu M. and Erez M., “Maximizing SIMD resource utilization in GPGPUs with SIMD lane permutation,” in Proceedings of the 40th Annual International Symposium on Computer Architecture, New York, NY, USA, 2013. 

  8. Vaidya A.S., Shayesteh A., Woo D.H., Saharoy R. and Azimi M., “SIMD divergence optimization through intra-warp Compaction,” in Proceedings of the 40th Annual International Symposium on Computer Architecture, New York, NY, USA, 2013. 

  9. Rhu, M., Sullivan M., Leng J. and Erez M., “A localityaware memory hierarchy for energy-efficient GPU architectures,” Proceedings of the 46th Annual IEEE/ ACM International Symposium on Microarchitecture. ACM, 2013. 

  10. Jia W., Kelly A.S., and Margaret M., “Characterizing and improving the use of demand-fetched caches in GPUs,” Proceedings of the 26th ACM international conference on Supercomputing. ACM, 2012. 

  11. Rogers T.G., Mike O. and Aamodt T.M., “Cache-conscious wavefront scheduling,” Proceedings of the 2012 45th Annual IEEE/ACM International Symposium on Microarchitecture. IEEE Computer Society, 2012. 

  12. Rogers T.G., Mike O. and Aamodt T.M., “Divergenceaware warp scheduling,” Proceedings of the 46th Annual IEEE/ACM International Symposium on Microarchitecture. ACM, 2013. 

  13. Jog A., Kayiran O., Mishra A.K., Kandemir M.T., Mutlu O., Iyer R. and Das C.R.., “Orchestrated scheduling and prefetching for gpgpus,” Proceedings of the 40th Annual International Symposium on Computer Architecture. ACM, 2013. 

  14. Naifeng Jing, Yao Shen, Yao Lu, Shrikanth Ganapathy, Zhigang Mao, Minyi Guo, Ramon Canal, and Xiaoyao Liang. 2013. An energy-efficient and scalable eDRAMbased register file architecture for GPGPU. SIGARCH Comput. Archit. News 41, 3(June 2013), 344-355. 

  15. Syed Zohaib Gilani, Nam Sung Kim, and Michael J. Schulte. 2013. Exploiting GPU peak-power and performance tradeoffs through reduced effective pipeline latency. In Proceedings of the 46th Annual IEEE/ACM International Symposium on Microarchitecture(MICRO- 46). 

  16. Mohammad Abdel-Majeed, Daniel Wong, and Murali Annavaram. 2013. Warped gates: gating aware scheduling and power gating for GPGPUs. In Proceedings of the 46th Annual IEEE/ACM International Symposium on Microarchitecture(MICRO-46) 

  17. Gilani, S.Z.; Nam Sung Kim; Schulte, M.J., “Powerefficient computing for compute-intensive GPGPU applications,” High Performance Computer Architecture (HPCA2013), 2013 IEEE 19th International Symposium on , Vol., No., pp.330,341, 23-27 Feb. 2013 

  18. Goswami, Nilanjan; Cao, Bingyi; Li, Tao, “Powerperformance co-optimization of throughput core architecture using resistive memory,” High Performance Computer Architecture(HPCA2013), 2013 IEEE 19th International Symposium on, Vol., No., pp.342,353, 23-27 Feb. 2013 

  19. Rhu, Minsoo, Erez, Mattan, “The dual-path execution model for efficient GPU control flow,” High Performance Computer Architecture(HPCA2013), 2013 IEEE 19th International Symposium on, Vol., No., pp.591, 602, 23-27 Feb. 2013 

  20. Jingwen Leng, Tayler Hetherington, Ahmed ElTantawy, Syed Gilani, Nam Sung Kim, Tor M. Aamodt, and Vijay Janapa Reddi. 2013. “GPUWattch: enabling energy optimizations in GPGPUs,” SIGARCH Comput. Archit. News 41, 3(June 2013), 487-498. 

  21. Onur Kayıran, Adwait Jog, Mahmut Taylan Kandemir, and Chita Ranjan Das. 2013. “Neither more nor less: optimizing thread-level parallelism for GPGPUs,” In Proceedings of the 22nd international conference on Parallel architectures and compilation techniques(PACT '13). 

  22. Adwait Jog, Onur Kayiran, Nachiappan Chidambaram Nachiappan, Asit K. Mishra, Mahmut T. Kandemir, Onur Mutlu, Ravishankar Iyer, and Chita R. Das. 2013. “OWL: cooperative thread array aware scheduling techniques for improving GPGPU performance,” In Proceedings of the eighteenth international conference on Architectural support for programming languages and operating systems(ASPLOS '13) 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로