$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] CPU-GPU간 긴밀성을 위한 효율적인 공유메모리 접근 방법과 검증 시스템 구현
Implementation of Integrated CPU-GPU for Efficient Uniform Memory Access Method and Verification System 원문보기

대한임베디드공학회논문지 = IEMEK Journal of embedded systems and applications, v.11 no.2, 2016년, pp.57 - 65  

박현문 (Korea Electronics Technology Institute) ,  권진산 (Korea Electronics Technology Institute) ,  황태호 (Korea Electronics Technology Institute) ,  김동순 (Korea Electronics Technology Institute)

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a system for efficient use of shared memory between CPU and GPU. The system, called Fusion Architecture, assures consistency of the shared memory and minimizes cache misses that frequently occurs on Heterogeneous System Architecture or Unified Virtual Memory based systems. ...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 효율적인 메모리 접근 시스템으로 융합알고리즘과 GPU 코어 할당 알고리즘을 제안하였다. CPU-GPU간의 공유메모리 알고리즘에서 메모리 중심에 처리방식은 기존의 CUDA나 OpenCL보다 우월한 것으로 나타났다.

가설 설정

  • 프리페처는 L2에 다음 처리할 데이터를 가져오고 이미 처리된 데이터는 메인 메모리에서 해당 데이터를 Flush한다. D) GPU는 위임받은 데이터 작업이 끝나면 완료(Clear) 신호를 작업관리자에게 보내며 작업관리자는 CPU에 GPU의 작업완료를 전달한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
hQ는 어떤 역할을 하는가? 그림 1에서 Unified Virtual Memory는 hUMA로 부합되며, 두 유닛간의 메인 메모리영역을 공유한다. hQ는 공유 캐시컨트롤러(Uniform Cache Controller)와 데이터관리자 역할을 한다. GPU에 프로세서 작업을 할당하며 양방향으로 하드웨어가 캐시를 스누프하고 일관성을 자동으로 확보한다.
리매퍼와 프리페처가 오버헤드를 갖는 이유는? 리매퍼와 프리페처는 앞서 작업관리자로 가상메모리가 아닌 물리적인 시스템 메모리에 접근하기 때문에 오버헤드를 가진다. 하지만 오버헤드가 4 Cycles 이내기 때문에 시스템에 큰 영향을 주지 않는다.
작업관리자의 처리 과정은 무엇인가? 그림 3은 작업관리자의 처리 과정을 A), B), C),D)의 4단계로 나타내었다. A)는 CPU 호스트 인터페이스와 같이 버스와 브리지를 통해 GPU의 구동 가능하고, CPU는 B)와 같이 GPU 컴파일된 코드와 데이터, 그리고 GPU 코어별로 분할된 데이터의 메모리 주소, 코어별 오프셋 정보, 파라미터 등 기반정보를 Job Issue 메시지로 GPU에 전달한다. 즉 GPU에 처리하는 데이터 범위와 위치가 정의된다. 작업관리자는 현재 처리되는 `애플리케이션의 L2 Memory Access Latency의 평균을 내어 범위(scalability)를 산출하고 할당될 Shader Core의 개수를 정의한다. Shader Core개수는 연산속도에도 영향을 주지만 L1 Cache와 L2 Cache간의 캐시 미스(Cache miss)에 큰 영향을 주기 때문에 최적화하는 과정도 중요하다. C) GPU의 각 코어 작업 할당을 알려준다. 할당된 작업에 따라서 GPU는 메인메모리에 접근해서 처리하게 된다. GPU에서 처리하는 동안 A)는 다음에 처리할 데이터를 프리페처에게 요구하게 된다. 프리페처는 L2에 다음 처리할 데이터를 가져오고 이미 처리된 데이터는 메인 메모리에서 해당 데이터를 Flush한다. D) GPU는 위임받은 데이터 작업이 끝나면 완료(Clear) 신호를 작업관리자에게 보내며 작업관리자는 CPU에 GPU의 작업완료를 전달한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. J. Lee, N.B. Lakshminarayana, Kim H., R. Vuduc, "Many-thread aware prefetching mech anisms for GPGPU applications," Proceedings of 43rd Annual IEEE/ACM International Symposium on Microarchitecture, pp. 213-224, 2010. 

  2. P. Rogers, A.C. Fellow, "Heterogeneous system architecture overview," Proceedings of Hot Chips, Vol. 25. 2013. 

  3. J. Power, A. Basu, J. Gu, S. Puthoor, B.M. Beckmann, M.D. Hill, D.A. Wood, "Heteroge- neous system coherence for integrated CPU- GPU systems," Proceedings of the 46th Annual IEEE/ACM International Symposium on Microarchitecture, pp. 457-467. 2013. 

  4. Y.H. Park, C.H. Kim, J.M Kim, "Implementation and Performance Evaluation of the Faddev-Leverrier Algorithm using GPGPU," IEMEK J. Embed. Sys. Appl., Vol. 8, No. 6, pp. 171-178, 2013 (in Korean). 

  5. G.Y. Jeong, J.H. jeong, H.C. Lee, G.G. Jeon, J.H. Cho, "Efficient Implementation of Candidate Region Extractor for Pedestrian Detection System with Stereo Camera based on GP-GPU," IEMEK J. Embed. Sys. Appl., Vol. 8, No. 2, pp. 121-128, 2013 (in Korean). 

  6. S. Che, M. Boyer, J. Meng, D. Tarjan., J.W Sheaffer, S.H. Lee, K. Skadron, "Rodinia: A benchmark suite for heterogeneous com- putting," Proceedings of IEEE International Symposium on Workload Characterization, pp. 44-54. 2009. 

  7. J. Feehrer, P. Rotker, M. Shih, P. Gingras, P. Yakutis, S. Phillips, J. Heath, "Coherency hub design for multisocket sun servers with coolthreads technology," IEEE Micro, Vol. 29, No. 4, pp. 36-47, 2009. 

  8. I. Singh, A. Shriraman, W. Fung, M. O'Connor, T. Aamodt, "Cache coherence for GPU architectures," Proceedings of IEEE 19th International Symposium on High Performance Computer Architecture, pp. 578-590, 2013. 

  9. P. Hammarlund, R. Kumar, R.B. Osborne, R. Rajwar, R. Singhal, R. D'Sa, S. Gunther, "Haswell: The fourth-generation Intel core processor," IEEE Micro, Vol. 34, No. 02, pp. 6-20, 2014. 

  10. K. Wang, X. Ding, R. Lee, S. Kato, X. Zhang, "GDM: Device memory management for gpgpu computing," Proceedings of The 2014 ACM international conference on Measurement and modeling of computer systems, pp. 533-545, 2014. 

  11. O. Kayiran, N.C. Nachiappan, A. Jog, R., Ausavarungnirun, M.T. Kandemir, G.H. Loh, C.R. Das, "Managing GPU concurrency in heterogeneous architectures," Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture, pp. 114-126, 2014. 

  12. Rodinia Benchmark Group. The Rodinia Benchmark Suite version 3.1. 2015. 

  13. H.M. Pack, J.S. Kwon, T.H. Gwang, D.S. Kim, "A Development of Fusion Processor Architecture for Efficient Main Memory Access in CPU-GPU Environment," Journal of KIECS, Vol. 11, no. 2, pp. 151-158, 2016 (in Korean). 

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로