[논문]유한요소 비압축성 유동장 해석을 위한 이중공액구배법의 GPU 기반 연산에 대한 연구

윤종선; 전병진; 정혜동; 최형권

doi:10.3795/ksme-b.2016.40.9.597

유한요소 비압축성 유동장 해석을 위한 이중공액구배법의 GPU 기반 연산에 대한 연구
A Study on GPU Computing of Bi-conjugate Gradient Method for Finite Element Analysis of the Incompressible Navier-Stokes Equations 원문보기

大韓機械學會論文集. Transactions of the Korean Society of Mechanical Engineers. B. B, v.40 no.9 = no.372, 2016년, pp.597 - 604

윤종선 (서울과학기술대학교 기계공학과) , 전병진 (연세대학교 의과대학 심혈관영상연구센터) , 정혜동 (전자부품연구원 임베디드&소프트웨어 연구센터) , 최형권 (서울과학기술대학교 기계.자동차공학과)

초록
AI-Helper

본 연구에서는 GPU를 이용한 비압축성 유동장의 병렬연산을 위하여, P2P1 유한요소를 이용한 분리 알고리즘 내의 행렬 해법인 이중공액구배법(Bi-Conjugate Gradient)의 CUDA 기반 알고리즘을 개발하였다. 개발된 알고리즘을 이용해 비대칭 협착관 유동을 해석하고, 단일 CPU와의 계산시간을 비교하여 GPU 병렬 연산의 성능 향상을 측정하였다. 또한, 비대칭 협착관 유동 문제와 다른 행렬 패턴을 가지는 유체구조 상호작용 문제에 대하여 이중공액구배법 내의 희소 행렬과 벡터의 곱에 대한 GPU의 병렬성능을 확인하였다. 개발된 코드는 희소 행렬의 1개의 행과 벡터의 내적을 병렬 연산하는 커널(Kernel)로 구성되며, 최적화는 병렬 감소 연산(Parallel Reduction), 메모리 코얼레싱(Coalescing) 효과를 이용하여 구현하였다. 또한, 커널 생성 시 워프(Warp)의 크기에 따른 성능 차이를 확인하였다. 표준예제들에 대한 GPU 병렬연산속도는 CPU 대비 약 7배 이상 향상됨을 확인하였다.

Abstract ▼ AI-Helper

A parallel algorithm of bi-conjugate gradient method was developed based on CUDA for parallel computation of the incompressible Navier-Stokes equations. The governing equations were discretized using splitting P2P1 finite element method. Asymmetric stenotic flow problem was solved to validate the proposed algorithm, and then the parallel performance of the GPU was examined by measuring the elapsed times. Further, the GPU performance for sparse matrix-vector multiplication was also investigated with a matrix of fluid-structure interaction problem. A kernel was generated to simultaneously compute the inner product of each row of sparse matrix and a vector. In addition, the kernel was optimized to improve the performance by using both parallel reduction and memory coalescing. In the kernel construction, the effect of warp on the parallel performance of the present CUDA was also examined. The present GPU computation was more than 7 times faster than the single CPU by double precision.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 P2P1 유한요소를 이용한 전산유체역학 문제의 해석에서 GPU 연산의 성능을 평가하기 위하여, 반복행렬해법인 이중공액구배법의 CUDA 기반 알고리즘을 개발하였다. 개발된 코드를 이용한 수치실험을 통하여 아래와 같은 결론을 도출하였다.
본 연구에서는 비대칭 협착관 유동 문제를 풀기 위하여, C언어로 작성된 P2P1 유한요소를 이용하는 분리 알고리즘 내의 이중공액구배법을 CUDA 기반 알고리즘으로 개발하였다. 또한 다른 행렬 패턴을 가지는 문제에 대하여 검토하기 위하여 유체구조 상호작용 문제에 대하여 해석을 수행하였다.
본 연구에서는 선행연구들에서 제안한 알고리즘을 이용하여 비대칭 협착관(stenosis) 유동 문제를 빠르게 해석하고자 한다. 따라서, C언어로 작성한 P2P1 유한요소를 이용한 분리 알고리즘 내의 이중공액구배법을 CUDA 기반의 알고리즘으로 수정하고, 다양한 격자계를 통해서 단일 CPU 대비 GPU의 병렬 연산 성능을 측정하고자 한다.

제안 방법

(2) GPU와 CPU의 다른 메모리 접근 특성에 근거하여, 본 연구에서는 병렬 감소 연산(Parallel Reduction)과 메모리 코얼레싱(Memory Coalescing)등을 이용하여 GPU 병렬 알고리즘의 최적화를 수행하였다. 비대칭 협착관 유동 문제의 이중공액구배법 알고리즘에서는 약 7배, 유체구조 상호 작용 문제의 희소행렬과 벡터의 곱 연산에서는 약 8배의 성능 향상을 얻었다.
CPU를 이용한 병렬 연산은 OpenMP 또는 영역 분할을 이용한 MPI를 적용하여 수행되었다. 전병진 등⁽³⁾은 CPU 기반의 클러스터 구조에서 MPI와 하이브리드(OpenMP+MPI) 병렬 방식을 이용해 이중공액구배법의 병렬 성능을 측정하였다.
본 연구에서는 선행연구들에서 제안한 알고리즘을 이용하여 비대칭 협착관(stenosis) 유동 문제를 빠르게 해석하고자 한다. 따라서, C언어로 작성한 P2P1 유한요소를 이용한 분리 알고리즘 내의 이중공액구배법을 CUDA 기반의 알고리즘으로 수정하고, 다양한 격자계를 통해서 단일 CPU 대비 GPU의 병렬 연산 성능을 측정하고자 한다. 추가적으로, 본 행렬과 다른 패턴을 가지는 유체 구조 상호작용 문제(FSI, Fluid Structure Interaction)를 계산하였다.
(4) GPU는 보드와 메모리가 분리되어 있기 때문에 메모리 규격 변경이 어려운 CPU와 다르게 내부의 메모리 규격과 버스 규격을 자유롭게 변경할 수 있다. 따라서, 추후에 동일한 문제에 대해서 향상된 성능을 가지는 Tesla K40, Tesla K80 등의 GPU를 이용하여 성능 분석을 수행하고자 한다.
본 연구에서는 비대칭 협착관 유동 문제를 풀기 위하여, C언어로 작성된 P2P1 유한요소를 이용하는 분리 알고리즘 내의 이중공액구배법을 CUDA 기반 알고리즘으로 개발하였다. 또한 다른 행렬 패턴을 가지는 문제에 대하여 검토하기 위하여 유체구조 상호작용 문제에 대하여 해석을 수행하였다. Table 1은 본 연구에서 이용한 행렬의 정보를 보여주며, NNZ는 희소 행렬 내에 0이 아닌 원소의 개수를 말한다.
본 연구에서는 GPU를 이용한 병렬 연산을 위하여 CUDA 언어를 사용하였다. GPU 연산의 성능을 높이기 위해서는 GPU와 CUDA 언어의 구조적 특징을 이해하는 것이 중요하다.
추가적으로, 본 행렬과 다른 패턴을 가지는 유체 구조 상호작용 문제(FSI, Fluid Structure Interaction)를 계산하였다. 유체구조 상호작용 문제는 비대칭 협착관 유동 문제보다 복잡한 예조건화를 필요로 하므로 이중공액구배법 내의 상당한 시간을 소모하는 희소 행렬과 벡터 곱에 대해서만 병렬화를 진행하였다.
따라서, C언어로 작성한 P2P1 유한요소를 이용한 분리 알고리즘 내의 이중공액구배법을 CUDA 기반의 알고리즘으로 수정하고, 다양한 격자계를 통해서 단일 CPU 대비 GPU의 병렬 연산 성능을 측정하고자 한다. 추가적으로, 본 행렬과 다른 패턴을 가지는 유체 구조 상호작용 문제(FSI, Fluid Structure Interaction)를 계산하였다. 유체구조 상호작용 문제는 비대칭 협착관 유동 문제보다 복잡한 예조건화를 필요로 하므로 이중공액구배법 내의 상당한 시간을 소모하는 희소 행렬과 벡터 곱에 대해서만 병렬화를 진행하였다.

이론/모형

Prec는 각 문제별 예조건화(Preconditioner)를 뜻하며 etc는 이외의 나머지 연산 과정을 뜻한다. 본 연구에서, 비대칭 협착관 유동 문제는 대각 예조건화(Digonal preconditioner) 기법을 사용하였으며 유체구조 상호작용 문제는 LU 예조 건화를 사용하였다. 위의 두 가지 문제들은 희소행렬과 벡터 곱에서 전체 수행시간의 80% 또는 30% 이상의 시간을 소요한다.
를 얻는다. 본 연구에서는 압력 방정식을 풀 때 병렬화에 장점을 갖고 있는 Uzawa 알고리즘을 이용하였다.
비압축성 Navier-Stokes 방정식을 풀기 위해 3단계 분리 유한요소 알고리즘을 사용하였다. 이전 시간에서의 속도와 압력이 주어질 때, 분리 계산법의 1단계에서는 아래의 식을 풀게 된다.

성능/효과

(1) 개발된 CUDA 기반의 병렬 알고리즘의 검증을 위하여 비대칭 협착관 유동 문제와 유체 구조 상호작용 문제인 유연한 튜브 내의 유동을 CUDA 기반의 연산을 수행하여 선행 연구 결과들과 잘 일치함을 확인하였다.
(3) 비정렬 격자계를 이용한 연산의 특성에 의해서 희소행렬과 벡터의 곱에 대한 연산은 하나의 행을 담당하는 스레드 개수에 따라 병렬 성능 차이가 발생하는 것을 확인하였다.
1개의 스레드가 적절한 양의 일을 담당하게 되면, 메모리 접근에 대한 지연 시간 숨김(Latency hiding)을 잘 이용하게 되어 효율적인 연산을 할 수 있기 때문이다. 본 연구의 문제들에서는 평균적인 행의 원소 개수가 작업하는 스레드 개수의 2~4배가 되었을 때 효율적인 연산 성능을 보였다. 격자의 특성에 따라 가장 빠른 연산 속도를 보이는 스레드 개수를 선택할 경우에는 Bell 등⁽⁵⁾이 제시한 32개의 스레드 개수의 속도보다, 작은 격자는 약 10%, 큰 격자는 약 20%의 성능 차이를 보인다.
(2) GPU와 CPU의 다른 메모리 접근 특성에 근거하여, 본 연구에서는 병렬 감소 연산(Parallel Reduction)과 메모리 코얼레싱(Memory Coalescing)등을 이용하여 GPU 병렬 알고리즘의 최적화를 수행하였다. 비대칭 협착관 유동 문제의 이중공액구배법 알고리즘에서는 약 7배, 유체구조 상호 작용 문제의 희소행렬과 벡터의 곱 연산에서는 약 8배의 성능 향상을 얻었다.
11는 비대칭 협착관 유동 문제와 유체구조상호작용 문제의 격자계에 대해서 하나의 행을 담당하는 스레드의 개수에 따른 GPU 연산 속도를 보여준다. 비대칭 협착관 유동의 경우에는 대체적으로 8개가 하나의 행을 맡았을 때 가장 빠르고 4개를 이용하였을 때 가장 느린 것을 확인하였다. 반면 유체구조 상호작용 문제의 경우에는 16개일 때 가장 빠르고, 4개를 이용하였을 때 가장 느린 결과를 보였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	CPU를 이용한 병렬 연산은 무엇을 이용하여 수행되는가?	CPU를 이용한 병렬 연산은 OpenMP 또는 영역 분할을 이용한 MPI를 적용하여 수행되었다. 전병진 등(3) 은 CPU 기반의 클러스터 구조에서 MPI와 하이브리드(OpenMP+MPI) 병렬 방식을 이용해 이중공액구배법의 병렬 성능을 측정하였다.
	병렬 컴퓨팅은 어떻게 나누어지는가?	수치해석을 위한 시스템 환경은 단일 프로세서에서 시작하여 병렬 컴퓨팅으로 발전했다. 병렬 컴퓨팅은 크게 분산 메모리와 공유 메모리 구조로 나눠진다. 분산 메모리 구조는 2개 이상의 노드로 구성된 클러스터와 같으며, 공유 메모리 구조는 Intel Xeon-Phi, GPU 등과 같이 수십 개의 코어가 메모리를 공유하는 시스템을 말한다.
	컴퓨터 성능과 소프트웨어 발전이 동시에 이루어지고 있는 이유는 무엇인가?	최근에는 설계, 의학, 금융 등 다양한 분야에서 수치해석을 이용한 연구가 진행되고 있다. 수치 해석에서 정확한 결과를 얻기 위해서는 상당한 시간이 소요된다. 따라서 빠른 계산 결과를 얻으려는 소비자들의 필요에 따라 컴퓨터 성능과 소프트웨어 발전이 동시에 이루어지고 있다.

참고문헌 (13)

Temem, O. and Jalby, W., 1992, "Charact-erizing the Behavior of Sparse Algorithms on Caches," Proceedings of the 1992 ACM/IEEE Conference on Supercomputing, pp. 578-587.
Richard, V., Demmel, J. W., Yelick, K. A., Kamil, S., Nishtala, R. and Lee, B. J., 2002, "Performance Optimizations and Bounds for Sparse Matrix-Vector Multiply," Proceedings of the IEEE/ACM SC2002 Conference.
Jeon, B. J. and Choi, H. G., 2014, "Comparison of Message Passing Interface and Hybrid Programming Models to Solve Pressure Equation in Distributed Memory System," Trans. Korean Soc. Mech. Eng. B, Vol. 39, No. 2, pp. 191-197.
https://www.khronos.org/opencl/
Bell, N. and Garlandy, M., 2008, "Ecient Sparse Matrix-Vector Multiplication on CUDA," NVIDIA Technical Report NVR-2008-004.
Feng, X., Hai Jin, Zheng, R., Hu, K., Zeng, J. and Shao, Z., 2011, "Optimization of Sparse Matrix-Vector Multiplication with Variant CSR on GPUs," 22 2011 IEEE 17th International Conference on Parallel and Distributed Systems.
Ashari, A., Sedaghati, N., Eisenlohr, J., Paqrthasarathy, S. and Sadayappan, P., 2014, "Fast Sparse Matrix-Vector Multiplication on GPUs for Graph Applications," Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, pp. 781-792.
Park, T. J., Woo, J. M. and Kim, C. H., 2011, "CUDA-based Parallel Bi-Conjugate Gradient Matrix Solver for BioFET Simulation," Journal of the Institute of Electronics Engineers of Korea, Vol. 48, No. 1, pp. 90-100.
Chang, T. K., Park, J. S. and Kim, C., 2014, "Efficient Computation of Compressible Flow By Higher-order Method Accelerated Using GPU," J. Comput. Fluids Eng, Vol. 19, No. 3, pp. 52-61.
https://www.nvidia.com/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf
http://developer.download.nvidia.com/assets/cuda/files/reduction.pdf
Varghese, S. S., Frankel, S. H. and Fischer, P. F., 2007, "Direct Numerical Simulation of Stenotic Flow: Part 1. Steady Flow," J. Fluid Mech., Vol. 582, pp. 253-280.

상세보기
Kang, K., Choi, H. G. and Yoo, J. Y., 2012. "Investigation of Fluid-structure Interactions using a Velocity-linked P2/P1 Finite Element Method and the Generalized-method," Int. J. Numer. Meth. Engng. pp. 1539-1547.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증