[논문]매니코어 시스템에서의 병렬 프로그래밍 최적화를 위한 분석 도구 및 벤치마크 성능 실험

노승우; 최지은; 남덕윤; 박근철; 박찬열

문제 정의

따라서 HPCG 테스트는 일반적으로 컴퓨터의 최대 성능 중 극히 일부만을 수행하기 때문에 성능 측정을 위해 많은 시간을 필요로 하지 않는다. 본 절에서는 인텔에서 최적화한 버전의 HPCG[20]를 가지고, 입력 변수인 문제크기와 실행 시간에 따른 성능 차이를 확인하고 분석한다.
본고에서는 인텔 차세대 매니코어 시스템인 KNL을 활용한 성능 분석과 벤치마크 실험을 위해 먼저 KNL에 대해서 간략히 소개한 후 대표적인 분석 도구에 대해 살펴보았다. 그리고 KNL 기반 테스트베드를 활용하여 3가지 주요 벤치마크 프로그램을 통해 성능을 측정하고 분석하여 성능에 영향을 미치는 요소들을 살펴보고 시스템 구조에 맞는 병렬 프로그램 최적화가 필요함을 보였다.
그리고 KNL 기반의 시스템 테스트베드를 활용하여 주요 벤치마크 실험을 실행하고 성능을 측정한다. 이를 통해 KNL 고속 메모리 크기와 코어 수, 스레드와 MPI 프로세스 수의 조합 등이 병렬 프로그램 성능에 끼치는 영향을 살펴보고 분석한다.
이에 본고에서는 고속 메모리가 추가된 인텔 KNL을 간략히 소개한 후, 병렬 프로그래밍을 위한 최적화된 환경을 분석하기 위해 활용하는 성능 모니터링 방법과 주요 분석 도구에 대해서 설명한다. 그리고 KNL 기반의 시스템 테스트베드를 활용하여 주요 벤치마크 실험을 실행하고 성능을 측정한다.

제안 방법

이에 본고에서는 고속 메모리가 추가된 인텔 KNL을 간략히 소개한 후, 병렬 프로그래밍을 위한 최적화된 환경을 분석하기 위해 활용하는 성능 모니터링 방법과 주요 분석 도구에 대해서 설명한다. 그리고 KNL 기반의 시스템 테스트베드를 활용하여 주요 벤치마크 실험을 실행하고 성능을 측정한다. 이를 통해 KNL 고속 메모리 크기와 코어 수, 스레드와 MPI 프로세스 수의 조합 등이 병렬 프로그램 성능에 끼치는 영향을 살펴보고 분석한다.
인텔에서 권고되는 STREAM 최적화 문서를 기준으로, 정적 메모리 할당, 2MB의 메모리 정렬, 그리고 컴파일러 옵션을 사용한다[12]. 그리고 메모리 모드(cache, ddr, mcdram), STREAM 배열 크기(STREAM_ARRAY_SIZE)와 스레드 개수(OMP_NUM_THREADS)가 성능에 미치는 영향을 살펴보기 위해 각 요소의 변화에 따른 성능 결과를 측정하였다. 이 때, 이용 가능한 모든 코어 위에서 스레드가 실행되도록 OpenMP 환경변수인 KMP_AFFINITY를 scatter로 설정한다.
본 실험은 인텔에서 최적화한 정적 메모리 HPL 코드와 코드 수정을 하지 않은 기존 Netlib HPL 소스에 인텔 컴파일러 최적화만을 실시하였다. 두 코드는 단일 노드에서는 공유 메모리 형태의 272개의 스레드 방식을 사용하고 다중노드 간에는 MPI 통신 모델을 사용한다.
슈퍼컴퓨터의 성능을 측정하기 위한 다양한 시스템 벤치마크 프로그램들이 존재한다. 본 장에서는 대표적으로 가장 널리 사용되는 벤치마크 프로그램인 STREAM, HPLinpack, HPCG를 대상으로 KNL 기반 테스베드 성능 측정 결과를 비교하고 분석해 본다.
인텔 STREAM 최적화 공식 문서에 따르면 KNL 7250의 Quadrant, Flat 모드에서 STREAM Triad 기대 성능은 MCDRAM 최대 475 ∼ 490GB/s, DDR4 최대 90 GB/s 이다. 본 절에서는 인텔 최적화 문서[13]에 따른 기대 성능과 실제 성능을 검증 해보고 CPU와 메모리 크기의 변화에 따른 성능 결과를 비교하고 분석한다.
본 코드는 실제 병렬 고성능 컴퓨팅 시스템(HPC)의 부동 소수점 연산의 성능 측정을 위한 산업 표준 테스트로, 세계에서 가장 강력한 컴퓨터 시스템의 목록을 정기적으로 업데이트하는 TOP 500 프로젝트의 기준으로 활용되고 있다. 본 절에서는 제온파이 테스트베드를 기반으로 인텔에서 소스 최적화한 HPLinpack 벤치마크와 기존 Netlib의 HPLinpack를 이용하여 단일 노드 및 클러스터 환경에서의 성능을 측정하고 비교분석한다.
HPCG 방식은 3D 도메인의 각 그리드 지점(x,y,z)에서 27 포인트 스텐실을 사용하여(한 점에서의 방정식이 그 값과 주변 26 지점에 따라 달라짐) 논리적으로 전역적이며 물리적으로 분산된 희소 선형시스템을 생성한다. 세부적으로는 SPMV(Sparse Matrix-Vector Multiplication), SymGS(Symmetric Gauss-Seidel), WAXPBY(Scaled vector addition), DDOT(Dot Product)의 네가지 계산 블록과 MPI_Allreduce와 Halos Exchange의 두 통신 블록을 사용한다.
인텔의 Vtune은 고성능 분석(HPC analysis)을 위해 CPU Utilization, memory access, FPU Utilization의 3가지 주요 지표의 분석 결과를 제공한다. Vtune은 대부분의 최신 프로세서까지 지원하기 때문에 단일 인터페이스로 다양한 프로세서의 성능 분석을 진행할 수 있다는 점이 장점이다.
Linpack 벤치마크는 분산 메모리 컴퓨터에서 무작위 계수를 갖는 선형 대수 방정식의 대규모 시스템을 생성하고 해결하기 위해 1980년대 초 Jack Dongrra 등에 의해 개발되었다[14]. 즉, 선형 방정식 Ax * b의 조밀한 n * n 시스템을 풀고, 시스템을 분석하고 해결하는데 걸리는 시간을 측정하고, 그 시간을 성능 속도로 변환하고 결과의 정확성을 테스트한다. 이때 시스템의 성능은 초당 부동소수점 연산(FLOP/s)으로 표현된다.
그리고 KNL 기반 테스트베드를 활용하여 3가지 주요 벤치마크 프로그램을 통해 성능을 측정하고 분석하여 성능에 영향을 미치는 요소들을 살펴보고 시스템 구조에 맞는 병렬 프로그램 최적화가 필요함을 보였다. 첫 번째로 STREAM 벤치마크의 배열 크기를 변화 시키면서 최적의 메모리 모드와 스레드 개수를 분석하였다. STREAM 벤치마크를 사용하여 고대역폭 온칩 메모리를 포함하는 인텔 제온파이의 메모리 성능을 측정한 결과 코어당 1 스레드로 최대 사용했을 때 가장 높은 성능을 보였으며, 실제 성능이 인텔 최적화 문서에 따른 기대 성능과 거의 비슷함을 확인하였다.

대상 데이터

4GHz의 클럭 속도로, 최대 동시 4개의 멀티쓰레딩(4 SMT)을 지원하며 2개의 AVX-512 벡터처리 장치(Vector Processing Unit)를 가지고 있다. 메모리 구조는 8개의 고속 메모리 컨트롤러에 의해 접근되는 16GB 고대역폭 메모리(High Bandwidth Memory, HBM)와 2개의 3채널 메모리 컨트롤러에 의해 접근되는 최대 384GB의 DDR4 메모리로 구성된다. I/O 구조는 36개의 PCIe 선로와 추가적인 옴니패스(omnipath) 컨트롤러로 구성된다.
사용한 테스트베드는 1대의 로그인 노드와 총 14대의 계산 노드로 구성되어 있다. 이중 10대의 계산 노드는 인텔 제온파이 프로세서 7250 기반으로 관련 상세 스펙 및 소프트웨어, 환경설정, 및 사용한 벤치마크는 <표 2>와 같다.

이론/모형

또한 Top 500의 결과로 활용하기 위해서는 실행 시간을 최소 30분 이상 실행하도록 권고한다.HPLinpack과 마찬가지로 HPCG도 OpenMP /MPI 방식의 하이브리드 모델을 사용한다. 먼저 MPI 프로세스와 OpenMP 스레드 개수에 따른 성능 변화를 직접 확인해 보기 위해 그리드 사이즈를 32로 작게 선택하고, 한 노드와 두 노드를 대상으로 성능을 측정한 결과는 (그림 4)와 같다.
본 실험은 인텔에서 최적화한 정적 메모리 HPL 코드와 코드 수정을 하지 않은 기존 Netlib HPL 소스에 인텔 컴파일러 최적화만을 실시하였다. 두 코드는 단일 노드에서는 공유 메모리 형태의 272개의 스레드 방식을 사용하고 다중노드 간에는 MPI 통신 모델을 사용한다. 실험 노드의 개수(C)를 1, 2, 4, 8로 증가시켰을 때, 인텔 코드에서의 최대 성능 값은 <표 4>와 같다.
본 벤치마크의 최신버전인 HPLinpack은 결과를 표준화하기 위해 이식 가능한 구현체로서의 소프트웨어 패키지인 HPL 코드가 사용된다[15]. 본 코드는 실제 병렬 고성능 컴퓨팅 시스템(HPC)의 부동 소수점 연산의 성능 측정을 위한 산업 표준 테스트로, 세계에서 가장 강력한 컴퓨터 시스템의 목록을 정기적으로 업데이트하는 TOP 500 프로젝트의 기준으로 활용되고 있다.
본 실험에서는 STREAM의 최신 표준 공식 버전인 5.10을 이용하였으며, 4가지 벡터 커널 중 가장 복잡한 시나리오인 Triad 커널 계산을 이용하여 실험을 진행하였다. Triad는 복사(Copy, a=b), 곱셈(Scale, a*SCALAR), 덧셈(Add, a+b)가 모두 적용된 벡터 커널로 위의<표 3>과 같다.

성능/효과

첫 번째로 STREAM 벤치마크의 배열 크기를 변화 시키면서 최적의 메모리 모드와 스레드 개수를 분석하였다. STREAM 벤치마크를 사용하여 고대역폭 온칩 메모리를 포함하는 인텔 제온파이의 메모리 성능을 측정한 결과 코어당 1 스레드로 최대 사용했을 때 가장 높은 성능을 보였으며, 실제 성능이 인텔 최적화 문서에 따른 기대 성능과 거의 비슷함을 확인하였다. 또한 인텔과 Netlib의 두 가지 HPLinpack 벤치마크 버전을 이용하여 단일 노드 및 클러스터 환경에서의 실험 결과, 블록크기가 전체메모리의 약 80%정도 할당 되었을 때 최고 성능을 보였으며 노드 수 증가에 따라 거의 선형적인 성능 증가를 보였다.
실험 노드의 개수(C)를 1, 2, 4, 8로 증가시켰을 때, 인텔 코드에서의 최대 성능 값은 <표 4>와 같다. 각 실험에서 블록 크기는 최소 10,000 부터 최대메모리로 할당이 될 때까지 10,000씩 증가시키며, 그 중에서 가장 성능이 높은 블록 크기를 선택하였다. 실험 결과, 10대 노드 미만까지는 확장 성능 효율이 약 95% 이상으로 유지된다.
먼저 MPI 프로세스와 OpenMP 스레드 개수에 따른 성능 변화를 직접 확인해 보기 위해 그리드 사이즈를 32로 작게 선택하고, 한 노드와 두 노드를 대상으로 성능을 측정한 결과는 (그림 4)와 같다. 결과에서 살펴볼 수 있듯이, 노드 당 MPI 프로세스 수는 4개 (2 노드의 경우는 8개), MPI 프로세스 당 스레드 수는 17 일 때 가장 좋은 성능을 보여준다.
실험 결과, 10대 노드 미만까지는 확장 성능 효율이 약 95% 이상으로 유지된다. 또한 각 블록 크기가 실제적으로 전체 메모리의 약 80% 전후로 할당되었을 때 성능이 가장 높게 나온다. 본 실험 결과는 미국의 제온파이 기반 Colfax 클러스터에서 실험한 2017년 7월 벤치마크 보고서와 거의 비슷하다[17].
마지막으로 HPCG 벤치마크 실험을 통해 MPI 프로세스 및 OpenMP 스레드 개수에 따른 성능 분석 결과 노드 당 MPI 프로세스는 4, 전체 스레드 수가 68일 때 가장 좋은 성능을 보임을 확인하였다. 또한 시간의 길이에 관계없이 단시간의 성능 측정으로도 거의 정확한 시스템 성능 측정이 가능함을 보였다.
STREAM 벤치마크를 사용하여 고대역폭 온칩 메모리를 포함하는 인텔 제온파이의 메모리 성능을 측정한 결과 코어당 1 스레드로 최대 사용했을 때 가장 높은 성능을 보였으며, 실제 성능이 인텔 최적화 문서에 따른 기대 성능과 거의 비슷함을 확인하였다. 또한 인텔과 Netlib의 두 가지 HPLinpack 벤치마크 버전을 이용하여 단일 노드 및 클러스터 환경에서의 실험 결과, 블록크기가 전체메모리의 약 80%정도 할당 되었을 때 최고 성능을 보였으며 노드 수 증가에 따라 거의 선형적인 성능 증가를 보였다. 또한 최적화에 따라서 약 50%의 성능과 7%의 병렬 효율성 차이를 보였다.
또한 인텔과 Netlib의 두 가지 HPLinpack 벤치마크 버전을 이용하여 단일 노드 및 클러스터 환경에서의 실험 결과, 블록크기가 전체메모리의 약 80%정도 할당 되었을 때 최고 성능을 보였으며 노드 수 증가에 따라 거의 선형적인 성능 증가를 보였다. 또한 최적화에 따라서 약 50%의 성능과 7%의 병렬 효율성 차이를 보였다. 마지막으로 HPCG 벤치마크 실험을 통해 MPI 프로세스 및 OpenMP 스레드 개수에 따른 성능 분석 결과 노드 당 MPI 프로세스는 4, 전체 스레드 수가 68일 때 가장 좋은 성능을 보임을 확인하였다.
또한 최적화에 따라서 약 50%의 성능과 7%의 병렬 효율성 차이를 보였다. 마지막으로 HPCG 벤치마크 실험을 통해 MPI 프로세스 및 OpenMP 스레드 개수에 따른 성능 분석 결과 노드 당 MPI 프로세스는 4, 전체 스레드 수가 68일 때 가장 좋은 성능을 보임을 확인하였다. 또한 시간의 길이에 관계없이 단시간의 성능 측정으로도 거의 정확한 시스템 성능 측정이 가능함을 보였다.
본 실험에서 벡터의 배열 크기를 최소 1,000,000 부터 최대 3.072,000,000 까지 제곱하여 증가시켰을 때, 전체 할당 메모리 크기는 약 24 MiB 부터 73,728 MiB 이다. 이때 소모되는 전체 메모리 크기가 34 MiB 와 16 GiB 일 때 큰 폭으로 성능이 두 단계 떨어짐을 확인할 수 있다.
각 실험에서 블록 크기는 최소 10,000 부터 최대메모리로 할당이 될 때까지 10,000씩 증가시키며, 그 중에서 가장 성능이 높은 블록 크기를 선택하였다. 실험 결과, 10대 노드 미만까지는 확장 성능 효율이 약 95% 이상으로 유지된다. 또한 각 블록 크기가 실제적으로 전체 메모리의 약 80% 전후로 할당되었을 때 성능이 가장 높게 나온다.
실험 결과를 살펴보면 먼저 각 메모리 모드는 ddr < cache < flat, 스레드 개수는 34 < 272 < 136 < 68 순으로 성능이 높아짐을 확인할 수 있다.
또한 멀티코어 성능 향상의 한계는 몇 해 전부터 단일 CPU의 클럭 속도가 3GHz에서 더 이상 향상되지 않고 있는 점에서 어느 정도 예상되던 부분이었다. 이러한 상황에서 컴퓨팅 성능은 프로세서의 클럭 속도 향상이 아닌, 인텔 제온파이나 NVIDIA GPU와 같이 별도 카드 타입의 가속기 형태가 나옴으로서 향상을 꾀할 수 있었다.
(그림 3)은 인텔에서 소스를 최적화한 버전과 기존 Netlib의 HPL을 비교하여 노드 수에 따른 성능을 측정한 그래프이다. 최적화에 따라서 최대 약 50%의 성능과 7%의 병렬 효율성 차이를 확인할 수 있으며, 시스템 구조에 맞는 병렬 프로그램 최적화가 중요한 요소임을 알 수 있다.

후속연구

본고에서는 인텔 차세대 매니코어 시스템인 KNL을 활용한 성능 분석과 벤치마크 실험을 위해 먼저 KNL에 대해서 간략히 소개한 후 대표적인 분석 도구에 대해 살펴보았다. 그리고 KNL 기반 테스트베드를 활용하여 3가지 주요 벤치마크 프로그램을 통해 성능을 측정하고 분석하여 성능에 영향을 미치는 요소들을 살펴보고 시스템 구조에 맞는 병렬 프로그램 최적화가 필요함을 보였다. 첫 번째로 STREAM 벤치마크의 배열 크기를 변화 시키면서 최적의 메모리 모드와 스레드 개수를 분석하였다.

핵심어	질문	논문에서 추출한 답변
	All2All 모드의 지연이 가장 큰 이유는 무엇인가?	All2All 모드는 타일, TD, 메모리 채널 사이에 의존성이 없어, 메모리 주소가 칩의 모든 TD에 균일하게 분산되기 때문에 가장 지연이 크다. Quadrant/hemisphere 모드는 가상의 4개 또는 2개 부분으로 나뉘어지고, 메모리 주소가 같은 부분의 TD로 해시된다.
	제온파이 프로세서의 성능 모니터링은 무엇을 사용하여 정보를 얻는가?	제온파이 프로세서의 성능 모니터링은 하드웨어 퍼포먼스 유닛(Hardware Performance Units)을 사용하여 많은 정보를 얻을 수 있다. 하드웨어 퍼포먼스 카운터(Hardware Performance Counter)는 하드웨어 관련 이벤트를 수집하는 레지스터로 프로세서의 성능 모니터링 시 사용된다.
	cache 모드의 단점은 무엇인가?	cache 모드는 MCDRAM을 L3 캐시로 사용할 수 있어, 응용프로그램의 수정이 필요 없다. 단점은 캐시 미스가 발생했을 때 데이터가 크면 클수록 지연이 커진다. hybrid 모드는 cache 모드와 flat 모드를 혼합하여 사용한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

매니코어 시스템에서의 병렬 프로그래밍 최적화를 위한 분석 도구 및 벤치마크 성능 실험 원문보기

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (21)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

매니코어 시스템에서의 병렬 프로그래밍 최적화를 위한 분석 도구 및 벤치마크 성능 실험 원문보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (21)

이 논문을 인용한 문헌

저자의 다른 논문 :

노승우 (5) 남덕윤 (11) 박근철 (4) 박찬열 (26)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper