[논문]CUDA 프레임워크 상에서 스카이라인 질의처리 알고리즘 최적화

민준; 한환수; 이상원

CUDA 프레임워크 상에서 스카이라인 질의처리 알고리즘 최적화
Optimizing Skyline Query Processing Algorithms on CUDA Framework 원문보기

정보과학회논문지. Journal of KIISE. 데이타베이스, v.37 no.5, 2010년, pp.275 - 284

민준 (성균관대학교 임베디드 소프트웨어학과) , 한환수 (성균관대학교 정보통신공학부) , 이상원 (성균관대학교 정보통신공학부)

초록
AI-Helper

GPU는 대용량 데이터 처리를 위해 특화된 멀티 코어 기반의 스트림 프로세서로서 빠른 데이터 처리 속도 및 높은 메모리 대역 동의 장점을 가지며, CPU에 비해 가격이 저렴하다. 최근 이러한 GPU의 특성용 활용하여 범용 컴퓨팅 분야에 활용하고자 하는 시도가 계속되고 있다. 엔비디아에서 발표한 범용 병렬 컴퓨팅 아키텍처인 쿠다(CUDA) 프로그래밍 모델의 경우 프로그래머가 GPU 상에서 동작하는 범용 어플리케이션을 보다 손쉽게 개발할 수 있도록 지원한다. 본 논문에서는 쿠다 프로그래밍 모델을 이용하여 기본적인 중첩-반복 스카이라인 알고리즘을 병렬화시킨다. 그리고 스카이라인 알고리즘의 특성을 고려하여 GPU 자원용 효율적으로 사용할 수 있도록 GPU의 메모리 및 명령어 처리율에 중점을 두고 단계적인 최적화를 진행한다. 최적화 단계에 따라 각각 다른 성능 개선이 나타나는 것을 확인하였으며, 그 결과 기본 병렬 중첩-반복 알고리즘에 비해 평균 80%의 성능이 향상됨을 확인하였다.

Abstract ▼ AI-Helper

GPUs are stream processors based on multi-cores, which can process large data with a high speed and a large memory bandwidth. Furthermore, GPUs are less expensive than multi-core CPUs. Recently, usage of GPUs in general purpose computing has been wide spread. The CUDA architecture from Nvidia is one of efforts to help developers use GPUs in their application domains. In this paper, we propose techniques to parallelize a skyline algorithm which uses a simple nested loop structure. In order to employ the CUDA programming model, we apply our optimization techniques to make our skyline algorithm fit into the performance restrictions of the CUDA architecture. According to our experimental results, we improve the original skyline algorithm by 80% with our optimization techniques.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 최적의 성능을 얻기 위해서는 하드웨어 제약과 처리하는 데이터 특성을 고려하여 적합한 개수의 스레드를 생성하고, 처리해야할 객체의 수가 생성된 스레드 수보다 많은 경우s > k) 그림 5의 스레드 0, 스레드 1과 같이 기본 병렬 알고리즘을 반복적으로 수행하여 주어진 조건에 부합하는 스카이라인 집합을 얻을 수 있다. 병렬 중첩-반복 스카이라인 알고리즘을패모리 처리율과 명령어 처리율 관점에서 최적화시키고 성능 향상 정도를 비교해보자.
본 논문에서는 엔비디아의 쿠다 병렬 프로그래밍 모델을 이용하여 가장 기본적인 중첩-반복(nested-loops) 스카이라인 알고리즘을 병렬화시키고, GPU 상에서 성능 극대화를 위한 단계적인 최적화 방안들을 제시한다. 일반적으로 영상 처리 및 컴퓨터 비전(computer vision) 응용과 같이 병렬화 적용을 위한 데이터 구조 및 알고리즘이 단순한 분야가 GPU 처리 구조에 적합한 것으로 알려져 있는데[13, 14], 스카이라인 처리와 같이 상대적으로 복잡한 알고리즘의 경우에도 해당 알고리즘의 특성과 최신 GPU 의 기능을 활용하여 성능을 향상시킬 수 있음을 보이겠다.
본 논문에서는 엔비디아의 쿠다 병렬 프로그래밍 모델을 이용하여 기본적인 중첩-반복 스카이라인 알고리즘을 병렬화하고, 단계적으로 최적화 시키면서 GPU의 성능 확장성을 알아보았다. 일반적으로, GPU 처리 구조는 영상 처리 및 컴퓨터 비전 알고리즘 같은 대용량 병렬 처리에 적합하지만, 특정 알고리즘의 고유한 특성을 GPU 환경에 맞게 단계적으로 수정해 감에 따라 상당한 성능 향상을 얻을 수 있음을 알았다.
또한 하드웨어적으로 관리되는 CPU 상의 캐시 메모리와 달리 GPU의 경우 프로그래머에 의해 소프트웨어적으로 공유 메모리가 사용되어지기 때문에 한 블록의 스레드들이 모두 독립적으로 서로 다른 부분 객체 집합에 대한 스카이라인 처리를 수행할 경우 메모리 대역을 낭비하게 된다. 본 논문에서는 이러한 GPU와 스카이라인알고리즘 고유의 특성을 적절히 조화하여 GPU 자원을 효율적으로 활용하고 전체 프로그램 성능을 향상시킬수 있는 방법을 제안한다.
본 논문에서는 이러한 GPU의 특성을 활용하여 가장 기본적인 중첩-반복(nested-loops) 스카이라인 알고리즘[15]을 병렬화시키고, 성능 향상을 위해 알고리즘 고유의 특성을 GPU 환경에 맞게 단계적으로 수정하는 방법을 제안한다. 중첩-반복 알고리즘은 가장 기본적인 스카이라인 처리 방법으로 전체 객체들을 서로 한 번씩 비교하여 주어진 조건에 부합하는 스카이라인 집합을 구한다.

가설 설정

이 경우 요청된 데이터 전송을 완료하기 위해서는 총 9번의 128-바이트 메모리 트랜잭션이 발생하게 된다. 그림 6의 (b) 방법은이러한 문제점을 개선한 것이다. 워프의 스레드들은 객체의 속성 단위로 메모리에 접근하고, 3번(속성 수) 반복하여 순차적으로 데이터를 전송한다.
이상의 속성으로 구성된 객체이다. 병렬 중첩-반복 알고리즘에서 사용되는 객체 집합은 전역 메모리 상에 순차적으로 나열되어 있으며, 설명의 편의를 위해 첫 번째 객체는 0번지에 위치하고 각 속성은 4-바이트 크기의 단정밀도 부동 소수점 형식이라고 가정한다. 그림 6 은 워프의 스레드들이 객체들을 공유 메모리로 읽어가기 위해 전역 메모리에 접근하는 방법을 간략하게 도식화한 것이다.
옙를 둘어, 질의자가 휴양지의 호텔 예약을 위해 '숙박 요금은 저렴하고, 해변과의 거리는 가까운 호텔'에관한 정보를 원한다고 가정흥]■자. 일반적으로, 해변과 가까운 호텔 일수록 가격이 비싼 반비례 관계를 형성하브로 조건에 일치하는 최적의 호텔 하나를 결정해 줄 수는 없다.

제안 방법

본 장에서는 병렬 중첩-반복 스카이라인 알고리즘이 각 단계별 최적화를 통해 얻을 수 있는 성능 향상을 실험을 통해 나타낸다. 실험에는 엔비디아의 계산 전용 그래픽 카드인 테슬라 C1060이 사용되었다.
메모리 트랜잭션은 기본적으로 二L 크기에 정렬(align)되어 발생하기 때문에 같은 크기로 정렬된 32-, 64-, 또는 128-바이트 세그먼트(segment) 단위로 데이터를 읽거나 쓸 수 있다[10]. 워프가 전역 메모리에 접근하는 명령어를 실행하는 경우 이에 속한 32개의 스레드들이 접근하는 데이터 타입과 메모리 주소의 분산 정도에 따라 하드웨어적으로 하나 또는 그 이상의 메모리 트랜잭션을 발생시켜 협력적으로 전역 메모리에 대한 접근을 처리한다[10]. 일반적으로, 같은 명령어 처리에 대해 더 많은 트랜잭션이 필요할수록 스레드들에 의해 사용되지 않는 불필요한 워드(word)의 전송이 발생하여 명령어 처리율을 감소시키는 원인이 된다[10, 11丄 예를 들어, 워프의 32개 스레드들이 각각 연속된 4-바이트 크기의 단정밀도 부동 소수점(single precision floating point) 형식을 읽을 경우 128-바이트 크기의 메모리 트랜잭션을 발생시켜 한 번에 읽어 올 수 있지만, 스레드들이 서로 다른 형식의 데이터에 접근하거나 주소 범위를 벗어나는 데이터에 접근하는 경우 한 번 이상의 메모리 트랜잭션이 발생하게 된다.

대상 데이터

병렬 중첩-스카이라인 알고리즘과 단계별 최적화를 통해 얻을 수 있는 성능 측정을 위헤 두 가지 형식의 데이터를 사용한다. 그림 10의 (a)는 객체들이 전체적으로 고르게 분포되어 있는 independent 분산 형식을 나타내며, (b)는 객체들이 특정 속성에 편중되어 분포되어 있는 anti-correlated 분산 형식을 나타낸다.
통해 나타낸다. 실험에는 엔비디아의 계산 전용 그래픽 카드인 테슬라 C1060이 사용되었다. 테슬라 C1060 은 엔비디아 최신 그래픽 칩셋인 GT200 계열로 30개의 멀티프로세서에 각 8개의 스트림 프로세서가 장착되어 총 240개 코어로 동작한다.

성능/효과

이 경우 오히려 CPU에서 사용되는 naive 알고리즘을 사용하는 것이 더 낳은 성능을 보이는데, 그 이유는 최소 2개의 속성 비교를 통해 객체 간의 지배 관계가 판가름 날 수 있어 분기하는 워프가 발생하더라도 뱅크 충돌이 발생하는 비효율적인 연산을 줄이는 것이 성능 향상에 도움이 되기 때문이다. 나머지 경우 그림 11의 실험 결과를 통해 APC에 비해 DWE의 수행 시간욘 (a) indepen™ dent 분포의 경우 평균 28%, (b) anti-correlated 분포의 경우 평균 36% 향상되었옴을 알 수 있다. 따라서 다소 불필요한 연산을 수행하더라도 SIMT로 동작하는 스레드들이 서로 다른 실행 경로를 가지는 분기하는 워프를 최소화하는 것이 전체 프로그램 성능에 상당한 효과를 줄 수 있음을 알 수 있다.
이런 문제를 해결하기 위해 짝수 개의 속성을 갖는 객체의 마지막 속성으로 패딩 값을 삽입하여 발생할 수 있는 뱅크 충돌을 사전에 방지하였다. 그림 1上의 실험 결과를 보면 DWE 알고리즘에 비해 ALR 알고리즘의 수행 시간은 (a) independent 분포의 경우 평균 82%, (b) anti-correlated 분포의 경우 평균 83% 향상되었음을 알 수 았다.
(a) independent 분포의 경우 평균 11%, (b) anti correlated 분포의 경우 평균 12% 향상되었음을 알 수 있다. 이를 통해 적은 수의 메모리 트랜잭션을 발생 시켜 효율적으로 전역 메모리 대역을 활용하는 것이 프로그램 성능에 상당한 영향을 줄 수 있음을 알 수 있다.
나머지 경우 그림 11의 실험 결과를 통해 APC에 비해 DWE의 수행 시간욘 (a) indepen™ dent 분포의 경우 평균 28%, (b) anti-correlated 분포의 경우 평균 36% 향상되었옴을 알 수 있다. 따라서 다소 불필요한 연산을 수행하더라도 SIMT로 동작하는 스레드들이 서로 다른 실행 경로를 가지는 분기하는 워프를 최소화하는 것이 전체 프로그램 성능에 상당한 효과를 줄 수 있음을 알 수 있다.
튝히 스카이라인알고리즘처럼 대용량 데이터를 처리하면서 비교 연산이 많이 발생하는 경우 GPU 특성에 맞게 단계적으로 최적화시키면서 상당한 성능 향상을 얻을 수 있었다. 실험을 통해 알 수 있듯이 naive 알고리즘에 비해 AL료 알고리즘은 independent 분포의 경우 평균 78%, anti-cor related 분포의 경우 평균 83%의 수행 시간이 향상되었으며, 이는 속성의 수가 적을수록 더 큰 폭의 성능 향상을 얻을 수 있었다. 그 이유는 속성의 수가 적을수록 불필요한 속성 간의 비교를 수행하지 않는 naive 알고리즘의 이점이 줄어들기 때문이다.
그림 11의 (。의 실험 결과를 보면 DWE의 경우 짝수 개의 속성을 갖는 데이터가 속성이 하나 더 많은 흘수 개의 속성을 갖는 데이터 보다 좋지 않은 성능을 나타냄 올 알 수 있다. 흘수 개의 속성을 갖는 객체 집합의 경우 짝수 개의 속성을 갖는 객체 집합에 비해 더 많은 비교 연산과 메모리 대역을 소모하지만, 뱅크 충돌이 발생하지 않아 상대적으로 더 낳은 성능을 보임을 알 수 있다.
그림 U의 실험 결과를 통해 gbe한 처리 방식에 비해 APC의 수행 시간은 (a) independent 분포의 경우 평균 11%, (b) anti correlated 분포의 경우 평균 12% 향상되었음을 알 수 있다. 이를 통해 적은 수의 메모리 트랜잭션을 발생 시켜 효율적으로 전역 메모리 대역을 활용하는 것이 프로그램 성능에 상당한 영향을 줄 수 있음을 알 수 있다. 또한 쿠다 프로그램 구현 시 전역 메모리에 대한 접근 패턴을 얼마나 효과적으로 하는가에 대한 중요성도 알 수 있다.
알 수 있다. 흘수 개의 속성을 갖는 객체 집합의 경우 짝수 개의 속성을 갖는 객체 집합에 비해 더 많은 비교 연산과 메모리 대역을 소모하지만, 뱅크 충돌이 발생하지 않아 상대적으로 더 낳은 성능을 보임을 알 수 있다. 이런 문제를 해결하기 위해 짝수 개의 속성을 갖는 객체의 마지막 속성으로 패딩 값을 삽입하여 발생할 수 있는 뱅크 충돌을 사전에 방지하였다.

참고문헌 (24)

NVIDIA Corporation, http://www.nvidia.com
J. Krueger, R. Westermann, Linear, "Linear algebra operators for GPU implementation of numerical algorithms," In Proceedings of SIGGRAPH, pp.908-916, 2003.
J. Bolz, I. Farmer, E. Grinspun, P. Schroeder, "Sparse matrix solvers on the GPU: Conjugate gradients and multigrid," In Proceedings of SIGGRAPH, pp.917-924, 2003.
Mark J. Harris, Greg Coombe, Thorsten Scheuermann, and Anselmo Lastra, "Physically-Based Visual Simulation on Graphics Hardware," Proc. 2002 SIGGRAPH.
John D. Owens, David Luebke, Naga Govindaraju, Mark Harris, Jens Kruuger, Aaron E. Lefohn, and Timoty J. Purcell, "A Survey of General-Purpose Computation on Graphics Hardware," In Eurographics 2005, State of the Art Reports, pp.21-51, August 2005.
GPGPU, http://gpgpu.org
Mark D. Hill, Michael R. Marty, "Amdahl's Law in the Multicore Era," IEEE Computer Society, 2008.
K. Asanovic et al., "The Landscape of Parallel Computing Research: A View from Berkeley," report UCB/EECS 2006, p.183, 2006.
DevNote, "멀티프로세서 프로그래밍 시대의 개막," http://devnote.net/wiki/index.php/Main_Page
NVIDIA CUDATM Programming Guide Version 3.0, NVIDIA Corporation, Santa Clara, CA, USA, 2010.
David Kirk and Wen-mei Hwu, CUDA Textbook, Draft Version, 2009.
R. Rost, OpenGL Shading Language Second Edition, Addison-Wesley, 2006.
J.-M. Frahm, M. Pollefeys, and M. Shah, Proc. of CVPR Workshop on Visual Computer Vision on GPU's, June, 2008.
A. Gopalakrishnan and A. Sekmen, "Vision-based Mobile Robot Learnig an Navigation," ROMAN, IEEE International Workshop on Robots and Human Interactive Communication, pp.28-53, 2005.
Stephan Borzsonyi, Donald Kossamann, and Konrad Stocker, "The Skyline Operator," in ICDE, pp. 421-430, 2001.
Sungwoo Park, Taekyung Kim, Johghyun Park, Jinha Kim, and Hyeonseung Im, "Parallel Skyline Computation on Multicore Architectures," in ICDE, pp.760-771, 2009.
P. Wu, C. Zhang, Y. Feng, B. Y. Zhao, D. Agrawal, and A. E. Abbadi, "Parallelizing skyline queries for scalable distribution," in EDBT, pp.112-130, 2006.
A. Cosgaya-Lozano, A. Rau-Chaplin, and N. Zeh, "Parallel computation of skyline queries," in HPCS, p.12, 2007.
D. Kossmann, F. Ramsak, and S. Rost, "Shooting stars in the sky: an online algorithm for skyline queries," in VLDB, pp.275-286, 2002.
D. Papadias, Y. Tao, G. Fu, and B. Seeger, "Progressive skyline computation in database systems," ACM Transactions on Database Systems, vol.30, no.1, pp.41-82, 2005.

상세보기
Joachim Selke, Christoph Lofi, and Wolf-Tilo Balke, "Highly Scalable Multiprocessing Algorithms for Preference-Based Database Retrieval," 15th International Conference on Database Systems for Advanced Applications (DASFAA), Tsukuba, Japan, 04/2010.
S.-R. Cho, H. Han, S.-W. Lee, "Multi-Dimensional Record Scan with SIMD Vector Instructions," Journal of KIISE : Computing Practices and Letters, vol.16, no.6, pp.732-736, June. 2010. (in Korean)

원문보기 상세보기
J. Chhugani, W. Macy, A. Baransi, A. Nguyen, M. Hagog, S. Kumar, V.W. Lee, Y. K. Chen, and P. Dubey, "Efficient Implementation of Sorting on Multi-core SIMD CPU Architecture," Proc. of the Very Large Data Base Endowment, vol.1 issue2, August 2008, pp.1313-1324, 2008.
민준, 한환수, 이상원, "Multi-core 환경에서 입력 데이터 크기에 따른 skyline 알고리즘 병렬화 고찰", 한국정보과학회 가을 학술발표논문집 , 제 36권 제 2호 pp. 22-23, 2009.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증