[논문]CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘

지중현; 윤동호; 고광희

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘
An efficient acceleration algorithm of GPU ray tracing using CUDA 원문보기

한국HCI학회 2009년도 학술대회, 2009 Feb. 09, 2009년, pp.469 - 474

지중현 (광주과학기술원 기전공학과) , 윤동호 (광주과학기술원 기전공학과) , 고광희 (광주과학기술원 기전공학과)

초록
AI-Helper

본 논문은 CUDA를 이용하여 GPU에서의 최적화된 kd-tree 탐색구조 환경과 광선/삼각형의 교차검사 알고리즘을 통한 실시간의 광선추적 시스템을 제안한다. 기존의 GPU 기반 kd-tree 탐색 알고리즘은 대부분 스택이 없는 GPU 하드웨어의 특성상 임의의 단말노드에서 기하요소의 교차검사가 실패할 경우 상위노드로 상향식 탐색을 진행하기 때문에 노드에 대한 중복 방문이 반드시 필요하거나 혹은 불필요한 메모리의 적재가 필요하기 때문에 큰 장면에 대한 광선추적은 어렵게 된다. 본 논문에서 제안하는 알고리즘은 CPU 방식의 kd-tree 탐색과 비슷하게 동작하도록 stack을 CUDA 프레임워크를 이용하여 GPU의 지역메모리로 구현하였기 때문에 기존의 방법 등에서의 문제점을 해결하였다. 또한 탐색구조를 통해서 찾은 말단 삼각형들의 처리를 위해서 최신의 CPU 기반의 교차검사 알고리즘인 Plucker 좌표계 검사를 CUDA로 구현하여 병렬 가속시켰다. Plucker 검사는 기존의 무게중심 좌표 대신에 광선과 삼각형 edge의 관계를 이용하는 간단한 연산만을 이용하는 장점이 있다. 전체 시스템은 단일 커널로 구성되어 있으며 병렬처리를 위한 복잡한 동기화나 광선패킷의 도입 없이 간단하게 구현되었다. 결과적으로 본 논문의 실험은 기존 알고리즘 대비 제안하는 알고리즘이 약 2배의 성능 향상이 있음을 보여 준다.

Abstract ▼ AI-Helper

This paper proposes an real time ray tracing system using optimized kd-tree traversal environment and ray/triangle intersection algorithm. The previous kd-tree traversal algorithms search for the upper nodes in a bottom-up manner. In a such way we need to revisit the already visited parent node or use redundant memory after failing to find the intersected primitives in the leaf node. Thus ray tracing for relatively complex scenes become more difficult. The new algorithm contains stacks implemented on GPU's local memory on CUDA framework, thus elegantly eliminate the problems of previous algorithms. After traversing the node we perform the latest CPU-based ray/triangle intersection algorithm 'Plucker coordinate test', which is further accelerated in massively parallel thanks to CUDA. Plucker test can drastically reduce the computational costs since it does not use barycentric coordinates but only simple test using the relations between a ray and the triangle edges. The entire system is consist of a single ray kernel simply and implemented without introduction of complicated synchronization or ray packets. Consequently our experiment shows the new algorithm can is roughly twice as faster as the previous.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 CUDA를 이용해 지역 메모리에 스택을 구현하였고 그에 맞는 자료구조 및 가속화 방법을 제안하고 있다. 본 논문의 알고리즘은 별도의 coherency를 이용하는 광선패킷이나 특정한 하드웨어에 대한 자료구조를 요구하는 가속화 방법을 쓰지 않고 병렬 처리시에 발생하는 스레드간에 발생하는 빈번한 동기화를 필요로 하지 않는다.
일반적으로 kd-tree같은 공간분할 기법이 가장 빠른 성능을 보여주고 있지만 근본적으로 기존 그래픽스 하드웨어에서와 GPGPU 플랫폼에서는 스택(stack)의 지원이 미약하고 병렬처리를 위한 SIMD(Single Instruction Multiple Data) 대응 및 프로그래밍이 어렵기 때문에 GPU를 통해 비교적 거대한 장면에 대해서 kd-tree를 이용하여 실시간으로 광선을 추적하는 것은 많은 한계가 있다. 본 논문은 광선추적의 핵심 모듈인 공간 가속구조와 광선/삼각형 교차검사의 가속을 위하여 CUDA를 이용한 알고리즘을 구현하였다.

제안 방법

1차 광선의 경우는 Plücker 검사의 2단계를 모두 진행하여 교차점까지 찾는 과정을 수행하였지만 그림자 광선에 경우에는 쉐이딩이 목적이 아니므로 무게중심 좌표를 돌려줄 필요가 없으므로 간단히 hit에 대한 정보만 돌려주는 것으로 최적화를 수행하였다.
GPU에서는 각각의 스레드가 광선과 대응하여 독립적으로 교차테스트를 실시하므로 파이프라인에서 병목현상이 일어나지 않도록 하는 것이 중요한데 이를 위해서 추가적으로 분기를 발생시키지 않는 교차테스트를 구현하였다. 만약 잘못된 분기를 통해서 교차테스트가 수행이 된다면 실행의 길이에 따라서 경우에 따라서는 심각한 성능저하를 일으킬 수 있기 때문이다.
host(CPU)에서는 장면의 계층적 구성과 삼각형 메쉬에 대한 사전 연산을 수행하고 CUDA 텍스쳐 버퍼로 필요한 모든 정보를 device(GPU)에 넘기는 것으로 광선추적이 시작된다. GPU에서는 모든 광원에 대하여 스택 기반의 탐색을 통해 비교적 복잡한 장면을 지원하도록 하였으며 완료된 노드가 참조하는 삼각형에 대하여 효과적인 교차검사를 실시하였다. 1차 광선의 탐색을 시작하고 혹은 그림자를 생성하기 위해 부가적인 계산을 하여 픽셀당 쉐이딩 결과를 획득하는데 이때 반사나 굴절의 효과를 위해 2차 광선이 필요할 수도 있게 된다.
각 노드의 정보에 비트 인코딩된 오프셋과 분할 축을 참조하여 해독된 노드의 정보는 광선의 위치와 방향과 함께 사용되어 하향식의 kd-tree 탐색을 진행하게 된다. 광선 세그먼트 [near, far]를 장면의 전체 바운딩 박스에 클리핑 시킨 다음 업데이트를 하면서 왼쪽, 오른쪽 중 어떤 자식노드에 광선이 교차되었는지를 판단하기 위해 탐색구조 안에서 탐색된 노드의 각각에 분할면에 대한 거리(dist)를 계산하여 그 거리를 현재의 광선 세그먼트와 비교하게 된다.
각 단말노드에 ‘rope'라고 불리는 6개의 인접노드에 대한 포인터를 별도로 저장한 뒤, 임의의 단말 노드에 대해 교차된 삼각형이 발견되지 않았을 경우 다음의 인접한 노드 중 교차가 발생된 노드부터 재탐색하도록 하였다.
각 노드의 정보에 비트 인코딩된 오프셋과 분할 축을 참조하여 해독된 노드의 정보는 광선의 위치와 방향과 함께 사용되어 하향식의 kd-tree 탐색을 진행하게 된다. 광선 세그먼트 [near, far]를 장면의 전체 바운딩 박스에 클리핑 시킨 다음 업데이트를 하면서 왼쪽, 오른쪽 중 어떤 자식노드에 광선이 교차되었는지를 판단하기 위해 탐색구조 안에서 탐색된 노드의 각각에 분할면에 대한 거리(dist)를 계산하여 그 거리를 현재의 광선 세그먼트와 비교하게 된다. 광선 세그먼트가 near보다 작거나 far보다 크게 되면 현재 노드들의 하위 트리는 검색할 필요가 없지만 그렇지 않다면 각 노드를 순서대로 탐색하여야 한다.
단말노드의 경우는 전체의 삼각형을 포함하는 인덱스에 대해 4byte를 할당하고 나머지를 각 단말노드당 삼각형의 개수를 저장하도록 하였다. 그리고 탐색 이전에 구축된 트리에 대해서 CUDA에서 조금 더 유용한 array 방식의 접근을 위해서 임의의 하위트리들을 BFS(Breadth First Search) 방식으로 메모리에 연속되게 넣어 트리 전체를 다시 할당했다. 이 방법으로 첫 번째 자식노드를 가리키는 것으로 나머지 자식노드까지 모두 접근할 수 있으므로 캐시 효율을 증가시킬 수 있다.
그러나 동적으로 물체가 움직이거나 변형되는 장면에서는 본 논문에서 사용된 사전연산과 트리의 빌드과정이 탐색의 성능에 치중된 관계로 비교적 느리기 때문에 트리의 업데이트의 효율성의 문제가 발생하였다. 따라서 탐색과 갱신이 모두 가벼운 Surface Area Heuristic 기반의 장면 구축 알고리즘 개발 및 GPU 자체에서 kd-tree를 실시간으로 빌드에 대한 연구를 수행하고 있다.
또한 다른 노드들을 참조하기 위한 별도의 저장공간이 필요치 않으므로 좀 더 복잡한 장면을 로딩하는 데 수월하게 되며 남는 자원은 GPU에서 좀 더 효율적으로 사용될 수 있게 된다. 또한 광선추적의 대부분의 시간이 소요되는 교차검사의 향상을 위해 최신의 Plücker 검사방법을 GPU에서 최적화하여 사용하여 가속화시킴으로서 기존 알고리즘 조합(스택이 없는 kd-tree + projection 메소드)에 비하여 약 두 배 이상의 성능 향상을 도출하였다.
본 논문에서는 CUDA를 이용해 지역 메모리에 스택을 구현하였고 그에 맞는 자료구조 및 가속화 방법을 제안하고 있다. 본 논문의 알고리즘은 별도의 coherency를 이용하는 광선패킷이나 특정한 하드웨어에 대한 자료구조를 요구하는 가속화 방법을 쓰지 않고 병렬 처리시에 발생하는 스레드간에 발생하는 빈번한 동기화를 필요로 하지 않는다. 또한 다른 노드들을 참조하기 위한 별도의 저장공간이 필요치 않으므로 좀 더 복잡한 장면을 로딩하는 데 수월하게 되며 남는 자원은 GPU에서 좀 더 효율적으로 사용될 수 있게 된다.
만약 잘못된 분기를 통해서 교차테스트가 수행이 된다면 실행의 길이에 따라서 경우에 따라서는 심각한 성능저하를 일으킬 수 있기 때문이다. 분기를 발생시키지 않도록 하기 위해서 교차가 발생했을 때의 연산과 교차가 발생하지 않았을 때의 연산에 대한 양쪽의 경우를 추가적인 비트 마스크를 사용하여 논리 비트연산으로 제어하여 잘못된 분기를 막아 커널의 coherency를 유지하였다.
25GB의 메인메모리와 NVIDIA Gefordce 8800GTX를 사용한 PC에서 이루어졌다. 성능 비교를 위해 기존의 스택이 없는 kd-tree 탐색 알고리즘[3]과 projection 메소드 기반[4]의 교차검사 알고리즘을 직접 구현하여 동일한 조건에서 실험하였다.
광선 세그먼트가 near보다 작거나 far보다 크게 되면 현재 노드들의 하위 트리는 검색할 필요가 없지만 그렇지 않다면 각 노드를 순서대로 탐색하여야 한다. 이때 현재 탐색되지 않는 노드에 대한 정보를 push하게 되는데 본 논문에서는 CUDA를 통해 지역메모리에 배열 형식으로 트리의 깊이에 기반한 고정된 사이즈의 읽기/쓰기 가능한 스택을 구현하고 사용하였다. 본 알고리즘은 CPU내에서 수행되는 탐색방법과 매우 비슷하다.
제안하는 탐색 방법은 생성 및 구축에 관한 문제는 포함하지 않으므로 본 실험에서는 생성시간에 대한 평가는 실험하지 않았고 이미 구축된 트리에 대한 성능 검사를 실시하였다. 테스트는 1차 광선에 대해 phong 모델의 쉐이딩을 사용하였다.
삼각형의 edge의 경우 앞서 버텍스의 경우와 마찬가지로 u와 v의 두 개의 인덱스를 이용하여 e₀,e₁에 적용하여 4개의 float (e_u0,e_v0,e_u1,e_v1)만으로 나타낼 수 있게 된다. 추가적으로 법선의 원소 n_u와 n_v가 0이 되는 축에 정렬된 삼각형에 대한 플래그를 표시하도록 하여 적응형의 가벼운 간편한 연산을 수행하도록 한다.

대상 데이터

광선 추적의 성능 검사에 주로 쓰이는 장면을 포함한 몇가지 장면들에 대한 실험 결과 본 논문에서 제안한 방법이 효과적으로 수행됨을 확인 하였다. 본 실험은 Intel Quadcore 3.2Ghz, 3.25GB의 메인메모리와 NVIDIA Gefordce 8800GTX를 사용한 PC에서 이루어졌다. 성능 비교를 위해 기존의 스택이 없는 kd-tree 탐색 알고리즘[3]과 projection 메소드 기반[4]의 교차검사 알고리즘을 직접 구현하여 동일한 조건에서 실험하였다.

데이터처리

<표 2>는 최종적인 시스템의 광선추적 수행능력을 각각 CUDA로 구현하여 결과는 10번의 반복을 통한 평균을 제시하였다. 제안된 시스템은 기존 스택이 없는 kd-tree를 이용한 시스템에 비해서 노드 재방문이나 중복된 바운딩 박스의 교차검사를 하지 않는 단순한 구조로 되어있기 때문에 여분의 자원을 더 많은 CUDA 프레임워크 상에서 쓰레드 동시 수행이나 거대 장면의 렌더링을 지원하기 위해 배분할 수 있으므로 가동이 가능한 멀티 프로세서들이 증가됨에 따라서 성능효율 또한 약 두 배 가까이 증대되었다.

이론/모형

본 논문은 최근 CPU 기반의 광선/삼각형 교차검사 알고리즘인 Plücker 좌표계 검사 알고리즘[8]을 이용하여 구현하였다.
제안하는 탐색 방법은 생성 및 구축에 관한 문제는 포함하지 않으므로 본 실험에서는 생성시간에 대한 평가는 실험하지 않았고 이미 구축된 트리에 대한 성능 검사를 실시하였다. 테스트는 1차 광선에 대해 phong 모델의 쉐이딩을 사용하였다.

성능/효과

<표 1>과 같이 모든 장면에 대하여 제안된 스택기반의 kd-tree가 그래픽스 하드웨어에 제한된 메모리에 적합한 사용량을 보여주고 있다. 노드들을 압축하지 않는 경우에도 3배 이상의 메모리 절감 효과를 보여주고 있기 때문에 좀 더 복잡한 장면의 로딩을 위해서 본 알고리즘이 좀 더 바람직하다고 볼 수 있다.
광선 추적의 성능 검사에 주로 쓰이는 장면을 포함한 몇가지 장면들에 대한 실험 결과 본 논문에서 제안한 방법이 효과적으로 수행됨을 확인 하였다. 본 실험은 Intel Quadcore 3.
제안된 시스템은 기존 스택이 없는 kd-tree를 이용한 시스템에 비해서 노드 재방문이나 중복된 바운딩 박스의 교차검사를 하지 않는 단순한 구조로 되어있기 때문에 여분의 자원을 더 많은 CUDA 프레임워크 상에서 쓰레드 동시 수행이나 거대 장면의 렌더링을 지원하기 위해 배분할 수 있으므로 가동이 가능한 멀티 프로세서들이 증가됨에 따라서 성능효율 또한 약 두 배 가까이 증대되었다. 또한 기존의 교차검사에 비하여 Plücker 기반의 교차검사를 수행하였을 때 10-20% 이상의 추가적인 성능의 향상이 있었다.
<표 2>는 최종적인 시스템의 광선추적 수행능력을 각각 CUDA로 구현하여 결과는 10번의 반복을 통한 평균을 제시하였다. 제안된 시스템은 기존 스택이 없는 kd-tree를 이용한 시스템에 비해서 노드 재방문이나 중복된 바운딩 박스의 교차검사를 하지 않는 단순한 구조로 되어있기 때문에 여분의 자원을 더 많은 CUDA 프레임워크 상에서 쓰레드 동시 수행이나 거대 장면의 렌더링을 지원하기 위해 배분할 수 있으므로 가동이 가능한 멀티 프로세서들이 증가됨에 따라서 성능효율 또한 약 두 배 가까이 증대되었다. 또한 기존의 교차검사에 비하여 Plücker 기반의 교차검사를 수행하였을 때 10-20% 이상의 추가적인 성능의 향상이 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	CUDA 플랫폼에서 제공하는 NVIDA의 하드웨어 스펙에는 무엇이 있는가?	CUDA 플랫폼에서 제공하는 NVIDA의 하드웨어 스펙에는 global, shared, local, register 메모리가 있다. 이중 shared 메모리가 가장 빠르고 한 블록안에 있는 모든 쓰레드들이 접근 가능하기 때문에 유용하게 쓰인다.
	Plucker 검사의 장점은 무엇인가?	또한 탐색구조를 통해서 찾은 말단 삼각형들의 처리를 위해서 최신의 CPU 기반의 교차검사 알고리즘인 Plucker 좌표계 검사를 CUDA로 구현하여 병렬 가속시켰다. Plucker 검사는 기존의 무게중심 좌표 대신에 광선과 삼각형 edge의 관계를 이용하는 간단한 연산만을 이용하는 장점이 있다. 전체 시스템은 단일 커널로 구성되어 있으며 병렬처리를 위한 복잡한 동기화나 광선패킷의 도입 없이 간단하게 구현되었다.
	CUDA 플랫폼에서 제공하는 NVIDA의 하드웨어 스펙 중 shared 메모리에 스택을 만들면 어떤 문제가 있는가?	이중 shared 메모리가 가장 빠르고 한 블록안에 있는 모든 쓰레드들이 접근 가능하기 때문에 유용하게 쓰인다. 그러나 한 블록당 16KB 밖에 되지않는 shared 메모리에 스택을 만들게 되면 가용범위에 문제가 발생하고, 다른 스레드들이 수시로 공유를 요청하고 갱신해버리는 경우가 생기므로 동기화가 필요하며 이 때 너무 많은 동기화 작업은 탐색의 효율성을 절감시키게 된다. 실험을 통해 shared 메모리에 스택을 만들 었을 때 G80 하드웨어의 경우 모든 쓰레드에게 할당된 메모리는 오직 42바이트 뿐이기 때문에 활용할 수 있는 트리의 깊이가 10 밖에 되지 않았다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘
An efficient acceleration algorithm of GPU ray tracing using CUDA 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘 An efficient acceleration algorithm of GPU ray tracing using CUDA 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘
An efficient acceleration algorithm of GPU ray tracing using CUDA 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper