[논문]평활량 선택문제 측면에서 본 중첩병렬화 상황에서 병렬처리 포인트선택

조가영; 노호석

doi:10.5351/kjas.2018.31.3.383

평활량 선택문제 측면에서 본 중첩병렬화 상황에서 병렬처리 포인트선택
Parallelism point selection in nested parallelism situations with focus on the bandwidth selection problem 원문보기

응용통계연구 = The Korean journal of applied statistics, v.31 no.3, 2018년, pp.383 - 396

조가영 (숙명여자대학교 통계학과) , 노호석 (숙명여자대학교 통계학과, 자연과학연구소)

초록
AI-Helper

빅데이터의 시대가 열림에 따라 데이터의 빠른 처리와 분석을 위한 방법의 하나로 R 프로그램 기반의 다양한 병렬처리 패키지가 사용되고 있다. 병렬처리는 수행하려는 작업이 상호의존적이지 않은 작업들로 분해될 수 있을 때 사용하게 되는데, 경우에 따라서는 병렬처리를 위해 분해된 각각의 작업들이 또 다시 상호의존적이지 않은 세부작업으로 분해되기도 한다. 이러한 중첩병렬화 상황에서는 일반적으로 처음 단계에서 분해된 작업들에 대해 병렬처리를 할지, 두 번째 단계에서 세분화되는 작업들에 대해 병렬처리를 할지 선택하게 된다. 그러한 선택이 계산 속도에 상당한 영향을 주는 경우가 많기 때문에 수행하고자 하는 작업의 상황에 따라 병렬처리를 실시할 곳을 잘 결정하는 것이 중요하다. 본 논문에서는 이러한 병렬화 포인트 선택이라는 문제에 대한 이해를 돕고 자신의 문제에 효과적으로 병렬컴퓨팅을 적용하려는 사람들에게 필요한 아이디어를 제공하려는 시도의 하나로 비모수적 함수 추정의 평활량 선택이라는 구체적인 통계문제에 대해 효율적인 계산을 위한 병렬화 포인트 선택 과정을 제시하였다.

Abstract ▼ AI-Helper

Various parallel processing R packages are used for fast processing and the analysis of big data. Parallel processing is used when the work can be decomposed into tasks that are non-interdependent. In some cases, each task decomposed for parallel processing can also be decomposed into non-interdependent subtasks. We have to choose whether to parallelize the decomposed tasks in the first step or to parallelize the subtasks in the second step when facing nested parallelism situations. This choice has a significant impact on the speed of computation; consequently, it is important to understand the nature of the work and decide where to do the parallel processing. In this paper, we provide an idea of how to apply parallel computing effectively to problems by illustrating how to select a parallelism point for the bandwidth selection of nonparametric regression.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서 통계처리를 위한 흔한 환경(multi-processor, windows)에서 병렬처리를 하려고 할 때 발생할 수 있는 병렬화 포인트 선택이라는 이슈를 비모수 함수추정의 평활량 선택이라는 예제를 통해 살펴보았다. 일반적으로 병렬처리를 위해 분해된 각각의 작업들이 또 다시 상호의존적이지 않은 세부작업으로 분해되는 경우, 처음 단계에서 분해된 작업들에 대해 병렬처리를 하는 것이 두 번째 단계에서 추가적으로 분해되는 상대적으로 크기가 더 작은 작업들에 대해 병렬처리를 하는 것보다 계산효율면에서 더 좋다고 알려져 있다.
따라서 자료의 수가 증가함에 따라 계산량이 자료의 수에 제곱에 비례하여 증가하게 된다. 본 논문에서는 GCV값을 이용하여 평활량을 선택하는 것을 고려하고자 한다.
본 논문에서는 위의 여러 패키지 중 가장 잘 알려져 있고 모든 OS 환경에서 사용할 수 있는 snow 패키지를 중심으로 설명하고자 한다
따라서 수행하고자 하는 작업의 상황에 맞게 병렬처리를 실시할 곳을 잘 결정하는 것이 계산속도 향상에 중요하다. 본 논문에서는 이러한 병렬화 포인트 선택이라는 문제에 대한 이해를 돕고 자신의 문제에 효과적으로 병렬컴퓨팅을 적용하려는 사람들에게 필요한 아이디어를 제공하려는 시도의 하나로 비모수적 함수 추정의 평활량(bandwidth) 선택이라는 구체적인 통계 문제에 대해 효율적 병렬처리를 위한 병렬화 포인트 선택과정을 제시하였다.
통계분석을 위한 병렬컴퓨팅은 크게는 한 대의 컴퓨터 안에 있는 멀티코어 프로세서를 이용한 병렬 컴퓨팅 환경과 여러 대의 컴퓨터를 하나의 클러스터(cluster)로 묶음으로서 실시되는 병렬컴퓨팅 환경에서 주로 실시된다고 할 수 있다. 본 논문에서는 한 대의 컴퓨터 안에 있는 멀티코어 프로세서를 이용한 병렬 컴퓨팅 환경이 보다 흔히 접하는 통계분석을 위한 컴퓨팅 환경임을 고려하여 그러한 환경에서의 병렬컴퓨팅을 주 논의의 대상으로 하고자 한다. 병렬 처리는 마스터(master), 워커(worker) 구조를 통해 이해될 수 있다.
본 절에서는 3절에서 소개한 GCV값을 이용한 비모수 함수추정의 평활량 선택문제에 병렬컴퓨팅을 적용할 때 병렬처리를 적용할 포인트에 따라 계산시간이 어떻게 달라지는지를 확인하고자 한다. GCV값을 이용한 평활량 선택은 기본적으로 평활량 후보 값들의 리스트 {h₁, .
본 절에서는 본 논문에서 병렬처리의 활용 예제로 고려하는 비모수 회귀함수의 평활량 선택문제에 대해 설명하고자 한다. 두 변수 X, Y 의 관계를 파악하기 위해 조건부 평균함수 m(x) = E(Y |X = x)를 자료로부터 추정하는 것을 일반적으로 회귀함수 추정이라고 한다.
이 절에서는 병렬처리의 개념을 설명하고 멀티코어 프로세서 환경에서 사용할 수 있는 병렬컴퓨팅을 위한 R 패키지를 소개하고자 한다.

제안 방법

로 주어지는 모형으로부터 얻어진 각각 자료의 수 n이 200, 400, 600, 800, 1000인 자료를 생성하였다. 주어진 자료로부터 회귀함수를 비모수적으로 추정하기 위한 평활량 h를 0.05부터 3까지 등간격의 16개의 그리드 포인트에서 GCV방법에 근거하여 선택하는 상황을 고려하였다.
가중치를 부여하는 방식은 커널함수에 의해 결정된다. 커널 함수는 Epanechnikov 커널, triangular 커널, normal 커널, uniform 커널, Laplace 커널 등이 있으며 본 논문에서는 normal 커널함수를 사용하였다.

대상 데이터

병렬화 포인트 선택에 따라 계산성능이 어떻게 차이가 나게 되는지를 파악하기 위해 평균회귀분석에서 Xi가 구간 [0, 6]에서의 균일분포, 오차 ϵ_i가 표준정규분포를 따르고 Yi = 3 sin(X_i) + ϵ_i로 주어지는 모형으로부터 얻어진 각각 자료의 수 n이 200, 400, 600, 800, 1000인 자료를 생성하였다. 주어진 자료로부터 회귀함수를 비모수적으로 추정하기 위한 평활량 h를 0.

데이터처리

60GHz(×²⁾이며 메모리는 256GB였다. 전체 56개의 core 중에 최대 4개까지의 core를 사용하여 병렬계산을 수행하였다.

이론/모형

회귀함수를 추정할 때 특정한 회귀함수의 형태를 가정하지 않고 데이터로부터 직접 회귀함수를 추정하는 방법을 비모수적 회귀함수 추정법이라고 한다. 비모수적 회귀함수 추정법에는 스플라인(spline) 방법, 국소다항식(local polynomial) 방법, 웨이블렛(wavelet) 방법 등이 있는데 본 논문에서는 국소다항회귀를 이용한 회귀함수 추정에 병렬 처리를 활용하고자 한다. 국소다항회귀란 회귀함수를 추정하고자 하는 목표점에서 가까운 자료에 가중치를 더 많이 주어 국소적으로 다항식을 적합함으로써 목표점에서 회귀함수 값을 계산하는 방법이다.
따라서 병렬처리를 실시하기 위해서는 워커에 필요한 R library를 loading시켜 놓거나 데이터 개체, 함수 등을 마스터에서부터 각각의 워커로 전달하는 워커 설정 작업이 필요하다. 워커에서 필요한 R 패키지를 loading하는데는 clusterEvalQ 함수를 사용하며, 각 워커에서 필요한 연산에 필요한 데이터 개체를 마스터로부터 워커에 전송하는 것은 clusterExport 함수를 사용한다.

성능/효과

(4) snowFT: Hana Sevˇc´ıkov´a ˇ 와 Anthony Rossini에 의해 개발한 snowFT는 snow의 기능을 확장한 R 패키지로 병렬 컴퓨팅에 있어서 난수의 재현성을 보장한 특징이 있다.
그 뿐 아니라 자료의 수가 상대적으로 적을 때에는 Ri(h)를 계산하는데 소요되는 시간이 매우 짧기 때문에 워커에 작업을 할당하자마자 거의 동시에 작업이 완료되어워커들이 작업을 할당받기 위해 대기하는 상황이 매우 빈번하게 발생하여 각각의 워커에 작업을 배분하고 수행결과를 받는 것이 비효율적으로 진행되게 된다. 그 결과 자료의 수가 적을 때에는 Ri(h) 병렬처리 방식이 GCV(h) 병렬처리 방식보다 계산시간 면에서 상당히 비효율적인 방식으로 나타났다.
하지만, 평활량 선택 예제에서 알 수 있는 것은 그러한 선택이 항상 효율적인 선택이 아니라는 것이다. 두번째 단계에서 세분화되는 작업의 크기가 매우 작은 경우에는 마스터,워커 사이의 통신로드등을 고려할 때 그러한 선택이 적절한 선택이지만, 두 번째 단계에서 분해되는 작업의 크기가 증가함에 따라 두 병렬화 포인트 처리 방식에 따른 계산시간의 차이가 줄어드는 것을 확인할 수 있었다. 또한, 두 번째 세분화되는 작업의 크기가 어느 정도 커지게 되면 첫 번째 단계에서 병렬화하려는 작업들이 상당한 계산 소요시간을 요구하는 작업이 되게 되는데 그러한 경우는 각 워커에게 균일하게 작업을 할당하는 것이 어려워지는 면이 있어 효율적인 병렬처리가 되지 않을 수 있는 단점이 생긴다.
1은 평균회귀 분석의 평활량 선택을 위해 각각의 평활량에 대해 GCV(h)값을 계산하는 부분에 병렬 처리를 했을 때와 평활량이 주어져있을 때 각각의 자료에 대한 Ri(h)값을 계산하는 부분에 병렬처리를 했을 때 자료의 수에 따라, 워커의 수에 따라 어떻게 계산시간의 차이가 났는지를 보여주고 있다. 참고로 평활량 선택을 위한 핵심 계산은 크게 L 행렬의 계산에 필요한 행렬 생성과 L 행렬의 계산수행 두 부분으로 나눌 수 있는데 후자의 계산이 계산시간의 대부분을 차지하는 것으로 나타났다. 각 셀에 표시된 값은 주어진 조건하에서의 계산시간을 100번 반복 측정한 것에 대한 평균값이며 괄호안의 값은 반복 측정된 계산시간의 표준편차이다.
하지만 자료의 수가 커져서 고정된 평활량에 대해 Ri(h)를 계산하는 것이 약간의 계산시간이 걸리는 작업이 되면 자료의 수가 적었을 때 나타났던 각 워커에 작업을 부여하자 작업이 종료되어 작업을 다시 할당해야 하는 상황이 발생함으로써 생기는 마스터·워커 통신상의 비효율성이 개선됨에 따라 Ri(h) 병렬처리 방식과 GCV(h) 병렬처리 방식의 계산시간 차이가 줄어드는 것으로 나타났다.
자료의 수가 800개가 되었을 때부터는 병렬처리 포인트 차이에 따라 계산시간의 유의미한 차이가 나타나지 않았다. 흥미로운 것은 자료의 수가 매우 커져서 1,000개가 되었을 때에는 근소하기 하지만 Ri(h) 병렬처리 방식이 GCV(h) 병렬처리 방식보다 계산시간이 덜 걸리는 것으로 나타났다. 또한, 계산시간의 표준편차도 Ri(h) 병렬처리 방식이 GCV(h) 병렬처리 방식보다 훨씬 작은 것을 볼 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	빅데이터란 무엇인가?	기술 발전에 따른 디지털화의 급진전으로 인해 많은 정보들이 지속적으로 축적되면서 빅데이터의 시대가 열렸다. 빅데이터는 기존의 데이터베이스 관리도구의 한계를 넘어서는 대량의 정형데이터 또는 데이터베이스 형태가 아닌 비정형 데이터의 집합을 의미한다. 빅데이터 시대가 열림에 따라 데이터의 빠른 처리와 분석을 위한 다양한 연구가 매우 활발히 진행되고 있다.
	병렬처리는 언제 사용하는가?	빅데이터의 시대가 열림에 따라 데이터의 빠른 처리와 분석을 위한 방법의 하나로 R 프로그램 기반의 다양한 병렬처리 패키지가 사용되고 있다. 병렬처리는 수행하려는 작업이 상호의존적이지 않은 작업들로 분해될 수 있을 때 사용하게 되는데, 경우에 따라서는 병렬처리를 위해 분해된 각각의 작업들이 또 다시 상호의존적이지 않은 세부작업으로 분해되기도 한다. 이러한 중첩병렬화 상황에서는 일반적으로 처음 단계에서 분해된 작업들에 대해 병렬처리를 할지, 두 번째 단계에서 세분화되는 작업들에 대해 병렬처리를 할지 선택하게 된다.
	중첩병렬화 상황에서 계산 속도에 상당한 영향을 주는 경우는?	병렬처리는 수행하려는 작업이 상호의존적이지 않은 작업들로 분해될 수 있을 때 사용하게 되는데, 경우에 따라서는 병렬처리를 위해 분해된 각각의 작업들이 또 다시 상호의존적이지 않은 세부작업으로 분해되기도 한다. 이러한 중첩병렬화 상황에서는 일반적으로 처음 단계에서 분해된 작업들에 대해 병렬처리를 할지, 두 번째 단계에서 세분화되는 작업들에 대해 병렬처리를 할지 선택하게 된다. 그러한 선택이 계산 속도에 상당한 영향을 주는 경우가 많기 때문에 수행하고자 하는 작업의 상황에 따라 병렬처리를 실시할 곳을 잘 결정하는 것이 중요하다.

참고문헌 (5)

James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to Statistical Learning with Applications in R, Springer-Verlag, New York.
Park, Y. M., Ko, Y. J., and Kim, J. S. (2012). R Packages for parallel computing and their performance evaluation. Journal of the Korean Data Analysis Society, 14, 1951-1961.
Rossini, A., Tierney, L., and Li, N. (2003). Simple parallel statistical computing in R, Technical Report.
Schmidberger, M., Morgan, M., Eddlebuettel, D., Yu, H., Tierney, L., and Mansmann, U. (2009). State of the art in parallel computing with R, Journal of Statistical Software, 31, 1-27.
Sevcikova, H. and Rossini, A. J. (2004). Pragmatic parallel computing, Technical Report.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증