[논문]대용량 자료의 분석을 위한 분할정복 커널 분위수 회귀모형

방성완; 김재오

doi:10.5351/kjas.2020.33.5.569

대용량 자료의 분석을 위한 분할정복 커널 분위수 회귀모형
Divide and conquer kernel quantile regression for massive dataset 원문보기

응용통계연구 = The Korean journal of applied statistics, v.33 no.5, 2020년, pp.569 - 578

초록
AI-Helper

분위수 회귀모형은 반응변수의 조건부 분위수 함수를 추정함으로써 반응변수와 예측변수의 관계에 대한 포괄적인 정보를 제공한다. 특히 커널 분위수 회귀모형은 비선형 관계식을 고려하기 위하여 양정치 커널함수(kernel function)에 의해 만들어지는 재생 커널 힐버트 공간(reproducing kernel Hilbert space)에서 비선형 조건부 분위수 함수를 추정한다. 그러나 KQR은 이차계획법으로 공식화되어 많은 계산비용을 필요로 하므로 컴퓨터 메모리 능력의 제한으로 대용량 자료의 분석은 불가능하다. 이러한 문제점을 해결하기 위하여 본 논문에서는 분할정복(divide and conquer) 알고리즘을 활용한 KQR 추정법(DC-KQR)을 제안한다. DC-KQR은 먼저 전체 훈련자료를 몇 개의 부분집합으로 무작위로 분할(divide)한 후, 각각의 부분집합에 대하여 KQR 분위수 함수를 추정하고 이들의 산술 평균을 이용하여 최종적인 추정량으로 통합(conquer)하는 기법이다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DC-KQR의 효율적인 성능과 활용 가능성을 확인하였다.

Abstract ▼ AI-Helper

By estimating conditional quantile functions of the response, quantile regression (QR) can provide comprehensive information of the relationship between the response and the predictors. In addition, kernel quantile regression (KQR) estimates a nonlinear conditional quantile function in reproducing kernel Hilbert spaces generated by a positive definite kernel function. However, it is infeasible to use the KQR in analysing a massive data due to the limitations of computer primary memory. We propose a divide and conquer based KQR (DC-KQR) method to overcome such a limitation. The proposed DC-KQR divides the entire data into a few subsets, then applies the KQR onto each subsets and derives a final estimator by aggregating all results from subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

주제어

표/그림 (4)

표 Table 3.1. Mean absolute errors (MAE) and computation times as a function of number of partitions K and data size N for the simulated example with 𝛾 = 0:5
그림 Figure 3.1. Mean absolute errors and computing times against data size for the simulated example with 𝛾 = 0:5.
그림 Figure 4.1. Mean absolute errors and computing times against number of partition for the Million Song data.
표 Table 3.2. Mean absolute errors and computation times as a function of number of partitions K and data size N for the simulated example with 𝛾 = 0:9

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 대용량 자료의 분석을 위하여 전체 자료를 분할(divide)한 후 분할된 자료의 추정 결과를 통합(conquer)하는 분할정복 알고리즘(divide and conquer algorithm; DC)이 최근 전통적인 선형 분위수 회귀모형에서 활용되어 추정의 계산 효율을 증대시키는 방법론이 연구되고 있다 (Chen 등, 2018; Jiang 등, 2018; Xu 등, 2020; Chen과 Zhou, 2020). 따라서 본 논문에서는 대용량 자료의 분석을 위하여 분할정복 알고리즘을 활용한 커널 분위수 회귀모형(DC-KQR)과 그 계산 알고리즘을 제안한다.
분할정복 알고리즘은 컴퓨터의 성능 제한으로 대용량 자료의 분석이 전통적인 통계적 방법론으로 불가능 할 때 계산의 효율을 향상시킬 수 있으며, 특히 KQR과 같이 많은 계산 비용을 요구하는 추정법에 매우 효과적으로 적용될 수 있다. 따라서 본 논문에서는 대용량 자료의 분석을 위하여 분할정복 알고리즘을 활용한 커널 분위수 회귀모형(DC-KQR)을 제안한다. 제안한 DC-KQR은 먼저 N개의 전체 훈련자료를 서로 배반인 동일한 크기(n = N/K)의 훈련자료로 구성된 K개의 부분집합으로 무작위로 분할한 후, 각각의 부분집합에 대하여 커널 분위수 회귀함수를 추정하고 이들의 산술 평균을 이용하여 최종적인 추정량으로 통합하는 기법으로 구체적인 알고리즘은 다음과 같다.
특히 반응변수와 설명변수의 비선형 관계식을 고려하는 KQR은 커널함수를 이용하여 비선형 분위수 함수를 보다 정확하게 추정하나, 많은 계산 비용으로 인하여 대용량 자료의 분석에는 그 사용이 제한된다. 따라서 본 논문에서는 대용량 자료의 분석을 위하여 전체 자료를 분할한 후 분할된 자료에서 추정된 분위수 함수들을 통합하는 DC-KQR 추정법을 제안하였다.
본 절에서는 제안한 DC-KQR의 분위수 함수의 추정 정확도와 계산 효율성을 기존의 KQR과 비교하기 위하여 모의실험을 시행하였다. 회귀모형으로는 비선형 함수
본 논문에서 제안하는 DC-KQR 추정법의 유용성을 확인하기 위하여 Bertin-Mahieux 등 (2011)의 Million Song 자료를 분석하였다. 이 자료는 1922년부터 2011년 사이에 발매된 515,345개의 곡에 대한 발매년도와 음색에 관한 90개의 설명변수로 구성되어 있으며, 음색의 정보를 이용하여 발매년도를 추정하는 모형을 구축하는 것이 분석의 목적이다.

가설 설정

을 고려하였으며, 설명변수 x1과 x2는 서로 독립적으로 균등분포 U(−1, 1)를, 오차항 ϵ은 표준정규 분포 N(0, 1)를 따르는 것으로 가정하였다.

제안 방법

논문의 구성은 다음과 같다. 2절에서는 커널 분위수 회귀모형(KQR)에 대하여 간략히 소개하고 계산의 효율을 증대시키기 위하여 분할정복 알고리즘을 활용한 커널 분위수 회귀모형(DC-KQR)을 제안하였다. 3절과 4절에서는 모의실험과 실제자료의 분석을 통해 기존의 KQR과 제안한 DC-KQR의 성능 및 특성을 비교하였으며, 제안한 방법론의 활용가능성을 보였다.
KQR과 제안한 DC-KQR을 이용하여 비선형 함수를 추정하기 위하여 일반적으로 많이 사용되는 가우 시안 커널 함수 K(x, x′) = exp(||x −x ′||2/2σ2)를 사용하였으며, 커널 모수 σ2은 훈련자료의 개체들 간의 유클리드 제곱거리 ||x − x′||2의 중위수를 이용하여 선택하였다 (Caputo 등, 2002).
모형적합(model fitting)은 중위수(median) 함수(τ =0.5)와 90% 분위수 함수(τ = 0.9)를 추정하였으며, 이를 위해 훈련자료(training data)의 크기 N은 N ∈ {28, 29, . . . , 215}을 고려하였고 훈련자료의 균등분할 수 K는 K ∈ {22, 23, . . . , 26}을 고려하였다.
또한 모형의 적합에서 조율모수 λ는 훈련자료를 이용한 5-겹 교차타당법으로 선택하였다. 모형평가를 위해 크기가 51,630인 평가자료를 이용하여 평균절대오차를 계산하였으며, 이러한 절차는 10회 독립 반복시행 하였다. Figure 4.
본 절에서는 먼저 재생 커널 힐버트 공간(RKHS)에서 비선형 분위수 함수를 추정하는 KQR 추정법과 그 계산 알고리즘을 간략히 소개하고, 분할정복 알고리즘을 활용하여 대용량 자료의 분석에서 계산 효율을 향상시키기 위한 분할정복 커널 분위수 회귀모형(DC-KQR)을 제안하기로 한다.
따라서 본 논문에서는 대용량 자료의 분석을 위하여 분할정복 알고리즘을 활용한 커널 분위수 회귀모형(DC-KQR)을 제안한다. 제안한 DC-KQR은 먼저 N개의 전체 훈련자료를 서로 배반인 동일한 크기(n = N/K)의 훈련자료로 구성된 K개의 부분집합으로 무작위로 분할한 후, 각각의 부분집합에 대하여 커널 분위수 회귀함수를 추정하고 이들의 산술 평균을 이용하여 최종적인 추정량으로 통합하는 기법으로 구체적인 알고리즘은 다음과 같다.

대상 데이터

본 논문에서 제안하는 DC-KQR 추정법의 유용성을 확인하기 위하여 Bertin-Mahieux 등 (2011)의 Million Song 자료를 분석하였다. 이 자료는 1922년부터 2011년 사이에 발매된 515,345개의 곡에 대한 발매년도와 음색에 관한 90개의 설명변수로 구성되어 있으며, 음색의 정보를 이용하여 발매년도를 추정하는 모형을 구축하는 것이 분석의 목적이다.

데이터처리

본 실험은 10개의 코어 및 20개의 스레드(thread)를 가진 2.2GHz의 프로세서와 64GB 메모리를 가진 리눅스 환경에서 R 프로그램을 통해 수행되었으며, 식 (2.4)–(2.6)의 최적화 문제는 R 프로그램의 “kernlab” 패키지 (Karatzoglou 등, 2004)에서 제공하는 kqr( ) 함수를 사용하여 계산하였다.

이론/모형

또한 모형의 적합에서 조율모수 λ는 훈련자료를 이용한 5-겹 교차타당법(5-fold cross validation)으로 선택하였다.
또한 모형의 적합에서 조율모수 λ는 훈련자료를 이용한 5-겹 교차타당법으로 선택하였다.
커널함수는 사용의 편의성, 계산의 효율성 및 유연성 등과 같은 장점을 바탕으로 비선형 함수의 추정에 많이 활용되고 있으며, 본 논문에서는 일반적으로 많이 사용되는 가우시안 커널(Gaussian kernel) 함수 K(x, x′) = exp(||x − x′||2/2σ2)를 주로 사용하였다.

성능/효과

2절에서는 커널 분위수 회귀모형(KQR)에 대하여 간략히 소개하고 계산의 효율을 증대시키기 위하여 분할정복 알고리즘을 활용한 커널 분위수 회귀모형(DC-KQR)을 제안하였다. 3절과 4절에서는 모의실험과 실제자료의 분석을 통해 기존의 KQR과 제안한 DC-KQR의 성능 및 특성을 비교하였으며, 제안한 방법론의 활용가능성을 보였다. 마지막으로 5절에서는 결론과 더불어 차후 연구방향을 제시하였다.
특히 균등분할 수 K ≤ 2⁴일 때 DCKQR의 추정 정확도는 다소 안정적인(stable) 경향을 나타내었으며, 훈련자료의 크기 N ≥ 2¹²일 때는 균등분할 수 K = 2⁶에서도 수용 가능한 추정 정확도의 성능을 나타내었다. 또한 예상한 바와 같이 균등 분할된 부분집합의 훈련자료의 수 n (= N/K)이 동일할 때 균등분할 수 K가 클수록 추정의 정확도가 높게 나타나고 있으며, 이러한 결과는 데이터 스트림(stream)의 형태로 수집되는 대용량 자료의 분석에서 제안한 DC-KQR의 활용 가능성을 보여주고 있다. 나아가 균등 분할된 K개의 부분집합에 대하여 분위수 함수의 추정을 병렬처리하게 되면 계산 속도를 더욱 향상시킬 수 있을 것으로 기대한다.
모의실험과 실제자료 분석을 통해 균등분할 수 K가 증가함에 따라 제안한 DC-KQR의 추정 정확도는 다소 감소하는 반면, DC-KQR의 계산 속도는 현저히 향상되어 대용량 자료의 분석에 적용 가능한 것을 알 수 있다. 특히 균등 분할된 부분집합의 훈련자료의 수가 동일할 때에는 균등분할 수 K가 클수록 추정의 정확도가 높게 나타났으며, 이로부터 제안한 DC-KQR은 데이터 스트림의 형태로 수집되는 대용량 자료의 분석에서 활용될 수 있을 것으로 판단된다.
1은 평균절대오차와 모형적합에 소요되는 계산 시간의 평균값을 나타내고 있다. 예상한 바와 같이 균등분할 수 K가 증가함에 따라 DC-KQR의 평균절대오차는 다소 증가하지만, DC-KQR의 계산 속도는 현저히 감소되는 것을 확인할 수 있다. 균등분할 수 K = 2⁷에서의 계산 시간이 K = 2⁶에서 보다 크게 소요된 것은 하나의 컴퓨터로 균등분할 된 부분집합의 반복 추정으로 인한 것으로 병렬처리 환경에서는 균등분할 수 K가 증가할수록 계산 시간이 더욱 향상될 것이다.
특히 균등 분할된 부분집합의 훈련자료의 수가 동일할 때에는 균등분할 수 K가 클수록 추정의 정확도가 높게 나타났으며, 이로부터 제안한 DC-KQR은 데이터 스트림의 형태로 수집되는 대용량 자료의 분석에서 활용될 수 있을 것으로 판단된다. 이처럼 본 논문의 모의실험과 실제자료 분석에서는 DC-KQR 추정법의 성능(추정량의 평균절대오차와 계산시간)이 균등분할 수 K에 따라 달라지는 것을 확인하였다. 따라서 차후에는 자료의 특성에 따라 적합한 균등분할 수 K를 결정하는 방법론이 개발되기를 기대해 본다.
특히 균등분할 수 K ≤ 24일 때 DCKQR의 추정 정확도는 다소 안정적인(stable) 경향을 나타내었으며, 훈련자료의 크기 N ≥ 212일 때는 균등분할 수 K = 26에서도 수용 가능한 추정 정확도의 성능을 나타내었다.

후속연구

또한 예상한 바와 같이 균등 분할된 부분집합의 훈련자료의 수 n (= N/K)이 동일할 때 균등분할 수 K가 클수록 추정의 정확도가 높게 나타나고 있으며, 이러한 결과는 데이터 스트림(stream)의 형태로 수집되는 대용량 자료의 분석에서 제안한 DC-KQR의 활용 가능성을 보여주고 있다. 나아가 균등 분할된 K개의 부분집합에 대하여 분위수 함수의 추정을 병렬처리하게 되면 계산 속도를 더욱 향상시킬 수 있을 것으로 기대한다. 90% 분위수 함수(τ = 0.
이처럼 본 논문의 모의실험과 실제자료 분석에서는 DC-KQR 추정법의 성능(추정량의 평균절대오차와 계산시간)이 균등분할 수 K에 따라 달라지는 것을 확인하였다. 따라서 차후에는 자료의 특성에 따라 적합한 균등분할 수 K를 결정하는 방법론이 개발되기를 기대해 본다.
6)의 최적화 문제는 R 프로그램의 “kernlab” 패키지 (Karatzoglou 등, 2004)에서 제공하는 kqr( ) 함수를 사용하여 계산하였다. 본 논문에서 사용한 DC-KQR 추정법에 대한 R 코드는 차후 연구에 도움이 되도록 요청 시 제공할 것이다. Table 3.
모의실험과 실제자료 분석을 통해 균등분할 수 K가 증가함에 따라 제안한 DC-KQR의 추정 정확도는 다소 감소하는 반면, DC-KQR의 계산 속도는 현저히 향상되어 대용량 자료의 분석에 적용 가능한 것을 알 수 있다. 특히 균등 분할된 부분집합의 훈련자료의 수가 동일할 때에는 균등분할 수 K가 클수록 추정의 정확도가 높게 나타났으며, 이로부터 제안한 DC-KQR은 데이터 스트림의 형태로 수집되는 대용량 자료의 분석에서 활용될 수 있을 것으로 판단된다. 이처럼 본 논문의 모의실험과 실제자료 분석에서는 DC-KQR 추정법의 성능(추정량의 평균절대오차와 계산시간)이 균등분할 수 K에 따라 달라지는 것을 확인하였다.

참고문헌 (28)

Bang, S., Eo, S-H., Cho, Y., Jhun, M., and Cho, H. (2016). Non-crossing weighted kernel quantile regression with right censored data, Lifetime Data Analysis, 22, 100-121.

상세보기
Bang, S. and Shin, S. (2016). A comparison study of multiple linear quantile regression using non-crossing constraints, The Korean Journal of Applied Statistics, 29, 773-786.
Bertin-Mahieux, T., Ellis, D., Whitman, B., and Lamere, P. (2011). The million song dataset, In Proceedings of the 12th International Conference on Music Information Retrieval(IS-MIR).
Caputo, B., Sim, K., Furesjo, F., and Smola, A. (2002). Appearance-based object recognition using SVMs: Which kernel should I use?. In Proceedings of INPS workshop on Statistical methods for computational Experiments in Visual Processing and Computer Vision, 149-158.
Chen, X., Liu, W., and Zhang, Y. (2018). Quantile regression under memory constraint, arXiv preprint arXiv:1810.08264.
Chen, L. and Zhou, Y. (2020). Quantile regression in big data: A divide and conquer based strategy, Computational Statistics and Data Analysis, 144, 1-17.
Chen, X., and Xie, M. G. (2014). A split-and-conquer approach for analysis of extraordinarily large data, Statistica Sinica, 24, 1655-1684.

상세보기
Cole, T. and Green, P. (1992). Smoothing Reference Centile Curves: The LMS Method and Penalized Likelihood, Statistics in Medicine, 11, 1305-1319.

상세보기
Dhillon, I., Guan, Y., and Kulis, B. (2004). Kernel k-means, spectral clustering and normalized cuts, KDD 2004, 551-556.
Fan, T., Lin, D., and Cheng, K. (2007). Regression analysis for massive datasets, Data and Knowledge Engineering, 61, 554-562.

상세보기
Heagerty, P. and Pepe, M. (1999). Semiparametric Estimation of Regression Quantiles with Application to Standardizing Weight for Height and Age in U.S. Children, The Journal of the Royal Statistical Society, Series C (Applied Statistics), 48, 533-551.

상세보기
Jiang, R., Hu, X., Yu, K., and Qian, W. (2018). Composite quantile regression for massive datasets, Statistics, 52, 980-1004.

상세보기
Kang, J. and Jhun, M. (2020). Divide-and-conquer random sketched kernel ridge regression for large-scale data, Journal of the Korean Data & Information Science Society, 31, 15-23.
Karatzoglou, A., Smola, A., Hornik, K., and Zeileis, A. (2004). kernlab-An S4 package for kernel methods in R, Journal of Statistical Software, 11, 1-20.
Kimeldorf, G. and Wahba, G. (1971). Some results on Tchebycheffian spline functions, Journal of Mathematical Analysis and Applications, 33, 82-95.

상세보기
Koenker, R. and Bassett, G. (1978). Regression quantiles, Econometrica, 4, 33-50.
Koenker, R. and Geling, R. (2001). Reappraising Medfly Longevity: A Quantile Regression Survival Analysis, Journal of the American Statistical Association, 96, 458-468.

상세보기
Koenker, R. and Hallock, K. (2001). Quantile Regression, Journal of Economic Perspectives, 15, 143-156.

상세보기
Li, Y., Liu, Y., and Zhu, J. (2007). Quantile regression in reproducing kernel Hilbert spaces, Journal of the American Statistical Association, 102, 255-268.

상세보기
Li, Y. and Zhu, J. (2008). L1-norm quantile regression, Journal of Computational and Graphical Statistics, 17, 1-23.
Lin, N. and Xi, R. (2011). Aggregated estimating equation estimation, Statistics and Its Interface, 4, 73-83.
Powell, D. and Wagner, J. (2014). The exporter productivity premium along the productivity distribution: evidence from quantile regression with nonadditive firm fixed effects, Review of World Economics, 150, 763-785.

상세보기
Vapnik, V. N. (1998). Statistical Learning Theory, Wiley, New York.
Wang, H. and He, X. (2007). Detecting differential expressions in genechip microarray studies: A quantile approach, Journal of the American Statistical Association, 102, 104-112.

상세보기
Wu, Y. and Liu, Y. (2009). Stepwise multiple quantile regression estimation using non-crossing constraints, Statistics and Its Interface, 2, 299-310.

상세보기
Xu, Q., Cai, C., Jiang, C., Sun, F., and Huang, X. (2020). Block average quantile regression for massive dataset, Statistical Papers, 61, 141-165.

상세보기
Yang, H. and Liu, H. (2016). Penalized weighted composite quantile estimators with missing covariates, Statistical Papers, 57, 69-88.

상세보기
Zhang, Y., Duchi, J., andWainwright, M. (2015). Divide and conquer kernel ridge regression: A distributed algorithm with minimax optimal rates, Journal of Machine Learning Research, 16, 3299-3340.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증