[논문]대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법

서한손

doi:10.5351/kjas.2018.31.4.463

대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법
Fast robust variable selection using VIF regression in large datasets 원문보기

응용통계연구 = The Korean journal of applied statistics, v.31 no.4, 2018년, pp.463 - 473

초록
AI-Helper

연구에서는 선형회귀모형을 가정한 대형 데이터에서의 변수선택 알고리즘을 다룬다. 방법의 속도와 강건성에 주안점을 둔 여러 알고리즘들이 제안되었다. 그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다. 본 연구에서는 잠재적 이상치를 탐지하여 제거한 후 VIF회귀를 수행하는, 빠르고 강건한 변수선택 방법을 제안한다. 제안된 방법은 모의실험과 데이터 분석 통해 다른 방법들과 비교된다.

Abstract ▼ AI-Helper

Variable selection algorithms for linear regression models of large data are considered. Many algorithms are proposed focusing on the speed and the robustness of algorithms. Among them variance inflation factor (VIF) regression is fast and accurate due to the use of a streamwise regression approach. But a VIF regression is susceptible to outliers because it estimates a model by a least-square method. A robust criterion using a weighted estimator has been proposed for the robustness of algorithm; in addition, a robust VIF regression has also been proposed for the same purpose. In this article a fast and robust variable selection method is suggested via a VIF regression with detecting and removing potential outliers. A simulation study and an analysis of a dataset are conducted to compare the suggested method with other methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

대형 데이터의 변수선택법 중 강건성과 신속성 측면에서 제안된 VIF회귀, FRFS, 강건 VIF회귀의 모형추정과정에 대하여 소개 한다.
본 연구에서는 대형 데이터의 변수선택 문제에서 강건성과 신속성을 고려하여 stagewise 회귀와 α-알고리즘이 수행되면서 한 번의 이상치 탐지절차만 추가되는 방법을 제안하였다. 강건성의 관점에서 단계별로 이상치를 탐지하는 방법을 고려해 볼 수 있으나 대형데이터의 경우 계산량의 문제가 발생할 수 있다.

제안 방법

1. Out-of-sample mean absolute prediction errors of the models estimated by fast VIF and robust VIF regression, and outlier-detect VIF regression. Simulated data have n = 1000 cases with p including k = 5 target regressors, and θ, correlation among target regressors; a: (p = 100, θ = 0.
Lin 등 (2011)과 Dupuis와 Victoria-Feser (2011, 2013)이 제안한 분산팽창계수(variance inflation factor; VIF) 회귀법은 모형평가과정에서 stagewise 회귀를 설정하여 변수들의 주변상관(marginal correlation)에 의해서 각 단계의 모형을 평가한다. 따라서 Lasso와 least angle regression (LARS)처럼 변수들의 다중공선성에 의한 추정치의 편기가 발생하지만 추정된 VIF로 이를 수정한다. VIF회귀법에서는 stagewise 회귀를 통해 고려된 변수의 선택여부를 α-investing 알고리즘으로 결정한다.
본 연구에서 제안한 방법은 속도와 강건성 측면에서 다른 방법들과 비교될 수 있으나 본 연구에서 제안한 방법과 계산량에 큰 차이가 없는 VIF회귀방법이 강건 VIF회귀방법이나 FRFS 방법보다 신속하므로 (Dupuis와 Victoria-Feser, 2013) 방법들 간 속도 비교는 생략한다. 또한 강건성 측면에서 강건 VIF회귀방법이 FRFS 방법보다 우수하므로 (Dupuis와 Victoria-Feser, 2013) 본 연구에서는 이상치제거 VIF회귀방법, VIF회귀방법, 강건 VIF회귀방법간 강건성을 비교하기로 한다.
본 논문에서 제시하는 방법은 VIF회귀 방법에서 VIF추정을 위해 추출되는 표본의 대상을 이상치가 제거된 데이터로 제한하는 것이다. 극단치 탐지는 각 단계에서 모형에 포함되는 변수의 구성에 따라 결과가 달라질 수 있다 (Hadi와 Simonoff, 1993).
Fan과 Lv (2008)는 고차원 데이터의 변수선택 문제에서 모형에 포함될 가능성이 낮은 변수들을 일차적으로 탐지, 제거하는 방법을 제시하였다. 본 논문에서 제안하는 신속하고 강건한 변수선택 방법은 대형자료에 존재하는 극단치를 제거한 후 VIF회귀를 수행하는 것이다.
본 논문에서는 신속하게 수행되고 이상치에 강건한 변수선택 방법으로써, VIF회귀법에서 강건추정치를 사용하는 대신 잠재적인 이상치를 탐지하여 분석에서 제외하는 사전심사(pre-screening)과정을 제안한다. 또한 변수선택과정의 신속성을 위해 streamwise 절차와 간편한 이상치 탐지 방법을 적용한다.
본 연구에서 제안된 변수선택방법과 기존의 VIF회귀, 강건 VIF회귀의 강건성을 비교하기 위하여 모의 실험을 수행한다. 모의실험은 Dupuis와 Victoria-Feser (2013)에서 수행된 실험과유사하게 설계된다.
본 연구에서 제안한 방법은 속도와 강건성 측면에서 다른 방법들과 비교될 수 있으나 본 연구에서 제안한 방법과 계산량에 큰 차이가 없는 VIF회귀방법이 강건 VIF회귀방법이나 FRFS 방법보다 신속하므로 (Dupuis와 Victoria-Feser, 2013) 방법들 간 속도 비교는 생략한다. 또한 강건성 측면에서 강건 VIF회귀방법이 FRFS 방법보다 우수하므로 (Dupuis와 Victoria-Feser, 2013) 본 연구에서는 이상치제거 VIF회귀방법, VIF회귀방법, 강건 VIF회귀방법간 강건성을 비교하기로 한다.
실험 데이터에서 각 변수선택방법을 사용하여 최종 추정된 모형을 크기 n = 1000의 또 다른 실험 데이터에 적용하여 방법의 효율성을 측정한다. 효율성의 측도는 강건측도인 절대예측오차 중위수(median absolute prediction error; MAPE)를 사용한다.

대상 데이터

각 단계에서 극단치 탐지과정을 수행하면 정확성이 높아지는 반면 대형 자료의 경우 계산량이 과도하게 커진다. 본 연구에서는 모든 변수가 포함된 모형에서 각 관찰치별 t-검정을 통해 표본의 대상이 되는 데이터 집단을 구성하고 이 집단을 전 단계의 표본대상으로 사용한다. 따라서 기존의 VIF회귀에 한 번의 모형추정 과정이 추가되므로 계산량은 큰 변화가 없다.
실험의 횟수는 총 200번이고 각 데이터의 크기는 n = 1000이며 설명변수의 크기는 p = 100과 p = 1000이다. 실제모형에 포함되는 변수의 크기는 k = 5로 고정하고 그들 간의 상관관계를 나타내는 θ = 0.
자료 변수선택 방법을 실제 데이터에 적용하는 예제로서 Boston housing 자료 (Harrison과 Rubinfeld, 1978)를 사용하기로 한다. 1970년 인구조사의 결과인 Boston housing 자료는 보스턴 인근 주택가격의 중앙값과 이에 영향을 미치는 13개의 변수를 포함하고 있고 관찰치의 크기는 506개이다 (n = 506, p = 13).

이론/모형

본 논문에서는 신속하게 수행되고 이상치에 강건한 변수선택 방법으로써, VIF회귀법에서 강건추정치를 사용하는 대신 잠재적인 이상치를 탐지하여 분석에서 제외하는 사전심사(pre-screening)과정을 제안한다. 또한 변수선택과정의 신속성을 위해 streamwise 절차와 간편한 이상치 탐지 방법을 적용한다.
P₃는 선택된 변수들 중에 실제모형에 포함되지 않은 변수가 포함된 비율, 즉 수렁현상(swamping phenomenon)이 발생한 비율이다. 비교대상의 세 가지 변수추출방법은 표와 그림에서 FastVIF, RobVIF, OutdVIF로 표기되며 각각 Lin 등 (2011)이 제안한 VIF 방법, Dupuis와 Victoria-Feser (2013)의 강건 VIF 방법, 본 연구에서 제안한 이상치 제거후 VIF 방법을 나타낸다.
Dupuis와 Victoria-Feser (2013)는 그들이 제안한 FRFS 방법의 속도를 높이기 위하여 부표본(subsampling)을 사용할 수 있지만 대형데이터의 경우 계산량이 여전히 문제가 될 수 있음을 지적하면서 VIF회귀를 응용한 강건 신속 변수선택법을 제안하였다. 이 방법은 VIF회귀 과정에서 강건추정법으로 모형을 추정하여 다중공선성과 이상치에 대비하고 변수선택에서는 FRFS에서 사용한 t-검정통계량과 유사한 강건검정통계량을 사용한다. Dupuis와 Victoria-Feser (2013)는 VIF회귀법, FRFS, 강건 VIF회귀법들을 이행속도와 변수선택의 유효성 측면에서 비교하였다.
실험 데이터에서 각 변수선택방법을 사용하여 최종 추정된 모형을 크기 n = 1000의 또 다른 실험 데이터에 적용하여 방법의 효율성을 측정한다. 효율성의 측도는 강건측도인 절대예측오차 중위수(median absolute prediction error; MAPE)를 사용한다.

성능/효과

강건성의 관점에서 단계별로 이상치를 탐지하는 방법을 고려해 볼 수 있으나 대형데이터의 경우 계산량의 문제가 발생할 수 있다. 모의실험과 예제를 통해 본 연구에서 제안한 이상치 제거를 통한 변수선택방법은 기존의 강건추정법에 의한 변수선택방법보다 더 효율적이라는 것을 알 수 있다. 변수선택의 변수절차로 적용된 α-알고리즘에서 각종 모수에 대한 최적값은 여전히 해결해야 할 문제이며 많은 변수를 포함하는 대형데이터의 변수선택 문제에 대비하여 본 연구에서 제안한 이상치에 관련된 사전선별작업을 관찰치 뿐만 아니라 설명변수에도 동시에 적용하는 이차원 사전선별 과정을 추후에 연구해 볼 수 있다.
3은 일차선형모형 가정 아래 100회의 무작위 순서에 의해 변수선택법을 수행한 결과 각 변수마다 선택된 횟수를 나타낸다. 세 방법에서 공통적으로, 모든 시행에서 선택되는 변수는 ptratio, rm 이다. 다른 방법에 비해 OutdVIF는 crim, indus, zn변수를 상대적으로 더 자주 선택한다.

후속연구

모의실험과 예제를 통해 본 연구에서 제안한 이상치 제거를 통한 변수선택방법은 기존의 강건추정법에 의한 변수선택방법보다 더 효율적이라는 것을 알 수 있다. 변수선택의 변수절차로 적용된 α-알고리즘에서 각종 모수에 대한 최적값은 여전히 해결해야 할 문제이며 많은 변수를 포함하는 대형데이터의 변수선택 문제에 대비하여 본 연구에서 제안한 이상치에 관련된 사전선별작업을 관찰치 뿐만 아니라 설명변수에도 동시에 적용하는 이차원 사전선별 과정을 추후에 연구해 볼 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	강건형 형태의 단점은?	변수선택방법에서 모형 추정은 주로 최소제곱추정량을 기반으로 수행되기 때문에 이상치에 영향을 받게 된다. 이를 해결하기 위하여 기존 모형평가측도들의 강건형 형태들이 제안되었으나 대형데이터에 적용하기에는 계산상의 부담이 크다. Dupuis와 Victoria-Feser (2011)는 가중 M-추정량을 사용하여 모형을 추정하고, 이에 따른 강건 검정통계량에 의하여 변수를 선택하는 fast robust forward selection (FRFS) 방법을 제안하였다.
	VIF회귀의 단점은?	그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다.
	변수선택방법에서 모형 추정은 주로 최소제곱추정량을 기반으로 수행되기 때문에 이상치에 영향을 받게 되는데, 이를 해결하기 위한 방법은?	변수선택방법에서 모형 추정은 주로 최소제곱추정량을 기반으로 수행되기 때문에 이상치에 영향을 받게 된다. 이를 해결하기 위하여 기존 모형평가측도들의 강건형 형태들이 제안되었으나 대형데이터에 적용하기에는 계산상의 부담이 크다. Dupuis와 Victoria-Feser (2011)는 가중 M-추정량을 사용하여 모형을 추정하고, 이에 따른 강건 검정통계량에 의하여 변수를 선택하는 fast robust forward selection (FRFS) 방법을 제안하였다.

참고문헌 (9)

Dupuis, D. J. and Victoria-Feser, M. P. (2011). Fast robust model selection in large Datasets, Journal of the American Statistical Association, 106, 203-212.

상세보기
Dupuis, D. J. and Victoria-Feser, M. P. (2013). Robust VIF regression with application to variable selection in large data sets, Annals of Applied Statistics, 7, 319-341.

상세보기
Fan, J. and Lv, J. (2008). Sure independence screening for ultrahigh dimensional feature space, Journal of the Royal Statistical Society. Series B, 70, 849-911.

상세보기
Foster, D. P. and Stine, R. A. (2008). investing: a procedure for sequential control of expected false discoveries, Journal of the Royal Statistical Society. Series B, 70, 429-444.

상세보기
Hadi, A. S. and Simonoff, J. S. (1993). Procedures for the identification of multiple outliers in linear models, Journal of the American Statistical Association, 88, 1264-1272.

상세보기
Harrison, D. and Rubinfeld, D. L. (1978). Hedonic prices and the demand for clean air, Journal of Environmental Economics and Management, 5, 81-102.

상세보기
Lin, D., Foster, D. P., and Ungar, L. H. (2011). VIF regression: a fast regression algorithm for large data, Journal of the American Statistical Association, 106, 232-247.

상세보기
Stock, J. H. and Watson, M. W. (2007). Introduction to Econometrics, 2nd ed. Boston: Addison Wesley.
Zhou, J., Foster, D. P., and Ungar, L. H. (2006). Streamwise feature selection, Journal of Machine Learning Research, 7, 1861-1885.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증