자료에는 다양한 원인에 의해 결측이 발생한다. 만약 결측치를 제외하고 완전히 관찰된 자료만으로 분석을 실시한다면 결측자료 메커니즘이 완전임의결측이 아닌 경우 결과에 편향이 발생하거나 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 결측이 하나의 변수에서만 일어나지 않기 때문에, 자료에 변수가 많을 수록 이 문제는 심화된다. 문제를 개선하기 위해 결측치를 대체하는 여러가지 방법들이 제안되었다. 하지만 모수적인 모형을 이용한 대체 방법들은 가정에 위배되는 현실 데이터에는 적합하지 않다. 따라서 본 연구에서는 자료의 분포 가정에 덜 영향을 받는 커널, 리샘플링, 스플라인 방법을 활용한 비선형 대체 방법들을 리뷰하고 필요한 경우 기존의 비선형 대체 방법에 대체클래스를 사용하여 대체값의 정확도를 높이거나 랜덤성을 가지는 오차를 더해주어 추정치의 분산이 적게 추정되는 문제를 개선하는 확장된 결측 대체 방법을 제안한다. 본 연구에서 고려한 여러 가지 대체 방법들은 다양한 모의자료 설계 하에서 성능을 비교하였다. 모의실험 결과, 비선형 대체 방법들은 각 설계 하에 다른 성능을 보이며 전반적으로 커널 회귀나 스플라인을 활용한 대체 방법들이 좋은 성능을 보였다. 더불어, 확장된 대체 방법은 기존의 대체 방법이 가지는 문제점을 개선함을 확인할 수 있었다.
자료에는 다양한 원인에 의해 결측이 발생한다. 만약 결측치를 제외하고 완전히 관찰된 자료만으로 분석을 실시한다면 결측자료 메커니즘이 완전임의결측이 아닌 경우 결과에 편향이 발생하거나 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 결측이 하나의 변수에서만 일어나지 않기 때문에, 자료에 변수가 많을 수록 이 문제는 심화된다. 문제를 개선하기 위해 결측치를 대체하는 여러가지 방법들이 제안되었다. 하지만 모수적인 모형을 이용한 대체 방법들은 가정에 위배되는 현실 데이터에는 적합하지 않다. 따라서 본 연구에서는 자료의 분포 가정에 덜 영향을 받는 커널, 리샘플링, 스플라인 방법을 활용한 비선형 대체 방법들을 리뷰하고 필요한 경우 기존의 비선형 대체 방법에 대체클래스를 사용하여 대체값의 정확도를 높이거나 랜덤성을 가지는 오차를 더해주어 추정치의 분산이 적게 추정되는 문제를 개선하는 확장된 결측 대체 방법을 제안한다. 본 연구에서 고려한 여러 가지 대체 방법들은 다양한 모의자료 설계 하에서 성능을 비교하였다. 모의실험 결과, 비선형 대체 방법들은 각 설계 하에 다른 성능을 보이며 전반적으로 커널 회귀나 스플라인을 활용한 대체 방법들이 좋은 성능을 보였다. 더불어, 확장된 대체 방법은 기존의 대체 방법이 가지는 문제점을 개선함을 확인할 수 있었다.
Data often include missing values due to various reasons. If the missing data mechanism is not MCAR, analysis based on fully observed cases may an estimation cause bias and decrease the precision of the estimate since partially observed cases are excluded. Especially when data include many variables...
Data often include missing values due to various reasons. If the missing data mechanism is not MCAR, analysis based on fully observed cases may an estimation cause bias and decrease the precision of the estimate since partially observed cases are excluded. Especially when data include many variables, missing values cause more serious problems. Many imputation techniques are suggested to overcome this difficulty. However, imputation methods using parametric models may not fit well with real data which do not satisfy model assumptions. In this study, we review imputation methods using nonlinear models such as kernel, resampling, and spline methods which are robust on model assumptions. In addition, we suggest utilizing imputation classes to improve imputation accuracy or adding random errors to correctly estimate the variance of the estimates in nonlinear imputation models. Performances of imputation methods using nonlinear models are compared under various simulated data settings. Simulation results indicate that the performances of imputation methods are different as data settings change. However, imputation based on the kernel regression or the penalized spline performs better in most situations. Utilizing imputation classes or adding random errors improves the performance of imputation methods using nonlinear models.
Data often include missing values due to various reasons. If the missing data mechanism is not MCAR, analysis based on fully observed cases may an estimation cause bias and decrease the precision of the estimate since partially observed cases are excluded. Especially when data include many variables, missing values cause more serious problems. Many imputation techniques are suggested to overcome this difficulty. However, imputation methods using parametric models may not fit well with real data which do not satisfy model assumptions. In this study, we review imputation methods using nonlinear models such as kernel, resampling, and spline methods which are robust on model assumptions. In addition, we suggest utilizing imputation classes to improve imputation accuracy or adding random errors to correctly estimate the variance of the estimates in nonlinear imputation models. Performances of imputation methods using nonlinear models are compared under various simulated data settings. Simulation results indicate that the performances of imputation methods are different as data settings change. However, imputation based on the kernel regression or the penalized spline performs better in most situations. Utilizing imputation classes or adding random errors improves the performance of imputation methods using nonlinear models.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
기존의 모수적 모형을 이용한 대체 방법들은 비선형성을 가지는 현실 데이터에 적용하기엔 한계가 있으므로 비선형 모형을 사용한 대체 방법을 사용하는 게 바람직할 것이다. 따라서 본 논문에서는 기존에 연구되었던 다양한 비선형 대체 방법들을 여러 모의실험 설계에 적용해 성능을 비교하였다. 나아가 기존 방법의 편향을 줄이기 위해 대체군을 활용하거나 분산의 과소추정 문제를 개선하기 위해 랜덤 오차를 더하는 확률적인 대체를 제안하였다.
각 논문에서도 대체적으로 기초적인 평균대체나 회귀대체들과 제안한 방법을 비교하고 비선형 대체 방법들 간의 비교가 없었기에 제안된 방법들 간의 성능 비교가 필요하다. 따라서 본 연구에서는 제안된 다양한 비선형 모델을 활용한 대체 방법을 리뷰하고 여러 가지 데이터 설계에서 성능을 비교하였 다. 나아가 기존의 Titterington과 Sedransk (1989)를 확장하여 연관된 변수를 2개의 대체클래스로 나눠 각 클래스 안에서 커널을 활용한 핫덱대체를 실시하는 방법을 고려하였다.
관측된 Yobs,i에 해당하는 Xi들을 행(row)으로 표현한 행렬을 Xobs로, 결측된 Ymis,i에 해당하는 Xi들을 행으로 표현한 행렬을 Xmis로 나타내자. 본 연구에서는 X와 Yobs값에만 의존하여 결측이 발생하는 임의결측 가정하에서 대체를 실시하는 경우를 고려한다.
Cheng (1994)의 커널 회귀대체는 커널 회귀선 상의 값으로만 대체되기 때문에 Y의 변동이 과소추정된다. 이런 점을 개선하고자 본 연구에서는 커널 회귀 추정치에 평균 0인 정규분포를 따르는 오차를 더해주어 결측치를 대체하는 확률적 커널 회귀대체(stochastic kernel regression) 방법을 다음과 같이 제안한다.
실제 수집된 데이터가 X와 Y간 선형성을 만족한다는 보장은 할 수 없다. 이에 본 연구에서는 지금까지 소개된 커널, 리샘플링, 준모수 그리고 스플라인 함수를 활용한 비선형 결측값 대체 방법들을 리뷰하고 나아가 기존의 방법들이 가지는 한계를 개선하고자 확장된 방법을 제안한다. 2.
가설 설정
N개의 자료 중 결측이 변수 Y 에서만 발생하는 경우를 가정하자. i번째 개체에서 Xi는 완전하게 관측된 변수들의 벡터를 나타내고 관측된 Yi는 Yobs,i로, 결측된 경우 Ymis,i로 나타내자.
Titterington과 Sedransk (1989)의 커널을 활용한 핫덱대체는 변수들 간의 연관성을 반영하지 못하며 Cheng (1994)이 제안한 커널 회귀대체는 설명변수와 반응변수간 선형 관계를 가정한다. 변수들간 관계 를 반영하면서 완전히 비모수적인 대체 방법으로서 Aerts 등 (2002)은 로컬 리샘플링을 이용한 대체를 제안하였다.
, N으로 나타낼 수 있다. 단, X와 T는 완전히 관측된 것으로 가정한다. δi = 0인 Ymis,i에 대한 대체 방법은 다음과 같다.
따라서 모의실험 1에서만 참구조 모형으로 대체하고 모의실험 2–5는 대체 모형이 틀린 경우를 가정한다.
따라서 자료의 참모형이 비선형 모형인데 실제로 일차 선형 관계만을 모형에 포함하여 대체를 실시하는 경우를 가정하여 모의실험 2–4에서는 Table 3.1의 식에 M = 0으로 두어 대체를 실시하였다.
1의 식에 M = 0으로 두어 대체를 실시하였다. 모의실험 5에서는 실제 변수 X가 아닌 아래의 식과 같은 Z = (Z1, . . . , Z4)가 관측되었다고 가정하여 대체를 실시하였다.
결측자료 분석의 적절성은 결측자료 메커니즘(missing data mechanism)에 의존하는데 Little과 Rubin (2002)은 결측자료 메커니즘을 완전임의결측(MCAR), 임의결측(missing at random; MAR), 비임의결측(missing not at random; MNAR)으로 분류하였다. 완전임의결측은 결측된 자료와 관측된 자료 모두에 상관없이 결측이 랜덤하게 발생한다는 가정이며 임의결측은 결측이 관측된 자료에는 의존할 수 있으나 결측된 자료에는 상관없이 발생한다는 가정이고 비임의결측은 결측이 발생한 자료 값과 결측 발생이 연관되어 있다는 가정이다. 흔히 사용되는 결측대체 방법들 대부분은 임의결측 가정 하에서 대체를 실시한다.
제안 방법
1. 표본의 크기에 따라 성능이 차이가 나는지 살펴보기 위해 표본수는 50, 100, 500으로 설정하였고 각각 1,000번씩 모의실험을 반복하였다.
4. 결측의 비율이 낮은 경우와 높은 경우를 가정하기 위하여 결측치의 비율은 10%, 40%인 경우를 고려하였다. 로짓 응답 성향 모형(propensity model)을 이용해 X가 주어졌을 때 관측될 확률을 나타내는 성향점수(propensity score)를 구한 뒤, 성향 점수의 평균보다 작은 값에서 전체 결측치 수의 70%를, 평균보다 큰 값 중에 나머지 30%를 랜덤하게 뽑아 결측치를 생성하였다.
따라서 본 논문에서는 기존에 연구되었던 다양한 비선형 대체 방법들을 여러 모의실험 설계에 적용해 성능을 비교하였다. 나아가 기존 방법의 편향을 줄이기 위해 대체군을 활용하거나 분산의 과소추정 문제를 개선하기 위해 랜덤 오차를 더하는 확률적인 대체를 제안하였다.
따라서 본 연구에서는 제안된 다양한 비선형 모델을 활용한 대체 방법을 리뷰하고 여러 가지 데이터 설계에서 성능을 비교하였 다. 나아가 기존의 Titterington과 Sedransk (1989)를 확장하여 연관된 변수를 2개의 대체클래스로 나눠 각 클래스 안에서 커널을 활용한 핫덱대체를 실시하는 방법을 고려하였다. 또한, Cheng (1994)이 예측평균으로 대체하여 분산을 과소추정하는 한계를 개선하고자 예측평균에 오차를 더하여 대체하는 방법을 제안하였다.
Little과 An (2004)은 나아가 공변량의 수가 많아질 때 발생하는 차원의 저주 문제를 개선하기 위해 벌칙 스플라인 성향점수 대체 방법(penalized spline propensity prediction imputation)도 제안하였다. 다차원의 공 변량으로 벌칙 스플라인을 적합하는 대신에 일차원의 성향점수를 벌칙 스플라인 모형에 적합하고 나머 지 공변량은 선형으로 적합하여 차원의 저주 문제를 해결하였다. 즉,
의 범위가 넓을수록 잘못된 값으로 대체될 확률이 높아진다. 따라서 본 연구에서는 X 각 변수를 평균값을 기준으로 2개의 대체클래스로 나눠 각 클래스 내에 서 Titterington과 Sedransk (1989)의 방법을 적용하는 방법을 제안한다.
하지만 설명변수의 수가 많을 때 매듭을 10개만 해도 RRMSE가 600을 넘기며 과적합의 문 제를 피할 수 없었다. 따라서 본 연구에서는 설명변수가 2개 이상인 경우, RMSEind을 기준으로 적절한 매듭의 수를 찾아주었다. 표본 수(50, 100, 500)별로 최적 매듭 개수의 평균은 5, 6, 11개였다.
Little과 An (2004)의 벌칙 스플라인을 이용한 결측치 대체 방법도 예측 평균에 의한 대체이므로 Y의 변동이 과소추정될 수 있다. 따라서 식 (2.7)을 이용한 대체에 실제 편차 중 랜덤하게 뽑은 값을 더해주어 결측치를 대체하는 방법을 제안한다. 벌칙 스플라인 대체에 편차를 더해주는 방법으로
결측의 비율이 낮은 경우와 높은 경우를 가정하기 위하여 결측치의 비율은 10%, 40%인 경우를 고려하였다. 로짓 응답 성향 모형(propensity model)을 이용해 X가 주어졌을 때 관측될 확률을 나타내는 성향점수(propensity score)를 구한 뒤, 성향 점수의 평균보다 작은 값에서 전체 결측치 수의 70%를, 평균보다 큰 값 중에 나머지 30%를 랜덤하게 뽑아 결측치를 생성하였다.
또한, Cheng (1994)이 예측평균으로 대체하여 분산을 과소추정하는 한계를 개선하고자 예측평균에 오차를 더하여 대체하는 방법을 제안하였다. 모의실험은 총 5가지의 설계로 이뤄지며 표본 수와 결측의 비율을 달리하여 방법들간의 성능을 비교하였다.
벌칙 스플라인 대체에서는 3차 스플라인(cubic spline)을 사용하고 설명변수가 1개인 경우 표본수의 1/3개의 매듭을 고려하고 설명변수가 2개 이상일 때는 4–20개 중 가장 작은 대체값의 평균제곱근오 차(root mean square error of individual; RMSEind)를 가지는 매듭의 개수를 찾아 이용하였다.
1))가 모집단의 평균값 추론에서는 비편향 추정량을 제공할 수도 있지만 평균의 표준오차 추정에서는 편향이 증가함을 주목하였다. 이를 개선하고자 커널 분포 추정을 이용해 결측치를 대체하는 핫덱대체 방법을 제안하였다. 전체 개체 N개 중 관측된 개체가 n개인 경우 이 방법은 아래처럼 무작위로 뽑은 관측치에 확률변수 h ∗ zi를 더해 대체하는 방법이다.
데이터처리
다중공선성 문제를 피하기 위해 g(·)에 전체 공변량 중 하나를 제외하며, 현실에서는 P∗를 알 수 없어 로지스틱 회귀를 이용하여 성향점수를 추정해 사용한다.
이론/모형
모의 실험 1–4의 설계는 Zhang과 Little (2011), 모의실험5는 Kang과 Schafer (2007)의 설계를 참고하였다.
모의실험 1–3은 하나의 설명변수를 고려하기 때문에 하나의 설명변수를 선형모형화하면 선형 회귀대 체, 비선형 모형화하면 Cheng (1994)의 방법과 동일한 결과를 주는 준모수 대체는 실시하지 않았다. 커널 함수를 활용한 대체에서는 가우시안 커널을 사용하며, 대역폭은 Silverman (1986)방법을 사용하였다. 벌칙 스플라인 대체에서는 3차 스플라인(cubic spline)을 사용하고 설명변수가 1개인 경우 표본수의 1/3개의 매듭을 고려하고 설명변수가 2개 이상일 때는 4–20개 중 가장 작은 대체값의 평균제곱근오 차(root mean square error of individual; RMSEind)를 가지는 매듭의 개수를 찾아 이용하였다.
3. Result of Sim 2
mean: 평균대체, linear: 선형 회귀대체, kernel hd: 커널을 활용한 핫덱대체, kernel hd IC: 대체 클래스별 커널 핫덱대체, kernel reg: 커널 회귀 대체, kernel reg S1: 정규분포오 를 더한 확률적 커널 회귀대체, kernel reg S2: 관측된 잔차를 랜덤으로 더한 확률적 커널 회귀 대체, local: 로컬 대체, pspline: 벌칙 스플라인을 활용한 대체, pspline S2: 관측된 잔차를 랜덤으로 더한 확률 적 pspline, pspp: 벌칙 스플라인 성향 점수 대체,pspp S2 : 관측된 편차를 랜덤으로 더한 확률적 pspp. RMSEind: root mean square error of individual; RRMSE: relative root mean square error; RCIW: relative confidence interval widths; CR: coverage rate.
4. Result of Sim 3
mean: 평균대체, linear: 선형 회귀대체, kernel hd: 커널을 활용한 핫덱대체, kernel hd IC: 대체클래스별 커널 핫덱대체, kernel reg: 커널 회귀대체, kernel reg S1: 정 규분포 오차를 더한 확률적 커널 회귀대체, kernel reg S2: 관측된 잔차를 랜덤으로 더한 확률적 커널 회귀대체, local: 로컬 대체, pspline: 벌칙 스플라인을 활용한 대체, pspline S2: 관측된 잔차를 랜덤으로 더한 확률적 pspline, pspp: 벌칙 스플라인 성향점수 대체,pspp S2 : 관측된 편차를 랜덤으로 더한 확률적 pspp. RMSEind: root mean square error of individual; RRMSE: relative root mean square error; RCIW: relative confidence interval widths; CR: coverage rate.
5. Result of Sim 4
mean: 평균 대체, linear: 선형 회귀 대체, kernel hd: 커널을 활용한 핫덱 대체, kernel hd IC: 대체 클래스별 커널 핫덱대 , kernel reg: 커널 회귀 대체, kernel reg S1: 정규 분포 오차를 더한 확률적 커널 회귀 대체, kernel reg S2: 관측된 잔차를 랜덤으로 더한 확률적 커널 회귀 대체, local: 로컬 대체, semi: 준모수 대체, pspline: 벌칙 스플인을 활용한 대체, pspline S2: 관측된 잔차를 랜덤으로 더한 확률적 pspline, pspp: 벌칙 스플라인 성향 점수 대체,pspp S2 : 관측된 편차를 랜덤으로 더한 확률적 pspp. RMSEind: root mean square error of individual; RRMSE: relative root mean square error; RCIW: relative confidence interval widths; CR: coverage rate.
2에 나타난다. 결측 비율이 10%일 때는 평균대체와 커널을 활용한 핫덱 대체를 제외한 모든 방법들에서 아주 작은 편향을 보이고, 결측의 비율이 40%로 증가하면 선형 회귀 대체와 벌칙 스플라인에 기반한 대체 방법들의 편향이 작게 나타났다. 대체클래스별 커널을 활용한 핫덱 대체는 기존의 커널을 활용한 핫덱 대체보다 편향이 작아졌으며, 확률적 커널 회귀대체와 확률적 벌칙 스플라인, 확률적 벌칙 스플라인 성향점수 대체 방법은 기존 방법과 유사한 편향을 보인다.
결측의 비율이 10%일 때는 평균대체, 커널을 활용한 핫덱대체와 대체클래스별 커널을 활용한 핫덱대체를 제외한 방법들은 충분한 커버리지 비율을 보인다. 결측의 비율이 40%로 높을 때, 모든 경우 커버리지 비율이 과소포함되었지만 확률적 벌칙 스플라인 대체와 확률적 벌칙 스플라인 성향점수 대체가 가장 높은 커버리지 비율을 보인다.
준모수적 대체는 설명변수가 많은 모의실험 5에서는 좋은 성능을 보여주지 못했지만 설명변수가 2개인 모의실험 4에서는 선형 회귀대체와 커널 회귀대체의 중간 성능을 보였다. 교호항이 있는 경우를 제외하고는 벌칙 스플라인 대체와 벌칙 스플라인 성향점수 대체는 결측 비율이 증가하여도 커버리지 비율의 감소폭이 가장 작았으며 전반적으로 좋은 성능을 보였다.
결측 비율이 10%일 때는 평균대체와 커널을 활용한 핫덱 대체를 제외한 모든 방법들에서 아주 작은 편향을 보이고, 결측의 비율이 40%로 증가하면 선형 회귀 대체와 벌칙 스플라인에 기반한 대체 방법들의 편향이 작게 나타났다. 대체클래스별 커널을 활용한 핫덱 대체는 기존의 커널을 활용한 핫덱 대체보다 편향이 작아졌으며, 확률적 커널 회귀대체와 확률적 벌칙 스플라인, 확률적 벌칙 스플라인 성향점수 대체 방법은 기존 방법과 유사한 편향을 보인다.
반응변수가 설명변수의 이차항에 의존하기 때문에 커널 회귀대체나 벌칙 스플라인 대체 방법들의 성능이 좋게 나타났다. 반면에 설명변수와의 관계를 반영하지 못하는 평균대체와 커널을 활용한 핫덱대체는 결측 비율이 높아지면 편향이 증가하여 RRMSE가 매우 커지고 커버리지 비율이 크게 줄어들기 때문에 부적절한 대체 방법으로 나타났다. 확률오차를 포함하도록 확장한 대체 방법은 모의실험 1과 같이 기존 의 방법보다 커버리지 비율을 개선함을 알 수 있다.
반응변수가 설명변수의 이차항에 의존하기 때문에 커널 회귀대체나 벌칙 스플라인 대체 방법들의 성능이 좋게 나타났다. 반면에 설명변수와의 관계를 반영하지 못하는 평균대체와 커널을 활용한 핫덱대체는 결측 비율이 높아지면 편향이 증가하여 RRMSE가 매우 커지고 커버리지 비율이 크게 줄어들기 때문에 부적절한 대체 방법으로 나타났다.
설명변수와의 관계를 반영하지 못하는 평균대체가 가장 성능이 좋지 않았으며 커널을 활용한 핫덱대체는 커널을 이용한 보정 효과가 약해 성능이 좋지 않으며 이 두 방법은 상대적으로 매우 큰 RRMSE값을 가진다. 벌칙 스플라인에 기반한 방법들이 전반적으로 작은 편향과 높은 커버리지 비율을 보여 좋은 대체법으로 나타났다. 로컬 리샘플링을 활용한 대체는 결측의 비율이 낮을 때는 커널 회귀를 활용한 대체와 비슷한 성능을 보이지만 결측의 비율이 높아지면 선형 회귀대체보다도 더 낮은 커버리지 비율을 가진다.
4에 정리하였다. 설명변수와의 관계를 반영하지 못하는 평균대체가 가장 성능이 좋지 않았으며 커널을 활용한 핫덱대체는 커널을 이용한 보정 효과가 약해 성능이 좋지 않으며 이 두 방법은 상대적으로 매우 큰 RRMSE값을 가진다. 벌칙 스플라인에 기반한 방법들이 전반적으로 작은 편향과 높은 커버리지 비율을 보여 좋은 대체법으로 나타났다.
커널을 활용한 핫덱대체는 결측 비율이 커지면 RRMSE가 과도하게 증가하였지만 전반적으로 다른 방법들보다 참신뢰구간 길이와 차이가 적게 나타났다. 커널 회귀대체는 설명변수가 여러 개인 모의실험 5를 제외 하고는 전반적으로 성능이 좋았으며 특히 교호항이 연관되어 있는 경우에는 다른 대체 방법들보다 뛰어난 성능을 보였다. 로컬 리샘플링 대체는 평균 구조가 교호항에 의존하는 모의실험 4를 제외하고는 선형 회귀대체보다 낮은 커버리지 비율을 보인다.
모의실험에 따르면 평균대체나 선형 회귀대체는 참 평균 구조가 선형일 때는 타 방법들과 비슷한 성능을 보이지만, 이차항과 싸인 함수에 의존하거나 결측 비율이 높아지면 성능이 현저히 떨어진다. 커널을 활용한 핫덱대체는 결측 비율이 커지면 RRMSE가 과도하게 증가하였지만 전반적으로 다른 방법들보다 참신뢰구간 길이와 차이가 적게 나타났다. 커널 회귀대체는 설명변수가 여러 개인 모의실험 5를 제외 하고는 전반적으로 성능이 좋았으며 특히 교호항이 연관되어 있는 경우에는 다른 대체 방법들보다 뛰어난 성능을 보였다.
커널을 활용한 핫덱대체를 확장한 대체클래스별 커널을 활용한 핫덱대체는 기존의 방법보다 성능이 월등히 개선되었으며 커널 회귀대체를 확장한 확률적 커널 회귀대체는 평균값의 분산을 과소추정하는 문제를 개선하였다. 확률적 벌칙 스플라인과 확률적 벌칙 스플라인 성향점수 대체는 평균값의 분산을 과소 추정하는 정도를 줄여 거의 모든 경우에서 기존 방법보다 커버리지 비율이 증가했다.
편향이 0에 가까울수록, 대체값의 평균제곱근오차, 평균의 평균제곱근오차 증가율, 그리고 신뢰구간 너비 증가율이 작을수록 좋은 대체라고 할 수 있다. 커버리지 비율은 반복 개수가 1,000번이므로 0.
6에 나타난다. 평균대체와 커널을 활용한 핫덱대체, 로컬대체, 그리고 준모수 대체가 큰 편향을 보인다. 벌칙 스플라인 대체는 가장 작은 RMSEind을 가진다.
반면에 설명변수와의 관계를 반영하지 못하는 평균대체와 커널을 활용한 핫덱대체는 결측 비율이 높아지면 편향이 증가하여 RRMSE가 매우 커지고 커버리지 비율이 크게 줄어들기 때문에 부적절한 대체 방법으로 나타났다. 확률오차를 포함하도록 확장한 대체 방법은 모의실험 1과 같이 기존 의 방법보다 커버리지 비율을 개선함을 알 수 있다.
커널을 활용한 핫덱대체를 확장한 대체클래스별 커널을 활용한 핫덱대체는 기존의 방법보다 성능이 월등히 개선되었으며 커널 회귀대체를 확장한 확률적 커널 회귀대체는 평균값의 분산을 과소추정하는 문제를 개선하였다. 확률적 벌칙 스플라인과 확률적 벌칙 스플라인 성향점수 대체는 평균값의 분산을 과소 추정하는 정도를 줄여 거의 모든 경우에서 기존 방법보다 커버리지 비율이 증가했다.
RCIW은 커널을 활용한 핫덱대체가 거의 모든 경우에서 가장 작았다. 확률적 커널 회귀대체와 확률적 벌칙 스플라인, 확률적 벌칙 스플라인 성향점수 대체는 분산의 과소추정문제를 개선하여 신뢰구간의 감소율이 기존의 대체 방법보다 작았다.
후속연구
다양한 비선형 대체 방법들이 제안되었지만 여러 비선형 대체 방법들 사이의 성능을 비교한 연구는 찾기 힘들었다. 각 논문에서도 대체적으로 기초적인 평균대체나 회귀대체들과 제안한 방법을 비교하고 비선형 대체 방법들 간의 비교가 없었기에 제안된 방법들 간의 성능 비교가 필요하다. 따라서 본 연구에서는 제안된 다양한 비선형 모델을 활용한 대체 방법을 리뷰하고 여러 가지 데이터 설계에서 성능을 비교하였 다.
결측치를 모두 제거하고 분석을 하면 추정 치가 편향될 수 있기 때문에 결측값을 적절히 대체하는게 유용하다. 기존의 모수적 모형을 이용한 대체 방법들은 비선형성을 가지는 현실 데이터에 적용하기엔 한계가 있으므로 비선형 모형을 사용한 대체 방법을 사용하는 게 바람직할 것이다. 따라서 본 논문에서는 기존에 연구되었던 다양한 비선형 대체 방법들을 여러 모의실험 설계에 적용해 성능을 비교하였다.
비선형 방법 중 벌칙 스플라 인 성향점수 대체는 평균 구조나 성향점수 모형 둘 중 하나만 참 구조와 일치하면 모 평균으로 수렴하는 이중 강건한(doubly robust) 성질을 가진다. 따라서 이후의 연구에서는 성향점수의 구조를 다양하게 설계하여 모의실험 5와 같이 평균구조와 성향점수 모두 참 구조와 일치하지 않을 때 비선형 방법들과 성능을 더 자세히 비교할 수 있을 것으로 기대된다.
변수들 간에 선형이 아닌 복잡한 관계를 가지는 경우에는 벌칙 스플라인 대체나 벌칙 스플라인 성향점수 대체가 평균을 참값에 가까이 추정함을 알 수 있다. 만약 두 변수의 교호항과 연관된 평균 구조를 가진 자료라고 생각되면 벌칙 스플라인을 활용한 방법보다 커널 회귀대체와 확률적 커널 회귀대체가 더 적절한 대체를 할 것으로 기대된다. 한편, 관측자가 변수들 간의 어떤 구조도 알지 못한다고 하면 벌칙 스플라인 대체를 사용하는 것을 추천한다.
본 연구에서는 결측 비율과 평균구조를 고려하여 모의실험을 시행하였지만, 결측자료 메커니즘에 연관된 관측 확률인 성향점수의 구조에 따른 성능의 변화를 살펴보지는 못했다. 비선형 방법 중 벌칙 스플라 인 성향점수 대체는 평균 구조나 성향점수 모형 둘 중 하나만 참 구조와 일치하면 모 평균으로 수렴하는 이중 강건한(doubly robust) 성질을 가진다.
따라서 만약 데이터의 구조가 선형적이라면 간단한 선형 회귀 대체를 이용하는 것이 가장 효율적일 것이다. 하지만 결측의 비율이 높을 때는 관측된 편차를 더해주는 확률적 커널 회귀대체나 확률적 벌칙 스플라인 대체, 확률적 벌칙 스플라인 성향점수 대체를 사용하는 것도 대안이 될 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
결측치를 예측하는 통계적인 모델을 세우고 모수를 추정한 후 이를 사용하여 대체를 실시하는 방법으로 무엇이 있는가?
결측치를 적절한 값으로 채워 넣기 위하여 결측치를 예측하는 통계적인 모델을 세우고 모수를 추정한 후 이를 사용하여 대체를 실시하는 방법들이 제안되어 왔다. 이 때, 사용하는 모델에 따라 평균대체, 회귀대체, 핫덱대체(hotdeck imputation) 등과 같이 부른다. 결측자료 분석의 적절성은 결측자료 메커니즘(missing data mechanism)에 의존하는데 Little과 Rubin (2002)은 결측자료 메커니즘을 완전임의결측(MCAR), 임의결측(missing at random; MAR), 비임의결측(missing not at random; MNAR)으로 분류하였다.
결측이 포함된 데이터를 분석할 때 결측값을 제외하고 분석시 문제점은?
결측 발생을 방지하고자 연구 계획 및 설계 단계부터 많은 노력을 기울이지만 결측의 문제를 완전히 피하기 어렵다. 결측이 포함된 데이터를 분석할 때, 간단하게 결측값을 제외하고 완전하게 관측된 정보만을 가지고 분석하기 쉬운데 그럴 경우 완전히 관측된 자료가 모집단을 대표한다고 볼 수 없으며 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 또한, 결측이 자료와 상관없이 일어나는 완전임의결측(missing completely at random; MCAR) 메커니즘이 아니라면 결과에 편향이 발생할 수 있다 (Little과 Rubin, 2002). 통상적으로 결측이 하나의 변수에서만 일어나지 않기 때문에 변수가 많은 고차원의 데이터일수록 이 문제는 심화된다.
결측자료 분석의 적절성은 무엇에 의존하는가?
이 때, 사용하는 모델에 따라 평균대체, 회귀대체, 핫덱대체(hotdeck imputation) 등과 같이 부른다. 결측자료 분석의 적절성은 결측자료 메커니즘(missing data mechanism)에 의존하는데 Little과 Rubin (2002)은 결측자료 메커니즘을 완전임의결측(MCAR), 임의결측(missing at random; MAR), 비임의결측(missing not at random; MNAR)으로 분류하였다. 완전임의결측은 결측된 자료와 관측된 자료 모두에 상관없이 결측이 랜덤하게 발생한다는 가정이며 임의결측은 결측이 관측된 자료에는 의존할 수 있으나 결측된 자료에는 상관없이 발생한다는 가정이고 비임의결측은 결측이 발생한 자료 값과 결측 발생이 연관되어 있다는 가정이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.