설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다. 따라서 본 연구에서는 패널자료에서 이전 시점의 정보를 고려하지 않고 대체를 실시하는 방법과 이전 시점의 정보를 활용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 특히 이전 시점의 응답 정보를 이용하는 방법인 비대체, 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이를 이전 시점의 정보를 고려하지 않는 대체 방법들 중 흔히 사용되는 평균대체, 핫덱대체 방법과 비교하였다. 모의실험 결과 선형혼합모형에 근거한 베이지 안 대체 방법이 다른 대체 방법에 비해 무응답 비율이 높아지더라도 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높게 나타나서 가장 좋은 대체 방법으로 확인되었다.
설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다. 따라서 본 연구에서는 패널자료에서 이전 시점의 정보를 고려하지 않고 대체를 실시하는 방법과 이전 시점의 정보를 활용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 특히 이전 시점의 응답 정보를 이용하는 방법인 비대체, 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이를 이전 시점의 정보를 고려하지 않는 대체 방법들 중 흔히 사용되는 평균대체, 핫덱대체 방법과 비교하였다. 모의실험 결과 선형혼합모형에 근거한 베이지 안 대체 방법이 다른 대체 방법에 비해 무응답 비율이 높아지더라도 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높게 나타나서 가장 좋은 대체 방법으로 확인되었다.
When conducting a survey, item nonresponse occurs if the respondent does not respond to some items. Since analysis based only on completely observed data may cause biased results, imputation is often conducted to analyze data in its complete form. The panel study is a survey method that examines cha...
When conducting a survey, item nonresponse occurs if the respondent does not respond to some items. Since analysis based only on completely observed data may cause biased results, imputation is often conducted to analyze data in its complete form. The panel study is a survey method that examines changes of responses over time. In panel studies, there has been a preference for using information from response values of previous waves when the imputation of item nonresponses is performed; however, limited research has been conducted to support this preference. Therefore, this study compares the performance of imputation methods according to whether or not information from previous waves is utilized in the panel study. Among imputation methods that utilize information from previous responses, we consider ratio imputation, imputation based on the linear mixed model, and imputation based on the Bayesian linear mixed model approach. We compare the results from these methods against the results of methods that do not use information from previous responses, such as mean imputation and hot deck imputation. Simulation results show that imputation based on the Bayesian linear mixed model performs best and yields small biases and high coverage rates of the 95% confidence interval even at higher nonresponse rates.
When conducting a survey, item nonresponse occurs if the respondent does not respond to some items. Since analysis based only on completely observed data may cause biased results, imputation is often conducted to analyze data in its complete form. The panel study is a survey method that examines changes of responses over time. In panel studies, there has been a preference for using information from response values of previous waves when the imputation of item nonresponses is performed; however, limited research has been conducted to support this preference. Therefore, this study compares the performance of imputation methods according to whether or not information from previous waves is utilized in the panel study. Among imputation methods that utilize information from previous responses, we consider ratio imputation, imputation based on the linear mixed model, and imputation based on the Bayesian linear mixed model approach. We compare the results from these methods against the results of methods that do not use information from previous responses, such as mean imputation and hot deck imputation. Simulation results show that imputation based on the Bayesian linear mixed model performs best and yields small biases and high coverage rates of the 95% confidence interval even at higher nonresponse rates.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
5가지 대체 방법 외에 무응답을 제외하고 완전한 케이스만을 가지고 분석한 결과도 함께 제시하였다.
패널자료는 횡단면 자료와 달리 무응답이 발생한 변수의 이전 시점에 측정한 정보를 가지고 있다는 장점이 있다. 그렇기 때문에 이전 시점의 정보를 이용하여 대체하는 방법들이 보다 적절한 대체를 실시하는지 살펴보고, 이전 시점의 정보를 이용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 모의실험을 통해 조사해 보았다. 과거 정보를 이용하는 방법인 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법, 그리고 비대체를 고려하였고, 이와 함께 평균대체와 핫덱대체도 비교하여 살펴보았다.
여러 가지 대체 방법이 사용되고 있으나 대부분 횡단면 자료의 대체 방법에 중점을 두고 연구가 진행되어 왔다. 따라서 본 연구에서는 패널자료에서 대체를 실시하는 방법에 초점을 맞추어 이전 시점의 정보를 이용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 과거 정보 및 현재 시점의 연관 정보를 이용하는 방법인 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이와 함께 이전 시점의 정보를 사용하는 비대체 방법도 함께 살펴보았다.
하지만 해외 유사 자료에서의 무응답률은 소득관련 변수에서 약 30% 정도로 상당히 높게 나타나는 것이 일반적이며 개인 사생활 중시 풍조 등과 맞물려 국내 조사 자료들에서의 무응답 비율도 증가하는 추세를 보이고 있다. 따라서 본 연구에서는 현재 한국노동패널자료의 무응답 비율보다 상당히 높은 실험 조건 하에서 모의실험을 실시하여 추후 무응답 비율이 높아지는 경우를 대비하고자 하였다. 한편, 5장에서는 실제 자료인 한국노동패널자료를 가지고 무응답 대체를 적용하였는데 무응답 비율이 낮으므로 대체 후 대체 방법 간의 편의가 크지 않게 나와
무응답이 존재하는 응답자의 자료는 분석에서 제외되어 추정량에 편의가 발생할 가능성이 있으므로 이를 대체한 후 완전한 형태의 자료로 제공하여 분석할 수 있도록 무응답을 대체하는 방법이 흔히 사용되고 있다. 본 연구에서는 패널자료에서 무응답 대체를 실시할 때, 패널자료의 특성을 이용한 대체 방법들의 성능을 살펴보았다. 패널자료는 횡단면 자료와 달리 무응답이 발생한 변수의 이전 시점에 측정한 정보를 가지고 있다는 장점이 있다.
가설 설정
그리고 독립적으로 동일한 무응답 비율에 따라 무작위로 추출한 가구의 15차 총근로소득을 무응답으로 처리하였다. MAR 가정을 만족하도록 첫 번째 차수인 13차 총근로소득은 무응답이 없이 모두 값을 가지고 있다고 가정하였다. 이 가정은 또한 14차 자료에 대한 비대체를 할 때 비의 분모가 결측되지 않도록 하는 효과를 지닌다.
q) 행렬로 이 때 q는 랜덤효과에 포함된 변수의 개수를 의미하며, β = (β1 , β2 , . . . , βp ) T 는 모집단에 대한 고정효과를 나타내는 계수이며, b i = (bi1 , bi2 , . . . , biq ) T 는 i번째 개체에 대한 랜덤효과를 나타내는 계수로 일반적으로 정규분포(bi ∼ N (0, Ψ))를 가정하며, 그리고 ϵi 는 i번째 개체에 대한 오차항으로 ϵi ∼ N (0, σ2 I)를 가정한다.
모의실험을 위하여 13–15차에서 총근로소득을 모두 응답한 4,849가구만을 고려하였고 이 중 월평균 생활비를 응답하지 않은 5가구를 제외하여 총 4,844가구를 연구 대상 모집단으로 간주하였다. 그리고 무응답 자료의 생성을 위하여 결측자료메커니즘이 missing at random (MAR)을 따른다는 가정 하에서 10%, 20%, 그리고 40%의 무응답이 발생하였다고 가정하였다. 무응답을 생성하기 위하여 총근로소득과 연관성이 높은 교육과 월평균 생활비를 가지고 자료를 9개 그룹으로 나누었다.
최종 모형은 설명변수(고정효과)로 월평균생활비(로그 변환함), 가구주의 학력(고졸 미만, 전문대졸 미만, 전문대졸 이상의 3개 범주), 성별, 가구원수, 그리고 연속형 변수로 고려한조사차수를 포함하도록 구성하며, 절편과 기울기에 해당하는 조사차수의 계수가 랜덤효과로 선정되었다. 랜덤효과의 분산의 구조는 특정한 패턴을 가지지 않는다고 가정(unstructured로 설정)한 후 모형을 적합하였다. 총근로소득의 무응답값은 식 (2.
패널자료에서는 총근로소득을 매 차수에서 조사하므로 무응답이 조사대상 변수의 이전 값에 의존하는 것이 가능하므로 조사 시점의 총근로소득이 많을수록 무응답이 많이 발생한다고 가정하였다. 이를 위하여 9개 각각의 그룹에서 중위수를 기준으로 중위수 미만에서는 그룹별 무응답 가구 수의 30%, 중위수 이상에서는 70%의 무응답이 발생한다고 가정하였다. 그런데 무응답 비율이 40%인 경우 무응답의 비율이 높아 일부 그룹에서 필요한 무응답 가구수를 추출할 수 없어 이 경우 중위수 미만에서는 28%로, 중위수 이상에서는 72%의 가구에서 무응답이 발생하도록 조정하였다.
학력 범주는 1차년도와 동일한 범주값을 적용 하였다. 패널자료에서는 총근로소득을 매 차수에서 조사하므로 무응답이 조사대상 변수의 이전 값에 의존하는 것이 가능하므로 조사 시점의 총근로소득이 많을수록 무응답이 많이 발생한다고 가정하였다. 이를 위하여 9개 각각의 그룹에서 중위수를 기준으로 중위수 미만에서는 그룹별 무응답 가구 수의 30%, 중위수 이상에서는 70%의 무응답이 발생한다고 가정하였다.
제안 방법
(1) 평균대체: 각 해당차수에서 응답한 총근로소득을 가지고 구한 평균값으로 무응답을 대체하였다.
(2) 핫덱대체: 먼저 대체군을 형성하기 위해서 가구주의 학력과 성별, 그리고 월평균 생활비 정보를 사용하였다. 가구주의 학력은 3개 범주(고졸 미만, 전문대졸 미만, 전문대졸 이상)로, 월평균 생활비는 4개의 범주(150만 원 미만, 250만 원 미만, 350만 원 미만, 350만 원 이상)로 구분하였다.
(3) 비대체: 우선 비(ratio)를 구해야 하는데, 여기서도 핫덱대체에서 대체군을 형성할 때 사용한 가구주의 학력, 성별, 그리고 월평균 생활비를 가지고 그룹을 구분하여 각 그룹에서의 비를 계산하였다.
(4) 선형혼합모형에 근거한 대체: 먼저 선형혼합모형을 적합하기 위해 모의실험 자료 1에 대하여 여러가지 후보 모형을 분석하여 AIC, AICC 및 BIC의 값이 가장 작은 모형을 최종 모형으로 선택하였다. 이 과정을 몇 개의 랜덤하게 선택한 모의실험 자료에 대하여 적용해 본 결과 모두 동일한 모형을 선택하였다.
무응답을 생성하기 위하여 총근로소득과 연관성이 높은 교육과 월평균 생활비를 가지고 자료를 9개 그룹으로 나누었다. 13차년도 자료의 경우에는 무응답 비율이 낮아서 상대적으로 무응답 비율이 가장 높은 1차년도 자료를 가지고 각 그룹별 무응답 비율을 계산하였다. 학력 범주는 고졸 미만, 고졸–전문대졸 미만, 전문대졸 이상으로 3개로 구분하였고, 월평균생활비 범주는 70만 원 미만, 70만– 200만 원 미만, 200만 원 이상으로 3개로 구분한 후 1차년도 자료에서 9개의 각 그룹별 무응답 비율을 구하였다.
14차 무응답 가구의 총근로소득의 대체는 13차 총근로소득에 비를 곱하여 구했으며, 15차도 동일한 방법을 적용하여 대체하였다. 만약 14차와 15차가 모두 무응답인 가구는 14차 자료의 무응답을 우선 대체한 후 대체된 14차의 값에 비를 곱하여 15차를 대체하였다.
R패키지 PAN을 사용하여 대체를 실시하였으며 MCMC 알고리즘의 반복수(iteration number)는 10,000번으로 설정하였다. PAN에서는 단일 대체(single imputation) 뿐만 아니라 다중 대체(multiple imputation) 방법을 이용하여 대체 자료를 생성할 수 있는데 본 연구에서는 단일 대체를 실시하였다.
(5) 선형혼합모형에 근거한 베이지안 대체: 선형혼합모형에 근거한 베이지안 대체에서는 선형혼합모형을 이용한 대체와 동일한 모형을 사용하였다. R패키지 PAN을 사용하여 대체를 실시하였으며 MCMC 알고리즘의 반복수(iteration number)는 10,000번으로 설정하였다. PAN에서는 단일 대체(single imputation) 뿐만 아니라 다중 대체(multiple imputation) 방법을 이용하여 대체 자료를 생성할 수 있는데 본 연구에서는 단일 대체를 실시하였다.
선형혼합모형에 근거한 베이지안 대체는 선형혼합모형을 이용한 대체와 동일한 모형을 사용하였다. R패키지 PAN을 사용하여 대체를 실시하였으며 MCMC 알고리즘의 반복수는 10,000번으로 설정하여 단일 대체를 실시하였다. 대체를 실시한 결과를 비교하기 위해서 각 조사차수별 대체 자료의 이자소득의 평균, 표준편차와 평균에 대한 95% 신뢰구간을 구하였고 그 결과가 Table 5.
가구주의 학력은 3개 범주(고졸 미만, 전문대졸 미만, 전문대졸 이상)로, 월평균 생활비는 4개의 범주(150만 원 미만, 250만 원 미만, 350만 원 미만, 350만 원 이상)로 구분하였다. 각 대체군내에서 기증자(donor)를 무작위로 추출하여 기증자의 응답값으로 무응답을 대체하였으며, 각 기증자는 한 번만 대체에 사용되었다.
따라서 본 연구에서는 패널자료에서 대체를 실시하는 방법에 초점을 맞추어 이전 시점의 정보를 이용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 과거 정보 및 현재 시점의 연관 정보를 이용하는 방법인 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이와 함께 이전 시점의 정보를 사용하는 비대체 방법도 함께 살펴보았다. 또한 이 방법들을 횡단면 자료의 대체 방법인 평균대체 및 핫덱대체 결과와 비교하였다.
그렇기 때문에 이전 시점의 정보를 이용하여 대체하는 방법들이 보다 적절한 대체를 실시하는지 살펴보고, 이전 시점의 정보를 이용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 모의실험을 통해 조사해 보았다. 과거 정보를 이용하는 방법인 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법, 그리고 비대체를 고려하였고, 이와 함께 평균대체와 핫덱대체도 비교하여 살펴보았다.
1의 무응답 비율에 따라 무작위로 추출한 가구의 14차 총근로소득을 무응답으로 처리하였다. 그리고 독립적으로 동일한 무응답 비율에 따라 무작위로 추출한 가구의 15차 총근로소득을 무응답으로 처리하였다. MAR 가정을 만족하도록 첫 번째 차수인 13차 총근로소득은 무응답이 없이 모두 값을 가지고 있다고 가정하였다.
한국노동패널자료에서는 무응답 대체 대상을 주로 소득, 자산, 부채 등 금액과 관련된 문항, 주된 일자리에서의 종업원수, 고용형태 및 취업시기 등과 같이 주요 문항들을 중심으로 선정하였다. 대체 방법은 핫덱대체, 비대체, 회귀대체, 중위수대체, 최빈값 대체, 평균대체, 확률 기반 대체, 논리적 대체 및 임의대체 등을 가지고 문항의 특성에 따라 적합한 대체 방법을 적용하였다. 예를 들면, 월평균 생활비는 항목별로 과거자료를 이용하여 비대체를 하는 것을 원칙으로 하였다.
모의실험에서 비교한 5가지 대체 방법을 실제 자료의 대체에 적용해 보기 위하여 한국노동패널자료에서 무응답이 발생한 다른 변수인 ‘작년 한 해 금융소득-은행 등 금융기관 이자/투자소득(이하 이자소득)’을 선정하였으며, 조사차수는 시뮬레이션에서 사용한 13–14차 자료의 경우에는 무응답이 발생하지 않아서 15–17차 자료에 대하여 대체를 실시하였다.
그리고 무응답 자료의 생성을 위하여 결측자료메커니즘이 missing at random (MAR)을 따른다는 가정 하에서 10%, 20%, 그리고 40%의 무응답이 발생하였다고 가정하였다. 무응답을 생성하기 위하여 총근로소득과 연관성이 높은 교육과 월평균 생활비를 가지고 자료를 9개 그룹으로 나누었다. 13차년도 자료의 경우에는 무응답 비율이 낮아서 상대적으로 무응답 비율이 가장 높은 1차년도 자료를 가지고 각 그룹별 무응답 비율을 계산하였다.
본 연구에서는 3개 차수 만에 근거하여 모의실험을 실시하였는데 패널자료는 많은 경우 3개 이상의 시점을 포함하므로 이전 모든 시점의 정보를 활용하여 대체를 실시한다면 더 많은 정보에 근거하여 대체를 실시할 수 있다. 하지만 시점이 증가하게 되면 모형적합 시 시간에 따른 변화를 적절히 모형화해야 하며 이는 자료의 변화 추세에 따라 달라질 것으로 생각되고 이 방법의 성능도 달라질 수 있을 것이다.
본 연구에서는 평균대체, 핫덱대체, 비대체, 선형혼합모형을 이용한 대체 및 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였다.
비대체는 비를 구하기 위해 가구주의 학력, 성별과 월평균 저축액을 가지고 대체군을 형성한 후 각 대체군 내에서의 비율을 계산하였다. 16차 무응답 가구의 이자소득의 대체는 15차 이자소득에 비를 곱하여 구하면 되는데, 16차 무응답 17가구가 모두 15차 때 이자소득이 없다고 대답하여 비대체를 하게 되면 비율과 상관없이 0으로 대체되었다.
이 때 적합한 모형에 근거하여 구한 기댓값을 가지고 대체를 실시하는 것이 가능하다. 이 모형에서는 기댓값을 주변부 평균(marginal mean) 또는 조건부 평균(conditional mean)으로 계산할 수 있는데, 본 논문에서는 각 패널의 값을 보다 정확히 예측하기 위하여 조건부 평균으로 대체를 실시하였다. 선형혼합모형에 근거한 베이지안 대체는 Markov Chain Monte Carlo (MCMC) 기법을 이용하여 선형혼합모형 하에서 무응답을 대체하는 방법이다 (Schafer와 Yucel, 2002).
학력 범주는 고졸 미만, 고졸–전문대졸 미만, 전문대졸 이상으로 3개로 구분하였고, 월평균생활비 범주는 70만 원 미만, 70만– 200만 원 미만, 200만 원 이상으로 3개로 구분한 후 1차년도 자료에서 9개의 각 그룹별 무응답 비율을 구하였다. 이 비율에 비례하여 전체 무응답 비율이 10%, 20% 및 40%가 되도록 각 그룹별 무응답 가구수를 조정하였다. 참고로 1차에 근거한 월평균 생활비 범주를 13–15차에 적용할 경우에는 조사 시점의 영향으로 대부분의 가구 월평균 생활비가 200만 원 이상으로 나타났다.
이 가정은 또한 14차 자료에 대한 비대체를 할 때 비의 분모가 결측되지 않도록 하는 효과를 지닌다. 전체 자료에 대하여 무응답 가구를 단순임의추출(simple random sampling)하는 과정을 100번 실시하여 모의실험을 위한 무응답 자료를 100개 생성하였다.
종단면 자료에서 해당 차수(예를 들어 t번째 차수)의 대체하고자 하는 변수의 예측값을 구하기 위해 먼저 직전 차수(t − 1차수)와 비교해서 t차수의 응답값의 평균 증감 비율을 구한다.
주거비는 이사여부에 따라 2가지 대체 방법을 고려하여 이사하지 않은 가구의 경우에는 비대체를, 이사한 가구는 핫덱대체를 하였다. 주된 일자리에서의 종업원수는 범주형 종업원수 정보가 있으면 음이항 회귀모형(negative binomial regression)을 바탕으로 한 Stochastic EM (SEM) 방법으로, 범주형 종업원수 정보가 없으나 과거자료가 존재하고 이직을 한 경우에는 음이항 회귀모형으로, 이직을 하지 않은 경우에는 종업원수 구간별 비대체를 하였고, 범주형 종업원수 및 과거 자료도 없으면 음이항 회귀모형을 사용하여 대체하였다. 노동패널 홈페이지에 관련 보고서를 제공하고 있어서 무응답 처리에 대한 자세한 내용을 볼 수 있다 (Song, 2015).
이 자료에 대하여 본 논문에서 고려한 각 대체 방법을 다음과 같이 적용하였다. 평균대체는 각 해당차수에서 응답한 이자소득만을 가지고 구한 평균값으로 무응답을 대체하였다.
학력 범주는 고졸 미만, 고졸–전문대졸 미만, 전문대졸 이상으로 3개로 구분하였고, 월평균생활비 범주는 70만 원 미만, 70만– 200만 원 미만, 200만 원 이상으로 3개로 구분한 후 1차년도 자료에서 9개의 각 그룹별 무응답 비율을 구하였다.
핫덱대체는 월평균 저축액에 근거하여 대체군을 형성하였는데, 이를 4개의 범주(50만 원 이하, 100만원 이하, 200만 원 이하, 200만 원 초과)로 구분하여 대체군을 형성한 후 각 대체군 내에서 기증자를 무작위로 추출하여 기증자의 응답값을 가지고 무응답을 대체하였다. 기증자는 한 번만 대체에 사용하도록 하였다.
대상 데이터
모의실험을 위하여 13–15차에서 총근로소득을 모두 응답한 4,849가구만을 고려하였고 이 중 월평균 생활비를 응답하지 않은 5가구를 제외하여 총 4,844가구를 연구 대상 모집단으로 간주하였다.
본 연구에서는 종단면 자료에 대한 대체 방법들의 성능을 비교하기 위해 3개 차수(wave)인 13–15차 자료(2010–2012년 조사 자료)를 고려하였고 그 중 대체 대상 변수로 무응답이 상대적으로 많이 나타나는 ‘작년 한 해 총근로소득(이하 총근로소득)’을 선택하였다.
데이터처리
과거 정보 및 현재 시점의 연관 정보를 이용하는 방법인 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이와 함께 이전 시점의 정보를 사용하는 비대체 방법도 함께 살펴보았다. 또한 이 방법들을 횡단면 자료의 대체 방법인 평균대체 및 핫덱대체 결과와 비교하였다.
선형혼합모형을 이용한 대체는 설명변수(고정효과)로 로그변환한 월평균 저축액과 조사차수를 고려하였고, 절편을 랜덤효과로 고려하여 최종 적합하였고 랜덤효과의 분산의 구조는 특정한 패턴을 가지지 않는다고 가정(unstructured로 설정)하여 SAS PROC MIXED로 분석하였다. 이자소득의 무응답은 식(2.
2)에 의해 추정된 총근로소득의 조건부 기댓값으로 대체하였다. 선형혼합모형의 적합은 대부분의 상용 통계 패키지 프로그램에서 구현 가능한데 본 연구에서는 SAS PROC MIXED를 사용하였다.
이론/모형
EM 알고리즘을 사용하여 최대가능도 또는 제한최대가능도 함수를 최대화하는 모수의 추정치를 구한다. EM 알고리즘의 E(expectation) 단계에서는 응답된 자료와 현재 반복에서의 모수추정값을 이용하여 완전한 자료의 기대 로그우도를 구하며, M(maximization) 단계에서는 E 단계에서 구한 완전한 자료의 기대 로그우도를 최대화하는 모수 추정치를 갱신한다.
선형혼합모형(linear mixed model)을 이용한 대체는 패널자료 분석 시 많이 사용하는 방법인 선형혼합모형을 무응답 대체 시 사용한다. 선형혼합모형은 EM 알고리즘(expectation-maximization algorithm)을 사용하여 최대가능도(maximum likelihood; ML) 또는 제한최대가능도(restricted maximum likelihood; REML) 함수를 최대화하는 모수의 추정치를 구하는데, 이 때 EM 알고리즘의 반복 작업을 통하여 최종적으로 수렴하는 추정치를 찾는다 (Laird와 Ware, 1982).
(5) 선형혼합모형에 근거한 베이지안 대체: 선형혼합모형에 근거한 베이지안 대체에서는 선형혼합모형을 이용한 대체와 동일한 모형을 사용하였다. R패키지 PAN을 사용하여 대체를 실시하였으며 MCMC 알고리즘의 반복수(iteration number)는 10,000번으로 설정하였다.
성능/효과
11)보다 작았다. 15차 자료에서도 비슷한 결과를 가지는데, 참값과의 차이가 선형혼합모형에 근거한 베이지안 대체가 가장 작았으며 비대체가 가장 크다는 것을 알 수 있다.
모의실험 결과 선형혼합모형에 근거한 베이지안 대체 방법이 본 논문에서 고려한 다른 대체 방법들에 비해 무응답 비율이 높아지더라도 평균 추정량의 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높은 편으로 나타나서 가장 좋은 대체 방법인 것으로 확인되었다. 각 개별 개체의 응답값은 선형혼합모형에 근거한 대체가 가장 유사하게 추정하는 것으로 나타났다. 이는 이전 시점의 정보를 이용하여 대체하는 방법이 이전 시점의 정보를 고려하지 않는 다른 대체 방법에 비해 대체의 정확도가 높다고 볼 수 있다.
그러나 조사가 점점 안정될수록 무응답 비율은 점점 낮아지는 추세를 가지는데, 한국노동패널조사는 7–8차 조사 이후부터는 무응답 비율이 대체적으로 5% 내외 이거나 모두 응답한 경우도 많아지는 것으로 나타났다.
다음으로 참값과 대체값 사이의 RMSE를 살펴보면 조사차수 및 무응답 비율에 상관없이 모두 선형혼합모형을 이용한 대체에서 RMSE 값이 가장 작은 것으로 나타났다. 14차 자료에서 이 방법의 RSME는 무응답 40%일 때 1,401.
97로 가장 작았다. 다음으로 참값과의 차이가 작은 대체 방법은 핫덱대체로, 14차 자료에서 참값과의 차이가 무응답 10%에서는 19.62이고 무응답 20%에서는 38.91이며 무응답 40%에서는 118.40인 것으로 나타났다. 선형혼합모형을 이용한 대체는 핫덱대체 다음으로 참값과의 차이가 작은데 14차 자료에서 무응답 10%에서는 33.
대체 방법들 중에는 평균대체(197.09–248.92), 선형혼합모형을 이용한 대체(192–243.94), 선형혼합모형에 근거한 베이지안 대체(196.11–248.16), 그리고 핫덱대체(195.07–247.36)의 순서로 넓으나 그 차이는 미약한 것으로 나타났다.
모의실험 결과 선형혼합모형에 근거한 베이지안 대체 방법이 본 논문에서 고려한 다른 대체 방법들에 비해 무응답 비율이 높아지더라도 평균 추정량의 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높은 편으로 나타나서 가장 좋은 대체 방법인 것으로 확인되었다. 각 개별 개체의 응답값은 선형혼합모형에 근거한 대체가 가장 유사하게 추정하는 것으로 나타났다.
모의실험에서는 무응답 비율을 최대 40%까지 설정해 본 결과 대체 방법들의 편의가 현격하게 다르고 일부 방법의 평균에 대한 95% 신뢰구간의 포함율은 현저히 낮아짐을 보여 주어 선형혼합모형에 근거한 베이지안 대체가 우수하다는 것을 확인할 수 있었다. 반면 한국노동패널자료의 실제 무응답 비율은 모의실험에서 고려한 결측의 비율보다 훨씬 낮은 5% 미만이다.
이는 이전 시점의 정보를 이용하여 대체하는 방법이 이전 시점의 정보를 고려하지 않는 다른 대체 방법에 비해 대체의 정확도가 높다고 볼 수 있다. 무응답 비율이 낮은 경우에는 핫덱대체, 선형혼합모형을 이용한 대체나 선형혼합모형에 근거한 베이지안 대체 모두 괜찮은 방법으로 나타났으나, 평균대체와 비대체의 성능은 낮게 나타났다.
문항 중에서 월세금은 1차 조사 때 22%로 나타나 가장 높은 무응답 비율을 가지는 문항이었으나, 조사가 진행되면서 무응답 비율은 1–5% 이내의 비율을 가지며 점점 낮아지는 추세를 보이며 17차 조사에서는 0.2%로 낮은 비율을 가진다.
2%로 낮은 비율을 가진다. 문항별로 무응답 비율이 상이하지만 대지면적, 연건평 및 시가 등의 문항은 무응답 비율이 10% 내외이고, 임대보증금, 금융소득, 총근로소득과 부동산소득 등의 문항은 5% 내외로 나타나 대체적으로 조사 초기에는 무응답 비율이 높은 편이었다. 그러나 조사가 점점 안정될수록 무응답 비율은 점점 낮아지는 추세를 가지는데, 한국노동패널조사는 7–8차 조사 이후부터는 무응답 비율이 대체적으로 5% 내외 이거나 모두 응답한 경우도 많아지는 것으로 나타났다.
선형혼합모형에 근거한 베이지안 대체는 무응답 비율이 40%에서도 99%(14차) 및 82%(15차)를 포함하여 다른 방법에 비해 가장 우수한 결과를 보였다. 선형혼합모형을 이용한 대체는 20%가 무응답인 경우는 포함률이 14차 자료에서는 99%이고 15차 자료에서는 98%로 두 번째로 좋은 성능을 보였으나, 무응답의 비율이 40%에서는 모든 차수에서 참값을 포함하지 못하였다.
17차도 16차와 비슷한 결과를 나타냈다. 선형혼합모형을 이용한 대체의 평균이 218만 원으로 역시 가장 작았으며 완전하게 응답한 케이스만을 가지고 분석한 결과와 평균대체의 평균이 223만 원으로 가장 크게 추정하였다. 표준편차의 경우 대체 방법 중에서 평균대체가 384.
즉, 무응답 비율이 낮은 경우에는 핫덱대체와 선형혼합모형을 이용한 대체의 결과의 포함률이 비슷하지만 무응답 비율이 높은 경우에는 핫덱대체의 포함률이 조금 더 우수한 것으로 나타났다. 이에 반해 평균대체와 비대체는 가장 좋지 않은 결과를 보였으며, 무응답 비율이 20%인 경우에도 불구하고 포함률이 매우 저조한 것으로 나타났다.
이와 다르게 비대체가 무응답 비율이 10%와 20%일 때 대체 방법 중에서 참값과의 차이가 가장 큰 것으로 나타났으나, 무응답 40%에서는 참값과의 차이가 −232.94로 완전한 케이스를 가지고 분석한 결과(315.11)나 평균대체(315.11)보다 작았다.
핫덱대체의 경우 무응답 비율 20%에서는 선형혼합모형을 이용한 대체와 거의 동일한 결과(14차 98%, 15차 100%)를 보였으며, 무응답 비율 40%에서도 14차 자료의 경우 21%와 15차 자료의 경우 20%를 포함하여 비록 낮은 비율이지만 선형혼합모형을 이용한 대체보다 포함률이 높게 나타났다. 즉, 무응답 비율이 낮은 경우에는 핫덱대체와 선형혼합모형을 이용한 대체의 결과의 포함률이 비슷하지만 무응답 비율이 높은 경우에는 핫덱대체의 포함률이 조금 더 우수한 것으로 나타났다. 이에 반해 평균대체와 비대체는 가장 좋지 않은 결과를 보였으며, 무응답 비율이 20%인 경우에도 불구하고 포함률이 매우 저조한 것으로 나타났다.
이 과정을 몇 개의 랜덤하게 선택한 모의실험 자료에 대하여 적용해 본 결과 모두 동일한 모형을 선택하였다. 최종 모형은 설명변수(고정효과)로 월평균생활비(로그 변환함), 가구주의 학력(고졸 미만, 전문대졸 미만, 전문대졸 이상의 3개 범주), 성별, 가구원수, 그리고 연속형 변수로 고려한조사차수를 포함하도록 구성하며, 절편과 기울기에 해당하는 조사차수의 계수가 랜덤효과로 선정되었다. 랜덤효과의 분산의 구조는 특정한 패턴을 가지지 않는다고 가정(unstructured로 설정)한 후 모형을 적합하였다.
평균에 관한 95% 신뢰구간을 보면 완전하게 응답된 케이스만을 가지고 분석한 결과의 신뢰구간 폭이 가장 넓었다(203.39–272.7).
평균에 관한 95% 신뢰구간의 폭은 완전하게 응답한 케이스만을 가지고 분석한 결과(196–250.01)가 가장 넓게 나타났다.
한편 핫덱대체가 239만 2천 원으로 대체 방법 중에서 가장 큰 값으로 추정하였고, 가장 작게 추정한 선형혼합모형을 이용한 대체와의 차이가 3만 9천 원으로 큰 편이었다. 표준편차는 평균대체가 495.19로 가장 작게 나타났고 선형혼합모형을 이용한 대체의 경우에는 495.56으로 작은 편에 속하며, 선형혼합모형에 근거한 베이지안 대체는 495.81이며 핫덱대체는 500.04로 완전히 응답된 자료 만에 근거한 표준편차인 500.42와 함께 가장 크게 나타났다. 평균에 관한 95% 신뢰구간을 보면 완전하게 응답된 케이스만을 가지고 분석한 결과의 신뢰구간 폭이 가장 넓었다(203.
선형혼합모형을 이용한 대체의 평균이 218만 원으로 역시 가장 작았으며 완전하게 응답한 케이스만을 가지고 분석한 결과와 평균대체의 평균이 223만 원으로 가장 크게 추정하였다. 표준편차의 경우 대체 방법 중에서 평균대체가 384.61로 가장 작고 완전하게 응답한 케이스만을 가지고 분석한 결과가 392.59로 가장 크게 나타났다. 평균에 관한 95% 신뢰구간의 폭은 완전하게 응답한 케이스만을 가지고 분석한 결과(196–250.
나머지 대체방법들의 RMSE는 조사차수와 무응답 비율에 따라 다르게 나타나 뚜렷한 형태를 찾아보기는 어렵다. 핫덱대체가 14차 자료에서 무응답 비율에 상관없이 RMSE(무응답 비율 10%에서 1,111.06, 무응답 비율 20%에서 1,530.28, 무응답 비율 40%에서 2,342.99)가 가장 큰 반면에, 15차에서는 선형혼합모형에 근거한 베이지안 대체가 무응답 비율에 상관없이 RMSE(무응답 비율 10%에서 903.22, 무응답 비율 20%에서 1,290.38, 무응답 비율 40%에서 2,020.21)가 가장 크게 나타났다. 선형혼합모형을 이용한 대체는 추정량의 표준오차를 작게 추정하여 RMSE의 값이 작은 반면에, 선형혼합모형에 근거한 베이지안 대체는 베이지안 추정으로 모수와 무응답의 불확실성을 고려하여 추정했기 때문에 RMSE 값이 상대적으로 크게 나타나는 것으로 보인다.
선형혼합모형을 이용한 대체는 20%가 무응답인 경우는 포함률이 14차 자료에서는 99%이고 15차 자료에서는 98%로 두 번째로 좋은 성능을 보였으나, 무응답의 비율이 40%에서는 모든 차수에서 참값을 포함하지 못하였다. 핫덱대체의 경우 무응답 비율 20%에서는 선형혼합모형을 이용한 대체와 거의 동일한 결과(14차 98%, 15차 100%)를 보였으며, 무응답 비율 40%에서도 14차 자료의 경우 21%와 15차 자료의 경우 20%를 포함하여 비록 낮은 비율이지만 선형혼합모형을 이용한 대체보다 포함률이 높게 나타났다. 즉, 무응답 비율이 낮은 경우에는 핫덱대체와 선형혼합모형을 이용한 대체의 결과의 포함률이 비슷하지만 무응답 비율이 높은 경우에는 핫덱대체의 포함률이 조금 더 우수한 것으로 나타났다.
후속연구
이러한 대체 방법들은 주로 횡단면 자료(cross-sectional data)에서 무응답이 발생할 때 사용하는 방법이지만 패널자료(panel data)에서도 적용하는 경우가 많다. 그러나 패널자료의 장점은 동일한 설문 문항에 대해 반복적으로 질문하므로 어떠한 시점에서 무응답이 발생한 경우, 이에 대한 무응답 대체 방법으로 이전 시점의 정보를 활용한다면 보다 정확하게 대체할 수 있을 것이다. 이 관점에서 국내외 패널조사에서는 이전 시점의 정보를 이용하여 대체를 실시하는 방법을 흔히 적용해 왔다.
본 연구의 핫덱대체는 이전 시점의 정보를 사용하지 않고 진행하였다. 본 연구결과에 따르면 이전 시점정보를 사용한 대체가 더 우수한 결과를 도출하므로 핫덱대체를 패널자료의 대체에 사용하는 경우 대체군을 형성할 때 이전 시점 정보를 포함한다면 더 나은 성능을 보일 수 있지 않을까 기대된다. 이에 관해서는 추후 연구가 진행되면 바람직할 것으로 생각된다.
본 연구결과에 따르면 이전 시점정보를 사용한 대체가 더 우수한 결과를 도출하므로 핫덱대체를 패널자료의 대체에 사용하는 경우 대체군을 형성할 때 이전 시점 정보를 포함한다면 더 나은 성능을 보일 수 있지 않을까 기대된다. 이에 관해서는 추후 연구가 진행되면 바람직할 것으로 생각된다.
하지만 시점이 증가하게 되면 모형적합 시 시간에 따른 변화를 적절히 모형화해야 하며 이는 자료의 변화 추세에 따라 달라질 것으로 생각되고 이 방법의 성능도 달라질 수 있을 것이다. 추후 시점을 유연하게 확장해 가면서 보다 정확한 대체 방법은 무엇인지 살펴보는 연구가 진행된다면 더 적절한 대체를 실시할 수 있을 것으로 기대된다.
서 현재 한국노동패널의 대체 방법으로 사용되는 비대체도 적용하기에 적절한 방법으로 생각된다. 하지만 추후 한국노동패널자료의 무응답 비율이 증가하거나 무응답 비율이 높은 다른 패널자료의 경우 비대체보다는 선형혼합모형에 근거한 베이지안 대체를 적용하는 것이 적절할 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
패널조사 연구란?
무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다.
무응답이 발생한 자료를 제외하면 어떤 현상이 발생하는가?
설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다.
무응답 대체 방법에는 어떤 것이 있는가?
일반적으로 무응답이 존재하는 응답자의 전체 응답이 분석에서 제외되기 때문에 이를 채워 넣어 완전한 형태의 자료를 분석하기 위해서 무응답 대체(imputation)가 흔히 사용되고 있다. 대체 방법에는 평균대체(mean imputation)처럼 간단한 방법부터 회귀대체(regression imputation)와 확률적 회귀대체(stochastic regression imputation) 등 명시적 모형에 근거한 대체가 있으며, 핫덱대체(hot deck imputation)와 콜드덱대체(cold deck imputation)처럼 내재적 모형에 근거한 대체 방법이 있다. 이러한 대체 방법들은 주로 횡단면 자료(cross-sectional data)에서 무응답이 발생할 때 사용하는 방법이지만 패널자료(panel data)에서도 적용하는 경우가 많다.
참고문헌 (10)
Dempster, A. P., Laird, N. M., and Rubin, D. B (1977). Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, 39, 1-38.
Duffy, D. (2011). 2007 PSID Income and Wage Imputation Methodology, Survey Research Center-Institute for Social Research Technical Series Paper #11-03, University of Michigan, Michigan.
Frick, J. R. and Grabka, M. M. (2004). Missing Income Data in the German SOEP: Incidence, Imputation and its Impact on the Income Distribution, DIW Discussion Papers No. 376, DIW Berlin.
Laird, N. M. and Ware, J. H. (1982). Random-effects models for longitudinal data, Biometrics, 38, 963-974.
Lee, K., Lee, J., Shin, S., Lee, H., and Kim, K. (2015). The Economic Activity of Korean Individuals and Hou-eholds-2014 (Wave 17) Annual Report of the KLIPS Study, Korea Labor Institute.
Little, R. J. A., and Rubin, D. B. (2002). Statistical Analysis with Missing Data, John Wiley, New York.
Schafer, J. L. and Yucel, R. M. (2002). Computational strategies for multivariate linear mixed-effects models with missing values, Journal of Computational and Graphical Statistics, 11, 437-457.
Song, J. (2015). A Study of Improved Item Nonresponse Imputation Methods for KLIPS, Korea Labor Institute.
Taylor, M. F., Brice, J., Buck, N., and Prentice-Lane, E. (2010). British Household Panel Survey User Manual Volume A-Introduction (Technical Report and Appendices), University Essex, Colchester.
U.S. Census Bureau (2016). Survey of Income and Program Participation 2014 Panel Users' Guide, U.S. Department of Commerce Economic and Statistics Administration U.S. Census Bureau.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.