[논문]대표성을 위한 R-indicator의 사용과 추정법 연구

박현아; 이기재

doi:10.5351/kjas.2015.28.3.417

대표성을 위한 R-indicator의 사용과 추정법 연구
Usage and Estimation of R-indicator for Representative 원문보기

응용통계연구 = The Korean journal of applied statistics, v.28 no.3, 2015년, pp.417 - 427

박현아 (서울대학교 통계학과) , 이기재 (한국방송통신대학교 정보통계학과)

초록
AI-Helper

표본의 대표성을 측정하기 위한 척도로 응답률이 사용된다. 즉 높은 응답률일수록 표본의 대표성을 더 잘 나타낸다고 할 수 있다. 그러나 높은 응답률이라 할지라도 무응답이 존재하는 것이므로 표본의 대표성을 설명하기에는 한계가 있는 경우가 발생한다. 그래서 Schouten 등 (2009)에서는 R-indicator라는 새로운 척도를 제시하여 표본의 대표성을 더 설명할 수 있게 하였다. 본 논문에서는 R-indicator도 표본에 의해 추정되어야 한다는 것에 착안하여 그것에 관한 새로운 추정량을 제시한다. 또한 여러 모의실험하에 R-indicator의 대표성으로써의 설명력과 제안된 추정량의 편향과 효율을 기존의 추정량과 비교분석하며 실제자료에도 제안한 추정량을 적용하여 표본의 대표성을 설명한다.

Abstract ▼ AI-Helper

Measures in response rate used to measure the representativeness of the sample (the more high response rate) better explain the representativeness of the sample. However, we cannot often explain the representativeness of the sample because there is nonresponse even in the high response rate. Therefore, Schouten et al. (2009) presented a new R-indicator measure that can be described as a representative of the sample. We research the new estimator of the R-indicator in this paper because there are parameters that require estimations. We describe the meanings as representative of the R-indicator; consequently, the bias and efficiency of the proposed estimator for R-indicator are compared to the existing estimator under various simulations. The representativeness of the sample is also explained by applying the proposed estimators in the actual data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

일반적으로 척도라는 것은 표본으로 그 값을 도출해야 하기 때문에 추정이라는 과정을 거쳐야 한다. 그래서 본 연구에서는 R-indicator에 대한 기존의 추정방법보다 편향이 줄어들고 효율이 좋아지는 방법을 제시하였으며 모의실험을 통하여 그와 같은 성질들을 규명하였다.
본 논문에서는 Schouten 등 (2009)에서 제안된 R-indicator의 대표성에 관한 의미와 설명력을 연구하며 R-indicator의 새로운 추정방법을 제시하고자 한다. R-indicator는 본질적으로 응답확률에 기반을 두고 있으므로 그 응답확률 추정이 고려되어야 하며 또한 표본에 기반을 두어 그 값을 계산해야 하므로 모수에 대한 추정이 고려되어야 한다.
본 논문에서는 평균응답확률 추정량과 R-indicator 추정량을 위해 H´ajeck 추정량의 형태를 적용하는 것을 연구한다.
본 연구에서는 연도별 종단면 가중치를 사용하여 R-indicator 값을 계산함으로써 표본의 대표성을 살펴본다. 우선 각 개체별 응답확률 추정값은 로지스틱회귀모형을 적용하고자 응답확률에 영향을 미치는 보조변수들을 선별하는 작업을 실시한다.
본 연구에서는 응답확률의 추정과 표본설계에서의 추출에 의한 추정으로 나누어서 새로운 추정방법을 연구한다. 여러 가지 응답확률 추정방법과 포함확률에 기반을 둔 새로운 R-indicator의 추정기법을 연구하고 다양한 모의실험 하에 R-indicator의 대표성으로써의 설명력과 제안된 추정량의 편향과 효율을 기존의 추정량과 비교분석한다.
여기에서의 추정은 표본설계에 의한 추정과 응답확률의 추정으로 두가지 방향으로 전개 되었는데 응답 확률의 추정문제는 표본조사 분야에서는 무응답 가중치 보정 및 대체에서 많이 연구되어져 왔으며 본 연구에서는 표본의 대표성 척도분야에 그 확률의 추정문제를 확장하여 적용하고자 하였다.
장애인고용패널조사는 급변하는 장애인의 경제활동상태와 관련된 동태적 기초통계를 생산하고, 예를 들어 장애인의 노동시장 참여에 대한 기초자료로 취업자수,실업자수, 비경제활동 인구수 등을 추계하고, 경제활동상태에 영향을 주는 개인적, 환경적 요인을 규명하여 장애인 고용정책 수립 및 평가에 유용한 자료를 제공하는 것을 목적으로 한다. 1차년도인 2008년도 조사에서는 장애인복지법에서 규정하고 있는 15개 유형의 장애를 지니고 있는 등록장애인 5,092명을 대상으로 진행되었고 연도별 패널조사가 계속해서 진행되고 있다.
좋은 추정량이란 기본적으로 불편을 만족하고 효율이 좋은 것을 선호하는 데 본 연구에서는 근사적인 불편을 만족하고 기존의 추정량보다 효율의 증대를 가져올 수 있는 추정량을 제시하고자 한다. 본 논문에서는 평균응답확률 추정량과 R-indicator 추정량을 위해 H´ajeck 추정량의 형태를 적용하는 것을 연구한다.

가설 설정

그러나 이것은 각 개체별 응답확률들을 비교해야 하기 때문에 실제적으로 사용하는 데 제약사항이 있으므로 이것보다 약한 개념을 가지는 대표성 이론을 정의할 수 있다. 그래서 L개의 범주를 가지는 보조변수를 고려하며 그 보조변수는 표본에서 모두 응답함을 가정한다. 각 범주별 모집단의 크기는 N_h (h = 1, .
그리고 위에서 제시된 R-indicator 추정량의 통계적 성질을 다루고자 다음과 같은 조건을 가정한다.
이며 이것은 비추정의 형태를 가지고 있으며 추정된 응답확률이 응답확률과 거의 비슷하다는 가정을 한다면 근사적인 불편성을 만족함을 알 수 있다. 평균응답확률을 추정하기 위해 모집단의 크기 N이 적용되는 곳에 #을 사용한 것은 R-indicator추정량에도 적용하여 다음과 같은 형태를 제시한다.
을 가정하여 10,000개의 자료를 생성한다. 즉 N = 10,000개의 자료를 유한모집단으로 가정한다. 또한 각 모집단의 자료별로 응답확률을 안다는 가정하에 (α₀, α₁)의 회귀계수를 가지는 로지스틱회귀모형을 통하여 그 확률을 생성한다.
이와같이 정의된 응답확률 개념을 바탕으로 표본자료의 대표성(representativity)은 두 가지 관점으로 정의할 수 있다. 첫째, 표본에 관한 strongly representative에 관한 개념이다. 이것은 모집단의 모든 개체에 대해 응답확률들이 모두 같고, 모든 응답들이 독립인 경우를 말하며 그것을 수식으로 표현하면

제안 방법

하지만 R-indicator로 표본의 대표성을 다 알 수 있기보다는 응답률과 함께 대표성을 나타내는 데 보완적인 성격을 가지게 된 것이라 할 수 있다. 그래서 다른 여러 척도들을 같이 비교함으로써 표본의 대표성 확보가 더 견고해 지도록 한다. 대표성을 위한 다른 여러 척도는 Remark 2.
모든 표본에 대해 포함확률이 다 존재한다는 가정하에 지금까지의 표본의 대표성은 전체 표본에 대한 응답률로 알 수 있었다. 그러나 응답률만으로는 표본의 대표성을 보장할 수 없는 경우가 발생하므로 위에서 제시된 이론들을 바탕으로 표본의 대표성을 알아보기 위한 척도로써 단순하게 전체 표본에 대한 응답률 외에 각 개체에 대한 응답확률들을 사용하는 것을 고려한다. 예를 들어 모든 응답확률이 동일하다면 응답은 strongly representative를 나타내고 응답의 구성과 표본사이에 어떤 체계적인 차이점이 없다는 것을 의미한다.
5에서 나타남을 알 수 있다. 그러므로 표본자료의 대표성을 살펴보기 위해서 먼저 응답률을 계산하고 그리고 R-indicator의 값을 계산하여서 그 값들이 큰 여부를 알아보면 된다.
6에서 여러개의 응답확률별 표본의 크기 100개를 층화pps추출을 사용하고 배정방법으로는 네이만배정을 사용한다. 그리고 이와 같은 추출을 1000번의 모의실험을 통하여 R-indicator의 추정량의 편향 및 MSE를 계산한다.
여러 가지 응답확률 추정방법과 포함확률에 기반을 둔 새로운 R-indicator의 추정기법을 연구하고 다양한 모의실험 하에 R-indicator의 대표성으로써의 설명력과 제안된 추정량의 편향과 효율을 기존의 추정량과 비교분석한다. 또한 실제자료를 사용하여 제안된 R-indicator 접근도 연구한다.
또한 응답율과 R-indicator외에 표본의 대표성을 알기위한 척도의 비교를 위해 Son 등 (2014)에 제안된 부차그룹 응답률의 변동계수와 무응답 가중치의 분산 등을 장애인고용패널자료에 적용하여 유용성을 살펴보았다.
8은 각 연도별 조사에 대한 R-indicator의 추정값과 다른 척도들의 값을 비교한 것이다. 본 연구에서는 모집단의 정확한 크기를 추정해야 하였으므로 R-indicator 계산에서 연도별 모집단의 크기는 가중치의 합을 사용한다. 즉 본 연구에서 제시된 R-indicator 추정량을 사용한다.
본 연구에서는 응답확률의 추정과 표본설계에서의 추출에 의한 추정으로 나누어서 새로운 추정방법을 연구한다. 여러 가지 응답확률 추정방법과 포함확률에 기반을 둔 새로운 R-indicator의 추정기법을 연구하고 다양한 모의실험 하에 R-indicator의 대표성으로써의 설명력과 제안된 추정량의 편향과 효율을 기존의 추정량과 비교분석한다. 또한 실제자료를 사용하여 제안된 R-indicator 접근도 연구한다.
본 연구에서는 연도별 종단면 가중치를 사용하여 R-indicator 값을 계산함으로써 표본의 대표성을 살펴본다. 우선 각 개체별 응답확률 추정값은 로지스틱회귀모형을 적용하고자 응답확률에 영향을 미치는 보조변수들을 선별하는 작업을 실시한다. Table 3.
표본의 대표성을 위해서는 먼저 각 개체에 대하여 응답확률을 추정하고, 추정된 응답확률과 표본설계에서의 포함확률 πi을 사용하여 R-indicator를 구한다.

이론/모형

그러므로 조사과정에서 응답률을 높이기 위한 작업이 시행되고 있으며 높은 응답률로 모집단에 대한 표본의 대표성을 말해오고 있었다. 그러나 높은 응답률만으로는 표본의 대표성을 설명할 수 없다는 것을 본 연구를 통해 제시하고자 하였으며 그것에 관한 척도로 Schouten 등 (2009)가 제시한 R-indicator를 사용하였다. 모의실험을 통하여 높은 응답률에도 표본의 대표성이 떨어질수 있다는 것을 보였으며 그때 R-indicator의 값도 그것을 설명할 수 있다는 것을 보였다.
응답확률 # (i = 1, 2, . . . , n)을 추정하기 위해서 표본에서 응답이 모두 이루어진 보조변수들이 존재하며 이를 이용하여 모수적 방법인 로지스틱회귀모형, 프로빗 모형 등을 이용한다.
본 연구에서는 모집단의 정확한 크기를 추정해야 하였으므로 R-indicator 계산에서 연도별 모집단의 크기는 가중치의 합을 사용한다. 즉 본 연구에서 제시된 R-indicator 추정량을 사용한다. Table 3.

성능/효과

아래 Table에 나타난 값을 살펴보면 r1/r2값과 sr1/sr2값들이 모두 1보다 큼을 알 수 있고 편향도 r1과 sr1보다 r2와 sr2가 작음을 알 수 있다. 결론적으로 본 논문에서 제시되는 R-indicator의 추정량의 효율이 더 좋음을 알 수 있다.
그러나 높은 응답률만으로는 표본의 대표성을 설명할 수 없다는 것을 본 연구를 통해 제시하고자 하였으며 그것에 관한 척도로 Schouten 등 (2009)가 제시한 R-indicator를 사용하였다. 모의실험을 통하여 높은 응답률에도 표본의 대표성이 떨어질수 있다는 것을 보였으며 그때 R-indicator의 값도 그것을 설명할 수 있다는 것을 보였다.
그러나 각국의 가구패널조사의 표본유지율의 예를 살펴보면 5차년도를 기준으로 미국 PSID는 81%, 독일 GSEP는 81%, BHPS는 75% 등을 나타내며 한국의 가구패널조사의 경우 대우패널의 5년 유지율은 60%, 노동패널의 경우 76%를 나타낸다 (Kang과 Bang, 2011). 본조사는 4차년도를 나타내지만 위의 예와 비교해 보면 그리 낮은 응답률이 아님을 알 수 있으며 R-indicator의 값도 가장 작은 값이 0.91907정도이므로 0보다는 1에 가까운 값을 나타냄을 알 수 있다. 즉 종단적 성격을 가지는 표본이 모집단에 대한 대표성을 가진다는 것을 알 수 있다.

후속연구

그러나 기존의 연구로의 비모수적 방법은 가중치를 사용한 것이 아니기 때문에 더 연구가 진행되어야 한다. 결론적으로 R-indicator의 계산을 위해서 응답확률의 추정을 조금 더 정확하게 할 필요가 있다. 예를 들어 응답확률을 추정하기 위한 보조변수의 선택도 신중해야 하며 가중치 조정과정에서의 무응답 조정층의 구성과 R-indicator 계산에서의 조정층이 상이함으로 발생하는 여러 문제점도 신중하게 접근해야 한다.
본 연구에서 제시되는 다양한 척도들이 모든 표본의 대표성을 다 알 수 있다고 할 수는 없기 때문에 향후 연구방향으로 대표성을 나타낼 수 있는 다양한 지표로의 연구가 진행되어야 한다. 그리고 비모수적 방법인 CHAID 분류나무모형 또는 커널(kernel)모형 등에 가중치를 사용한 응답확률 추정방법에 대한 연구와 R-indicator추정을 위하여 응답확률의 추정문제를 비모수적 방법과 모수적 방법의 비교에 대한 연구가 향후 진행될 수 있다. 또한 응답확률 추정을 위한 보조변수의 선택방법도 향후 연구 주제로 고려할 수 있으며 재조사의 결정방법에 적용하여 최적의 횟수를 정하는 데 R-indicator의 적용을 논의할 수도 있을 것이다.
그리고 비모수적 방법인 CHAID 분류나무모형 또는 커널(kernel)모형 등에 가중치를 사용한 응답확률 추정방법에 대한 연구와 R-indicator추정을 위하여 응답확률의 추정문제를 비모수적 방법과 모수적 방법의 비교에 대한 연구가 향후 진행될 수 있다. 또한 응답확률 추정을 위한 보조변수의 선택방법도 향후 연구 주제로 고려할 수 있으며 재조사의 결정방법에 적용하여 최적의 횟수를 정하는 데 R-indicator의 적용을 논의할 수도 있을 것이다.
본 연구에서 제시되는 다양한 척도들이 모든 표본의 대표성을 다 알 수 있다고 할 수는 없기 때문에 향후 연구방향으로 대표성을 나타낼 수 있는 다양한 지표로의 연구가 진행되어야 한다. 그리고 비모수적 방법인 CHAID 분류나무모형 또는 커널(kernel)모형 등에 가중치를 사용한 응답확률 추정방법에 대한 연구와 R-indicator추정을 위하여 응답확률의 추정문제를 비모수적 방법과 모수적 방법의 비교에 대한 연구가 향후 진행될 수 있다.
종합해 보면 본 연구는 표본의 대표성을 구현하기 위한 보조 수단으로의 척도의 제안과 추정을 연구하고 응답확률의 추정방안을 제안하였다 할 수 있으며 연구의 발전된 방향으로는 다른 여러 대표성을 위한 척도들의 개발과 모형의 가정에 민감하지 않은 비모수적 방법들로 응답확률을 추정하는 것과 각각의 표본조사의 특색별로 재조사의 횟수를 응답률과 R-indicator와 같은 척도들로 결정하는 것을 들 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	응답률을 파악함으로써 표본 대표성과 무응답으로 인한 편향을 살피는 것의 한계는?	기존 연구에서는 대개 응답률을 파악함으로써 표본 대표성과 무응답으로 인한 편향을 살펴보고자 하였지만, 응답률을 높이는 것만으로 추정량의 편향을 줄일 수 없다 (Groves, 2006). 이와 같이 응답률이라는 단순한 척도가 표본의 대표성을 완벽하게 설명하는 것이라 할 수 없기 때문에 그것의 대안으로 응답확률을 이용한 산포, 절대편향의 상한값, 제곱근 MSE의 상한값, 부차그룹 응답률의 변동계수 등과 같은 다양한 척도(indicator)들이 연구되어 왔다.
	표본의 대표성을 높이기 위해 선행되어야 하는 것은?	모집단에 대한 표본의 대표성은 포함확률이 없는 조사단위의 비율을 줄여서 편향이 없는 추정량을 제시하는 것을 말한다 (Kim, 2005). 실제조사에서 표본의 대표성을 높이기 위해서는 추출틀의 포괄범위율(coverage rate)을 높이는 노력과 함께 완벽한 응답이 이루어져야 하는 데 조사과정에서는 무응답이 발생하게 된다.

참고문헌 (15)

Ekholm, A. and Laaksonen, S. (1991). Weighting via response modeling in the Finnish household budget survey, Journal of Official Statistics, 7, 325-337.
Groves, R. M. (2006). Nonresponse rates and nonresponse bias in household surveys, Public Opinion Quarterly, 70, 646-675.

상세보기
Horvitz, D. G. and Thompson, D. J. (1952). A generalization of sampling without replacement from a finite universe, Journal of the American Statistical Association, 47, 663-685.

상세보기
Iannacchione, V. G. (2003). Sequential weight adjustment for location and cooperation propensity for the 1995 national survey of family growth, Journal of Official Statistics, 19, 31-43.
Kang, S. and Bang, T. K. (2011). Constructing panel data using repeated cross-sectional survey data: A case of farm household survey and its analysis, Survey Research, 12, 89-112.
Kim, J. K. (2008). The Sampling Survey, Free Academy, Gyeonggido.
Kim, J. K. and Park, H. (2006). Imputation using response probability, The Canadian Journal of Statistics, 34, 171-182.

상세보기
Kim, K. S. (2005). Representative of sample and efficiency of estimation, Survey Research, 6, 39-62.
Robins, J. M., Rotnitzky, A. and Zhao, L. P. (1994). Estimation of regression coefficients when some regressors are not always observed, Journal of the American Statistical Association, 89, 846-866.

상세보기
Rosenbaum, P. R. (1987). Model-based direct adjustment, Journal of the American Statistical Association, 82, 387-394.

상세보기
Schouten, B., Bethlehem, J., Beullens, K., Kleven, O., Loosveldt, G., Luiten, A., Rutar, K., Natalie, S. and Skinner, C. (2012). Evaluating, comparing, monitoring and improving representativeness of survey response through R-indicators and partial R-indicators, International Statistical Review, 80, 382-399.

상세보기
Schouten, B., Cobben, F. and Bethlehem, J. (2009). Indicators for the representativeness of survey response, Survey Methodology, 35, 101-113.

상세보기
Schouten, B., Shlomo, N. and Skinner, C. (2011). Indicators for monitoring and improving representativeness of response, Journal of Official Statistics, 27, 1-24.
Shlomo, N., Skinner, C. J. and Schouten, B. (2012). Estimation of an indicator of the representativeness of survey response, Journal of Statistical Planning and Inference, 142, 201-211.

상세보기
Son, C. K., Kim, H., Gang, H. and Oh, H. (2014). An evaluation analysis of nonresponse effect for the panel survey, Proceeding of the Korean Association for Survey Research in Fall, 2014, 39-53.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증