[논문]복합표본자료에서 동질성검정을 위한 피어슨 검정통계량의 효과

허순영; 정영애

doi:10.7465/jkdi.2012.23.4.757

[국내논문] 복합표본자료에서 동질성검정을 위한 피어슨 검정통계량의 효과
Effect of complex sample design on Pearson test statistic for homogeneity 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.23 no.4, 2012년, pp.757 - 764

초록
AI-Helper

복합표본설계에 기초한 범주형 조사자료는 통상적인 피어슨 카이제곱검정에 필요한 조건을 만족하지 못한다. 그러나 많은 조사연구에서 복잡한 표본설계 방법을 적용하고 있지만, 종래의 피어슨 검정결과를 제시하고 있다. 본 연구는 복합표본설계에 의한 범주형자료의 동질성검정에 대한 실증분석을 통해, 종래의 피어슨 검정과 불편검정인 왈드검정, 표본설계를 반영한 비율추정치를 사용하는 피어슨 검정을 비교하였다. 분석결과, 종래의 피어슨검정은 표본설계를 반영하는 검정들에 비해 통계량 값이 매우 크고, 유의확률이 심각하게 작게 나타나는 것을 확인하였다. 복합표본설계를 반영하되 추정량의 분산을 아는 경우와 모르는 경우의 비교에서는 범주수, 설계효과행렬의 고유치들의 평균과 표준편차에 영향을 받는 것을 확인하였다.

Abstract ▼ AI-Helper

This research is for comparison of test statistics for homogeneity when the data is collected based on complex sample design. The survey data based on complex sample design does not satisfy the condition of independency which is required for the standard Pearson multinomial-based chi-squared test. Today, lots of data sets ara collected by complex sample designs, but the tests for categorical data are conducted using the standard Pearson chi-squared test. In this study, we compared the performance of three test statistics for homogeneity between two populations using data from the 2009 customer satisfaction evaluation survey to the service from Gyeongsangnam-do regional offices of education: the standard Pearson test, the unbiasedWald test, and the Pearsontype test with survey-based point estimates. Through empirical analyses, we fist showed that the standard Pearson test inflates the values of test statistics very much and the results are not reliable. Second, in the comparison of Wald test and Pearson-type test, we find that the test results are affected by the number of categories, the mean and standard deviation of the eigenvalues of design matrix.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

또 왈드검정과 불편추정량을 사용한 피어슨 검정의 설계효과분석을 통해, Holt 등 (1980)의 시뮬레이션에서 다루어지지 않은 복합표본설계를 적용한 조사자료에서 설계효과행렬의 고유값들의 크기가 미치는 효과를 실증분석하였다. 본 연구의 목적은 이러한 실증분석을 통해 종래의 피어슨 카이제곱검정을 위한 가정을 만족하지 못하는 조사자료분석에서 표본설계가 반영된 분석의 필요성과 종래의 피어슨 카이제곱검정의 사용시에 주의의 필요성을 환기시키고자 한다. 실증분석을 위해 2009년 경상남도 시·군 교육청 고객만족도 조사자료를 사용하였다.

제안 방법

영역별 범주화를 위해 각 영역별 문항들에 대한 개별 응답자들의 응답평균을 계산한 후, 이 평균점수를 1점 간격으로 범주화하여 5개 범주를 구성하였다. 범주화한 후, 각 범주에 포함된 응답자수가 작아서 일반적 피어슨 카이제곱검정의 대표본근사조사건을 만족시키지 못하는 범주는 인접범주에 묶어서 재범주화 하였다. Table 3.
본 논문의 2절에서는 두 모집단 동질성 검정을 위한 기존의 세 가지 검정통계량과 연구결과들을 요약하였고, 3절에서는 복합표본설계에 의해 조사된 실증자료분석을 통해 세 가지 검정통계량의 검정결과와 설계효과행렬에 따른 검정결과의 차이들을 비교분석하였고, 4절에는 결론을 제시하였다.
그러나 국내에서 실시되는 많은 조사연구에서, 표본설계에서는 복잡한 표본추출방법을 적용하고 있지만, 자료분석과정에서는 종래의 피어슨 카이제곱검정결과를 그대로 제시하는 경우가 많이 있다. 본 연구는 복합표본설계에 의해 조사된 자료의 실증적 분석을 통해, 두 모집단의 동질성검정에서 종래의 피어슨 카이제곱검정과 복합표본설계를 고려한 왈드검정, 표본설계를 반영한 비율추정량을 사용한 피어슨 검정을 비교 분석하였다.
1은 학부모, 교사용 설문지에서 각 영역별로 조사한 문항수와, 동질성검정을 위해 범주화한 후의 영역별 응답범주수이다. 영역별 범주화를 위해 각 영역별 문항들에 대한 개별 응답자들의 응답평균을 계산한 후, 이 평균점수를 1점 간격으로 범주화하여 5개 범주를 구성하였다. 범주화한 후, 각 범주에 포함된 응답자수가 작아서 일반적 피어슨 카이제곱검정의 대표본근사조사건을 만족시키지 못하는 범주는 인접범주에 묶어서 재범주화 하였다.
표본추출을 위해, 20개 시·군과 학교급 (초등학교와 중학교)으로 층화한 후, 각 층 내에서 학교별 학급수에 비례하여 표본학교를 선정하였다. 이 후, 표본 학교에서 조사대상 학년별로 1개 학급을 선정하였고, 표본학급 내에서 최종조사대상 학생을 할당된 수만큼 조사하였는데, 이 때 학교별 1개 학급선정과 최종조사대상의 선정은 지침을 작성하여 각 표본학교에서 지침에 따라 무작위로 선정하도록 하였다. 학부모는 표본으로 선정된 학생의 학부모를 조사대상으로 하였고, 교사는 표본으로 선정된 학교당 10명 내외를 조사대상으로 하였다.
학부모는 표본으로 선정된 학생의 학부모를 조사대상으로 하였고, 교사는 표본으로 선정된 학교당 10명 내외를 조사대상으로 하였다. 표본가중치는, 표본설계 시에 결정된 기본가중치에 단위 무응답을 조정한 후, 사후층화에 의해 재조정하였다. 만족도 문항의 경우 무응답은 각 표본학교별 응답자의 평균값으로 결측치를 보정하였다.
학생, 학부모 교육만족도와 교사 업무만족도는 각각 7개와 6개의 지표영역에 대해 조사하였고, 각 영역별로 다수의 질문들 5점 척도로 측정하였다. Table 3.

대상 데이터

학부모 응답자는 총 3,456명으로 시지역 응답자가 2,453명이고 군지역 응답자는 1,003명이다. 교사응답자는 총 1,347명이고 시지역 응답자가 834명, 군지역 응답자는 513명이다. Table 3.
동질성검정을 위한 모집단은 10개 시지역과 10개 군지역으로 하였다. 여기서는 학부모와 교사 자료만을 분석대상으로 하였다.
실증분석을 위해 2009년 경상남도 시·군 교육청 고객만족도 조사자료를 사용하였다.
동질성검정을 위한 모집단은 10개 시지역과 10개 군지역으로 하였다. 여기서는 학부모와 교사 자료만을 분석대상으로 하였다. 학부모 응답자는 총 3,456명으로 시지역 응답자가 2,453명이고 군지역 응답자는 1,003명이다.
표본추출을 위해, 20개 시·군과 학교급 (초등학교와 중학교)으로 층화한 후, 각 층 내에서 학교별 학급수에 비례하여 표본학교를 선정하였다.
여기서는 학부모와 교사 자료만을 분석대상으로 하였다. 학부모 응답자는 총 3,456명으로 시지역 응답자가 2,453명이고 군지역 응답자는 1,003명이다. 교사응답자는 총 1,347명이고 시지역 응답자가 834명, 군지역 응답자는 513명이다.
이 후, 표본 학교에서 조사대상 학년별로 1개 학급을 선정하였고, 표본학급 내에서 최종조사대상 학생을 할당된 수만큼 조사하였는데, 이 때 학교별 1개 학급선정과 최종조사대상의 선정은 지침을 작성하여 각 표본학교에서 지침에 따라 무작위로 선정하도록 하였다. 학부모는 표본으로 선정된 학생의 학부모를 조사대상으로 하였고, 교사는 표본으로 선정된 학교당 10명 내외를 조사대상으로 하였다. 표본가중치는, 표본설계 시에 결정된 기본가중치에 단위 무응답을 조정한 후, 사후층화에 의해 재조정하였다.

데이터처리

2개 이상의 범주를 갖고 있는 범주형자료의 적합도검정, 동질성검정, 독립성검정에서는 관찰치들이 서로 독립이라는 가정 아래 피어슨 카이제곱검정을 실시한다. 그러나 복합표본설계에 의한 조사자료는 일반적 피어슨 카이제곱검정이 기초한 가정을 만족하지 못한다.
본 연구는 복합표본설계에 의해 조사된 실증자료분석을 통해, 범주형자료의 동질성검정에서 종래의 피어슨 카이제곱검정, 불편검정인 왈드검정, 그리고 표본설계를 반영한 비율에 대한 불편추정량을 사용한 피어슨 검정에 대해 각각 검정통계량과 유의확률을 계산하여 실증비교하였다. 또 왈드검정과 불편추정량을 사용한 피어슨 검정의 설계효과분석을 통해, Holt 등 (1980)의 시뮬레이션에서 다루어지지 않은 복합표본설계를 적용한 조사자료에서 설계효과행렬의 고유값들의 크기가 미치는 효과를 실증분석하였다. 본 연구의 목적은 이러한 실증분석을 통해 종래의 피어슨 카이제곱검정을 위한 가정을 만족하지 못하는 조사자료분석에서 표본설계가 반영된 분석의 필요성과 종래의 피어슨 카이제곱검정의 사용시에 주의의 필요성을 환기시키고자 한다.
본 연구는 복합표본설계에 의해 조사된 실증자료분석을 통해, 범주형자료의 동질성검정에서 종래의 피어슨 카이제곱검정, 불편검정인 왈드검정, 그리고 표본설계를 반영한 비율에 대한 불편추정량을 사용한 피어슨 검정에 대해 각각 검정통계량과 유의확률을 계산하여 실증비교하였다. 또 왈드검정과 불편추정량을 사용한 피어슨 검정의 설계효과분석을 통해, Holt 등 (1980)의 시뮬레이션에서 다루어지지 않은 복합표본설계를 적용한 조사자료에서 설계효과행렬의 고유값들의 크기가 미치는 효과를 실증분석하였다.

성능/효과

실증분석을 통해서 단순임의복원추출을 가정하는 종래의 피어슨 카이제곱검정은 표본설계를 반영한 왈드검정에 비해 통계량이 매우 크게 나타나고, 그 결과 유의확률은 심각하게 작은 것을 확인하였다. 복합표본설계를 반영하되 추정량의 분산을 아는 경우와 모르는 경우의 비교에서는, 첫째, 설계효과행렬의 고유치들의 평균과 표준편차가 더 작아도 범주수가 더 크면, 분산을 모르는 경우의 통계량 값이 더 크고, 둘째, 동일한 범주수의 경우 고유치들의 평균이 작더라도 표준편차가 크면, 분산을 모르는 경우의 통계량 값이 더 크고, 셋째, 평균이 1보다 작고 표준편차가 1에 가까우면 범주수가 크더라도 분산을 아는 경우와 모르는 경우의 통계량 값이 차이가 작은 것도 함께 확인하였다.
본 연구의 실증분석은 2009년 경남교육청 고객만족도조사자료 분석을 통해 이루어진 것으로, 복합 표본조사의 범주형자료분석에서 기존의 피어슨 카이제곱검정 사용은 주의가 필요함을 경험적으로 확인하였다. 본 연구의 실증분석결과는 특정표본설계에 기초하여 두 개 모집단과 일부 변수들에 대해서 얻은 제한적인 결과이고, 복합표본설계에 의한 조사자료분석에서 분산을 모르는 경우 비율에 대한 불편추정량을 사용한 피어슨검정을 사용해도 되는 지에 대한 결정은 각 조사연구의 설계효과를 고려한 판단이 필요하다.
실증분석을 통해서 단순임의복원추출을 가정하는 종래의 피어슨 카이제곱검정은 표본설계를 반영한 왈드검정에 비해 통계량이 매우 크게 나타나고, 그 결과 유의확률은 심각하게 작은 것을 확인하였다. 복합표본설계를 반영하되 추정량의 분산을 아는 경우와 모르는 경우의 비교에서는, 첫째, 설계효과행렬의 고유치들의 평균과 표준편차가 더 작아도 범주수가 더 크면, 분산을 모르는 경우의 통계량 값이 더 크고, 둘째, 동일한 범주수의 경우 고유치들의 평균이 작더라도 표준편차가 크면, 분산을 모르는 경우의 통계량 값이 더 크고, 셋째, 평균이 1보다 작고 표준편차가 1에 가까우면 범주수가 크더라도 분산을 아는 경우와 모르는 경우의 통계량 값이 차이가 작은 것도 함께 확인하였다.

후속연구

본 연구의 실증분석은 2009년 경남교육청 고객만족도조사자료 분석을 통해 이루어진 것으로, 복합 표본조사의 범주형자료분석에서 기존의 피어슨 카이제곱검정 사용은 주의가 필요함을 경험적으로 확인하였다. 본 연구의 실증분석결과는 특정표본설계에 기초하여 두 개 모집단과 일부 변수들에 대해서 얻은 제한적인 결과이고, 복합표본설계에 의한 조사자료분석에서 분산을 모르는 경우 비율에 대한 불편추정량을 사용한 피어슨검정을 사용해도 되는 지에 대한 결정은 각 조사연구의 설계효과를 고려한 판단이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	2개 이상의 범주를 갖고 있는 범주형자료들의 적합도검정, 동질성검정, 독립성검정에서는 어떠한 가정 아래 피어슨 카이제곱검정을 실시하는가?	2개 이상의 범주를 갖고 있는 범주형자료의 적합도검정, 동질성검정, 독립성검정에서는 관찰치들이 서로 독립이라는 가정 아래 피어슨 카이제곱검정을 실시한다. 그러나 복합표본설계에 의한 조사자료는 일반적 피어슨 카이제곱검정이 기초한 가정을 만족하지 못한다.
	피어슨 카이제곱검정에 복합표본설계를 반영하되 추정량의 분산을 아는 경우와 모르는 경우의 비교한 결과는 어떻게 나타났는가?	실증분석을 통해서 단순임의복원추출을 가정하는 종래의 피어슨 카이제곱검정은 표본설계를 반영한 왈드검정에 비해 통계량이 매우 크게 나타나고, 그 결과 유의확률은 심각하게 작은 것을 확인하였다. 복합표본설계를 반영하되 추정량의 분산을 아는 경우와 모르는 경우의 비교에서는, 첫째, 설계효과행렬의 고유치들의 평균과 표준편차가 더 작아도 범주수가 더 크면, 분산을 모르는 경우의 통계량 값이 더 크고, 둘째, 동일한 범주수의 경우 고유치들의 평균이 작더라도 표준편차가 크면, 분산을 모르는 경우의 통계량 값이 더 크고, 셋째, 평균이 1보다 작고 표준편차가 1에 가까우면 범주수가 크더라도 분산을 아는 경우와 모르는 경우의 통계량 값이 차이가 작은 것도 함께 확인하였다.
	복합표본설계는 어떠한 요소를 사용하여 표본을 추출하는가?	그러나 복합표본설계에 의한 조사자료는 일반적 피어슨 카이제곱검정이 기초한 가정을 만족하지 못한다. 복합표본설계 (complex sample design)는 층화 (stratification), 집락 (clustering), 다단계 (multi-stage) 또는 다상 (multi-phase), 불균등확률 (unequal probability), 다중틀 (multi-frame) 등을 복합적으로 사용하여 표본을 추출한다 (Lavrakas, 2008). 오늘날 많은 조사연구는 이러한 복합표본설계에 기초하여 수행되고 있다 (예로, Kim 등, 2009; Kim 등, 2010).

참고문헌 (12)

Chung, Y., Jung, D. and Heo, S. (2009). 2009 Customer satisfaction evaluation survey to the service from Gyeongsangnam-do regional offices of education, Changwon National Univeristy, Gyeongnam.
Heo. S. and Chang. D. (2010). A sample survey design for service satisfaction evaluation of regional education offices. Journal of the Korean Data & Information Science Society, 21, 671-678.
Holt, D., Scott, A. J. and Ewings, P. D. (1980). Chi-squared tests with survey data. Journal of the Royal Statistical Society A, 143, 302-320.
Heo, S. (2006). Power analysis of the Rao-Scott first-order adjustment to the Pearson test for homogeneity. Proceedings of Joint Statistical Meeting, Seattle, U.S.A., 3126-3129.
Kim, D. H., Cho, K. H., Hwang, J. S. and Jung, K. H. (2009). A sample design for life and attitude survey of Gyeongbuk people. Journal of the Korean Data & Information Science Society, 20, 1165-1167.
Kim, D. H., Hwang, J. S. and Kwak, S. G. (2010). A sample design for the survey on actual state of SMEs. Journal of the Korean Data & Information Science Society, 21, 1021-1029.
Lee, C., Kang, H. and Sim, S. (2012). An implementation of the sample size and the power for testing mean and proportion. Journal of the Korean Data & Information Science Society, 23, 53-61.

원문보기 상세보기
Lavrakas, P. J. (2008). Encyclopedia of survey research methods, Vol.2, SAGE Publication, Inc., London.
Rao, J. N. K. and Scott, A. J. (1981). The analysis of categorical data from complex sample surveys: Chi-squared tests for goodness of fit the independence in two-way tables. Journal of the American Statistical Association, 76, 221-230.

상세보기
Rao, J. N. K. and Scott, A. J. (1984). On chi-squared test for multiway contingency tables with cell proportions estimated from survey data. The Annals of Statistics, 12, 46-60.

상세보기
Rao, J. N. K. and Scott, A. J. (1987). On simple adjustments to chi-square tests with sample survey data. The Annals of Statistics, 15, 385-397.

상세보기
Shao, J. (1996). Resampling methods in sample surveys (with discussion). Statistics, 27, 203-254.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증