일반적인 관찰연구 자료의 경우 관심변수의 관측 빈도가 한 집단에 치우치는 데이터 불균형 문제가 빈번하게 발생한다. 이를 해결하는 방법으로 통계적 매칭방법(statistical matching method)을 사용하며 특정 조건에 영향을 받은 관측자료가 관측대상으로 선정될 기회가 높아지는 선택편향(selection bias)을 줄일 수 있다. 본 연구에서는 관심변수의 결과에 영향을 미치는 ...
일반적인 관찰연구 자료의 경우 관심변수의 관측 빈도가 한 집단에 치우치는 데이터 불균형 문제가 빈번하게 발생한다. 이를 해결하는 방법으로 통계적 매칭방법(statistical matching method)을 사용하며 특정 조건에 영향을 받은 관측자료가 관측대상으로 선정될 기회가 높아지는 선택편향(selection bias)을 줄일 수 있다. 본 연구에서는 관심변수의 결과에 영향을 미치는 공변량의 분포가 집단변수의 관심군과 비 관심군 간에 유사해지도록 4종류 통계적 매칭방법을 적용하여 관심군을 기준으로 일대일 매칭한다. 이때 매칭의 기준이 되는 유사성 척도로 성향점수(propensity score) 또는 마할라노비스 거리(Mahalanobis distance)가 사용되고, 매칭에 적용하는 알고리즘은 최근접 이웃 일치(nearest neighbor matching) 또는 최적 일치(optimal matching)가 사용된다. 그 후 공변량과 관심변수에 대한 두 집단 간 평균 차이를 비교하는데, 매칭 전에는 독립표본 t-검정을 사용하고 매칭 후에는 독립표본 t-검정과 대응표본 t-검정을 사용한다. 그 결과 모의실험과 사례연구에서 매칭방법에 따라 공변량 매칭 결과 또는 공변량과 관심변수에 대한 평균 차이 검정 결과가 다르고, 매칭 결과분석에 사용한 평균 차이 검정방법에 따라 해석의 방향도 달라졌다. 따라서 집단 간 평균 비교에 있어서 공변량을 기준으로 하는 관측자료 짝을 만든 뒤 대응표본 t-검정을 실행할 때 귀무가설을 기각하는 사례가 많다는 점을 유의해야 한다. 실제 연구에서도 매칭 후 어떤 검정을 사용할지 고민될 때가 있는데, 통계적 매칭방법을 사용하여 최소한 공변량의 분포가 유사해지도록 표본을 만들어 놓고 연구를 수행하는 것이 필요하다.
일반적인 관찰연구 자료의 경우 관심변수의 관측 빈도가 한 집단에 치우치는 데이터 불균형 문제가 빈번하게 발생한다. 이를 해결하는 방법으로 통계적 매칭방법(statistical matching method)을 사용하며 특정 조건에 영향을 받은 관측자료가 관측대상으로 선정될 기회가 높아지는 선택편향(selection bias)을 줄일 수 있다. 본 연구에서는 관심변수의 결과에 영향을 미치는 공변량의 분포가 집단변수의 관심군과 비 관심군 간에 유사해지도록 4종류 통계적 매칭방법을 적용하여 관심군을 기준으로 일대일 매칭한다. 이때 매칭의 기준이 되는 유사성 척도로 성향점수(propensity score) 또는 마할라노비스 거리(Mahalanobis distance)가 사용되고, 매칭에 적용하는 알고리즘은 최근접 이웃 일치(nearest neighbor matching) 또는 최적 일치(optimal matching)가 사용된다. 그 후 공변량과 관심변수에 대한 두 집단 간 평균 차이를 비교하는데, 매칭 전에는 독립표본 t-검정을 사용하고 매칭 후에는 독립표본 t-검정과 대응표본 t-검정을 사용한다. 그 결과 모의실험과 사례연구에서 매칭방법에 따라 공변량 매칭 결과 또는 공변량과 관심변수에 대한 평균 차이 검정 결과가 다르고, 매칭 결과분석에 사용한 평균 차이 검정방법에 따라 해석의 방향도 달라졌다. 따라서 집단 간 평균 비교에 있어서 공변량을 기준으로 하는 관측자료 짝을 만든 뒤 대응표본 t-검정을 실행할 때 귀무가설을 기각하는 사례가 많다는 점을 유의해야 한다. 실제 연구에서도 매칭 후 어떤 검정을 사용할지 고민될 때가 있는데, 통계적 매칭방법을 사용하여 최소한 공변량의 분포가 유사해지도록 표본을 만들어 놓고 연구를 수행하는 것이 필요하다.
In the case of general observational research data, a data imbalance problem occurs frequently in which the observation frequency of the variable of interest is biased toward one group. As a solution, a statistical matching method can be used to reduce a selection bias in which observation data affe...
In the case of general observational research data, a data imbalance problem occurs frequently in which the observation frequency of the variable of interest is biased toward one group. As a solution, a statistical matching method can be used to reduce a selection bias in which observation data affected by a specific condition are more likely to be selected as an observation target. In this study, four types of statistical matching methods are applied to match one-to-one based on the group of interest so that the distribution of covariates impacting the outcome of the variable of interest becomes similar between the group of interest and the group of non-interest. At this time, propensity score or Mahalanobis distance is used as a measure of similarity which is the basis for matching. And nearest neighbor matching or optimal matching is used as an algorithm applied to matching. After that, an independent sample t-test is used before matching and an independent sample t-test and a paired sample t-test are used after matching to compare the mean difference between the two groups for covariates and variables of interest. As a result, in simulations and case studies, the result of matching covariate or the results of the mean difference test for the covariate and the variable of interest differed depending on the matching method, and the direction of analysis was different depending on the mean difference test method used in the analysis of matching results. Therefore, it should be noted that there are many cases in which the null hypothesis is rejected when performing the paired sample t-test after creating a pair of observational data based on covariates in the mean comparison between groups. In actual studies, there are times when it is contemplated which test to use after matching, and at least it is necessary to make a sample so that the distribution of covariates becomes similar using statistical matching methods before conducting the study.
In the case of general observational research data, a data imbalance problem occurs frequently in which the observation frequency of the variable of interest is biased toward one group. As a solution, a statistical matching method can be used to reduce a selection bias in which observation data affected by a specific condition are more likely to be selected as an observation target. In this study, four types of statistical matching methods are applied to match one-to-one based on the group of interest so that the distribution of covariates impacting the outcome of the variable of interest becomes similar between the group of interest and the group of non-interest. At this time, propensity score or Mahalanobis distance is used as a measure of similarity which is the basis for matching. And nearest neighbor matching or optimal matching is used as an algorithm applied to matching. After that, an independent sample t-test is used before matching and an independent sample t-test and a paired sample t-test are used after matching to compare the mean difference between the two groups for covariates and variables of interest. As a result, in simulations and case studies, the result of matching covariate or the results of the mean difference test for the covariate and the variable of interest differed depending on the matching method, and the direction of analysis was different depending on the mean difference test method used in the analysis of matching results. Therefore, it should be noted that there are many cases in which the null hypothesis is rejected when performing the paired sample t-test after creating a pair of observational data based on covariates in the mean comparison between groups. In actual studies, there are times when it is contemplated which test to use after matching, and at least it is necessary to make a sample so that the distribution of covariates becomes similar using statistical matching methods before conducting the study.
주제어
#독립표본 t-검정 마할라노비스 거리 대응표본 t-검정 성향점수 최근접 이웃 일치 최적 일치 통계적 매칭방법
학위논문 정보
저자
김진서
학위수여기관
부산대학교 대학원
학위구분
국내석사
학과
통계학과
지도교수
조영석
발행연도
2022
총페이지
iii, 32 장
키워드
독립표본 t-검정 마할라노비스 거리 대응표본 t-검정 성향점수 최근접 이웃 일치 최적 일치 통계적 매칭방법
※ AI-Helper는 부적절한 답변을 할 수 있습니다.