$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법
An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.27 no.3, 2016년, pp.587 - 598  

최보승 (고려대학교 응용통계학과) ,  유현상 (대구은행 마케팅부) ,  윤용화 (대구대학교 전산통계학과)

초록
AI-Helper 아이콘AI-Helper

각종 선거를 앞두고 여러 여론조사 기관들은 다양한 방법으로 선거 결과를 예측한다. 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 중 하나는 무응답이며 무응답 대체 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 본 연구에서는 무응답 대체의 방법으로 모형을 기반으로 한 대체 방법에 대하여 연구하였다. 특히, 최대 우도 추정 방법을 적용했을 때 무시할 수 없는 무응답 (non-ignorable non-response) 체계 하에서 발생할 수 있는 변방 값 문제를 해결하기 위해 Wei와 Tanner (1990)가 제안한 Monte Carlo EM 알고리즘을 적용하였다. 모의 실험을 통하여 MCEM 방법과 기존의 최대 우도 추정 방법, 베이지안 추정 방법 사이의 비교 연구를 진행하였고 그 결과 MCEM 방법이 기존 방법들에 대한 대안 방법으로 이용될 수 있음을 보였다. 또한 2012년에 시행된 제18대 대통령 선거 당일의 출구조사 자료를 적용하여 실증 분석을 수행하였다. 예측 결과를 비교하기 위해 Bautista 등 (2007)이 제안한 MWPE (modified within precinct error)를 이용하였다.

Abstract AI-Helper 아이콘AI-Helper

In predicting an outcome of election using a variety of methods ahead of the election, non-response is one of the major issues. Therefore, to address the non-response issue, a variety of methods of non-response imputation may be employed, but the result of forecasting tend to vary according to metho...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 설문조사로 수집된 자료로 분석할 경우 가장 먼저 부딪치는 문제는 결측 값 또는 무응답 문제라고 할 수 있다. 각종 여론조사, 설문조사를 할 경우 무응답이 발생하지 않는 경우는 매우 드물기 때문에 본 논문은 예측의 정확도를 높이는 중요한 관건이라고 할 수 있는 무응답처리 문제를 다루고자 한다.
  • 결론적으로 MCEM 방법이 변방값 문제를 해결하기 위한 새로운 대안 방법으로 이용될 수 있을 것이다. 또한, 실제 자료를 이용한 결과를 바탕으로 무응답 모형의 가정에 따른 예측력을 비교함으로써 무응답 체계에 대한 가정을 점검해 보고자 하였다. 이를 위하여 2012년 대선 출구조사의 자료를 이용하여 전국 204개 중 최대 우도 추정에서 변방값 문제를 발생시키는 94개 선거구에 대해서 모형 적합을 시도한 후 방법별 예측결과를 평가하기 위해서 MWPE 통계량을 이용하여 비교 분석을 진행하였다.
  • 본 연구에서는 적절한 무응답 체계에 대한 가정에 따른 무응답 모형을 설정하고 이 무응답 모형을 이용한 무응답 대체 방법에 대한 연구를 진행하였다. 무응답 모형을 통해 무응답을 대체 하는 방법으로 EM 알고리즘에 기반을 둔 최대 우도 추정방법을 이용하였다.
  • 본 연구의 첫 번째 목적은 무응답이나 결측이 발생하였을 때 무응답 대체를 수행하기 위한 것이다. 특히 무응답 체계에 대한 여러 가정 가운데 비임의 결측 (무시할 수 없는 무응답) 체계를 가정하였을 때 직면할 수 있는 변방값 문제를 해결하기 위하여 MCEM 방법을 제안하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MCEM 알고리즘이란? 최대 우도 추정 방법에서 발생할 수 있는 문제를 Wei 와 Tanner (1990)가 제안한 방법을 적용하여 로그 선형모형의 모수에 직접 사전 분포를 할당하는 계층적 베이지안 방법으로 MCEM (Monte Carlo Expectation and Maximization)방법을 이용하였다. MCEM 알고리즘은 EM 알고리즘의 E-단계의 기댓값 계산과정을 Monte Carlo 방법으로 해결하여 무응답 자료를 구하고 이로부터 M-단계를 통하여 모수를 추정하는 방법이다. 본 연구에서는 모의실험을 통해 MCEM 알고리즘에 대해 알아본 후 실제 자료에 적용하였다.
Little과 Rubin이 제시한 무응답의 발생 체계에 따른 3가지 구분은? Little과 Rubin (2002)은 무응답을 발생 체계에 따라 크게 세 가지로 구분하였다. 첫 번째는 완전임의 결측 (missing completely at random; MCAR)으로 무응답의 발생 여부가 무응답을 가지고 있는 변수나 함께 조사된 다른 변수들에 아무 영향을 받지 않았을 경우이다. 두 번째는 임의 결측 (missing at random; MAR)으로 무응답의 발생 여부가 조사된 변수들 중에서 무응답을 가지고 있지 않은 관찰된 자료에 의해서만 영향을 받았을 경우이다. 이 두 가지의 가정은 무응답의 발생 여부가 무응답 자체에 영향을 받는 것이 아니므로 무시할 수 있는 무응답 (ignorable nonresponse)이라 한다. 세 번째는 비임의 결측 (not missing at random; NMAR)으로 무응답 발생 여부가 관찰된 자료 중에서 무응답을 가지고 있는 변수에서만 영향을 받았을 경우이다. 비임의 결측은 무응답의 발생 여부가 무응답 자체의 영향을 받으므로 무시할 수 없는 무응답 (non-ignorable non-response)이라 한다. 예를 들어 출구조사 시 자신의 지지하는 후보를 밝히지 않았을 때 특별한 이유가 없다면 무시할 수 있는 무응답이라고 할 수 있고 자신의 지지 후보가 그 지역의 열세 후보이기 때문에 밝히지 않았다면 무시할 수없는 무응답이라고 할 수 있다.
Crespi의 연구에서 무응답 대체 방법은 어떤 것들이 있는가? 무응답 처리를 포함한 예측 문제에 대하여 국내외에 많은 연구가 진행되어 왔다. Crespi (1988)의 연구에서는 무응답 대체 방법으로 주요 2개 후보에게 비례 배분하는 방법, 주요 2개 후보에게 반으로 나누어 배분하는 방법, 현직 후보자가 있다면 그 외의 도전자 후보에게 배분하는 방법, 무응답을 버리고 후보자들의 득표율을 재계산하는 방법 등 4가지 방법을 제시하였고, 그 가운데 비례배분이 가장 좋다는 의견을 제시하였다. Cho 등 (2008)과 Lee와 Kang (2012)은 설문조사에서 발생하는 무응답에 대한 종류와 대체 방법을 소개하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. Baker, S. G. and Laird, N. M. (1988). Regression analysis for categorical variables with outcome subject to nonignorable nonresponse. Journal of American Statistical Association, 83, 62-69. 

  2. Bautista, R., Callegaro, M., Vera, J. A. and Abundis, F. (2007). Studying nonresponse in mexican exit pollsm. international Journal of Public Opinion Research, 19, 492-503. 

  3. Cho, Y. S., Chun, Y. M. and Hwang. D. Y. (2008). An imputation for nonresponses in the survey on the rural living indicators. Korean Journal of Applied Statistics, 21, 95-107. 

  4. Choi, B., Choi, J. W. and Park, Y. S. (2009). Bayesian methods for an incomplete two-way contingency table with application to the Ohio (Buckeye state polls). Survey Methodology, 35, 37-51. 

  5. Choi, B. and Kim, K. M. (2012). A model selection method using em algorithm for missing data. Journal of the Korean Data Analysis Society, 14, 767-779. 

  6. Choi, B., Park, Y. S. and LEE, D. H. (2007). Election forecasting using pre-election survey data with nonignorable nonresponse. Journal of the Korean Data Analysis Society, 9, 2321-2333. 

  7. Crespi, I. (1988). Pre-election polling: Sources of accuracy and error, Russel Sage, New York. 

  8. Dahinden, C., Kalisch, M. and Buhlmann, P. (2010).Decomposition and model selection for large contingency tables. Biometrical Journal, 52, 233-252. 

  9. Hong, N. R. and Huh, M. H. (2001). A post-examination of forecasting surveys for the 16th general election. Survey Research, 2, 1-35. 

  10. Ibrahim, J. G., Zhu, H. and Tang, N. (2008). Model selection criteria for missing-data problems using the EM algorithm. Journal of American Statistical Association, 103, 1648-1658. 

  11. Kim, Y. W. and Kwak, E. S. (2010). A total survey error analysis of the exit polling for general election 2008 in Korea. Survey Research, 11, 33-55. 

  12. Kwak, E. S., Kim, J. Y. and Kim, Y. W. (2013). Analysis of forecasting error of the exit poll for the general election of 2012 in Korea. Survey Research, 14, 1-7. 

  13. Kwak, J. A. and Choi, B. (2014). A comparison study for accuracy of exit poll based on nonresponse model. Journal of the Korean Data & Information Science Society, 25, 53-64. 

  14. Lee, H. J. and Kang, S. B. (2012). Handling the nonresponse in sample survey. Journal of the Korean Data & Information Science Society, 23, 1183-1194. 

  15. Lee, J. H., Kim. J. and Lee, K. J. (2006). Missing imputation methods using the spatial variable in sample survey. Korean Journal of Applied Statistics, 19, 57-67. 

  16. Little, J. A. and Rubin, D. B. (2002). Statistical analysis with missing data, second edition, Wiley, New York. 

  17. Nardi, Y. and Rinaldo, A. (2012). The log-linear group-lasso estimator and its aymptotic properties. Bernoulli , 13, 945-974. 

  18. Park, T. (1998). An approach to categorical data with nonignorable nonresponse. Biometrics, 54, 1579-1690. 

  19. Park, T. and Brown, M. B. (1994). Models for categorical data with nonignorable nonresponse. Journal of American Statistical Association, 89, 44-52. 

  20. Park, T. S. and Lee, S. Y. (1998). General research papers : analysis of categorical data with nonresponses. Korean Journal of Applied Statistics, 11, 83-95. 

  21. Park, Y. S. and Choi, B. (2010). Bayesian analysis for incomplete multi-way contingency tables with nonignorable nonresponse. Journal of Applied Statistics, 37, 1439-1453. 

  22. Park, Y. S., Kim, K. W. and Choi, B. (2013). Dynamic Bayesian analysis for irregularly and incompletely observed contingency tables. Journal of the Korean Statistical Society, 42, 277-289. 

  23. Shim, M. S. and Choi, H. C. (1997). Studies on non-response cases of election polls. The Journal of Communication Science, 14, 137-162. 

  24. Wei, G. C. G. and Tanner, M. A. (1990). A Monte Carlo implementation of the EM algorithm and the poor man's data augmentation algorithms. Journal of American Statistical Association, 85, 699-704. 

  25. Yoo, H. S. (2015). A model selection method for non-response model based on empirical Bayesian method, Master Thesis, Daegu University, Gyeongbuk. 

  26. Yoon, Y. H. and Choi, B. (2012). Model selection method for categorical data with non-response. Journal of the Korean Data & Information Science Society, 23, 627-641. 

  27. Yoon, Y. H. and Choi, B. (2014). Analysis of missing data using an empirical Bayesian method. Korean Journal of Applied Statistics, 27, 1003-1016. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로