[논문]영과잉 경시적 가산자료 분석을 위한 허들모형

진익태; 이근백

doi:10.5351/kjas.2014.27.6.923

[국내논문] 영과잉 경시적 가산자료 분석을 위한 허들모형
Hurdle Model for Longitudinal Zero-Inflated Count Data Analysis 원문보기

응용통계연구 = The Korean journal of applied statistics, v.27 no.6, 2014년, pp.923 - 932

초록
AI-Helper

허들모형은 영이 과잉 가산자료를 분석하기 위해서 사용되어 왔다. 이 모형은 이산부분을 위한 로짓모형과 절삭된 가산부분을 위한 절삭된 포아송모형의 혼합모형이다. 이 논문에서 우리는 경시적 영과잉 가산자료를 분석하기 위해서 수정된 콜레스키 분해을 이용하여 일반적인 이분산성을 가지는 변량효과 공분산행렬을 제안한다. 수정된 콜레스키 분해는 변량효과 공분산행렬을 일반화자기상관 모수와 혁신분산모수로 분리되면, 이러한 모수들은 베이지안 일반화 선형모형을 통해 추정된다. 그리고 실제 자료분석을 통하여 설명한다.

Abstract ▼ AI-Helper

The Hurdle model can to analyze zero-inflated count data. This model is a mixed model of the logit model for a binary component and a truncated Poisson model of a truncated count component. We propose a new hurdle model with a general heterogeneous random effects covariance matrix to analyze longitudinal zero-inflated count data using modified Cholesky decomposition. This decomposition factors the random effects covariance matrix into generalized autoregressive parameters and innovation variance. The parameters are modeled using (generalized) linear models and estimated with a Bayesian method. We use these methods to carefully analyze a real dataset.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 경시적 영과잉 가산자료 분석을 위해 수정된 콜레스키 분해를 통해 일반적인 형태의 이분산성을 가지는 변량효과 공분산행렬을 가지는 허들모형을 제안했다. 공분산행렬은 공변량에 의존하는 일반화자기회귀모수와 혁신분산에 의해 표현된다.
모수들의 추정은 베이지안 방법을 이용한 WinBUGS 프로그램을 사용해서 추정하였다. 본 논문은 영과잉 가산자료 분석에서 허들모형이 어떻게 쓰이고 추정되는지 살펴보았다.
하지만 이러한 가정은 매우 강한 가정이기 때문에 고정된 효과(fixed effects) 추정에 편의(bias)가 발생할 수 있다(Heagerty와 Kurland, 2001). 이 논문에서 우리는 수정된 콜레스키분해(modified Cholesky decomposition; Pourahmadi, 1999) 방법을 통하여 더 높은 차수를 가질 수 있는 AR(p) 형태의 공분산행렬을 제안한다. 그리고 공변량(covariate)에 의존하는 이분산성(heteroscedasticity)의 공분산행렬을 제안한다.
이 모형의 장점은 영이 과잉이나, 과소일 때 모두 사용할 수 있다. 이 논문에서는 경시적 영과잉 자료분석을 위한 허들 모형을 제안할 것이다.
따라서 60년간 조사된 자료로서 259개의 관찰값을 가진다. 이 연구의 목적은 60년에 걸쳐서 살인율의 변화에 영향을 미치는 인구통계학적인 요인(demographic factor)을 조사하는 것이 목적이다. 고려한 요인들은 흑인의 비율(Problack), 소득의 분위수(IQ), 15 ∼ 24세의 비율(Pro15to24)이다.

가설 설정

그러나 공분산행렬은 주로 고차원(high dimension)이고, 양정치(positive definite)를 만족해야 하기 때문에 추정이 쉽지가 않다. 그래서 AR(1)과 같은 간단한 형태의 공분산행렬 구조를 가정한다. 그리고 등분산성을 가지는 행렬을 가정한다.
, n_i)번째의 가산형 반응변수이다. 그리고 Y_it는 변량효과 b_it가 주어 졌을 때 조건부독립을 가정한다. x_it는 Y_it에 상응하는 공변량이다.
그래서 AR(1)과 같은 간단한 형태의 공분산행렬 구조를 가정한다. 그리고 등분산성을 가지는 행렬을 가정한다. 하지만 이러한 가정은 매우 강한 가정이기 때문에 고정된 효과(fixed effects) 추정에 편의(bias)가 발생할 수 있다(Heagerty와 Kurland, 2001).
2에 제시하였다. 모형1, 2, 그리고 3은 모두 AR(1)구조를 가지며 모형1은 등분산성을, 모형2는 Problack에 의존하는 이분산성을, 그리고 모형3은 Pro15to24에 의존하는 이분산성을 가지는 변량효과 공분산행렬을 가정 한다. 모형4, 5, 그리고 6은 모두 AR(2)구조를 가지며, 모형4는 등분산성을, 모형5는 Problack에 의존하는 이분산성을, 그리고 모형6은 Pro15to24에 의존하는 이분산성을 가지는 변량효과 공분산 행렬을 가정한 모형들이다.
변량효과 bi는 bit가 이전의 bi1, . . . , bi,t−1로 이루어진 회귀식으로 표현된다는 가정을 한다.
분석의 단순화를 위해서 구역간 살인사건의 수는 독립이라고 가정하였다. 응답변수인 살인사건 수는 인구에 비례해서 커짐으로 지역의 인구를 offset로 고려하여 분석하였다.

제안 방법

이 논문에서 우리는 수정된 콜레스키분해(modified Cholesky decomposition; Pourahmadi, 1999) 방법을 통하여 더 높은 차수를 가질 수 있는 AR(p) 형태의 공분산행렬을 제안한다. 그리고 공변량(covariate)에 의존하는 이분산성(heteroscedasticity)의 공분산행렬을 제안한다. 수정된 콜레스키 방법은 공분산행렬을 일반화자기회귀모수(generalized autoregressive parameters; GARPs)와 혁신분산(innovation variances; IVs)모수로 분해하여 이분산성을 가진 높은 차원의 AR구조로 쉽게 확장된다 (Pourahmadi, 1999).
혁신분산은 개인의 특성을 나타내는 공변량으로 회귀식을 표현하여 등분산성을 만족하게 할 수 있다. 그리고 혁신분산에 loglinear모형을 가정 함으로써 공분산행렬의 양정치성을 항상 만족하게 제안하였다. 모수들의 추정은 베이지안 방법을 이용한 WinBUGS 프로그램을 사용해서 추정하였다.
이러한 방법은 선형모형에서 제안되어 선형혼합모형(linear mixed model)으로 확장되어 사용되었다 (Daniels와 Pourahmadi, 2002; Daniels와 Zhao, 2003; Pan와 Mackenzie, 2003, 2006). 논문에서 수정된 콜레스키 분해를 통해 일반적인 형태의 이분산성을 가지는 변량효과 공분산행렬을 가지는 허들모형을 제안한다. 일반화자기회귀모수와 혁신모수의 추정을 위해서 Pourahmadi (1999)는 각각 선형회귀 및 로그선형모형(log linear model)을 제안하여 뉴턴-랍슨의 방법을 이용하였다.
독립변수는 앞에서 제시된 흑인의 비율(Problack), 소득의 분위수(IQ), 15 ∼ 24세의 비율(Pro15to24), 그리고 연도(year)와 그것의 제곱(year2) 그리고 세제곱(year3)을 사용하였다.
본 절에서는 뉴올리언즈 살인율 자료를 살펴 보고, 앞의 절에서 제시된 통계적 방법을 이용하여 분석한다.
분석의 단순화를 위해서 구역간 살인사건의 수는 독립이라고 가정하였다. 응답변수인 살인사건 수는 인구에 비례해서 커짐으로 지역의 인구를 offset로 고려하여 분석하였다. 독립변수는 앞에서 제시된 흑인의 비율(Problack), 소득의 분위수(IQ), 15 ∼ 24세의 비율(Pro15to24), 그리고 연도(year)와 그것의 제곱(year²) 그리고 세제곱(year³)을 사용하였다.
는 고차원이고 양정치를 만족해야 한다. 이를 위해 수정된 콜레스키분해를 사용하여 해결한다. 변량효과 b_i는 b_it가 이전의 b_i1, .

대상 데이터

3장에서는 모수를 베이지안 방법으로 추정하는 방법과 모델을 선택하는 방법에 대해 소개를 한다. 4장에서는 실제 자료인 New Orleans Murder Rate 자료를 분석한다. 마지막으로 5장에서는 결론을 제시한다.
이 자료는 Lee 등 (2011)에 처음 분석된 자료로서 뉴올리언즈 지역의 37개의 인구조사 표준지역(census tract) 및 경찰관할지역(police zone)에서 1940년부터 2000년까지 10년 단위로 살인사건수를 조사한 자료이다. 따라서 60년간 조사된 자료로서 259개의 관찰값을 가진다. 이 연구의 목적은 60년에 걸쳐서 살인율의 변화에 영향을 미치는 인구통계학적인 요인(demographic factor)을 조사하는 것이 목적이다.
이 자료는 Lee 등 (2011)에 처음 분석된 자료로서 뉴올리언즈 지역의 37개의 인구조사 표준지역(census tract) 및 경찰관할지역(police zone)에서 1940년부터 2000년까지 10년 단위로 살인사건수를 조사한 자료이다. 따라서 60년간 조사된 자료로서 259개의 관찰값을 가진다.
이러한 6개의 모형을 베이지안 방법에 의한 모수들의 추정을 위하여 WinBUGS와 R 패키지 R2WinBUGS의 BUGS 함수를 사용하였다. 총 500,000개의 난수를 5의 간격(thin=5)으로 추출하여 100,000개을 가지고 앞의 50,000개는 버리고 나머지 50,000개의 난수로 분석에 사용하였다.

이론/모형

일반화자기회귀모수와 혁신모수의 추정을 위해서 Pourahmadi (1999)는 각각 선형회귀 및 로그선형모형(log linear model)을 제안하여 뉴턴-랍슨의 방법을 이용하였다. 그 이후 선형혼합모형에서 변량효과의 공분산행렬의 일반화자기회귀모수와 혁신모수의 추정시에도 뉴턴-랍슨의 방법이 이용되었다 (Pan과 Mackenzie, 2003, 2006). 베이지안 방법에 의한 모수추정 또한 Daniels와 Pourahmadi (2002)과 Daniels와 Zhao (2003)에 의해서 제안되었고, 일반화선형혼합모형에도 확장되어 사용되었다 (Lee, 2013).
여기서 f(y|·)는 허들모형을 위한 우도함수이고, ϕ(·)는 (다변량)정규분포((multivariate) normal probability distribution)를 나타낸다. 모수들의 결합사후분포로부터의 베이지안 추론을 위한 깁스 샘플러(Gibbs sampler)을 이용한다. 하지만 대부분의 조건부 확률분포가 모르는 분포이므로 메트로폴리스-해스팅스(Metropolis-Hastings) 알고리즘을 이용해야 한다.
그리고 혁신분산에 loglinear모형을 가정 함으로써 공분산행렬의 양정치성을 항상 만족하게 제안하였다. 모수들의 추정은 베이지안 방법을 이용한 WinBUGS 프로그램을 사용해서 추정하였다. 본 논문은 영과잉 가산자료 분석에서 허들모형이 어떻게 쓰이고 추정되는지 살펴보았다.
이 두 방법은 모두 모형의 복잡성과 적합성을 각각 고려한 기준치이다 (Daniels과 Hogan, 2008). 본 논문에서는 DIC를 이용하여 모형선택을 한다. DIC는 AIC(Akaike Information Criterion)와 유사하며 편차들의 평균에서 모수의 사후평균을 대입한편차를 빼서 계산된다.
이러한 6개의 모형을 베이지안 방법에 의한 모수들의 추정을 위하여 WinBUGS와 R 패키지 R2WinBUGS의 BUGS 함수를 사용하였다. 총 500,000개의 난수를 5의 간격(thin=5)으로 추출하여 100,000개을 가지고 앞의 50,000개는 버리고 나머지 50,000개의 난수로 분석에 사용하였다.
몬테카를로 오차 확인, MCMC 알고리즘으로부터 추출된 모수에 대한 난수값을 R에서 진단하는 방법, 사후밀도함수그림 확인, 자기상관 그림 확인, 시도표 확인, 분위수그림을 확인 그리고 겔만-루빈 통계량을 이용하는 방법 등이 있다. 이중에서 본 논문은 시도표를 통한 수렴성을 확인하는 방법을 이용한다. 시도표로 수렴여부를 진단하는 방법은 그림에서 특정한 패턴을 보이지 않고, 난수들이 잘 섞여 있을 때에 MCMC 알고리즘이 수렴 한다고 할 수 있다.
모수들의 결합사후분포로부터의 베이지안 추론을 위한 깁스 샘플러(Gibbs sampler)을 이용한다. 하지만 대부분의 조건부 확률분포가 모르는 분포이므로 메트로폴리스-해스팅스(Metropolis-Hastings) 알고리즘을 이용해야 한다. 하지만 실제 분석에서는 WinBUGS (http://www.
하지만 대부분의 조건부 확률분포가 모르는 분포이므로 메트로폴리스-해스팅스(Metropolis-Hastings) 알고리즘을 이용해야 한다. 하지만 실제 분석에서는 WinBUGS (http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml)를 이용하여 이러한 과정을 수행한다.

성능/효과

본 논문에서 사용된 뉴올리언즈 살인율 자료분석에서 공분산행렬이 등분산성을 가지는 AR(2) 모형이 가장 적합한 모형이었다. 일반 자기회귀모수 중 AR(1)의 모수는 유의하고 혁신분산 모수는 유의하지 않다.
그러므로 흑인의 비율이 증가하면 살인율이 증가함을알 수 있다. 일반자기회귀모수 중 AR(1)의 모수가 유의하고, 혁신분산은 유의하지 않음을 알 수 있다. 그리고 δ 또한 유의미하고 그 값이 음의 값을 나타내고 있다.
표를 보면 흑인의 비율은 1940년에서 2000년으로 갈수록 증가하는 것을 볼 수 있고, 15 ∼ 24세 비율과 소득분위는 변화가 없다는 것을 볼수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	계수 자료란 무엇인가?	관찰 값들이 셀 수 있는 자료일 때 계수 자료(count data)라고 한다. 계수 자료는 여러 분야에서 이용 되고 있는데 여기서 영(zero)의 값이 가정한 분포보다 과잉(inflation) 관측 되는 경우가 있다.
	ZIP모형은 어떤 것으로 이뤄진 혼합모형인가?	ZIP모형은 영과잉 자료를 분석하기 위한 일반적으로 많이 사용되고 있는 모형이다. 이 모형은 영과 영 이외의 값의 구분을 위한 로지스틱 회귀모형과 포아송 모형으로 이루어진 혼합모형이다. 따라서 ZIP모형은 영이 과잉 관측 됐을때만 사용 할 수 있고, 영이 거의 관측이 되지 않았을(deflation) 때는 확률을 표현하는 로지스틱 회귀모형에서의 영향력 추정값이 무한대로 추정되는 문제가 발생한다 (Min과 Agresti, 2005).
	허들모형은 주로 무엇을 위해 사용되었는가?	허들모형은 영이 과잉 가산자료를 분석하기 위해서 사용되어 왔다. 이 모형은 이산부분을 위한 로짓모형과 절삭된 가산부분을 위한 절삭된 포아송모형의 혼합모형이다.

참고문헌 (18)

Breslow, N. E. and Clayton, D. G. (1993). Approximate inference in generalized linear mixed models, Journal of the American Statistical Association, 88, 125-134.
Celeux, G., Forbes, F., Robert, C. P. and Titterington, D. M. (2006). Deviance Information Criteria for Missing Data Models, Bayesian Analysis, 1, 651-674.

상세보기
Daniels, J. M. and Pourahmadi, M. (2002). Bayesian analysis of covariance matrices and dynamic models for longitudinal data, Biometrika, 89, 553-566.

상세보기
Daniels, J. M. and Zhao, Y. D. (2003). Modelling the random effects covariance matrix in longitudinal data, Statistics in Medicine, 22, 1631-1647.

상세보기
Daniels, M. J. and Hogan, J. W.(2008). Missing data in longitudinal studies: Strategies for Bayesian modeling and sensitivity analysis, Chapman & Hall/CRC.
Gelfand, A. E. and Ghosh, S. K. (1998). Model choice: A minimum posterior predictive loss approach, Biometrika, 85, 1-13.

상세보기
Heagerty, P. J. and Kurland, B. F. (2001). Misspecified maximum likelihood estimates and generalised linear mixed models, Biometrika, 88, 973-985.

상세보기
Lambert, D. (1992). Zero-inflated Poisson regression, with an application to defects in manufacturing, Technometrics, 34, 1-14.

상세보기
Lee, K., Joo, Y., Song, J. J. and Harper, D. W. (2011). Analysis of zero-inflated clustered count data: A marginalized model approach, Computational Statistics & Data Analysis, 55, 824-837.

상세보기
Lee, K. (2013). Bayesian modeling of random effects covariance matrix for generalized linear mixed models, Communications for Statistical Applications and Methods, 20, 235-240.

원문보기 상세보기
Mullahy, J. (1986). Specification and testing of some modified count data models, Journal of Econometics, 33, 341-365.

상세보기
Min, Y. and Agresti, A. (2005). Random effect models for repeated measures of zero-inflated count data, Statistical Modelling, 5, 1-19.

상세보기
Neelon, B. H., O'Malley, A. J. and Normand, S. T. (2010). A Bayesian model for repeated measures zeroinflated count data with application to outpatient psychiatric service use, Statistical Modelling, 10, 421-439.

상세보기
Pan, J. X. and Mackenzie, G. (2003). Model selection for joint mean-covariance structures in longitudinal studies, Biometrika, 90, 239-244.

상세보기
Pan, J. X. and MacKenzie, G. (2006). Regression models for covariance structures in longitudinal studies, Statistical Modelling, 6, 43-57.

상세보기
Pourahmadi, M. (1999). Joint mean-covariance models with applications to longitudinal data: Unconstrained parameterisation, Biometrika, 86, 677-690.

상세보기
Pourahmadi, M. (2000). Maximum likelihood estimation of generalized linear models for multivariate normal covariance matrix, Biometrika, 87, 425-435.

상세보기
Pourahmadi, M. and Daniels, M. J. (2002). Dynamic conditionally linear mixed models for longitudinal data, Biometrika, 58, 225-231.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증