구간중도 절단자료는 감염 자료, 종양 발생 자료등 그 발생 시간을 정확하게 관측할 수 없는 경우에 흔히 발생되는 자료로 정확한 사건 발생 시간대신에 발생 전 마지막 관측시점과 발생 후 첫 번째 관측시점으로 구성된다. 이러한 종류의 자료는 Sun (2006)에 의해 자세하게 논의되었으며 관측 개체간의 독립성 가정 하에서 여러 가지 방법들에 의해 분석되어져 왔다. 본 논문에서는 관측 개체들이 군집으로부터 발생하여 더 이상독립성 가정이 적절하지 못한 경우를 고려한다. 특히 반응변수인 사건 발생 시간이 군집의 크기와 연관되어 있을 때, 이를 고려하기 위한 결합 모형을 제시한다. 제안된 모형은 림프계 필라리아병의 실제 자료에 적용한다.
구간중도 절단자료는 감염 자료, 종양 발생 자료등 그 발생 시간을 정확하게 관측할 수 없는 경우에 흔히 발생되는 자료로 정확한 사건 발생 시간대신에 발생 전 마지막 관측시점과 발생 후 첫 번째 관측시점으로 구성된다. 이러한 종류의 자료는 Sun (2006)에 의해 자세하게 논의되었으며 관측 개체간의 독립성 가정 하에서 여러 가지 방법들에 의해 분석되어져 왔다. 본 논문에서는 관측 개체들이 군집으로부터 발생하여 더 이상독립성 가정이 적절하지 못한 경우를 고려한다. 특히 반응변수인 사건 발생 시간이 군집의 크기와 연관되어 있을 때, 이를 고려하기 위한 결합 모형을 제시한다. 제안된 모형은 림프계 필라리아병의 실제 자료에 적용한다.
Interval-censored data are commonly found in studies of diseases that progress without symptoms, which require clinical evaluation for detection. Several techniques have been suggested with independent assumption. However, the assumption will not be valid if observations come from clusters. Furtherm...
Interval-censored data are commonly found in studies of diseases that progress without symptoms, which require clinical evaluation for detection. Several techniques have been suggested with independent assumption. However, the assumption will not be valid if observations come from clusters. Furthermore, when the cluster size relates to response variables, commonly used methods can bring biased results. For example, in a study on lymphatic filariasis, a parasitic disease where worms make several nests in the infected person's lymphatic vessels and reside until adulthood, the response variable of interest is the nest-extinction times. Since the extinction times of nests are checked by repeated ultrasound examinations, exact extinction times are not observed. Instead, data are composed of two examination points: the last examination time with living worms and the first examination time with dead worms. Furthermore, as Williamson et al. (2008) pointed out, larger nests show a tendency for low clearance rates. This association has been denoted as an informative cluster size. To analyze the relationship between the numbers of nests and interval-censored nest-extinction times, this study proposes a joint model for the relationship between cluster size and clustered interval-censored failure data.
Interval-censored data are commonly found in studies of diseases that progress without symptoms, which require clinical evaluation for detection. Several techniques have been suggested with independent assumption. However, the assumption will not be valid if observations come from clusters. Furthermore, when the cluster size relates to response variables, commonly used methods can bring biased results. For example, in a study on lymphatic filariasis, a parasitic disease where worms make several nests in the infected person's lymphatic vessels and reside until adulthood, the response variable of interest is the nest-extinction times. Since the extinction times of nests are checked by repeated ultrasound examinations, exact extinction times are not observed. Instead, data are composed of two examination points: the last examination time with living worms and the first examination time with dead worms. Furthermore, as Williamson et al. (2008) pointed out, larger nests show a tendency for low clearance rates. This association has been denoted as an informative cluster size. To analyze the relationship between the numbers of nests and interval-censored nest-extinction times, this study proposes a joint model for the relationship between cluster size and clustered interval-censored failure data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
하지만 관측 개체들이 같은 군집에 속한 경우에는 독립성 가정은 적절하지 못한다. 특히 본 논문에서는 이러한 군집화된 자료에서 군집의 크기가 반응변수와 연관되었을 때, 적합한 통계 모형을 제시하고자 한다. 예를 들어 열대성 질환으로 피부가 심하게 붓는 림프계 팔라리아병(Lymphatic Filariasis)은 기생충이 혈관에 기생하는 병으로 특히 어린이들의 지적 또는 신체적 발달을 저하시키고 시각 장애와 신체 불구를 가져올 수 있으며 심하면 목숨을 잃게 하기도 한다.
예를 들어 열대성 질환으로 피부가 심하게 붓는 림프계 팔라리아병(Lymphatic Filariasis)은 기생충이 혈관에 기생하는 병으로 특히 어린이들의 지적 또는 신체적 발달을 저하시키고 시각 장애와 신체 불구를 가져올 수 있으며 심하면 목숨을 잃게 하기도 한다. 기생충은 감염자의 혈관에 여러 개의 둥지(nest)를 만들어 기생하게 되는데 기생충학자들은 이러한 둥지를 소멸시키기 위한 효과적인 치료법을 개발하고자 한다. Williamson 등 (2008)은 48명의 림프계 팔라리아병을 앓고 있는 사람들을 대상으로 새로운 치료법의 효과를 분석하기 위해 통계적 방법을 제안하였다.
본 논문에서는 군집 크기가 생존시간과 연관되어 있는 자료를 분석하기 위해 프레일티를 이용한 결합 모형을 제안하였다. 특히 제안된 모형은 SAS와 같은 상용 프로그램에 의해 쉽게 구현화 될 수 있다는 점에서 그 실용성이 매우 높다고 할 수 있다.
가설 설정
프레일티는 랜덤효과의 한 형태로 생존 분석 자료 분석에서 개인별 특성을 표현하기 위해 자주 사용된다. 본 논문에서는 군집 내 연관성이 프레일티로 표현될 때 군집 내 관측치들 간에는 서로 독립임을 가정한다. 즉, 군집 개체간의 공통된 특징이 프레일티로 표현될 때, 같은 군집 내 관측 개체들은 더 이상 서로 연관되어 있지 않음을 가정한다.
본 논문에서는 군집 내 연관성이 프레일티로 표현될 때 군집 내 관측치들 간에는 서로 독립임을 가정한다. 즉, 군집 개체간의 공통된 특징이 프레일티로 표현될 때, 같은 군집 내 관측 개체들은 더 이상 서로 연관되어 있지 않음을 가정한다. 두 번째 자료 특성인 구간 중도 절단 자료에 대해서는 생존 분석에서 널리 적용되는 비례위험 모형과 가법모형대신 모수 분포인 와이블 분포를 가정한다.
즉, 군집 개체간의 공통된 특징이 프레일티로 표현될 때, 같은 군집 내 관측 개체들은 더 이상 서로 연관되어 있지 않음을 가정한다. 두 번째 자료 특성인 구간 중도 절단 자료에 대해서는 생존 분석에서 널리 적용되는 비례위험 모형과 가법모형대신 모수 분포인 와이블 분포를 가정한다. 이 가정을 통해 SAS 와 같은 통계 패키지의 사용이 용이하게 된다.
여기서 γ는 공변량의 효과를 추정하는 것으로 두 공변량 값의 오즈비가 모든 단계에서 동일함을 가정 한다. 랜덤 효과, ui는 평균 0이고 분산 #을 가지는 정규 분포를 가정한다.
두 번째, 군집 화된 구간 중도 절단 자료에 대해 본 논문에서는 프레일티, vi가 주어진 경우, 군집내 반응 변수들이 조건적 독립(conditionally independent)이라는 가정을 사용할 것이다 (Bellamy 등, 2005). 즉 군집 내 관측 개체들간의 생존 시간에 대한 연관성이 프레일티로 모형화될 때 생존 시간은 독립이라고 가정한다.
i번째 군집의 프레일티 vi가 주어진 경우, i번째 군집에 속한 j번째 관측 개체의 생존 시간은 와이블 분포, (λ, p)를 따른다고 가정한다.
가 주어진 경우, 군집내 반응 변수들이 조건적 독립(conditionally independent)이라는 가정을 사용할 것이다 (Bellamy 등, 2005). 즉 군집 내 관측 개체들간의 생존 시간에 대한 연관성이 프레일티로 모형화될 때 생존 시간은 독립이라고 가정한다. 본 연구에서는 프레일티, vi는 평균이 0이고 분산이 #인 정규 분포를 따른다고 가정한다.
즉 군집 내 관측 개체들간의 생존 시간에 대한 연관성이 프레일티로 모형화될 때 생존 시간은 독립이라고 가정한다. 본 연구에서는 프레일티, vi는 평균이 0이고 분산이 #인 정규 분포를 따른다고 가정한다. i번째 군집의 프레일티 vi가 주어진 경우, i번째 군집에 속한 j번째 관측 개체의 생존 시간은 와이블 분포, (λ, p)를 따른다고 가정한다.
특히 제안된 모형은 SAS와 같은 상용 프로그램에 의해 쉽게 구현화 될 수 있다는 점에서 그 실용성이 매우 높다고 할 수 있다. 제안된 모형은 특히 구간 중도 절단된 생존 자료에 대해 와이블 분포를 가정하여 분석하였다. 이에 대한 확장으로 비례위험 모형의 적용이 고려될 수 있을 것이다.
우리의 다음 연구는 위의 모형을 좀 더 일반화된 회귀모형에 적용하는 것이며 이에 대한 연구는 현재 진행 중이다 (Kim, 2010). 본 논문에서는 구간 중도 절단 변수가 관심 있는 사건 발생시간과 독립이라는 가정 하에 전개되었다. 현재 생존 분석연구에서는 이러한 가정이 적절하지 못한 경우, 즉 반웅 변수와 중도 절단자료가 연관된 경우에 대해 많은 연구가 진행되어 오고 있다 (Liu 등, 2008; Finkelstein 등, 2002).
제안 방법
세 번째 자료 특성은 정보적 군집 크기에 대한 것이다. 이를 위해 군집 크기와 반응 변수와의 연관성을 위해 두 모형에 같은 랜덤 효과를 사용하여 연결하는 결합 모형을 제시하고자 한다. 2장에서는 연관된 통계모형을 제시하고 3장에서는 추론 방법을 소개하며 4장에서는 실제 자료 분석에 적용할 것이다.
치료가 시작된 후 7, 14, 30, 45, 60, 90, 180, 270, 360일에 기생충의 생존 여부가 검사되었다. 따라서 기생충의 정확한 생존 시간을 관측할 수 없으며 대신 두 시점, 기생충이 여전히 생존한 것으로 검사된 마지막 관측 시점과 기생충이 죽은 것을 발견한 첫 번째 검사 시점으로 구성되는 구간 중도 절단 자료를 사용하게 된다. 본 자료의 특이한 점으로 환자 당 둥지 수의 범위가 1에서 5이며 둥지 수가 클수록 기생충 소거률이 낮작다는 것이다 (Williamson 등, 2008).
대상 데이터
이 질병은 초음파 촬영을 통해 둥지 수와 기생충의 생존 여부가 검사되며 기생충 소거를 위해 다양한 치료 방법들이 제시되었다. 본 논문에서 분석할 자료는 47명의 감염자로 구성되어 있으며 두 가지 치료방법이 비교되었다. 22명의 환자는 DEC/ALB의 복합 치료를 받은데 반해 25명의 환자는 DEC만을 처방받았다.
본 연구에서 사용할 자료는 구간 중도 절단 자료로 (Lij, Rij; j = 1, . . . , mi , i = 1, . . . , n)이며 i는 군집에 관한 것이며 j는 군집 내 관측 개체를 표현하기 위해 사용된다. 여기서 Lij와 Rij는 실제 관심있는 i번째 군집에 속한 j번째 관측 개체의 생존 시간, Tij을 포함한 두 관측시점이다.
데이터처리
위의 가우시안 구적법은 SAS의 PROC NLMIXED을 이용하여 구현화시킬 수 있다. 일단 미지의 랜덤 효과가 추정되면 Newton-Raphson 방법을 적용하여 최대 우도 추정량을 구할 수 있다.
이론/모형
Williamson 등 (2003)은 이 기법을 일반화 추정 방정식(Generalized Estimating Equation; GEE)에 적용하였다. 중도 절단이 포함된 생존 자료에 대해서 Williamson 등 (2008) 은 군집 크기를 가중치로 사용하여 WCR 을 적용하였으며 Cong 등 (2007)도 같은 가중치를 사용한 가중 점수 함수(weighted score function) 방법을 사용하였다. 비슷한 문제에 대해 베이지안 방법으로 Dunson 등 (2003)은 결합 모형을 적용하였다.
구간 중도 절단 문제에 대해서, 최근에 Zhang과 Sun (2010)은 Williamson 등 (2008)의 방법을 확장한 가중화된 추정방정식을 제안하였다. 본 연구에서는 정보적 군집 크기를 가진 구간 중도 절단 문제를 위해 군집 크기에 대한 모형과 구간 중도 절단 시간의 모형을 결합시키는 결합모형(joint model)을 고려한다. 이를 위해 이 자료의 세가지 특성을 고려해야 한다.
첫 번째, 군집 크기에 대한 모형으로 순서형 누적 로짓모형(ordinal cumulative logit model)을 적용한다. 1장에서 예시되었던 림프계 팔라리아병에서 기생충의 둥지 수는 많아야 6개를 넘지 않는다.
이러한 관계에 의해 순서형 다항 반응변수(ordinal categorical data)가 둥지 수에 대한 모형으로 적용되었다. 군 집별 효과(cluster-specific effect)를 추정하기 위해 랜덤 효과, ui를 포함한 다음의 혼합모형(mixed effect model)이 적용된다.
위 우도 함수는 두 번의 적분을 포함하는데 이는 닫힌 형태로 표현될 수 없다. 따라서 위 적분을 수행하기 위해 주로 가우시안 구적법(Gaussian quadrature)이나 몬테 칼로 방법이 사용된다. Metropolis-Hasting 알고리즘과 같은 몬테 칼로 마르코브 체인(MCMC) 방법에서는 E-Step에서 미지의 랜덤 변수들을 추정하기 위해 M개의 랜덤변수를 생성한 후 그들의 평균을 미지의 값의 추정치로 사용하는 MCEM을 적용할 수 있다.
Metropolis-Hasting 알고리즘과 같은 몬테 칼로 마르코브 체인(MCMC) 방법에서는 E-Step에서 미지의 랜덤 변수들을 추정하기 위해 M개의 랜덤변수를 생성한 후 그들의 평균을 미지의 값의 추정치로 사용하는 MCEM을 적용할 수 있다. 본 논문에서 가우시안 구적법으로 Gauss-hermite 방법을 이용하여 미지의 랜덤효과를 추정할 것이다. 즉, Q1개와 Q2개의 미리 정해진 (uq1, vq2, q1 = 1, .
즉 둥지가 많은 환자에 속한 기생충의 생존율이 높았다. 따라서 이러한 생존율과 군집 크기와의 관계를 고려하기 위해 본 논문에서 제안한 결합 모형을 적용한다. 즉 둥지 수의 모형에 대해
성능/효과
또한 치료 방법의 차이에 대한 유의성 (H0 : β = 0)에서 Model 1과 Model 3은 서로 다른 결과를 보여주었다. 즉 기생충 둥지 수와의 관계를 무시한 Model 3에서는 두 처리 방법이 유의적인 차이가 없다는 결과를 보이는 반면에 제안된 모형의 결과에서는 DEC만을 처방받은 환자들이 더 긴 생존 시간을 가짐을 보여준다. Model 1에서 추정된 # = 0.
후속연구
1장에서 예시되었던 림프계 팔라리아병에서 기생충의 둥지 수는 많아야 6개를 넘지 않는다. 또한 둥지 수는 기생충의 생산력(productivity)과 매우 연관되어 있으므로 생산력과 같이 직접적으로 측정할 수 없는 잠재 변수(latent variable)가 적절한 임계치를 통해 둥지수로 관측될 수 있을 것이다. 이러한 관계에 의해 순서형 다항 반응변수(ordinal categorical data)가 둥지 수에 대한 모형으로 적용되었다.
현재 생존 분석연구에서는 이러한 가정이 적절하지 못한 경우, 즉 반웅 변수와 중도 절단자료가 연관된 경우에 대해 많은 연구가 진행되어 오고 있다 (Liu 등, 2008; Finkelstein 등, 2002). 본 논문에서 제안된 방법은 이러한 문제를 또한 포함시킬 수 있으며 이를 위해서 좀 더 복잡한 모형이 제시되어질 필요가 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
림프계 팔라리아병은 어떤 문제를 발생시키는가?
특히 본 논문에서는 이러한 군집화된 자료에서 군집의 크기가 반응변수와 연관되었을 때, 적합한 통계 모형을 제시하고자 한다. 예를 들어 열대성 질환으로 피부가 심하게 붓는 림프계 팔라리아병(Lymphatic Filariasis)은 기생충이 혈관에 기생하는 병으로 특히 어린이들의 지적 또는 신체적 발달을 저하시키고 시각 장애와 신체 불구를 가져올 수 있으며 심하면 목숨을 잃게 하기도 한다. 기생충은 감염자의 혈관에 여러 개의 둥지(nest)를 만들어 기생하게 되는데 기생충학자들은 이러한 둥지를 소멸시키기 위한 효과적인 치료법을 개발하고자 한다.
정보적 군집 크기를 가진 군집 자료를 분석하기 위해 시도된 방법은 무엇인가?
정보적 군집 크기를 가진 군집 자료를 분석하기 위해 여러 방법들이 시도되었다. 먼저 중도절단이 없는 일반적 형태의 반응변수에 대해 Catalano와 Ryan (1992)는 군집 크기를 반응변수의 공변량으로 포함시켰으며 Hoffman 등 (2001)은 각 군집 내 한 개체만을 샘플링하는 군집 내 샘플링의 기법(within cluster sampleing; WCR)을 소개하였다. Williamson 등 (2003)은 이 기법을 일반화 추정 방정식(Generalized Estimating Equation; GEE)에 적용하였다. 중도 절단이 포함된 생존 자료에 대해서 Williamson 등 (2008) 은 군집 크기를 가중치로 사용하여 WCR 을 적용하였으며 Cong 등 (2007)도 같은 가중치를 사용한 가중 점수 함수(weighted score function) 방법을 사용하였다. 비슷한 문제에 대해 베이지안 방법으로 Dunson 등 (2003)은 결합 모형을 적용하였다. 구간 중도 절단 문제에 대해서, 최근에 Zhang과 Sun (2010)은 Williamson 등 (2008)의 방법을 확장한 가중화된 추정방정식을 제안하였다. 본 연구에서는 정보적 군집 크기를 가진 구간 중도 절단 문제를 위해 군집 크기에 대한 모형과 구간 중도 절단 시간의 모형을 결합시키는 결합모형(joint model)을 고려한다.
구간중도 절단자료란 무엇인가?
구간중도 절단자료는 감염 자료, 종양 발생 자료등 그 발생 시간을 정확하게 관측할 수 없는 경우에 흔히 발생되는 자료로 정확한 사건 발생 시간대신에 발생 전 마지막 관측시점과 발생 후 첫 번째 관측시점으로 구성된다. 이러한 종류의 자료는 Sun (2006)에 의해 자세하게 논의되었으며 관측 개체간의 독립성 가정 하에서 여러 가지 방법들에 의해 분석되어져 왔다.
참고문헌 (13)
Bellamy, S., Li, Y., Ryan, L. M., Lipsitz, S., Canner, M. and Wright, R. (2005). Analysis of clustered and interval censored data from a community-based study in asthma, Statistics in Medicine, 34, 3607?3621.
Catalano, P. and Ryan, L. M. (1992). Bivariate latent variable models for clustered discrete and continuous outcomes, Journal of the American Statistical Association, 87, 651?658.
Dunson, D. B., Chen, Z. and Harry, J. (2003). A bayesian approach for joint modeling of clusger size and subunit-specific outcome, Biometrics, 59, 521?530.
Finkelstein, D. M. Goggins,W. B. and Schoenfeld, D. A. (2002). Analysis of failure time data with dependent interval censoring, Biometrics, 58, 298?304.
Kim, Y. J. (2010). Regression Analysis of Clustered Interval-Censored Data with Informative Cluster Size, Technical Report
Liu, L., Huang, X. and O’Quigley, J. (2008). Analysis of longitudinal data in the presence of informative observational times and a dependent terminal event, with application to medical cost data, Biometrics, 64, 950?958.
Sun, J. (2006). The Statistical Analysis of Interval-censored Failure Time Data, Springer-Verlag, New-York.
Turnbull, B.W. (1976). The empirical distribution function with arbitrarily grouped censored and truncated data, Journal of the Royal Statistical Society, Series B, 38, 290?295.
Williamson, J., Datta, S. and Satten, G. (2003). Marginal analysis of clustered data when cluster size is informative, Biometrics, 59, 36?42.
Williamson, J., Kim, H., Manatunga, A. and Addiss, D. (2008). Modeling survival data with informative cluster size, Statistics in Medicine, 27, 543?555.
Zhang, X. and Sun, J. (2010). Regression analysis of clustered interval-censored failure time data with informative cluster size, Computational Statistics and Data Analysis, 54, 1817?1823.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.