[논문]가우시안 코플라를 이용한 반복측정 이변량 자료의 조건부 결합 분포 추정

곽민정

doi:10.5351/kjas.2017.30.2.203

가우시안 코플라를 이용한 반복측정 이변량 자료의 조건부 결합 분포 추정
Estimation of the joint conditional distribution for repeatedly measured bivariate cholesterol data using Gaussian copula 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.2, 2017년, pp.203 - 213

초록
AI-Helper

우리는 이변량 경시적 자료의 조건부 결합 분포를 추정하기 위하여 회귀 모형과 코플라 모형을 연구하였다. 주변 분포의 추정을 위하여 시변 변환 모형을 고려하였고, 이변량 반응변수 각각에 대한 주변 분포를 가우시안 코플라를 이용하여 결합하여 조건부 결합 분포를 추정하였다. 우리가 제안한 모형은 조건부 평균 모형만으로 자료를 설명하기 어려운 경우에 적용될 수 있다. 시변 변환 모형과 가우시안 코플라 모형을 결합한 본 논문의 방법은 반복 측정된 이변량 경시적 자료에 대한 모형화가 용이하며 해석하기 쉬운 장점이 있다. 우리는 본 논문의 방법을 반복 측정된 이변량 콜레스테롤 자료를 분석하는데 적용하여 보았다.

Abstract ▼ AI-Helper

We study estimation and inference of joint conditional distributions of bivariate longitudinal outcomes using regression models and copulas. We consider a class of time-varying transformation models and combine the two marginal models using Gaussian copulas to estimate the joint models. Our models and estimation method can be applied in many situations where the conditional mean-based models are inadequate. Gaussian copulas combined with time-varying transformation models may allow convenient and easy-to-interpret modeling for the joint conditional distributions for bivariate longitudinal data. We apply our method to an epidemiological study of repeatedly measured bivariate cholesterol data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

가우시안 코플라 함수 외에도 많이 사용되는 코플라 함수로는 아르키메디안 코플라 함수(Archimedean copula), 극단값 코플라 함수(extreme value copula) 등이 있으며, 실제로 많은 종류의 코플라 함수들 중에서 어떤 코플라 함수를 적용하는 것이 좋은지에 대해서는 적합성 검정(goodness-of-fit test)을 실시하여 적절한 코플라 함수를 선택할 수 있다. 본 논문의 결과를 바탕으로 다음 연구에서는 추정량의 편향 정도를 유도하고 부드러운 곡선을 구하기 위한 서로 다른 평활방법의 비교 분석등을 고려하고자 한다.
일반적으로 많이 사용되는 코플라 함수로는 아르키메디안 코플라 함수(Archimedean copula models), 극단값 코플라 함수(extreme value copulas) 등이 있다. 본 연구에서는 모수를 이용한 함수형태로 표시되는 모수적 코플라를 이용하여 이변량 반응변수의 결합분포를 최대우도 추정법으로 추정하고자 한다. 코플라 모수의 ρ 추정치 \(\hat\rho\)는 다음과 같은 유사 로그 우도 함수(pseudo log-likelihood function)를 최대로 하는 \(\hat\rho\)으로 정의된다.

가설 설정

시점 t에서 공변량 X(t)가 x(t)로 주어졌을때 일변량 반응변수 Y^k(t), k = 1, 2의 주변 조건부 분포를 F_kt(y_k|x) =Pr[Y^k(t) ≤ y_k(t)|X(t) = x(t)]로 정의한다. 용어의 편의상 y_k(t)을 y_k로 표기할 때, 우리는 다음의 시변 전환 모형(time-varying transformation model)을 가정한다.
우리는 시간에 따라 반복 측정된 n명의 독립적인 개체들로 이루어진 경시적 자료를 가정하며 i번째 개체에서 ni개의 관측치가 tij ∈ T , j = 1, . . . , ni 시점에서 얻어진다고 가정한다.

제안 방법

먼저 두 변수 간의 상관성을 살펴보기 위하여 분위수 변환된 조건부 주변 분포의 상관계수를 계산하였다. Figure 3.
본 논문에서는 시간에 따라 반복 측정된 이변량 콜레스테롤 자료를 바탕으로 일변량 각각에 대해서 준모수적인 조건부 주변 분포를 구하고, 이렇게 구한 두 개의 조건부 주변 분포를 이변량 가우시안 코플라함수를 이용하여 자료를 설명하는 적절한 모형을 찾아내고 이변량 자료의 상관성을 고려한 조건부 결합확률을 추정하였다. 각각의 일변량 자료에 대하여 시변 변환 모형을 고려함으로써 주변 분포에 대한 선택의 폭이 넓어진다는 장점이 있으며, 첫 번째 일변량 반응변수와 두 번째 일변량 반응변수에 서로 다른 주변 회귀 모형을 적용할 수 있다는 장점도 있다.
본 논문에서는 적용과 해석의 편의성을 고려하여 가우시안 코플라 함수를 이용하였다. 가우시안 코플라 함수 외에도 많이 사용되는 코플라 함수로는 아르키메디안 코플라 함수(Archimedean copula), 극단값 코플라 함수(extreme value copula) 등이 있으며, 실제로 많은 종류의 코플라 함수들 중에서 어떤 코플라 함수를 적용하는 것이 좋은지에 대해서는 적합성 검정(goodness-of-fit test)을 실시하여 적절한 코플라 함수를 선택할 수 있다.
의 확률밀도함수이다. 본 연구에서는 2.3절에서 추정된 주변 조건부 분포 함수 \(\hat F_{1t}\)과 \(\hat F_{2t}\)를 주변 분포 F_1t와 F_2t의 추정치로 각각 이용하였다. 코플라 함수를 규정하는 모수에 대한 추정은 위의 로그 우도함수를 ρ에 대해 미분하여 ρ에 대한 최대우도 추정치 \(\hat\rho\)를 구할 수 있다.
실제 추정치의 계산에서 각각의 추정치 \(\hat{\beta}_k(t)\)와 \(\hat h_k\)는 뉴튼-랩슨 방법 등을 이용한 반복적인 알고리즘에서 수렴된 값으로서의 추정치로 구하였다. 이렇게 얻어진 추정치 \(\hat{\beta}_k(t)\)와 \(\hat h_k\)을 모형 (2.
실제로 추정된 확률들의 지그재그 형태의 변동을 부드럽게 나타내기 위하여 가우시안 커널 Kh(tj, t) = exp(−(tj − t)2/(2h))을 이용한 평활을 실시하여 부드러운 곡선형태로 표시하였다.
지역은 전체 인구중 인종별로 가구당 수입과 부모의 교육수준을 잘 반영할 수 있도록 선택되었다. 연구자들은 이 여아들을 대상으로 표준화된 프로토콜에 따라 부모의 동의를 거쳐 키, 몸무게, 혈압, 생활방식을 묻는 설문지 등을 해마다 측정하여 기록하였다. 추적율은 인종별로 백인 여아 74%에서 흑인 여아 95%에 이르며 여아들은 10년간 평균적으로 8.
일변량 경시적 자료에 대한 분석 방법은 많이 알려져 있지만, 서로 연관이 있는 다변량 경시적 자료에 대한 통계적 분석방법은 많지 않다. 우리는 각각의 일변량 경시적 자료에 대하여 주변 분포에 대한 적절한 통계적 모형을 세우고, 가우시안 코플라(Gaussian copula) 함수를 이용하여 주변 분포들을 결합하여 결합 조건부 분포를 얻고자 한다. 본 논문의 구조는 다음과 같다.
우리는 이 논문에서 반복 측정된 이변량 콜레스테롤 자료(HDL, LDL)를 분석하였다. 일변량 경시적 자료에 대한 분석 방법은 많이 알려져 있지만, 서로 연관이 있는 다변량 경시적 자료에 대한 통계적 분석방법은 많지 않다.
Wu와 Tian (2013)은 ‘혈압’을 반응변수로 하고 ‘나이, 인종, 키’를 공변량으로 하여 일변량 조건부 분포를 추정하였다. 우리는 이변량 콜레스테롤 자료에 대하여 결합 조건부 분포를 추정하였다.
이변량 반응변수 (Y¹(t), Y²(t)) = (HDL, LDL)에 대하여 Y¹(t)와 Y²(t)의 상관성을 고려한 가우시안 코플라(Gaussian copula) 함수를 이용하여 조건부 결합 분포를 추정하였다. 조건부 결합 확률 Pr{Y¹(t) ≤ y₁(t), Y²(t) ≤ y₂(t)|X = x}을 추정하기 위하여 우리는 3.
분석에 사용된 총 관측치의 개수는 6,697개이다. 자료의 치우침 정도를 보정하기 위하여 반응 변수에 로그 변환을 취하여 (HDL, LDL) 대신에 log(HDL), log(LDL)을 사용하였다.
특별히 이 논문에서는 다변량 구조를 가지는 모형에서 변수들의 의존성을 설명하는 방법으로 대개 실수 혹은 벡터 값을 가지는 모수 ρ를 이용한 모수적 코플라 함수 Cρ를 고려하였다.
0회/10년). 특별히 혈액 채취가 필요한 콜레스테롤은 약 3년에 한 번씩(백인 평균 3.1회/10년, 흑인 평균 3.0회/10년) 측정되었는데, 금식 후에 총 콜레스테롤, 중성지방, HDL 콜레스테롤, LDL 콜레스테롤을 측정하여 기록하였다.

대상 데이터

본 연구의 자료는 미국의 한 연구기관에서 얻어진 아동들의 성장과 건강에 대하여 각종 임상수치를 수집한 자료이다. 총 2,500여명의 백인과 흑인 청소년기 소녀들을 대상으로 1986년부터 1997년까지 2년마다 심혈관계 질환 관련 각종 임상수치들을 관측하여 기록한 자료이다 (National Heart, Lung, and Blood Institute Growth and Health Research Group (NGHSRG), 1992; National High Blood Pressure Education Program (NHBPEP), 2004).
여기서 인종을 X₁(1 = 백인, 2 = 흑인), t 시점에서의 BMI 백분위수를 X₂(t)라고 하였다. 분석에 사용된 총 관측치의 개수는 6,697개이다. 자료의 치우침 정도를 보정하기 위하여 반응 변수에 로그 변환을 취하여 (HDL, LDL) 대신에 log(HDL), log(LDL)을 사용하였다.
본 연구의 자료는 미국의 한 연구기관에서 얻어진 아동들의 성장과 건강에 대하여 각종 임상수치를 수집한 자료이다. 총 2,500여명의 백인과 흑인 청소년기 소녀들을 대상으로 1986년부터 1997년까지 2년마다 심혈관계 질환 관련 각종 임상수치들을 관측하여 기록한 자료이다 (National Heart, Lung, and Blood Institute Growth and Health Research Group (NGHSRG), 1992; National High Blood Pressure Education Program (NHBPEP), 2004). 콜레스테롤은 지방의 일종으로 인체의 기능을 정상적으로 유지시키는 데 필수적으로 필요한 구성 성분으로 모두 다섯 종류로 나뉘는데 이중 ‘좋은 콜레스테롤’이라 불리는 고밀도 지질단백질(high-density lipoprotein; HDL)과 ‘나쁜 콜레스테롤’로 불리는 저밀도 지질단백질(low-density lipoprotein; LDL)이 중요하게 다루어진다.

이론/모형

구체적으로 추정량을 구하는 방법은, 먼저 Cheng 등 (1995)의 추정방정식(estimating equation)에 대한 해로써 모형 (2.1)의 회귀계수 βk(t), k = 1, 2에 대한 추정치 \(\hat{\beta}_k(t)\)를 구하였다.
, y들에 대하여 그려보았을 때 대략 평행인 형태임을 확인하였다. 따라서 우리는 (Y¹(t), Y²(t)) = (HDL, LDL) 각각의 반응변수에 대한 조건부 주변 분포 F_kt, k = 1, 2를 추정하기 위하여 다음의 비례 오즈 모형을 사용하였다.
실제로 추정된 확률들의 지그재그 형태의 변동을 부드럽게 나타내기 위하여 가우시안 커널 K_h(t_j, t) = exp(−(t_j − t)²/(2h))을 이용한 평활을 실시하여 부드러운 곡선형태로 표시하였다. 띠너비(bandwidth)는 교차 검증법(cross validation)을 통하여 h = 1.5를 사용하였다. Figure 3.

성능/효과

1은 공변량이 x₁ = 1, 2, x₂(t) = 5, 25, 50, 75, 95 분위수로 주어졌을 각각의 경우에 \(\hat F_{1t}(60)\)과 \(\hat F_{2t}(110)\)을 나타낸 것이다. (HDL, LDL) 각각에 대한 일변량 기초 분석에서 HDL과 LDL의 각 시점에서의 75% 분위수 값이 대략 각각 60 mg/dL과 110 mg/dL을 중심으로 대동소이하게 변하는 것을 확인하여, 실제 자료 분석에서의 기준점을 시간 t에 대한 상수값으로 60 mg/dL과 110 mg/dL을 고려하였다. 그림에서 추정된 {HDL > 60 mg/dL}인 조건부 확률은 나이의 증가에 따라 거의 변화하지 않음을 볼 수 있는 반면, 추정된 {LDL > 110 mg/dL}인 조건부 확률은 나이가 14세 일때까지 꾸준히 감소하다가 그 이후로는 증가하는 경향을 볼 수 있다.
미 국립보건원에서 실시한 NGHS 연구에서는 1,166명의 백인 여아와 1,213명의 흑인 여아를 대상으로 10여년간 추적하여 각종 임상 자료를 수집하였다. 각 연구대상의 방문 횟수는 1회부터 10회까지 다양하며 대략 평균 8.8회 표준편차 2.2회임을 알 수 있었다. Wu와 Tian (2013)은 ‘혈압’을 반응변수로 하고 ‘나이, 인종, 키’를 공변량으로 하여 일변량 조건부 분포를 추정하였다.
각각의 일변량 자료에 대하여 시변 변환 모형을 고려함으로써 주변 분포에 대한 선택의 폭이 넓어진다는 장점이 있으며, 첫 번째 일변량 반응변수와 두 번째 일변량 반응변수에 서로 다른 주변 회귀 모형을 적용할 수 있다는 장점도 있다. 두 일변량 간의 상관성을 설명하기 위하여 가우시안 코플라 함수를 이용하였으며, 가우시안 코플라 함수는 그 형태가 사용하기 용이하고 두 반응변수의 상관성을 나타내는 측도로 잘 알려진 상관계수를 사용하므로 해석에 용이하다는 장점이 있다.
자료에 대한 예비분석 단계에서 (HDL, LDL) 각각의 일변량 반응변수에 대하여, 설명변수의 고정된 수준 x1과 x2에 대한 로그 오즈비 즉, log[{Pr(Y ≤ y|X = x2)/Pr(Y > y|X = x2)}/{Pr(Y ≤ y|X = x1)/Pr(Y > y|X = x1)}]의 그림을 다양한 x1, x2, y들에 대하여 그려보았을 때 대략 평행인 형태임을 확인하였다.
이러한 경시적 자료를 분석함에 있어서는 다변량 자료의 특성과 시계열 자료의 특성을 함께 고려하여야 한다. 첫째, 경시적 자료가 다변량 자료와 다른 특징은 관측치들이 시간에 따라 순서가 정해져 있다는 점이고, 둘째로 시계열 자료와 다른 특징은 시계열 자료와는 달리 한 개체에서 얻어지는 측정 시점들의 숫자가 상대적으로 적다는 점이다. 의학 통계에서 경시적 자료의 예로는 임상 시험에 있어서 두 가지의 서로 다른 치료법을 같은 환자에게 처리하여 반응변수의 변화를 관측하게 되는 교차설계에서 얻어지는 비교적 단순한 경시적 자료부터, 정기적으로 병원에 방문하여 동일한 환자에 대하여 각종 임상적 수치를 반복하여 관측, 기록하는 다소 복잡한 경시적 자료에 이르기까지 매우 다양하다.

후속연구

5%에 달함에도 30–40대 성인 중 고혈압 환자는 대부분 본인이 환자라는 사실도 인지하지 못하고 있으며, 약물치료로 혈압과 콜레스테롤을 적정 수준으로 유지하고 있는 환자 비율은 전체 환자 3명 중 1명꼴에 그치고 있다. 본 연구에서 얻은 결과를 바탕으로 코플라를 이용한 결합 분포의 추정은 10년간 경시적으로 얻어진 이변량 콜레스테롤 심혈관 위험요인 자료를 가지고 다양한 이변량 경시적 자료 분석 모형을 개발하는데 도움이 될 것이라 생각한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	경시적 자료는 언제 발생하는가?	경시적 자료(longitudinal data)는 각 개인에게서 관측치가 시간에 따라 반복적으로 얻어지는 경우에 발생한다. 연구에 참여한 각각의 개인들에 대해 시간의 흐름에 따라 규칙적으로 혹은 불규칙적으로 관측치가 얻어지며, 동일한 개체에서 관측치가 여러번 얻어지므로 관측치들이 서로 독립이라는 가정이 성립하지 않는다.
	가우시안 코플라의 장점은 무엇인가?	코플라 함수를 규정하는 모수에 대한 추정은 위의 로그 우도함수를 ρ에 대해 미분하여 ρ에 대한 최대우도 추정치 \(\hat\rho\)를 구할 수 있다. 가우시안 코플라는 그 형태가 비교적 많이 알려져 있으며 이변량 변수간의 상관성을 상관계수로 나타내므로 해석이 용이한 장점이 있어 실제 자료 분석에 많이 사용된다. 이변량의 경우 가우시간 코플라는 Sklar (1959) 정리에 의하여 일변량 균등분포를 따르는 두 확률변수 U1, U2 ∈ [0, 1]에 대하여 C(U1, U2) = Φ2[Φ−1(U1), Φ−1(U2)\|ρ]로 나타내어 진다.
	경시적 자료를 분석할 때 함께고려해야 할 다변량 자료와 시계열 자료의 특성으로 무엇이 있는가?	이러한 경시적 자료를 분석함에 있어서는 다변량 자료의 특성과 시계열 자료의 특성을 함께 고려하여야 한다. 첫째, 경시적 자료가 다변량 자료와 다른 특징은 관측치들이 시간에 따라 순서가 정해져 있다는 점이고, 둘째로 시계열 자료와 다른 특징은 시계열 자료와는 달리 한 개체에서 얻어지는 측정 시점들의 숫자가 상대적으로 적다는 점이다. 의학 통계에서 경시적 자료의 예로는 임상 시험에 있어서 두 가지의 서로 다른 치료법을 같은 환자에게 처리하여 반응변수의 변화를 관측하게 되는 교차설계에서 얻어지는 비교적 단순한 경시적 자료부터, 정기적으로 병원에 방문하여 동일한 환자에 대하여 각종 임상적 수치를 반복하여 관측, 기록하는 다소 복잡한 경시적 자료에 이르기까지 매우 다양하다.

참고문헌 (13)

Anderson, K. M., Castelli, W. P., and Levy, D. (1987). Cholesterol and mortality: 30 years of follow-up from the Framingham study, Journal of American Medical Association, 257, 2176-2180.

상세보기
Cheng, S. C., Wei, L. J., and Ying, Z. (1995). Analysis of transformation models with censored data, Biometrika, 82, 835-845.

상세보기
Diggle, P. J., Liang, K. Y., and Zeger S. L. (1994). Analysis of longitudinal data, Oxford University Press, Oxford.
Genest, C., Ghoudi, K., and Rivest, L. P. (1995). A semiparametric estimation procedures of dependence parameters in multivariate families of distributions, Biometrika, 82, 543-552.

상세보기
Genest, C. and MacKay, J. (1986). A joy of copulas: bivariate distributions with uniform marginals, The American Statistician, 40, 280-283.
Joe, H. (1993). Parametric families of multivariate distributions with given margins, Journal of Multivariate Analysis, 46, 262-282.

상세보기
Lindsey, J. K. (1993). Models for Repeated Measurements, Oxford University Press, Oxford.
Molenberghs, G. and Verbeke, G. (2005). Models for Discrete Longitudinal Data, Springer, New York.
National Heart, Lung, and Blood Institute Growth and Health Research Group (NGHSRG) (1992). Obesity and cardiovascular disease risk factors in black and white girls: the NHLBI growth and health study, American Journal of Public Health, 82, 1613-1620.

상세보기
National High Blood Pressure Education Program Working Group on High Blood Pressure in Children and Adolescents (NHBPEP Working Group) (2004). The fourth report on the diagnosis, evaluation, and treatment of high blood pressure in children and adolescents, Pediatrics, 114, 555-576.

상세보기
Oakes, D. (1986). Semiparametric inference in a model for association in bivariate survival data, Biometrika, 73, 353-361.
Sklar, A. (1959). Fonctions de repartition a n dimensions et leurs marges, Publications de l'Institut Statis- tique de l'Universite de Paris, 8, 229-231.
Wu, C. O. and Tian, X. (2013). Nonparametric estimation of conditional distribution functions and rank- tracking probabilities with time-varying transformation models in longitudinal studies, Journal of the American Statistical Association, 108, 971-982.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증