한국인의 전형적인 사망 원인인 암은 보건 분야에서 중요한 문제이다. 통계청이 제시한 Cause of death statistics (2014)에 따르면, 7대 광역시 중 부산의 표준화 사망률 (standardized mortality rate; SMR)이 가장 높게 나타났다. 이 논문에서는 부산지역암센터의 암등록자료를 이용하여 암발생률과 암사망률의 정도를 추정하고자 한다. 2003~2009년 자료를 대상으로 구/동과 같은 소지역 단위를 고려하였으며, 전체 암과 4대 주요암 (위암, 대장암, 폐암, 간암)에 대해 분석하였다. 공간 상관성을 고려한 공간 다수준 모형을 통해 모형 선택과 모수 추정을 수행하였다. 공간 효과에 대해서는 조건부 자기회귀 (conditional autoregressive; CAR)를 가정하였으며 WinBUGS를 이용하였다. 분석의 결과로 각 지역에서의 공간 효과를 어떻게 분석하고 해석하는지 제시하였다.
한국인의 전형적인 사망 원인인 암은 보건 분야에서 중요한 문제이다. 통계청이 제시한 Cause of death statistics (2014)에 따르면, 7대 광역시 중 부산의 표준화 사망률 (standardized mortality rate; SMR)이 가장 높게 나타났다. 이 논문에서는 부산지역암센터의 암등록자료를 이용하여 암발생률과 암사망률의 정도를 추정하고자 한다. 2003~2009년 자료를 대상으로 구/동과 같은 소지역 단위를 고려하였으며, 전체 암과 4대 주요암 (위암, 대장암, 폐암, 간암)에 대해 분석하였다. 공간 상관성을 고려한 공간 다수준 모형을 통해 모형 선택과 모수 추정을 수행하였다. 공간 효과에 대해서는 조건부 자기회귀 (conditional autoregressive; CAR)를 가정하였으며 WinBUGS를 이용하였다. 분석의 결과로 각 지역에서의 공간 효과를 어떻게 분석하고 해석하는지 제시하였다.
Cancer is a typical cause of death in Korea that becomes a major issue in health care. According to Cause of Death Statistics (2014) by National Statistical Office, SMRs (standardized mortality rates) in Busan were counted as the highest among all cities. In this paper, we used data of Busan Regiona...
Cancer is a typical cause of death in Korea that becomes a major issue in health care. According to Cause of Death Statistics (2014) by National Statistical Office, SMRs (standardized mortality rates) in Busan were counted as the highest among all cities. In this paper, we used data of Busan Regional Cancer Center to estimate the extent of the cancer incidence rate and cancer mortality rate. The data are considered in small areas of administrative units such as Gu/Dong from years 2003 to 2009. All cancer including four major cancers (stomach cancer, colorectal cancer, lung cancer, liver cancer) have been analyzed. We carried out model selection and parameter estimation using spatial multi-level model incorporating a spatial correlation. For the spatial effects, CAR (conditional autoregressive model) has been assumed.
Cancer is a typical cause of death in Korea that becomes a major issue in health care. According to Cause of Death Statistics (2014) by National Statistical Office, SMRs (standardized mortality rates) in Busan were counted as the highest among all cities. In this paper, we used data of Busan Regional Cancer Center to estimate the extent of the cancer incidence rate and cancer mortality rate. The data are considered in small areas of administrative units such as Gu/Dong from years 2003 to 2009. All cancer including four major cancers (stomach cancer, colorectal cancer, lung cancer, liver cancer) have been analyzed. We carried out model selection and parameter estimation using spatial multi-level model incorporating a spatial correlation. For the spatial effects, CAR (conditional autoregressive model) has been assumed.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 부산의 행정 지역 단위인 구와 동을 기준으로 암발생 및 암사망 등록 자료에 대해 공간 모형을 적합한 후 질병지도를 통해 결과를 제시하고자 하였다. 추정결과에서 보듯이 지역 간 사회·경제적인 수준을 나타내는 박탈지수와 같은 지표를 고려하여도 지역적 특성이 남아있음을 알 수 있었다.
본 장에서는 GLMM과 공간적 상관성을 고려한 GLMM을 소개하고, 이를 적합하기 위한 MCMC의 한 종류인 깁스 샘플링에 대하여 설명하고자 한다. 이어서 모형 선택의 방법과 관련한 DIC 개념을 설명하였고, 공간적 상관성을 검정하기 위한 Moran 검정법 및 지역간 상관성을 고려한 CAR모형을 설명하고자 한다.
본 장에서는 GLMM과 공간적 상관성을 고려한 GLMM을 소개하고, 이를 적합하기 위한 MCMC의 한 종류인 깁스 샘플링에 대하여 설명하고자 한다. 이어서 모형 선택의 방법과 관련한 DIC 개념을 설명하였고, 공간적 상관성을 검정하기 위한 Moran 검정법 및 지역간 상관성을 고려한 CAR모형을 설명하고자 한다.
추정을 위한 설명변수로는 연도, 성별, 나이, 2005년 기준 박탈지수 (deprivation index; Townsend, 1987)를 이용하였으며, 구/동별 차이를 두 개의 임의효과로 각각 고려하였다. 임의효과의 추정을 통해서, 각 소지역간 암발생/암사망의 연관성을 질병지도 (disease mapping)의 형태로 나타내어 파악하고자 한다. 2절에서는 연구 자료의 소개로 본 연구에 이용된 자료의 변수에 대한 설명과 자료의 생성과정에 대해 기술하고, 연구방법으로 공간적 상관성을 가지는 GLMM 모형을 제시하였고 MCMC의 한 종류인 깁스 샘플링 (gibbs sampling)에 대하여 설명하고자 한다.
이는 임의 효과의 추정치에 지수함수를 취하여 계산한 것이다. 해당 결과의 점추정치를 질병지도의 형태로 나타내어 지역 간 암 발생의 연관성 파악하고자 하였다. 질병지도에서는 상대위험이 1보다 큰 지역의 경우 붉은 색으로, 상대위험이 1보다 작거나 같은 지역의 경우 파란 색으로 표현하였다.
이는 임의 효과의 추정치에 지수함수를 취하여 계산한 것이다. 해당 결과의 점추정치를 질병지도의 형태로 나타내어 지역 간 암 사망의 연관성 파악하고자 하였다. 질병지도에서는 상대위험이 1보다 큰 지역의 경우 붉은 색으로, 상대위험이 1보다 작거나 같은 지역의 경우 파란 색으로 표현하였다.
가설 설정
이와 달리 M2, M3, M4는 동과 구에 대해 공간효과를 고려한 모형이다. M2는 동에 CAR모형을 가정하고 구는 독립적인 임의효과로 두었으며, 반대로 M3는 동은 독립적인 임의효과로 두고 구에 CAR모형을 가정하였다. M4는 동과 구에 모두 CAR모형을 가정하였다 (Britt, 2005).
M2는 동에 CAR모형을 가정하고 구는 독립적인 임의효과로 두었으며, 반대로 M3는 동은 독립적인 임의효과로 두고 구에 CAR모형을 가정하였다. M4는 동과 구에 모두 CAR모형을 가정하였다 (Britt, 2005).
연구자료는 2005년도 기준 부산광역시 105개의 행정동에 대해서 2003-2009년 (7년)간 수집된 암발생/암사망 자료를 활용하였으며, 특정 시점의 발생이 결과에 영향을 주지 않기 위해 3년씩 자료를 묶어서 분석하였다. 동 단위로 집계된 발생자수/사망자수는 포아송 분포를 따른다고 가정하고, 동별 연앙인구수의 자연로그 값을 오프셋 (offset)으로 두었다. 추정을 위한 설명변수로는 연도, 성별, 나이, 2005년 기준 박탈지수 (deprivation index; Townsend, 1987)를 이용하였으며, 구/동별 차이를 두 개의 임의효과로 각각 고려하였다.
2는 동별로 구분된 부산 지역들에 대해 공통 경계를 가지는 경우 이웃하는 것으로 간주하여, 중심좌표를 연결해 놓은 것이다. 본 연구에서는 공통 경계를 공유하는 경우 외에도 다리 (bridge)를 통해 이어지는 지역들은 이웃하는 것으로 보았다.
임의효과의 추정을 통해서, 각 소지역간 암발생/암사망의 연관성을 질병지도 (disease mapping)의 형태로 나타내어 파악하고자 한다. 2절에서는 연구 자료의 소개로 본 연구에 이용된 자료의 변수에 대한 설명과 자료의 생성과정에 대해 기술하고, 연구방법으로 공간적 상관성을 가지는 GLMM 모형을 제시하였고 MCMC의 한 종류인 깁스 샘플링 (gibbs sampling)에 대하여 설명하고자 한다. 3절에서는 연구결과로 종류별 암에 따른 발생/사망에 대해 네 가지 형태의 공간적 상관성을 고려한 GLMM을 적합하여 정리하였다.
초기치 (initial value)는 β의 경우 0을, 정확도의 경우 1로 설정하였으며 11,000번의 반복샘플링 중 10%를 번인 (burn-in)하여 총 10,000개의 샘플을 취하여 분석하였다. 모수의 민감성 점검을 위해 체인 (chain)의 개수를 증가시켜 살펴보았으나 차이가 없는 것으로 확인되어 체인은 1개로 설정하여 분석하였다. Figure 2.
예를 들어, 2004년 시점 추정을 위해 2003-2005년 자료를 합친 형태로 분석하였다. 반응변수는 암발생자수 및 암사망자수이며, 갑상선을 제외한 전체암과 주요 4대암인 위암, 대장암, 폐암, 간암에 대해 다루었다. 갑상선암의 경우, 기관에 따라 진단 기준 차이가 있으므로 제외하는 것이 적절하다는 의학적 소견에 따라 전체암 분석에서는 해당암을 제외하였다.
베이지안 모형의 선택 기준으로는 DIC, Posterior predictive p-value 등이 있으나 본 연구에서는 DIC를 비교하였다. DIC는 MCMC 시뮬레이션에 의해 얻어진 사후분포 모형, 즉 베이지안 모형 선택에 특히 유용하다 (Berg, 2004).
부산지역암센터에 의해 관리되어지고 있는 암발생/암사망 등록 자료를 본 연구에 활용하였다. 시간적 추세를 고려하기 위하여 2003-2009년 7년간 수집된 자료를 3년 기준으로 결합한 2004-2008년에 대해 분석하였다. 예를 들어, 2004년 시점 추정을 위해 2003-2005년 자료를 합친 형태로 분석하였다.
암 발생 및 암 사망 추정을 위한 효율적인 공간 모형을 선택하였다.
암 발생 추정에 사용된 공변량 효과 보정 후 남아있는 상대위험 정도를 구/동별로 추정하였다. 이는 임의 효과의 추정치에 지수함수를 취하여 계산한 것이다.
암 사망 추정에 사용된 공변량 효과 보정 후 남아있는 상대위험 정도를 구/동별로 추정하였다. 이는 임의 효과의 추정치에 지수함수를 취하여 계산한 것이다.
이러한 문제점을 해결하기 위해 각 행정단위별 효과에 대한 공간적 상관성이 있는 모형 (spatially correlated model)이 요구되었고 이차적으로 공간적 상관성을 가지는 GLMM을 적합하였다. 연구자료는 2005년도 기준 부산광역시 105개의 행정동에 대해서 2003-2009년 (7년)간 수집된 암발생/암사망 자료를 활용하였으며, 특정 시점의 발생이 결과에 영향을 주지 않기 위해 3년씩 자료를 묶어서 분석하였다. 동 단위로 집계된 발생자수/사망자수는 포아송 분포를 따른다고 가정하고, 동별 연앙인구수의 자연로그 값을 오프셋 (offset)으로 두었다.
3절에서는 연구결과로 종류별 암에 따른 발생/사망에 대해 네 가지 형태의 공간적 상관성을 고려한 GLMM을 적합하여 정리하였다. 이어서 적합한 모형들을 DIC (deviance information criterion) 기준으로 비교하여 타당한 모형을 선택하고, 선택된 모형에 대해 공간적 상관성의 효과에 대해서 알아보았으며 추정된 임의효과를 근거로 부산 지역 구/동별로 질병지도를 나타내었다. 4절에서는 연구결과를 요약하고 그에 따른 결론을 도출한다.
초기치 (initial value)는 β의 경우 0을, 정확도의 경우 1로 설정하였으며 11,000번의 반복샘플링 중 10%를 번인 (burn-in)하여 총 10,000개의 샘플을 취하여 분석하였다.
본 논문에서는 상이하게 나타나는 부산 지역의 암발생 및 암사망 추정을 위해 행정단위별 (구/동)로 보고된 부산지역암센터 자료를 이용하였다. 행정단위별로 어떠한 차이를 보이는지에 대해 분석하기 위해서 일차적으로 구와 구 하위 행정구역인 동을 임의 효과로 가정한 다수준 (multi-level) 일반화 선형 혼합 모형 (generalized linear mixed model; GLMM)을 적합하였다. 그러나 Moran 검정 결과 지역 간 공간적 상관성이 존재하였고, 이는 결과의 왜곡을 초래할 수 있음을 확인하였다.
대상 데이터
설명변수는 연도, 성별, 나이, 2005년 기준 박탈지수를 고려하였다. 2008년 부산광역시 행정구역 기준으로 16개 구/군과 105개 읍/면/동 단위의 지역적 차이를 임의효과로 고려하였다. 여기서 구는 구/군을, 동은 읍/면/동을 간소화하여 표기한 것이며, 앞으로도 계속 이와 같이 표기하고자 한다.
각 동별 연앙인구 수의 자연로그 값을 오프셋으로 두어 10만명당 발생자수·사망자수를 추정하였으며, 해당 연앙인구는 통계청의 주민등록 연앙인구 자료를 이용하였다.
본 논문에서는 상이하게 나타나는 부산 지역의 암발생 및 암사망 추정을 위해 행정단위별 (구/동)로 보고된 부산지역암센터 자료를 이용하였다. 행정단위별로 어떠한 차이를 보이는지에 대해 분석하기 위해서 일차적으로 구와 구 하위 행정구역인 동을 임의 효과로 가정한 다수준 (multi-level) 일반화 선형 혼합 모형 (generalized linear mixed model; GLMM)을 적합하였다.
) 표본들의 표본평균을 이용하여 추정하는 방법이다. 본 연구에서는 해당 방법의 특수한 경우인 깁스 샘플링을 이용하였다. 깁스 샘플링은 결합 분포가 명확히 알려져 있지 않으나, 각 변수의 조건부 분포는 알려져 있을 경우 적용 가능하며, 추정하고자 하는 변수의 나머지 변수에 대한 조건부 확률분포에 의존하여 교대로 표본을 채취하는 방법이다.
부산지역암센터에 의해 관리되어지고 있는 암발생/암사망 등록 자료를 본 연구에 활용하였다. 시간적 추세를 고려하기 위하여 2003-2009년 7년간 수집된 자료를 3년 기준으로 결합한 2004-2008년에 대해 분석하였다.
데이터처리
암 발생 및 암 사망 추정을 위해 구와 동을 임의 효과로 가정한 다수준 일반화 선형 혼합 모형을 적합하고, 공간적 상관성을 확인하고자 Moran 검정을 진행하였다. 통계프로그램 R의 spdep 패키지 중 moran.
암 발생 및 암 사망 추정을 위해 구와 동을 임의 효과로 가정한 다수준 일반화 선형 혼합 모형을 적합하고, 공간적 상관성을 확인하고자 Moran 검정을 진행하였다. 통계프로그램 R의 spdep 패키지 중 moran.test 함수를 이용하였으며 유의수준 0.05에서 가설 검정을 하였다. 귀무가설을 기각하는 경우 공간적 상관성이 존재한다고 할 수 있다.
이론/모형
M1은 Laplace 근사법을 이용한 최대우도 추정법 (maximum likelihood estimation; MLE) 방식으로 모형 적합이 가능하지만, M2, M3, M4는 공간효과로 CAR모형을 고려하였기 때문에 다른 방법이 요구된다. 본 연구에서는 WinBUGS를 이용한 베이지안 적합을 이용하였다. 즉, MCMC 중 깁스 샘플링을 이용한 사후분포 추정을 하였다 (Walsh, 2004).
동 단위로 집계된 발생자수/사망자수는 포아송 분포를 따른다고 가정하고, 동별 연앙인구수의 자연로그 값을 오프셋 (offset)으로 두었다. 추정을 위한 설명변수로는 연도, 성별, 나이, 2005년 기준 박탈지수 (deprivation index; Townsend, 1987)를 이용하였으며, 구/동별 차이를 두 개의 임의효과로 각각 고려하였다. 임의효과의 추정을 통해서, 각 소지역간 암발생/암사망의 연관성을 질병지도 (disease mapping)의 형태로 나타내어 파악하고자 한다.
성능/효과
또한 이러한 잔류 특성을 공간분석을 통해 지도로 살펴본 결과 구별로는 인접지역 간 상관성이 존재하고 동별 기준으로는 뚜렷한 지역 간 상관성이 나타나지 않는 점에서, 공간 분석을 통해 지역적 특성의 단위 기준을 파악할 수 있음을 알게 되었다. 결론적으로 특정 지역의 암발생 및 암사망 정도가 해당 지역의 여러 요인에 의한 것으로 볼 수 있지만, 특정 단위의 인접지역 요인에 따른 영향력도 의미가 있다고 볼 수 있다. 그리고 암종별로 매우 다르게 나타난 질병지도로부터 향후 연구에서는 각 암의 특성에 맞는 분석이 필요할 것으로 판단된다.
이를 통해 지역적 특성이 존재하는 자료에 대해서는 반드시 공간적 상관성을 고려한 분석을 수행하는 것이 중요함을 알 수 있었다. 또한 이러한 잔류 특성을 공간분석을 통해 지도로 살펴본 결과 구별로는 인접지역 간 상관성이 존재하고 동별 기준으로는 뚜렷한 지역 간 상관성이 나타나지 않는 점에서, 공간 분석을 통해 지역적 특성의 단위 기준을 파악할 수 있음을 알게 되었다. 결론적으로 특정 지역의 암발생 및 암사망 정도가 해당 지역의 여러 요인에 의한 것으로 볼 수 있지만, 특정 단위의 인접지역 요인에 따른 영향력도 의미가 있다고 볼 수 있다.
3)에서 소개한 M1, M2, M3, M4를 적합하여 구한 사후분포의 DIC이다. 모든 암 분류에서 DIC 값이 가장 작은 M3가 좋은 모형임을 확인할 수 있다.
암 사망 자료의 경우, 암 발생과 마찬가지로 모든 암 분류에서 M3가 가장 DIC 값이 작은 것으로 확인되었다.
즉, 지역에 따른 공간적 상관성을 고려하는 것이 효과적이며 나아가 동에 비해 구 단위의 공간 분석이 적절함을 알 수 있다. Table 3.
추정결과에서 보듯이 지역 간 사회·경제적인 수준을 나타내는 박탈지수와 같은 지표를 고려하여도 지역적 특성이 남아있음을 알 수 있었다.
후속연구
결론적으로 특정 지역의 암발생 및 암사망 정도가 해당 지역의 여러 요인에 의한 것으로 볼 수 있지만, 특정 단위의 인접지역 요인에 따른 영향력도 의미가 있다고 볼 수 있다. 그리고 암종별로 매우 다르게 나타난 질병지도로부터 향후 연구에서는 각 암의 특성에 맞는 분석이 필요할 것으로 판단된다.
본 연구의 결과를 통해 부산지역의 암발생 및 암사망과 관련하여 취약지역에 대한 관심과 예방대책을 마련할 수 있는 유용한 자료가 될 것으로 기대된다. 나아가 지역적 특성이 있는 자료에 대해 공간분석을 적용하여 역학적으로 유의한 결과를 도출하는데 도움이 되길 바란다.
본 연구의 결과를 통해 부산지역의 암발생 및 암사망과 관련하여 취약지역에 대한 관심과 예방대책을 마련할 수 있는 유용한 자료가 될 것으로 기대된다. 나아가 지역적 특성이 있는 자료에 대해 공간분석을 적용하여 역학적으로 유의한 결과를 도출하는데 도움이 되길 바란다.
질의응답
핵심어
질문
논문에서 추출한 답변
베이지안 CAR모형은 어떻게 구현할 수 있나요?
이는 소지역의 적은 표본 수로 인한 추정치의 정도에 대한 문제점을 해결할 수 있다. 베이지안 CAR모형은 WinBUGS와 같은 패키지로 쉽게 구현할 수 있다. 최근에는 지역내 구/군, 동 단위의 소지역별 공간적 상관성을 고려한 통계적 분석방법들이 제시되고 있다 (Lee와 Park, 2015).
precision 확보가 어려운 문제를 해결하는 소지역 추정을 위한 다양한 통계적인 방법으로는 무엇이 있나요?
이러한 문제점을 해결하기 위해 소지역 추정을 위한 다양한 통계적인 방법이 제시되고 있다. 대표적으로 Clayton과 Kaldor (1987)이 제안한 경험적 베이즈 (empirical Bayes; EB) 방법과 Ghosh 등(1998)이 제안한 계층적 베이즈 (hierarchical Bayes; HB)방법, Kim 등 (2011)이 수행한 다단계 일반화 선형모형 (hierarchical generalized linear model; HGLM)이 있다. 이와 같은 베이즈 접근법 (Banerjee 등, 2004)은 모수에 대한 사전분포 (prior distribution)를 가정하고 모수의 추정을 위해 MCMC (Markov chain Monte Carlo)계산과정을 이용한다.
과도하게 작은 소지역 단위 분석은 어떤 문제점을 발생할 수 있나요?
일반적으로 대지역 (region) 또는 소지역 (small area) 단위의 분석이 가능하나, 더욱 상세하고 정확한 추정 결과를 위해 소지역 추정(small area estimation; SAE) 방법이 선호되고 있다 (Pfeffermann, 2002; Chandra 등, 2007). 그러나, 과도하게 작은 소지역 단위 분석은 단위 내 표본수가 작아 추정치의 정도 (precision) 확보가 어려운 문제점이 발생할 수 있다. 즉, 분석하고자 하는 지역 단위에서 타겟변수의 미발생으로 인해 결과의 왜곡이 심해질 수 있다 (Rao, 2003).
참고문헌 (20)
Ahn, D., Han, J., Yoon, T., Kim, C. and No, M. (2015). Small area estimations for disease mapping by using spatial model. Journal of the Korean Data & Information Science Society, 26, 101-109.
Banerjee, S., Carlin, B. P. and Gelfand, A. E. (2004). Hierarchical modeling and analysis for spatial data, CRC Press, Boca Raton, Florida.
Berg, A., Meyer, R. and Yu, J. (2004). Deviance information criterion for comparing stochastic volatility models. Journal of Business & Economic Statistics, 22, 107-120.
Britt, H. R., Carlin, B. P., Toomey, T. L. and Wagenaar, A. C. (2005). Neighborhood level spatial analysis of the relationship between alcohol outlet density and criminal violence. Environmental and Ecological Statistics, 12, 411-426.
Brooks, S. P. and Gelman A. (1998). General Methods for Monitoring Convergence of Iterative Simulations. Journal of Computational and Graphical Statistics, 7, 434-455.
Chandra, H., Salvati, N. and Chambers, R. (2007). Small area estimation for spatially correlated populations-a comparison of direct and indirect model-based methods. Statistics in Transition, 8, 887-906.
Choi, M. H., Cheong, K. S., Cho, B. M., Hwang, I. K., Kim, C. H. and Kim, M. H., et al. (2011). Deprivation and mortality at the town level in Busan, Korea: An ecological study. Journal of Preventive Medicine and Public Health, 44, 242-248.
Christensen, O. F. and Waagepetersen, R. (2002). Bayesian prediction of spatial count data using generalized linear mixed models. Biometrics, 58, 280-286.
Ghosh, M., Natarajan, K., Stroud, T. W. F. and Carlin, B. P. (1998). Genearlized linear models for small-area estimation. Journal of the American Statistical Association, 93, 273-282.
Gilks, W. R. and Wild, P. (1992). Adaptive rejection sampling for gibbs sampling. Applied Statistics. Journal of the Royal Statistical Society, 41, 337-348.
Kim, K., Noh, M. and Ha, I. (2011). A study using HGLM on regional difference of the dead due to injuries. Journal of the Korean Data & Information Science Society, 22, 137-148.
Lee, W. J. and Park, C. (2015). Prediction of apartment prices per unit in Daegu-Gyeongbuk areas by spatial regression models. Journal of the Korean Data & Information Science Society, 26, 561-568.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.