공간 또는 시공간 데이터에서 다른 지역에 비해 유난히 높은 위험률을 보이는 소위 핫 스팟 (hot spot)으로 불리는 클러스터 (cluster)를 찾으려고 하는 경우가 많다. 기존의 많은 방법들은 이러한 클러스터 패턴이 존재하는지에 대한 해답만 주었지만, 최근의 많은 방법들은 클러스터의 위치, 모양, 크기뿐만 아니라 찾아진 클러스터가 통계적으로 유의한지까지 검정해준다. 본 논문에서는 이러한 다양한 방법 중 가장 많이 사용되는 클러스터 탐색 방법 중 하나인 스캔 통계량을 이용한 방법을 소개하고 그 방법이 구현된 무료 소프트웨어 SaTScan을 이용한 결과를 보여주고 장단점을 논하고자 한다. 미국 국립암센터의 SEER 프로그램에서 제공하는 미국의 각 카운티별 암 사망자 자료 중 2006년 여성 폐암 사망자 데이터를 예시 데이터로 사용하여 스캔 통계량을 이용하여 구한 클러스터 탐색 결과를 제시하고 비슷한 연구를 하고자는 연구자에게 도움을 주고자 한다.
공간 또는 시공간 데이터에서 다른 지역에 비해 유난히 높은 위험률을 보이는 소위 핫 스팟 (hot spot)으로 불리는 클러스터 (cluster)를 찾으려고 하는 경우가 많다. 기존의 많은 방법들은 이러한 클러스터 패턴이 존재하는지에 대한 해답만 주었지만, 최근의 많은 방법들은 클러스터의 위치, 모양, 크기뿐만 아니라 찾아진 클러스터가 통계적으로 유의한지까지 검정해준다. 본 논문에서는 이러한 다양한 방법 중 가장 많이 사용되는 클러스터 탐색 방법 중 하나인 스캔 통계량을 이용한 방법을 소개하고 그 방법이 구현된 무료 소프트웨어 SaTScan을 이용한 결과를 보여주고 장단점을 논하고자 한다. 미국 국립암센터의 SEER 프로그램에서 제공하는 미국의 각 카운티별 암 사망자 자료 중 2006년 여성 폐암 사망자 데이터를 예시 데이터로 사용하여 스캔 통계량을 이용하여 구한 클러스터 탐색 결과를 제시하고 비슷한 연구를 하고자는 연구자에게 도움을 주고자 한다.
In epidemiology or etiology, we are often interested in identifying areas of elevated risk, so called, hot spot or cluster. Many existing clustering methods only tend to a result if there exists any clustering pattern in study area. Recently, however, lots of newly introduced clustering methods can ...
In epidemiology or etiology, we are often interested in identifying areas of elevated risk, so called, hot spot or cluster. Many existing clustering methods only tend to a result if there exists any clustering pattern in study area. Recently, however, lots of newly introduced clustering methods can identify the location, size, and shape of clusters and test if the clusters are statistically significant as well. In this paper, one of most commonly used clustering methods, scan statistic, and its implementation SaTScan software, which is freely available, will be introduced. To exemplify the usage of SaTScan software, we used cancer data from the SEER program of National Cancer Institute of U.S.A.We aimed to help researchers and practitioners, who are interested in spatial cluster detection, using female lung cancer mortality data of the SEER program.
In epidemiology or etiology, we are often interested in identifying areas of elevated risk, so called, hot spot or cluster. Many existing clustering methods only tend to a result if there exists any clustering pattern in study area. Recently, however, lots of newly introduced clustering methods can identify the location, size, and shape of clusters and test if the clusters are statistically significant as well. In this paper, one of most commonly used clustering methods, scan statistic, and its implementation SaTScan software, which is freely available, will be introduced. To exemplify the usage of SaTScan software, we used cancer data from the SEER program of National Cancer Institute of U.S.A.We aimed to help researchers and practitioners, who are interested in spatial cluster detection, using female lung cancer mortality data of the SEER program.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 논문에서는 다른 모양에 비해 높은 검정력을 보이는 타원형으로 윈도우 모양을 고정하고 최대 허용 윈도우 크기를 다양하게 변화시켜가며 찾아진 클러스터 결과가 어떻게 다른 지를 보여주고자 한다. 이 결과들 중 어떤 것이 더 적절한지는 암 전문가나 역학 연구 전문가 또는 정책 입안자가 판단하는 것으로 남겨두기로 한다.
필요에 의해서는 다른 지역에 비하여 유난히 낮은 위험률을 보이는 지역도 관심의 대상이 되기도 하지만 연구자들은 주로 비교적 높은 위험률을 보이는 지역에 관심을 가지게 된다. 본 논문에서 예시로 사용한 암 데이터의 경우, 다른 지역에 비해 더 높은 발병률이나 사망률을 보이는 암 클러스터 (cancer cluster)를 찾는 것이 주 관심이다.
본 논문에서는 이 중 Kulldorff (1997)의 스캔 통계량 (scan statistic)을 이용하여 공간 클러스터를 찾는 방법을 소개하고 미국국립암센터 (National Cancer Institute)의 SEER (Surveillance, Epidemiology, and End Results) 프로그램에서 제공하는 2006년 미국의 여성 폐암 사망자 데이터를 사용하여 클러스터를 찾는 예시를 보여주고자 한다. Kulldorff의 스캔 통계량을 이용한 클러스터 탐색 방법은 무료 소프트웨어인 SaTSan (Kulldorff, 2016)으로 구현되어 있고 본 논문에서도 이 프로그램을 사용하여 2006년 미국의 여성 폐암 사망자 데이터를 분석하였다.
본 논문은 이미 많은 연구가 진행된 미국의 사례를 참고하여 우리나라의 암 등록 자료에 대해 클러스터 분석을 할 때 시행착오를 줄이고 어떤 점들에 유의하여 분석을 해야 하는지에 대한 도움을 주고자 하였다.
본 연구에서는 공간 또는 시공간 데이터에서 다른 지역이나 시간에 비해 위험률이 유난히 높은 지역이나 시간인 클러스터를 찾는 방법 중 하나인 스캔 통계량을 소개하였다. 또한, 비교적 덜 알려진 무료 소프트웨어 SaTScan을 국내에 소개하여 미국국립암센터의 SEER 프로그램을 통해 제공되는 미국 폐암 사망자 데이터를 분석한 결과를 예시로 보여주고 해석에서의 유의점에 대해서도 언급을 하였다.
이 절에서는 SEER 프로그램에서 제공하는 미국의 각 카운티 (county)별 암 사망자 데이터 중 2006년 미국의 여성 폐암 사망자 데이터에 스캔 통계량을 이용하여 통계적으로 유의한 클러스터를 찾은 결과를 예시로 보여주고 결과의 해석과 주의점에 대해 논의하고자 한다.
이론적으로는 어떤 유형의 데이터에 대해서도 가능하지만 (Huang 등, 2007; Huang 등, 2009), 본 논문에서는 예시에서 사용되는 암 사망률 데이터와 같이 각 지역의 인구수와 암 사망자수가 주어진 카운트(count) 데이터의 경우와 같이 포아송 모형을 가정하여 우도비를 구하는 경우만 설명하고자 한다.
가설 설정
귀무가설 [H0: 모든 연구 영역에서 위험도는 같다 (즉, 상대위험도 (RR) =1)]과 대립가설 [H1: 윈도우 A내의 위험도가 더 높다 (또는 낮다)]에 대해 스캔 통계량을 이용하여 가설검정을 하는 것이 기본 원리이다. 즉, 귀무가설과 대립가설 하에서 우도 (likelihood)를 계산하고 이 둘을 비교하는 우도비 (likelihood ratio; LR) 검정을 이용하여 통계적으로 유의한 클러스터를 찾아낸다.
제안 방법
1 참고)이고 타원형의 윈도우를 사용 하는 것이 찾아진 클러스터를 검정할 때 더 높은 통계적 검정력을 보인다고 알려져 있다 (Kulldorff 등, 2006). 따라서 본 논문에서도 타원형의 윈도우를 사용하여 클러스터를 탐색하였다.
본 연구에서는 공간 또는 시공간 데이터에서 다른 지역이나 시간에 비해 위험률이 유난히 높은 지역이나 시간인 클러스터를 찾는 방법 중 하나인 스캔 통계량을 소개하였다. 또한, 비교적 덜 알려진 무료 소프트웨어 SaTScan을 국내에 소개하여 미국국립암센터의 SEER 프로그램을 통해 제공되는 미국 폐암 사망자 데이터를 분석한 결과를 예시로 보여주고 해석에서의 유의점에 대해서도 언급을 하였다.
2와 같은 색지도를 만들기 위해서는 외부 프로그램을 이용해야만 한다. 본 논문에서는 R 프로그램을 이용하였다.
스캔 통계량을 구하는 과정에서 선택하는 윈도우의 크기에 따라 최종적인 결과가 달라질 수 있는 점도 많은 연구를 통해서 해법이 찾아지고 있는 중이며 많은 경우에 따라서는 연구 목적에 따라 임의로 그 크기를 한정할 수도 있다는 점을 2006년 미국 여성 폐암 사망자 데이터를 분석한 결과를 통해 논의해보았다.
이러한 최대 허용 윈도우 크기의 선택은 통계적인 문제라기보다는 연구목적이나 연구자의 관심에 따라서 의도적으로 정하는 것으로, 연구자가 연구 영역 전체에 걸쳐서 큰 규모의 클러스터 (global cluster)를 찾는데 관심이 있다면 최대 허용 윈도우의 크기를 늘리고, 소규모의 지역 클러스터 (local cluster)를 찾는 것이 더 중요하다면 최대 허용 윈도우의 크기를 줄이면 된다. 스캔 통계량을 이용하여 공간 데이터를 분석한 많은 논문들이 각각의 연구 목적에 따라 다양한 크기의 최대 허용 윈도우 크기를 사용 하였다. 최대 허용 윈도우 크기를 어떻게 정하는 가에 따라 찾아진 클러스터 결과들이 달라지며 그 결과들 중 어떤 것이 실제로 더 적절한지에 대해 객관적인 측도를 제공하려는 연구는 계속되고 있다 (Han 등, 2016).
즉, 각 카운티별 여성 인구 수와 폐암 사망자수가 데이터 입력값이 되고 공간정보는 각 카운티의 중앙점의 좌표가 제공이 되었다. 이렇게 주어진 중앙 좌표를 기준으로 각 점들에 대해 미리 정한 최대 허용 윈도우 크기까지 윈도우의 크기를 점진적으로 키워가며 모든 윈도우에 대해 우도비를 계산하고 그 최대값인 최대우도비값을 구하여 몬테카를로 시뮬레이션을 통해 몬테카를로 P값을 구한다. 기본적으로 SaTScan은 가능한 모든 클러스터를 찾아서 보여주므로 결과 문서를 확인하여 P값이 예를 들어 5%보다 작은 클러스터만 유의한 것으로 판단해야한다.
대상 데이터
본 논문에서는 이 중 Kulldorff (1997)의 스캔 통계량 (scan statistic)을 이용하여 공간 클러스터를 찾는 방법을 소개하고 미국국립암센터 (National Cancer Institute)의 SEER (Surveillance, Epidemiology, and End Results) 프로그램에서 제공하는 2006년 미국의 여성 폐암 사망자 데이터를 사용하여 클러스터를 찾는 예시를 보여주고자 한다. Kulldorff의 스캔 통계량을 이용한 클러스터 탐색 방법은 무료 소프트웨어인 SaTSan (Kulldorff, 2016)으로 구현되어 있고 본 논문에서도 이 프로그램을 사용하여 2006년 미국의 여성 폐암 사망자 데이터를 분석하였다.
데이터처리
: 윈도우 A내의 위험도가 더 높다 (또는 낮다)]에 대해 스캔 통계량을 이용하여 가설검정을 하는 것이 기본 원리이다. 즉, 귀무가설과 대립가설 하에서 우도 (likelihood)를 계산하고 이 둘을 비교하는 우도비 (likelihood ratio; LR) 검정을 이용하여 통계적으로 유의한 클러스터를 찾아낸다.
이론/모형
2에 제시되었다. SaTScan의 기본 설정을 이용하여 포아송 모형을 적합하였다. 즉, 각 카운티별 여성 인구 수와 폐암 사망자수가 데이터 입력값이 되고 공간정보는 각 카운티의 중앙점의 좌표가 제공이 되었다.
LLR(z)를 구한다. 스캔 통계량은 closed form이 존재하지 않기 때문에 몬테카를로 (Monte Carlo) 접근법을 사용하여 유의성 검정을 한다.
성능/효과
위의 결과는 미국 국립암센터의 암 전문가들이 북부 캘리포니아와 네바다주를 비롯하여 몇몇 지역들은 여성 히스패닉 인구가 급격히 늘어난 지역들이고 이들 히스패닉 여성들의 흡연율이 비교적 높은 편이라는 점을 알아내면서, 찾아진 클러스터들이 실제로도 역학적으로 의미가 있는 결과임을 보여준다.
2를 통해 확인할 수 있다. 즉, (a) 2%에서 (d) 50%에 이르기까지 최대 허용 윈도우의 크기에 따라 최종적으로 찾아진 유의한 클러스터들의 크기, 모양, 위치 등이 달라짐을 알 수 있다. 이와 같은 경우 (a)∼(d) 중 어느 결과가 데이터의 실제 공간 클러스터 패턴을 잘 설명하는지에 대한 판단을 하기는 힘들다.
질의응답
핵심어
질문
논문에서 추출한 답변
다른 지역에 비해 높은 위험률을 보이는 지역을 뭐라고 하는가?
이런 공간상관성을 고려한 추정량의 계산과 질병지도를 작성하여 데이터의 공간적, 시간적 특성을 이해하려는 접근법 외에 역학적인 요구나 공공정책 수립을 위한 의사결정을 보조하는 수단으로 다른 지역에 비하여 유난히 높은 위험률을 보이는 지역을 찾아내고자하는 경우가 있을 수 있다. 다른 지역에 비하여 높은 위험률을 보이는 지역 (또는 서로 이웃한 지역의 모임)을 클러스터 (cluster) 또는 핫스팟 (hot spot)이라고 부른다. 필요에 의해서는 다른 지역에 비하여 유난히 낮은 위험률을 보이는 지역도 관심의 대상이 되기도 하지만 연구자들은 주로 비교적 높은 위험률을 보이는 지역에 관심을 가지게 된다.
스캔 통계량의 접근법의 장점은?
스캔 통계량의 접근법은 클러스터로 의심되는 지역의 모양이나 크기에 대한 정보가 없는 상태에서도 사용이 가능하다는 장점이 있지만, 초기 윈도우의 크기와 모양을 어떻게 정의하느냐에 따라 찾아진 클러스터의 위치나 크기가 변할 수 있다는 단점이 있다.
원도우 내의 인구수가 연구 영역 전체 인구수에서 차지하는 비율로 정의하는 이유는?
크기의 경우는 실제 지리적인 크기 (가령 원형 윈도우의 경우 반경 50km 등)를 이용하기도 하지만, 대부분의 경우는 윈도우 내의 인구수가 연구 영역 전체 인구수에서 차지하는 비율로 정의를 한다. 이렇게 정의하는 이유는 단순히 지리적인 크기로 반경이 고정된 윈도우를 사용할 경우 윈도우 내의 인구수가 많다는 이유로 대도시 근처만 클러스터로 찾아지는 경우를 피할 수 있기 때문이다.
참고문헌 (21)
Ahn, D. S., Han, J. H., Yoon, T. H., Kim, C. H. and Noh, M. S. (2015). Small area estimations for disease mapping by using spatial model. Journal of the Korean Data & Information Science Society, 26, 101-109.
Banerjee, S., Carlin, B. P. and Gelfand, A. E. (2014). Hierarchical modeling and analysis for spatial data, CRC Press, New York.
Chandra, H., Salvati, N. and Chambers, R. (2007). Small area estimation for spatially correlated populations-a comparison of direct and indirect model-based methods. Statistics in Transition, 8, 887-906.
Coly, S., Charras-Garrido, M., Abrial, D. and Yao-Lafourcade, A. (2015). Spatiotemporal disease mapping applied to infectious diseases. Procedia Environmental Sciences, 26, 32-37.
Han, J., Zhu L, Kulldorff, M., Hostovich, S., Stinchcomb, D., Tatalovich, Z., Lewis D. and Feuer, E. (2016). Using Gini coefficient to determining optimal cluster reporting sizes for spatial scan statistics. International Journal of Health Geographics, 15-27.
Huang, L., Kulldorff, M. and Gregorio, D. (2007). A spatial scan statistic for survival data. Biometrics, 63, 109-118.
Huang, L., Tiwari, R. C., Zhaohui, Z., Kulldorff, M. and Feuer, E. J. (2009). Weighted normal spatial scan statistic for heterogeneous population data. Journal of the American Statistical Association, 104, 886-898.
Lawson, A. B. (2013). Bayesian disease mapping: Hierarchical modeling in spatial epidemiology, 2nd Ed., Chapman and Hall/CRC, New York.
Lee, W. and Park, C. (2015). Prediction of apartment prices per unit in Daegu-Gyeongbuk areas by spatial regression models. Journal of the Korean Data & Information Science Society, 26, 561-568.
NCI. (2016). Surveillance, Epidemiology, and End Results (SEER) Program, www.seer.cancer.org.
Patil, G. and Taillie, C. (2004). Upper level set scan statistic for detecting arbitrarily shaped hotspots. Environmental and Ecological Statistics, 11, 183-197.
Pfeffermann, D. (2002). Small area estimation: New developments and directions. International Statistical Review/Revue Internationale De Statistique, 70, 125-143.
Tango, T. and Takahashi, K. (2005). A flexibly shaped spatial scan statistic for detecting clusters. International Journal of Health Geographics, 4-11.
Waller, L. A. and Jacquez, G. M. (1995) Disease models implicit in statistical tests of disease clustering. Epidemiology, 6, 584-590.
Wheeler, D. C. (2007). A comparison of spatial clustering and cluster detection techniques for childhood leukemia incidence in Ohio, 1996-2003, International Journal of Health Geographics. 6-13.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.