$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

스캔 통계량을 이용한 암 클러스터 탐색
Cancer cluster detection using scan statistic 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.27 no.5, 2016년, pp.1193 - 1201  

한준희 (양산부산대학교병원 의학통계실) ,  이민정 (강원대학교 정보통계학과)

초록
AI-Helper 아이콘AI-Helper

공간 또는 시공간 데이터에서 다른 지역에 비해 유난히 높은 위험률을 보이는 소위 핫 스팟 (hot spot)으로 불리는 클러스터 (cluster)를 찾으려고 하는 경우가 많다. 기존의 많은 방법들은 이러한 클러스터 패턴이 존재하는지에 대한 해답만 주었지만, 최근의 많은 방법들은 클러스터의 위치, 모양, 크기뿐만 아니라 찾아진 클러스터가 통계적으로 유의한지까지 검정해준다. 본 논문에서는 이러한 다양한 방법 중 가장 많이 사용되는 클러스터 탐색 방법 중 하나인 스캔 통계량을 이용한 방법을 소개하고 그 방법이 구현된 무료 소프트웨어 SaTScan을 이용한 결과를 보여주고 장단점을 논하고자 한다. 미국 국립암센터의 SEER 프로그램에서 제공하는 미국의 각 카운티별 암 사망자 자료 중 2006년 여성 폐암 사망자 데이터를 예시 데이터로 사용하여 스캔 통계량을 이용하여 구한 클러스터 탐색 결과를 제시하고 비슷한 연구를 하고자는 연구자에게 도움을 주고자 한다.

Abstract AI-Helper 아이콘AI-Helper

In epidemiology or etiology, we are often interested in identifying areas of elevated risk, so called, hot spot or cluster. Many existing clustering methods only tend to a result if there exists any clustering pattern in study area. Recently, however, lots of newly introduced clustering methods can ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 다른 모양에 비해 높은 검정력을 보이는 타원형으로 윈도우 모양을 고정하고 최대 허용 윈도우 크기를 다양하게 변화시켜가며 찾아진 클러스터 결과가 어떻게 다른 지를 보여주고자 한다. 이 결과들 중 어떤 것이 더 적절한지는 암 전문가나 역학 연구 전문가 또는 정책 입안자가 판단하는 것으로 남겨두기로 한다.
  • 필요에 의해서는 다른 지역에 비하여 유난히 낮은 위험률을 보이는 지역도 관심의 대상이 되기도 하지만 연구자들은 주로 비교적 높은 위험률을 보이는 지역에 관심을 가지게 된다. 본 논문에서 예시로 사용한 암 데이터의 경우, 다른 지역에 비해 더 높은 발병률이나 사망률을 보이는 암 클러스터 (cancer cluster)를 찾는 것이 주 관심이다.
  • 본 논문에서는 이 중 Kulldorff (1997)의 스캔 통계량 (scan statistic)을 이용하여 공간 클러스터를 찾는 방법을 소개하고 미국국립암센터 (National Cancer Institute)의 SEER (Surveillance, Epidemiology, and End Results) 프로그램에서 제공하는 2006년 미국의 여성 폐암 사망자 데이터를 사용하여 클러스터를 찾는 예시를 보여주고자 한다. Kulldorff의 스캔 통계량을 이용한 클러스터 탐색 방법은 무료 소프트웨어인 SaTSan (Kulldorff, 2016)으로 구현되어 있고 본 논문에서도 이 프로그램을 사용하여 2006년 미국의 여성 폐암 사망자 데이터를 분석하였다.
  • 본 논문은 이미 많은 연구가 진행된 미국의 사례를 참고하여 우리나라의 암 등록 자료에 대해 클러스터 분석을 할 때 시행착오를 줄이고 어떤 점들에 유의하여 분석을 해야 하는지에 대한 도움을 주고자 하였다.
  • 본 연구에서는 공간 또는 시공간 데이터에서 다른 지역이나 시간에 비해 위험률이 유난히 높은 지역이나 시간인 클러스터를 찾는 방법 중 하나인 스캔 통계량을 소개하였다. 또한, 비교적 덜 알려진 무료 소프트웨어 SaTScan을 국내에 소개하여 미국국립암센터의 SEER 프로그램을 통해 제공되는 미국 폐암 사망자 데이터를 분석한 결과를 예시로 보여주고 해석에서의 유의점에 대해서도 언급을 하였다.
  • 이 절에서는 SEER 프로그램에서 제공하는 미국의 각 카운티 (county)별 암 사망자 데이터 중 2006년 미국의 여성 폐암 사망자 데이터에 스캔 통계량을 이용하여 통계적으로 유의한 클러스터를 찾은 결과를 예시로 보여주고 결과의 해석과 주의점에 대해 논의하고자 한다.
  • 이론적으로는 어떤 유형의 데이터에 대해서도 가능하지만 (Huang 등, 2007; Huang 등, 2009), 본 논문에서는 예시에서 사용되는 암 사망률 데이터와 같이 각 지역의 인구수와 암 사망자수가 주어진 카운트(count) 데이터의 경우와 같이 포아송 모형을 가정하여 우도비를 구하는 경우만 설명하고자 한다.

가설 설정

  • 귀무가설 [H0: 모든 연구 영역에서 위험도는 같다 (즉, 상대위험도 (RR) =1)]과 대립가설 [H1: 윈도우 A내의 위험도가 더 높다 (또는 낮다)]에 대해 스캔 통계량을 이용하여 가설검정을 하는 것이 기본 원리이다. 즉, 귀무가설과 대립가설 하에서 우도 (likelihood)를 계산하고 이 둘을 비교하는 우도비 (likelihood ratio; LR) 검정을 이용하여 통계적으로 유의한 클러스터를 찾아낸다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
다른 지역에 비해 높은 위험률을 보이는 지역을 뭐라고 하는가? 이런 공간상관성을 고려한 추정량의 계산과 질병지도를 작성하여 데이터의 공간적, 시간적 특성을 이해하려는 접근법 외에 역학적인 요구나 공공정책 수립을 위한 의사결정을 보조하는 수단으로 다른 지역에 비하여 유난히 높은 위험률을 보이는 지역을 찾아내고자하는 경우가 있을 수 있다. 다른 지역에 비하여 높은 위험률을 보이는 지역 (또는 서로 이웃한 지역의 모임)을 클러스터 (cluster) 또는 핫스팟 (hot spot)이라고 부른다. 필요에 의해서는 다른 지역에 비하여 유난히 낮은 위험률을 보이는 지역도 관심의 대상이 되기도 하지만 연구자들은 주로 비교적 높은 위험률을 보이는 지역에 관심을 가지게 된다.
스캔 통계량의 접근법의 장점은? 스캔 통계량의 접근법은 클러스터로 의심되는 지역의 모양이나 크기에 대한 정보가 없는 상태에서도 사용이 가능하다는 장점이 있지만, 초기 윈도우의 크기와 모양을 어떻게 정의하느냐에 따라 찾아진 클러스터의 위치나 크기가 변할 수 있다는 단점이 있다.
원도우 내의 인구수가 연구 영역 전체 인구수에서 차지하는 비율로 정의하는 이유는? 크기의 경우는 실제 지리적인 크기 (가령 원형 윈도우의 경우 반경 50km 등)를 이용하기도 하지만, 대부분의 경우는 윈도우 내의 인구수가 연구 영역 전체 인구수에서 차지하는 비율로 정의를 한다. 이렇게 정의하는 이유는 단순히 지리적인 크기로 반경이 고정된 윈도우를 사용할 경우 윈도우 내의 인구수가 많다는 이유로 대도시 근처만 클러스터로 찾아지는 경우를 피할 수 있기 때문이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. Ahn, D. S., Han, J. H., Yoon, T. H., Kim, C. H. and Noh, M. S. (2015). Small area estimations for disease mapping by using spatial model. Journal of the Korean Data & Information Science Society, 26, 101-109. 

  2. Banerjee, S., Carlin, B. P. and Gelfand, A. E. (2014). Hierarchical modeling and analysis for spatial data, CRC Press, New York. 

  3. Chandra, H., Salvati, N. and Chambers, R. (2007). Small area estimation for spatially correlated populations-a comparison of direct and indirect model-based methods. Statistics in Transition, 8, 887-906. 

  4. Coly, S., Charras-Garrido, M., Abrial, D. and Yao-Lafourcade, A. (2015). Spatiotemporal disease mapping applied to infectious diseases. Procedia Environmental Sciences, 26, 32-37. 

  5. Geary, R. C. (1954). The contiguity ratio and statistical mapping. The Incorporated Statistician, 5, 115-145. 

  6. Ghosh, M. and Rao, J. (1994). Small area estimation: An appraisal. Statistical Science, 9, 55-76. 

  7. Han, J., Zhu L, Kulldorff, M., Hostovich, S., Stinchcomb, D., Tatalovich, Z., Lewis D. and Feuer, E. (2016). Using Gini coefficient to determining optimal cluster reporting sizes for spatial scan statistics. International Journal of Health Geographics, 15-27. 

  8. Huang, L., Kulldorff, M. and Gregorio, D. (2007). A spatial scan statistic for survival data. Biometrics, 63, 109-118. 

  9. Huang, L., Tiwari, R. C., Zhaohui, Z., Kulldorff, M. and Feuer, E. J. (2009). Weighted normal spatial scan statistic for heterogeneous population data. Journal of the American Statistical Association, 104, 886-898. 

  10. Kulldorff, M. (1997). A spatial scan statistic. Communications in Statistics: Theory and Methods, 26, 1487-1496. 

  11. Kulldorff, M. (2016). SaTScan user guide v9.4.4, http://www.satscan.org/. 

  12. Kulldorff, M., Huang, L., Pickle, L. and Duczmal, L. (2006). An elliptic spatial scan statistic. Statistics in Medicine, 25, 3929-3943. 

  13. Lawson, A. B. (2013). Bayesian disease mapping: Hierarchical modeling in spatial epidemiology, 2nd Ed., Chapman and Hall/CRC, New York. 

  14. Lee, W. and Park, C. (2015). Prediction of apartment prices per unit in Daegu-Gyeongbuk areas by spatial regression models. Journal of the Korean Data & Information Science Society, 26, 561-568. 

  15. Moran, P. A. (1950). Notes on continuous stochastic phenomena. Biometrika, 37, 17-23. 

  16. NCI. (2016). Surveillance, Epidemiology, and End Results (SEER) Program, www.seer.cancer.org. 

  17. Patil, G. and Taillie, C. (2004). Upper level set scan statistic for detecting arbitrarily shaped hotspots. Environmental and Ecological Statistics, 11, 183-197. 

  18. Pfeffermann, D. (2002). Small area estimation: New developments and directions. International Statistical Review/Revue Internationale De Statistique, 70, 125-143. 

  19. Tango, T. and Takahashi, K. (2005). A flexibly shaped spatial scan statistic for detecting clusters. International Journal of Health Geographics, 4-11. 

  20. Waller, L. A. and Jacquez, G. M. (1995) Disease models implicit in statistical tests of disease clustering. Epidemiology, 6, 584-590. 

  21. Wheeler, D. C. (2007). A comparison of spatial clustering and cluster detection techniques for childhood leukemia incidence in Ohio, 1996-2003, International Journal of Health Geographics. 6-13. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로