사례연구: 대구 파티마 병원 폐렴 입원 환자 수에 영향을 미치는 날씨 변수 선택 Case study: Selection of the weather variables influencing the number of pneumonia patients in Daegu Fatima Hospital원문보기
매년 폐렴 입원 환자 수는 증가하는 추세이며, 국내 질환 중 입원율 1위이기도 하다. 주로 박테리아와 바이러스가 주된 원인인 폐렴은 날씨의 영향을 받기도 한다. 본 연구에서는 날씨 변수로는 습도, 일조량, 일교차, 평균온도, 미세먼지 농도를 각각 1일 전부터 27일 전까지의 총 135개 변수를 고려하였다. 날씨와 입원 환자 수에 잠재적으로 영향을 미치는 위험 요인으로 연도 효과, 휴일 효과, 계절 효과를 추가적으로 고려하였다. 벌점화 일반화 선형 모형을 이용하여 폐렴 입원 환자 수와 관련된 변수를 선택하였다.
매년 폐렴 입원 환자 수는 증가하는 추세이며, 국내 질환 중 입원율 1위이기도 하다. 주로 박테리아와 바이러스가 주된 원인인 폐렴은 날씨의 영향을 받기도 한다. 본 연구에서는 날씨 변수로는 습도, 일조량, 일교차, 평균온도, 미세먼지 농도를 각각 1일 전부터 27일 전까지의 총 135개 변수를 고려하였다. 날씨와 입원 환자 수에 잠재적으로 영향을 미치는 위험 요인으로 연도 효과, 휴일 효과, 계절 효과를 추가적으로 고려하였다. 벌점화 일반화 선형 모형을 이용하여 폐렴 입원 환자 수와 관련된 변수를 선택하였다.
The number of hospital admissions for pneumonia tends to increase annually and even more, pneumonia, the fifth leading causes of death among elder adults, is one of top diseases in terms of hospitalization rate. Although mainly bacteria and viruses cause pneumonia, the weather is also related to the...
The number of hospital admissions for pneumonia tends to increase annually and even more, pneumonia, the fifth leading causes of death among elder adults, is one of top diseases in terms of hospitalization rate. Although mainly bacteria and viruses cause pneumonia, the weather is also related to the occurrence of pneumonia. The candidate weather variables are humidity, amount of sunshine, diurnal temperature range, daily mean temperatures and density of particles. Due to the delayed occurrence of pneumonia, lagged weather variables are also considered. Additionally, year effects, holiday effects and seasonal effects are considered. We select the related variables that influence the occurrence of pneumonia using penalized generalized linear models.
The number of hospital admissions for pneumonia tends to increase annually and even more, pneumonia, the fifth leading causes of death among elder adults, is one of top diseases in terms of hospitalization rate. Although mainly bacteria and viruses cause pneumonia, the weather is also related to the occurrence of pneumonia. The candidate weather variables are humidity, amount of sunshine, diurnal temperature range, daily mean temperatures and density of particles. Due to the delayed occurrence of pneumonia, lagged weather variables are also considered. Additionally, year effects, holiday effects and seasonal effects are considered. We select the related variables that influence the occurrence of pneumonia using penalized generalized linear models.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
겨울이 되면 폐렴환자가 증가하는 것으로 보아 날씨에 큰 영향을 받는 질환임은 부정할 수 없는 사실이다 (Yim 등, 2012; Kim 등, 2016b). 그렇다면 수 많은 날씨 변수들 중 어떤 종류의 날씨가 폐렴 발병에 영향을 끼치는지 어느 정도 잠복기를 가지는 지를 알아보기 위해 본 연구를 계획하였다. 폐렴은 감염 통로에 따라 community acquired pneumonia (CAP)와 hospital acquired pneumonia (HAP)로 나눌 수 있다.
HAP는 날씨와 밀접한 관련이 없는 것으로 판단되어 CAP 환자들로 국한하여 연구를 진행하였다. 대구 파티마 병원의 폐렴으로 입원한 일별 환자 수와 날씨 자료에 대해 적절한 변수를 선택하고 일별 환자 수와의 관계를 알아 볼 것이다. 날씨 자료는 습도, 일조량, 일교차, 평균온도, 미세먼지 농도를 고려하였다 (Lieberman과 Friger, 1999).
이번 절에서는 일일 폐렴 입원 환자 수 예측을 위한 엘라스틱 넷과 엘라스틱 넷의 기초인 라쏘와 능형 회귀 모형에 대해 리뷰하려고 한다. 먼저 기본적인 선형 회귀 모형에 대해 고려해보자.
본 연구는 언제, 어떠한 날씨가 폐렴 발병에 영향을 미치는지 알아보기 위해 수행되었다. 포아송모형과 로지스틱 모형에 다양한 벌점화 기법을 적용하여 날씨 변수들을 선택하려고 하였으나, 분석에서 본 것 처럼 날씨 변수들 중 선택력이 강한 변수들이 없었다.
본 논문에서 사용된 자료는 2008년부터 2012년까지의 대구 파티마 병원에 폐렴으로 입원한 일별 환자 수와 대구 지역의 날씨 자료이다. 이번 절에서 자료로부터 추출한 변수의 선정과 구조에 대해 알아본다.
이번 절에서는 일일 폐렴 입원 환자 수 예측을 위한 엘라스틱 넷과 엘라스틱 넷의 기초인 라쏘와 능형 회귀 모형에 대해 리뷰하려고 한다. 먼저 기본적인 선형 회귀 모형에 대해 고려해보자.
가설 설정
라쏘 기법은 계수 축소 (shrinkage)뿐만 아니라 변수 선택이 자동적으로 이루어져 예측력을 높이는 장점이 있지만, 몇 가지 상황에서 제한점을 가진다: (a) p > n일 때, 블록 최적화 기법 (convex optimization)의 특성상 변수가 최대 n개 까지만 선택할 수 있어서 변수 선택 기능이 제한되어진다. (b) 변수들간의 상관 계수가 높은 그룹이 있으면 그룹 내에서 한 개의 변수가 랜덤하게 선택되는 경향이 있다. (c) n > p이고, 변수들간의 높은 상관관계가 존재할 때 능형회귀 모형에서 더 좋은 예측력을 가진다 (Zou와 Hastie, 2005).
제안 방법
폐렴은 감염 통로에 따라 community acquired pneumonia (CAP)와 hospital acquired pneumonia (HAP)로 나눌 수 있다. HAP는 날씨와 밀접한 관련이 없는 것으로 판단되어 CAP 환자들로 국한하여 연구를 진행하였다. 대구 파티마 병원의 폐렴으로 입원한 일별 환자 수와 날씨 자료에 대해 적절한 변수를 선택하고 일별 환자 수와의 관계를 알아 볼 것이다.
이 때, 일교차는 일일 최고기온과 최저기온의 차로 산출하였다. 각 날씨 변수와 입원 환자수와의 관계를 살펴보기 위하여 각 날씨 변수와 입원환자수와의 상관관계를 구하였다. Figure 2.
폐렴 입원 환자 수는 지난 날씨에 영향을 받기 때문에 입원 전 4주 간의 날씨를 고려하였다. 날씨 변수는 당일을 제외하고 1일 전부터 27일 전까지 총 27일 간의 날씨 자료로 변수를 구축하였다.
날씨 변화에 따른 일별 폐렴 입원 환자수에 영향을 미치는 날씨 변수 선택을 위해 포아송 일반화 선형 모형에 적합시키고, 벌점화 함수로, 라쏘 벌점화, 능형 벌점화, 엘리스틱 넷 벌점화, 무 벌점화 등을 적용하였다. 추가적으로, 일별 폐렴 환자수의 유무로 이분화하여 로지스틱 회귀모형에도 적합시켜 보았다.
하지만 날씨 변수들은 서로 높은 상관관계를 가지기 때문에 기존의 변수 선택법을 사용하기에 무리가 따른다. 따라서 벌점화 기법을 적용한 변수 선택법을 통해 실질적으로 입원 환자 수에 영향을 미치는 변수를 선택하였다.
주말에는 내원하지 않고 다음 날인 월요일, 혹은 긴 연휴를 보내고 그 다음 날에 병원을 찾는 것을 고려하여 ‘휴일 다음 날’ 효과 또한 모형에 추가하였다. 마지막으로 계절에 대한 더미 변수 또한 추가하였다. 날씨와 직접적인 관계가 있으나 ‘계절’이라는 구분이 주는 영향을 무시할 수는 없다.
이러한 임의성을 고려하기 위해 선택 사후 추론 (post-selection inference)에 관하여 최근 많은 연구들을 하고 있다 (Hastie 등, 2015). 본 연구에서는, 붓스트랩 방법으로 1,000번 반복하여 각 벌점화 함수를 적용하여 계수 추정하였다. 즉, 훈련 데이터 1,440일 자료 중 1,440개의 자료를 임의로 복원 추출하여 붓스트랩 자료를 생성하여 계수 추정하였고 이 과정을 1,000번 반복하여 산출한 1,000개의 계수로 비모수적 (1 − α)100% 신뢰구간을 구하여 0을 포함하지 않으면 변수가 유의한 것, 즉, 변수가 선택되는 것으로 하였다.
계절의 구분은 12월, 1월, 2월은 겨울, 3월, 4월, 5월은 봄, 6월, 7월, 8월은 여름, 9월, 10월, 11월은 가을로 구분하였고, 입원 환자 수가 가장 낮은 ‘여름’을 기준으로 더미 변수를 생성하였다. 연도별 더미 변수 4개, 휴일 효과 더미 변수 1개, 계절 더미변수 3개로 총 8개의 더미 변수를 포함하여 최종 변수를 구축 하였다.
원자료는 2008년부터 2012년까지의 대구 파티마 병원의 폐렴으로 입원한 환자 자료이다. 인구학적특성인 성별과 나이, 그리고 입원일, 퇴원일이 있었으며, 본 연구에서는 일별 입원 입원 환자 수를 추출하여 변수로 선정하였다. 입원 환자 수의 시간적 추세를 보기 위해 그래프를 그렸으나, 관측치에 0이 많아 추세를 보기 힘들어 월별 합계로 그래프를 그렸다 (Figure 2.
종속변수는 일별 폐렴 입원 환자 수를, 독립변수로는 연도 더미 변수 4개, 계절 더미 변수 3개, 휴일더미 변수 1개와 날씨 변수 135개로 총 143개의 독립변수를 고려한다. 독립변수들 중에서 서로 상관관계가 높은 변수군들이 존재하므로 엘라스틱넷 변수 선택법을 적용하여보고, 최소제곱추정법, 라쏘기법, 능형 기법도 같이 적용하여 변수들을 선택하려고 한다.
주말에는 내원하지 않고 다음 날인 월요일, 혹은 긴 연휴를 보내고 그 다음 날에 병원을 찾는 것을 고려하여 ‘휴일 다음 날’ 효과 또한 모형에 추가하였다.
즉, 훈련 데이터 1,440일 자료 중 1,440개의 자료를 임의로 복원 추출하여 붓스트랩 자료를 생성하여 계수 추정하였고 이 과정을 1,000번 반복하여 산출한 1,000개의 계수로 비모수적 (1 − α)100% 신뢰구간을 구하여 0을 포함하지 않으면 변수가 유의한 것, 즉, 변수가 선택되는 것으로 하였다.
날씨 변화에 따른 일별 폐렴 입원 환자수에 영향을 미치는 날씨 변수 선택을 위해 포아송 일반화 선형 모형에 적합시키고, 벌점화 함수로, 라쏘 벌점화, 능형 벌점화, 엘리스틱 넷 벌점화, 무 벌점화 등을 적용하였다. 추가적으로, 일별 폐렴 환자수의 유무로 이분화하여 로지스틱 회귀모형에도 적합시켜 보았다. 연도별 환자수의 빈도수는 Table 4.
폐렴 입원 환자 수는 지난 날씨에 영향을 받기 때문에 입원 전 4주 간의 날씨를 고려하였다. 날씨 변수는 당일을 제외하고 1일 전부터 27일 전까지 총 27일 간의 날씨 자료로 변수를 구축하였다.
대상 데이터
자료 중 무작위로 뽑은 360일 (자료의 20퍼센트) 자료는 엘라스틱넷, 라쏘, 능형 회귀, 최소제곱법 모형의 테스트자료로 사용하려고 한다. 그래서, 전체 1,827일 중 처음 27일, 테스트자료 360일을 제외하고 1,440일의 자료로 분석을 실시하였다.
폐렴에 영향을 끼칠 것으로 예상되는 날씨 변수로 습도, 일조량, 일교차, 평균온도, 미세먼지 농도를 고려하였다 (Yim 등, 2012). 기간은 폐렴 입원 자료와 동일한 기간인 2008년 1월 1일부터 2012년 12월31일까지의 대구 지역의 날씨를 추출하였다. 이 때, 일교차는 일일 최고기온과 최저기온의 차로 산출하였다.
본 논문에서 사용된 자료는 2008년부터 2012년까지의 대구 파티마 병원에 폐렴으로 입원한 일별 환자 수와 대구 지역의 날씨 자료이다. 이번 절에서 자료로부터 추출한 변수의 선정과 구조에 대해 알아본다.
원자료는 2008년부터 2012년까지의 대구 파티마 병원의 폐렴으로 입원한 환자 자료이다. 인구학적특성인 성별과 나이, 그리고 입원일, 퇴원일이 있었으며, 본 연구에서는 일별 입원 입원 환자 수를 추출하여 변수로 선정하였다.
그 중 2008년 1월 1일부터 1월 27일까지의 자료는 27일 전까지의 날씨정보를 적용할 수 없어 분석에서 제외하였다. 자료 중 무작위로 뽑은 360일 (자료의 20퍼센트) 자료는 엘라스틱넷, 라쏘, 능형 회귀, 최소제곱법 모형의 테스트자료로 사용하려고 한다. 그래서, 전체 1,827일 중 처음 27일, 테스트자료 360일을 제외하고 1,440일의 자료로 분석을 실시하였다.
자료는 2008년부터 2012년까지 5년 동안의 자료를 사용하였다. 그 중 2008년 1월 1일부터 1월 27일까지의 자료는 27일 전까지의 날씨정보를 적용할 수 없어 분석에서 제외하였다.
이론/모형
종속변수는 일별 폐렴 입원 환자 수를, 독립변수로는 연도 더미 변수 4개, 계절 더미 변수 3개, 휴일더미 변수 1개와 날씨 변수 135개로 총 143개의 독립변수를 고려한다. 독립변수들 중에서 서로 상관관계가 높은 변수군들이 존재하므로 엘라스틱넷 변수 선택법을 적용하여보고, 최소제곱추정법, 라쏘기법, 능형 기법도 같이 적용하여 변수들을 선택하려고 한다.
성능/효과
2008년, 2009년, 2010년 연도 변수들은 작은 유의수준에서 선택되기 시작하였다. 결론적으로 환자수 유무는 일조량이나 미세먼지가 상대적으로 연관성이 높으며 환자수의크기는 일교차, 일조량, 미세먼지 순으로 연관성이 높다고 할 수 있으나, 날씨 변수들과는 연관성이 작다라고 할 수 있다.
43부터 1일 전 습도가 선택되었다. 일조량은 유의수준 0.19부터 22 일 전 일조량이 선택 되었고, 유의수준 0.31부터 19일 전 일조량, 유의수준 0.37부터 10일 전 일조량, 유의수준 0.41부터 1일 전, 24일 전 일조량, 유의수준 0.48에서부터 26일 전 일조량이 선택되었다. 일교차는 유의수준 0.
미약하지만, 환자수와 관련해서는 22일전 23일전 일교차, 19일전, 22일전 일조량 변수들이 다른 날씨 변수들에 비해 상대적으록 강한 연관성을 보이고 있다. 폐렴 환자 입원 유무와 관련해서는 3일전 일조량, 2일전 미세먼지 변수가 다른 날씨 변수들에 비해 상대적으록 강한 연관성을 보이고 있다. 자료를 특정한 한 병원에 국한하였기 때문에 날씨와 연관성을 찾기가 어려운 것으로 판단됨으로, 보험공단의 청구자료를 이용하여, 한국 전체의 폐렴 입원 환자 자료를 확보하여 날씨변수와의 연관성을 연구하는 것이 더 좋을 결과를 줄 것으로 예상된다.
후속연구
폐렴 환자 입원 유무와 관련해서는 3일전 일조량, 2일전 미세먼지 변수가 다른 날씨 변수들에 비해 상대적으록 강한 연관성을 보이고 있다. 자료를 특정한 한 병원에 국한하였기 때문에 날씨와 연관성을 찾기가 어려운 것으로 판단됨으로, 보험공단의 청구자료를 이용하여, 한국 전체의 폐렴 입원 환자 자료를 확보하여 날씨변수와의 연관성을 연구하는 것이 더 좋을 결과를 줄 것으로 예상된다.
질의응답
핵심어
질문
논문에서 추출한 답변
연도별 더미 변수를 모형에 추가한 이유는 무엇인가?
폐렴 환자 수와 단순히 날씨 관계 만을 고려하기에는 무리가 따른다. 날씨는 매년 큰 변화를 보이지 않는 반면 입원 환자 수는 증가하는 추세를 보이는데, 이는 폐렴에 대한 중요성이 부각되면서 사람들의 인식의 변화도 있을 것이다. 따라서 연도별 더미 변수도 모형에 추가하였다.
기존의 변수 선택법을 사용하기 어려운 이유는 무엇인가?
포아송 일반화 선형 모형을 사용하였고, 이때 영향을 미치지 않는 변수로 인한 모형 과적합성과 예측 성능 저하를 피하기 위해 적절한 변수를 선택하여야 한다.하지만 날씨 변수들은 서로 높은 상관관계를 가지기 때문에 기존의 변수 선택법을 사용하기에 무리가 따른다. 따라서 벌점화 기법을 적용한 변수 선택법을 통해 실질적으로 입원 환자 수에 영향을 미치는 변수를 선택하였다.
날씨 변수 선택을 위한 종속변수로 무엇을 사용하였는가?
종속변수는 일별 폐렴 입원 환자 수를, 독립변수로는 연도 더미 변수 4개, 계절 더미 변수 3개, 휴일더미 변수 1개와 날씨 변수 135개로 총 143개의 독립변수를 고려한다. 독립변수들 중에서 서로 상관관계가 높은 변수군들이 존재하므로 엘라스틱넷 변수 선택법을 적용하여보고, 최소제곱추정법, 라쏘기법, 능형 기법도 같이 적용하여 변수들을 선택하려고 한다.
참고문헌 (9)
Lim, Y., Hong, Y. and Kim. H. (2012). Effects of diurnal temperature range on cardiovascular and respiratory hospital admissions in Korea. Science of the Total Environment, 417, 55-60.
Kim, B., Ha, I. D. and Lee, D. (2016a). Analysis of multi-center bladder cancer survival data using variableselection method of multi-level frailty models. Journal of the Korean Data & Information Science Society, 27, 499-510.
Kim, J., Kim, J. H., Cheong, H. K., Kim, H., Honda, Y., Ha, M., Hashizume, M., Kolam, J. and Inape, K. (2016b). Effect of climate factors on the childhood pneumonia in papua new guinea: A time-series analysis. International Journal of Environmental Research and Public Health, 13, 213-228.
Lieberman, D. and Friger, M. D. (1999). Seasonal variation in hospital admissions for community-acquired pneumonia: A 5-year study. Journal of Infection, 39, 134-140.
Shim. J., Bae, J. and Seok, K. (2016). Estimation and variable selection in censored regression model with smoothly clipped absolute deviation penalty. Journal of the Korean Data & Information Science Society, 27, 1653-1660.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society B (Methodological), 58, 267-288.
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of Royal Statistical Society B (Methodological), 67, 301-320.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.