최근 산업화 및 인구과밀화로 인해 대기오염에 대한 문제가 세계적 관심사로 대두되고 있다. 대기 오염은 인간의 건강에 다양한 악영향을 초래할 수 있는데, 그 중 본 연구에서 관심을 둔 천식과 같은 호흡계 질환은 직접적 영향을 받을 수 있다. 기존의 연구에서는 임상 데이터를 활용하여 상대적으로 적은 표본을 기반으로 천식과 같은 질환에 대기 오염 인자가 어떠한 영향을 미치는지를 파악하였다. 이는 수집 표본 별 일관성이 없는 결과를 초래할 소지가 다분하며, 의료계 종사자 이외에는 연구의 시도가 어렵다는 점에서 큰 한계를 가지고 있다. 본 연구에서는 정부에서 공개하는 대기 환경 데이터와 천식 발병 빈도 수에 대한 데이터를 기반으로, 실제 천식 발병 빈도를 예측하는 것에 연구의 주안점을 두었다. 본 연구는 시차를 적용한 피어슨 상관계수를 통해 각 대기오염 인자가 천식 발병에 어느 정도의 시차를 가지고 유의한 영향을 주는지를 검증하였다. 검증결과를 기반으로 구축된 학습데이터는 딥러닝 알고리즘에 활용되며, 천식 발병 빈도의 예측에 최적화 된 모델을 설계하였다. 모델의 평균 대비 오차율은 약 11.86%로 타 머신러닝 기반의 알고리즘 대비 우수한 성능을 나타냄을 확인하였다. 제안한 모델은 국가 보험 체계 및 보건 예산 관리에서의 효율화 및 병원에서의 의료 인력 배치 및 수급에의 효율성 또한 제공할 수 있다. 또한 만성 천식 질환자에 대한 대기 환경별 발병 위험에 대한 조기 경보를 통해 국민 건강 증진에 기여할 수 있다.
최근 산업화 및 인구과밀화로 인해 대기오염에 대한 문제가 세계적 관심사로 대두되고 있다. 대기 오염은 인간의 건강에 다양한 악영향을 초래할 수 있는데, 그 중 본 연구에서 관심을 둔 천식과 같은 호흡계 질환은 직접적 영향을 받을 수 있다. 기존의 연구에서는 임상 데이터를 활용하여 상대적으로 적은 표본을 기반으로 천식과 같은 질환에 대기 오염 인자가 어떠한 영향을 미치는지를 파악하였다. 이는 수집 표본 별 일관성이 없는 결과를 초래할 소지가 다분하며, 의료계 종사자 이외에는 연구의 시도가 어렵다는 점에서 큰 한계를 가지고 있다. 본 연구에서는 정부에서 공개하는 대기 환경 데이터와 천식 발병 빈도 수에 대한 데이터를 기반으로, 실제 천식 발병 빈도를 예측하는 것에 연구의 주안점을 두었다. 본 연구는 시차를 적용한 피어슨 상관계수를 통해 각 대기오염 인자가 천식 발병에 어느 정도의 시차를 가지고 유의한 영향을 주는지를 검증하였다. 검증결과를 기반으로 구축된 학습데이터는 딥러닝 알고리즘에 활용되며, 천식 발병 빈도의 예측에 최적화 된 모델을 설계하였다. 모델의 평균 대비 오차율은 약 11.86%로 타 머신러닝 기반의 알고리즘 대비 우수한 성능을 나타냄을 확인하였다. 제안한 모델은 국가 보험 체계 및 보건 예산 관리에서의 효율화 및 병원에서의 의료 인력 배치 및 수급에의 효율성 또한 제공할 수 있다. 또한 만성 천식 질환자에 대한 대기 환경별 발병 위험에 대한 조기 경보를 통해 국민 건강 증진에 기여할 수 있다.
Recently, the problem of air pollution has become a global concern due to industrialization and overcrowding. Air pollution can cause various adverse effects on human health, among which respiratory diseases such as asthma, which have been of interest in this study, can be directly affected. Previou...
Recently, the problem of air pollution has become a global concern due to industrialization and overcrowding. Air pollution can cause various adverse effects on human health, among which respiratory diseases such as asthma, which have been of interest in this study, can be directly affected. Previous studies have used clinical data to identify how air pollutant affect diseases such as asthma based on relatively small samples. This is high likely to result in inconsistent results for each collection samples, and has significant limitations in that research is difficult for anyone other than the medical profession. In this study, the main focus was on predicting the actual asthmatic occurrence, based on data on the atmospheric environment data released by the government and the frequency of asthma outbreaks. First of all, this study verified the significant effects of each air pollutant with a time lag on the outbreak of asthma through the time-lag Pearson Correlation Coefficient. Second, train data built on the basis of verification results are utilized in Deep Learning algorithms, and models optimized for predicting the asthmatic occurrence are designed. The average error rate of the model was about 11.86%, indicating superior performance compared to other machine learning-based algorithms. The proposed model can be used for efficiency in the national insurance system and health budget management, and can also provide efficiency in the deployment and supply of medical personnel in hospitals. And it can also contribute to the promotion of national health through early warning of the risk of outbreak by atmospheric environment for chronic asthma patients.
Recently, the problem of air pollution has become a global concern due to industrialization and overcrowding. Air pollution can cause various adverse effects on human health, among which respiratory diseases such as asthma, which have been of interest in this study, can be directly affected. Previous studies have used clinical data to identify how air pollutant affect diseases such as asthma based on relatively small samples. This is high likely to result in inconsistent results for each collection samples, and has significant limitations in that research is difficult for anyone other than the medical profession. In this study, the main focus was on predicting the actual asthmatic occurrence, based on data on the atmospheric environment data released by the government and the frequency of asthma outbreaks. First of all, this study verified the significant effects of each air pollutant with a time lag on the outbreak of asthma through the time-lag Pearson Correlation Coefficient. Second, train data built on the basis of verification results are utilized in Deep Learning algorithms, and models optimized for predicting the asthmatic occurrence are designed. The average error rate of the model was about 11.86%, indicating superior performance compared to other machine learning-based algorithms. The proposed model can be used for efficiency in the national insurance system and health budget management, and can also provide efficiency in the deployment and supply of medical personnel in hospitals. And it can also contribute to the promotion of national health through early warning of the risk of outbreak by atmospheric environment for chronic asthma patients.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
구성된 변수 중 2015년∼2017년 동안의 데이터는 모형의 구축에 활용될 학습데이터로, 2018년도의 데이터는 모형의 성능 검증을 위한 검증 데이터로 구분하여추후 모형 성능의 신뢰성 있는 검증에 활용하고자 하였다.
이러한 복합적 영향력은 일반적으로 결과값에 비선형적 관계를 가질것이라 판단, 회귀분석 등 선형적 영향관계 기반의 통계적 모델은 예측 모형에의 활용성이 제한적이다. 따라서 본 연구에서는 인자 단일 영향력에 대한 반영 및 인자 간 복합적 영향력을 모두 반영할 수 있는 DeepNeural Networks(DNN) 모델을 활용하여 인자 간 비선형적 패턴을 예측 모형에 복합적으로 반영하고자 하였다.
본 연구에서는 실제 조성된 대기 환경에 대해 발생할 수 있는 명확한 환자 수의 예측이 가능하다면, 국가적 차원에서의 보건 정책 전개 및 예산분배, 병원 내 응급의료인력 양성 및 배치 효율화를 이룩할 수 있을 것이라 판단하였다. 따라서 임상 사례 데이터를 활용한 기존 연구와는 달리, 대기 환경에 대한장기 데이터를 기반으로 천식 발병을 유발할 수 있는 주요 요인을 도출한 후 실제 천식 발병 환자의 수를 예측하는 모델을 구축하는 것에 연구의 주안점을 두었다.
앞서 본 연구에 활용될 데이터에 대한 피어슨 상관분석을 통해 실제 인자가 천식 발병 빈도에 가장 높은 영향을 미치는 시계를 파악한 바 있다. 본 논문에서 선정한 연구의 목표는 과거의 대기 환경 데이터를 기반으로 미래의 천식 발병 빈도를 예측하는 것이므로, 모형에학습시킬 변수의 구성에 실제 영향력이 가장 높은 시계를 반영할 필요가 있다. [표 2]의 대기 환경 인자 별 Correlation Coefficient를 토대로 파악한 시차 p는SO2, CO, NO2가 3이며 03가 5, PM10 및 PM2.
그 중 천식과 같은 호흡기 질환은 이러한 문제에 즉각적 영향을 받을 수 있는 고위험군 임에도 불구하고, 대부분의 국가에서 질병 관리에 우선순위를 두고 있지 않다는 문제가 있다. 본 연구에서는 신산업 시대에 발맞추어 활용성이 증대되고 있는 딥러닝 알고리즘을 활용하여 대기 환경 인자에 대한 천식 발병 빈도를 예측하는 모델 구축에 연구의 주안점을 두었다.
앞선 임상 자료 기반 선행연구를 토대로, 본 연구에 활용된 대기 환경 인자들은 천식에 유의한 영향을 미치는 것으로 가정할 수 있다. 본 연구에서는 임상 자료 기반이 아닌, 실제 당일의 대기 환경 데이터를 기반으로 대기질의 변화가 천식 발병 빈도에 유의한 영향을 주는지 파악하고자 하였다.
본 연구의 목표로 삼은 일별 천식 발생 빈도 예측을위해 구축된 DNN 모형은 4개의 Hidden Layer에 각Hidden Layer 별 64개의 노드를 포함, 인자 간 복잡한 패턴을 모형에 반영하고자 하였다. 이외 HyperParameter는 최대 200 Epochs, 0.
각 은닉층의 노드는 출력층까지 단계적으로 연결되어 있으며, 각 단계별 가중치를 부여하여 이를 토대로 최종 결과값을 도출한다. 상기의 과정은 최종 출력층에서 산출된 오차를 기반으로 각 층 사이의 가중치를 갱신, 모형의 예측 성능에 대한 향상을 목표로 최적화된다.
이때 p는 각 대기 환경 인자의 시차를 의미하며, 본연구에서는 p의 상한을 일주일, 즉 주말을 제외한 1~5의 범위로 한정하여 단기 시계에서의 영향력을 파악하고자 하였다. 이를 기반으로 분석한 결과는 [표 2]와 같다.
이를 종합하여, 본 논문에서는 추출된 대기 환경 인자는 자기상관성을 가지는 시계열(Time-Series) 데이터이며 당일의 대기 환경이 천식 환자에 즉각적 영향을 미칠 수도 있으나, 일정 기간의 누적 시차를 두고 그 영향력이 극대화 될 수 있다고 가정하였다. 이를 모형에 적절히 반영하기 위해 시차 p를 가지는 피어슨 상관관계(Pearson Correlation)을 수행, 실제 천식 발병에유의성을 나타내는 시차를 검증하고자 하였다. 분석에 활용된 피어슨 상관관계의 산식은 다음과 같다.
가설 설정
앞선 임상 자료 기반 선행연구를 토대로, 본 연구에 활용된 대기 환경 인자들은 천식에 유의한 영향을 미치는 것으로 가정할 수 있다. 본 연구에서는 임상 자료 기반이 아닌, 실제 당일의 대기 환경 데이터를 기반으로 대기질의 변화가 천식 발병 빈도에 유의한 영향을 주는지 파악하고자 하였다.
이를 종합하여, 본 논문에서는 추출된 대기 환경 인자는 자기상관성을 가지는 시계열(Time-Series) 데이터이며 당일의 대기 환경이 천식 환자에 즉각적 영향을 미칠 수도 있으나, 일정 기간의 누적 시차를 두고 그 영향력이 극대화 될 수 있다고 가정하였다. 이를 모형에 적절히 반영하기 위해 시차 p를 가지는 피어슨 상관관계(Pearson Correlation)을 수행, 실제 천식 발병에유의성을 나타내는 시차를 검증하고자 하였다.
제안 방법
이때, 학습 시 Epoch별 Loss의 감소세가 확연히 줄어들 경우, Early Stopping을 반영하여 최적의 Epochs를 학습에 자동 반영하도록 하였다. 또한 학습 데이터에 대한 과적합을 방지하기 위해 첫번째 Fully Connect 층 이후 Drop-out 층을 추가하여 학습 시 10%의 노드를 배제하도록 하였다. 최종적인 DNN 모형의 구조는 [표 4]와 같다.
5는 1월 9일의 데이터를 같은 행에 배치하여 모든 변수가 천식 발병에 가장 큰 영향을 미치는 시차를 기준으로 학습되도록 하였다. 또한 해당 변수 이외에 주말 및 공휴일 등 병원 휴진이 예상되는 일자 전일 및 후일의 임의적 환자 수 급증을 통제하고자 이에 대한 가변수(Hol)를 통제변인으로 추가하였으며, 각 인자가 내포하고 있는 계절성을 감안하여 계절형 가변수 (Su, Au, Wi)를 추가하였다. 최종 구축된 학습 변수의 구성은 <표 3>과 같다.
본 연구에서는 우선 학습에 활용된 데이터의 형태를 확인한 후, 천식 발병 환자 수와 대기환경인자 간 영향력을 시차를 구분하여 파악하였다. 이를 바탕으로 학습데이터를 구성, 딥러닝 모형에 학습하여 천식 환자 수 예측에 최적화된 모델을 구축하였다.
상기의 과정을 통해 구축된 데이터는 외생변수로 인한 모형 내 영향력을 최대한 배제하고자 하였으며, 대기 환경 인자가 실제 천식 발병에 어떠한 영향을 미치는지 만을 모형에 반영할 수 있도록 설계하였다. 최종적으로 구축된 데이터의 기술통계량은 [표 1]과 같다.
최종적으로 Multiple Linear Regression, 시차 p를 활용하지 않은 일반 DNN모형과의 비교를 통해 구축된모형의 성능을 비교·검증하였다. 성능 평가의 척도로는 회귀 예측모델로 구현된 본 연구의 목적성을 반영, 일반적으로 활용되는 MAE(Mean Absolute Error),MSE(Mean Squared Error), RMSE(Root MeanSquared Error) 및 MAPE(Mean AbsolutePercentage Error)를 모두 도출하여 정밀한 평가를 수행하고자 하였다. <표 5>에서 확인할 수 있듯이 타 모델대비 본 연구에서 제안한 시차 p를 활용한 DNN 모델의 성능이 MAE 기준 일별 평균 천식 발병 빈도 대비 오류율이 약 11.
본 연구에서는 우선 학습에 활용된 데이터의 형태를 확인한 후, 천식 발병 환자 수와 대기환경인자 간 영향력을 시차를 구분하여 파악하였다. 이를 바탕으로 학습데이터를 구성, 딥러닝 모형에 학습하여 천식 환자 수 예측에 최적화된 모델을 구축하였다. 이후 타 예측 모형과 성능 비교를 통해 구축된 모델의 우수성을 입증하였다.
이를 바탕으로 학습데이터를 구성, 딥러닝 모형에 학습하여 천식 환자 수 예측에 최적화된 모델을 구축하였다. 이후 타 예측 모형과 성능 비교를 통해 구축된 모델의 우수성을 입증하였다.
초기 데이터가 가진 시계열적 특성은 시차 p를 활용한 변수의 재구성에서 모두 반영 되었다고 판단, Random Sampling을 통해 모형의 과적합을 최소화하고자 하였다. 또한 Adam Optimizer를 활용하여 모델의 최적화를 수행하였으며 손실함수로는 타 지표 대비 학습 과정 및 결과에 대한 평가가 즉각적으로 판단가능한 MAE(Mean Absolute Error)를 활용하였다.
대상 데이터
그 중, 모형의 독립변수로 활용된 대기 환경 데이터는 환경부에서 운영하는 Air Korea 웹사이트에서2015년 1월 2일부터 2018년 12월 31일까지 대한민국 서울에 위치한 측정소에서의 시간별 대기 오염 자료를 일별 평균하여 활용하였다.
본 연구에 사용된 데이터는 크게 대기 환경 데이터와 천식 발병 빈도 데이터로 구분된다.
본 연구에서의 예측 목표로 활용할 천식 발병 빈도수 데이터는 건강보험관리공단에서 제공하는 시군구별과거 진료 건수를 공공데이터포털에서 수집하였고, 2015년 1월 2일부터 2018년 12월 31일까지의 대한민국 서울에서 발생한 진료 건수만을 활용하였다.
데이터처리
최종적으로 Multiple Linear Regression, 시차 p를 활용하지 않은 일반 DNN모형과의 비교를 통해 구축된모형의 성능을 비교·검증하였다.
이론/모형
초기 데이터가 가진 시계열적 특성은 시차 p를 활용한 변수의 재구성에서 모두 반영 되었다고 판단, Random Sampling을 통해 모형의 과적합을 최소화하고자 하였다. 또한 Adam Optimizer를 활용하여 모델의 최적화를 수행하였으며 손실함수로는 타 지표 대비 학습 과정 및 결과에 대한 평가가 즉각적으로 판단가능한 MAE(Mean Absolute Error)를 활용하였다. 구축된 예측모형의 Loss Graph는 [그림 3]과 같다.
성능/효과
구축된 예측모형의 Loss Graph는 [그림 3]과 같다.Loss가 학습데이터 및 검증데이터에서 모두 균일하게감소하고 있는 것을 확인할 수 있으며, 그 차이가 매우 적어, 모형의 과적합이 안정적으로 방지된 것을 확인할수 있다.
이는 실제 단일 대기 환경 요소의 영향력이 반영된 결과로, 다양한 변인이 인체에 영향을 미친 결과를 활용한 임상데이터 기반 분석의 한계점을 인식할 수 있는 결과로 판단할 수 있다. SO2 및 CO, NO2는 3일 간의 누적 영향이 천식 발병에 유의성을 가지는 것으로 파악되었으며, O3는 5일 간의 누적 영향이 천식 발병에 영향을 미치는 것으로 확인된다. 미세먼지의 경우 기체성 물질대비 입자성 물질의 호흡기에 미치는 영향력을 반영, 전일의 농도가 천식 발병에 즉각 영향을 미치는 것으로 파악되었다.
본 연구는 기존의 천식 환자에 대한 임상 데이터 기반의 한정된 표본으로 진행된 연구와는 달리, 상시 업데이트 되는 대규모 데이터를 활용하여 분석을 수행하였다는 점에서 분석 결과 및 성능에의 신뢰성을 확보할수 있다. 또한 해당 데이터를 확보할 수 있는 모든 국가에서 모형의 일부 응용을 통해 별도 예측 모델을 구축할 수 있다는 점에서 질병 연구에 대한 새로운 방향성을 제시하였다 할 수 있다.
선행연구와 동일하게 모든 대기 환경 인자는 천식 발병에 유의성을 가지는 것이 확인되었다. 또한 대부분의인자는 천식 발병 빈도에 정(+)의 영향력을 미치는 것으로 파악되었으며, 03는 부(-)의 영향을 미치는 것으로 파악되었는데, 이는 기존의 임상 연구 기반의 선행연구[13][14]와 다소 반대되는 결과가 도출되었다.
구축된 DNN 모형의 검증 데이터를 활용한 실제 예측 결과는 <그림 4>와 같다. 실제 검증데이터 상의 1년간 일별 천식 발병 빈도와 예측 결과가 전체적 흐름이 매우 유사함을 확인할 수 있으며, 변동성 또한 적절히 예측되고 있어 모형의 예측 성능이 높음을 확인할 수있다.
성능 평가의 척도로는 회귀 예측모델로 구현된 본 연구의 목적성을 반영, 일반적으로 활용되는 MAE(Mean Absolute Error),MSE(Mean Squared Error), RMSE(Root MeanSquared Error) 및 MAPE(Mean AbsolutePercentage Error)를 모두 도출하여 정밀한 평가를 수행하고자 하였다. <표 5>에서 확인할 수 있듯이 타 모델대비 본 연구에서 제안한 시차 p를 활용한 DNN 모델의 성능이 MAE 기준 일별 평균 천식 발병 빈도 대비 오류율이 약 11.86%로 가장 우수한 것을 확인하였다. 이는 앞서 언급한 바와 같이 천식 발병 빈도에 가장 높은 유의성을 보이는 시차 p를 활용하여 예측성능을 극대화 한 점, Multiple Linear Regression에서의 선형성만을 반영한 모형 대비 비선형적 패턴을 모형에 모두 반영할 수 있는 DNN의 특성이 복합적으로 반영된 결과로 판단된다.
86%로 예측 성능이 우수함을 입증하였으며, 학습데이터에서의 성능과 검증데이터에서의 성능이 유사한 것으로 보아 모형의 실제적 활용성이 매우 높을 것으로 기대된다. 일반적인 선형 모형인 회귀분석모형, 시차를 반영하지 않은 DNN 모형과의 성능 비교결과 또한 구축된 모델이 가장 우수한 것으로 판명되어 모형에의 영향력 있는 시차에 대한 반영이 성능 향상에 유의할 것이라는 가정이 옳음을 입증하였다.
제안한 시차 p 기반의 DNN 모델은 모형 내 학습에서의 인자별 선형 및 비선형적 패턴이 복합적으로 반영될 수 있다는 장점이 있다. 실제 대기 환경 인자가 천식발병에 어느 정도의 시차를 두고 영향력이 극대화되는지를 파악하였다는 점에서 연구의 의의가 있다.
최종적으로 구축된 시차 p를 반영한 DNN은 모델은MAE가 약 11.86%로 예측 성능이 우수함을 입증하였으며, 학습데이터에서의 성능과 검증데이터에서의 성능이 유사한 것으로 보아 모형의 실제적 활용성이 매우 높을 것으로 기대된다. 일반적인 선형 모형인 회귀분석모형, 시차를 반영하지 않은 DNN 모형과의 성능 비교결과 또한 구축된 모델이 가장 우수한 것으로 판명되어 모형에의 영향력 있는 시차에 대한 반영이 성능 향상에 유의할 것이라는 가정이 옳음을 입증하였다.
실제 대기 환경 인자가 천식발병에 어느 정도의 시차를 두고 영향력이 극대화되는지를 파악하였다는 점에서 연구의 의의가 있다. 피어슨상관계수를 통해 Coefficient가 극대화되는 시차 p를 파악한 결과, 대부분의 인자는 전일 환경이 당일 천식발병 빈도에 유의한 영향을 주는 것으로 파악되었으나,SO2 및 03의 경우 약 5일 간의 환경적 누적이 천식 발병에 유의성이 가장 높은 것으로 파악되었다. 그 중 O3는 기존 임상 실험 기반 선행연구와는 영향력의 방향이 반대되는 결과가 도출되었는데, 이는 임상 실험 기반의 복합적 환경에서 파생되는 질병에 대한 영향력 대비 실제 단일 환경데이터를 활용한 결과의 해석적 특성으로 간주할 수 있다.
후속연구
본 연구는 기존의 천식 환자에 대한 임상 데이터 기반의 한정된 표본으로 진행된 연구와는 달리, 상시 업데이트 되는 대규모 데이터를 활용하여 분석을 수행하였다는 점에서 분석 결과 및 성능에의 신뢰성을 확보할수 있다. 또한 해당 데이터를 확보할 수 있는 모든 국가에서 모형의 일부 응용을 통해 별도 예측 모델을 구축할 수 있다는 점에서 질병 연구에 대한 새로운 방향성을 제시하였다 할 수 있다. 본 모형을 활용하여 미래 발생할 질병 예측을 통해 국가 의료보험 체계 및 예산 배정의 효율성, 의료인력 배치의 효율화를 추구할 수 있을 것으로 기대되며 기존 관리가 미흡했던 기저질환자에 대한 모니터링 시스템 구축에 기준점으로 활용되어 미래 발생할 위험 징후에 대한 사전 Alarming 방안으로 활용 가능할 것이라 기대한다.
또한 해당 데이터를 확보할 수 있는 모든 국가에서 모형의 일부 응용을 통해 별도 예측 모델을 구축할 수 있다는 점에서 질병 연구에 대한 새로운 방향성을 제시하였다 할 수 있다. 본 모형을 활용하여 미래 발생할 질병 예측을 통해 국가 의료보험 체계 및 예산 배정의 효율성, 의료인력 배치의 효율화를 추구할 수 있을 것으로 기대되며 기존 관리가 미흡했던 기저질환자에 대한 모니터링 시스템 구축에 기준점으로 활용되어 미래 발생할 위험 징후에 대한 사전 Alarming 방안으로 활용 가능할 것이라 기대한다.
또한 도시화 및 산업화의 진행이 가속화된 현 시점에서, 앞서 기술한 바와 같이 대부분의 연구는 임상 사례 기반의 천식유발 인자에 대한 연구를 기반으로 당장의 실현 가능성이 높지 않은 환경적 정책 제언에 주안점을 두고 있어 한계가 명확하다. 본 연구에서는 실제 조성된 대기 환경에 대해 발생할 수 있는 명확한 환자 수의 예측이 가능하다면, 국가적 차원에서의 보건 정책 전개 및 예산분배, 병원 내 응급의료인력 양성 및 배치 효율화를 이룩할 수 있을 것이라 판단하였다. 따라서 임상 사례 데이터를 활용한 기존 연구와는 달리, 대기 환경에 대한장기 데이터를 기반으로 천식 발병을 유발할 수 있는 주요 요인을 도출한 후 실제 천식 발병 환자의 수를 예측하는 모델을 구축하는 것에 연구의 주안점을 두었다.
앞서 본 연구에 활용될 데이터에 대한 피어슨 상관분석을 통해 실제 인자가 천식 발병 빈도에 가장 높은 영향을 미치는 시계를 파악한 바 있다. 본 논문에서 선정한 연구의 목표는 과거의 대기 환경 데이터를 기반으로 미래의 천식 발병 빈도를 예측하는 것이므로, 모형에학습시킬 변수의 구성에 실제 영향력이 가장 높은 시계를 반영할 필요가 있다.
이와 같이 실제 천식 발병에 가장 연관성이 큰 것으로 판단된 변수별 시차를 기준으로 각 행을 재구성하는방식은 데이터 내 선형연관성을 예측에 활용된 DNN모형에 적절히 반영하여 본 연구의 목적인 미래 천식환자 예측에 대한 성능을 고도화 시켜줄 것이라 기대된다. 구성된 변수 중 2015년∼2017년 동안의 데이터는 모형의 구축에 활용될 학습데이터로, 2018년도의 데이터는 모형의 성능 검증을 위한 검증 데이터로 구분하여추후 모형 성능의 신뢰성 있는 검증에 활용하고자 하였다.
질의응답
핵심어
질문
논문에서 추출한 답변
미세먼지는 무엇으로 구성돼있는가?
마지막으로 산업화가 유발한 최악의 부산물이자, 세계보건기구(WHO)로부터 1급 발암물질로 지정되기도한 미세먼지(Particulate Matter, PM)는 고체 상태와 입자와 액체 상태 입자의 혼합물로 구성된 물질이다. 미세먼지는 입자의 직경에 따라 지름이 10μm 미만인 경우 PM10으로, 지름이 2.
SO2는 무엇인가?
기체성 물질은 대기의 조성 변화에 영향을 미치며 주로 화석 연료의 연소 등 인간의 경제활동에 의한 부산물에 기인한다. 기체성 물질 중 SO2는 석유를 연소할 때 원유에 함유되어 있는 황이산화되면서 발생하는 물질이다. 다량의 SO2에 대한 노출은 기도수축을 유발, 타 대기 오염 물질과의 상호작용을 통해 천식의 유병률을 높일 수 있는 물질로 확인되었다[9][10].
이전의 모델이 아닌 DeepNeural Networks(DNN) 모델을 활용하여 대기 환경을 분석하는 이유는 무엇인가?
대기 환경 인자는 천식에 단일 영향력을 미칠 수도있으나, 인자 간 복합적 상호관계를 기반으로 영향력이 증대 혹은 감소될 가능성이 존재한다. 이러한 복합적 영향력은 일반적으로 결과값에 비선형적 관계를 가질것이라 판단, 회귀분석 등 선형적 영향관계 기반의 통계적 모델은 예측 모형에의 활용성이 제한적이다. 따라서 본 연구에서는 인자 단일 영향력에 대한 반영 및 인자 간 복합적 영향력을 모두 반영할 수 있는 DeepNeural Networks(DNN) 모델을 활용하여 인자 간 비선형적 패턴을 예측 모형에 복합적으로 반영하고자 하였다.
참고문헌 (21)
권호장, 조수헌, 김선민, 하미나, 한상환, "설문지에 의한 대기오염의 호흡기계 증상 발현에 관한 조사연구," 예방의학회지, 제27권, 제2호, pp.313-325, 1994.
J. G. Andrew and B. D. Robert, "Inflammatory Lung Injury after Bronchial Instillation of Air Pollution Particles," American Journal of Respiratory and Critical Care Medicine, Vol.164, pp.704-708, 2001.
N. Fredrik, G. Per, J. Lars, B. Tom, B. Niklas, J. Robert, and P. Goran, "Urban Air Pollution and Lung Cancer in Stockholm," Epidemiology, Vol.11, pp.487-495, 2000.
P. Laura, D. Christophe, I. Carmen, A. Inmaculada, B. Chiara, B. Ferran, B. Catherine, C. Oliver, C. B. Francisco, F. Francesco, F. Bertil, H. Daniela, H. Britta, C. Koldo, L. Marina, M. Hanns, O. Peter, R. B. Miguel, M. Sylvia, and K. Nino, "Chronic burden of near-roadway traffic pollution in 10 European cities," European Respiratory Journal, Vol.42, pp.594-605, 2013.
O. C. Piotr, D. Piotr, O. J. Aneta, B. Michalina, C. Ernest, O. Tomasz, R. K. Patrycja, and B. Artur, "A Preliminary Attempt at the Identification and Financial Estimation of the Native Health Effects of Urban and Industrial Air Pollution Based on Agglomeration of Gdansk," Sustainability, Vol.12, No.42, pp.1-28, 2020.
G. Henry Jr., S. L. William, L. T. Sheryl, R. A. Karen, and W. C. Kenneth, "Anti-inflammatory and Lung Function Effects of Montelukast in Asthmatic Volunteers Exposed to Sulfur Dioxide," CHEST, Vol.119, pp.402-408, 2001.
J. S. Matthew, A. D. Lyndsey, K. Mitchel, W. D. Flanders, A. S. Jeremy, A. W. Lance, E. S. Stefanie, A. M. James, and E. T. Paige, "Short-term Associations between Ambient Air Pollutants and Pediatric Asthma Emergency Department Visits," American J. of Respiratory and Critical Care Medicine, Vol.182, pp.307-316, 2010.
A. S. Robert and K. Ito, "Age-related association of fine particles and ozone with severe acute asthma in New York City," J. of Allergy and Clinical Immunology, Vol.125, pp.367-373, 2010.
임형준, 이상윤, 윤기정, 주영수, 강대희, 조수현, "대기오염과 천식증상에 의한 응급실내원과의 연관성에 관한 환자교차연구," 대한직업환경의학회지, 제12권, 제2호, pp.249-257, 2000.
Y. Hao and X. Linyu, "Comparative study of PM10/PM2.5 - bound PAHs in downtown Beijing, China: Concentrations, sources and health risk," J. of Cleaner Production, Vol.177, pp.674-683, 2018.
K. M. Jennifer, R. B. John, A. B. Tim, M. M. Kathleen, G. M. Helene, P. Boriana, S. H. Katharine, W. L. Frederick, and B. T. Ira, "Short-Term Effects of Air Pollution on Wheeze in Asthmatic Children in Fresno, California," Environmental Health Perspectives, Vol.118, pp.1497-1502, 2010.
B. Katayoun, D. W. Mary, M. Carlo, L. Larry, A. Kadria, S. John, and J. F. Mark, "Economic burden of asthma: a systematic review," BMC Pulmonary Medicine, Vol.9, pp.1-16, 2009.
M. Matthew, F. Denise, H. Shaun, and B. Richard, "The global burden of asthma: executive summary of GINA Dissemination Committee Report," Allergy, Vol.59, pp.469-478, 2004.
I. G. McKendry, "Evaluation of artificial neural networks for fine particulate pollution(PM10 and PM2.5) forecasting," J. of the Air&Waste Management Association, Vol.52, No.9, pp.1096-1101, 2002.
H. T. Shahraiyni and S. Sodoudi, "Statistical Modeling Approaches for PM10 Prediction in Urban Areas; A Review of 21st-Century Studies," Atmosphere, Vol.7, No.2, pp.1-24, 2016.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.