인플루엔자는 흔히 독감으로 불리는 질병으로 인플루엔자 바이러스가 호흡기 (코, 인후, 기관지, 폐 등)에 감염되어 생기는 병이다. 감기와는 달리 심한 증상을 나타내거나 생명이 위험한 합병증 (폐렴 등)을 유발할 수도 있다. 본 연구에서는 인플루엔자에 대한 예측모형을 다루었으며, 주로 회귀적인 모형을 고려하였다. 기존의 연구들이 주로 기상요인을 예측변수로 사용한 반면, 본 연구에서는 소셜요인의 효과를 살펴보았으며 그 결과 기상요인과 대등한 설명력을 가짐을 확인하였다. 반응변수로는 국민건강보험공단에서 제공하는 인플루엔자 진료건수가 사용되었고, 설명변수에는 기상청에서 제공하는 기상정보와 트위터에서의 인플루엔자 연관키워드 빈도가 사용되었다. 모형의 비교를 위해 시계열 모형도 함께 제시되었다.
인플루엔자는 흔히 독감으로 불리는 질병으로 인플루엔자 바이러스가 호흡기 (코, 인후, 기관지, 폐 등)에 감염되어 생기는 병이다. 감기와는 달리 심한 증상을 나타내거나 생명이 위험한 합병증 (폐렴 등)을 유발할 수도 있다. 본 연구에서는 인플루엔자에 대한 예측모형을 다루었으며, 주로 회귀적인 모형을 고려하였다. 기존의 연구들이 주로 기상요인을 예측변수로 사용한 반면, 본 연구에서는 소셜요인의 효과를 살펴보았으며 그 결과 기상요인과 대등한 설명력을 가짐을 확인하였다. 반응변수로는 국민건강보험공단에서 제공하는 인플루엔자 진료건수가 사용되었고, 설명변수에는 기상청에서 제공하는 기상정보와 트위터에서의 인플루엔자 연관키워드 빈도가 사용되었다. 모형의 비교를 위해 시계열 모형도 함께 제시되었다.
Influenza, commonly known as "the flu", is an infectious disease caused by the influenza virus. We consider, in this paper, regression models as a prediction model of influenza disease. While most of previous researches use mainly the meteorological variables as a predictive variables, we consider s...
Influenza, commonly known as "the flu", is an infectious disease caused by the influenza virus. We consider, in this paper, regression models as a prediction model of influenza disease. While most of previous researches use mainly the meteorological variables as a predictive variables, we consider social media information in the models. As a result, we found that the contributions of two-type of informations are comparable. We used the medical treatment data of influenza provided by Natioal Health Insurance Survice (NHIS) and the meteorological data provided by Korea Meteorological Administration (KMA). We collect social media information (twitter buzz amount) from Twitter. Time series model is also considered for comparison.
Influenza, commonly known as "the flu", is an infectious disease caused by the influenza virus. We consider, in this paper, regression models as a prediction model of influenza disease. While most of previous researches use mainly the meteorological variables as a predictive variables, we consider social media information in the models. As a result, we found that the contributions of two-type of informations are comparable. We used the medical treatment data of influenza provided by Natioal Health Insurance Survice (NHIS) and the meteorological data provided by Korea Meteorological Administration (KMA). We collect social media information (twitter buzz amount) from Twitter. Time series model is also considered for comparison.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
특히 사람간의 감염이 쉽게 이루어지므로 공중보건의 측면에서 잘 관리되어야 할 질병이다. 본 연구에서는 국민건강보험공단에서 제공되는 인플루엔자 진료건수에 대한 예측모형을 제시하였다. 시계열 모형과 회귀적인 모형을 동시에 고려하였으며, 특히 기존의 연구에서 다루어진 회귀적 모형들이 주로 기상요인만을 예측변수로 사용함 반면, 본 연구에서는 소셜요인 (질병 연관키워드의 트위터 버즈량)을 함께 고려하였다.
본 연구에서는 국민보험공단에서 제공하는 인플루엔자 진료건수를 반응변수로하는 통계적 예측모형을 구축한다. 분석에 사용될 자료는 2년 6개월간 (2011년 1월 1일 ∼ 2013년 6월 30일)의 서울시 진료 건수 (일일자료)를 사용하였다.
제안 방법
본 연구에서는 국민건강보험공단에서 제공되는 인플루엔자 진료건수에 대한 예측모형을 제시하였다. 시계열 모형과 회귀적인 모형을 동시에 고려하였으며, 특히 기존의 연구에서 다루어진 회귀적 모형들이 주로 기상요인만을 예측변수로 사용함 반면, 본 연구에서는 소셜요인 (질병 연관키워드의 트위터 버즈량)을 함께 고려하였다. 그 결과 소셜요인이 기상요인과 대등한 설명력을 가짐을 확인하였다.
대상 데이터
4와 같다. 먼저 트위터로부터 (주)다음소프트에서 제공하는 API 서버로부터 2차에 걸쳐 데이터를 수집한다. 1차수집에서는 트위터의 문서를 표준화, 스팸필터링, 텍스트마이닝을 수행하고, 2차수집에서는 해당질병 (인플루엔자) 관련 연관키워드와 동의어 등에 대한 정보를 추출한다.
분석에 사용될 자료는 2년 6개월간 (2011년 1월 1일 ∼ 2013년 6월 30일)의 서울시 진료 건수 (일일자료)를 사용하였다.
예측기간은 2013년 7월 1일 ∼ 31일(1개월)이다.
분석에 사용될 자료는 2년 6개월간 (2011년 1월 1일 ∼ 2013년 6월 30일)의 서울시 진료 건수 (일일자료)를 사용하였다. 예측변수로는 기상청에서 제공하는 동 기간의 기상자료 (기온, 습도, 일조량)와 트위터에서 언급된 연관키워드 (인플루엔자, 독감, 감기, 신종인플루엔자, 신종플루, 사스)의 버즈량 (단위: 건)을 사용하였다. Figure 2.
이론/모형
모형 1은 진료건수 (yt)만을 사용한 시계열 예측모형으로 계절형 ARIMA 모형을 고려한다. 아래의 모형 1은 ARIMA(p, d, q)(P, D, Q)s에 해당하는 모형으로, 이 모형의 표기에 대한 자세한 내용은 시계열 관련 서적 (Box와 Jenkins, 1976)을 참고하기 바란다.
3은 각 모형의 적합력과 예측력을 나타낸다. 사용된 평가측도로는 평균절대오차 (MAE), 평균제곱오차 (MSE), 평균절대백분위오차 (MAPE)가 사용되었으며, 자세한 정의는 다음과 같다.
성능/효과
시계열 모형과 회귀적인 모형을 동시에 고려하였으며, 특히 기존의 연구에서 다루어진 회귀적 모형들이 주로 기상요인만을 예측변수로 사용함 반면, 본 연구에서는 소셜요인 (질병 연관키워드의 트위터 버즈량)을 함께 고려하였다. 그 결과 소셜요인이 기상요인과 대등한 설명력을 가짐을 확인하였다. 다만 본 연구에서 제시된 모형적합도를 통한 모형간의 비교는 제한적인 결과이므로, 일반화된 해석으로는 무리가 있다.
2는 회귀적 모형 (모형 2 ∼ 모형4)의 적합결과를 나타낸다. 표에서 추정치가 제시된 변수는 모두 유의수준 5%에서 통계적으로 유의한 것으로 나타난 변수들이다. 모형 2 와 모형 3은 각각 기상변수와 소셜변수를 예측변수 (각각 3개씩)로 사용한 모형으로 두 모형의 결정계수가 비슷하나, 작게나마 소셜변수의 설명력이 높게 나타난 것은 주목할 만하다.
후속연구
그 결과 소셜요인이 기상요인과 대등한 설명력을 가짐을 확인하였다. 다만 본 연구에서 제시된 모형적합도를 통한 모형간의 비교는 제한적인 결과이므로, 일반화된 해석으로는 무리가 있다.
또한, 구축된 모형을 이용하여 미래시점의 예측을 위해서도 기상 및 소셜변수에 대한 예측값이 전제되어야 한다. 이러한 점은 실무차원에서의 예측모형 개발에 큰 지장을 주고 있으므로, 향후의 연구에서는 이전 시차의 질병건수를 요구하는 시계열적 또는 ARX 계열의 모형 보다 기상 및 소셜정보 만을 예측변수로 하는 회귀적 모형을 고려하되, 효율적인 예측을 위해 선행시차의 예측변수 (leading variable)를 찾아내는 것이 효과적이다.
질의응답
핵심어
질문
논문에서 추출한 답변
인플루엔자는 무엇을 유발할 수 있는가?
인플루엔자는 흔히 독감으로 불리는 질병으로 인플루엔자 바이러스가 호흡기 (코, 인후, 기관지, 폐 등)에 감염되어 생기는 병이다. 감기와는 달리 심한 증상을 나타내거나 생명이 위험한 합병증 (폐렴 등)을 유발할 수도 있다. 본 연구에서는 인플루엔자에 대한 예측모형을 다루었으며, 주로 회귀적인 모형을 고려하였다.
인플루엔자는 무엇인가?
인플루엔자는 흔히 독감으로 불리는 질병으로 인플루엔자 바이러스가 호흡기 (코, 인후, 기관지, 폐 등)에 감염되어 생기는 병이다. 감기와는 달리 심한 증상을 나타내거나 생명이 위험한 합병증 (폐렴 등)을 유발할 수도 있다.
감기는 몇 가지 바이러스에 의해 발생하는가?
인플루엔자는 독감 (flu) 또는 계절 독감 (seasonal flu)로도 불리는 질병으로 감기와 증상이 비슷하여 구별하기가 힘들지만, 일반적으로 감기는 증상이 약하고, 인플루엔자는 증상이 중하다. 감기는 100여가지 바이러스에 의해 발생하며, 인플루엔자는 인플루엔자 바이러스에 의해 발병한다. 인플루엔자에 감염되면 코, 목, 폐에서 시작하여 몸 전체로 퍼지며, 인플루엔자에 걸린 사람이 기침이나 재채기를 할 때 퍼진다.
참고문헌 (19)
Askitas, N. and Zimmermann, K. F. (2009). Google econometrics and unemployment forecasting, IZA Discussion Paper, 4201.
Box, G. E. P. and Jenkins, G. M. (1976). Time series analysis : Forecasting and control, Holden Day, San Francisco.
Cho, S. A. (2012). nvestigation of association between influenza occurrence and climate factors using time series analysis, Master's Thesis, Korea University, Seoul.
Cho, S., Sohn, C. H., Jo, M. W., Shin, S. Y., Lee, J. H., Ryoo, S. M., Kim, W. Y. and Seo, D. W. (2013). Correlation between national influenza surweillance data and google trends in South Korea, PLos ONE, 8, doi:10.1371/journal.pone.0081422.
D'Amuri, F. (2009). Predicting unemployment in short samples with internet job search query data, MPRA paper, 18403.
D'Amuri, F. and Marcucci, J. (2009). Google it! forecasting the US unemployment rate with a google job search index, Bank of Italy.
Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S. and Brilliant, L. (2009). Detecting influenza epidemics using search engine query data, Nature, 457, 1012-1014.
Jang, M. (2011). A study on the prediction of regional influenza patients by using meteorological factors, Proceedings of the Autumn Meeting of KMS, 292-293.
Lee, H. J. (2014). Analysis of statistical models on temperature at the seosan city in Korea, Journal of the Korean Data & Information Science Society, 25, 1293-1300.
Manangan, A. P. (2006). Influenza prevalence in the US associated with climate factors, analyzed at multiple spatial and temporal scales, Master Thesis, Georgia State University.
Na, J. H. and Kim, E. S. (2013). Forecasting unemployment rate using social media information, Journal of the Korea Industrial Information Systems Research, 18, 95-101.
Pablo, F. (2004). Climate, weather and flu diagnoses incidence in the region of Santander (Northern Sapain) during the 1999-2000 epidemic diffusion period, Kluwer Academic Publishers, 20, 223-228.
SAS and UN Global Pulse. (2011). Using social media and online conversations to add depth to unemployment statistics, White Paper, 1-21.
Son, K. T. and Kim, D. H. (2015). Development of statictical forecast model for $PM_{10}$ concentration over Seoul, Journal of the Korean Data & Information Science Society, 26, 289-299.
Xiao, H., Tian, H., Lin, X., Gao, L., Dai, X., Zhang, X., Chen, B., Zhao, Z. and Xu, J. (2013). Influence of extreme weather and meteorological anomalies on outbreaks of influenza (H1N1), Prevention Medicine & Hygienics, 58, 741-749.
Xu, W., Li, Z. and Chen, Q. (2012). Forecasting the unemployment rate by neural networks using search engine query data, 2012 45th Hawaii International Conference on System Sciences, 3591-3599.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.