본 연구에서는 그동안 해외에서 주로 실행되어 왔던 빅데이터를 이용한 다양한 질병(독감, 폐렴, 수족구병) 환자수 예측 모델을 개발해 보았다. 기존의 환자수 예측이 병원에서 실제 환자수를 카운팅한 수를 수집하여 발표하는 시스템이라면, 이번에 개발한 연구 모델은 실시간으로 제공되는 질병 관련 단어 및 다양한 기후 데이터를 접목하여 기계학습 방법으로 알고리즘을 만들고, 이를 기반으로 정부에서 발표하기 전 환자수를 예측하는 모델이다. 특히 유행성 질병이 빠르게 확산될 경우, 실시간으로 전파 속도를 파악할 수 있다는 점에서 그 장점이 있다. 이를 위하여 구글 플루 트렌드에서 실패한 부분을 최대한 보완하여 다양한 데이터를 활용한 예측 모델을 개발하였다.
본 연구에서는 그동안 해외에서 주로 실행되어 왔던 빅데이터를 이용한 다양한 질병(독감, 폐렴, 수족구병) 환자수 예측 모델을 개발해 보았다. 기존의 환자수 예측이 병원에서 실제 환자수를 카운팅한 수를 수집하여 발표하는 시스템이라면, 이번에 개발한 연구 모델은 실시간으로 제공되는 질병 관련 단어 및 다양한 기후 데이터를 접목하여 기계학습 방법으로 알고리즘을 만들고, 이를 기반으로 정부에서 발표하기 전 환자수를 예측하는 모델이다. 특히 유행성 질병이 빠르게 확산될 경우, 실시간으로 전파 속도를 파악할 수 있다는 점에서 그 장점이 있다. 이를 위하여 구글 플루 트렌드에서 실패한 부분을 최대한 보완하여 다양한 데이터를 활용한 예측 모델을 개발하였다.
In this study, we have developed a model for predicting the number of patients (flu, pneumonia, and outbreak) using Big Data, which has been mainly performed overseas. Existing patient number system by government adopt procedures that collects the actual number and percentage of patients from severa...
In this study, we have developed a model for predicting the number of patients (flu, pneumonia, and outbreak) using Big Data, which has been mainly performed overseas. Existing patient number system by government adopt procedures that collects the actual number and percentage of patients from several big hospital. However, prediction model in this study was developed combing a real-time collection of disease-related words and various other climate data provided in real time. Also, prediction number of patients were counted by machine learning algorithm method. The advantage of this model is that if the epidemic spreads rapidly, the propagation rate can be grasped in real time. Also, we used a variety types of data to complement the failures in Google Flu Trends.
In this study, we have developed a model for predicting the number of patients (flu, pneumonia, and outbreak) using Big Data, which has been mainly performed overseas. Existing patient number system by government adopt procedures that collects the actual number and percentage of patients from several big hospital. However, prediction model in this study was developed combing a real-time collection of disease-related words and various other climate data provided in real time. Also, prediction number of patients were counted by machine learning algorithm method. The advantage of this model is that if the epidemic spreads rapidly, the propagation rate can be grasped in real time. Also, we used a variety types of data to complement the failures in Google Flu Trends.
2013년 GFT의 예측 실패는 검색량만을 이용했기 때문이다. 본 연구의 모델은 질병에 영향을 미칠 수 있는 온도, 강수량 등의 기후 데이터 투입하여 모델의 예측률을 높이고자 한다.
본 연구는 앞서 언급한 GFT 문제점을 보완하고, 독감 외에 다른 질병에 대한 예측이 가능한 한국형 모델을 만들기 위해 다음과 같이 연구를 진행하였다. 우선 구글 트렌드와 네이버 트렌드에서 다양한 검색 데이터를 수집하였다.
제안 방법
또한 질병에 기후가 영향을 미칠 수 있기 때문에 기상청 데이터를 활용하여 온도, 강수량 데이터를 추가하였다. 이를 이용하여 독감, 폐렴, 수족구등 세 가지 질병에 대한 각각의 예측 모델을 개발하였다.
본 연구는 해외에서 시도되었던 플루 트렌드 형태의 모델이 한국에서도 개발 가능한지 여부 및 독감 이외의 질병도 예측 가능한지 여부를 시도한 것이다. 특히 데이터 수집에 있어서 한국에서 사용자가 많지 않은 구글 트렌드 데이터 이외에 추가로 네이버 트렌드에서 제공하는 검색 데이터도 사용하였다.
이를 위하여 구글 트렌드의 데이터를 사용하여 한국의 독감 환자수를 예측해 보는 한편, 한국에서 사용량이 많은 네이버 트렌드에서 제공하는 데이터와 함께 분석한다. 이러한 예측 모델이 정부에서 공개한 실제 독감 환자수의 증감과 일치하는지 여부를 확인한다. 둘째, 이러한 예측 알고리즘을 다양한 질병에 적용 가능한지 확인한다.
대상 데이터
구글 트렌드와 네이버 트렌드에서 질병과 관련된 다양한 검색어 데이터(예 : ‘독감’, ‘독감증상’, ‘기침’, ‘고열’, ‘두통’, ‘폐렴’, ‘수족구’)를 수집 하였다. 데이터 수집 기간은 2016년 1월부터 2018년 4월 현재까지이다.
우선 구글 트렌드와 네이버 트렌드에서 다양한 검색 데이터를 수집하였다. 또한 질병에 기후가 영향을 미칠 수 있기 때문에 기상청 데이터를 활용하여 온도, 강수량 데이터를 추가하였다. 이를 이용하여 독감, 폐렴, 수족구등 세 가지 질병에 대한 각각의 예측 모델을 개발하였다.
실제 환자 수를 알아보기 위해 보건의료 빅데 이터 개방시스템(http://opendata.hira.or.kr/home.do) 에서 독감, 폐렴, 수족구 환자 수에 대한 월별 데이터를 수집하였다. 데이터 수집 기간은 2016년 1월부터 2017년 8월까지로 한정하였다.
데이터처리
데이터는 SPSS, 엑셀 및 IBM Modeler에 분석 되었으며, Random forest, 인공신경망, LSVM 등 7가지 다양한 기법을 사용하여 예측 환자 수 오차를 최소화하기 위해 노력하였다. 또한 기관에서 발표하는 월별 환자 수 데이터를 일별 환자 수로 전환하여, 일별로 환자 수를 예측하는 수준으로 예측력을 끌어 올렸다.
성능/효과
결론적으로 본 연구를 통해 한국에서도 검색 데이터를 제대로 활용한다면, 얼마든지 유행 질병 확산 예측에 도움이 됨을 알 수 있었다. 여기에 기존 제약회사의 데이터나 정부 기관의 다른 데이터가 추가된다면 훨씬 높은 예측력을 가진 모델 개발이 가능할 것이다.
또한 검색량 중심의 예측 모델은 GFT에서처럼 오차가 발생할 수 있어, 검색어 데이터 외에 유행병에 영향을 미칠 수 있는 다양한 기후 데이터를 추가하여 분석했다. 분석 결과, 거의 모든 질병 데이터에서 실제 환자 수 데이터와 예측 데이터 간 상관이 .8~.9 이상으로 매우 높게 나와 예측력 높은 알고리즘을 개발했고, 이러한 알고리즘을 바탕으로 실시간 환자 수를 예측 할 수 있었다.
후속연구
마지막으로 현재 검색 서비스를 제공하는 구글, 네이버 등의 검색 엔진이 검색어의 검색 지역 정보까지 제공한다면, 질병이 어디서 발생하여 어느 지역으로 확산되고 있는지, 그 확산 속도까지 예측 가능할 것으로 예상된다.
결론적으로 본 연구를 통해 한국에서도 검색 데이터를 제대로 활용한다면, 얼마든지 유행 질병 확산 예측에 도움이 됨을 알 수 있었다. 여기에 기존 제약회사의 데이터나 정부 기관의 다른 데이터가 추가된다면 훨씬 높은 예측력을 가진 모델 개발이 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
구글 트렌드란?
구글 트렌드는 구글을 이용한 사용자들이 검색한 검색어를 그래프와 CSV(Comma Separated Value)파일로 제공하는 서비스이다. 이는 특정 국가, 지역, 도시 단위까지의 검색량을 제공하고, 검색 기간 역시 맞춤형으로 제공한다.
구글 트렌드에서 제공하는 서비스는 무엇인가?
구글 트렌드는 구글을 이용한 사용자들이 검색한 검색어를 그래프와 CSV(Comma Separated Value)파일로 제공하는 서비스이다. 이는 특정 국가, 지역, 도시 단위까지의 검색량을 제공하고, 검색 기간 역시 맞춤형으로 제공한다. 또한 건강, 게임, 과학, 금융, 뉴스 등 다양한 카테고리의 정보를 제공하며, 이미지, 구글 쇼핑, Youtube에서 개별 검색을 분리하여 검색할 수 있는 장점도 있다. 한꺼번에 5개까지 단어 검색이 가능하다.
GFT란?
GFT는 구글 검색어를 바탕으로 독감 환자수를 예측한 웹 서비스이다. GFT는 2008년부터 25개 이상 국가에서 독감 환자의 수를 예측했는데, 현재는 더 이상 서비스를 제공하지 않고 있다.
참고문헌 (5)
Ginsberg, J., M. H. Mohebbi, R. S. Patel, L. Brammer, M. S. Smolinski, and Brilliant, L. (2009). Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012.
Kelly, H. and K. Grant, "Interim analysis of pandemic influenza (H1N1) 2009 in Australia: surveillance trends, age of infection and effectiveness of seasonal vaccination", EuroSurveill, Vol.14, (31) : pii1928 8, 2009. Available: http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId19288.
Wilson, N., K. Mason, M. Tobias, M. Peacey, QS Huang et al., "Interpreting ''GFT'' Data for Pandemic H1N1: The New Zealand Experience", EuroSurveill, Vol.14(44), pii19386, 2009. Available : http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId19386.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.