[논문]빅데이터를 이용한 독감, 폐렴 및 수족구 환자수 예측 모델 연구

우종필; 이병욱; 이차민; 이지은; 김민성; 황재원

초록
AI-Helper

본 연구에서는 그동안 해외에서 주로 실행되어 왔던 빅데이터를 이용한 다양한 질병(독감, 폐렴, 수족구병) 환자수 예측 모델을 개발해 보았다. 기존의 환자수 예측이 병원에서 실제 환자수를 카운팅한 수를 수집하여 발표하는 시스템이라면, 이번에 개발한 연구 모델은 실시간으로 제공되는 질병 관련 단어 및 다양한 기후 데이터를 접목하여 기계학습 방법으로 알고리즘을 만들고, 이를 기반으로 정부에서 발표하기 전 환자수를 예측하는 모델이다. 특히 유행성 질병이 빠르게 확산될 경우, 실시간으로 전파 속도를 파악할 수 있다는 점에서 그 장점이 있다. 이를 위하여 구글 플루 트렌드에서 실패한 부분을 최대한 보완하여 다양한 데이터를 활용한 예측 모델을 개발하였다.

Abstract ▼ AI-Helper

In this study, we have developed a model for predicting the number of patients (flu, pneumonia, and outbreak) using Big Data, which has been mainly performed overseas. Existing patient number system by government adopt procedures that collects the actual number and percentage of patients from severa...

In this study, we have developed a model for predicting the number of patients (flu, pneumonia, and outbreak) using Big Data, which has been mainly performed overseas. Existing patient number system by government adopt procedures that collects the actual number and percentage of patients from several big hospital. However, prediction model in this study was developed combing a real-time collection of disease-related words and various other climate data provided in real time. Also, prediction number of patients were counted by machine learning algorithm method. The advantage of this model is that if the epidemic spreads rapidly, the propagation rate can be grasped in real time. Also, we used a variety types of data to complement the failures in Google Flu Trends.

주제어

AI 본문요약
AI-Helper

문제 정의

2013년 GFT의 예측 실패는 검색량만을 이용했기 때문이다. 본 연구의 모델은 질병에 영향을 미칠 수 있는 온도, 강수량 등의 기후 데이터 투입하여 모델의 예측률을 높이고자 한다.
본 연구는 앞서 언급한 GFT 문제점을 보완하고, 독감 외에 다른 질병에 대한 예측이 가능한 한국형 모델을 만들기 위해 다음과 같이 연구를 진행하였다. 우선 구글 트렌드와 네이버 트렌드에서 다양한 검색 데이터를 수집하였다.

제안 방법

또한 질병에 기후가 영향을 미칠 수 있기 때문에 기상청 데이터를 활용하여 온도, 강수량 데이터를 추가하였다. 이를 이용하여 독감, 폐렴, 수족구등 세 가지 질병에 대한 각각의 예측 모델을 개발하였다.
본 연구는 해외에서 시도되었던 플루 트렌드 형태의 모델이 한국에서도 개발 가능한지 여부 및 독감 이외의 질병도 예측 가능한지 여부를 시도한 것이다. 특히 데이터 수집에 있어서 한국에서 사용자가 많지 않은 구글 트렌드 데이터 이외에 추가로 네이버 트렌드에서 제공하는 검색 데이터도 사용하였다.
이를 위하여 구글 트렌드의 데이터를 사용하여 한국의 독감 환자수를 예측해 보는 한편, 한국에서 사용량이 많은 네이버 트렌드에서 제공하는 데이터와 함께 분석한다. 이러한 예측 모델이 정부에서 공개한 실제 독감 환자수의 증감과 일치하는지 여부를 확인한다. 둘째, 이러한 예측 알고리즘을 다양한 질병에 적용 가능한지 확인한다.

대상 데이터

구글 트렌드와 네이버 트렌드에서 질병과 관련된 다양한 검색어 데이터(예 : ‘독감’, ‘독감증상’, ‘기침’, ‘고열’, ‘두통’, ‘폐렴’, ‘수족구’)를 수집 하였다. 데이터 수집 기간은 2016년 1월부터 2018년 4월 현재까지이다.
우선 구글 트렌드와 네이버 트렌드에서 다양한 검색 데이터를 수집하였다. 또한 질병에 기후가 영향을 미칠 수 있기 때문에 기상청 데이터를 활용하여 온도, 강수량 데이터를 추가하였다. 이를 이용하여 독감, 폐렴, 수족구등 세 가지 질병에 대한 각각의 예측 모델을 개발하였다.
실제 환자 수를 알아보기 위해 보건의료 빅데 이터 개방시스템(http://opendata.hira.or.kr/home.do) 에서 독감, 폐렴, 수족구 환자 수에 대한 월별 데이터를 수집하였다. 데이터 수집 기간은 2016년 1월부터 2017년 8월까지로 한정하였다.

데이터처리

데이터는 SPSS, 엑셀 및 IBM Modeler에 분석 되었으며, Random forest, 인공신경망, LSVM 등 7가지 다양한 기법을 사용하여 예측 환자 수 오차를 최소화하기 위해 노력하였다. 또한 기관에서 발표하는 월별 환자 수 데이터를 일별 환자 수로 전환하여, 일별로 환자 수를 예측하는 수준으로 예측력을 끌어 올렸다.

성능/효과

결론적으로 본 연구를 통해 한국에서도 검색 데이터를 제대로 활용한다면, 얼마든지 유행 질병 확산 예측에 도움이 됨을 알 수 있었다. 여기에 기존 제약회사의 데이터나 정부 기관의 다른 데이터가 추가된다면 훨씬 높은 예측력을 가진 모델 개발이 가능할 것이다.
또한 검색량 중심의 예측 모델은 GFT에서처럼 오차가 발생할 수 있어, 검색어 데이터 외에 유행병에 영향을 미칠 수 있는 다양한 기후 데이터를 추가하여 분석했다. 분석 결과, 거의 모든 질병 데이터에서 실제 환자 수 데이터와 예측 데이터 간 상관이 .8~.9 이상으로 매우 높게 나와 예측력 높은 알고리즘을 개발했고, 이러한 알고리즘을 바탕으로 실시간 환자 수를 예측 할 수 있었다.

후속연구

마지막으로 현재 검색 서비스를 제공하는 구글, 네이버 등의 검색 엔진이 검색어의 검색 지역 정보까지 제공한다면, 질병이 어디서 발생하여 어느 지역으로 확산되고 있는지, 그 확산 속도까지 예측 가능할 것으로 예상된다.
결론적으로 본 연구를 통해 한국에서도 검색 데이터를 제대로 활용한다면, 얼마든지 유행 질병 확산 예측에 도움이 됨을 알 수 있었다. 여기에 기존 제약회사의 데이터나 정부 기관의 다른 데이터가 추가된다면 훨씬 높은 예측력을 가진 모델 개발이 가능할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	구글 트렌드란?	구글 트렌드는 구글을 이용한 사용자들이 검색한 검색어를 그래프와 CSV(Comma Separated Value)파일로 제공하는 서비스이다. 이는 특정 국가, 지역, 도시 단위까지의 검색량을 제공하고, 검색 기간 역시 맞춤형으로 제공한다.
	구글 트렌드에서 제공하는 서비스는 무엇인가?	구글 트렌드는 구글을 이용한 사용자들이 검색한 검색어를 그래프와 CSV(Comma Separated Value)파일로 제공하는 서비스이다. 이는 특정 국가, 지역, 도시 단위까지의 검색량을 제공하고, 검색 기간 역시 맞춤형으로 제공한다. 또한 건강, 게임, 과학, 금융, 뉴스 등 다양한 카테고리의 정보를 제공하며, 이미지, 구글 쇼핑, Youtube에서 개별 검색을 분리하여 검색할 수 있는 장점도 있다. 한꺼번에 5개까지 단어 검색이 가능하다.
	GFT란?	GFT는 구글 검색어를 바탕으로 독감 환자수를 예측한 웹 서비스이다. GFT는 2008년부터 25개 이상 국가에서 독감 환자의 수를 예측했는데, 현재는 더 이상 서비스를 제공하지 않고 있다.

참고문헌 (5)

Ginsberg, J., M. H. Mohebbi, R. S. Patel, L. Brammer, M. S. Smolinski, and Brilliant, L. (2009). Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012.

상세보기
Lazer, D. M., R. Kennedy, G. King, and A. Vespignani, "The parable of google flu : Traps in big data analysis", Science Magazine(AAAS), 2014.
Lazer D., R. Kennedy, G. King, A. Vespignani, "The parable of Google flu : traps in big data analysis", Science, Vol.343, No.6176, pp.1203-1205, 2014.

상세보기
Kelly, H. and K. Grant, "Interim analysis of pandemic influenza (H1N1) 2009 in Australia: surveillance trends, age of infection and effectiveness of seasonal vaccination", EuroSurveill, Vol.14, (31) : pii1928 8, 2009. Available: http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId19288.

상세보기
Wilson, N., K. Mason, M. Tobias, M. Peacey, QS Huang et al., "Interpreting ''GFT'' Data for Pandemic H1N1: The New Zealand Experience", EuroSurveill, Vol.14(44), pii19386, 2009. Available : http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId19386.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

빅데이터를 이용한 독감, 폐렴 및 수족구 환자수 예측 모델 연구
The Study of Patient Prediction Models on Flu, Pneumonia and HFMD Using Big Data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

빅데이터를 이용한 독감, 폐렴 및 수족구 환자수 예측 모델 연구 The Study of Patient Prediction Models on Flu, Pneumonia and HFMD Using Big Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

우종필 (13)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

빅데이터를 이용한 독감, 폐렴 및 수족구 환자수 예측 모델 연구
The Study of Patient Prediction Models on Flu, Pneumonia and HFMD Using Big Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper