조류인플루엔자와 구제역 같은 동물감염병은 거의 매년 발생하며 국가에 막대한 경제적 사회적 손실을 일으키고 있다. 이를 예방하기 위해서 그간 방역당국은 다양한 인적, 물적 노력을 기울였지만 감염병은 지속적으로 발생해 왔다. 최근 빅데이터와 딥러닝 기술을 활용하여 감염병의 예측모델을 개발하고자 하는 시도가 시작되고 있지만, 실제로 활용가능한 모델구축 연구와 사례보고는 활발히 진행되고 있지 않은 실정이다. KT와 과학기술정보통신부는 2014년부터 국가 R&D사업의 일환으로 축산관련 차량의 이동경로를 분석하여 예측하는 빅데이터 사업을 수행하고 있다. 동물감염병 예방을 위하여 연구진은 최초에는 차량이동 데이터를 활용한 회귀분석모델을 기반으로 한 예측모델을 개발하였다. 이후에는 기계학습을 활용하여 좀 더 정확한 예측 모델을 구성하였다. 특히, 2017년 예측모델에서는 시설물에 대한 확산 위험도를 추가하였고 모델링의 하이퍼 파라미터를 다양하게 고려하여 모델의 성능을 높였다. 정오분류표와 ROC 커브를 확인한 결과, 기계 학습 모델보다 2017년 구성된 모형이 우수함을 확인 할 수 있었다. 또한 2017에는 결과에 대한 설명을 추가하여 방역당국의 의사결정을 돕고 이해관계자를 설득할 수 있는 근거를 확보하였다. 본 연구는 빅데이터를 활용하여 동물감염병예방시스템을 구축한 사례연구로 모델주요변수값, 이에따른 실제예측성능결과, 그리고 상세하게 기술된 시스템구축 프로세스는 향후 감염병예방 영역의 지속적인 빅데이터활용 및 분석 모델 개발에 기여할 수 있을 것이다. 또한 본 연구에서 구축한 시스템을 통해 보다 사전적이고 효과적인 방역을 할 수 있을 것으로 기대한다.
조류인플루엔자와 구제역 같은 동물감염병은 거의 매년 발생하며 국가에 막대한 경제적 사회적 손실을 일으키고 있다. 이를 예방하기 위해서 그간 방역당국은 다양한 인적, 물적 노력을 기울였지만 감염병은 지속적으로 발생해 왔다. 최근 빅데이터와 딥러닝 기술을 활용하여 감염병의 예측모델을 개발하고자 하는 시도가 시작되고 있지만, 실제로 활용가능한 모델구축 연구와 사례보고는 활발히 진행되고 있지 않은 실정이다. KT와 과학기술정보통신부는 2014년부터 국가 R&D사업의 일환으로 축산관련 차량의 이동경로를 분석하여 예측하는 빅데이터 사업을 수행하고 있다. 동물감염병 예방을 위하여 연구진은 최초에는 차량이동 데이터를 활용한 회귀분석모델을 기반으로 한 예측모델을 개발하였다. 이후에는 기계학습을 활용하여 좀 더 정확한 예측 모델을 구성하였다. 특히, 2017년 예측모델에서는 시설물에 대한 확산 위험도를 추가하였고 모델링의 하이퍼 파라미터를 다양하게 고려하여 모델의 성능을 높였다. 정오분류표와 ROC 커브를 확인한 결과, 기계 학습 모델보다 2017년 구성된 모형이 우수함을 확인 할 수 있었다. 또한 2017에는 결과에 대한 설명을 추가하여 방역당국의 의사결정을 돕고 이해관계자를 설득할 수 있는 근거를 확보하였다. 본 연구는 빅데이터를 활용하여 동물감염병예방시스템을 구축한 사례연구로 모델주요변수값, 이에따른 실제예측성능결과, 그리고 상세하게 기술된 시스템구축 프로세스는 향후 감염병예방 영역의 지속적인 빅데이터활용 및 분석 모델 개발에 기여할 수 있을 것이다. 또한 본 연구에서 구축한 시스템을 통해 보다 사전적이고 효과적인 방역을 할 수 있을 것으로 기대한다.
Animal infectious diseases, such as avian influenza and foot and mouth disease, occur almost every year and cause huge economic and social damage to the country. In order to prevent this, the anti-quarantine authorities have tried various human and material endeavors, but the infectious diseases hav...
Animal infectious diseases, such as avian influenza and foot and mouth disease, occur almost every year and cause huge economic and social damage to the country. In order to prevent this, the anti-quarantine authorities have tried various human and material endeavors, but the infectious diseases have continued to occur. Avian influenza is known to be developed in 1878 and it rose as a national issue due to its high lethality. Food and mouth disease is considered as most critical animal infectious disease internationally. In a nation where this disease has not been spread, food and mouth disease is recognized as economic disease or political disease because it restricts international trade by making it complex to import processed and non-processed live stock, and also quarantine is costly. In a society where whole nation is connected by zone of life, there is no way to prevent the spread of infectious disease fully. Hence, there is a need to be aware of occurrence of the disease and to take action before it is distributed. Epidemiological investigation on definite diagnosis target is implemented and measures are taken to prevent the spread of disease according to the investigation results, simultaneously with the confirmation of both human infectious disease and animal infectious disease. The foundation of epidemiological investigation is figuring out to where one has been, and whom he or she has met. In a data perspective, this can be defined as an action taken to predict the cause of disease outbreak, outbreak location, and future infection, by collecting and analyzing geographic data and relation data. Recently, an attempt has been made to develop a prediction model of infectious disease by using Big Data and deep learning technology, but there is no active research on model building studies and case reports. KT and the Ministry of Science and ICT have been carrying out big data projects since 2014 as part of national R &D projects to analyze and predict the route of livestock related vehicles. To prevent animal infectious diseases, the researchers first developed a prediction model based on a regression analysis using vehicle movement data. After that, more accurate prediction model was constructed using machine learning algorithms such as Logistic Regression, Lasso, Support Vector Machine and Random Forest. In particular, the prediction model for 2017 added the risk of diffusion to the facilities, and the performance of the model was improved by considering the hyper-parameters of the modeling in various ways. Confusion Matrix and ROC Curve show that the model constructed in 2017 is superior to the machine learning model. The difference between the2016 model and the 2017 model is that visiting information on facilities such as feed factory and slaughter house, and information on bird livestock, which was limited to chicken and duck but now expanded to goose and quail, has been used for analysis in the later model. In addition, an explanation of the results was added to help the authorities in making decisions and to establish a basis for persuading stakeholders in 2017. This study reports an animal infectious disease prevention system which is constructed on the basis of hazardous vehicle movement, farm and environment Big Data. The significance of this study is that it describes the evolution process of the prediction model using Big Data which is used in the field and the model is expected to be more complete if the form of viruses is put into consideration. This will contribute to data utilization and analysis model development in related field. In addition, we expect that the system constructed in this study will provide more preventive and effective prevention.
Animal infectious diseases, such as avian influenza and foot and mouth disease, occur almost every year and cause huge economic and social damage to the country. In order to prevent this, the anti-quarantine authorities have tried various human and material endeavors, but the infectious diseases have continued to occur. Avian influenza is known to be developed in 1878 and it rose as a national issue due to its high lethality. Food and mouth disease is considered as most critical animal infectious disease internationally. In a nation where this disease has not been spread, food and mouth disease is recognized as economic disease or political disease because it restricts international trade by making it complex to import processed and non-processed live stock, and also quarantine is costly. In a society where whole nation is connected by zone of life, there is no way to prevent the spread of infectious disease fully. Hence, there is a need to be aware of occurrence of the disease and to take action before it is distributed. Epidemiological investigation on definite diagnosis target is implemented and measures are taken to prevent the spread of disease according to the investigation results, simultaneously with the confirmation of both human infectious disease and animal infectious disease. The foundation of epidemiological investigation is figuring out to where one has been, and whom he or she has met. In a data perspective, this can be defined as an action taken to predict the cause of disease outbreak, outbreak location, and future infection, by collecting and analyzing geographic data and relation data. Recently, an attempt has been made to develop a prediction model of infectious disease by using Big Data and deep learning technology, but there is no active research on model building studies and case reports. KT and the Ministry of Science and ICT have been carrying out big data projects since 2014 as part of national R &D projects to analyze and predict the route of livestock related vehicles. To prevent animal infectious diseases, the researchers first developed a prediction model based on a regression analysis using vehicle movement data. After that, more accurate prediction model was constructed using machine learning algorithms such as Logistic Regression, Lasso, Support Vector Machine and Random Forest. In particular, the prediction model for 2017 added the risk of diffusion to the facilities, and the performance of the model was improved by considering the hyper-parameters of the modeling in various ways. Confusion Matrix and ROC Curve show that the model constructed in 2017 is superior to the machine learning model. The difference between the2016 model and the 2017 model is that visiting information on facilities such as feed factory and slaughter house, and information on bird livestock, which was limited to chicken and duck but now expanded to goose and quail, has been used for analysis in the later model. In addition, an explanation of the results was added to help the authorities in making decisions and to establish a basis for persuading stakeholders in 2017. This study reports an animal infectious disease prevention system which is constructed on the basis of hazardous vehicle movement, farm and environment Big Data. The significance of this study is that it describes the evolution process of the prediction model using Big Data which is used in the field and the model is expected to be more complete if the form of viruses is put into consideration. This will contribute to data utilization and analysis model development in related field. In addition, we expect that the system constructed in this study will provide more preventive and effective prevention.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 2014년부터 시작된 정부의 동물 감염병 확산 방지 정책의 대표적인 사례인 빅데이터 기반 예측 모델의 발전 과정을 기술하여 정부의 정책과 분석모델이 병행하여 발전하는 단계를 알 수 있도록 정보를 제공하였다. 즉, 재난형 동물 감염병의 확산 차단을 위해서, 빅데이터를 수집하고 확산 예측모형을 만들어 개선하는 과정을 기술하였다.
따라서 바이러스 형태를 고려한 모델을 개발하면 확산 예측 모델링이 좀 더 강건해질 수 있을 것으로 사료된다. 본 연구에서는 발생 농장의 농장 정보와 발생 농장의 방문한 차량 정보, 차량들이 방문한 위험 농장 정보를 기반으로 변수들의 비선형적인 연관성을 고려한 인공 알고리즘을 통하여 위험 확산도를 예측 하였다. 감염병 발생 농장의 차량과 방문자의 다른 농장 방문 시간 정보를 순차적으로 사용하기 위해서는 RNN 기법이 적합할 수 있다.
[Table 1]에서는 우리나라의 동물감염병발생 현황을 나타내고 있다. 본 연구에서는 빅데이터(Jagadish et al., 2014)와 기계학습을 활용하여 동물감염병을 예측하고 차단하기 위한 검역당국과 KT의 노력을 체계적으로 기술한다. 데이터의 량(Volume), 속도(Velocity), 다양성(Variety)로 대표되는 빅데이터는 21세기의 원유로 비유되며 사회 문제를 해결하고 경제 발전에 기여할 핵심자원이자 도구로 일컬어 지고 있다 (Ashish and Dan, 2015; Chen et al.
이를 데이터 측면에서 보면, ‘위치 데이터’ 와 ‘관계 데이터’를 수집/분석하여 감염병 발생 원인, 발생지역, 향후 전파 예측을 하는 행동으로 정의할 수 있다. 본문에서는 동물 감염병 역학조사와 관련된 기존연구를 제시한다.
Park and Yom(2013)의 연구에서는 실시간 재해 공간 DB 수집을 위한 구제역 방문조사 모바일 웹 앱을 프로토타입 시스템으로 구현한 뒤 시나리오를 가정하여 활용성을 예시하였다. 이 시스템은 크라우드소싱과 모바일 웹 어플 기술을 결합하여 역학조사에 직접적으로 관여하는 관계 전문가뿐만 아니라 불특정 다수가 현장 상황을 자료로 기록할 수 있도록 지원하는 것을 목표로 하고 있다 이는 구제역 발생을 관찰한 불특정 다수가 웹 앱을 통하여 자발적으로 리포팅함으로써 현장자료를 구축하는 기능을 포함하고 있다. Kyung and Yom (2012)은 가축전염병 발생현황을 통계로 집계한 정보와 발생 농가의 공간적 위치정보 및 특성을 다차원적으로 지원하기 위하여 오픈소스기반의 가축전염병 예찰 및 방역 의사결정 지원시스템을 구현하였다.
제안 방법
2015년부터는 Deep Neural Network(DNN)을 본 모형에 적용하여 지속적으로 연구의 품질을 개선해 왔다. 2016년에는 감염에 영향을 미치는 농장 및 환경변수를 대폭 확충하였고 2017년에는 Logistic, Lasso, SVM, RF 등 다양한 분석기법을 비교하여 모델의 적합성을 재확인하고 변수를 재조정하였다. 또한 농장간 차량이동 정보 이외에 시설물 방문 정보를 추가하여 시설물에 의한 확산 영향력을 반영하였다.
2017년도 연구에서는 2016년도와 동일하게 빅데이터 시스템에 연동되어 있는 KAHIS 데이터 기반으로 발생한 농장, 발생 농장을 21일 이전 동안 방문한 차량, 그 차량이 다시 21일 동안 방문한 농장을 순차적으로 매칭하여 분석하였다. 2017년 모델에서는 시설물에 의한 확산 여부와 위험도를 평가하기 위하여 차량이 방문한 농장뿐만 아니라 시설물 정보도 추가하여 모델을 구현하였다.
인공신경망 기법뿐만 아니라 다양한 통계 모델과 비교 분석하여 모델의 강건함을 검증하여 개선점을 확인하였다. 검역 본부에 지속적으로 손쉽게 유지 보수 할 수 있는 R 프로그램을 이용하여 모델링을 진행하였고 학습 모델을 평가하기 위한 데이터 분할은 데이터가 충분한 경우 파라미터 최적화 및 테스트에 데이터를 적절히 분배할 수 있는 50(Train) : 30(Validation) : 20(Test) 비율 방법을 사용하였다. 머신러닝 기법에는 목표 변수(Target Variable)가 범주형인 경우 가장 일반적으로 널리 사용되는 기법은 로지스틱(Logistic) 회귀모형이다.
분석 기법으로는 해석이 가능하나 예측력이 다소 떨어지는 선형 모형보다는 해석이 어려움은 있으나 예측력이 우수한 딥러닝 알고리즘을 고려하였고 딥러닝 분석 기법에서 가장 널리 쓰이는 딥 신경망(Deep Neural Network)을 사용하였다. 데이터의 70%를 트레이닝 셋(training set,) 30%를 테스트 셋(test set)으로 분리하여 트레이닝 셋에서 모델을 최적화하고 테스트 셋으로 정확도를 검증하였다. 모델링은오픈소스인 R프로그램을 이용하여 개발하였고 주어진 학습 데이터로 딥러닝 모델 수렴 완료를 확인 하였다.
2016년에는 감염에 영향을 미치는 농장 및 환경변수를 대폭 확충하였고 2017년에는 Logistic, Lasso, SVM, RF 등 다양한 분석기법을 비교하여 모델의 적합성을 재확인하고 변수를 재조정하였다. 또한 농장간 차량이동 정보 이외에 시설물 방문 정보를 추가하여 시설물에 의한 확산 영향력을 반영하였다. 데이터 통계 분석에서 살펴본 것처럼 매년 발생하는 축종과 지역, 차량 특징들이 달라 기존데이터로 생성한 모델이 차년도에서 예측력이 떨어질 수 있으나 이러한 원인은 바이러스의 형태에 달라 발생한 것일 수 있다.
이 부분은 2015년 모델이 정확히 발생 농장을 예측하는 비율을 높이는 것보다 정밀도는 떨어지더라도 좀 더 많은 농장을 위험 농장을 예측하여 감염병이 확산 되었을 때의 리스크를 최소로 하는 형식으로 구축된 것을 알 수 있다 ([Table 7] 참고). 또한 확산위험에 관여한 위험차량들이 방문한 농장들과 해당 농장들의 위험도 및 관련 정보를 출력하여 위험도의 해석에 활용할 수 있도록 추가적인 정보를 제공하였다([Figure 9] 참고).
해당 시스템은 동물감염병에 대해 확산이 예측되는 지역을 빅데이터 모델링을 통해 읍/면/동 단위로 5단계 위험도로 구분하여 알려주는 시스템으로, 농림축산검역본부에서 방역에 대한 의사결정에 이를 활용하였다. 발생농장을 출입한 축산차량이 다른 농장을 방문한 건, 발생농장을 출입한 차량의 타농장 방문 시간차, 이동거리 등을 이용하여 빅데이터 딥러닝(기계학습) 기법을 통해 위험도 산출하였다. 주요변수는 우선 농장 관련으로는 축종, 사육형태, 사육 마리수, 과거 발생여부, 계열화 여부, 농장면적, 반경 3km내 농장 밀집도 등이었으며, 차량 관련으로는 차량 유형, 차량 계열화, 차량의 농장 방문 시점, 발생농장 방문 후 해당농장 방문까지의 시간차 등이 있었다.
모델링에 사용되는 변수는 형태에 따라 연속형, 범주형으로 나눠지며 모델링을 위하여 범주형은 더미화가 필요하다. 사용된 변수중에 농장의 면적, 사육두수, 밀집도 등은 연속형으로 측정되었으며 차량 방문 목적, 차량 소유 형태, 농장 사육 축종, 사육 형태 등은 범주형 자료로 더미화를 진행하였다. 모델링에 사용되는 변수는 형태에 따라 연속형, 범주형으로 나눠지며 모델링을 위하여 범주형은 더미화가 필요하다.
모델링에 사용되는 변수는 형태에 따라 연속형, 범주형으로 나눠지며 모델링을 위하여 범주형은 더미화가 필요하다. 사용된 변수중에 농장의 면적, 사육두수, 밀집도 등은 연속형으로 측정되었으며 차량 방문 목적, 차량 소유 형태, 농장 사육 축종, 사육 형태 등은 범주형 자료로 더미화를 진행하였다. 모델링에 사용되는 변수는 형태에 따라 연속형, 범주형으로 나눠지며 모델링을 위하여 범주형은 더미화가 필요하다.
인공신경망 기법뿐만 아니라 다양한 통계 모델과 비교 분석하여 모델의 강건함을 검증하여 개선점을 확인하였다. 검역 본부에 지속적으로 손쉽게 유지 보수 할 수 있는 R 프로그램을 이용하여 모델링을 진행하였고 학습 모델을 평가하기 위한 데이터 분할은 데이터가 충분한 경우 파라미터 최적화 및 테스트에 데이터를 적절히 분배할 수 있는 50(Train) : 30(Validation) : 20(Test) 비율 방법을 사용하였다.
전문가 자문을 통해 데이터 전처리 과정과 최종 결과물에 대한 해석 방식에 대하여 적절하다는 검증을 받았다. 자문 내용 중에 정확도 향상을 위하여 히든 레이어 숫자 최적화, 배치 정규화(Batch Normalization), 드롭 아웃(Drop out)와 같은 정규화(regularization) 기술 사용을 권장 받았으며 이를 2017년도 3차연구에 반영하고자 하였다([Table 3] 참고).
본 연구에서는 2014년부터 시작된 정부의 동물 감염병 확산 방지 정책의 대표적인 사례인 빅데이터 기반 예측 모델의 발전 과정을 기술하여 정부의 정책과 분석모델이 병행하여 발전하는 단계를 알 수 있도록 정보를 제공하였다. 즉, 재난형 동물 감염병의 확산 차단을 위해서, 빅데이터를 수집하고 확산 예측모형을 만들어 개선하는 과정을 기술하였다. 2014년 연례적으로 발생하는 조류독감의 발생 패턴을 확인해보기 위해서, 회귀분석을 적용해보고 80%이상의 예측력을 가진 모형을 구성하였다.
또한 빅데이터 플랫폼 UI를 개선하여 활용성을 높였다. 특히 발생 농장의 3km 이내의 농장 정보, 확산 위험 농장으로 선정된 사유(발생농장을 다녀온 차량의 유무, 방문차, 사육 축종, 농장 규모 등)를 예측결과와 함께 볼 수 있도록 가시화하였고 지자체 방역기관에서도 결과를 웹에서 볼 수 있도록 개발 하였다. 현재 개선된 DNN을 활용한 동물 감염병 확산예측모델은 매우 뛰어난 성능을 보여주고 있으나, 결과에 대한 해석에 어려움이 있었다.
이를 통해 단편적 자료(차량의 농장방문)를 정량화 된 지역별 위험도로 제공하여 지역별 맞춤형 방역업무에 활용하였다. 특히, 발생위험도를 5단계(평시, 관심, 주의, 경계, 심각)로 구분하여 제공하여 지역별로 차별화된 방역조치를 적용하였다. 하지만 1차모델에서는 차량을 통한 농장대 농장간 전파 위험도만 제공하여 차량이 방문한 농장 및 차량을 제외한 다른 요인인 인근 발생농장, 사람, 물품, 축산시설, 감염된 동물과 직- 간접 접촉 등은 고려되지 못했다.
2015년 사업은 2014년에 파일럿 형태로 KAHIS의 일부 데이터를 활용해 시도해 보았던 분석결과에서 타당성을 확인하여 본 사업으로 진행한 것이다. 해당 시스템은 동물감염병에 대해 확산이 예측되는 지역을 빅데이터 모델링을 통해 읍/면/동 단위로 5단계 위험도로 구분하여 알려주는 시스템으로, 농림축산검역본부에서 방역에 대한 의사결정에 이를 활용하였다. 발생농장을 출입한 축산차량이 다른 농장을 방문한 건, 발생농장을 출입한 차량의 타농장 방문 시간차, 이동거리 등을 이용하여 빅데이터 딥러닝(기계학습) 기법을 통해 위험도 산출하였다.
대상 데이터
2017년에 구축한 모델과 기존 2016년에 구축된 모델과의 차이점은 사료공장, 도축장등 시설물에 대한 방문 정보와 닭, 오리로 한정되어 있던 축종을 거위, 메추리등 조류독감에 감수성이 있는 모든 축종에 대하여 분석에 사용 하였다. 인공신경망 모델링에 사용되는 활성 함수(Activation Function)로 sigmoid, Hyperbolic Tangent 함수을, 과적합을 피하기 위하여 Drop-Out 비율을 0.
사용된 변수중에 농장의 면적, 사육두수, 밀집도 등은 연속형으로 측정되었으며 차량 방문 목적, 차량 소유 형태, 농장 사육 축종, 사육 형태 등은 범주형 자료로 더미화를 진행하였다. 농장간 확산 예측 모형을 만들기 위하여 2014.1월부터 2017년 6월까지 조류독감이 발생한 804 농장에 대하여 21일 이내 방문 차량은 9,094건이 있었다. 이 차량들이 21일 동안 방문한 농장/시설물중에 조류독감 관련 축종을 사육하는 농장에 대한 방문은 90,264건이 있었다.
데이터처리
즉, 재난형 동물 감염병의 확산 차단을 위해서, 빅데이터를 수집하고 확산 예측모형을 만들어 개선하는 과정을 기술하였다. 2014년 연례적으로 발생하는 조류독감의 발생 패턴을 확인해보기 위해서, 회귀분석을 적용해보고 80%이상의 예측력을 가진 모형을 구성하였다. 2015년부터는 Deep Neural Network(DNN)을 본 모형에 적용하여 지속적으로 연구의 품질을 개선해 왔다.
분류 모형에서 한쪽 집단이 많은 경우(Imbalanced Data)는 일반적으로 모든 것을 많은 집단으로 분류하는, 예을 들어 확산 비율이 10%인 경우 모든 경우를 확산되지 않는다고 하면 모형의 분류 예측률은 90%가 되므로 정확도로는 모델의 성능을 정확히 평가 할 수 없다. 이러한 경우 정밀도, 민감도, 정밀도와 민감도의 조합평균인 F1-Score를 이용하여 모형의 정교함을 판단한다. 아래 표는 회귀분석, Lasso, SVM, RF기법을 이용한 정밀도, 민감도, F1-Score값을 보여주고 있다.
이론/모형
모델에 대한 우수성은 실제 결과와 예측 결과를 비교하는 정오류분류표(Confusion Matrix)로 불리우는 분류 행렬표(Classification Matrix)로 측정 할 수 있다. 이 행렬표는 분류 모형이 모델링에 사용한 데이터를 기반으로 정분류와 오분류의 요약 정보를 보여준다.
2016년도 2차모델개발 연구에서는 농장의 감염상태를 원 발생과 확산 감염으로 나누어 확산 감염여부를 모델의 종속변수로 하고 KAHIS에있는 원 발생 농장에 방문한 차량의 차량 용도, 차량 소유자 정보와 차량이 방문한 농장과 원발생 농장의 방문 시간의 차이, 방문 농장의 방문 빈도, 지역의 위험도, 농장 규모, 계열화, 축종, 가축수, 농장 종류, 농장 밀집도, 원발생 농장의 축종을 설명변수로 하여 모델을 개발하였다([Table 2] 참고). 분석 기법으로는 해석이 가능하나 예측력이 다소 떨어지는 선형 모형보다는 해석이 어려움은 있으나 예측력이 우수한 딥러닝 알고리즘을 고려하였고 딥러닝 분석 기법에서 가장 널리 쓰이는 딥 신경망(Deep Neural Network)을 사용하였다. 데이터의 70%를 트레이닝 셋(training set,) 30%를 테스트 셋(test set)으로 분리하여 트레이닝 셋에서 모델을 최적화하고 테스트 셋으로 정확도를 검증하였다.
성능/효과
모델링은오픈소스인 R프로그램을 이용하여 개발하였고 주어진 학습 데이터로 딥러닝 모델 수렴 완료를 확인 하였다. AI 확산 모델의 양성 예측율(모델이 특정 농장의 상태가 감염이라고 예측했을 때, 해당 농장이 실제 감염되어 있을 확률)은57%(1,603/2,796)이며, 음성 예측율(모델이 특정농장의 상태가 비감염이라고 예측하였을 때, 해당 농장이 실제 비감염일 확률)은 92%(10,985/11,948)이고 전체 예측율은 85%(12,588/14,744)이였다. FMD(구제역) 확산 모델의 양성 예측율은 11%(112/1,056), 음성 예측율은 93%(17,580/18,963), 전체 예측율은 88%(17,692/20,019) 이였다.
모델은 14만번을 반복하였고 4만번이후 오차 함수값이 안정화된 것을 볼 수 있다. ROC 곡선을 살펴 보았을 때 앞에서 살펴보았던 Logistic, Lasso, SVM, RF의 머신러닝 기법보다는 좋은 모형임을 확인 할 수 있고 정오류분류표(Confusion Matrix)를 살펴 보면 정밀도는 0.54, 민감도는 0.90, F1-Score는 0.65이다. 전체적으로 보았을 때 인공신경망 모형이 고려한 다른 머신러닝(Logistic, Lasso, Support Vector Machine, Random Forest)보다 좋은 것을 확인 할 수 있다.
그 결과, ‘동물질병 확산 예측과 방역전략 수립을 위한 빅데이터 시스템’을 구축할 수 있게 되었다.
감염병 발생 농장의 차량과 방문자의 다른 농장 방문 시간 정보를 순차적으로 사용하기 위해서는 RNN 기법이 적합할 수 있다. 또한 빅데이터 플랫폼 UI를 개선하여 활용성을 높였다. 특히 발생 농장의 3km 이내의 농장 정보, 확산 위험 농장으로 선정된 사유(발생농장을 다녀온 차량의 유무, 방문차, 사육 축종, 농장 규모 등)를 예측결과와 함께 볼 수 있도록 가시화하였고 지자체 방역기관에서도 결과를 웹에서 볼 수 있도록 개발 하였다.
데이터의 70%를 트레이닝 셋(training set,) 30%를 테스트 셋(test set)으로 분리하여 트레이닝 셋에서 모델을 최적화하고 테스트 셋으로 정확도를 검증하였다. 모델링은오픈소스인 R프로그램을 이용하여 개발하였고 주어진 학습 데이터로 딥러닝 모델 수렴 완료를 확인 하였다. AI 확산 모델의 양성 예측율(모델이 특정 농장의 상태가 감염이라고 예측했을 때, 해당 농장이 실제 감염되어 있을 확률)은57%(1,603/2,796)이며, 음성 예측율(모델이 특정농장의 상태가 비감염이라고 예측하였을 때, 해당 농장이 실제 비감염일 확률)은 92%(10,985/11,948)이고 전체 예측율은 85%(12,588/14,744)이였다.
모델링이 정확히 수렴하였는지 확인하기 위하여 수치적 반복회수(Iteration Number)에 따라 분석용 데이터에 대한 오차함수(Error Function)값을 [Figure 8]에 기술하였다. 모델은 14만번을 반복하였고 4만번이후 오차 함수값이 안정화된 것을 볼 수 있다. ROC 곡선을 살펴 보았을 때 앞에서 살펴보았던 Logistic, Lasso, SVM, RF의 머신러닝 기법보다는 좋은 모형임을 확인 할 수 있고 정오류분류표(Confusion Matrix)를 살펴 보면 정밀도는 0.
2017년에 구축한 모델과 기존 2016년에 구축된 모델과의 차이점은 사료공장, 도축장등 시설물에 대한 방문 정보와 닭, 오리로 한정되어 있던 축종을 거위, 메추리등 조류독감에 감수성이 있는 모든 축종에 대하여 분석에 사용 하였다. 인공신경망 모델링에 사용되는 활성 함수(Activation Function)로 sigmoid, Hyperbolic Tangent 함수을, 과적합을 피하기 위하여 Drop-Out 비율을 0.0, 0.3, 0.5, 0.8 고려하였고 Validation 데이터셋을 평가 하였을때 활성함수는 Hyperbolic Tangent, Drop-Out비율은 0.5일 때 F1-Score값이 가장 높았다. 모델링이 정확히 수렴하였는지 확인하기 위하여 수치적 반복회수(Iteration Number)에 따라 분석용 데이터에 대한 오차함수(Error Function)값을 [Figure 8]에 기술하였다.
FMD(구제역) 확산 모델의 양성 예측율은 11%(112/1,056), 음성 예측율은 93%(17,580/18,963), 전체 예측율은 88%(17,692/20,019) 이였다. 전문가 자문을 통해 데이터 전처리 과정과 최종 결과물에 대한 해석 방식에 대하여 적절하다는 검증을 받았다. 자문 내용 중에 정확도 향상을 위하여 히든 레이어 숫자 최적화, 배치 정규화(Batch Normalization), 드롭 아웃(Drop out)와 같은 정규화(regularization) 기술 사용을 권장 받았으며 이를 2017년도 3차연구에 반영하고자 하였다([Table 3] 참고).
65이다. 전체적으로 보았을 때 인공신경망 모형이 고려한 다른 머신러닝(Logistic, Lasso, Support Vector Machine, Random Forest)보다 좋은 것을 확인 할 수 있다. 자세한 결과는 아래 [Table 6]에 표현되어 있다.
후속연구
조류독감과 구제역 등의 동물감염병은 지속적으로 국내에서 발생하고 있으며, 한 번 발생하여 확산되면 그 경제적, 사회적 피해는 발생한 피해 농가뿐만 아니라, 전 국민에게 영향을 미친다. 농림축산검역본부에서는 조류인플루엔자 등 동물감염병 바이러스가 검출될 경우에는 본 연구에서 개발한 시스템을 사용한 분석결과를 방역 관련 부서에 전달하여 방역에 활용하고 있다. 특히 평창올림픽과 같은 중요한 국가적행사를 앞두고 빅데이터 예측모델을 확산방지에 큰 역할을 하고 있다.
데이터 통계 분석에서 살펴본 것처럼 매년 발생하는 축종과 지역, 차량 특징들이 달라 기존데이터로 생성한 모델이 차년도에서 예측력이 떨어질 수 있으나 이러한 원인은 바이러스의 형태에 달라 발생한 것일 수 있다. 따라서 바이러스 형태를 고려한 모델을 개발하면 확산 예측 모델링이 좀 더 강건해질 수 있을 것으로 사료된다. 본 연구에서는 발생 농장의 농장 정보와 발생 농장의 방문한 차량 정보, 차량들이 방문한 위험 농장 정보를 기반으로 변수들의 비선형적인 연관성을 고려한 인공 알고리즘을 통하여 위험 확산도를 예측 하였다.
특히 평창올림픽과 같은 중요한 국가적행사를 앞두고 빅데이터 예측모델을 확산방지에 큰 역할을 하고 있다. 향후에서는 바이러스가 발견된 농장뿐만 아니라 특정 지역을 지정했을 때 그 지역을 출발로 하는 확산위험을 예측하는 지역단위의 예측 시스템으로 발전시키고자 하는 계획을 수립하고 있으며 활용의 제도화를 통해 과학적인 행정을 정착시킬 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
조류 인플루엔자같은 감염병 확산은 어떻게 이루어지는가?
이러한 감염병의 확산은 감염병 오염지역을 방문한 매개체가 감염된 후 다른 지역으로 이동하면서 이루어진다. 인간감염병은 감염병이 유행하고 있는 국가를 여행하고 귀국하는 사람에 의해 국내로 유입되고 있다.
H5N1형 조류인플루엔자는 어디에서 처음으로 감염이 확인되었는가?
조류인플루엔자는 1878년에 이탈리에서 발생기록이 있으며, 매우 높은 치사율 때문에 국가적인 관심사로 떠올랐다. H5N1형 조류인플루엔자는 1997년 홍콩 가금시장의 오리에서 처음으로 감염이 확인되었으며, 우리나라에서는 2003년 12월 산란종계에서처음 발생하여 지금까지 많은 손실을 끼쳐왔다. 구제역의 경우 1514년 이탈리아 북부지역에서 최초 발생된 이후 19세기에는 전세계적으로 발생하여 왔다.
인간감염병은 어떤 경로를 통해 국내로 유입되는가?
이러한 감염병의 확산은 감염병 오염지역을 방문한 매개체가 감염된 후 다른 지역으로 이동하면서 이루어진다. 인간감염병은 감염병이 유행하고 있는 국가를 여행하고 귀국하는 사람에 의해 국내로 유입되고 있다. 2015년 발생한 메르스 1번 환자의 경우 사우디아라비아에서 메르스 바이러스에 감염된 이후 국내로 입국하여 증세가 나타남으로써 국내로 감염병이 유입이 되었으며, 지카바이러스의 경우에도 브라질 등 지카 바이러스 오염 지역에서 모기 등에 의해 감염된 후 국내로 입국하면서 바이러스도 같이 유입이 되고 있다
※ AI-Helper는 부적절한 답변을 할 수 있습니다.