이 연구는 2018년도 정부(농림축산식품부)의 재원으로 농림식품기술기획평가원 지원을 받아 수행된 연구이다. 최근 시계열 및 텍스트 마이닝에서 활발히 사용되는 모델은 딥러닝(Deep Learning) 모델 구조를 활용한 LSTM(Long Short-Term Memory models) 모델이다. LSTM 모델은 RNN의 BPTT(Backpropagation Through Time) 과정에서 발생하는 Long-Term Dependency Problem을 해결하기 위해 등장한 모델이다. LSTM 모델은 가변적인 Sequence data를 활용하여 예측하는 문제를 굉장히 잘 해결했고, 지금도 널리 사용되고 있다. 본 논문 연구에서는 KT가 제공하는 CDR(Call Detailed Record) 데이터를 활용하여 바이러스와 밀접한 관계가 있을 것으로 예측되는 사람의 이동 경로를 파악하였다. 해당 사람의 경로를 활용하여 LSTM 모델을 학습시켜 이동 경로를 예측한 결과를 소개한다. 본 연구 결과를 활용하여 HPAI가 전파되는 경로를 예측하여 방역에 중점을 둘 경로 또는 지역을 선정해 HPAI 확산을 줄이는 데 이용될 수 있을 것이다.
이 연구는 2018년도 정부(농림축산식품부)의 재원으로 농림식품기술기획평가원 지원을 받아 수행된 연구이다. 최근 시계열 및 텍스트 마이닝에서 활발히 사용되는 모델은 딥러닝(Deep Learning) 모델 구조를 활용한 LSTM(Long Short-Term Memory models) 모델이다. LSTM 모델은 RNN의 BPTT(Backpropagation Through Time) 과정에서 발생하는 Long-Term Dependency Problem을 해결하기 위해 등장한 모델이다. LSTM 모델은 가변적인 Sequence data를 활용하여 예측하는 문제를 굉장히 잘 해결했고, 지금도 널리 사용되고 있다. 본 논문 연구에서는 KT가 제공하는 CDR(Call Detailed Record) 데이터를 활용하여 바이러스와 밀접한 관계가 있을 것으로 예측되는 사람의 이동 경로를 파악하였다. 해당 사람의 경로를 활용하여 LSTM 모델을 학습시켜 이동 경로를 예측한 결과를 소개한다. 본 연구 결과를 활용하여 HPAI가 전파되는 경로를 예측하여 방역에 중점을 둘 경로 또는 지역을 선정해 HPAI 확산을 줄이는 데 이용될 수 있을 것이다.
The study was conducted with funding from the government (Ministry of Agriculture, Food and Rural Affairs) in 2018 with support from the Agricultural, Food, and Rural Affairs Agency, 318069-03-HD040, and in based on artificial intelligence-based HPAI spread analysis and patterning. The model that is...
The study was conducted with funding from the government (Ministry of Agriculture, Food and Rural Affairs) in 2018 with support from the Agricultural, Food, and Rural Affairs Agency, 318069-03-HD040, and in based on artificial intelligence-based HPAI spread analysis and patterning. The model that is actively used in time series and text mining recently is LSTM (Long Short-Term Memory Models) model utilizing deep learning model structure. The LSTM model is a model that emerged to resolve the Long-Term Dependency Problem that occurs during the Backpropagation Through Time (BPTT) process of RNN. LSTM models have resolved the problem of forecasting very well using variable sequence data, and are still widely used.In this paper study, we used the data of the Call Detailed Record (CDR) provided by KT to identify the migration path of people who are expected to be closely related to the virus. Introduce the results of predicting the path of movement by learning the LSTM model using the path of the person concerned. The results of this study could be used to predict the route of HPAI propagation and to select routes or areas to focus on quarantine and to reduce HPAI spread.
The study was conducted with funding from the government (Ministry of Agriculture, Food and Rural Affairs) in 2018 with support from the Agricultural, Food, and Rural Affairs Agency, 318069-03-HD040, and in based on artificial intelligence-based HPAI spread analysis and patterning. The model that is actively used in time series and text mining recently is LSTM (Long Short-Term Memory Models) model utilizing deep learning model structure. The LSTM model is a model that emerged to resolve the Long-Term Dependency Problem that occurs during the Backpropagation Through Time (BPTT) process of RNN. LSTM models have resolved the problem of forecasting very well using variable sequence data, and are still widely used.In this paper study, we used the data of the Call Detailed Record (CDR) provided by KT to identify the migration path of people who are expected to be closely related to the virus. Introduce the results of predicting the path of movement by learning the LSTM model using the path of the person concerned. The results of this study could be used to predict the route of HPAI propagation and to select routes or areas to focus on quarantine and to reduce HPAI spread.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문 연구에서는 KT가 제공하는 CDR (Call Detailed Record) 데이터를 이용하여 바이러스와 밀접한 관계가 있을 것으로 예측되는 사람의 이동 경로를 파악하였다. 가공한 데이터를 활용하여 LSTM 모델을 학습시켜 이동 경로를 예측한 결과를 확인하고자 한다.
본 논문 연구에서는 KT가 제공하는 CDR (Call Detailed Record) 데이터를 이용하여 바이러스와 밀접한 관계가 있을 것으로 예측되는 사람의 이동 경로를 파악하였다. 가공한 데이터를 활용하여 LSTM 모델을 학습시켜 이동 경로를 예측한 결과를 확인하고자 한다.
제안 방법
이후 포천 데이터를 전처리한 후 LSTM을 활용하여 모델을 만들었다. 그 후 함수를 이용하여 예상 이동 경로를 확인하였다.
포천 데이터는 포천 지역에서 HPAI가 발생한 농가가 포함된 기지국을 방문한 사람들의 이동경로를 역추적한 데이터이다. 이후 포천 데이터를 전처리한 후 LSTM을 활용하여 모델을 만들었다. 그 후 함수를 이용하여 예상 이동 경로를 확인하였다.
동 단위의 중심 좌표를 기지국의 좌표로 이용하였다. 추가로 각 기지국의 좌표가 HPAI가 발견된 농가 지점 반경 내 속하는지 또는 철새도래지에 속하는지를 확인하여 정리하였다. 해당 자료의 칼럼들의 정보는 다음과 같다.
화성 데이터는 화성 지역에서 HPAI가 발생한 농가가 포함된 기지국을 방문한 사람들의 이동경로를 역추적한 데이터이다. 포천과 마찬가지로 화성 데이터를 전처리한 후 LSTM을 활용하여 모델을 만들었다. 그 후 함수를 이용하여 예상 이동 경로를 확인하였다.
대상 데이터
<그림 14>는 철새도래지를 포함한 기지국에서 일반적으로 어디로 이동하는지 나타낸 그림이다. 전라북도 완주군 봉동읍 낙평리가 철새도래지를 포함한 기지국이다. 사람들은 일반적으로 낙평리에서 전라북도 완주군 봉동읍 성덕리로 반복적으로 왕복한다는 것을 알 수 있다.
이론/모형
200차원은 학습 시 시간과 용량을 많이 필요로 하므로 차원을 축소하였다. Embedding의 방법으로는 Word embedding이 사용되었다. Word embedding은 주변 단어와 연관성이 높도록 차원을 축소하는 방법이다.
NLP는 챗봇, 맞춤법 검사, 번역 등에 사용된다. 이는 언어 처리 기술과 관련된 것으로 본 연구에서는 Next word prediction의 용도로 사용되었다.
성능/효과
Embedding size와 LSTM output shape, optimizer는 실험적으로 얻어진 Hyper-parameter이다. 해당 코드로 설정했을 때 시간과 용량을 절약하면서 좋은 성능을 보였다. activation으로 softmax function을 사용하고 loss로 categorical crossentropy를 사용한 이유는 Multi-Class Classification을 위한 loss값을 구하기 위해서이다.
후속연구
통구리에서 주월리로 이어지는 길에 방역을 강화하면 HPAI 확산을 줄일 가능성이 클 것으로 예상한다. 또한, 주월리에서 구읍리, 구읍리에서 객현리, 객현리에서 율포리로 이어지는 길에 추가적인 방역소를 설치하면 HPAI 확산을 줄일 수 있을 것이다.
구장리에서 창곡리로 이어지는 길에 방역을 강화하면 HPAI 확산을 줄일 가능성이 높을 것으로 예상된다. 또한, 창곡리에서 양노리, 양노리에서 구포리, 구포리에서 쌍학리로 이어지는 길에 추가적인 방역소를 설치하면 HPAI 확산을 줄일 수 있을 것이다.
만약 이러한 데이터를 이용하여 모델을 학습시킨 후 이동 경로를 얻는다면 더 정확한 분석이 가능할 것으로 예상한다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.