[학위논문]생성적 적대 신경망(GAN)을 활용한 시계열 비선형 예측모형에 관한 실증연구 : 전염병(Influenza, COVID-19)과 실업률을 대상으로 An Empirical Study on Time Series Nonlinear Prediction Model Using Generative Adversarial Network : Focused on Epidemics(Influenza, COVID-19) and the Unemployment Rate원문보기
시간의 흐름에 따라 변하는 현상을 기록한 데이터를 시계열 데이터라고 한다. 우리가 접할 수 있는 많은 통계 데이터들은 시계열 데이터들이며, 시계열분석은 미래를 예측하고 대비하기 위해서 중요한 연구 중 하나이다. 특히, 거시 경지지표 관련 모델링 및 예측은 국가의 경제 상태와 관련된 다양한 문제를 해결하는 데 사용되기에, 과거로부터 여러 연구에서 다양한 시계열 모형을 이용한 거시 경제지표 예측이 이루어져 왔다. 그러나 전통적 통계 ...
시간의 흐름에 따라 변하는 현상을 기록한 데이터를 시계열 데이터라고 한다. 우리가 접할 수 있는 많은 통계 데이터들은 시계열 데이터들이며, 시계열분석은 미래를 예측하고 대비하기 위해서 중요한 연구 중 하나이다. 특히, 거시 경지지표 관련 모델링 및 예측은 국가의 경제 상태와 관련된 다양한 문제를 해결하는 데 사용되기에, 과거로부터 여러 연구에서 다양한 시계열 모형을 이용한 거시 경제지표 예측이 이루어져 왔다. 그러나 전통적 통계 시계열분석 방법의 비선형데이터에 대한 불완전한 시계열 예측의 문제가 존재하며, 그에 대한 대안 모형으로 대두된 딥러닝을 이용한 시계열 예측의 가장 큰 제약 사항은 양질의 데이터를 확보하는 문제이다. 본 연구는 이미지 분야에서 많이 연구된 GAN을 시계열 데이터 생성에 적용하고 그 데이터를 전이학습(Transfer Learning)에 수행하여, 비선형 시계열 데이터에 대해서 기존의 알고리즘보다 예측의 정확도가 높은 모형을 구축하고 검증하는 실증연구를 수행한 사례이다. 제안모형을 검증한 대상은 비선형 관계가 높고 최근 전 세계적으로 이슈가 되고 있는 전염병(Influenza, COVID-19)과 연관된 실업률 예측이다. 거시 경제지표인 실업률은 수집빈도가 월 단위이기 때문에, 정확한 예측을 위한 데이터가 부족하다. 이에 가상데이터를 생성하여 학습의 정확도를 높이고자 하는 제안모형의 목적에 부합하는 대상이다. 제안모형을 설계 및 구축·검증하기 위해서 시계열 및 딥러닝, 가상데이터 생성에 관한 선행연구를 고찰하고 제안모형 설계 및 구현, 그리고 비교알고리즘을 구현하여 미국과 한국의 Influenza Cases와 실업률을 이용한 검증을 수행하였다. 그리고 그 결과 제안모형이 비교대상 알고리즘보다 예측정확도가 우수함을 입증하였다. 또한, 제안모형의 활용성을 검증하기 위해서 미국과 한국의 COVID-19 Cases 및 실업률을 이용하여 실험을 수행하였다. 제안모형에 대한 검증 및 알고리즘 비교실험 결과는 정확도 측도의 가장 대표적인 기준인 RMSE를 기준으로 다음과 같이 요약될 수 있다. 첫째, 제안모형은 미국의 전염병(Influenza)과 연관된 실업률 예측에서 ARIMA, VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 13.99%, 67.66%, 68.44%, 6.18%의 정확도가 개선된 예측성능을 보여줬다. 다만 MAE 기준으로는 LSTM이 제안모형보다 1.45% 개선된 예측성능을 보여줬다. 둘째, 제안모형은 한국의 전염병(Influenza)과 연관된 실업률 예측에서 ARIMA, VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 70.54%, 59.87%, 74.41%, 48.42%의 정확도가 개선된 성능을 보여줬다. 셋째, 제안모형은 미국의 COVID-19와 연관된 실업률 예측 활용성 검증에서 VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 60.00%, 52.37%, 9.48%의 정확도가 개선된 예측성능을 보여줬다. 다만 ARIMA와 비교하여 ARIMA가 제안모형보다 18.98%의 정확도가 개선된 예측성능이 도출되었지만, 제안모형이 MAE 기준에서는 9.09%, 피어슨 상관계수 기준에서는 60.91%의 정확도가 개선된 예측성능이 도출되었다. 이러한 결과는 RMSE는 예측값과 실제값의 차이를 제곱함으로써 더 큰 오류값에 대한 패널티를 주기 때문에 도출된 결과로 추측된다. 넷째, 제안모형은 한국의 COVID-19와 연관된 실업률 예측 활용성 검증에서 ARIMA, VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 85.65%, 80.20%, 79.53%, 77.04%의 정확도가 개선된 예측성능을 보여줬다. 다섯째, 제안모형은 지역적인 측면에서 미국과 한국에서 활용이 가능한 모형으로 검증되었다. 본 연구는 이미지 분야에서 많이 연구된 GAN 알고리즘을 사용하여 다변량 가상시계열 데이터를 생성하고 전이학습에 가상데이터를 사용한 시계열 예측모형 연구 사례로 국내 거의 최초의 새로운 예측 기법을 제시한 연구이며, 또한 딥러닝을 사용한 전염병과 실업률 영향예측을 실증분석한 거의 유일한 연구로 의미가 있다. 그리고 각 나라의 문화나 경제 상황이 다름에도 글로벌하게 적용 가능한 시계열 예측모형을 제안하고, 그 성능검증을 입증하였다. 향후 본 연구 결과 및 모형을 이용하여 여러 경제 및 사회 분야의 예측하기 어려웠던 변수 들을 예측하는 데 활용하여 효율적이고 선제적 의사결정의 실증적 참고자료를 제공할 수 있는 모형으로 활용될 수 있기를 기대한다. 또한, 딥러닝예측의 한계인 설명이 불가능한 점에 대한 연구를 보완하기 위해서 설명가능한 AI(XAI)를 도입한 향후 연구가 진행되기를 바란다.
시간의 흐름에 따라 변하는 현상을 기록한 데이터를 시계열 데이터라고 한다. 우리가 접할 수 있는 많은 통계 데이터들은 시계열 데이터들이며, 시계열분석은 미래를 예측하고 대비하기 위해서 중요한 연구 중 하나이다. 특히, 거시 경지지표 관련 모델링 및 예측은 국가의 경제 상태와 관련된 다양한 문제를 해결하는 데 사용되기에, 과거로부터 여러 연구에서 다양한 시계열 모형을 이용한 거시 경제지표 예측이 이루어져 왔다. 그러나 전통적 통계 시계열분석 방법의 비선형데이터에 대한 불완전한 시계열 예측의 문제가 존재하며, 그에 대한 대안 모형으로 대두된 딥러닝을 이용한 시계열 예측의 가장 큰 제약 사항은 양질의 데이터를 확보하는 문제이다. 본 연구는 이미지 분야에서 많이 연구된 GAN을 시계열 데이터 생성에 적용하고 그 데이터를 전이학습(Transfer Learning)에 수행하여, 비선형 시계열 데이터에 대해서 기존의 알고리즘보다 예측의 정확도가 높은 모형을 구축하고 검증하는 실증연구를 수행한 사례이다. 제안모형을 검증한 대상은 비선형 관계가 높고 최근 전 세계적으로 이슈가 되고 있는 전염병(Influenza, COVID-19)과 연관된 실업률 예측이다. 거시 경제지표인 실업률은 수집빈도가 월 단위이기 때문에, 정확한 예측을 위한 데이터가 부족하다. 이에 가상데이터를 생성하여 학습의 정확도를 높이고자 하는 제안모형의 목적에 부합하는 대상이다. 제안모형을 설계 및 구축·검증하기 위해서 시계열 및 딥러닝, 가상데이터 생성에 관한 선행연구를 고찰하고 제안모형 설계 및 구현, 그리고 비교알고리즘을 구현하여 미국과 한국의 Influenza Cases와 실업률을 이용한 검증을 수행하였다. 그리고 그 결과 제안모형이 비교대상 알고리즘보다 예측정확도가 우수함을 입증하였다. 또한, 제안모형의 활용성을 검증하기 위해서 미국과 한국의 COVID-19 Cases 및 실업률을 이용하여 실험을 수행하였다. 제안모형에 대한 검증 및 알고리즘 비교실험 결과는 정확도 측도의 가장 대표적인 기준인 RMSE를 기준으로 다음과 같이 요약될 수 있다. 첫째, 제안모형은 미국의 전염병(Influenza)과 연관된 실업률 예측에서 ARIMA, VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 13.99%, 67.66%, 68.44%, 6.18%의 정확도가 개선된 예측성능을 보여줬다. 다만 MAE 기준으로는 LSTM이 제안모형보다 1.45% 개선된 예측성능을 보여줬다. 둘째, 제안모형은 한국의 전염병(Influenza)과 연관된 실업률 예측에서 ARIMA, VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 70.54%, 59.87%, 74.41%, 48.42%의 정확도가 개선된 성능을 보여줬다. 셋째, 제안모형은 미국의 COVID-19와 연관된 실업률 예측 활용성 검증에서 VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 60.00%, 52.37%, 9.48%의 정확도가 개선된 예측성능을 보여줬다. 다만 ARIMA와 비교하여 ARIMA가 제안모형보다 18.98%의 정확도가 개선된 예측성능이 도출되었지만, 제안모형이 MAE 기준에서는 9.09%, 피어슨 상관계수 기준에서는 60.91%의 정확도가 개선된 예측성능이 도출되었다. 이러한 결과는 RMSE는 예측값과 실제값의 차이를 제곱함으로써 더 큰 오류값에 대한 패널티를 주기 때문에 도출된 결과로 추측된다. 넷째, 제안모형은 한국의 COVID-19와 연관된 실업률 예측 활용성 검증에서 ARIMA, VAR, DNN, LSTM과 비교하여 RMSE 기준 각각 85.65%, 80.20%, 79.53%, 77.04%의 정확도가 개선된 예측성능을 보여줬다. 다섯째, 제안모형은 지역적인 측면에서 미국과 한국에서 활용이 가능한 모형으로 검증되었다. 본 연구는 이미지 분야에서 많이 연구된 GAN 알고리즘을 사용하여 다변량 가상시계열 데이터를 생성하고 전이학습에 가상데이터를 사용한 시계열 예측모형 연구 사례로 국내 거의 최초의 새로운 예측 기법을 제시한 연구이며, 또한 딥러닝을 사용한 전염병과 실업률 영향예측을 실증분석한 거의 유일한 연구로 의미가 있다. 그리고 각 나라의 문화나 경제 상황이 다름에도 글로벌하게 적용 가능한 시계열 예측모형을 제안하고, 그 성능검증을 입증하였다. 향후 본 연구 결과 및 모형을 이용하여 여러 경제 및 사회 분야의 예측하기 어려웠던 변수 들을 예측하는 데 활용하여 효율적이고 선제적 의사결정의 실증적 참고자료를 제공할 수 있는 모형으로 활용될 수 있기를 기대한다. 또한, 딥러닝예측의 한계인 설명이 불가능한 점에 대한 연구를 보완하기 위해서 설명가능한 AI(XAI)를 도입한 향후 연구가 진행되기를 바란다.
Data that record changes over time are called time series data. Many of the statistical data we have access to are time series data, and time series analysis is one of the important studies to predict and prepare for the future. In particular, macroeconomic indicator-related modeling and predictions...
Data that record changes over time are called time series data. Many of the statistical data we have access to are time series data, and time series analysis is one of the important studies to predict and prepare for the future. In particular, macroeconomic indicator-related modeling and predictions have been used to solve various problems related to the state of the country's economy, so macroeconomic indicator predictions have been made using various time series models from the past. However, there exists a problem of incomplete time series prediction on nonlinear data from traditional statistical time series analysis methods, and the biggest constraint of time series prediction using deep learning, which has emerged as an alternative model for it, is the problem of lack of data and obtaining high quality data. This work is an example of applying GAN(Generative Adversarial Network), which have been studied a lot in the field of images, to time series data generation and transferring learning with generated virtual data to build and validate models with higher prediction accuracy than previous studies algorithms. The proposed model is validated for unemployment predictions associated with the highly nonlinear relationship and the recent global issue of epidemics(Influenza, COVID-19). Unemployment, a macroeconomic indicator, lacks data for accurate predictions, as the frequency of collection is monthly. Therefore, it is a target that meets the purpose of the proposed model, which seeks to increase the accuracy of learning by generating virtual data. Literature reviews on statistical time series analysis techniques and deep learning algorithms and GAN algorithms have been conducted to design, build and validate the proposed model. And then the proposed model was then designed and implemented, and validated using Influenza cases and unemployment rates in the United States and South Korea. The experiment results show that the proposed model outperforms comparable algorithms for prediction accuracy. Furthermore, experiments were conducted using COVID-19 Cases and unemployment rates in the United States and South Korea to verify the usability of the proposed model. The results of validation and algorithm comparison experiments on the proposed model can be summarized as follows based on RMSE, the most representative criterion of accuracy measures. First, the proposed model showed improved prediction performance with accuracy of 13.99%, 67.66%, 68.44%, and 6.18% respectively compared to ARIMA, VAR, DNN, and LSTM in predicting unemployment associated with epidemic(Influenza) in the United States. However, based on MAE standards, LSTM showed 1.45% improvement in prediction performance compared to the proposed model. Second, the proposed model showed improved accuracy of 70.54%, 59.87%, 74.41%, and 48.42% on RMSE basis, respectively, compared with ARIMA, VAR, DNN, and LSTM on prediction of unemployment associated with epidemic(Influenza). Third, the proposed model demonstrated improved prediction performance with 60.00%, 52.37% and 9.48% accuracy on an RMSE basis, respectively, compared with VAR, DNN, and LSTM on unemployment prediction usability verification associated with COVID-19 in the United States. However, compared to ARIMA, the prediction performance was derived with 18.98% accuracy improvement over the proposed model, but the proposed model was derived with 9.09% accuracy improvement in MAE criteria and 60.91% accuracy in Pearson correlation coefficient criteria. These results are presumed to be derived because RMSE gives a penalty for larger error values by squaring the difference between the predicted and the real value. Fourth, the proposed model showed improved prediction performance with accuracy of 85.65%, 80.20%, 79.53%, and 77.04% respectively on an RMSE basis compared to ARIMA, VAR, DNN, and LSTM in South Korea's unemployment forecast utilization verification associated with COVID-19. Fifth, the proposed model has been verified as a model that can be used in the United States and South Korea in terms of region. This study is South Korea's first attempt as an example of a time series prediction model using multivariate virtual time series data and transfer learning using GAN algorithms, and its results show outstanding performance. It is also meaningful as the only empirical analysis of epidemic and unemployment impact predictions using deep learning. Furthermore, the proposed time series prediction model has been verified to be a globally applicable model despite different cultural and economic conditions in each country. I hope that the results and models of this work can be utilized in the future to predict unpredictable variables in various economic and social sectors, which can be used as an empirical reference for efficient and preemptive decision making. Furthermore, I hope that future work will be carried out by using explainable AI(XAI) to supplement the study on the unexplained points which is the limitation of deep learning prediction.
Data that record changes over time are called time series data. Many of the statistical data we have access to are time series data, and time series analysis is one of the important studies to predict and prepare for the future. In particular, macroeconomic indicator-related modeling and predictions have been used to solve various problems related to the state of the country's economy, so macroeconomic indicator predictions have been made using various time series models from the past. However, there exists a problem of incomplete time series prediction on nonlinear data from traditional statistical time series analysis methods, and the biggest constraint of time series prediction using deep learning, which has emerged as an alternative model for it, is the problem of lack of data and obtaining high quality data. This work is an example of applying GAN(Generative Adversarial Network), which have been studied a lot in the field of images, to time series data generation and transferring learning with generated virtual data to build and validate models with higher prediction accuracy than previous studies algorithms. The proposed model is validated for unemployment predictions associated with the highly nonlinear relationship and the recent global issue of epidemics(Influenza, COVID-19). Unemployment, a macroeconomic indicator, lacks data for accurate predictions, as the frequency of collection is monthly. Therefore, it is a target that meets the purpose of the proposed model, which seeks to increase the accuracy of learning by generating virtual data. Literature reviews on statistical time series analysis techniques and deep learning algorithms and GAN algorithms have been conducted to design, build and validate the proposed model. And then the proposed model was then designed and implemented, and validated using Influenza cases and unemployment rates in the United States and South Korea. The experiment results show that the proposed model outperforms comparable algorithms for prediction accuracy. Furthermore, experiments were conducted using COVID-19 Cases and unemployment rates in the United States and South Korea to verify the usability of the proposed model. The results of validation and algorithm comparison experiments on the proposed model can be summarized as follows based on RMSE, the most representative criterion of accuracy measures. First, the proposed model showed improved prediction performance with accuracy of 13.99%, 67.66%, 68.44%, and 6.18% respectively compared to ARIMA, VAR, DNN, and LSTM in predicting unemployment associated with epidemic(Influenza) in the United States. However, based on MAE standards, LSTM showed 1.45% improvement in prediction performance compared to the proposed model. Second, the proposed model showed improved accuracy of 70.54%, 59.87%, 74.41%, and 48.42% on RMSE basis, respectively, compared with ARIMA, VAR, DNN, and LSTM on prediction of unemployment associated with epidemic(Influenza). Third, the proposed model demonstrated improved prediction performance with 60.00%, 52.37% and 9.48% accuracy on an RMSE basis, respectively, compared with VAR, DNN, and LSTM on unemployment prediction usability verification associated with COVID-19 in the United States. However, compared to ARIMA, the prediction performance was derived with 18.98% accuracy improvement over the proposed model, but the proposed model was derived with 9.09% accuracy improvement in MAE criteria and 60.91% accuracy in Pearson correlation coefficient criteria. These results are presumed to be derived because RMSE gives a penalty for larger error values by squaring the difference between the predicted and the real value. Fourth, the proposed model showed improved prediction performance with accuracy of 85.65%, 80.20%, 79.53%, and 77.04% respectively on an RMSE basis compared to ARIMA, VAR, DNN, and LSTM in South Korea's unemployment forecast utilization verification associated with COVID-19. Fifth, the proposed model has been verified as a model that can be used in the United States and South Korea in terms of region. This study is South Korea's first attempt as an example of a time series prediction model using multivariate virtual time series data and transfer learning using GAN algorithms, and its results show outstanding performance. It is also meaningful as the only empirical analysis of epidemic and unemployment impact predictions using deep learning. Furthermore, the proposed time series prediction model has been verified to be a globally applicable model despite different cultural and economic conditions in each country. I hope that the results and models of this work can be utilized in the future to predict unpredictable variables in various economic and social sectors, which can be used as an empirical reference for efficient and preemptive decision making. Furthermore, I hope that future work will be carried out by using explainable AI(XAI) to supplement the study on the unexplained points which is the limitation of deep learning prediction.
Keyword
#Generative Adversarial Network GAN Deep Learining Time Series Prediction Influenza COVID-19 Unemployment Rate 생성적 적대 신경망 딥러닝 시계열 예측 전염병 코로나19 실업률 거시경제지표 예측
학위논문 정보
저자
김명화
학위수여기관
숭실대학교 대학원
학위구분
국내박사
학과
IT정책경영학과(일원)
지도교수
김광용
발행연도
2021
총페이지
xiii, 114 p.
키워드
Generative Adversarial Network GAN Deep Learining Time Series Prediction Influenza COVID-19 Unemployment Rate 생성적 적대 신경망 딥러닝 시계열 예측 전염병 코로나19 실업률 거시경제지표 예측
※ AI-Helper는 부적절한 답변을 할 수 있습니다.