분류 모델 예측력 향상을 위한 자료 전처리 및 앙상블 알고리즘 선정: 사대강 조류예보제 적용 연구 Data preprocessing and ensemble algorithm selection for the improved predictability of classification models: an application to the Algal Bloom Alert System in South Korea원문보기
전 세계적으로 녹조현상의 세기 및 빈도가 증가하고 있어 문제가 되고 있으며 우리나라의 경우도 예외는 아니다. 현재 우리나라는 녹조현상에 대응하기 위한 방안으로 조류 경보제를 운영 중이며, 조류 경보제의 관점에서 바라봤을 때, 녹조 경보 발령 여부를 예측하는 분류모델을 개발하여 효율적인 녹조 관리를 도모할 수 있다. 그러나 복잡한 녹조현상의 메커니즘으로 인해 분류모델의 예측력이 낮으며, 조류경보의 빈도가 그렇지 않은 경우에 비해 낮음으로 인해 소수계급 예측력이 낮은 데이터 불균형 문제가 발생하는 문제점이 있다. 본 연구의 목적은 데이터 불균형도가 각기 다른 실제 4대강 데이터에 대하여 조류 경보를 가장 잘 예측할 수 있는 방법론을 선정하는 것과 데이터의 불균형도가 모델 및 ...
전 세계적으로 녹조현상의 세기 및 빈도가 증가하고 있어 문제가 되고 있으며 우리나라의 경우도 예외는 아니다. 현재 우리나라는 녹조현상에 대응하기 위한 방안으로 조류 경보제를 운영 중이며, 조류 경보제의 관점에서 바라봤을 때, 녹조 경보 발령 여부를 예측하는 분류모델을 개발하여 효율적인 녹조 관리를 도모할 수 있다. 그러나 복잡한 녹조현상의 메커니즘으로 인해 분류모델의 예측력이 낮으며, 조류경보의 빈도가 그렇지 않은 경우에 비해 낮음으로 인해 소수계급 예측력이 낮은 데이터 불균형 문제가 발생하는 문제점이 있다. 본 연구의 목적은 데이터 불균형도가 각기 다른 실제 4대강 데이터에 대하여 조류 경보를 가장 잘 예측할 수 있는 방법론을 선정하는 것과 데이터의 불균형도가 모델 및 전처리 효과에 미치는 영향을 분석하는 것이다. 본 연구에서는 분류모델의 예측력 향상과 데이터 불균형 문제 해결을 위해 앙상블 알고리즘 모델들인 배깅, 랜덤 포레스트, 에이다 부스트 모델과 데이터 전처리 기법인 SMOTE를 사용하였다. 먼저 SMOTE 전처리의 효과를 검증하였다. 두 번째로, 앙상블 모델과 단일 모델인 결정나무의 비교, 앙상블 모델간의 비교를 통해 녹조 경보 예측을 위한 최적의 방법론을 찾고자 하였다. 세 번째로는 데이터의 불균형도가 모델의 예측성능 및 SMOTE 결과에 미치는 영향을 분석하였다. 마지막으로 녹조현상에 영향을 미치는 주요 변수 파악을 위해 변수의 상대적 중요도 분석을 수행하였다. 그 결과 SMOTE 전처리 이후 모델의 전반적인 예측 성능이 대폭 증가되는 것으로 나타났다. 단일 모델과 앙상블 모델을 비교했을 때, 앙상블 모델들의 예측성능이 전반적으로 더 우수한 것으로 나타났다. 앙상블 모델 간의 비교 시, SMOTE를 적용한 이후의 랜덤 포레스트 모델의 평균 예측 성능이 민감도 0.81, AUC 0.83, G-mean 0.83, F-measure 0.55를 나타내어 가장 우수하였다. 모델 독립변수의 상대성 중요도를 분석한 결과, 수계 및 알고리즘 별로 독립변수의 중요도는 차이가 있었으나 전반적으로 남조류 발생을 예측하는데 있어 계절적 요인(수온, 관측 월), TN, 유량이 중요한 요소로 나타났고 강수량, 조도, 모니터링 지점의 상대적 상하류 위치는 중요성이 낮은 것으로 나타났다. 결론적으로, SMOTE와 앙상블 기법인 랜럼 포레스트 모델을 결합하였을 때 가장 효과적으로 경보 발령을 예측할 수 있는 것으로 나타났으며, 모델의 독립변수 분석을 통해 남조류 발생의 중요 요인은 계절적 요인이라는 것을 밝혔다. 환경분야 모델링의 경우 녹조현상의 경우와 마찬가지로 데이터 불균형 문제가 극심한 경우가 빈번하기 때문에 본연구에서와 같이 SMOTE와 앙상블 알고리즘 기반의 모델을 결합하여 사용하는 것이 예측력 향상에 도움이 될 것으로 판단된다.
전 세계적으로 녹조현상의 세기 및 빈도가 증가하고 있어 문제가 되고 있으며 우리나라의 경우도 예외는 아니다. 현재 우리나라는 녹조현상에 대응하기 위한 방안으로 조류 경보제를 운영 중이며, 조류 경보제의 관점에서 바라봤을 때, 녹조 경보 발령 여부를 예측하는 분류모델을 개발하여 효율적인 녹조 관리를 도모할 수 있다. 그러나 복잡한 녹조현상의 메커니즘으로 인해 분류모델의 예측력이 낮으며, 조류경보의 빈도가 그렇지 않은 경우에 비해 낮음으로 인해 소수계급 예측력이 낮은 데이터 불균형 문제가 발생하는 문제점이 있다. 본 연구의 목적은 데이터 불균형도가 각기 다른 실제 4대강 데이터에 대하여 조류 경보를 가장 잘 예측할 수 있는 방법론을 선정하는 것과 데이터의 불균형도가 모델 및 전처리 효과에 미치는 영향을 분석하는 것이다. 본 연구에서는 분류모델의 예측력 향상과 데이터 불균형 문제 해결을 위해 앙상블 알고리즘 모델들인 배깅, 랜덤 포레스트, 에이다 부스트 모델과 데이터 전처리 기법인 SMOTE를 사용하였다. 먼저 SMOTE 전처리의 효과를 검증하였다. 두 번째로, 앙상블 모델과 단일 모델인 결정나무의 비교, 앙상블 모델간의 비교를 통해 녹조 경보 예측을 위한 최적의 방법론을 찾고자 하였다. 세 번째로는 데이터의 불균형도가 모델의 예측성능 및 SMOTE 결과에 미치는 영향을 분석하였다. 마지막으로 녹조현상에 영향을 미치는 주요 변수 파악을 위해 변수의 상대적 중요도 분석을 수행하였다. 그 결과 SMOTE 전처리 이후 모델의 전반적인 예측 성능이 대폭 증가되는 것으로 나타났다. 단일 모델과 앙상블 모델을 비교했을 때, 앙상블 모델들의 예측성능이 전반적으로 더 우수한 것으로 나타났다. 앙상블 모델 간의 비교 시, SMOTE를 적용한 이후의 랜덤 포레스트 모델의 평균 예측 성능이 민감도 0.81, AUC 0.83, G-mean 0.83, F-measure 0.55를 나타내어 가장 우수하였다. 모델 독립변수의 상대성 중요도를 분석한 결과, 수계 및 알고리즘 별로 독립변수의 중요도는 차이가 있었으나 전반적으로 남조류 발생을 예측하는데 있어 계절적 요인(수온, 관측 월), TN, 유량이 중요한 요소로 나타났고 강수량, 조도, 모니터링 지점의 상대적 상하류 위치는 중요성이 낮은 것으로 나타났다. 결론적으로, SMOTE와 앙상블 기법인 랜럼 포레스트 모델을 결합하였을 때 가장 효과적으로 경보 발령을 예측할 수 있는 것으로 나타났으며, 모델의 독립변수 분석을 통해 남조류 발생의 중요 요인은 계절적 요인이라는 것을 밝혔다. 환경분야 모델링의 경우 녹조현상의 경우와 마찬가지로 데이터 불균형 문제가 극심한 경우가 빈번하기 때문에 본연구에서와 같이 SMOTE와 앙상블 알고리즘 기반의 모델을 결합하여 사용하는 것이 예측력 향상에 도움이 될 것으로 판단된다.
Cyanobacterial blooms have been strengthened in intensity and frequency worldwidely, also for Korea. In the purpose of managing cyanobacterial blooms, algae alert system is operating. In the aspect of algae alert system, cyanobacterial blooms can be effectively managed by constructing classification...
Cyanobacterial blooms have been strengthened in intensity and frequency worldwidely, also for Korea. In the purpose of managing cyanobacterial blooms, algae alert system is operating. In the aspect of algae alert system, cyanobacterial blooms can be effectively managed by constructing classification model. However, because of complex mechanisms in cyanobacterial bloom makes the models’ prediction ability lower and low frequency of bloom causes data imbalance problem which make the prediction ability of minority class lower. The aim of this study is to identify the best way to predict bloom alert and to analyse how the level of data imbalance affects to model prediction ability and data preprocessing results. We used ensemble models – Bagging, Random Forest and AdaBoost – and data preprocessing technique, SMOTE to improve model’s prediction performance and to mitigate data imbalance problem. First, we investigated effect of SMOTE. Second, investigated the best way of predicting bloom alert by comparison between single classifier, CART and ensemble classifiers and between ensemble classifiers. Third, investigated how the level of data imbalance affects to model prediction ability and SMOTE results. Last, analysed relative predictor variable importance of models to identify the key factors of cyanobacterial blooms. The results shows overall improvement in model prediction ability after SMOTE application. Ensemble classifiers showed better prediction performance compared to single classification tree model. By comparison between ensemble classifiers, we identified that the combination of SMOTE and Random Forest is the best way to predict bloom alert showing 0.81 of mean sensitivity, 0.84 of mean AUC, 0.83 of mean G-mean and 0.55 of mean F-measure value. Variable importance analysis results shows seasonal factors such as water temperature and month, TN and flow rate are more important than precipitation, irradiance and spatial location of monitoring station although the results were slightly differed by rivers and algorithms. In conclusion, combining SMOTE and Random Forest model were shown as the best way to predict cyanobacterial bloom and seasonal factors are important for bloom forming through variable importance analysis. Modeling environmental issues, such as cyanobacterial bloom, severe data imbalance problems are frequent. It would be advantageous to use combination of SMOTE and ensemble models like this case study when dealing with imbalanced data.
Cyanobacterial blooms have been strengthened in intensity and frequency worldwidely, also for Korea. In the purpose of managing cyanobacterial blooms, algae alert system is operating. In the aspect of algae alert system, cyanobacterial blooms can be effectively managed by constructing classification model. However, because of complex mechanisms in cyanobacterial bloom makes the models’ prediction ability lower and low frequency of bloom causes data imbalance problem which make the prediction ability of minority class lower. The aim of this study is to identify the best way to predict bloom alert and to analyse how the level of data imbalance affects to model prediction ability and data preprocessing results. We used ensemble models – Bagging, Random Forest and AdaBoost – and data preprocessing technique, SMOTE to improve model’s prediction performance and to mitigate data imbalance problem. First, we investigated effect of SMOTE. Second, investigated the best way of predicting bloom alert by comparison between single classifier, CART and ensemble classifiers and between ensemble classifiers. Third, investigated how the level of data imbalance affects to model prediction ability and SMOTE results. Last, analysed relative predictor variable importance of models to identify the key factors of cyanobacterial blooms. The results shows overall improvement in model prediction ability after SMOTE application. Ensemble classifiers showed better prediction performance compared to single classification tree model. By comparison between ensemble classifiers, we identified that the combination of SMOTE and Random Forest is the best way to predict bloom alert showing 0.81 of mean sensitivity, 0.84 of mean AUC, 0.83 of mean G-mean and 0.55 of mean F-measure value. Variable importance analysis results shows seasonal factors such as water temperature and month, TN and flow rate are more important than precipitation, irradiance and spatial location of monitoring station although the results were slightly differed by rivers and algorithms. In conclusion, combining SMOTE and Random Forest model were shown as the best way to predict cyanobacterial bloom and seasonal factors are important for bloom forming through variable importance analysis. Modeling environmental issues, such as cyanobacterial bloom, severe data imbalance problems are frequent. It would be advantageous to use combination of SMOTE and ensemble models like this case study when dealing with imbalanced data.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.