머신러닝 기법을 이용한 산사태 취약성 분석은 산사태 발생에 영향을 미치는 인자들에 대한 학습을 통해 연구 대상 지역 내의 산사태 발생 가능성을 예측하는 방법으로, 대부분 위험 영역과 안정 영역을 구분하는 이진 분류 문제로 다루어진다. 분류 모델의 경우, 모델 설계에 사용되는 ...
머신러닝 기법을 이용한 산사태 취약성 분석은 산사태 발생에 영향을 미치는 인자들에 대한 학습을 통해 연구 대상 지역 내의 산사태 발생 가능성을 예측하는 방법으로, 대부분 위험 영역과 안정 영역을 구분하는 이진 분류 문제로 다루어진다. 분류 모델의 경우, 모델 설계에 사용되는 훈련 데이터의 클래스가 균형을 이룰 때 분류 성능이 우수하다고 보고되어 왔다. 이에 따라 기존 연구들에서는 산사태 발생부 자료 개수와 1:1 비율을 갖도록 미발생부 자료를 무작위로 선택하여 훈련 샘플로 활용하고 있다. 하지만 산사태 발생 이력이 연구 지역의 규모에 비해 현저히 적은 경우, 산사태 발생부 샘플과 미발생부 샘플 수를 동일하게 설정하는 것은 예측 성능의 저하로 이어질 가능성이 있다. 이에 따라 본 연구에서는 클래스가 불균형한 다수의 훈련 데이터를 구축하여 Random Forest 모델을 학습시킨 후 산사태 취약성 분석을 수행하고, 샘플의 비율과 개수가 예측 모델의 성능에 미치는 영향을 분석해보았다. 그리고 통계적 기법 중 현재까지도 효과적으로 활용되고 있는 Frequency Ratio와의 비교를 통해 Random Forest의 성능과 분석 효율성을 함께 살펴보았다. 본 연구에서는 경상북도 상주 지역과 강원도 진부 지역을 연구지역으로 선정하여 산사태 취약성 분석을 수행하였으며, 연구지역에 따라 예측 성능에는 약간의 차이를 보였으나 두 지역 모두 산사태 미발생부 샘플이 발생부 샘플 개수의 2배인 훈련 데이터로 예측 모델을 학습시킨 경우에 가장 높은 AUC를 보였다. 또한 Frequency Ratio 기법과의 비교를 통해 산사태 영향 인자들의 값의 범위에 영향을 받지 않는 Random Forest 모델이 좀 더 효율적으로 분석이 가능하다는 점을 확인하였다.
머신러닝 기법을 이용한 산사태 취약성 분석은 산사태 발생에 영향을 미치는 인자들에 대한 학습을 통해 연구 대상 지역 내의 산사태 발생 가능성을 예측하는 방법으로, 대부분 위험 영역과 안정 영역을 구분하는 이진 분류 문제로 다루어진다. 분류 모델의 경우, 모델 설계에 사용되는 훈련 데이터의 클래스가 균형을 이룰 때 분류 성능이 우수하다고 보고되어 왔다. 이에 따라 기존 연구들에서는 산사태 발생부 자료 개수와 1:1 비율을 갖도록 미발생부 자료를 무작위로 선택하여 훈련 샘플로 활용하고 있다. 하지만 산사태 발생 이력이 연구 지역의 규모에 비해 현저히 적은 경우, 산사태 발생부 샘플과 미발생부 샘플 수를 동일하게 설정하는 것은 예측 성능의 저하로 이어질 가능성이 있다. 이에 따라 본 연구에서는 클래스가 불균형한 다수의 훈련 데이터를 구축하여 Random Forest 모델을 학습시킨 후 산사태 취약성 분석을 수행하고, 샘플의 비율과 개수가 예측 모델의 성능에 미치는 영향을 분석해보았다. 그리고 통계적 기법 중 현재까지도 효과적으로 활용되고 있는 Frequency Ratio와의 비교를 통해 Random Forest의 성능과 분석 효율성을 함께 살펴보았다. 본 연구에서는 경상북도 상주 지역과 강원도 진부 지역을 연구지역으로 선정하여 산사태 취약성 분석을 수행하였으며, 연구지역에 따라 예측 성능에는 약간의 차이를 보였으나 두 지역 모두 산사태 미발생부 샘플이 발생부 샘플 개수의 2배인 훈련 데이터로 예측 모델을 학습시킨 경우에 가장 높은 AUC를 보였다. 또한 Frequency Ratio 기법과의 비교를 통해 산사태 영향 인자들의 값의 범위에 영향을 받지 않는 Random Forest 모델이 좀 더 효율적으로 분석이 가능하다는 점을 확인하였다.
Landslide susceptibility analysis using machine learning approach predicts the possibility of a landslide occurrence by training the causal factors. Generally, in machine learning approach, the landslide susceptibility assessment is considered as a binary classification problem and the approach show...
Landslide susceptibility analysis using machine learning approach predicts the possibility of a landslide occurrence by training the causal factors. Generally, in machine learning approach, the landslide susceptibility assessment is considered as a binary classification problem and the approach shows the good performance when the classification model is constructed using training data with balanced class distribution. Therefore, in many previous studies, the same number of non-landslide locations as landslide locations has been randomly selected as training samples. However, the training data with balanced class distribution has negative effects on the model performance if the number of landslides is small in the study area. Thus, in this study, the authors examined the effect of the sample number of training data in landslide susceptibility analysis. For that, several training data scenarios with imbalanced class distributions were set up and then, the landslide susceptibility was analyzed with imbalanced class distribution using Random Forest. In addition, the performance and efficiency of Random Forest were compared with Frequency Ratio which has been used to analyze the landslide susceptibility in many previous studies. In this study, Sangju and Jinbu areas were selected as study areas to analyze the landslide susceptibility using the suggested approach. The Random Forest model showed the highest AUC in both of study areas when the number of training data for the non-landslide locations were twice more than the number of the training data for landslides. In addition, the analysis results showed that Random Forest was more effective than Frequency Ratio approach because Random Forest model was not influenced by the scale of features for landslide conditioning factors.
Landslide susceptibility analysis using machine learning approach predicts the possibility of a landslide occurrence by training the causal factors. Generally, in machine learning approach, the landslide susceptibility assessment is considered as a binary classification problem and the approach shows the good performance when the classification model is constructed using training data with balanced class distribution. Therefore, in many previous studies, the same number of non-landslide locations as landslide locations has been randomly selected as training samples. However, the training data with balanced class distribution has negative effects on the model performance if the number of landslides is small in the study area. Thus, in this study, the authors examined the effect of the sample number of training data in landslide susceptibility analysis. For that, several training data scenarios with imbalanced class distributions were set up and then, the landslide susceptibility was analyzed with imbalanced class distribution using Random Forest. In addition, the performance and efficiency of Random Forest were compared with Frequency Ratio which has been used to analyze the landslide susceptibility in many previous studies. In this study, Sangju and Jinbu areas were selected as study areas to analyze the landslide susceptibility using the suggested approach. The Random Forest model showed the highest AUC in both of study areas when the number of training data for the non-landslide locations were twice more than the number of the training data for landslides. In addition, the analysis results showed that Random Forest was more effective than Frequency Ratio approach because Random Forest model was not influenced by the scale of features for landslide conditioning factors.
주제어
#Random Forest 산사태 취약성 훈련 데이터 클래스 불균형 Frequency Ratio
학위논문 정보
저자
강경희
학위수여기관
세종대학교 대학원
학위구분
국내석사
학과
지구정보공학과
지도교수
박혁진
발행연도
2019
총페이지
74 p.
키워드
Random Forest 산사태 취약성 훈련 데이터 클래스 불균형 Frequency Ratio
※ AI-Helper는 부적절한 답변을 할 수 있습니다.