Random Forest 기법을 이용한 산사태 취약성 평가 시 훈련 데이터 선택이 결과 정확도에 미치는 영향 Study on the Effect of Training Data Sampling Strategy on the Accuracy of the Landslide Susceptibility Analysis Using Random Forest Method원문보기
머신러닝 기법을 활용한 분석에서 훈련 데이터의 샘플링 전략은 예측 정확도 뿐 만 아니라 일반화 능력에도 많은 영향을 미친다. 특히, 산사태 취약성 분석의 경우, 산사태 발생부에 대한 정보에 비해 산사태 미발생부에 대한 정보가 과도하게 많은 데이터 불균형 현상이 발생하며, 이에 따라 분석 모델의 훈련 데이터 설계 시 데이터 샘플링 과정이 필수적이다. 그러나 기존의 연구들은 대부분 산사태 미발생부 선택 시 발생부 데이터와 1:1의 비율을 갖도록 무작위로 선택하는 방법을 적용하였을 뿐, 특정한 선택 기준에 따라 분석을 수행하지 않았다. 따라서 본 연구에서는 훈련 데이터의 샘플링 전략이 모델의 예측 성능에 미치는 결과를 확인하기 위하여 산사태 발생부와 미발생부의 샘플링 전략기준에 따라 서로 다른 6개의 시나리오를 만들어 Random Forest 모델의 훈련에 사용하였다. 또한 Random Forest의 결과 중 하나인 변수 중요도를 각 산사태 유발인자들에 가중치로 곱하여 줌으로써 산사태 취약지수 값을 산정하였으며, 취약지수 값을 이용해 산사태 취약성도를 제작하고 각 결과 지도의 정확도를 비교 분석하였다. 분석 결과, 훈련데이터의 샘플링 방법에 상관없이 두 지역의 산사태 취약성 분석 결과는 모두 70~80%의 정확도를 보였다. 이를 통해 Random Forest 기법의 산사태 취약성 분석기법으로서의 적용 가능성을 확인하였으며, Random Forest 모델이 제공하는 입력변수의 중요도를 산사태 유발인자 가중치로 활용할 수 있음을 확인하였다. 또한 훈련 시나리오 간의 정확도를 비교한 결과, 특정한 기준에 의해 훈련 데이터를 설계하는 것이 기존의 랜덤 선택 방법보다 높은 예측 정확도를 기대할 수 있음을 확인하였다.
머신러닝 기법을 활용한 분석에서 훈련 데이터의 샘플링 전략은 예측 정확도 뿐 만 아니라 일반화 능력에도 많은 영향을 미친다. 특히, 산사태 취약성 분석의 경우, 산사태 발생부에 대한 정보에 비해 산사태 미발생부에 대한 정보가 과도하게 많은 데이터 불균형 현상이 발생하며, 이에 따라 분석 모델의 훈련 데이터 설계 시 데이터 샘플링 과정이 필수적이다. 그러나 기존의 연구들은 대부분 산사태 미발생부 선택 시 발생부 데이터와 1:1의 비율을 갖도록 무작위로 선택하는 방법을 적용하였을 뿐, 특정한 선택 기준에 따라 분석을 수행하지 않았다. 따라서 본 연구에서는 훈련 데이터의 샘플링 전략이 모델의 예측 성능에 미치는 결과를 확인하기 위하여 산사태 발생부와 미발생부의 샘플링 전략기준에 따라 서로 다른 6개의 시나리오를 만들어 Random Forest 모델의 훈련에 사용하였다. 또한 Random Forest의 결과 중 하나인 변수 중요도를 각 산사태 유발인자들에 가중치로 곱하여 줌으로써 산사태 취약지수 값을 산정하였으며, 취약지수 값을 이용해 산사태 취약성도를 제작하고 각 결과 지도의 정확도를 비교 분석하였다. 분석 결과, 훈련데이터의 샘플링 방법에 상관없이 두 지역의 산사태 취약성 분석 결과는 모두 70~80%의 정확도를 보였다. 이를 통해 Random Forest 기법의 산사태 취약성 분석기법으로서의 적용 가능성을 확인하였으며, Random Forest 모델이 제공하는 입력변수의 중요도를 산사태 유발인자 가중치로 활용할 수 있음을 확인하였다. 또한 훈련 시나리오 간의 정확도를 비교한 결과, 특정한 기준에 의해 훈련 데이터를 설계하는 것이 기존의 랜덤 선택 방법보다 높은 예측 정확도를 기대할 수 있음을 확인하였다.
In the machine learning techniques, the sampling strategy of the training data affects a performance of the prediction model such as generalizing ability as well as prediction accuracy. Especially, in landslide susceptibility analysis, the data sampling procedure is the essential step for setting th...
In the machine learning techniques, the sampling strategy of the training data affects a performance of the prediction model such as generalizing ability as well as prediction accuracy. Especially, in landslide susceptibility analysis, the data sampling procedure is the essential step for setting the training data because the number of non-landslide points is much bigger than the number of landslide points. However, the previous researches did not consider the various sampling methods for the training data. That is, the previous studies selected the training data randomly. Therefore, in this study the authors proposed several different sampling methods and assessed the effect of the sampling strategies of the training data in landslide susceptibility analysis. For that, total six different scenarios were set up based on the sampling strategies of landslide points and non-landslide points. Then Random Forest technique was trained on the basis of six different scenarios and the attribute importance for each input variable was evaluated. Subsequently, the landslide susceptibility maps were produced using the input variables and their attribute importances. In the analysis results, the AUC values of the landslide susceptibility maps, obtained from six different sampling strategies, showed high prediction rates, ranges from 70 % to 80 %. It means that the Random Forest technique shows appropriate predictive performance and the attribute importance for the input variables obtained from Random Forest can be used as the weight of landslide conditioning factors in the susceptibility analysis. In addition, the analysis results obtained using specific sampling strategies for training data show higher prediction accuracy than the analysis results using the previous random sampling method.
In the machine learning techniques, the sampling strategy of the training data affects a performance of the prediction model such as generalizing ability as well as prediction accuracy. Especially, in landslide susceptibility analysis, the data sampling procedure is the essential step for setting the training data because the number of non-landslide points is much bigger than the number of landslide points. However, the previous researches did not consider the various sampling methods for the training data. That is, the previous studies selected the training data randomly. Therefore, in this study the authors proposed several different sampling methods and assessed the effect of the sampling strategies of the training data in landslide susceptibility analysis. For that, total six different scenarios were set up based on the sampling strategies of landslide points and non-landslide points. Then Random Forest technique was trained on the basis of six different scenarios and the attribute importance for each input variable was evaluated. Subsequently, the landslide susceptibility maps were produced using the input variables and their attribute importances. In the analysis results, the AUC values of the landslide susceptibility maps, obtained from six different sampling strategies, showed high prediction rates, ranges from 70 % to 80 %. It means that the Random Forest technique shows appropriate predictive performance and the attribute importance for the input variables obtained from Random Forest can be used as the weight of landslide conditioning factors in the susceptibility analysis. In addition, the analysis results obtained using specific sampling strategies for training data show higher prediction accuracy than the analysis results using the previous random sampling method.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구에서는 훈련 데이터를 설계하는 과정에서 산사태 발생부와 미발생부의 선택 기준이 결과정확도에 미치는 영향을 분석하고자 하였다. 이를 위하여 과거에 다수의 산사태가 발생했던 경상북도 상주와 강원도 진부 지역을 대상으로 서로 다른 6개의 훈련 시나리오를 이용해 Random Forest 모델을 만든 후 산사태 취약성 분석을 수행하였고, 그 결과를 비교해보았다.
본 연구에서는 훈련 데이터를 설계하는 과정에서 산사태 발생부와 미발생부 데이터의 선택 기준이 결과정확도에 미치는 영향을 알아보고자 서로 다른 6가지의 훈련 시나리오를 설정하여 분석을 수행하였다. 또한 훈련 데이터의 영향이 서로 다른 지역에서도 같은 효과를 보이는지 알아보기 위하여 과거에 다수의 산사태가 발생했던 경상북도 상주와 강원도 진부 지역을 대상으로 Random Forest 모델을 적용하여 산사태 취약성 분석을 수행하였다.
본 연구에서는 훈련 데이터의 영향이 서로 다른 지역에서도 같은 효과를 보이는지 알아보기 위하여 과거 산사태 발생 이력이 있는 경상북도 상주시 화서면 일대와 강원도 평창군 진부면 일대를 연구지역으로 선정해 산사태 취약성 분석을 수행하였다. 경상북도 상주시 화서면은 지리좌표 상으로 위도 36°25’10.
제안 방법
각 연구지역의 산사태 발생 위치는 현장조사와 산사태 발생 전후의 항공사진을 비교·탐지하여 결정되었고, GPS 및 1:5,000 수치지형도를 이용하여 GIS 기반의 점 형태의 산사태 발생 현황도로 구축하였다(Figs. 2).
이 때, 부트스트랩이란 입력된 데이터로부터 중복을 허용하여 입력 데이터와 같은 크기의 새로운 데이터 세트를 생성하는 기법을 말한다. 그 후 전체 특성 중 m개를 무작위로 선택하여 부트스트랩 표본과 함께 결정 트리를 생성한다. 이러한 과정은 N번 반복되어 총 N개의 결정 트리가 생성되고, 이들을 하나의 분류기로 결합해 Random Forest를 만든다(Dittman et al.
산사태 발생부로는 실제 산사태 발생 위치를 선택한 경우와 빈도비(frequency ratio)를 이용하여 작성된 산사태 취약성도에서 산사태 발생 확률이 높은 지역을 선택한 경우로 분리하여 설정하였으며, 산사태 미발생부로는 실제로 산사태가 발생하지 지역에서 특정한 기준 없이 랜덤하게 선택한 경우와, 사면의 경사가 0°인 지역을 선택한 경우, 그리고 빈도비를 이용한 취약성도에서 산사태 발생 확률이 낮은 지역을 선택한 경우로 분리하여 설정하였다(Table 2). 또한 훈련 데이터의 선택 기준에만 차이를 두기 위해 본 연구에서는 산사태 발생부와 미발생부 데이터의 양에는 차이를 두지 않고 산사태 발생부 데이터의 수량만큼 미발생부 데이터를 샘플링 하였다.
본 연구에서는 훈련 데이터를 설계하는 과정에서 산사태 발생부와 미발생부 데이터의 선택 기준이 결과정확도에 미치는 영향을 알아보고자 서로 다른 6가지의 훈련 시나리오를 설정하여 분석을 수행하였다. 또한 훈련 데이터의 영향이 서로 다른 지역에서도 같은 효과를 보이는지 알아보기 위하여 과거에 다수의 산사태가 발생했던 경상북도 상주와 강원도 진부 지역을 대상으로 Random Forest 모델을 적용하여 산사태 취약성 분석을 수행하였다. 분석 결과, 훈련 데이터에 상관없이 두 지역의 12개 산사태 취약성도 모두 70~80%의 정확도를 보였으며, 이를 통해 머신 러닝 기법의 국내 산사태로의 적용 가능성을 확인하였으며,Random Forest 모델이 제공하는 변수 중요도를 산사태 유발인자 가중치로 활용할 수 있음을 확인하였다.
1의 과정을 통해 설계된다. 먼저, 입력된 훈련 데이터로부터 부트스트랩(bootstrap) 방법을 통해 표본을 추출한다. 이 때, 부트스트랩이란 입력된 데이터로부터 중복을 허용하여 입력 데이터와 같은 크기의 새로운 데이터 세트를 생성하는 기법을 말한다.
,2012; Muller and Guido, 2016). 본 연구에서 사용한 Random Forest 모델의 매개변수는 세 개로, 트리의 개수, 최대 특성 개수와 최대 깊이가 활용되었다. 최대특성 개수는 일반적으로 기본값(default value)을 쓰는 것이 모델 성능에 긍정적인 영향을 미치기 때문에(Muller and Guido, 2016), 식 (1)과 같이 기본값이 부여되었다.
Muller and Guido(2016)에 의하면, 모델의 복잡도 제어를 위한 매개변수는 한 개만으로도 만족할 만한 수준의 제어가 가능하며, 많은 매개변수의 활용은 오히려 모델을 복잡하게 만들 수 있다고 보고한 바 있다. 본 연구에서는 Random Forest의 두 가지 핵심 매개변수인 모델의 무작위성을 제어하는 트리의 개수와 트리 설계에 사용될 최대 특성 개수, 그리고 모델의 복잡도를 제어하는 트리의 최대 깊이를 포함해 총 세 가지 매개변수를 사용하였다. 트리의 개수는 하나의 포레스트를 몇 개의 독립적인 트리로 구성할지를 결정하는 매개변수이며, 최대 특성 개수는 하나의 트리에 몇 개의 특성을 사용할 것인지를 결정하는 매개변수로 독립적인 트리를 설계하기 위해 특성 선택에 무작위성을 부여한다.
변수 중요도는 항상 양수의 값을 가지며, 산사태 위험부와 안전부를 분류하는 트리 생성 과정에서 불필요한 인자들이 제외되므로, 산사태 취약성 분석에 사용되는 가중치 계산 문제와 유발 인자들의 선별 문제를 동시에 해결할 수 있다. 본 연구에서는 변수 중요도 값을 각각의 산사태 유발 인자 지도에 곱하여 줌으로써 인자들의 가중치로 활용하였다.
산사태 발생 위치 자료는 70/30의 비율로 랜덤하게 분리되어 취약성 분석의 모델 훈련과 모델 검증에 활용되었다. 상주지역은 총 405건의 산사태 발생 위치자료가 획득되어, 그 중 286개(70%)는 모델 훈련에,119개(30%)는 모델 검증에 활용되었다(Fig.
산사태 발생부로는 실제 산사태 발생 위치를 선택한 경우와 빈도비(frequency ratio)를 이용하여 작성된 산사태 취약성도에서 산사태 발생 확률이 높은 지역을 선택한 경우로 분리하여 설정하였으며, 산사태 미발생부로는 실제로 산사태가 발생하지 지역에서 특정한 기준 없이 랜덤하게 선택한 경우와, 사면의 경사가 0°인 지역을 선택한 경우, 그리고 빈도비를 이용한 취약성도에서 산사태 발생 확률이 낮은 지역을 선택한 경우로 분리하여 설정하였다(Table 2).
산사태 유발 인자들은 입력 자료의 축척을 고려하여 10m×10m 격자의 래스터 형식으로 구축하였다.
따라서 본 연구에서는 훈련 데이터를 설계하는 과정에서 산사태 발생부와 미발생부의 선택 기준이 결과정확도에 미치는 영향을 분석하고자 하였다. 이를 위하여 과거에 다수의 산사태가 발생했던 경상북도 상주와 강원도 진부 지역을 대상으로 서로 다른 6개의 훈련 시나리오를 이용해 Random Forest 모델을 만든 후 산사태 취약성 분석을 수행하였고, 그 결과를 비교해보았다.
(2005)에서도 밝혀진 바 있다. 이에 따라 단순 랜덤 선택방식을 따르는 기존의 연구들과의 차이를 두기 위해 본 연구에서는 산사태 발생부 데이터와 미발생부 데이터의 샘플링에 특정한 기준을 두었다. 산사태 발생부로는 실제 산사태 발생 위치를 선택한 경우와 빈도비(frequency ratio)를 이용하여 작성된 산사태 취약성도에서 산사태 발생 확률이 높은 지역을 선택한 경우로 분리하여 설정하였으며, 산사태 미발생부로는 실제로 산사태가 발생하지 지역에서 특정한 기준 없이 랜덤하게 선택한 경우와, 사면의 경사가 0°인 지역을 선택한 경우, 그리고 빈도비를 이용한 취약성도에서 산사태 발생 확률이 낮은 지역을 선택한 경우로 분리하여 설정하였다(Table 2).
훈련 데이터 시나리오별로 각각 획득된 최적의 매개변수 값은 Random Forest 모델을 설계 하는 데 사용된다. 총 12개의 모델이 설계되었으며, 각 모델을 이용한 데이터의 훈련과정을 통하여 결과 값(output)으로 각 산사태 유발 인자별 변수 중요도 값을 획득하게 된다. Random Forest를 이용한 산사태 취약성도는 ArcGIS 10 프로그램을 이용해 작성되었으며, 모델 훈련을 통해 얻어진 변수 중요도 값을 ‘Weighted Sum’ 도구를 이용하여 각 산사태 유발 인자 지도에 가중치로 적용함으로써 산사태 취약지수 값이 획득된다.
대상 데이터
트리의 개수와 최대 깊이의 값은 그리드 서치와 10-fold 교차검증 방법을 이용하여 탐색되었다. 그리드 내 트리의 개수는 10, 50, 100, 150, 200,250, 300, 400, 500이, 최대 깊이는 3, 4, 5, 10, 20,30, 50, 100, 150이 설정되었으며, 트리의 개수와 최대깊이의 설정값이 각각 9개씩이므로 조합의 수는 총 81개이다. 81개 조합의 매개변수 값을 이용해 10-fold 교차검증을 수행하여 평균 정확도가 가장 높은 경우의 매개변수 값을 획득하였다.
산사태는 지형, 지질, 임상, 토양 등 다양한 요인에 의해 발생되기 때문에 산사태 취약성 분석을 위하여서는 관련 요인들을 연구지역으로부터 획득하고 공간 데이터베이스로 구축하는 과정이 필수적이다. 본 연구에서는 각 연구 지역에 해당하는 1:5,000 축척의 수치지형도, 1:50,000 축척의 수치지질도, 1:25,000 축척의 수치임상도, 1:25,000 축척의 수치토양도를 활용하여분석에 필요한 입력 자료를 획득하였다. 분석에 활용된 산사태 유발 인자는 총 15개로, 사면고도(altitude,Figs.
, 2003). 본 연구에서는 강우 흐름에 따른 유역 형태를 고려하여 화서면 일대의 가로 8.40km, 세로 7.59km에 해당하는 지역을 대상으로 산사태 취약성 분석을 수행하였다. 두 번째 연구 지역인 강원도 평창군 진부면은 지리좌표 상으로 위도 37°33’20’’ ~ 37°39’26’’, 경도 128°29’49’’~ 128°36’36’’에 위치하며, 2006년 7월 15일 ~ 16일까지 2일간에 걸쳐 약 670mm에 달하는 집중호우로 인해 약 1,340 여개소의 산사태가 발생한 지역이다(Fig.
산사태 발생 위치 자료는 70/30의 비율로 랜덤하게 분리되어 취약성 분석의 모델 훈련과 모델 검증에 활용되었다. 상주지역은 총 405건의 산사태 발생 위치자료가 획득되어, 그 중 286개(70%)는 모델 훈련에,119개(30%)는 모델 검증에 활용되었다(Fig. 2b). 진부지역은 총 1,345건의 산사태 발생 위치 자료가 획득되어, 그 중 948개(70%)는 모델 훈련에, 397개(30%)는 모델 검증에 활용되었다(Fig.
진부 지역 일대 또한 대체로 높은 산악지대이며 임계화강암이 가장 넓게 분포하고, 연구 지역의 남서부로 흑운모 편마암이 위치하며 이를 기반으로 그 위에 조선계 정선석회암층과 평안계 녹암층이부정합으로 놓여있다(Lee and Park, 2012). 진부면 또한 강우 흐름에 따른 유역 형태를 고려하여 가로 7.99km, 세로 8.56km에 해당하는 지역을 대상으로 산사태 취약성 분석을 수행하였다.
2b). 진부지역은 총 1,345건의 산사태 발생 위치 자료가 획득되어, 그 중 948개(70%)는 모델 훈련에, 397개(30%)는 모델 검증에 활용되었다(Fig. 2d).
데이터처리
그리드 내 트리의 개수는 10, 50, 100, 150, 200,250, 300, 400, 500이, 최대 깊이는 3, 4, 5, 10, 20,30, 50, 100, 150이 설정되었으며, 트리의 개수와 최대깊이의 설정값이 각각 9개씩이므로 조합의 수는 총 81개이다. 81개 조합의 매개변수 값을 이용해 10-fold 교차검증을 수행하여 평균 정확도가 가장 높은 경우의 매개변수 값을 획득하였다.
이론/모형
Random Forest를 이용한 산사태 취약성도는 ArcGIS 10 프로그램을 이용해 작성되었으며, 모델 훈련을 통해 얻어진 변수 중요도 값을 ‘Weighted Sum’ 도구를 이용하여 각 산사태 유발 인자 지도에 가중치로 적용함으로써 산사태 취약지수 값이 획득된다.
본 연구에서는 분석 결과로 얻어진 총 12개의 산사태 취약성도를 검증 및 비교하기 위해 prediction rate 방법을 활용하였다. Prediction rate은 산사태 예측 모델(Random Forest 모델)과 산사태 유발 인자들이 미래에 발생할 산사태를 얼마나 잘 예측 해낼 수 있는가를 나타내는 값으로, 12개의 산사태 취약성도와 모델훈련에 사용하지 않은 검증용 산사태 위치 데이터(상주 119개, 진부 397개)를 비교하여 얻어지는 예측 정확도를 말한다(Chung and Fabbri, 2003; Brenning,2005; Pradhan and Lee, 2010).
산사태 취약지수 값은 ‘Quantile’방법을 이용해 5개의 위험등급으로 재분류되어 산사태 취약성도로 작성되었다(Figs. 6&7).
Random Forest 모델의 설계를 위하여서는 최적의 매개변수 값의 탐색이 우선적으로 수행되어야 한다. 이를 위하여 본 연구에서는 그리드 서치(grid-search)와10-fold 교차검증 방법을 이용하여 최적의 매개변수 값을 획득하였다. 그리드 서치는 관심 있는 매개변수들을 대상으로 고려해보고자 하는 모든 매개변수 값을 설정하여 가능한 모든 조합을 시도할 수 있도록 하는 방법이다(Tien Bui et al.
이 때 n_feature(특성의 개수)는 산사태 유발 인자의 개수를 말한다. 트리의 개수와 최대 깊이의 값은 그리드 서치와 10-fold 교차검증 방법을 이용하여 탐색되었다. 그리드 내 트리의 개수는 10, 50, 100, 150, 200,250, 300, 400, 500이, 최대 깊이는 3, 4, 5, 10, 20,30, 50, 100, 150이 설정되었으며, 트리의 개수와 최대깊이의 설정값이 각각 9개씩이므로 조합의 수는 총 81개이다.
훈련 데이터 시나리오별로 각각 획득된 최적의 매개변수 값은 Random Forest 모델을 설계 하는 데 사용된다. 총 12개의 모델이 설계되었으며, 각 모델을 이용한 데이터의 훈련과정을 통하여 결과 값(output)으로 각 산사태 유발 인자별 변수 중요도 값을 획득하게 된다.
성능/효과
Prediction rate을 이용한 산사태 취약성도의 검증 결과(Table 3), 상주 지역의 경우, Case 1에서 76.11%,Case 2에서 79.05%, Case 3에서 76.74%, Case 4에서 73.93%, Case 5에서 77.04%, Case 6에서 74.47%의 정확도를 보였다. 진부 지역의 경우, Case 1에서 75.
두 번째 연구 지역인 강원도 평창군 진부면은 지리좌표 상으로 위도 37°33’20’’ ~ 37°39’26’’, 경도 128°29’49’’~ 128°36’36’’에 위치하며, 2006년 7월 15일 ~ 16일까지 2일간에 걸쳐 약 670mm에 달하는 집중호우로 인해 약 1,340 여개소의 산사태가 발생한 지역이다(Fig. 2c&d).
49%)에 가장 높은 예측 정확도를 보였다. 또한 예측 정확도의 전반적인 경향으로 보았을 때, 산사태 발생부로는 두 지역 모두 실제 산사태 발생한 지역을 대상으로 한 경우(Case 1, Case 2, Case 3)가 빈도비가 높은 지역을 대상으로 한 경우(Case 4, Case 5, Case 6)보다 좋은 결과를 보였다. 이는 빈도비 산정 시 발생하는 오류가 반영되는 경우보다 실제 산사태가 발생한 위치를발생부 데이터로 활용하는 것이 더 적합했던 것으로 분석된다.
이는 기존의 랜덤 선택 방식에 따라 산사태 미발 생부를 샘플링 할 경우 과도하게 많은 정보가 담긴 샘플(산사태 발생부와 비슷한 값을 갖는 샘플이 많을 수있음)이 선택될 확률이 높아짐으로 인해 산사태 위험지역을 분류할 모델에 혼란을 줄 가능성 또한 증가하기 때문인 것으로 분석된다. 또한 진부 지역의 경우에는 일정한 패턴을 보이지 않았으나, 상주 지역의 경우에는 사면 경사를 기준으로 샘플링을 한 경우(Case 2,Case 5)가 빈도비를 기준으로 샘플링을 한 경우(Case 3,Case 6)보다 좋은 결과를 보였다. 이는 상주 지역의사면 경사가 0인 위치들이 대부분 빈도비가 낮은 지역에 속해 있으므로, 빈도비 기준의 샘플 보다 집약적인 정보를 갖는 샘플로 대표되었기 때문이라 분석된다.
분석 결과, 훈련 데이터에 상관없이 두 지역의 12개 산사태 취약성도 모두 70~80%의 정확도를 보였으며, 이를 통해 머신 러닝 기법의 국내 산사태로의 적용 가능성을 확인하였으며,Random Forest 모델이 제공하는 변수 중요도를 산사태 유발인자 가중치로 활용할 수 있음을 확인하였다. 또한 훈련 시나리오 간의 정확도 비교 결과, 상주 지역의 경우, Case 2에서 79.05%로 가장 높은 정확도를 보였으며, 진부 지역의 경우, Case 3에서 76.49%로 가장 높은 정확도를 보였다. 이를 통해 특정한 기준을 두고 훈련 데이터를 설계하는 것이 기존의 랜덤 선택 방법보다 높은 예측 정확도를 기대할 수 있음을 확인하였다.
또한 훈련 데이터의 영향이 서로 다른 지역에서도 같은 효과를 보이는지 알아보기 위하여 과거에 다수의 산사태가 발생했던 경상북도 상주와 강원도 진부 지역을 대상으로 Random Forest 모델을 적용하여 산사태 취약성 분석을 수행하였다. 분석 결과, 훈련 데이터에 상관없이 두 지역의 12개 산사태 취약성도 모두 70~80%의 정확도를 보였으며, 이를 통해 머신 러닝 기법의 국내 산사태로의 적용 가능성을 확인하였으며,Random Forest 모델이 제공하는 변수 중요도를 산사태 유발인자 가중치로 활용할 수 있음을 확인하였다. 또한 훈련 시나리오 간의 정확도 비교 결과, 상주 지역의 경우, Case 2에서 79.
산사태 발생부의 데이터가 같은 시나리오끼리 비교(Case 1 vs Case 2 vs Case 3 / Case 4 vs Case 5 vs Case 6)한 결과, 산사태 미발생부로는 특정한 기준을 두고 샘플링을 한 경우(Case 2, Case 3,Case 5, Case 6)가 기존 연구들의 랜덤 선택 방식을 따르는 경우(Case 1, Case 4)보다 좋은 결과를 보였다.
49%로 가장 높은 정확도를 보였다. 이를 통해 특정한 기준을 두고 훈련 데이터를 설계하는 것이 기존의 랜덤 선택 방법보다 높은 예측 정확도를 기대할 수 있음을 확인하였다. 이와 더불어 빈도비를 이용한 산사태 취약성도의 예측 성능을 높일 수 있다면, 빈도비를 기반으로 한 훈련 데이터의 효과를 좀 더 높일 수 있을 것으로 사료된다.
05%)에 가장 높은 예측 정확도를 보였다. 진부 지역의 경우, 훈련 데이터에 따른 정확도의 차이가 두드러지진 않았으나, 산사태 발생부로는 실제 산사태가 발생한 위치를,산사태 미발생부로는 빈도비가 낮은 지역을 대상으로 훈련 데이터를 설계한 경우(Case 3, 76.49%)에 가장 높은 예측 정확도를 보였다. 또한 예측 정확도의 전반적인 경향으로 보았을 때, 산사태 발생부로는 두 지역 모두 실제 산사태 발생한 지역을 대상으로 한 경우(Case 1, Case 2, Case 3)가 빈도비가 높은 지역을 대상으로 한 경우(Case 4, Case 5, Case 6)보다 좋은 결과를 보였다.
90%의 정확도를 보였다. 훈련 데이터에 상관없이 두 지역의 12개 산사태 취약성도 모두 70~80%의 정확도를 보이며, 이는 Random Forest가 산사태 취약성 분석에 적합한 모델임을 나타낸다. 상주 지역의 경우, 산사태 발생부로는 실제 산사태가 발생한 위치를, 산사태 미발생부로는 사면 경사가 0°인 지역을 대상으로 훈련 데이터를 설계한 경우(Case 2, 79.
후속연구
이를 통해 특정한 기준을 두고 훈련 데이터를 설계하는 것이 기존의 랜덤 선택 방법보다 높은 예측 정확도를 기대할 수 있음을 확인하였다. 이와 더불어 빈도비를 이용한 산사태 취약성도의 예측 성능을 높일 수 있다면, 빈도비를 기반으로 한 훈련 데이터의 효과를 좀 더 높일 수 있을 것으로 사료된다.
질의응답
핵심어
질문
논문에서 추출한 답변
산사태 취약성 분석이란 무엇인가?
산사태 취약성 분석은 산사태 유발에 영향을 미치는 인자들(conditioning factors)의 공간적인 분포에 대한 분석을 통해 산사태의 발생 가능성을 예측하는 것으로,국내외적으로 다양한 통계적 기법을 적용하여 분석이 수행되어 왔다. 최근 들어서는 빅데이터의 활용에 대한 관심이 증가함에 따라 산사태 취약성 분석에서도 머신러닝(machine learning)기법을 적용하는 사례가 늘고 있다.
머신러닝 기법이 통계적인 접근보다 유용할 수 있는 이유는 무엇인가?
산사태는 다양한 인자들이 복합적으로 작용하여 발생되는 재해이므로 산사태 유발 패턴을 찾아내기가 쉽지 않다. 따라서 이런 문제의 경우, 빅데이터활용 능력이 뛰어나고 짧은 시간에 유용한 정보를 찾아낼 수 있는 머신러닝 기법이 다른 통계적 분석 기법들보다 효율적인 해결책이 될 수 있다(Pradhan, 2013). 머신러닝 알고리즘으로는 Support Vector Machine,Random Forest, Naive Bayes 등의 다양한 분석 알고리즘이 있으며, 현재까지 수행된 대부분의 머신러닝기법을 이용한 산사태 취약성 분석 연구에서는 다수의 머신러닝 알고리즘을 하나의 연구지역에 적용하여 분석 방법에 따른 정확도의 차이를 비교하는 분석이 주로 수행되었다(Tien Bui et al.
Random Forest는 결정 트리의 어떤 한계를 개선하고자 제안된 것인가?
, 2008; Cho and Kurup, 2011). 결정 트리는 훈련된 모델의 시각화가 용이하며, 데이터의 스케일에 영향을 받지 않아 전처리 과정이 불필요하다는 이점이 있으나, 훈련 데이터에 과적합(overfitting)되는 경향이 있어서 일반화 성능이 떨어지는 한계를 보인다.이러한 결정 트리의 단점을 보완한 모델이 Random Forest로, 다수의 결정 트리를 이용해 최종 모델을 만든다는 특성과 결측값(missing value)을 예측할 수 있다는 특성을 통해 과적합 문제를 해결한 모델이다(Dudoit et al.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.