[논문]머신러닝과 샘플링을 이용한 강원도 지역 산불발생예측모형 개발

채경재; 이유리; 조용주; 박지현

머신러닝과 샘플링을 이용한 강원도 지역 산불발생예측모형 개발
Development of a Gangwon Province Forest Fire Prediction Model using Machine Learning and Sampling 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.3 no.2, 2018년, pp.71 - 78

채경재 (인하대학교 통계학과) , 이유리 (인하대학교 통계학과) , 조용주 (인하대학교 통계학과) , 박지현 (인하대학교 통계학과)

초록
AI-Helper

본 연구는 산불 발생 예측 모형의 정확도를 높이기 위해 머신러닝 기법을 적용한 연구이다. 산불 피해면적이 가장 큰 강원도를 중심으로 2003년부터 2016년까지 총 14년의 산불 자료를 이용하였다. 기상자료의 오차를 줄이기 위해 강원도를 9개의 구역으로 나누어 각 구역 관측소의 기상자료를 이용하였다. 9개의 구역으로 나누어 각 구역의 산불 예측 모형을 만들게 되면 산불이 발생한 날(majority)과 산불이 발생하지 않은 날(minority)의 비율 차이가 큰 불균형 문제가 발생한다. 불균형 문제에서는 모델의 성능이 떨어지는 현상이 발생할 수 있다. 이를 해결하기 위해 여러 샘플링 방법을 적용하였다. 또한 모델의 정확도를 높이기 위해 캐나다 산불 기상 지수(FWI)의 5가지 지수를 파생변수로 사용하였다. 모델링 방법은 통계적 방법인 로지스틱 회귀분석 방법과 머신러닝 방법인 random forest와 xgboost 방법을 사용하였다. 각 구역의 최종모델의 선택기준을 정확도, 민감도, 특이도를 고려하여 정했으며, 9개 구역의 예측 결과는 산불이 발생한 104건 중 80건의 발생 예측에 성공하였으며 산불이 발생하지 않은 9758건 중 7426건의 발생하지 않음을 예측했다. 전체의 정확도는 76.1%였다.

Abstract ▼ AI-Helper

The study is based on machine learning techniques to increase the accuracy of the forest fire predictive model. It used 14 years of data from 2003 to 2016 in Gang-won-do where forest fire were the most frequent. To reduce weather data errors, Gang-won-do was divided into nine areas and weather data from each region was used. However, dividing the forest fire forecast model into nine zones would make a large difference between the date of occurrence and the date of not occurring. Imbalance issues can degrade model performance. To address this, several sampling methods were applied. To increase the accuracy of the model, five indices in the Canadian Frost Fire Weather Index (FWI) were used as derived variable. The modeling method used statistical methods for logistic regression and machine learning methods for random forest and xgboost. The selection criteria for each zone's final model were set in consideration of accuracy, sensitivity and specificity, and the prediction of the nine zones resulted in 80 of the 104 fires that occurred, and 7426 of the 9758 non-fires. Overall accuracy was 76.1%.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

기상 관측소만 해도 전국 96개소의 종관기상관측장비(ASOS)와 494개소의 방재기상관측장비(AWS)가 있다. 본 연구에서는 최대한의 데이터 사용과 머신러닝 기법을 활용하여 산불의 예측 모형을 개발하였다.

제안 방법

반응변수의 클래스 중 적은 범주의 클래스(minor class) 중 무작위로 하나를 선택한 후, 이 데이터의 k개의 근접 이웃을 찾는다. 그리고 선택된 하나의 샘플과 k개의 이웃의 차를 구한 다음 이 차이에 0 ~ 1 사이의 임의의 값을 곱하여 기존 샘플에 더한 후 훈련 데이터에 추가한다. 이 과정을 반복한다.
불균형 문제를 해결하기 위해 주로 사용되는 샘플링 방법을 사용하였다. 또한 통계적 기법인 로지스틱 회귀분석과 머신러닝 기법을 활용하여 예측 모형을 개발했다.
각 모델의 예측 값은 0~1 사이의 값으로 나오는데 ROC curve의 AUC(Area under the curve)가 최대가 되는 값을 cut off로 정해 그 이상 되는 값을 1이라고 예측했다. 모델 성능에 대한 평가 지수로써 각 모형의 정확도, 민감도, 특이도를 구하였다.
(Van Wagner, 1987) FWI 시스템에서는 5가지의 지수를 사용하는데 평균 기온, 평균 습도, 평균풍속, 강수량을 이용하여 계산한다. 미세 연료 지수(Fine Fuel Moisture Code, FFMC), 부식층지수(Duff moisture code, DMC), 가뭄지수(Drought code, DC)를 1차적으로 계산한 후 이들의 조합으로 ISI(Initial Spread Idex), BUI(Build Up Index)지수를 구한다. 기상 데이터를 활용하여 Natural Resources Canada에서 제공하는 코드를 이용하여 5가지의 지수를 구하고 변수로 사용하였다.
본 연구의 산불 예측 모형은 일별 기상자료를 사용하였으며, 기상자료의 오차를 줄이기 위해 강원도 지역을 하나의 관측소 기상자료로 사용하는 것이 아니라 9개의 구역으로 나누어서 각 구역 관측소의 기상자료를 사용하였다. 하지만 구역을 나누어서 예측 모형을 만들면, 산불이 발생하는 날과 발생하지 않는 날의 비율이 차이가 큰 불균형 문제가 발생한다.
각 샘플링 방법과 모형의 장·단점으로 구역에 맞는 방법은 다르게 나타났다. 최종 모형으로써 민감도와 특이도의 값이 0.7이상이면서 정확도가 가장 높은 모형을 최종모형으로 선택하였으며, 7번 구역에서는 기준을 낮추어 특이도 민감도의 기준을 0.6으로 잡고 최종 모델을 결정하였다.

대상 데이터

미세 연료 지수(Fine Fuel Moisture Code, FFMC), 부식층지수(Duff moisture code, DMC), 가뭄지수(Drought code, DC)를 1차적으로 계산한 후 이들의 조합으로 ISI(Initial Spread Idex), BUI(Build Up Index)지수를 구한다. 기상 데이터를 활용하여 Natural Resources Canada에서 제공하는 코드를 이용하여 5가지의 지수를 구하고 변수로 사용하였다.
본 연구에서는 그림1과 같이 산불이 가장 많이 발생하는 강원도의 산불 예측모형을 개발했으며, 기상의 오차를 줄이기 위해 그림 2와 같이 9개 구역으로 나누어 각 구역에 맞는 기상자료를 사용하였다.
산불 발생 데이터는 산림청에서 제공하는 전국 산불발생 통계자료로써 2003년부터 2016년까지 총 14년 산불 자료를 이용했다. 이 기간과 동일한 강원도 지역의 각 구역을 대표할 수 있는 기상자료를 구하기 위해 강릉, 대관령, 동해, 북강릉, 북춘천, 속초, 영월, 원주, 인제, 정선군, 철원, 춘천, 태백, 홍천의 종관기상관측 기상 자료를 기상청에서 수집하였고, 구역에 중복된 기상자료는 평균으로 사용하였다.
이 기간과 동일한 강원도 지역의 각 구역을 대표할 수 있는 기상자료를 구하기 위해 강릉, 대관령, 동해, 북강릉, 북춘천, 속초, 영월, 원주, 인제, 정선군, 철원, 춘천, 태백, 홍천의 종관기상관측 기상 자료를 기상청에서 수집하였고, 구역에 중복된 기상자료는 평균으로 사용하였다. 수집한 기상자료는 기온, 강수, 풍속, 습도 등이 있다.
산불 발생 데이터는 산림청에서 제공하는 전국 산불발생 통계자료로써 2003년부터 2016년까지 총 14년 산불 자료를 이용했다. 이 기간과 동일한 강원도 지역의 각 구역을 대표할 수 있는 기상자료를 구하기 위해 강릉, 대관령, 동해, 북강릉, 북춘천, 속초, 영월, 원주, 인제, 정선군, 철원, 춘천, 태백, 홍천의 종관기상관측 기상 자료를 기상청에서 수집하였고, 구역에 중복된 기상자료는 평균으로 사용하였다. 수집한 기상자료는 기온, 강수, 풍속, 습도 등이 있다.

데이터처리

통계 분석 툴로는 R 3.5.1 버전을 사용하였으며 2003년부터 2016년까지의 데이터를 임의(random)로 7:3의 비율로 train셋과 test셋으로 나누어 train셋으로 예측 모형을 만들고 test셋으로 모형의 성능을 검증했다. Random forest와 xgboost 방법은 임의성(random)을 포함하고 있는 모델로써 seed를 1234로 고정하고 모델을 만들었다.

이론/모형

1 버전을 사용하였으며 2003년부터 2016년까지의 데이터를 임의(random)로 7:3의 비율로 train셋과 test셋으로 나누어 train셋으로 예측 모형을 만들고 test셋으로 모형의 성능을 검증했다. Random forest와 xgboost 방법은 임의성(random)을 포함하고 있는 모델로써 seed를 1234로 고정하고 모델을 만들었다. 각 모델의 예측 값은 0~1 사이의 값으로 나오는데 ROC curve의 AUC(Area under the curve)가 최대가 되는 값을 cut off로 정해 그 이상 되는 값을 1이라고 예측했다.
이러한 경우 일반적으로 예측모형의 성능이 떨어진다. 불균형 문제를 해결하기 위해 주로 사용되는 샘플링 방법을 사용하였다. 또한 통계적 기법인 로지스틱 회귀분석과 머신러닝 기법을 활용하여 예측 모형을 개발했다.
모델링 결과는 표 1과 같고 몇몇 구역의 결과에 대해서 민감도나 특이도 중 한쪽으로 쏠리는 결과가 나왔다. 이러한 불균형문제를 해결하기 위해서 언더/오버 샘플링 및 SMOTE 방법을 사용하였다.

성능/효과

최종모델로 9개 구역의 test셋의 예측 결과를 표 7과 정리하였다. 산불이 발생한 104건 중 80건의 발생 예측에 성공하였으며 산불이 발생하지 않은 9758건 중 7426건의 발생하지 않음을 예측했다. 전체의 정확도는 76.

질의응답

핵심어	질문	논문에서 추출한 답변
	FWI 시스템에서 사용하는 5가지의 지수는?	(Van Wagner, 1987) FWI 시스템에서는 5가지의 지수를 사용하는데 평균 기온, 평균 습도, 평균풍속, 강수량을 이용하여 계산한다. 미세 연료 지수(Fine Fuel Moisture Code, FFMC), 부식층지수(Duff moisture code, DMC), 가뭄지수(Drought code, DC)를 1차적으로 계산한 후 이들의 조합으로 ISI(Initial Spread Idex), BUI(Build Up Index)지수를 구한다. 기상 데이터를 활용하여 Natural Resources Canada에서 제공하는 코드를 이용하여 5가지의 지수를 구하고 변수로 사용하였다.
	캐나다 산불 기상지수란?	캐나다 산불 기상지수(Forest fire Weather Index, FWI)는 현재 캐나다에서 사용하고 있는 캐나다 산불위험 평가 시스템(Canadian Forest Fire Danger Rating System, CFFDRS)의 구성 요소로 캐나다 전 지역에서 현재 산불예방 및 진화 등에 활용되고 있다.(Van Wagner, 1987) FWI 시스템에서는 5가지의 지수를 사용하는데 평균 기온, 평균 습도, 평균풍속, 강수량을 이용하여 계산한다.
	정확도, 민감도, 특이도에 대한 설명은?	정확도(Accuracy)는 전체 중 예측에 성공한 비율이다. 민감도(Sensitivity)는 실제 발생한 산불을 산불이 발생한다고 예측하는 비율이다. 특이도(Specificity)는 실제 발생하지 않은 산불을 발생하지 않는다고 예측하는 비율이다. 3가지의 값이 모두 높은 모델이 좋은 예측 모형이라고 할 수 있다.

참고문헌 (8)

박흥석, 이시영, 채희문, 이우균 (2009) 현캐나다 산불 기상지수를 이용한 산불 발생 확률모형 개발, 한국방재학회논문집, 제9권, 제3, pp. 95-100.
이병두, 유계선, 김선용, 김경하 (2012) 로지스틱 회귀모형을 이용한 산불발생확률모형 개발, 한국임학회지, Vol. 101, No. 1, pp. 1-6.
Amiro, B.D., Logan, K.A., Wotton, B.M., Flaniga n, M.D., Todd, J.B., Stocks, B.J. and Martell, D.L. (2004) Fire Weather index system components for large fires in the Canadian boreal forest. Intern ational Journal of Wildland Fire, Vol 13, pp. 391-400.

상세보기
Breiman, L. (2001) Random Forests. Machine Learning, Vol. 45, No. 1, pp. 5-32.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P.(2002). SMOTE: synth-etic minority over-sampling technique.
Freund, Y. and Schapire, R. (1996), Experim-ents with a new boosting algorithm, Machine Learning : Proceedings of the Thirteenth International Conference, San Francisco, USA, 148-156.
Gareth J, Daniela W, Trevor H, Robert T (2015), "An Introduction to Statistical Learning withAppli cations in R", Springer, NewYork.
XGBoost (2016) https://xgboost.readthedocs-.io/en/latest/

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증