[논문]공공 기상데이터와 기계학습 모델을 이용한 토양수분 예측

장영빈; 장익훈; 최영찬

doi:10.5532/kjafm.2020.22.1.1

공공 기상데이터와 기계학습 모델을 이용한 토양수분 예측
Prediction of Soil Moisture with Open Source Weather Data and Machine Learning Algorithms 원문보기

한국농림기상학회지 = Korean Journal of Agricultural and Forest Meteorology, v.22 no.1, 2020년, pp.1 - 12

장영빈 (서울대학교 농생명과학대학 농경제사회학부 지역정보 전공) , 장익훈 (서울대학교 농생명과학대학 농경제사회학부 지역정보 전공) , 최영찬 (서울대학교 농생명과학대학 농경제사회학부 지역정보 전공)

초록
AI-Helper

토양수분은 농업에서 필수적인 자원으로 이의 변화와 부족을 예측함으로써 관리되어왔다. 최근 현장에서의 적용 용이성과 다양한 지역에 대한 일반화 가능성이 뛰어난 통계 및 기계학습 알고리즘을 활용한 토양수분 예측 연구가 활발히 진행되고 있다. 하지만 국내에서 생성되는 데이터를 이용한 연구들은 부족한 실정이다. 이에 본 연구는 1) 국내 공공기상 데이터만으로 충분한 성능을 내는 토양수분 예측 모델을 만들 수 있는지, 2) 어떠한 기계학습 모델이 국내에서 생산되는 데이터와 토양환경에서 가장 높은 예측 성능을 보이는지, 3) 단일 기계학습 모델을 이용해 다양한 지역에 적용 가능한지를 확인해보려 한다. 본 연구에서 Support Vector Machines (SVM), Random Forest (RF), Extremely Randomized Trees (ET), Gradient Boosting Machines (GBM), and Deep Feedforward Network (DFN) 알고리즘과 종관기상관측 자료, 농업기상관측자료를 활용하여 안동, 보성, 철원, 순천 지역의 토양 수분을 예측하는 모델을 만들었다. 그 결과, GBM을 이용한 모델이 R² : 0.96, Root Mean Squared Error(RMSE) : 1.8로 가장 낮은 예측 오차를 보였다. 또한 GBM을 사용한 모델이 가장 낮은 지역간 예측 오차 분산을 보여 가장 일반화하기에 적절한 모델로 확인되었다.

Abstract ▼ AI-Helper

As one of the essential resources in the agricultural process, soil moisture has been carefully managed by predicting future changes and deficits. In recent years, statistics and machine learning based approach to predict soil moisture has been preferred in academia for its generalizability and ease of use in the field. However, little is known that machine learning based soil moisture prediction is applicable in the situation of South Korea. In this sense, this paper aims to examine 1) whether publicly available weather data generated in South Korea has sufficient quality to predict soil moisture, 2) which machine learning algorithm would perform best in the situation of South Korea, and 3) whether a single machine learning model could be generally applicable in various regions. We used various machine learning methods such as Support Vector Machines (SVM), Random Forest (RF), Extremely Randomized Trees (ET), Gradient Boosting Machines (GBM), and Deep Feedforward Network (DFN) to predict future soil moisture in Andong, Boseong, Cheolwon, Suncheon region with open source weather data. As a result, GBM model showed the lowest prediction error in every data set we used (R squared: 0.96, RMSE: 1.8). Furthermore, GBM showed the lowest variance of prediction error between regions which indicates it has the highest generalizability.

주제어

표/그림 (5)

표 Table 1. Feature importance of trained soil moisture prediction model using weather data based on Random Forest(RF), Extremely Randomized Tree(ET), and Gradient Boosted Machines(GBM) algorithms
표 Table 2. Predictive performance measured by Root Mean Squared Error (RMSE) and R squared of Machine learning models and data sets in used
표 Table 3. Mean and variance of Soil Moisture at 10cm depth by region
그림 Fig. 1. True soil moisture and predicted soil moisture of best performing model (GBM, Feature set 4) of four regions (Boseong, Suncheon, Andong, Chulwon) in 2016/03/01 to 2016/10/01.
표 Table 4. Predictive performance(R-squered measured with test set) of Machine learning models by regions

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

흔히 변수들 간의 복잡한 비선형관계를 포착하기 위해 kernel을 이용해 입력변수의 공간을 변형한 kernel SVM을 사용한다. SVM은 다양한 예측 연구에서 사용되어왔고 토양 수분예측연구에서도 상당히 뛰어난 예측 성능을 보여 국내의 데이터를 이용하여 검증해보고자 한다. 모델의 성능을 최대화하기 위해 hyper parameter인 epsilon과 C 그리고 활용할 kernel function을 tuning하였다.
기본 투입 변수 이외에도 다양한 변수 세트를 구성하고 변수 세트별로 예측 성능이 어떻게 달라지는지를 확인했다. 투입변수의 선정은 기계학습 모델의 설명력에도 큰 영향을 미치지만 실제 농업 현장에서 투입변수들을 수집하기 위해 필요한 비용과도 큰 관련이 있으므로 모델의 설명력과 투입변수 획득에 필요한 비용을 고려하여 최적의 변수들을 선택하는 것이 중요하다.
모든 모델은 예측값과 실제값의 제곱의 총합인 Mean squared error (MSE)를 최소화하는 것을 목적함수로 가진다. 또한 본 연구는 MSE를 모델의 성능을 비교하기 위한 지표로 활용하였다.
본 연구는 국내 공공기상 데이터를 활용하여 미래의 토양수분을 예측하는 기계학습 모델을 만들고 이의 정확도를 평가하기 위해 2014년부터 2018년까지의 보성, 순천, 안동, 철원 지역의 농업기상관측 자료와 종관기상관측 자료로부터 토양 수분 데이터와 기상데이터를 추출하고 SVM, RF, ET, GBM, DFN 알고리즘을 이용하여 예측 모델을 구축하였다. 또한 가공하지 않은 데이터(Feature set 1)와 다른 깊이의 토양수분을 추가한 데이터셋(Feature set 2), 강수관련 파생변수와 과거 토양수분 변수를 추가한 데이터셋(Feature set3), 지역/월별 토양 수분 통계량을 추가한 데이터셋(Feature set 4), 이 중 중요한 24개 변수를 선별한 데이터셋(Feature set 5) 간의 예측 성능 차이를 비교하여 어떤 데이터 들이 예측 성능에 더 크게 기여하는지를 확인했다.
이러한 점에서, 본 연구는 국내 공공기상데이터를 이용하여 통계, 기계학습 방법론에 기반한 토양수분예측 모델을 만들고 이의 성능을 검증하고자 하였다. 더 구체적으로는, 전날의 토양수분 및 기상정보를 이용하여 다음날의 평균 토양수분을 예측하는 Random forest (RF), Extremely randomized tree (ET), Gradient boosted machine (GBM), Support vector machine(SVM), Deeplearning (DL)모델을 만들고 모델별로 성능을 비교함과 동시에 다양한 Feature set, 지역에 따른 예측 성능의 변화를 확인함으로써 국내 다양한 지역에 동시에 적용 가능한 토양 수분 예측 모델을 개발하고자 한다.

제안 방법

Bagging 기반 방법들과 달리 모델을 순차적으로 생성하기 때문에 모델을 학습할 때 더 많은 시간이 소요되지만 다양한 분야에서 가장 높은 성능을 보이며 대다수의 데이터 분석 대회에서 우승한 모델의 방법론으로 채택되어(Nielsen, 2016) 토양 수분 예측 모델에서도 활용해보았다. GBM 모델에서는 기존 RF와 ET에서 활용한 최소 샘플 수, 트리의 최대 개수, 활용할 변수의 개수 이외에 학습률(learning rate)의 최적값을 탐색하고 모델에 적용하였다.
RF 또한 다양한 분야에서 적용이 되고 있으며 종종 토양 수분 예측 연구에서도 활용되었다. RF 모델 또한 예측 성능을 최대화하기 위해 split 하기 위한 최소 샘플수(min sample split), 트리의 최대 개수(n_estimators), 활용할 변수의 개수(max_features)를 튜닝하였다.
, 2007)과 일반적으로 많이 활용되는 모델인 Random forest (RF), RF와 유사하지만 무작위성을 극대화한 Extremely randomized tree (ET), 많은 분야에서 가장 높은 예측성능을 보이는 Gradient boosted machine (GBM), Deeplearning (DL)모델을 이용해 토양수분 예측 모델을 구축했다. 각 모델들의 예측성능을 극대화되었을시의 성능을 비교하기 위해 각 모델의 성능을 극대화하는 하이퍼파라미터(Hyper parameter)들을 탐색하고 최적의 값을 선택하였다.
미래의 토양수분을 예측 모델을 개발하기 위해 기후와 토양변수로 구성된 다양한 투입변수 조합과 SVM, RF, ET, GBM, DFN과 같은 머신러닝 방법론을 활용한 예측 모델을 학습하였고 이들의 예측 성능을 확인하였다. 각 모델은 5-fold validation에서 가장 높은 성능을 보인 Hyper parameter들을 사용하였으며, 각 지역별로 약 75% - 80%의 기간을 Train set으로, 나머지 기간을 Test set으로 활용하였다. 더 구체적으로는, 순천지역의 2014년 3월 - 2017년 12월 데이터, 보성지역의 2015년 3월 – 2017년 12월 데이터, 철원지역의 2014년 3월 – 2016년 12월 데이터, 안동지역의 2016년 10월 – 2018년 5월 데이터를 Train set으로 활용하였고, 순천지역의 2018년 3월 – 2018년 10월 데이터, 보성지역의 2018년 3월 – 2018년 12월 데이터, 철원지역의 2017년 3월 – 2017년 12월 데이터, 안동지역의 2018년 6월 – 2018년 12월의 데이터를 Test set으로 활용하였다.
데이터가 1년 이상 축적되었을 경우를 과거 같은 월의 데이터가 모델의 설명력을 더 올릴 수 있는지를 확인하기 위해 네번째 변수 세트(Feature set 4)의 경우 지역/월별 토양 수분과 강수량의 통계량을 추가하였다. 각 지역별로 과거까지의 해당 월 토양수분량과 강수량의 평균(Mean Soil moisture 10cm/20cm/30cm/50cm by month), 최대값(Maximum Soil moisture 10cm/20cm/30cm/50cm by month), 최소값(Minimum Soil moisture 10cm/20cm/30cm/50cm by month), 분산(Variance of Soil moisture 10cm/20cm/30cm/50cm by month)을 추가하였다.
대다수의 연구에서 사용되는 RF와 GBM과 같은 기계학습모델은 결과 변수를 예측하는 대에 투입변수가 얼마나 기여하는지에 따라 투입변수에 변수 중요도라는 지표를 부여한다. 그래서 변수 중요도가 높은 변수들만을 선별하여 변수 세트를 구성하였다(Feature set 5). 구체적인 내용은 3.
다른 깊이의 정보가 있을 때 예측성능이 얼마나 달라지는 확인하기 위해 두번째 변수 세트는 기본 변수 이외에 다른 깊이의 토양수분의 정보를 추가하였다(Feature set 2). 그러기 위해 농업기상관측 자료에서 시간별로 제공하는 20cm(Soil moisture 20cm), 30cm(Soil moisture 30cm), 50cm(Soil moisture 50cm) 깊이의 토양수분 변수의 전날 0시 기준 토양수분량을 일단위 변수로 활용하여 투입변수에 추가하였다.
다음날의 토양수분량을 예측하는 대에 활용될 모델들은 기존 연구에서 자주 사용된 모델이나 더 나은 예측 성능을 보일 것으로 예상되는 모델들을 선택했다. 그리하여 많은 선행 연구에서 가장 높은 성능을 보인 Support vector machines (Gill et al., 2007)과 일반적으로 많이 활용되는 모델인 Random forest (RF), RF와 유사하지만 무작위성을 극대화한 Extremely randomized tree (ET), 많은 분야에서 가장 높은 예측성능을 보이는 Gradient boosted machine (GBM), Deeplearning (DL)모델을 이용해 토양수분 예측 모델을 구축했다. 각 모델들의 예측성능을 극대화되었을시의 성능을 비교하기 위해 각 모델의 성능을 극대화하는 하이퍼파라미터(Hyper parameter)들을 탐색하고 최적의 값을 선택하였다.
이는 모델의 알고리즘에 따라 가장 중요한 최상위 변수들은 다를 수 있지만 상위권에 위치한 변수들은 비슷하다는 것을 나타낸다. 그리하여 본 연구는 이 24개 변수를 Feature 5로 사용하여 예측 성능을 비교했다.
정시 기온과 풍속, 습도와 관련된 변수의 경우 양쪽의 자료에서 제공하였는데 두 기상정보를 동시에 활용하기 위해 풍속과 습도의 경우 종합기상관측자료의 데이터를 활용하였고 정시기온의 경우 농업기상관측 자료의 데이터를 활용하였다. 농업기상센터와 종관기상 관측소 간의 위치 차이에 의해 양쪽 자료에서 제공하는 값 간에 미세한 차이가 있었지만 농업기상관측자료에서 제공하는 풍속과 습도의 경우 결측치가 상당히 많아 사용이 불가하여 종관기상관측 자료의 값을 활용하였다.
다른 깊이의 정보가 있을 때 예측성능이 얼마나 달라지는 확인하기 위해 두번째 변수 세트는 기본 변수 이외에 다른 깊이의 토양수분의 정보를 추가하였다(Feature set 2). 그러기 위해 농업기상관측 자료에서 시간별로 제공하는 20cm(Soil moisture 20cm), 30cm(Soil moisture 30cm), 50cm(Soil moisture 50cm) 깊이의 토양수분 변수의 전날 0시 기준 토양수분량을 일단위 변수로 활용하여 투입변수에 추가하였다.
다음 변수 세트는 기본 투입 변수 이외에 예측시점 이전의 토양 수분변수와 강수량에 관련된 파생변수를 추가하여 모델이 토양수분과 강수량에 대해 더 풍부한 정보를 학습할 수 있게 구성하였다(Feature set 3). 예측시점 이전의 토양 수분 변수는 10일 이전부터 1일 전까지의 일평균 토양 수분에 대한 변수(Soil moisture 10cm/20cm/30cm/50cm lag1- lag10)를 선정하여 10일전부터 예측 시점까지의 토양수분 정보를 변수 세트에 모두 포함시켰다.
다음날 토양수분 예측 시 필요한 투입변수로 전날 동일 깊이의 토양수분 기상변수를 기본 투입 변수(Feature set 1)로 지정하였다. 전날 동일 깊이와 다른깊이의 토양수분의 경우 농업기상관측 자료에서 시간별로 제공하는 10cm 토양수분 측정값 중 해당 날짜의 0시 기준 토양 수분량(Soil moisture 10cm)을 일 단위변수로 활용하였고 기상변수의 경우 기존 문헌들에서 토양수분을 예측 시 활용한 습도(Humidity), 기온(Air temperature), 온도(Temperature), 풍속(Wind speed), 증기압(Vapor pressure), 이슬점(Dew point), 대기압(Pressure), 강수량(precipitation), 일조량(Sunshine), 일사량(Insolation), 누적 반사복사(Reflected radiation), 누적 순복사(Net radiation), 누적 전천복사(Global radiation)의 변수를 활용하였다(National Weather Service, 1976; Van Dam et al.
데이터가 1년 이상 축적되었을 경우를 과거 같은 월의 데이터가 모델의 설명력을 더 올릴 수 있는지를 확인하기 위해 네번째 변수 세트(Feature set 4)의 경우 지역/월별 토양 수분과 강수량의 통계량을 추가하였다. 각 지역별로 과거까지의 해당 월 토양수분량과 강수량의 평균(Mean Soil moisture 10cm/20cm/30cm/50cm by month), 최대값(Maximum Soil moisture 10cm/20cm/30cm/50cm by month), 최소값(Minimum Soil moisture 10cm/20cm/30cm/50cm by month), 분산(Variance of Soil moisture 10cm/20cm/30cm/50cm by month)을 추가하였다.
본 연구는 국내 공공기상 데이터를 활용하여 미래의 토양수분을 예측하는 기계학습 모델을 만들고 이의 정확도를 평가하기 위해 2014년부터 2018년까지의 보성, 순천, 안동, 철원 지역의 농업기상관측 자료와 종관기상관측 자료로부터 토양 수분 데이터와 기상데이터를 추출하고 SVM, RF, ET, GBM, DFN 알고리즘을 이용하여 예측 모델을 구축하였다. 또한 가공하지 않은 데이터(Feature set 1)와 다른 깊이의 토양수분을 추가한 데이터셋(Feature set 2), 강수관련 파생변수와 과거 토양수분 변수를 추가한 데이터셋(Feature set3), 지역/월별 토양 수분 통계량을 추가한 데이터셋(Feature set 4), 이 중 중요한 24개 변수를 선별한 데이터셋(Feature set 5) 간의 예측 성능 차이를 비교하여 어떤 데이터 들이 예측 성능에 더 크게 기여하는지를 확인했다. 그 결과 모든 변수와 파생변수를 포함한 데이터 셋(Feature set 4)를 학습한 GBM 모델이 R²0.
모든 모델은 예측값과 실제값의 제곱의 총합인 Mean squared error (MSE)를 최소화하는 것을 목적함수로 가진다. 또한 본 연구는 MSE를 모델의 성능을 비교하기 위한 지표로 활용하였다.
더 구체적으로는, 순천지역의 2014년 3월 - 2017년 12월 데이터, 보성지역의 2015년 3월 – 2017년 12월 데이터, 철원지역의 2014년 3월 – 2016년 12월 데이터, 안동지역의 2016년 10월 – 2018년 5월 데이터를 Train set으로 활용하였고, 순천지역의 2018년 3월 – 2018년 10월 데이터, 보성지역의 2018년 3월 – 2018년 12월 데이터, 철원지역의 2017년 3월 – 2017년 12월 데이터, 안동지역의 2018년 6월 – 2018년 12월의 데이터를 Test set으로 활용하였다. 또한 일반적인 통계 모형에 비해 예측 성능이 얼마나 달라지는 확인하기 위해 동일한 변수세트로 구한 선형회귀(Linear Regression) 모델의 예측 성능 또한 비교 대상으로 추가하였다.
마지막 변수 세트로는 변수 중요도(Feature importance)가 높은 변수들 만을 선정하여 투입변수로 활용하였다. 투입변수의 수가 일정 수준 이상으로 커지면 모델이 학습이 잘 안되거나 예측성능이 떨어지는 차원의 저주(curse of dimension)이라는 현상이 발생하기 때문에 중요한 변수들만을 이용해 모델을 만들 시 더 좋은 예측 성능을 가질 수 있다(Pavlenko, 2003).
SVM은 다양한 예측 연구에서 사용되어왔고 토양 수분예측연구에서도 상당히 뛰어난 예측 성능을 보여 국내의 데이터를 이용하여 검증해보고자 한다. 모델의 성능을 최대화하기 위해 hyper parameter인 epsilon과 C 그리고 활용할 kernel function을 tuning하였다.
모든 변수들을 이용하여 예측 모델을 만들 시 어떠한 변수들이 모델에서 중요하게 활용되었는지를 확인하기 위해 RF와 ET, GBM 모델에서 활용된 변수들 중 Feature importance (FI)가 가장 높은 10개 변수와 FI의 값을 확인했다(Table 1).
미래의 토양수분을 예측 모델을 개발하기 위해 기후와 토양변수로 구성된 다양한 투입변수 조합과 SVM, RF, ET, GBM, DFN과 같은 머신러닝 방법론을 활용한 예측 모델을 학습하였고 이들의 예측 성능을 확인하였다. 각 모델은 5-fold validation에서 가장 높은 성능을 보인 Hyper parameter들을 사용하였으며, 각 지역별로 약 75% - 80%의 기간을 Train set으로, 나머지 기간을 Test set으로 활용하였다.
본 연구에서 설정한 투입변수와 미래의 토양수분변수는 복잡한 비선형 관계를 가지고 있기 때문에 내재적 표현 능력이 뛰어난 DFN 모델이 높은 예측 성능을 보일 수 있을 것이라고 예상하여 DFN 모델을 학습하였다. 모든 DFN 모델에서는 Adam optimizer (Kingma and Ba, 2014)를 이용해 weight을 update 했고, ReLu활성함수와 He 연결강도 초기화 방법(He et al.
K fold cross-validation은 일반적으로 예측성능을 과소 추정(혹은 예측 오차를 과대추정)하는 경향이 있지만 모델 선택의 지표로 활용할 시 다른 추정 방법보다 더 나은 성능을 보인다(Kohavi, 1995). 본 연구에서는 5개의 fold로 cross-validation을 수행하였다.
이 중 가장 널리 활용되는 모델인 Random forest (Breiman, 2001)는 Decision tree (DT)를 약한 모델로 사용하며 각 약한 학습기에서 활용할 변수 또한 모든 변수 중에 랜덤하게 추출하여 사용하는 모델이다. 여기서 활용된 DT모델은 투입변수 내에 존재하는 규칙들로 표본들을 그룹으로 구분하고 각 그룹에 대해 예측 결괏값을 할당하는 모델로 현재 분리된 그룹들 중 결과변수를 가장 잘 구분하는 분기점(split)을 찾아 그룹을 순차적으로 분리함으로써 모델을 학습한다. DT 모델의 경우 실제값과 예측값 간 높은 분산을 보이는 것이 한계로 지적되는데 RF 모델은 여러 개의 독립적인 DT들을 평균냄으로써 분산을 줄이고 예측성능을 향상시켰다.
ET는 RF에 비해 자주 사용되지는 않지만 더 나은 예측 성능을 보이므로 본 연구의 활용 모델로 지정하였다. 예측 성능을 극대화하기 위해 RF와 동일한 하이퍼파라미터를 튜닝하였다.
다음 변수 세트는 기본 투입 변수 이외에 예측시점 이전의 토양 수분변수와 강수량에 관련된 파생변수를 추가하여 모델이 토양수분과 강수량에 대해 더 풍부한 정보를 학습할 수 있게 구성하였다(Feature set 3). 예측시점 이전의 토양 수분 변수는 10일 이전부터 1일 전까지의 일평균 토양 수분에 대한 변수(Soil moisture 10cm/20cm/30cm/50cm lag1- lag10)를 선정하여 10일전부터 예측 시점까지의 토양수분 정보를 변수 세트에 모두 포함시켰다. 강수량 관련 파생 변수의 경우 2일 누적 강수량(2days’ precipitation), 연속 강수일(Consecutive precipitation days), 연속 비강수일(Consecutive non-precipitation days), 비가 그친 시각(Last rain time)의 변수를 추가하여 현재 강수 상태에 대한 추가적인 정보를 추가한 변수 세트를 구성하였다.
이 문제를 해결하기 위해 변수들의 원본 값(xi)을 사용하는 대신 해당 변수의 평균(mean(xi))을 뺀 후 표준편차(standard deviation(xi))로 나누어 정규화한 값(x'i)을 모델의 투입변수로 활용하였다
다음날 토양수분 예측 시 필요한 투입변수로 전날 동일 깊이의 토양수분 기상변수를 기본 투입 변수(Feature set 1)로 지정하였다. 전날 동일 깊이와 다른깊이의 토양수분의 경우 농업기상관측 자료에서 시간별로 제공하는 10cm 토양수분 측정값 중 해당 날짜의 0시 기준 토양 수분량(Soil moisture 10cm)을 일 단위변수로 활용하였고 기상변수의 경우 기존 문헌들에서 토양수분을 예측 시 활용한 습도(Humidity), 기온(Air temperature), 온도(Temperature), 풍속(Wind speed), 증기압(Vapor pressure), 이슬점(Dew point), 대기압(Pressure), 강수량(precipitation), 일조량(Sunshine), 일사량(Insolation), 누적 반사복사(Reflected radiation), 누적 순복사(Net radiation), 누적 전천복사(Global radiation)의 변수를 활용하였다(National Weather Service, 1976; Van Dam et al., 1997; Allen et al., 1998; Oleson et al., 2004; Laio et al., 2001; Gill et al., 2007; Song et al., 2008; Prakash et al., 2018; Cai et al., 2019).
do?pgmNo=36)기상변수를 활용하였다. 종관기상관측 자료는 전국 102 지점에서 개 관측소에서 종관기상관측장비(ASOS, Automated Synoptic Observing System)를 이용해 30분에서 한시간 단위로 측정한 지면온도, 지중온도(5cm, 10cm, 20cm, 30cm), 기상현상번호, 기온, 강수량, 풍속, 풍향, 습도, 증기압, 이슬점, 현지기압, 해면 기압, 일조량, 일사량, 적설량, 전운량, 운형, 지면상태 등의 기상 정보를 제공한다. 각 관측소별로 데이터의 제공기간이 다르지만 활용 대상 지역의 활용 기간 데이터는 온전히 존재하여 추가적인 변수의 누락 없이 활용할 수 있었다.
기존의 토양수분 예측 모델과 본 연구에서 활용하는 기계학습 알고리즘을 이용한 토양수분 예측 모델의 가장 차별화되는 점 중 하나는 서로 이질적인 지역에 공통적으로 적용 가능할 수 있다는 점이다. 토양수분이 차이가 나는 이질적인 지역에 단일 모델을 공통적으로 적용가능한지를 확인해보기 위해 가장 높은 성능을 보인 Feature set 4과 SVM, RF, ET, GBM, DFN을 이용해 학습한 예측 모델의 지역별 예측 성능을 비교하였다(Table 4).

대상 데이터

2014년 농업기상센터 점검 당시 순천, 안동, 철원, 보성 지역 관측소가 관측장비의 설치 및 관리 상태가 우수, 양호하여(Choi et al., 2015) 위 네 개의 지역의 데이터를 활용하였다. 활용 데이터에는 상당히 많은 이상치와 결측치가 포함되어 있어 활용 기간을 결정하기에 앞서 단계에 걸쳐 이들을 처리하였다.
RF와 ET, GBM 모델에서 FI가 높은 최상위 20개까지의 변수들을 선별해 보니 총 24개의 변수가 선별되었다. 최상위 10개 변수의 리스트와 다르게 상당수 변수들이 3개 모델 전부에서 활용되고 있었다.
그리고 낮은 기온으로 인해 이상치가 많고 농업에서 중요하지 않은 1월과 2월의 데이터를 제외하였다. 그리하여 본 연구는 순천관측소의 2014년 3월부터 2018년 10월까지(1469일), 보성관측소의 2015년 3월부터 2018년 12월까지(1482일), 철원지역의 2014년 3월부터 2017년 12월(1224일), 안동지역은 2016년 10월부터 2018년 12월까지(962일)로 각 지역별 활용 기간을 정하였다.
이 중 토양수분 정보는 10cm, 20cm, 30cm,50cm 깊이마다 설치된 고주파 정전용량식 토양수분 센서에 의해 측정되며 토양의 단위 부피 당 물의 부피(%)의 값으로 기록되었다. 농업기상관측자료는 농경지와 비슷한 환경에 설치된 기상관측 시설과 각 지역을 대표하는 작물이 시험 제배 되는 토지에 설치된 토양 수분 센서를 통해 측정한 데이터를 기록하였다. 이는 실제 농업 현장에서 생성되는 데이터와 유사하여 본 연구의 현장 적용 가능성을 높이는 효과가 있다.
do?pgmNo=72). 농업기상관측자료는 보성, 순천, 안동, 철원, 전주, 수원 등 11개 지역에 위치한 농림기상센터에서 농업기상관측장비(AAOS, Automated Agriculture Observing System)을 이용해 관측한 토양 수분자료를 제공한다. 이 중 토양수분 정보는 10cm, 20cm, 30cm,50cm 깊이마다 설치된 고주파 정전용량식 토양수분 센서에 의해 측정되며 토양의 단위 부피 당 물의 부피(%)의 값으로 기록되었다.
이는 실제 농업 현장에서 생성되는 데이터와 유사하여 본 연구의 현장 적용 가능성을 높이는 효과가 있다. 다양한 깊이의 토양수분 변수 중 본 연구에서는 10cm 깊이의 토양수분을 예측 대상으로 선택하였다.
더 구체적으로는, 순천지역의 2014년 3월 - 2017년 12월 데이터, 보성지역의 2015년 3월 – 2017년 12월 데이터, 철원지역의 2014년 3월 – 2016년 12월 데이터, 안동지역의 2016년 10월 – 2018년 5월 데이터를 Train set으로 활용하였고, 순천지역의 2018년 3월 – 2018년 10월 데이터, 보성지역의 2018년 3월 – 2018년 12월 데이터, 철원지역의 2017년 3월 – 2017년 12월 데이터, 안동지역의 2018년 6월 – 2018년 12월의 데이터를 Test set으로 활용하였다.
본 연구는 기상자료개방 포털에서 제공하는 농업기상관측자료의 토양수분 데이터를 활용하였다(https://data.kma.go.kr/data/grnd/selectAgrRltmList.do?pgmNo=72). 농업기상관측자료는 보성, 순천, 안동, 철원, 전주, 수원 등 11개 지역에 위치한 농림기상센터에서 농업기상관측장비(AAOS, Automated Agriculture Observing System)을 이용해 관측한 토양 수분자료를 제공한다.
본 연구에서는 기상자료개방 포털에서 제공하는 농업기상관측자료와 종관기상관측자료(https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36)기상변수를 활용하였다. 종관기상관측 자료는 전국 102 지점에서 개 관측소에서 종관기상관측장비(ASOS, Automated Synoptic Observing System)를 이용해 30분에서 한시간 단위로 측정한 지면온도, 지중온도(5cm, 10cm, 20cm, 30cm), 기상현상번호, 기온, 강수량, 풍속, 풍향, 습도, 증기압, 이슬점, 현지기압, 해면 기압, 일조량, 일사량, 적설량, 전운량, 운형, 지면상태 등의 기상 정보를 제공한다.
정시 기온과 풍속, 습도와 관련된 변수의 경우 양쪽의 자료에서 제공하였는데 두 기상정보를 동시에 활용하기 위해 풍속과 습도의 경우 종합기상관측자료의 데이터를 활용하였고 정시기온의 경우 농업기상관측 자료의 데이터를 활용하였다. 농업기상센터와 종관기상 관측소 간의 위치 차이에 의해 양쪽 자료에서 제공하는 값 간에 미세한 차이가 있었지만 농업기상관측자료에서 제공하는 풍속과 습도의 경우 결측치가 상당히 많아 사용이 불가하여 종관기상관측 자료의 값을 활용하였다.

데이터처리

GBM 모델이 가장 낮은 지역별 예측 성능 차이를 보였고 이는 본 연구에서 활용한 데이터를 학습데이터로 사용할 시 GBM 알고리즘이 여러 지역에 일반화하기에 가장 적절한 기계학습 모델임을 의미한다. Fig. 1에서 GBM 모델을 활용하여 2016년 3월 1일부터 2016년 10월 1일까지의 지역별 토양수분의 예측값과 실제값을 비교하였다.
각 모델의 과적합(Overfitting)을 방지하기 위해 K fold cross-validation을 수행하여 활용할 Hyper parameter를 구하였다. K fold cross-validation이란 전체 집단을 K개의 서로 겹치지 않는 샘플 집단으로 쪼갠 후 모든 집단에 대해 학습에 사용되지 않았을 시의 예측성능을 구하고 이를 평균 내어 실제 예측성능 추정하는 방법이다.
각 지역별 10cm 토양수분이 차이가 날 경우 지역별로 예측 성능이 라질 수 있다. 이를 검증하기 위해 지역별로 토양수분의 평균 차이에 대한 Analysis of variance (ANOVA)를 수행한 결과 각 지역별로 토양수분의 평균이 통계적으로 유의하게 차이가 나는 것을 확인했다(Table 3).

이론/모형

Bagging 기반 방법들과 달리 모델을 순차적으로 생성하기 때문에 모델을 학습할 때 더 많은 시간이 소요되지만 다양한 분야에서 가장 높은 성능을 보이며 대다수의 데이터 분석 대회에서 우승한 모델의 방법론으로 채택되어(Nielsen, 2016) 토양 수분 예측 모델에서도 활용해보았다. GBM 모델에서는 기존 RF와 ET에서 활용한 최소 샘플 수, 트리의 최대 개수, 활용할 변수의 개수 이외에 학습률(learning rate)의 최적값을 탐색하고 모델에 적용하였다.
모든 모델은 python 언어를 이용해 코딩되었다. Random Forest와 Extremely Randomized Tree, Gradient Boosted Machine, Support Vector Machine은 Scikit learn (version 0.21.3)이라는 python 라이브러리를 이용해 구현했고 Deep Feedforward Network의 경우 tensorflow (version 1.14.0)를 활용했다.
본 연구에서 설정한 투입변수와 미래의 토양수분변수는 복잡한 비선형 관계를 가지고 있기 때문에 내재적 표현 능력이 뛰어난 DFN 모델이 높은 예측 성능을 보일 수 있을 것이라고 예상하여 DFN 모델을 학습하였다. 모든 DFN 모델에서는 Adam optimizer (Kingma and Ba, 2014)를 이용해 weight을 update 했고, ReLu활성함수와 He 연결강도 초기화 방법(He et al., 2015)을 사용했으며 은닉층의 개수와 각 은닉층의 뉴런 개수, 학습률, 한번에 학습할 학습 데이터 배치의 크기는 실험을 통해 최적값을 선택하였다.
SVM이란 Structural risk minimization 기준을 적용해 결과변수를 판별 혹은 회귀하는 초평면인 Support Vector을 찾는 기계학습 알고리즘이다. 연속형 결과변수를 예측하는 SVM을 Support Vector Regression이라고 하며 일반적으로 epsilon SV Regression(Vapnik, 1997)을 사용한다. epsilon SV Regression은 Support Vector와 결과변수와의 거리가 미리 정해둔 허용 가능 오차의 최대값인 e를 넘지 않으면서도 weight의 노름(e.

성능/효과

Feature set을 기준으로 보면 대부분의 모델에서 Feature set 5, Feature set 4, Feature set 3, Feature set 2, Feature set 1 순으로 예측 성능이 높게 나타났다. Feature set 3과 Feature set 1, Feature set 5와 Feature set 2을 비교해보면 원본데이터만을 활용한 경우와 중요한 정보를 담고 있는 파생변수를 추가함으로써 예측 성능을 향상시킬 수 있음을 확인할 수 있다. 동일 모델 일 시 Feature set 2을 이용한 모델이 Feature set 1을 이용한 모델보다 더 높은 예측 성능을 보였는데, 이는 다른 깊이의 토양 수분 정보가 미래의 토양수분 예측 시 활용될 수 있음을 뜻한다.
Feature set을 기준으로 보면 대부분의 모델에서 Feature set 5, Feature set 4, Feature set 3, Feature set 2, Feature set 1 순으로 예측 성능이 높게 나타났다. Feature set 3과 Feature set 1, Feature set 5와 Feature set 2을 비교해보면 원본데이터만을 활용한 경우와 중요한 정보를 담고 있는 파생변수를 추가함으로써 예측 성능을 향상시킬 수 있음을 확인할 수 있다.
76으로 가장 높은 예측 성능을 보였다. GBM 모델은 다른 종류의 Feature set에서도 가장 높은 예측 성능을 보였고, 그에 이어 DFN과 ET모델 이 높은 성능을 보였고 SVM과 RF 모델이 가장 낮은 성능을 보였다. 모든 모델이 R²0.
GBM 모델이 가장 낮은 지역별 예측 성능 차이를 보였고 이는 본 연구에서 활용한 데이터를 학습데이터로 사용할 시 GBM 알고리즘이 여러 지역에 일반화하기에 가장 적절한 기계학습 모델임을 의미한다. Fig.
각 모델의 FI를 보면 RF가 가장 skewed 된 분포를 보이고 ET가 가장 완만한 분포를 보인다. 이는 ET의 랜덤한 split 지점 탐색에 의해 더 다양한 변수들의 split 후보지점을 탐색했다는 것을 확인할 수 있다.
하지만 ET와 GBM의 경우 과거 동일 깊이 토양 수분량들이 상당히 중요하게 활용된 것을 확인할 수 있다. 각 알고리즘에서 약한 모델이 생성되는 방식을 고려했을 때, 매번 최적 split을 탐색할 경우(RF의 경우) 토양수분 변수, 강수관련 변수, 기상관련 변수 순으로 중요하게 활용될 수 있는데, 최적 split이 아닌 점을 더 넓게 탐색할 경우(ET) 그리고 상당히 세부적으로 토양수분량을 예측하는 모델을 만들 경우(GBM) 과거 토양 수분이 상당히 중요하게 활용된다는 점을 확인할 수 있다. 그리고 RF 모델에서조차 일조량과 습도와 같은 기상 변수는 상당히 낮은 FI를 보이는데, 이는 기존 연구들과 같이 많은 변수들이 없더라도 강수량과 과거 토양 수분량만 가지고도 충분한 예측 성능을 가지는 모델을 만들 수 있음을 뜻한다.
그 결과 모든 변수와 파생변수를 포함한 데이터 셋(Feature set 4)를 학습한 GBM 모델이 R2 0.96, RMSE가 1.76으로 가장 높은 예측 성능을 보였다.
모델 별로 비교를 했을 시 모든 투입변수 조합에서 GBM 모델이 가장 높은 예측 성능을 보였고 예측 성능은 모든 변수를 활용한 Feature set 5, 중요 변수만 추출한 Feature set 4, 기본 변수에 강수관련 파생변수와 과거 토양수분만 추가한 Feature set 3, 기본 변수에 다른 깊이의 토양수분 변수를 추가한 Feature set 2, 기본 변수 세트 Feature set1 순으로 높았다. 그 다음으로 DFN 모델과 ET 모델이 높은 성능을 보였는데, 기본 변수에 과거 토양 수분과 강수 관련 파생변수를 추가한 Feature set 3와 중요한 변수만을 선별한 Feature set 5의 경우 ET가 더 높은 예측 성능을 보였고 나머지 Feature set에서는 DFN이 더 높은 예측 성능을 보였다. 이는 전혀 가공되지 않은 상태이거나 활용 가능한 변수들이 상상당 많은 경우 DFN이 더 적합한 모델이고 이 중간 단계에서는 ET가 더 적합한 모델임을 뜻하며 데이터 셋의 구성에 따라 모델 성능의 우위가 달라질 수 있음을 뜻한다.
각 알고리즘에서 약한 모델이 생성되는 방식을 고려했을 때, 매번 최적 split을 탐색할 경우(RF의 경우) 토양수분 변수, 강수관련 변수, 기상관련 변수 순으로 중요하게 활용될 수 있는데, 최적 split이 아닌 점을 더 넓게 탐색할 경우(ET) 그리고 상당히 세부적으로 토양수분량을 예측하는 모델을 만들 경우(GBM) 과거 토양 수분이 상당히 중요하게 활용된다는 점을 확인할 수 있다. 그리고 RF 모델에서조차 일조량과 습도와 같은 기상 변수는 상당히 낮은 FI를 보이는데, 이는 기존 연구들과 같이 많은 변수들이 없더라도 강수량과 과거 토양 수분량만 가지고도 충분한 예측 성능을 가지는 모델을 만들 수 있음을 뜻한다.
기계학습 모델들에서 중요하게 활용된 변수들을 확인한 결과 과거 토양수분 변수와, 강수관련 변수들이 상당히 중요하게 나타났고, 기상 변수들은 상대적으로 상당히 낮은 중요도를 보였다. 이는 과거 연구들에서 활용했던 다양한 토양 및 기상 변수들 없이 강수량과 토양수분모델만으로 충분한 예측성능을 가지는 모델을 만들 수 있음을 뜻한다.
다른 모델 또한 보성과 순천, 안동 지역의 경우 모든 모델에서 R2 0.945 이상의 준수한 예측 성능을 보였고 철원 지역에 대해서는 상대적으로 낮은 예측 성능을 보였다.
Feature set 3과 Feature set 1, Feature set 5와 Feature set 2을 비교해보면 원본데이터만을 활용한 경우와 중요한 정보를 담고 있는 파생변수를 추가함으로써 예측 성능을 향상시킬 수 있음을 확인할 수 있다. 동일 모델 일 시 Feature set 2을 이용한 모델이 Feature set 1을 이용한 모델보다 더 높은 예측 성능을 보였는데, 이는 다른 깊이의 토양 수분 정보가 미래의 토양수분 예측 시 활용될 수 있음을 뜻한다. RF와 ET의 경우 Feature set 4가 Feature set 5 보다 높은 예측성능을 보였는데, Feature set 5의 경우 88개의 투입변수를 포함하고 Feature set 4의 경우 24개의 투입변수만을 포함한다.
76 차이가 난다는 것을 의미한다. 동일한 데이터 세트를 활용한 LR 모델의 경우 R²가 0.938, RMSE가 2.17을 보여 LR에 피해 2%이상 향상된 설명력을 보였다.
모델 별로 비교를 했을 시 모든 투입변수 조합에서 GBM 모델이 가장 높은 예측 성능을 보였고 예측 성능은 모든 변수를 활용한 Feature set 5, 중요 변수만 추출한 Feature set 4, 기본 변수에 강수관련 파생변수와 과거 토양수분만 추가한 Feature set 3, 기본 변수에 다른 깊이의 토양수분 변수를 추가한 Feature set 2, 기본 변수 세트 Feature set1 순으로 높았다. 그 다음으로 DFN 모델과 ET 모델이 높은 성능을 보였는데, 기본 변수에 과거 토양 수분과 강수 관련 파생변수를 추가한 Feature set 3와 중요한 변수만을 선별한 Feature set 5의 경우 ET가 더 높은 예측 성능을 보였고 나머지 Feature set에서는 DFN이 더 높은 예측 성능을 보였다.
이는 전혀 가공되지 않은 상태이거나 활용 가능한 변수들이 상상당 많은 경우 DFN이 더 적합한 모델이고 이 중간 단계에서는 ET가 더 적합한 모델임을 뜻하며 데이터 셋의 구성에 따라 모델 성능의 우위가 달라질 수 있음을 뜻한다. 모든 데이터 셋에서 기계학습 모델들이 LR보다 R²가 0.0146이상(0.0146 - 0.0328) 높게 나타나 토양 수분 예측 시 간단한 LR 대신 기계학습 모델을 사용하는 것 만으로도 예측 성능을 향상시킬 수 있음을 나타낸다.
모든 모델에서 당일 10cm 토양수분이 가장 중요한 변수로 활용되었고 그 다음은 1일 전 토양 수분(10cm 토양수분량 lag1) 변수가 활용되었다. 하지만 그 이후부터는 모델에 따라 중요하게 활용된 변수가 확연히 차이가 난다.
모든 모델이 R2 0.93 이상의 충분한 예측성능을 보였고 비교 대상으로 활용한 LR 모델보다 더 나은 성능을 보였으며 R2이 0.0146 - 0.0328 높았으며 RMSE가 0.418 – 0.535 낮았고 이는 국내 공공기상데이터 만을 이용해도 충분히 토양 수분예측이 가능하고 기계학습 모델을 적용 시 예측 성능을 향상시킬 수 있음을 의미한다.
농업기상관측자료는 농경지와 비슷한 환경에 설치된 기상관측 시설과 각 지역을 대표하는 작물이 시험 제배 되는 토지에 설치된 토양 수분 센서를 통해 측정한 데이터를 기록하였다. 이는 실제 농업 현장에서 생성되는 데이터와 유사하여 본 연구의 현장 적용 가능성을 높이는 효과가 있다. 다양한 깊이의 토양수분 변수 중 본 연구에서는 10cm 깊이의 토양수분을 예측 대상으로 선택하였다.
지역별로 모델의 예측 성능을 비교한 결과 철원 지역을 제외하고는 지역별로 비슷한 수준의 예측성능을 보였고 GBM 모델이 지역별 예측 성능 편차가 가장 낮았다. 이는 기계학습 모델을 활용할 시 여러 지역에 일반적으로 적용가능한 모델을 만드는 게 가능함을 의미한다.

후속연구

하지만 DFN 모델의 보성과 순천, 안동 지역에 대한 예측성능의 경우 GBM 모델과 비슷하거나 더 높게 나타났다. DFN의 복잡한 모델 구조가 더 많은 양의 다양한 데이터를 학습할 시 다른 기계학습 모델들이 학습하지 못하는 복잡한 패턴을 학습 가능함을 고려할 때 더 다양한 지역의 많은 데이터를 학습함으로써 DFN모델의 예측 성능이 더 향상될 것을 기대해 볼 수 있다.
이는 기계학습 모델을 활용할 시 여러 지역에 일반적으로 적용가능한 모델을 만드는 게 가능함을 의미한다. 게다가 DL 모델의 특성상 데이터가 복잡하더라도 데이터만 충분하다면 상당히 높은 예측 성능을 가지는 모델을 만들 수 있어 더 많은 지역의 더 오랜 기간의 데이터를 활용한다면 예측성능의 향상을 기대해볼 수 있다. 한편 관측치가 적었던 철원 지역의 경우 예측 성능이 현저하게 낮았는데, 이것이 데이터의 문제인지 활용한 방법의 한계인지에 대해서는 추가적인 연구가 필요하며 데이터의 불균형 혹은 데이터품질 등의 문제들에 해결 방안을 모색해야 한다.
이러한 점에서, 본 연구는 국내 공공기상데이터를 이용하여 통계, 기계학습 방법론에 기반한 토양수분예측 모델을 만들고 이의 성능을 검증하고자 하였다. 더 구체적으로는, 전날의 토양수분 및 기상정보를 이용하여 다음날의 평균 토양수분을 예측하는 Random forest (RF), Extremely randomized tree (ET), Gradient boosted machine (GBM), Support vector machine(SVM), Deeplearning (DL)모델을 만들고 모델별로 성능을 비교함과 동시에 다양한 Feature set, 지역에 따른 예측 성능의 변화를 확인함으로써 국내 다양한 지역에 동시에 적용 가능한 토양 수분 예측 모델을 개발하고자 한다.
945 이상의 준수한 예측 성능을 보였고 철원 지역에 대해서는 상대적으로 낮은 예측 성능을 보였다. 전 지역에서 철원 지역에 대한 예측 성능이 낮게 나타난 이유에 대해서 활용한 데이터 개수의 불균형 혹은 지역별 토양수분 및 기상 변수의 특성이 철원 지역을 제외하고는 유사함을 의심해 볼 수 있는데, 이러한 차이가 나타난 원인에 대한 추가적인 연구가 필요하다.
게다가 DL 모델의 특성상 데이터가 복잡하더라도 데이터만 충분하다면 상당히 높은 예측 성능을 가지는 모델을 만들 수 있어 더 많은 지역의 더 오랜 기간의 데이터를 활용한다면 예측성능의 향상을 기대해볼 수 있다. 한편 관측치가 적었던 철원 지역의 경우 예측 성능이 현저하게 낮았는데, 이것이 데이터의 문제인지 활용한 방법의 한계인지에 대해서는 추가적인 연구가 필요하며 데이터의 불균형 혹은 데이터품질 등의 문제들에 해결 방안을 모색해야 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	토양 수분의 특징은?	이를 위해서는 미래의 토양 수분을 정확히 예측하고 부족 혹은 과잉에 대처하는 것이 필요하다. 하지만 토양 수분은 기상, 토양 특성, 작물 등의 복잡한 관계에 의해 비선형적으로 변화하기 때문에 이러한 복잡한 변화를 예측을 위한 다양한 연구가 진행되어왔다.
	토양 수분이란?	토양 수분은 농작물 생장에 직접적으로 관여하는 중요한 변수로 작물의 정상적 생장을 위해서는 필수적으로 관리되어야 한다. 이를 위해서는 미래의 토양 수분을 정확히 예측하고 부족 혹은 과잉에 대처하는 것이 필요하다.
	최근 토양수분 예측 연구에서 프로세스 기반 모델(processbased model)을 이용한 접근법의 단점은?	, 2001). 하지만 이러한 모델들은 식생, 토성, 토양의 표면 저항 등 상당히 많은, 구체적은 변수들이 필요하고, 환경이 이질적인 모든 지점들에 대해 별개의 모델을 만들고 파라미터들을 교정(calibration)해야 하는 단점이 있다(Allen et al., 1998; Shin et al.

참고문헌 (28)

Allen, R. G., L. S. Pereira, D. Raes, and M. Smith, 1998: Crop evapotranspiration-guidelines for computing crop water requirements-FAO Irrigation and drainage paper 56. Food and Agriculture Organization of the United Nations, Rome, 1-15.
Breiman, L, 2001: Random forests. Machine learning 45(1), 5-32.
Cai, Y., W. Zheng, X. Zhang, L. Zhangzhong, and X. Xue, 2019: Research on soil moisture prediction model based on deep learning. PloS One 14(4).

상세보기
Choi, K. M., S. H. Kim, M. Son, and J. Kim, 2008: Soil moisture modelling at the mopsoil of a hillslope in the Gwangneung National Arboretum using a transfer function. Korean Journal of Agricultural and Forest Meteorology 10(2), 35-46. (in Korean with English abstract)

원문보기 상세보기
Choi, S. W., S. J. Lee, J. Kim, B. L. Lee, K. R. Kim, and B. C. Choi, 2015: Agrometeorological observation environment and periodic report of korea meteorological administration: current status and suggestions. Korean Journal of Agricultural and Forest Meteorology 17(2), 144-155. (in Korean with English abstract)

원문보기 상세보기
Cisty, M., F. Cyprich, and V. Soldanova, 2018: Prediction of soil moisture data by various regression techniques. Proceedings of International Multidisciplinary Scientific GeoConference, Surveying Geology and mining Ecology Management, Sofia, 383-389.
Drucker, H., C. J. Burges, L. Kaufman, A. J. Smola, and V. Vapnik, 1997: Support vector regression machines. Advances in Neural Information Processing Systems 9, 155-161.
Friedman, J. H., 2001: Greedy function approximation: a gradient boosting machine. Annals of Statistics 29(5), 1189-1232.

상세보기
Geurts, P., D. Ernst, and L. Wehenkel, 2006: Extremely randomized trees. Machine Learning 63(1), 3-42.

상세보기
Gill, M. K., T. Asefa, M. W. Kemblowski, and M. McKee, 2006: Soil moisture prediction using support vector machines. Journal of the American Water Resources Association 42(4), 1033-1046.

상세보기
Goodfellow, I., Y. Bengio, and A. Courville, 2016: Deep Learning. MIT press, 1-26.
He, K., X. Zhang, S. Ren, and J. Sun, 2015: Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of the IEEE international conference on computer vision, Institute of Electrical and Electronics Engineers, Santiago, 1026-1034.
https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo72 (2019. 12. 09)
https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo36 (2019. 12. 09)
Kingma, D. P., and J. Ba, 2014: Adam: a Method for Stochastic Optimization. Proceedings of Third International Conference for Learning Representations, San Diego.
Kohavi, R., 1995: A study of cross-validation and bootstrap for accuracy estimation and model selection. Ijcai 14(2), 1137-1145.
Laio, F., A. Porporato, L. Ridolfi, and I. Rodriguez-Iturbe, 2001: Plants in water-controlled ecosystems: active role in hydrologic processes and response to water stress: II. Probabilistic soil moisture dynamics. Advances in Water Resources 24(7), 707-723.

상세보기
Natekin, A., and A. Knoll, 2013: Gradient boosting machines, a tutorial. Frontiers in Neurorobotics 7, 21pp.

상세보기
National Center for Atmospheric Research, 2004: Community Land Model version 3.0 (CLM3. 0) developer's guide. U. S. Department of Energy.
National Weather Service, 1976: Catchment modeling and initial parameter estimation for the National Weather Service river forecast system. Office of Hydrology.
Nielsen, D., 2016: Tree boosting with XGBoost-why does XGBoost win "every" machine learning competition? NTNU Norwegian University of Science and Technology.
Oleson, K. W., Y. Dai, G. Bonan, M. Bosilovich, R. Dickinson, P. Dirmeyer, F. Hoffman, P. Houser, G. Y. Niu, P. Thornton, M. Vertenstein, Z. L. Yang, and X. Zeng, 2004: Technical description of the Community Land Model (CLM). NCAR Technical Note NCAR/TN-461+STR.
Pavlenko, T, 2003: On feature selection, curse-ofdimensionality and error probability in discriminant analysis. Journal of Statistical Planning and Inference 115(2), 565-584.

상세보기
Prakash, S., A. Sharma, and S. S. Sahu, 2018: Soil Moisture Prediction Using Machine Learning. Proceedings of 2018 Second International Conference on Inventive Communication and Computational Technologies, Coimbatore, Institue of Electrical and Electronics Engineers, 1-6.
Shin, Y., B. P. Mohanty, and A. V. Ines, 2018: Development of non-parametric evolutionary algorithm for predicting soil moisture dynamics. Journal of Hydrology 564, 208-221.

상세보기
Song, J., D. Wang, N. Liu, L. Cheng, L. Du, and K. Zhang, 2008: Soil moisture prediction with feature selection using a neural network. Proceedings of 2008 Digital Image Computing: Techniques and Applications, Canberra, Institue of Electrical and Electronics Engineers, 130-136.
Van Dam, J. C., J. Huygen, J. G. Wesseling, R. A. Feddes, P. Kabat, P. E. V. Van Walsum, P. Groenendijk, and C. A. Van Diepen, 1997: Theory of SWAP version 2.0; Simulation of water flow, solute transport and plant growth in the soil-wateratmosphere-plant environment, TD45.HM/10.97, DLO Winand Staring Centre, Wageningen.
Vapnik, V., S. E. Golowich, and A. J. Smola, 1997: Support vector method for function approximation, regression estimation and signal processing. Advances in neural information processing systems 9, 281-287.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증