본 연구에서는 기상청 예보자료를 이용할 것을 전제로 서리가 발생하는 날과 서리가 발생하지 않는 날을 구분하는 모형을 구축하였다. 서리가 발생한 날과 서리가 발생하지 않은 날을 구분할 수 있는 기상인자로서 최저기온, 평균풍속, 평균상대습도, 평균이슬점온도로 나타났다. 기상인자별로 두 날을 비교한 결과 서리가 발생한 날이 서리가 발생하지 않은 날에 비해 최저기온, 이슬점온도, 평균풍속은 낮게 나타났고 상대습도는 높게 나타났다. 이러한 기상인자로 인공신경망, 랜덤포레스트, 서포트벡터 머신의 기계학습법을 이용한 모형을 연구한 결과 70%이상의 정확도를 나타내어 활용 가능성이 있을 것으로 판단된다.
본 연구에서는 기상청 예보자료를 이용할 것을 전제로 서리가 발생하는 날과 서리가 발생하지 않는 날을 구분하는 모형을 구축하였다. 서리가 발생한 날과 서리가 발생하지 않은 날을 구분할 수 있는 기상인자로서 최저기온, 평균풍속, 평균상대습도, 평균이슬점온도로 나타났다. 기상인자별로 두 날을 비교한 결과 서리가 발생한 날이 서리가 발생하지 않은 날에 비해 최저기온, 이슬점온도, 평균풍속은 낮게 나타났고 상대습도는 높게 나타났다. 이러한 기상인자로 인공신경망, 랜덤포레스트, 서포트벡터 머신의 기계학습법을 이용한 모형을 연구한 결과 70%이상의 정확도를 나타내어 활용 가능성이 있을 것으로 판단된다.
In this study, a model to classify frost occurrence and frost free day was developed using the digital weather forecast data provided by Korea Meteorological Administration (KMA). The minimum temperature, average wind speed, relative humidity, and dew point temperature were identified as the meteoro...
In this study, a model to classify frost occurrence and frost free day was developed using the digital weather forecast data provided by Korea Meteorological Administration (KMA). The minimum temperature, average wind speed, relative humidity, and dew point temperature were identified as the meteorological variables useful for classification frost occurrence and frost-free days. It was found that frost-occurrence date tended to have relatively low values of the minimum temperature, dew point temperature, and average wind speed. On the other hand, relatively humidity on frost-free days was higher than on frost-occurrence dates. Models based on machine learning methods including Artificial Neural Network (ANN), Random Forest(RF), Support Vector Machine(SVM) with those meteorological factors had >70% of accuracy. This results suggested that these models would be useful to predict the occurrence of frost using a digital weather forecast data.
In this study, a model to classify frost occurrence and frost free day was developed using the digital weather forecast data provided by Korea Meteorological Administration (KMA). The minimum temperature, average wind speed, relative humidity, and dew point temperature were identified as the meteorological variables useful for classification frost occurrence and frost-free days. It was found that frost-occurrence date tended to have relatively low values of the minimum temperature, dew point temperature, and average wind speed. On the other hand, relatively humidity on frost-free days was higher than on frost-occurrence dates. Models based on machine learning methods including Artificial Neural Network (ANN), Random Forest(RF), Support Vector Machine(SVM) with those meteorological factors had >70% of accuracy. This results suggested that these models would be useful to predict the occurrence of frost using a digital weather forecast data.
본 연구에서는 기존 Han et al.(2009)에서 제시한 서리 발생 전날의 기상특성을 반영하는 기상인자로 다음날의 서리발생을 예측하는 모형과 다르게 2일(48시간) 후의 기상예측값을 제공하는 기상청의 동네예보자료를 이용한다는 전제로 서리발생 당일의 기상특성을 분석하여 최근 분류분석에 많이 사용되는 기계학습법인 인공신경망, 랜덤포레스트, 서포트벡터머신(SVM, support vector machine)을 이용한 서리발생을 예측하는 모형에 대해서 활용가능성을 검토해 보았다.
제안 방법
4가지 기상인자를 이용하여 인공신경망, 랜덤포레스트, 서포트벡터머신에 대한 서리 예측 모형을 구축하였고, Han et al.(2009)에서 제시한 전날의 24시 기온, 구름량, 5일간 강수량을 이용한 판별분석 모형(Table 4)과 함께 정확도(accuracy)와 민감도(sensitivity)를 비교하였다. 정확도는 전반적으로 모든 경우 중에서 서리가 발생하는 것과 서리가 발생하지 않는 것을 올바르게 추정했는지를 비교할 수 있으며,민감도에서는 서리의 발생 모형의 서리의 발생을 알리는 것이 더 중요하기 때문에 실제 서리가 발생한 경우에서 올바르게 서리가 발생하는 것을 추정했는지를 비교하는 것이다.
1)을 사용하였다. 인공신경망은 “nnet” 패키지의 nnet 함수를 사용하였고, 은닉층의 노드 수는 3개, 활성화함수는 로지스틱함수, 훈련 시 최적화를 위한 반복횟수는 200회로 설정하여 수행하였다. 랜덤포레스트는 “randomForest” 패키지의 randomforest 함수를 사용하였고, 트리 갯수를 500으로 설정하여 수행하였다.
대상 데이터
일반적으로 서리와 관련성이 많을 것으로 예상되지만 기상청 동네 예보가 제공되지 않는 초상온도나 지면온도는 사용하지 않았다. 수집한 데이터는 서리가 발생한 날의 데이터 248세트와 서리가 발생하지 않은 날의 248세트로 총 496세트였으며, 이중 서리가 발생한 날의 데이터와 서리가 발생하지 않은 날의 데이터 비율을 같게 하여 초모형 구축에 326세트, 정확도 검증에 170세트를 사용하였다.
기상청 종관기상관측지점 30곳(Table 1)의 2004년부터 2013년까지의 초상일의 자료를 이용하여 해당되는 날의 서리 발생과 관련된 기상인자들의 자료를 정리하였고, 서리가 발생하지 않은 날은 초상일의 전날로 설정하고 기상인자들의 자료를 정리하였다. 기상인자는 기존 문헌들에서 나온 최저기온, 평균풍속, 구름량, 5일간 강수량, 3일간 강수량, 상대습도, 이슬점온도로 정하였으며(Han et al.
데이터처리
기상인자의 선택은 통계프로그램 R(3.3.1)을 사용하여 단계적 방법(stepwise method)으로 판별분석과 로지스틱 회귀분석을 실시하였다. 판별분석에서는 전체변동에 대한 집단 내 변동의 비율인 wilk’s lambda 값으로 변수를 선택하였으며, 로지스틱 회귀분석을 이용하여 아카이케의 정보기준(AIC, akaike informaiton criterion)를 이용하여 변수를 선정하였다(Kim et al.
1)을 사용하여 단계적 방법(stepwise method)으로 판별분석과 로지스틱 회귀분석을 실시하였다. 판별분석에서는 전체변동에 대한 집단 내 변동의 비율인 wilk’s lambda 값으로 변수를 선택하였으며, 로지스틱 회귀분석을 이용하여 아카이케의 정보기준(AIC, akaike informaiton criterion)를 이용하여 변수를 선정하였다(Kim et al., 2014; Koo et al., 2013).
이론/모형
가중치(wi)는 목적함수(식 3)의 실측값과 신경망의 출력값 사이의 차이가 최소가 되도록 갱신되며, 최소화를 수행하기 위해서 경사 하강법의 일종인 역전파(back propagation) 알고리즘이 주로 사용되고 있다
성능/효과
서리 발생 예측 모형을 비교한 결과에서 기존 판별분석 모형의 정확도가 낮게 나타난 이유는 나주 지역을 대상으로 연구가 진행되어 전국적인 서리 발생과 관련된 기상 환경을 반영하기에 제한적이기 때문일 것으로 예상된다. 그 예로서, 기존 판별분석 모형에서는 5일간 강수량이 서리 발생에 많은 영향을 미치는 것으로 판단되었지만 이번 연구에서는 강수량의 영향이 크지 않게 나타났기 때문에 전국의 강수량 데이터를 적용할 경우 기존 판별분석 모형의 정확도가 낮아 질 수 있을 것으로 예상된다. 또한, 기존 판별모형에서는 전날의 24시 이후에 서리 발생에 대한 예측이 이루어진다는 면에서 농민이 서리 발생에 미리 대처하기 힘든 부분이 있다고 판단된다.
서리 발생 예측을 위해 도출된 기상인자는 최저기온, 평균풍속, 상대습도, 이슬점온도로 나타났다. 이러한 기상 인자들의 특징은 서리가 발생한 날이 서리가 발생하지 않은 날에 비해 최저기온, 이슬점온도, 평균풍속은 낮게 나타났고 상대습도는 높게 나타났다. 이러한 결과는 서리가 발생하기 위해서는 공기 중에 어느 정도 수증기가 포함되어 있는 상태에서 기온이 낮아지면서 서리가 발생하는 상황을 반영한 것으로 판단된다.
또한, 기존 판별모형에서는 전날의 24시 이후에 서리 발생에 대한 예측이 이루어진다는 면에서 농민이 서리 발생에 미리 대처하기 힘든 부분이 있다고 판단된다. 이런 점에서 기상청의 동네 예보를 통해 예측한 기상을 적용할 수 있다는 점에서 본 연구의 모형이 활용 가능성이 있다고 판단된다.
후속연구
이러한 결과는 서리가 발생하기 위해서는 공기 중에 어느 정도 수증기가 포함되어 있는 상태에서 기온이 낮아지면서 서리가 발생하는 상황을 반영한 것으로 판단된다. 그렇지만, 일부 자료에서 서리가 발생한 날에 최저기온이 0℃이상에서도 서리가 발생하는 것으로 나타났는데, 이것은 온도계가 설치되어 있는 위치의 온도보다 지면 부근의 온도가 더 낮았기 때문에 지면 부근에 서리가 발생할 것으로 예상되며, 추후 연구에서는 지면온도나 초상온도에 대한 분석이 함께 이루어진다면 서리 발생 예측 모형의 정확도가 향상될 것으로 예상된다.
이러한 결과에서 기존 판별분석 모형과 본 연구에서 사용된 모형을 정확도면에서 비교했을 때는 전반적으로 서리 발생 유무를 구분하는 능력은 기계학습법에 의한 모형이 높게 나타나 그 활용 가능성이 있는 것으로 판단되지만, 민감도면에서 판별분석 모형이 더 높게 나타나기 때문에 기계학습법을 이용한 모형과 판별분석 모형 결과를 함께 고려할 수 있는 방법의 모색이 필요할 것으로 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
랜덤포레스트란 무엇인가?
랜덤포레스트는 다수의 의사결정 트리 모형을 결합하여 최적의 모형을 형성하는 앙상블기법이다. 의사결정 트리모형은 각 노드에 속하는 자료가 분할하면서 자라나게 되는데, 상위노드에서 하위노드로 가지분할을 수행할 때 오류율을 나타내는 불순도함수를 이용하여 분류변수와 분류기준값을 선택한다.
인공신경망의 활성함수 종류에는 어떤 것들이 있는가?
활성함수는 로지스틱(logistic) 함수와 하이퍼볼릭탄젠트(hyperbolic tangent) 함수, 가우스(gauss) 함수, 선형(linear) 함수, 문턱값(threshod) 등이 사용된다.
인공신경망의 일반적인 구조는 어떻게 구성되는가?
인공신경망은 인간의 두뇌가 학습하는 과정을 모방해서 만들어진 모형이다. 일반적인 구조는 입력층, 은닉층, 출력층의 3가지 층으로 구성되어 있다. 입력층은 단순히 변수값을 입력받으며, 은닉층은 입력층으로 전달된 값들을 결합해서 다른 은닉층이나 출력층에 전달한다.
참고문헌 (16)
Abhishek, K., M. P. Singh, S. Ghosh, and A. Anand, 2012: Weather forecasting model using artificial neural network. Procedia Technology 4, 311-318.
Chen, J. L., H. B. Liu, W. Wu, and D. T. Xie, 2010: Estimation of monthly solar radiation from measured temperatures using support vector machines - A case study. Renewable Energy 36(2), 413-420.
Han, J. H., J. J. Choi., U. Chung., K. S. Cho, and J. P. Chun, 2009: Frostfall forecasting in the Naju pear production area based on discriminant analysis of climatic data. Korean Journal of Agricultural and Forest Meteorology 11(4), 135-142.
Chung, U., H. C. Seo, and J. I. Yun, 2004: Site- specific frost warning based on topoclimatic estimation of daily minimum temperature. Korean Journal of Agricultural and Forest Meteorology 6(3), 164-169.
Kim, S. S., H. J. Kim, S. S. Chung, and Y. K. Lee, 2014; Multivariate Data Analysis with R. Korea National Open University Press, 191-210.
Koo, J. Y., H. J. Park, D. W. Choi, and S. S. Kim, 2013: Data mining. Korea National Open University Press, 211-248 and 261-279.
Kwon, Y. A., H. S. Lee., W. T. Kwon., and K. O. Boo, 2008: The weather characteristics of frost occurrence days for protecting crops against frost damage. Journal of the Korean Geographical Society 43(6), 824-842.
Lee, J. G., 2016: R Program Recipes for Multi-Variate Analysis & Data Mining. Bullsbook, Seoul, 358pp.
Naing, W. Y. N. and Z. Z. Htike, 2015: Forecasting of monthly temperature variations using random forests. ARPN journal of Engineering and Applied Sciences 10(21).
Oh, I. S., 2013: Pattern Recognition, Kyobo Book Centre, Seoul, 95-132, and 137-170.
Robinson, C. and N. Mort, 1996: A neural network solution to the problem of frost Prediction. UKACC International Conference on Control. Control '96, 136-139.
Shank, D. B., G. Hoogenboom, and R. W. McClendon, 2008: Dewpoint Temperature Prediction Using Artificial Neural Networks. Journal of Applied Meteorology and Climatology 47(6), 1757-1769.
Smith, B. A., R. W. McClendon, and G. Hoogenboom, 2007: Improving Air Temperature Prediction with Artificial Neural Networks. International Journal of Computational Intelligence 3, 180-186.
Temeyer, B. R., W. A. Gallus Jr, K. A. Jungbluth, D. Burkheimer, and D. McCauley, 2003: Using an artificial neural network to predict parameters for frost deposition on Iowa bridgeways. Proceedings of the 2003 Mid-Continent Transportation Researchh Symposium, Iowa State University, Ames, IA, 2003.
Yoo, J. E., 2015: Random forests, an alternative data mining technique to decision tree. Journal of Educational Evaluation 28(2), 427-448.
Yong, H. S., Y. Nah, J. S. Park, H. W. Seung, M. Lee, S. Lee, and L. Choi, 2007: Data Mining, NFINITYBOOKS, 241-270 and 283-286.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.