확률강우량 추정을 위한 확률분포함수의 매개변수 추정법에 대한 신뢰성 평가 Reliability Evaluation of Parameter Estimation Methods of Probability Density Function for Estimating Probability Rainfalls원문보기
최근의 극한 수문사상은 홍수, 가뭄과 같은 심각한 재해를 발생시킨다. 많은 연구자들은 불확실한 미래의 확률강우량 및 유출량의 예측을 위해 많은 노력을 하고 있다. 본 연구에서는 불확실성이 낮은 확률강우량의 산정을 위하여 매개변수 추정법을 평가하였다. 인천, 강릉, 광주, 부산, 추풍령 관측소를 연구 대상 관측소로 선정하여 자료를 수집하였고, ARMA모형을 이용하여 합성강우자료를 구축하였다. 본 연구에서는 극치강우사상에 적합한 것으로 알려진 Gumbel 분포와 GEV 분포모형에 대한 매개변수를 최우도법과 베이지안 추론방법을 사용하여 추정하였으며, Bootstrap 방법을 이용하여 확률강우량의 신뢰구간 길이를 추정하였다. 매개변수 추정 방법별 산정된 확률강우량의 신뢰구간 길이를 비교함으로서 불확실성이 낮은 확률강우량을 산정할 수 있는 매개변수 추정방법을 선정하였다.
최근의 극한 수문사상은 홍수, 가뭄과 같은 심각한 재해를 발생시킨다. 많은 연구자들은 불확실한 미래의 확률강우량 및 유출량의 예측을 위해 많은 노력을 하고 있다. 본 연구에서는 불확실성이 낮은 확률강우량의 산정을 위하여 매개변수 추정법을 평가하였다. 인천, 강릉, 광주, 부산, 추풍령 관측소를 연구 대상 관측소로 선정하여 자료를 수집하였고, ARMA모형을 이용하여 합성강우자료를 구축하였다. 본 연구에서는 극치강우사상에 적합한 것으로 알려진 Gumbel 분포와 GEV 분포모형에 대한 매개변수를 최우도법과 베이지안 추론방법을 사용하여 추정하였으며, Bootstrap 방법을 이용하여 확률강우량의 신뢰구간 길이를 추정하였다. 매개변수 추정 방법별 산정된 확률강우량의 신뢰구간 길이를 비교함으로서 불확실성이 낮은 확률강우량을 산정할 수 있는 매개변수 추정방법을 선정하였다.
Extreme hydrologic events cause serious disaster, such as flood and drought. Many researchers have an effort to estimate design rainfalls or discharges. This study evaluated parameter estimation methods to estimate probability rainfalls with low uncertainty which will be used in design rainfalls. Th...
Extreme hydrologic events cause serious disaster, such as flood and drought. Many researchers have an effort to estimate design rainfalls or discharges. This study evaluated parameter estimation methods to estimate probability rainfalls with low uncertainty which will be used in design rainfalls. This study collected rainfall data from Incheon, Gangnueng, Gwangju, Busan, and Chupungryong gage station, and generated synthetic rainfall data using ARMA model. This study employed the maximum likelihood method and the Bayesian inference method for estimating parameters of the Gumbel and GEV distribution. Using a bootstrap resampling method, this study estimated the confidence intervals of estimated probability rainfalls. Based on the comparison of the confidence intervals, this study recommended a proper parameter estimation method for estimating probability rainfalls which have a low uncertainty.
Extreme hydrologic events cause serious disaster, such as flood and drought. Many researchers have an effort to estimate design rainfalls or discharges. This study evaluated parameter estimation methods to estimate probability rainfalls with low uncertainty which will be used in design rainfalls. This study collected rainfall data from Incheon, Gangnueng, Gwangju, Busan, and Chupungryong gage station, and generated synthetic rainfall data using ARMA model. This study employed the maximum likelihood method and the Bayesian inference method for estimating parameters of the Gumbel and GEV distribution. Using a bootstrap resampling method, this study estimated the confidence intervals of estimated probability rainfalls. Based on the comparison of the confidence intervals, this study recommended a proper parameter estimation method for estimating probability rainfalls which have a low uncertainty.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구에서는 원자료의 계열 특성을 반영하여 장기간으로 발생시킨 시계열 자료를 Bootstrap 하여 자료수의 부족에서 발생되는 불확실성을 최소화 하고자 하였다. 또한 예측된 확률강우량의 변동성에 대한 불확실성을 반영한 확률 강우량을 산정하는 것에 중점을 두어 국내 확률강우량 산정에 주로 사용되는 확률분포형과 매개변수 추정방법의 정확성을 판단하는 것에 연구의 목적을 두었다.
따라서 본 연구에서는 원자료의 계열 특성을 반영하여 장기간으로 발생시킨 시계열 자료를 Bootstrap 하여 자료수의 부족에서 발생되는 불확실성을 최소화 하고자 하였다. 또한 예측된 확률강우량의 변동성에 대한 불확실성을 반영한 확률 강우량을 산정하는 것에 중점을 두어 국내 확률강우량 산정에 주로 사용되는 확률분포형과 매개변수 추정방법의 정확성을 판단하는 것에 연구의 목적을 두었다. 본 연구를 수행하기 위하여 국내 강우의 지역적 특성을 대표할 수 있고 강우 관측 기록 연한이 30년 이상으로 강우 빈도해석시, 자료수의 부족으로 문제가 없을 것으로 판단된 인천, 강릉, 광주, 추풍령, 부산지역의 강우관측소의 지속기간 24시간 연최대치 강우량 자료를 이용하여 빈도해석을 실시하였으며 신뢰구간을 산정하여 비교분석하였다.
본 연구에서는 확률강우량의 불확실성 분석을 통하여 매개 변수추정 방법별, 분포형별로 신뢰성이 높은 결과를 추정하는 매개변수 추정방법 및 확률분포형을 평가하고자 하였다. 매개 변수 추정방법으로는 고전적인 통계방법 중의 하나로 근사식을 이용하는 최우도법과 추정치의 불확실성을 최소화할 수 있다고 알려진 베이지안 추론 방법을 사용하여 비교하였다.
2) 신뢰구간 길이를 산정하여 불확실성을 분석한 결과 베이지안 추론방법을 선택하여 확률강우량을 산정한 분포 모형이 최우도법을 사용한 모형보다 현저하게 좁은 신뢰구간을 산출하는 것을 확인할 수 있었다. 이는 베이지안 추론방법의 추정치는 우도함수에 근거한 완전 조건부 사후분포와 완전 조건부 사후분포의 목적 함수로 추정한 제안 분포사이에서 채택율을 높이며 매개변수의 추정치를 추출함으로서 추정치들의 표준편차가 작은 결과를 산출하는데 기인한다.
제안 방법
따라서 매개변수 산정방법 또는 분포형 별로 추정된 신뢰 구간을 비교하여, 좁은 신뢰구간을 산출하는 분포형별 매개변수 추정법이 통계적 유의성이 높은 확률강우량을 산정한다는 근거로 확률강우량 추정치의 정확도를 비교하였다. 신뢰구간의 불확실성은 변동계수를 이용하여 정량화하였다.
하지만 확률가중모멘트법의 경우 자료를 오름차순 정렬 후 큰 자료로 갈수록 큰 가중치를 주기 때문에 재현기간이 큰 경우에 모멘트법이나 최우도법보다 지나치게 높은 확률강우량을 산정할 수 있다(정종호와 윤용남, 2007). 따라서 본 연구에서는 최우도법을 적용하였다. 또한 고전적 통계방법의 매개변수 추정방법의 하나인 최우도법과 빈도해석의 결과를 비교하기 위해 분포형별 매개 변수의 사후분포를 형성시켜 사후분포의 최빈치에 해당하는 값을 최우추정치로 산정하는 베이지안 추정방법을 사용하였다.
매개 변수 추정방법으로는 고전적인 통계방법 중의 하나로 근사식을 이용하는 최우도법과 추정치의 불확실성을 최소화할 수 있다고 알려진 베이지안 추론 방법을 사용하여 비교하였다. 또한 확률분포형은 극치강우사상에 널리 사용되고 있는 Gumbel 분포형과 GEV 분포형을 선정하여 분석을 실시하였다. Bootstrap 방법을 이용하여 연속된 곡선의 신뢰구간 추정 방법을 이용하여 신뢰성 분석을 실시한 결과 다음과 같은 결론을 도출하였다.
또한 예측된 확률강우량의 변동성에 대한 불확실성을 반영한 확률 강우량을 산정하는 것에 중점을 두어 국내 확률강우량 산정에 주로 사용되는 확률분포형과 매개변수 추정방법의 정확성을 판단하는 것에 연구의 목적을 두었다. 본 연구를 수행하기 위하여 국내 강우의 지역적 특성을 대표할 수 있고 강우 관측 기록 연한이 30년 이상으로 강우 빈도해석시, 자료수의 부족으로 문제가 없을 것으로 판단된 인천, 강릉, 광주, 추풍령, 부산지역의 강우관측소의 지속기간 24시간 연최대치 강우량 자료를 이용하여 빈도해석을 실시하였으며 신뢰구간을 산정하여 비교분석하였다.
본 연구에서는 ARMA 모형과 Bootstrap 방법을 이용하여 자료를 모의 발생시켜 확률강우량의 신뢰구간을 산정하였다. 추계학적 자료발생 방법은 관측자료의 통계학적 특성을 유지하면서 보다 장기간 동안의 자료를 인위적으로 발생시키는 방법이다.
본 연구에서는 Gumbel 분포와 GEV 분포에 대하여 최우도법과 베이지안 추론법을 사용하여 매개변수를 추정하여 재현기간에 대한 확률강우량을 추정하였다. 또한 ARMA 모형에 의해 장기간의 합성강우량을 발생한 후 발생된 합성강우 자료를 무작위 반복 추출하여 자료집단을 만드는 Bootstrap 방법을 이용하여 신뢰구간을 추정하였다.
5 mm의 강우량을 기록하며 강릉지역을 강타한 태풍 루사의 영향을 받은 결과이다. 본 연구에서는 각 지점의 지속기간별 연 최대치 강우자료 중 대표적으로 지속기간 24시간의 강우자료를 이용하여 빈도해석 및 불확실성 분석을 실시하였다.
일반적으로 최우도법을 사용하며 가장 효율적인 매개변수 추정치를 얻을 수 있으며, 표본자료의 크기가 충분할 때 매개변수 추정을 위한 다른 방법의 매개변수 추정의 효율성을 비교 평가하는 기준으로 사용되기도 한다. 본 연구에서는 우도함수(식(2)와 (3))를 대수우도함수로 변환한 후 편미분 연립방정식을 이용하여 매개변수를 추정하였다. 표 2에 최우도법에 의해 추정된 매개변수(MLE)를 나타내었다,
추계학적 자료발생 방법은 관측자료의 통계학적 특성을 유지하면서 보다 장기간 동안의 자료를 인위적으로 발생시키는 방법이다. 본 연구에서는 자기상관함수(Auto Correlation Function, ACF)와 부분자기상관함수(Patial Auto Correlation Function, PACF)을 이용하여 식(5)의 ARMA모형의 차수를 결정하였다. 본 연구에서는 1000개의 합성강우량을 발생시켰으며, 발생된 초기 값은 원자료의 평균을 사용하기 때문에이 초기값은 연속적으로 발생되는 강우량의 값에 큰 영향을 미치므로(윤용남, 2004), 초기 50개의 강우량은 계열로부터 제거하고 나머지 총 950개의 합성강우자료를 이용하였다.
본 연구에서는 재현기간 10, 20, 50, 80, 100, 200, 500년 등 대부분의 수공구조물 설계에 필요한 확률강우량을 산정하였다. 500년은 일반적인 국내 수공구조물 설계 기준에 벗어나나, 최근에 거론되고 있는 이상 강우의 규모를 판단하는데 참고할 수 있도록 하였다(건설교통부, 2000).
따라서 매개변수 산정방법 또는 분포형 별로 추정된 신뢰 구간을 비교하여, 좁은 신뢰구간을 산출하는 분포형별 매개변수 추정법이 통계적 유의성이 높은 확률강우량을 산정한다는 근거로 확률강우량 추정치의 정확도를 비교하였다. 신뢰구간의 불확실성은 변동계수를 이용하여 정량화하였다. 전 대상지점에 대하여 재현기간별 변동계수를 산정하고 표 5에 산정결과를 나타내었다.
전 지점에 대해 자기상관도(Auto Correlation Correlogram, ACC)와 부분자기상관도(Patial Auto Correlation Correlogram, PACC)을 이용하여 ARMA 모형의 차수를 결정하였다. 대표적으로 그림 3(a)와 (b)는 각각 강릉지점의 ACC와 PACC의 결과를 타나내며 그림 3(c)는 강릉지점의 합성 강우량을 나타낸다.
따라서 ARMA(0,0)을 사용하는 것이 적합하다고 판단되며 백색잡음(white noise)을 발생시켜 확정론 적(deterministic)인 성분인 원강우량의 평균에 합하여 합성강우량을 발생시켰다. 합성강우량을 모집단으로 하여 Bootstrap 방법을 통하여 1000개 표본자료를 추출하여 최종적으로 950행 1000열의 자료 행렬을 발생시켰으며 최종 발생된 자료는 확률강우량의 신뢰구간 추정에 사용되었다.
대상 데이터
본 연구에서는 자기상관함수(Auto Correlation Function, ACF)와 부분자기상관함수(Patial Auto Correlation Function, PACF)을 이용하여 식(5)의 ARMA모형의 차수를 결정하였다. 본 연구에서는 1000개의 합성강우량을 발생시켰으며, 발생된 초기 값은 원자료의 평균을 사용하기 때문에이 초기값은 연속적으로 발생되는 강우량의 값에 큰 영향을 미치므로(윤용남, 2004), 초기 50개의 강우량은 계열로부터 제거하고 나머지 총 950개의 합성강우자료를 이용하였다.
본 연구에서는 우리나라의 지역적인 분포를 최대한 고려하기 위하여 1961년부터 2006년까지의 46개년 시 강우자료(hourly rainfall data)를 서울 · 경기, 충청북도, 전라남도, 강원도, 경상도의 30년 이상의 관측기간을 가진 대표 강우 관측소(그림 1)를 선정한 후, 1961-2006년 기간의 강우자료를 수집하여 지속기간별 연 최대치 자료를 추출하였다.
데이터처리
MetropolisHastings algorithm은 제안분포와 전체조건부 사후분포로부터 매개변수를 표본 추출할 시 전이 확률을 도출하며, Gibbs sampling 시의 전시간상태의 매개변수를 추출해 주는 역할을 한다. MCMC 방법에 의해 각 매개변수별 추정치가 추출된 후 추출된 추정치를 이용하여 평균값을 산정하여 각 매개변수의 최우추정치를 산정하였다. 표 2에 베이지안 추정방법에 의해 추정된 매개변수를 나타내었다.
Bootstrap 방법을 통해 발생된 자료에 의해 산정된 재현기간별 확률강우량은 각 재현기간 마다 극한중심정리를 따라 정규분포로 근사된다. 따라서 각 재현기간에 해당하는 95% 신뢰구간의 상한값과 하한값을 산정하였고 신뢰구간의 길이를 산정하여 매개변수별 확률분포형별로 비교하여 불확실성 분석을 실시하였다. 연구의 수행 절차를 그림 2에 나타내었다.
본 연구에서는 확률강우량의 불확실성 분석을 통하여 매개 변수추정 방법별, 분포형별로 신뢰성이 높은 결과를 추정하는 매개변수 추정방법 및 확률분포형을 평가하고자 하였다. 매개 변수 추정방법으로는 고전적인 통계방법 중의 하나로 근사식을 이용하는 최우도법과 추정치의 불확실성을 최소화할 수 있다고 알려진 베이지안 추론 방법을 사용하여 비교하였다. 또한 확률분포형은 극치강우사상에 널리 사용되고 있는 Gumbel 분포형과 GEV 분포형을 선정하여 분석을 실시하였다.
이론/모형
또한 확률분포형은 극치강우사상에 널리 사용되고 있는 Gumbel 분포형과 GEV 분포형을 선정하여 분석을 실시하였다. Bootstrap 방법을 이용하여 연속된 곡선의 신뢰구간 추정 방법을 이용하여 신뢰성 분석을 실시한 결과 다음과 같은 결론을 도출하였다.
본 연구에서는 Gumbel 분포와 GEV 분포에 대하여 최우도법과 베이지안 추론법을 사용하여 매개변수를 추정하여 재현기간에 대한 확률강우량을 추정하였다. 또한 ARMA 모형에 의해 장기간의 합성강우량을 발생한 후 발생된 합성강우 자료를 무작위 반복 추출하여 자료집단을 만드는 Bootstrap 방법을 이용하여 신뢰구간을 추정하였다. Bootstrap 방법을 통해 발생된 자료에 의해 산정된 재현기간별 확률강우량은 각 재현기간 마다 극한중심정리를 따라 정규분포로 근사된다.
따라서 본 연구에서는 최우도법을 적용하였다. 또한 고전적 통계방법의 매개변수 추정방법의 하나인 최우도법과 빈도해석의 결과를 비교하기 위해 분포형별 매개 변수의 사후분포를 형성시켜 사후분포의 최빈치에 해당하는 값을 최우추정치로 산정하는 베이지안 추정방법을 사용하였다.
본 연구에서는 균일분포를 사전분포로 선정하였고, 마코프 연쇄를 구성하기 위한 방법으로 Gibbs sampler를 사용하였으며, 마코프 연쇄를 구성하며 추출되는 매개변수의 채택율을 높이고 계산의 효율성을 극대화하기 위하여 Metropolis-Hastings algorithm을 이용하여 베이지안 추론을 전개하였다. Gibbs sampler는 다차원의 결합 확률분포가 복잡하여 직접 랜덤표본을 생성하기 어려운 경우 각 변수의 조건부 확률로부터 랜덤 표본을 반복적으로 생성하면 적절한 조건 하에서 이들의 극한분포가 결합밀도함수가 된다는 사실에 근거하여 난수를 생성하는 방법이다.
확률강우량의 신뢰구간 추정을 위해 재현기간별 확률강우량의 결과값이 정규분포를 생성할 수 있도록 Bootstrap 방법을 이용하였다. 원자료를 이용하여 추정한 확률강우량과 발생자료를 이용하여 추정한 95% 신뢰구간(confidential band)의 길이를 표 4에 나타내었다.
성능/효과
1) 최우도법과 베이지안 추론방법에 의해 추정된 매개변수 추정치의 비교 결과, 매개변수 추정치의 차이는 크지 않았으나 유의수준 5%에서의 추정치의 신뢰구간은 베이지안 추론방법이 좁게 나타나는 것을 확인하였다.
2) 신뢰구간 길이를 산정하여 불확실성을 분석한 결과 베이지안 추론방법을 선택하여 확률강우량을 산정한 분포 모형이 최우도법을 사용한 모형보다 현저하게 좁은 신뢰구간을 산출하는 것을 확인할 수 있었다. 이는 베이지안 추론방법의 추정치는 우도함수에 근거한 완전 조건부 사후분포와 완전 조건부 사후분포의 목적 함수로 추정한 제안 분포사이에서 채택율을 높이며 매개변수의 추정치를 추출함으로서 추정치들의 표준편차가 작은 결과를 산출하는데 기인한다.
3) 매개변수 추정방법을 기준으로 비교 시 Gumbel 분포형이 GEV 분포형 보다 좁은 신뢰구간을 산출함을 확인하였다. GEV 분포의 확률강우량은 형상매개변수에 민감하게 반응하고, 형상매개변수의 변동폭이 다른 매개변수의 변동폭보다 크개 나타났다.
3) 매개변수 추정방법을 기준으로 비교 시 Gumbel 분포형이 GEV 분포형 보다 좁은 신뢰구간을 산출함을 확인하였다. GEV 분포의 확률강우량은 형상매개변수에 민감하게 반응하고, 형상매개변수의 변동폭이 다른 매개변수의 변동폭보다 크개 나타났다. 따라서, 형상매개변수를 가지는 GEV 분포가 Gumbel 분포 보다 넓은 신뢰구간을 가진다.
모든 지점에서 재현기간의 증가에 따라 신뢰구간 길이도 증가하는 결과를 나타낸다. 또한 같은 분포형에서 매개변수 추정방법에 따른 신뢰구간 길이만을 비교했을 경우 베이지안 추론방법이 MLE 보다 현저히 좁은 신뢰구간을 산출하였다. 이는 우도함수와 이를 이용하여 유도한 완전 조건부 사후분포와 제안분포를 이용하여 Gibbs sampling 할 경우 Metropolis-Hastings algorithm을 이용하여 채택율을 높여 추정값들의 표준편차를 줄이며 매개변수의 추정치를 추정한 것에 기인한다.
본 연구에서는 실용적이고 신뢰성이 높은 검정 결과를 산출하는 검정과 K-S 검정 방법을 이용하여 각 지점별로 관측자료가 Gumbel 분포형과 GEV 분포형을 따른다는 귀무가설(null hypothesis)을 유의수준 5%에서 적합도 검정을 하였다. 5개 지점 모두 검정값이 한계값보다 작게 산출되어 적합도 검정을 통과하였다.
표 3에 원자료(raw data)를 이용하여 산정한 각 지점별 재현기간-확률강우량을 나타내었다. 표 3의 결과로부터 각 지점별로 동일 추정법을 기준으로 비교시 GEV 분포가 Gumbel 분포보다 높게 확률강우량을 산정하는 경향을 알 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
최우도법이란 무엇인가?
최우도법은 표본자료가 나올 확률이 최대가 되도록 확률분포모형의 매개변수를 추정하는 방법이다. 주어진 표본자료에대한 매개변수의 최우추정치(Maximum Likelihood Estimator, MLE)는 표본의 확률 혹은 확률밀도를 최대화하는 매개변수이다.
베이지안 추론방법의 기본적인 두 가지 항은 무엇인가?
베이지안 추론방법은 기본적으로 두 가지의 항을 가지고 있다. 하나는 X|θ~f(x|θ)로 표현되는 우도함수항이며, 다른 하나는θ~π(θ)로 표현되는 사전분포항이다. 우도함수항과 사전분포항은 식 (4)와 같은 베이즈 정리(Bayes' Theorem)를 이용하여 추정할 수 있다.
수문자료의 불확실성이 발생하는 원인은 무엇인가?
수문자료의 불확실성은 측정 또는 수집된 자료의 수가 충분치 못하여 본래의 수문량의 성향을 적절히 반영하지 못하는 점, 수문량의 오차, 수문량의 시간·공간적인 변화의 미반영에 의해 발생한다. 확률분포형을 적용하는 경우에도 선택된 확률분포형이 강우의 특성이나 유출량 등의 수문특성을 완벽 하게 재현할 수는 없으므로 확률분포형의 선정과 선택된 확률분포형으로부터 산정된 결과의 불확실성을 내포하게 된다.
참고문헌 (12)
건설교통부 (2000) 1999년도 수자원관리기법개발 연구조사 보고서, 제 1권 한국 확률강우량도 작성, pp. 77-114
김달호 (2005) R과 WinBUGS를 이용한 베이지안 통계학. 자유 아카데미
김상욱, 이길성 (2008) Bayesian MCMC를 이용한 저수량 점빈도분석: II.적용과 비교분석. 한국수자원학회 논문집, 한국수자원학회, 제41권, 제1호, pp. 46-63
Chowdhury, J.U. and Stedinger, J.R. (1991) Confidence interval for design flood with estimated skew coefficient. Journal of Hydraulic Engineering, Vol. 117, No. 7, pp. 811-931
Reis Jr., D.S. and Stedinger, J.R. (2005) Bayesian MCMC flood frequency analysis with historical information. Journal of Hydrology, Vol. 313, No. 1, pp. 97-116
※ AI-Helper는 부적절한 답변을 할 수 있습니다.