신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.
신뢰구간 추정에 널리 사용되고 있는 Wald, Agresti-Coull, 그리고 베이지안 방법인 Jeffrey와 Bayes-Laplace를 예측구간에 적용하였다. 네 가지 방법의 수치적 비교를 위해서 포함확률, 평균포함확률, 평균제곱오차의 제곱근, 그리고 평균기대폭을 사용하였다. 비교결과 Wald 방법은 신뢰구간에서와 마찬가지로 예측구간에서도 바람직하지 않았고 신뢰구간에서 선호되던 Agresti-Coull 방법은 예측구간에서는 너무 보수적이라 적절치 않다. 반면에 Jeffrey와 Bayes-Laplace 방법은 적절하였고, 특히 Jeffrey 방법은 신뢰구간의 경우에서와 마찬가지로 예측구간에서도 바람직하였다.
Wald, Agresti-Coull, Jeffreys, and Bayes-Laplace methods are commonly used for confidence interval of binomial proportion are applied for prediction intervals. We used coverage probability, mean coverage probability, root mean squared error, and mean expected width for numerical comparisons. From th...
Wald, Agresti-Coull, Jeffreys, and Bayes-Laplace methods are commonly used for confidence interval of binomial proportion are applied for prediction intervals. We used coverage probability, mean coverage probability, root mean squared error, and mean expected width for numerical comparisons. From the comparisons, we found that Wald is not proper as for confidence interval and Agresti-Coull is too conservative to differ from confidence interval. However, Jeffrey and Bayes-Laplace are good for prediction interval and Jeffrey is especially desirable as for confidence interval.
Wald, Agresti-Coull, Jeffreys, and Bayes-Laplace methods are commonly used for confidence interval of binomial proportion are applied for prediction intervals. We used coverage probability, mean coverage probability, root mean squared error, and mean expected width for numerical comparisons. From the comparisons, we found that Wald is not proper as for confidence interval and Agresti-Coull is too conservative to differ from confidence interval. However, Jeffrey and Bayes-Laplace are good for prediction interval and Jeffrey is especially desirable as for confidence interval.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구에서는 관심 모수값이 작다는 것이 알려져 있거나 관심특성에 대한 사전 관측값이 없는 상태에서도 적합한 예측구간에 대한 문제를 다루고자 한다. 이항비율에 대한 신뢰구간 추정에서 X = 0인 경우에도 p에 대한 추정이 가능한 Agresti-Coull 방법과 이항모수에 대한 사전분포로 무정보적사전분포(noninformative prior)를 이용한 Jeffrey와 Bayes-Laplace 방법을 사용한다.
본 연구에서는 이항자료에 대한 예측구간의 문제를 다루었다. 과거와 미래의 관측값 X와 Y가 독립이면서 각각 B(n, p)와 B(m, p)인 분포를 할 때, 과거의 관측값을 기반으로 Y에 대한 예측구간에 관한 것이다.
가설 설정
여기서 p는 미지 모수이다. 미래의 표본은 과거의 표본과 독립임을 가정한다. 사전에 관측된 X를 바탕으로 미래에 관측될 Y 에 대한 대표본근사 100(1 − α)% 양측예측구간[L(X), U(X)]은 다음과 같다.
제안 방법
에 영향을 받으므로 앞에서도 언급한 네 가지 이항비율에 대한 신뢰구간 추정 방법을 사용하였다. 그리고 예측구간은 사전 관측수 n과 미래의 관측수 m의 함수이므로 이들의 변화에 따라 예측방법의 차이를 수치적으로 비교하였다. 예측구간의 평가는 신뢰구간 선정의 주요 기준인 포함확률(CP), 평균포함확률(MCP), 평균제곱오차의 제곱근(RMSE), 그리고 평균기대폭(MEW)을 사용하였다.
여기서는 Jeffrey’s prior, Beta(1/2, 1/2)와 Bayes-Laplace prior, Beta(1, 1)을 사용한다 (Tuyl 등, 2009). 두 사전분포로부터 사후분포를 구하고 사후평균을 p의 추정치로 사용하여 예측구간을 구한다. 사전 관측값 X가 이항분포, B(n, p)를 하고 모비율 p의 사전분포가 베타분포, Beta(a, b)를 하는 경우 사후분포도 같이 베타분포, Beta(a + X, b + n − X)를 하므로 이들의 사후평균은 (a + x)/(a + b + n)이 된다.
이러한 이유로 모수공간의 값을 유도하여 최소포함확률과 평균포함확률을 정확히 계산하는 방법을 제시하였고, 베이지안 관점에서도 다루었다. 또한 예측구간의 포함확률이 명목수준에 근사하도록 개선된 예측구간을 제안하였다.
미래 관측값에 대한 예측구간은 이항비율의 추정값 #에 영향을 받으므로 앞에서도 언급한 네 가지 이항비율에 대한 신뢰구간 추정 방법을 사용하였다. 그리고 예측구간은 사전 관측수 n과 미래의 관측수 m의 함수이므로 이들의 변화에 따라 예측방법의 차이를 수치적으로 비교하였다.
특히 표본이 작은 경우 정규근사를 사용하기 어려우므로 예측구간이 부정확해져서 실제 적용에 어려움이 있다. 이러한 이유로 모수공간의 값을 유도하여 최소포함확률과 평균포함확률을 정확히 계산하는 방법을 제시하였고, 베이지안 관점에서도 다루었다. 또한 예측구간의 포함확률이 명목수준에 근사하도록 개선된 예측구간을 제안하였다.
데이터처리
3절에서 다룬 예측구간을 구하는 네 가지 방법들(Wald, AC, Jeffrey, BL)을 통계패키지 R(Ver. 3.0.1)을 사용하여 수치적으로 비교하였다. 과거와 미래의 관측값 X와 Y 가 독립이면서 각각 B(n, p)와 B(m, p)인 분포를 할 때, 미래 관측값 Y 에 대한 예측구간은 식 (2.
그리고 예측구간은 사전 관측수 n과 미래의 관측수 m의 함수이므로 이들의 변화에 따라 예측방법의 차이를 수치적으로 비교하였다. 예측구간의 평가는 신뢰구간 선정의 주요 기준인 포함확률(CP), 평균포함확률(MCP), 평균제곱오차의 제곱근(RMSE), 그리고 평균기대폭(MEW)을 사용하였다.
한편 포함확률이 명목수준으로부터 얼마나 떨어져 있는가를 나타내는 척도로 다음과 같은 평균제곱오차의 제곱근(root mean square error; RMSE)을 사용한다.
이론/모형
하지만 사전 관측값이 없어도 p에 대한 추정값을 대체하는 방법을 고려할 수 있다. 여기서는 p에 대한 신뢰구간 추정에 아주 유용한 Agresti-Coull(AC)의 방법을 사용한다.
따라서 본 연구에서는 관심 모수값이 작다는 것이 알려져 있거나 관심특성에 대한 사전 관측값이 없는 상태에서도 적합한 예측구간에 대한 문제를 다루고자 한다. 이항비율에 대한 신뢰구간 추정에서 X = 0인 경우에도 p에 대한 추정이 가능한 Agresti-Coull 방법과 이항모수에 대한 사전분포로 무정보적사전분포(noninformative prior)를 이용한 Jeffrey와 Bayes-Laplace 방법을 사용한다.
성능/효과
이상의 수치적 비교에 의하면, Wald 방법은 신뢰구간에서 뿐만 아니라 예측구간에서도 적절치 않다. 특히, 사전 관측수 n이 작거나 미래의 관측수 m이 증가할수록 바람직하지 않다.
후속연구
이항자료에서 관심 특성에 대한 사전 관측값이 0이라는 것은 추정하고자하는 이항비율이 0이라는 것이 아니고 현재의 실험이나 시행에서 얻어지지 못하였다는 것을 의미하는 것이다. 따라서 향후의 실험이나 시행에서는 언제든지 관찰이 가능할 것이다. 우리들의 관심은 현재 관심 특성에 대한 관측값이 없는 상태에서도 미래의 관측에 대한 추정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
통계적 추론에서 예측구간이란?
통계적 추론에서 예측구간은 이미 관측된 자료를 이용해서 임의의 확률을 갖고 미래의 관찰값들이 포함될 구간에 대한 추정이다. 예측구간이 개개의 미래 값들의 분포를 예측하는 반면에, 신뢰구간(또는 credible interval)은 미지의 모수값을 추정하는 것이다.
이항자료에서 관심 특성에 대한 사전 관측값이 0이라는 것의 의미는?
이항자료에서 관심 특성에 대한 사전 관측값이 0이라는 것은 추정하고자하는 이항비율이 0이라는 것이 아니고 현재의 실험이나 시행에서 얻어지지 못하였다는 것을 의미하는 것이다. 따라서 향후의 실험이나 시행에서는 언제든지 관찰이 가능할 것이다.
현재 관심 특성에 대한 관측값이 없는 상태에서도 미래의 관측에 대한 추정이 의미하는 것은?
우리들의 관심은 현재 관심 특성에 대한 관측값이 없는 상태에서도 미래의 관측에 대한 추정이다. 즉, 미래 관측에 대한 예측구간을 구하는 것이다.
참고문헌 (17)
Agresti, A. and Coull, B. A. (1998). Approximate is better than "Exact" for interval estimation of Binomial proportions, The American Statistician, 52, 119-126.
Brown, L. D., Cai, T. T. and DasGupta, A. (2001). Interval estimation for a binomial proportion(with discussion), Statistical Science, 16, 101-133.
Brown, L. D., Cai, T. T. and DasGupta, A. (2002). Confidence intervals for a binomial proportion and asymptotic expansions, The Annals of Statistics, 30, 160-201.
Geisser, S. (1984). On prior distribution for binary trials(with discussion), The American Statistician, 38, 244-247.
Hahn, G. J. and Meeker, W. Q. (1991). Statistical Intervals - A Guide for Practitioners, John Wiley & Sons, Inc.
Hall, P. and Rieck, A. (2001). Improving coverage accuracy of nonparametric prediction intervals, Journal of the Royal Statistical Society, Series B, 63, 717-725.
Ryu, J. B. (2010). The effect of adjusting the extreme values inWald confidence interval, Journal of Research Institute of Industrial Sciences, 28, 29-34.
Ryu, J. B. (2011). The influence of extreme value in binomial confidence interval, Communications of the Korean Statistical Society, 18, 615-623.
Tuyl, F., Gerlach, R. and Mengersen, K. (2008). A comparison of Bayes-Laplace, Jeffreys, and other priors: The case of zero events, The American Statistician, 62, 40-44.
Tuyl, F., Gerlach, R. and Mengersen, K. (2009). Posterior predictive arguments in favor of the Bayes-Laplace prior as the consensus priors for binomial and multinomial parameters, Bayesian Analysis, 4, 151-158.
Winkler, R. L., Smith, J. E. and Fryback, D. G. (2002). The role of informative priors in zero-numerator problems: Being conservative versus being candid, The American Statistician, 56, 1-4.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.