자동차보험의 손해율이란 지급보험금의 수입보험료에 대한 비율을 의미한다. 손해율이 매우 큰 값을 갖는 대형손실이 일어나는 경우에는 보험회사의 재무적인 부분에 큰 악영향을 미치게 된다. 따라서 보험회사가 이에 대비할 수 있도록 하기 위하여 손해율의 극단 분위수(extremequantile)를 추정하는 것은 매우 중요한 일이다. 다른 종류의 보험 관련 데이터와 같이 손해율의 분포는 오른쪽으로 긴 꼬리를 갖는 두꺼운 꼬리분포(heavy-tailed distribution)를 갖는다. 이런 자료에서 극단 분위수룰 추정하기 위하여 가장 많이 사용되는 방법론은 POT(Peaks over threshold)와 Hill 추정(Hill estimation)이다. 본 논문에서는 일반화파레토분포(generalized Pareto distribution; GPD)의 다양한 모수추정방법론의 성능을 모의실험과 실제 손해율 데이터를 사용하여 비교, 분석하였다. 또한 Hill 추정치를 사용하여 극단 분위수를 추정하였다. 그 결과 대부분의 경우에 POT 방법론이 Hill 추정치를 이용한 방법보다 정확한 분위수를 추정하였고, 모수추정방법론 중에서는 MLE, Zhang, NLS-2 방법론이 가장 좋은 결과를 보여주었다.
자동차보험의 손해율이란 지급보험금의 수입보험료에 대한 비율을 의미한다. 손해율이 매우 큰 값을 갖는 대형손실이 일어나는 경우에는 보험회사의 재무적인 부분에 큰 악영향을 미치게 된다. 따라서 보험회사가 이에 대비할 수 있도록 하기 위하여 손해율의 극단 분위수(extreme quantile)를 추정하는 것은 매우 중요한 일이다. 다른 종류의 보험 관련 데이터와 같이 손해율의 분포는 오른쪽으로 긴 꼬리를 갖는 두꺼운 꼬리분포(heavy-tailed distribution)를 갖는다. 이런 자료에서 극단 분위수룰 추정하기 위하여 가장 많이 사용되는 방법론은 POT(Peaks over threshold)와 Hill 추정(Hill estimation)이다. 본 논문에서는 일반화파레토분포(generalized Pareto distribution; GPD)의 다양한 모수추정방법론의 성능을 모의실험과 실제 손해율 데이터를 사용하여 비교, 분석하였다. 또한 Hill 추정치를 사용하여 극단 분위수를 추정하였다. 그 결과 대부분의 경우에 POT 방법론이 Hill 추정치를 이용한 방법보다 정확한 분위수를 추정하였고, 모수추정방법론 중에서는 MLE, Zhang, NLS-2 방법론이 가장 좋은 결과를 보여주었다.
In car insurance, the loss ratio is the ratio of total losses paid out in claims divided by the total earned premiums. In order to minimize the loss to the insurance company, estimating extreme quantiles of loss ratio distribution is necessary because the loss ratio has essential prot and loss infor...
In car insurance, the loss ratio is the ratio of total losses paid out in claims divided by the total earned premiums. In order to minimize the loss to the insurance company, estimating extreme quantiles of loss ratio distribution is necessary because the loss ratio has essential prot and loss information. Like other types of insurance related datasets, the distribution of the loss ratio has heavy-tailed distribution. The Peaks over Threshold(POT) and the Hill estimator are commonly used to estimate extreme quantiles for heavy-tailed distribution. This article compares and analyzes the performances of various kinds of parameter estimating methods by using a simulation and the real loss ratio of car insurance data. In addition, we estimate extreme quantiles using the Hill estimator. As a result, the simulation and the loss ratio data applications demonstrate that the POT method estimates quantiles more accurately than the Hill estimation method in most cases. Moreover, MLE, Zhang, NLS-2 methods show the best performances among the methods of the GPD parameters estimation.
In car insurance, the loss ratio is the ratio of total losses paid out in claims divided by the total earned premiums. In order to minimize the loss to the insurance company, estimating extreme quantiles of loss ratio distribution is necessary because the loss ratio has essential prot and loss information. Like other types of insurance related datasets, the distribution of the loss ratio has heavy-tailed distribution. The Peaks over Threshold(POT) and the Hill estimator are commonly used to estimate extreme quantiles for heavy-tailed distribution. This article compares and analyzes the performances of various kinds of parameter estimating methods by using a simulation and the real loss ratio of car insurance data. In addition, we estimate extreme quantiles using the Hill estimator. As a result, the simulation and the loss ratio data applications demonstrate that the POT method estimates quantiles more accurately than the Hill estimation method in most cases. Moreover, MLE, Zhang, NLS-2 methods show the best performances among the methods of the GPD parameters estimation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
GPD를 따르는 데이터에서의 분위수 추정방법의 정확성을 살펴보기 위하여 모의실험을 수행하였다. 모의실험의 과정을 단계별로 살펴보면 다음과 같다.
우선 모의실험을 통하여 GPD분포에서 생성된 자료를 이용하여 여러 극단적인 분위수를 추정하는 방법들의 정확도를 비교하여 본다. 그 후, 실제 손해율 데이터를 이용한 실증분석을 통해 모의실험에서 사용한 방법들이 얼마나 정확하게 극단 분위수를 추정하는지 알아보도록 한다.
손해율 데이터는 넓은 구간에 걸쳐 분포되어 있으므로 전체적으로 모형에 적합시키는 방법보다는 임계점을 초과하는 꼬리 부분의 데이터만을 일반화파레토분포(generalized Pareto distribution; GPD)에 근사화시키는 방법을 이용한다. 분위수 추정에 사용되는 방법은 여러 가지 방법이 있지만 그 중에서도 가장 많이 사용되는 POT(Peaks over threshold)방법론과 Hill 추정 방법을 이용하여 극단 분위수를 추정하는 것이 본 논문의 목표이다. 우선 모의실험을 통하여 GPD분포에서 생성된 자료를 이용하여 여러 극단적인 분위수를 추정하는 방법들의 정확도를 비교하여 본다.
제안 방법
그래프의 실선은 손해율의 90% 분위수 값을 임계점 u로 지정한 경우이다. 그래프를 통해서는 정확한 임계점을 값을 알아내기 어렵지만 90% 분위수 이상에서 충분히 GPD분포를 따른다고 여기지기 때문에 90% 분위수 이상의 값을 임계점으로 설정하기로 하였다. 그리하여 임계점의 값을 손해율 자료의 90% 분위수, 92% 분위수, 94% 분위수, 96% 분위수, 96% 분위수로 지정하였다.
그래프를 통해서는 정확한 임계점을 값을 알아내기 어렵지만 90% 분위수 이상에서 충분히 GPD분포를 따른다고 여기지기 때문에 90% 분위수 이상의 값을 임계점으로 설정하기로 하였다. 그리하여 임계점의 값을 손해율 자료의 90% 분위수, 92% 분위수, 94% 분위수, 96% 분위수, 96% 분위수로 지정하였다. 각 임계점 값과 임계점을 초과하는 데이터의 수(Nu)는 다음의 표 5.
1의 손해율의 히스토그램를 살펴보면 극단적인 값들이 존재하기 때문에 뚜렷한 분포형태를 찾을 수가 없다. 따라서 손해율에 log를 취하여 그래프를 그려 분포를 알아보았다. 손해율은 최소값이 0%, 중간값이 10.
본 장에서는 우리나라 자동차 보험회사의 손해율을 이용하여 실증분석을 실시하였다. 먼저 손해율은 지급보험금의 수입보험료에 대한 비율을 말한다.
3에서는 각 임계점에 따른 분위수의 추정치가 실제 분위수 값을 비교하기 위한 절대오차(absolute error)와 절대 상대편향을 보여준다. 실제 data의 분위수를 계산해서 그 값을 참값으로 두고, 여러 가지 분위수 추정 방법을 사용해서 나온 추정치와 비교하여 절대오차와 절대상대편향을 계산하였다.
POT 방법론을 사용하기 위해서는 GPD의 형태모수 ξ와 척도모수 σ의 추정이 우선적으로 이루어져야 한다. 우리는 다양한 모수추정 방법론을 이용하여 극단분위수를 추정하고 그 결과를 비교해보았다. 모의실험에서는 NLS-2, Zhang, MLE방법론의 결과가 가장 우수했고, 자동차 손해보험율의 추정에서는 임계점이 90%∼95% 분위수인 경우에는 Pickands와 Zhang 방법이, 96%∼98%를 임계점으로 사용한 경우에는 NLS-2와 MLE 방법이 가장 좋은 결과를 보여주었다.
분위수 추정에 사용되는 방법은 여러 가지 방법이 있지만 그 중에서도 가장 많이 사용되는 POT(Peaks over threshold)방법론과 Hill 추정 방법을 이용하여 극단 분위수를 추정하는 것이 본 논문의 목표이다. 우선 모의실험을 통하여 GPD분포에서 생성된 자료를 이용하여 여러 극단적인 분위수를 추정하는 방법들의 정확도를 비교하여 본다. 그 후, 실제 손해율 데이터를 이용한 실증분석을 통해 모의실험에서 사용한 방법들이 얼마나 정확하게 극단 분위수를 추정하는지 알아보도록 한다.
이때, GPD를 따르는 확률변수는 척도모수 σ는 1로 형상모수 ξ는 각각 0, 0.5, 1일 때의 3가지의 경우에 대하여 분석하였다.
지금까지 POT방법과 Hill 추정치를 이용하여 꼬리가 두꺼운 분포의 극단 분위수를 추정해보았다. 모의실험과 손해율 데이터를 이용하여 분위수를 추정해 본 결과, 대부분의 경우에 POT 방법을 이용하여 추정한 분위수의 값이 Hill 추정치를 이용하여 추정한 분위수보다 정확도가 높다는 것을 알 수 있었다.
대상 데이터
(단계 1) 모수 (ξ, σ)인 GPD를 따르는 독립적인 100,000개의 데이터를 생성한다.
예를 들어, 보험가입자의 연령이 만 15세로 기록된 경우(운전나이 제한인 만 18세 보다 작은 값을 갖는 경우), 보험료가 음의 값을 갖는 경우, 또는 성별이 남자나 여자가 아닌 경우의 자료는 삭제하였다. 데이터 정제 과정을 통해 얻은 138,125개의 자료를 이용하여 분석을 하였다 (표 5.1).
손해율의 분위수를 POT방법을 이용하여 추정하기 위해서 한국 자동차 보험회사의 실제 자료를 이용하여 분석하였다. 원 자료는 50만 개 이상의 데이터를 포함하고 있었으나 데이터 정제(data cleaning)를 통해 입력오차와 같은 자료처리오차를 포함하는 자료를 삭제하였다. 예를 들어, 보험가입자의 연령이 만 15세로 기록된 경우(운전나이 제한인 만 18세 보다 작은 값을 갖는 경우), 보험료가 음의 값을 갖는 경우, 또는 성별이 남자나 여자가 아닌 경우의 자료는 삭제하였다.
94% 분위수를 임계점으로 정한 경우에 임계점을 초과하는 부분들이 직선에 더 적합한 것을 알 수 있다. POT방법으로 추정한 것과 같이 90%, 92%, 94%, 96%, 98% 분위수의 값을 임계점으로 하는 경우 Hill 추정치를 이용하여 극단 분위수를 추정하였고, 각 임계점에 따른 절대오차와 절대상대편향 값은 표 5.4와 같다.
이론/모형
극단치 이론으로부터 두꺼운 꼬리를 갖는 임의의 분포에서 적절한 임계점을 초과하는 관측치들의 분포는 양의 형태모수(shape parameter) ξ를 갖는 일반화파레토분포에 수렴하는 것으로 알려져 있다. 그러므로 여기에서는 특정한 임계점을 초과하는 관측치들에 대해 극단치 분포를 모형화하는 방식인 POT방법을 이용할 수 있다.
대형손실이 일어나는 경우를 보다 정확하게 예측하기 위해서는 우선 적절한 손해율의 분포를 추정해야 한다. 대체적으로 손해율의 분포는 두꺼운 꼬리를 갖는 분포(heavy-tailed distribution)이므로 극단치이론(Extreme value theory; EVT)을 이용하여 극단분위수(extreme quantile)를 추정하여 대형손실의 발생을 추정한다. 손해율 데이터는 넓은 구간에 걸쳐 분포되어 있으므로 전체적으로 모형에 적합시키는 방법보다는 임계점을 초과하는 꼬리 부분의 데이터만을 일반화파레토분포(generalized Pareto distribution; GPD)에 근사화시키는 방법을 이용한다.
따라서 우리는 주어진 자료에서 임계점 u를 추정한 후에 이 임계점을 넘는 관측치들을 이용해서 GPD의 모수 (σ, ξ)를 추정한다. 모수를 추정하는 방법에는 여러 가지 방법이 있지만 MLE, Pickands, Moments, Zhang, 그리고 NLS-2 방법 등을 이용하도록 한다. 일단 모수를 추정한 후에는 추정된 모수를 이용하여 분위수의 추정이 가능하다.
본 논문에서는 분포의 꼬리부분에 해당하는 대형손실을 추정하는 것에 대하여 관심을 가지고 있으므로 극단 값을 다루는 극단치이론을 이용한다. 극단치분포는 극단치를 정의하는 방법에 따라 두 가지로 나누어진다.
손해율의 분위수를 POT방법을 이용하여 추정하기 위해서 한국 자동차 보험회사의 실제 자료를 이용하여 분석하였다. 원 자료는 50만 개 이상의 데이터를 포함하고 있었으나 데이터 정제(data cleaning)를 통해 입력오차와 같은 자료처리오차를 포함하는 자료를 삭제하였다.
성능/효과
95%, 99.99% 분위수를 추정하는 경우에는 NLS-2방법이 실제 분위수를 가장 잘 추정하고 MLE와 Zhang방법도 실제 분위수와 비슷한 값을 추정하는 것을 알 수 있다. 99% 분위수와 99.
99% 분위수를 추정하는 경우에는 NLS-2방법이 실제 분위수를 가장 잘 추정하고 MLE와 Zhang방법도 실제 분위수와 비슷한 값을 추정하는 것을 알 수 있다. 99% 분위수와 99.9% 분위수 추정에서도 MLE, Zhang, NLS-2 방법이 실제 분위수와 비슷한 값을 추정한다는 것을 알 수 있다. Pickands 방법은 99.
99%분위수를 추정하는 경우에는 MLE와 NLS-2방법이 좋은 결과를 가져옴을 알 수 있다. 그리고 96%와 98% 분위수를 임계점으로 정한 경우에는 MLE방법과 NLS-2방법이 가장 좋은 결과를 가져오는 것을 알 수 있다.
3에서 확인 했던 것처럼 임계점의 분위수가 커질수록 일반적으로 오차가 줄어드는 것을 알 수 있다. 그리고 대체로 POT방법보다 추정의 정확도는 떨어지지만, 임계점이 98%인 경우의 99.9% 분위수 추정치는 POT방법보다 정확하게 추정된 것을 알 수 있다.
이는 모의실험에서는 실제 단일한 GPD를 따르는 분포를 생성하여 분위수를 추정하였지만, 실제 손해율 데이터는 단일한 GPD분포를 따르는 것이 아니라 여러 가지의 분포가 섞여 있을 가능성이 크기 때문이라고 여겨진다. 그리고 추정 방법뿐만 아니라 임계점의 선택에 따라서도 결과가 달라지는 것도 확인할 수 있었다.
따라서 우리가 자료의 오른쪽 꼬리부분에 관심을 가지고 있을 때, 자료의 분포 F의 종류와 상관없이 임의의 분포는 GPD로 수렴한다는 것을 의미하며 분위수의 추정이 가능하다. 그런데 GPD 모형에 내포된 모수 (σ, ξ)에 대한 추정치는 임계점 u를 어떻게 정하는지에 따라 분산과 편의의 상충관계(variancebias trade-off)가 나타날 수 있다.
지금까지 POT방법과 Hill 추정치를 이용하여 꼬리가 두꺼운 분포의 극단 분위수를 추정해보았다. 모의실험과 손해율 데이터를 이용하여 분위수를 추정해 본 결과, 대부분의 경우에 POT 방법을 이용하여 추정한 분위수의 값이 Hill 추정치를 이용하여 추정한 분위수보다 정확도가 높다는 것을 알 수 있었다.
모의실험에서는 NLS-2, Zhang, MLE방법론의 결과가 가장 우수했고, 자동차 손해보험율의 추정에서는 임계점이 90%∼95% 분위수인 경우에는 Pickands와 Zhang 방법이, 96%∼98%를 임계점으로 사용한 경우에는 NLS-2와 MLE 방법이 가장 좋은 결과를 보여주었다.
앞에서 지정한 바와 같이 손해율 데이터의 90% 분위수, 92% 분위수, 94% 분위수, 96% 분위수, 96% 분위수의 값을 임계점으로 정하여 95%, 99%, 99.9% 99.99%의 분위수의 값을 추정하였다. 표 5.
임계점이 90%∼95% 분위수인 경우에는 Pickands방법이 95% 분위수와 99% 분위수를 실제값과 가장 가깝게 추정하고, 99.9% 분위수와 99.99%분위수를 추정하는 경우에는 MLE와 NLS-2방법이 좋은 결과를 가져옴을 알 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
자동차보험의 손해율이란 무엇인가?
자동차보험의 손해율이란 지급보험금의 수입보험료에 대한 비율을 의미한다. 손해율이 매우 큰 값을 갖는 대형손실이 일어나는 경우에는 보험회사의 재무적인 부분에 큰 악영향을 미치게 된다.
두꺼운 꼬리분포를 가지는 자료에서 극단 분위수를 추정하기 위해 가장 많이 사용되는 방법론은 무엇인가?
다른 종류의 보험 관련 데이터와 같이 손해율의 분포는 오른쪽으로 긴 꼬리를 갖는 두꺼운 꼬리분포(heavy-tailed distribution)를 갖는다. 이런 자료에서 극단 분위수룰 추정하기 위하여 가장 많이 사용되는 방법론은 POT(Peaks over threshold)와 Hill 추정(Hill estimation)이다. 본 논문에서는 일반화파레토분포(generalized Pareto distribution; GPD)의 다양한 모수추정방법론의 성능을 모의실험과 실제 손해율 데이터를 사용하여 비교, 분석하였다.
손해율의 극단 분위수를 추정하는 것이 왜 중요한가?
자동차보험의 손해율이란 지급보험금의 수입보험료에 대한 비율을 의미한다. 손해율이 매우 큰 값을 갖는 대형손실이 일어나는 경우에는 보험회사의 재무적인 부분에 큰 악영향을 미치게 된다. 따라서 보험회사가 이에 대비할 수 있도록 하기 위하여 손해율의 극단 분위수(extreme quantile)를 추정하는 것은 매우 중요한 일이다. 다른 종류의 보험 관련 데이터와 같이 손해율의 분포는 오른쪽으로 긴 꼬리를 갖는 두꺼운 꼬리분포(heavy-tailed distribution)를 갖는다.
참고문헌 (12)
Balkema, A. and de Haan, L. (1974). Residual life time at great age, Annals of Probability, 2, 792-804.
Beirlant, J., Teugels, J. and Vynckier, P. (1996). Practical analysis of extreme values, Leuven University Press, Leuven.
Emvrechts, P., Kluppelberg, C. and Mikosch, T. (1997). Modeling Extremal Events for Insurance and Finance, Springer Verlag, Berlin.
Fisher, R. and Tippett, L. (1928). Limiting forms of the frequency distribution of the largest or smallest member of a sample, Proceedings of the Cambridge Philosophical Society, 24, 180-190.
Hogg, R. and Klugman, S. (1984). Loss Distributions, Wiley, New York.
McNeil, A. J. and Saladin, T. (1997). The Peaks over thresholds method for estimating high quantiles of loss distribution, Proceedings of 28th international ASTIN Colloquium.
Pickands, J. (1975). Statistical inference using extreme order statistics, Annals of Statistics, 3, 119-131.
Song, J. and Song, S. (2011). A quantile estimation for massive data with generalized pareto distribution, Computational Statistics and Data Analysis, 56, 143-150.
Weissman, I. (1978). Estimation of parameters and larger quantile based on the k largest observations, Journal of the American Statistical Association, 73, 812-815.
Zhang, J. (2007). Likelihood moment estimation for the generalized pareto distribution, Australian and New Zealand Journal of Statistics, 49, 69-77.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.