$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

시간에 따라 변화하는 로그-정규분포와 파레토 합성 분포의 모형 추정
Time-varying modeling of the composite LN-GPD 원문보기

응용통계연구 = The Korean journal of applied statistics, v.31 no.1, 2018년, pp.109 - 122  

박소진 (성균관대학교 통계학과) ,  백창룡 (성균관대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

임계값을 기준으로 그 보다 작은 값은 로그정규분포(lognormal distribution; LN)를, 큰 값은 일반화파레토분포(generalized Pareto distribution; GPD)를 따르는 합성 분포를 LN-GPD 합성분포라 한다. Scollnik (2007)은 LN-GPD 합성분포가 로그정규분포와 GPD를 합성 시킴으로써 자료의 손실 없이 꼬리가 두꺼운 분포에서 좋은 적합력을 가진다고 밝혔다. 본 논문에서는 시간에 따라 변하는 LN-GPD 평균모형을 다루었으며 방법론으로는 국소 다항최대우도법을 기반으로 추정하는 방법에 대해서 연구하였다. 시간에 따라 변하는 분포를 추정함으로써 자료에 대한 훨씬 자세한 이해가 가능하며 이는 곧 상담원 배치나 자원배분과 같은 운영관리에 큰 도움을 줄 수 있다. 본 연구는 GPD 분포만을 고려한 Beirlant와 Goegebeur (2004)를 확장하여 절삭한 로그정규분포를 추가하여 자료의 손실 없이 자료의 특징을 살펴볼 수 있다는데도 의의가 있다. 모의실험을 통해 제안한 방법론의 적절함을 살펴 보았고 실증 자료 분석으로 이스라엘 은행의 콜센터 서비스 시간에 대해 분석하여 상담원 배치와 관련된 흥미로운 결과를 찾을 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

The composite lognormal-generalized Pareto distribution (LN-GPD) is a mixture of right-truncated lognormal and GPD for a given threshold value. Scollnik (Scandinavian Actuarial Journal, 2007, 20-33, 2007) shows that the composite LN-GPD is adequate to describe body distribution and heavy-tailedness....

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 하지만 임계값 역시 모수로 최대우도법을 사용하기에는 많은 어려움이 있다. 따라서 본 논문은 Kim 등 (2016)에서 제안한 2단계 추정법을 통해 임계값을 먼저 추정하고, 주어진 임계값에 대해서 나머지 모수들을 추정하는 방법을 통해 모수를 효율적으로 추정하는 방법에 대해서 제안하였다. 모의실험을 통해 본 논문에서 제안한 방법이 추정을 적절히 하고 있음을 살펴 보았다.
  • 또한 적절한 띠너비의 선택이 제안한 방법의 전반적인 성능에 있어서 매우 중요한 역할을 한다. 따라서, 본 논문은 2단계에 걸쳐 주어진 임계값에 대해서 국소다항최대우도추정법으로 시간에 따라 변화하는 LN-GPD 모형을 추정하는 방법에 대해서 소개하고 교차타당성을 통해 띠너비를 선택하는 방법을 제안한다.
  • 를 시간에 따라 모수가 부드럽게 변하는 성질을 반영하여 추정하는 방법을 소개하고자 한다.
  • 본 논문은 선행 연구를 확장하여 시간에 따라 변하는 LN-GPD 평균 모형에 대해서 연구한다. 은행 콜센터의 서비스 시간에 대해서 생각해봤을 때, 실시간으로 평균 서비스 시간을 LN-GPD 분포로 정확히 알아낸다면 이를 토대로 고객의 평균 대기 시간 및 평균 지연 시간을 추정해 내어 콜센터의 운영에 있어서 몇 명의 상담원을 두어야 할지, 경력이 많은 상담원을 어느 시간에 배치하여 서비스의 질을 높일지 등에 대한 전반적인 이해를 돕는데 훨씬 유용한 정보를 제공해주어 시간에 따라 변하는 모형이, 더욱 두터운 꼬리를 적절히 설명해주는 모형에 대한 연구는 반드시 필요하다.
  • 본 논문은 시간에 따라 변하는 모수를 가지는 LN-GPD 모형을 국소다항최대우도법을 이용하여 추정하는 방법에 대해서 연구하였다. LN-GPD 모형은 몸통(body) 부분은 로그정규분포를, 꼬리 부분은 일반화파레토 분포를 사용하여 두터운 꼬리를 갖는 자료를 자료의 손실 없이 분석할 수 있는 매우 유용한 분포이다.
  • 본 장에서는 2.3절에서 소개한 국소다항최대우도법을 이용하여 LN-GPD에서 시간에 따라 변하는 모수들의 함수를 추정할 때, 그 성능을 모의실험을 통해 확인하고자 한다. 본 모의실험에서는 다음의 LNGPD 모수 함수들을 임의로 생성하였다.
  • 우리가 사용한 자료는 1999년 11월부터 12월까지 이스라엘 은행의 콜센터에서 수집된 자료로 Shen과 Brown(2006) 논문에서 사용한 자료이며, 총 표본의 수는 46,762이다. 분석하고자 하는 변수는 시간(time-ofday)에 따른 콜센터 서비스 시간(service time)으로, 이는 은행 고객이 콜센터 상담원과 통화한 평균 서비스 시간을 시간대별로 보고자 한다.

가설 설정

  • 또한, 임계점 θ의 경우 시간에 따라 변하지 않은 모형으로 가정하였다.
  • 본 논문에서는 임계값 θ(Xi)에 대해서는 시간에 의존하지 않고 상수로 주어진다고 가정하였다.
  • 일반화파레토 분포의 꼬리지수는 모든 실수값이 가능하나 본 연구에서는 두터운 꼬리(heavy-tailed)를 가지는 모형에 관심이 있으므로 γ(x)가 양수값을 가지는 경우로 한정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
LN-GPD 모형의 단점은? LN-GPD 모형은 몸통(body) 부분은 로그정규분포를, 꼬리 부분은 일반화파레토 분포를 사용하여 두터운 꼬리를 갖는 자료를 자료의 손실 없이 분석할 수 있는 매우 유용한 분포이다. 하지만 임계값 역시 모수로 최대우도법을 사용하기에는 많은 어려움이 있다. 따라서 본 논문은 Kim 등 (2016)에서 제안한 2단계 추정법을 통해 임계값을 먼저 추정하고, 주어진 임계값에 대해서 나머지 모수들을 추정하는 방법을 통해 모수를 효율적으로 추정하는 방법에 대해서 제안하였다.
LN-GPD 합성분포란? 임계값을 기준으로 그 보다 작은 값은 로그정규분포(lognormal distribution; LN)를, 큰 값은 일반화파레토분포(generalized Pareto distribution; GPD)를 따르는 합성 분포를 LN-GPD 합성분포라 한다. Scollnik (2007)은 LN-GPD 합성분포가 로그정규분포와 GPD를 합성 시킴으로써 자료의 손실 없이 꼬리가 두꺼운 분포에서 좋은 적합력을 가진다고 밝혔다.
로그정규분포를 사용하여 극단값을 포함하고 있는 자료를 추정할 때 한계점은? 일반적으로 극단값을 포함하고 있는 자료는 꼬리가 두껍고 편향된 분포 형태를 띄며 로그정규분포(lognormal distribution; LN)나 일반화파레토분포(generalized Pareto distribution; GPD)를 사용한다. 하지만 로그정규분포는 두터운 꼬리를 설명하는데 한계가 있으며 GPD분포의 경우 자료를 임계값(threshold)를 기준으로 절삭하기에 데이터의 손실이 있을 뿐만 아니라 몸통(body) 부분의 특징을 반영하지 못한다. 이러한 단점을 극복하기 위해서 Cooray와 Ananda (2005), Scollnik(2007) 등은 로그정규분포와 GPD 분포의 합성(LN-GPD)을 제안하였고 합성된 분포가 실증자료를 더 잘 적합함을 보였다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로