$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

ROC 함수 추정
ROC Function Estimation 원문보기

응용통계연구 = The Korean journal of applied statistics, v.24 no.6, 2011년, pp.987 - 994  

홍종선 (성균관대학교 경제학부 통계학과) ,  (성균관대학교 응용통계연구소) ,  홍선우 (성균관대학교 응용통계연구소)

초록
AI-Helper 아이콘AI-Helper

모집단이 부도와 정상상태로 구분되는 신용평가 관점에서 부도와 정상 상태의 조건부 누적분포함수를 추정하는 방법으로 정규혼합 분포추정과 kernel density estimation을 이용하는 분포추정을 고려한다. 정규혼합 분포의 모수EM 알고리즘을 사용해 추정하고, KDE 방법에서는 많이 사용하는 다섯 종류의 커널 함수와 네가지의 띠폭을 이용한다. 그리고 추정한 분포로부터 구한 각각의 ROC 함수를 구한다. 추정한 분포들의 적합도를 비교 분석하고, 이를 바탕으로 구한 ROC 곡선의 성과를 비교 토론한다. 본 연구에서는 KDE 방법으로 추정한 분포함수가 더 적합하고, 추정한 정규혼합 분포를 이용한 ROC 함수가 더 좋은 성과를 나타내는 것을 발견하였다.

Abstract AI-Helper 아이콘AI-Helper

From the point view of credit evaluation whose population is divided into the default and non-default state, two methods are considered to estimate conditional distribution functions: one is to estimate under the assumption that the data is followed the mixture normal distribution and the other is t...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 자료에 적합한 분포함수를 추정하기 위하여 자료가 정규혼합(normal mixture) 분포를 따른다는 가정 하에서 혼합된 정규분포 추정과 Kernel Density Estimation(이하 KDE)을 이용하여 분포를 추정하는 방법을 연구한다. 정규혼합 분포의 모수는 EM 알고리즘을 사용해 추정하고, KDE 방법에서는 많이 사용하는 다섯 종류의 커널 함수와 네가지의 띠폭(bandwidth) 중에서 최적을 선정하여 분포를 추정한다.

가설 설정

  • 본 연구에서는 진단 결과를 의학적 관점이 아닌 신용평가(credit evaluation)적 관점으로 논의하기 위하여 차주(borrower)는 스코어(score) 확률변수 S와 모수공간 D = {d, n}에 의해서 특성을 나타낸다고 가정하자. 여기서 확률변수 S는 대출기관에서 차주의 신용가치를 예상하기 위해 차주에게 부여한 연속형 값을 갖는 스코어이다.
  • 스코어에 대한 조건부 분포함수 Fd(·)와 Fn(·)를 각각 p개와 q개의 정규분포함수의 선형결합(linear combination)으로 구성되었다고 가정하고 다음과 같이 표기한다.
  • D의 원소인 d는 default(부도) 또는 disease(질병)을 나타내며 다른 원소인 n은 non-default(정상) 또는 non-disease(정상)으로 설정한다. 차주의 모집단은 두 개의 부모집단으로 구성한다고 가정한다. 부모집단은 미래시점에 대출상환능력이 없는 부도상태와 대출상환능력이 있는 정상상태로 구분된다.
  • 홍종선과 이원용 (2011)의 연구에서는 정규혼합 분포를 이용한 ROC 곡선이 자료에 가장 잘 적합함을 보였다. 현실적인 상황에서 분포함수를 모르고 평균함수에 영향을 주는 공변량도 고려하지 않는다고 가정한다. 이런 상황에서 자료에 가장 적합한 분포함수를 추정하는 편리한 방법은 정규혼합(normal mixture) 분포를 이용한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
ROC 곡선이란? ROC 곡선은 성과(performance)를 기반으로 분류자(classifiers)를 시각화하고, 조직화하고, 선정하는 방법이며 (Fawcett, 2003), 진단 시스템의 동작을 시각화하고 분석하는데 사용이 확장되고 (Swets, 1988), 이항적 결정 규칙의 성과를 요약하는데 사용된다 (Lloyd와 Yong, 1999). ROC 곡선은 분류자의 ‘hit rate’(이익)과 ‘false alarm rate’(비용) 사이에 교환(tradeoff)을 묘사하기 위해 신호탐지 이론에서 오래전부터 사용되었다 (Egan, 1975; Swets 등, 2000).
ROC 곡선은 어디서 이용되었나? ROC 곡선은 성과(performance)를 기반으로 분류자(classifiers)를 시각화하고, 조직화하고, 선정하는 방법이며 (Fawcett, 2003), 진단 시스템의 동작을 시각화하고 분석하는데 사용이 확장되고 (Swets, 1988), 이항적 결정 규칙의 성과를 요약하는데 사용된다 (Lloyd와 Yong, 1999). ROC 곡선은 분류자의 ‘hit rate’(이익)과 ‘false alarm rate’(비용) 사이에 교환(tradeoff)을 묘사하기 위해 신호탐지 이론에서 오래전부터 사용되었다 (Egan, 1975; Swets 등, 2000). ROC 곡선의 특성에 관한 설명과 실증연구에서 ROC 분석을 응용하는데 관련된 정보는 Fawcett (2003)과 Provost와 Fawcett (1997, 2001), 홍종선과 최진수 (2009), 홍종선 등 (2010)에서 발견할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (23)

  1. 홍종선, 이원용 (2011). 정규혼합분포를 이용한 ROC 곡선연구, 응용통계연구, 24, 269-278. 

  2. 홍종선, 주재선, 최진수 (2010). 혼합분포에서의 최적분류점, 응용통계연구, 23, 13-28. 

  3. 홍종선, 최진수 (2009). ROC와 CAP 곡선에서의 최적분류점, , 22, 911-921. 

  4. Aitkin, M. and Wilson, T. G. (1980). Mixture models, outliers, and the EM algorithm, Technometrics, 22, 325-331. 

  5. Egan, J. P. (1975). Signal Detection Theory and ROC Analysis, Series in Cognitition and Perception, Academic Press, New York. 

  6. Everitt, B. S. (1984). Maximum likelihood estimation of the parameters in a mixture of two univariate normal, Journal of the Royal Statistical Society, 33, 205-215. 

  7. Fawcett, T. (2003). ROC graphs: Notes and practical considerations for data mining researchers, Technical Report HPL-2003-4, HP Laboratories, 1-28. 

  8. Hall, P. G. and Hyndman, R. J. (2003). Improved methods for bandwidth selection when estimating ROC curves, Statistics and Probability Letters, 64, 181-189. 

  9. Joseph, M. P. (2005). A PD Validation Framework for Basel II Internal Ratings-Based Systems, Credit Scoring and Credit Control IV . 

  10. Lloyd, C. J. (1998). The use of smoothed ROC curves to summarise and compare diagnostic systems, Journal of the American Statistical Association, 93, 1356-1364. 

  11. Lloyd, C. J. and Yong, Z. (1999). Kernel estimators of the ROC curve are better than empirical, Statistics and Probability Letters, 44, 221-228. 

  12. McCullagh, P. and Nelder, J. A. (1983). Quasi-likelihood functions, Annals of Statistics, 11, 59-67. 

  13. McLachlan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extensions, John Wiley & Sons, New York. 

  14. Pepe, M. S. (1998). Three approaches to regression analysis of receiver operating characteristic curves for continuous test results, Biometrics, 54, 124-135. 

  15. Pepe, M. S. (2003). The Statistical Evaluation of Medical Tests for Classiffication and Prediction, University Press, Oxford, New York. 

  16. Provost, F. and Fawcett, T. (1997). Analysis and visualization of classifier performance comparison under imprecise class and cost distributions, In Proceedings of the Third International Conference on Knowledge Discovery and Data Mining, 43-48. 

  17. Provost, F. and Fawcett, T. (2001). Robust classification for imprecise environments, Machine Learning, 42, 203-231. 

  18. Rossenblatt, M. (1956). Remarks on some nonparametric estimates of a density function, Annals of Mathematical Statistics, 27, 832-837. 

  19. Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis, Chapman and Hall, London. 

  20. Swets, J. A. (1988). Measuring the accuracy of diagnostic systems, American Association for the Advancement of Science, 240, 1285-1293. 

  21. Swets, J. A., Dawes, R. M. and Monahan, J. (2000). Better decisions through science, Scientific Americal, 283, 82-87. 

  22. Tasche, D. (2006). Validation of internal rating systems and PD Estimates, On-line bibliography available from: http://arXiv:physics/0606071. 

  23. Zou, K. H., Hall, W. J. and Shapiro, D. E. (1997). Smooth non-parametric receiver operating characteristic(ROC) curves for continuous diagnostic tests, Statistics in Medicine, 16, 2143-2156. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로