[논문]ROC 함수 추정

홍종선; 홍선우

doi:10.5351/kjas.2011.24.6.987

ROC 함수 추정
ROC Function Estimation 원문보기

응용통계연구 = The Korean journal of applied statistics, v.24 no.6, 2011년, pp.987 - 994

홍종선 (성균관대학교 경제학부 통계학과) , (성균관대학교 응용통계연구소) , 홍선우 (성균관대학교 응용통계연구소)

초록
AI-Helper

모집단이 부도와 정상상태로 구분되는 신용평가 관점에서 부도와 정상 상태의 조건부 누적분포함수를 추정하는 방법으로 정규혼합 분포추정과 kernel density estimation을 이용하는 분포추정을 고려한다. 정규혼합 분포의 모수를 EM 알고리즘을 사용해 추정하고, KDE 방법에서는 많이 사용하는 다섯 종류의 커널 함수와 네가지의 띠폭을 이용한다. 그리고 추정한 분포로부터 구한 각각의 ROC 함수를 구한다. 추정한 분포들의 적합도를 비교 분석하고, 이를 바탕으로 구한 ROC 곡선의 성과를 비교 토론한다. 본 연구에서는 KDE 방법으로 추정한 분포함수가 더 적합하고, 추정한 정규혼합 분포를 이용한 ROC 함수가 더 좋은 성과를 나타내는 것을 발견하였다.

Abstract ▼ AI-Helper

From the point view of credit evaluation whose population is divided into the default and non-default state, two methods are considered to estimate conditional distribution functions: one is to estimate under the assumption that the data is followed the mixture normal distribution and the other is to use the kernel density estimation. The parameters of normal mixture are estimated using the EM algorithm. For the kernel density estimation, five kinds of well known kernel functions and four kinds of the bandwidths are explored. In addition, the corresponding ROC functions are obtained based on the estimated distribution functions. The goodness-of-fit of the estimated distribution functions are discussed and the performance of the ROC functions are compared. In this work, it is found that the kernel distribution functions shows better fit, and the ROC function obtained under the assumption of normal mixture shows better performance.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 자료에 적합한 분포함수를 추정하기 위하여 자료가 정규혼합(normal mixture) 분포를 따른다는 가정 하에서 혼합된 정규분포 추정과 Kernel Density Estimation(이하 KDE)을 이용하여 분포를 추정하는 방법을 연구한다. 정규혼합 분포의 모수는 EM 알고리즘을 사용해 추정하고, KDE 방법에서는 많이 사용하는 다섯 종류의 커널 함수와 네가지의 띠폭(bandwidth) 중에서 최적을 선정하여 분포를 추정한다.

가설 설정

본 연구에서는 진단 결과를 의학적 관점이 아닌 신용평가(credit evaluation)적 관점으로 논의하기 위하여 차주(borrower)는 스코어(score) 확률변수 S와 모수공간 D = {d, n}에 의해서 특성을 나타낸다고 가정하자. 여기서 확률변수 S는 대출기관에서 차주의 신용가치를 예상하기 위해 차주에게 부여한 연속형 값을 갖는 스코어이다.
스코어에 대한 조건부 분포함수 Fd(·)와 Fn(·)를 각각 p개와 q개의 정규분포함수의 선형결합(linear combination)으로 구성되었다고 가정하고 다음과 같이 표기한다.
D의 원소인 d는 default(부도) 또는 disease(질병)을 나타내며 다른 원소인 n은 non-default(정상) 또는 non-disease(정상)으로 설정한다. 차주의 모집단은 두 개의 부모집단으로 구성한다고 가정한다. 부모집단은 미래시점에 대출상환능력이 없는 부도상태와 대출상환능력이 있는 정상상태로 구분된다.
홍종선과 이원용 (2011)의 연구에서는 정규혼합 분포를 이용한 ROC 곡선이 자료에 가장 잘 적합함을 보였다. 현실적인 상황에서 분포함수를 모르고 평균함수에 영향을 주는 공변량도 고려하지 않는다고 가정한다. 이런 상황에서 자료에 가장 적합한 분포함수를 추정하는 편리한 방법은 정규혼합(normal mixture) 분포를 이용한다.

제안 방법

본 연구의 2절에서는 자료에 가장 적합한 분포함수를 추정하기 위하여 KDE 방법을 간략히 설명하고, EM 알고리즘을 이용하여 정규혼합분포의 모수 및 분포추정을 정리한다. 3절에서는 두 종류의 실증예제를 통해 추정한 분포가 자료에 적합한지를 살펴보고, ROC 곡선을 구하여 성과를 비교 분석하기 위하여 AUC(area under ROC curve)를 구하여 토론한다. 마지막으로 4절에서는 결론을 유도한다.
경험적 ROC 곡선과 비교하여 얼마나 근사한지를 판단하기 위하여 각각의 ROC 곡선의 AUC를 구하여 표 3.2에 요약하였다. AUC에 대하여는 많은 문헌이 있으나 특히 Joseph (2005)에 자세히 설명되어 있다.
그리고 두 종류의 방법으로 추정한 분포함수를 바탕으로 ROC 함수를 구하고 경험적 분포함수로 구한 ROC 곡선에 적합한지를 AUC 통계량을 구하여 비교하였다. 정규혼합 분포함수로 구한 ROC 곡선의 AUC가 KDE 방법으로 추정한 AUC보다 더 작으며 이 결과를 바탕으로 정규혼합 방법으로 추정한 정규혼합분포가 경험적인 ROC 곡선에 잘 적합함을 발견하였다.
정규혼합 분포의 모수는 EM 알고리즘을 사용해 추정하고, KDE 방법에서는 많이 사용하는 다섯 종류의 커널 함수와 네가지의 띠폭(bandwidth) 중에서 최적을 선정하여 분포를 추정한다. 그리고 추정한 분포로부터 구한 각각의 ROC 함수를 구하고, ROC 곡선의 성과를 비교한다.
또한 DP21 자료의 분포를 커널밀도함수를 추정하기 위하여 다섯 가지의 커널함수(Gaussian, Rectangular, Triangular, Epanechnikov, Biweight)와 네 가지의 띠폭(Normal, Lloyd, Plug-in, Mix)을 사용하였다.
본 연구에서 두 정규분포가 혼합된 즉 p = q = 2인 간단한 경우를 고려하고, EM 알고리즘을 이용하여 정규혼합 분포의 모수를 추정한다. 추정된 분포함수를 바탕으로 ROC 함수는 식 (2.
본 연구에서는 일반적으로 분포함수가 주어지지 않은 경우를 고려하였으며, 두 종류의 실증예제 자료에 대하여 KDE 방법으로 추정한 분포함수와 정규혼합 방법을 이용하여 추정한 분포함수를 비교 분석하였다. 추정한 분포함수가 적합한지를 판단하기 위하여 K-S 검정을 실시하였는데 그 결과 KDE 방법과 정규혼합 방법을 이용한 방법으로 추정한 분포함수 모두 적합하나 KDE 방법으로 추정한 분포가 실제 분포에 더 적합함을 탐색하였다.
본 연구의 2절에서는 자료에 가장 적합한 분포함수를 추정하기 위하여 KDE 방법을 간략히 설명하고, EM 알고리즘을 이용하여 정규혼합분포의 모수 및 분포추정을 정리한다. 3절에서는 두 종류의 실증예제를 통해 추정한 분포가 자료에 적합한지를 살펴보고, ROC 곡선을 구하여 성과를 비교 분석하기 위하여 AUC(area under ROC curve)를 구하여 토론한다.
본 연구에서는 자료에 적합한 분포함수를 추정하기 위하여 자료가 정규혼합(normal mixture) 분포를 따른다는 가정 하에서 혼합된 정규분포 추정과 Kernel Density Estimation(이하 KDE)을 이용하여 분포를 추정하는 방법을 연구한다. 정규혼합 분포의 모수는 EM 알고리즘을 사용해 추정하고, KDE 방법에서는 많이 사용하는 다섯 종류의 커널 함수와 네가지의 띠폭(bandwidth) 중에서 최적을 선정하여 분포를 추정한다. 그리고 추정한 분포로부터 구한 각각의 ROC 함수를 구하고, ROC 곡선의 성과를 비교한다.

대상 데이터

두 번째 자료는 1994년부터 2005년까지 한국기업 중에서 외부감사를 받는 기업 중 총자산 규모가 4500억원 이상인 기업에 대한 자료(이하 외감기업 자료)이며, 총표본수는 4,134 (n = 238, m = 3, 896)이며 γ = 238/4134이다.
첫 번째 자료는 1,848명의 사람들 중 489명의 사람은 청각장애가 있고 1,359명의 정상인 자료(이하 DP21)를 분석한다 (Pepe, 2003). 이 자료는 식 (1.

데이터처리

1절과 같이 다섯 가지의 커널함수 중 Gaussian 커널함수를 사용하였으며, 네 종류의 띠폭 중에서 Mix를 이용한다. 외감기업 자료의 경험적 누적분포함수에 대하여 EM 알고리즘으로 추정한 정규혼합 분포함수와 KDE 방법을 이용하여 추정한 커널분포함수와의 적합성을 파악하기 위하여 K-S 검정 통계량을 표 3.3에 정리하였다.

이론/모형

경험적 누적분포함수에 대하여 EM 알고리즘을 사용하여 추정한 정규혼합 분포함수와 KDE 방법을 이용하여 추정한 함수와의 적합도를 알아보기 위하여 콜모고로프-스미르노프(Kolmogorov-Smirnov; KS) 검정을 실시한 결과를 표 3.1에 정리하였다. 여러 종류의 커널함수와 띠폭 중에서 K-S 통계량이 제일 작은 값을 갖는 Gaussian 커널함수와 Mix 띠폭을 이용한다.
(·)의 커널 추정량이다. 그리고 K(s) = #은 커널 누적분포함수이며, h_d과 h_n는 띠폭으로 Lloyd와 Yong (1999) 그리고 Hall과 Hyndman (2003)이 제시한 네가지의 띠폭선택(Normal, Lloyd, Plug-in, Mix)을 이용하여 최적의 띠폭선택방법을 사용한다. 커널밀도함수 k(·)는 함수의 모양에 따라서 다섯 가지의 Gaussian, Rectangular, Triangular, Epanechnikov, Biweight으로 분류한다 (Silverman, 1986).
1에 정리하였다. 여러 종류의 커널함수와 띠폭 중에서 K-S 통계량이 제일 작은 값을 갖는 Gaussian 커널함수와 Mix 띠폭을 이용한다.
외감기업 자료에 분포를 KDE 방법을 사용하기 위하여 3.1절과 같이 다섯 가지의 커널함수 중 Gaussian 커널함수를 사용하였으며, 네 종류의 띠폭 중에서 Mix를 이용한다. 외감기업 자료의 경험적 누적분포함수에 대하여 EM 알고리즘으로 추정한 정규혼합 분포함수와 KDE 방법을 이용하여 추정한 커널분포함수와의 적합성을 파악하기 위하여 K-S 검정 통계량을 표 3.

성능/효과

1의 왼쪽에 나타내었다. 경험적 누적분포함수는 계단식 실선으로 나타나고 정규혼합 분포함수는 점선으로, 커널 분포함수는 실선으로 표현하였다. 정규혼합 분포함수와 커널 분포함수 모두가 중복되기 때문에 경험적 분포함수에 매우 적합하다고 판단할 수 있다.
그러므로 분포함수 추정은 KDE 방법과 정규혼합 방법 모두 좋은 방법이며 특히 KDE 방법으로 추정한 분포가 더 적합하고, ROC 함수 추정은 KDE 방법과 정규혼합 방법 모두 좋은 방법이나 정규혼합 방법으로 추정한 ROC 함수가 더 좋은 성과를 나타낸다고 결론을 유도할 수 있다.
2의 오른쪽에 표현하였다. 정규혼합 방법을 이용한 ROC 곡선이 KDE 방법을 이용한 것보다 경험적 방법에 의한 ROC 곡선에 적합함을 파악할 수 있다.
그리고 두 종류의 방법으로 추정한 분포함수를 바탕으로 ROC 함수를 구하고 경험적 분포함수로 구한 ROC 곡선에 적합한지를 AUC 통계량을 구하여 비교하였다. 정규혼합 분포함수로 구한 ROC 곡선의 AUC가 KDE 방법으로 추정한 AUC보다 더 작으며 이 결과를 바탕으로 정규혼합 방법으로 추정한 정규혼합분포가 경험적인 ROC 곡선에 잘 적합함을 발견하였다.
본 연구에서는 일반적으로 분포함수가 주어지지 않은 경우를 고려하였으며, 두 종류의 실증예제 자료에 대하여 KDE 방법으로 추정한 분포함수와 정규혼합 방법을 이용하여 추정한 분포함수를 비교 분석하였다. 추정한 분포함수가 적합한지를 판단하기 위하여 K-S 검정을 실시하였는데 그 결과 KDE 방법과 정규혼합 방법을 이용한 방법으로 추정한 분포함수 모두 적합하나 KDE 방법으로 추정한 분포가 실제 분포에 더 적합함을 탐색하였다.
AUC에 대하여는 많은 문헌이 있으나 특히 Joseph (2005)에 자세히 설명되어 있다. 표 3.2의 결과를 살펴보면, 정규혼합 방법을 이용한 ROC 곡선의 AUC가 KDE 방법에 의한 AUC보다 경험적 분포함수에 의한 AUC에 더욱 근사하기 때문에 정규혼합 방법을 이용하여 추정한 정규혼합 분포가 더 적합하다고 판단할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	ROC 곡선이란?	ROC 곡선은 성과(performance)를 기반으로 분류자(classifiers)를 시각화하고, 조직화하고, 선정하는 방법이며 (Fawcett, 2003), 진단 시스템의 동작을 시각화하고 분석하는데 사용이 확장되고 (Swets, 1988), 이항적 결정 규칙의 성과를 요약하는데 사용된다 (Lloyd와 Yong, 1999). ROC 곡선은 분류자의 ‘hit rate’(이익)과 ‘false alarm rate’(비용) 사이에 교환(tradeoff)을 묘사하기 위해 신호탐지 이론에서 오래전부터 사용되었다 (Egan, 1975; Swets 등, 2000).
	ROC 곡선은 어디서 이용되었나?	ROC 곡선은 성과(performance)를 기반으로 분류자(classifiers)를 시각화하고, 조직화하고, 선정하는 방법이며 (Fawcett, 2003), 진단 시스템의 동작을 시각화하고 분석하는데 사용이 확장되고 (Swets, 1988), 이항적 결정 규칙의 성과를 요약하는데 사용된다 (Lloyd와 Yong, 1999). ROC 곡선은 분류자의 ‘hit rate’(이익)과 ‘false alarm rate’(비용) 사이에 교환(tradeoff)을 묘사하기 위해 신호탐지 이론에서 오래전부터 사용되었다 (Egan, 1975; Swets 등, 2000). ROC 곡선의 특성에 관한 설명과 실증연구에서 ROC 분석을 응용하는데 관련된 정보는 Fawcett (2003)과 Provost와 Fawcett (1997, 2001), 홍종선과 최진수 (2009), 홍종선 등 (2010)에서 발견할 수 있다.

참고문헌 (23)

홍종선, 이원용 (2011). 정규혼합분포를 이용한 ROC 곡선연구, 응용통계연구, 24, 269-278.

원문보기 상세보기
홍종선, 주재선, 최진수 (2010). 혼합분포에서의 최적분류점, 응용통계연구, 23, 13-28.

원문보기 상세보기
홍종선, 최진수 (2009). ROC와 CAP 곡선에서의 최적분류점, , 22, 911-921.

원문보기 상세보기
Aitkin, M. and Wilson, T. G. (1980). Mixture models, outliers, and the EM algorithm, Technometrics, 22, 325-331.

상세보기
Egan, J. P. (1975). Signal Detection Theory and ROC Analysis, Series in Cognitition and Perception, Academic Press, New York.
Everitt, B. S. (1984). Maximum likelihood estimation of the parameters in a mixture of two univariate normal, Journal of the Royal Statistical Society, 33, 205-215.
Fawcett, T. (2003). ROC graphs: Notes and practical considerations for data mining researchers, Technical Report HPL-2003-4, HP Laboratories, 1-28.
Hall, P. G. and Hyndman, R. J. (2003). Improved methods for bandwidth selection when estimating ROC curves, Statistics and Probability Letters, 64, 181-189.

상세보기
Joseph, M. P. (2005). A PD Validation Framework for Basel II Internal Ratings-Based Systems, Credit Scoring and Credit Control IV .
Lloyd, C. J. (1998). The use of smoothed ROC curves to summarise and compare diagnostic systems, Journal of the American Statistical Association, 93, 1356-1364.
Lloyd, C. J. and Yong, Z. (1999). Kernel estimators of the ROC curve are better than empirical, Statistics and Probability Letters, 44, 221-228.

상세보기
McCullagh, P. and Nelder, J. A. (1983). Quasi-likelihood functions, Annals of Statistics, 11, 59-67.

상세보기
McLachlan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extensions, John Wiley & Sons, New York.
Pepe, M. S. (1998). Three approaches to regression analysis of receiver operating characteristic curves for continuous test results, Biometrics, 54, 124-135.

상세보기
Pepe, M. S. (2003). The Statistical Evaluation of Medical Tests for Classiffication and Prediction, University Press, Oxford, New York.
Provost, F. and Fawcett, T. (1997). Analysis and visualization of classifier performance comparison under imprecise class and cost distributions, In Proceedings of the Third International Conference on Knowledge Discovery and Data Mining, 43-48.
Provost, F. and Fawcett, T. (2001). Robust classification for imprecise environments, Machine Learning, 42, 203-231.
Rossenblatt, M. (1956). Remarks on some nonparametric estimates of a density function, Annals of Mathematical Statistics, 27, 832-837.

상세보기
Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis, Chapman and Hall, London.
Swets, J. A. (1988). Measuring the accuracy of diagnostic systems, American Association for the Advancement of Science, 240, 1285-1293.

상세보기
Swets, J. A., Dawes, R. M. and Monahan, J. (2000). Better decisions through science, Scientific Americal, 283, 82-87.
Tasche, D. (2006). Validation of internal rating systems and PD Estimates, On-line bibliography available from: http://arXiv:physics/0606071.
Zou, K. H., Hall, W. J. and Shapiro, D. E. (1997). Smooth non-parametric receiver operating characteristic(ROC) curves for continuous diagnostic tests, Statistics in Medicine, 16, 2143-2156.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증