[논문]이변량 ROC곡선

홍종선; 김강천; 정진아

doi:10.5351/ckss.2012.19.2.277

이변량 ROC곡선
Bivariate ROC Curve 원문보기

한국통계학회 논문집 = Communications of the Korean Statistical Society, v.19 no.2, 2012년, pp.277 - 286

홍종선 (성균관대학교 통계학과) , 김강천 (성균관대학교 응용통계연구소) , 정진아 (성균관대학교 응용통계연구소)

초록
AI-Helper

신용평가모형에서 부도로 잘못 예측된 정상 차주의 비율과 정확하게 평가된 부도차주의 비율인 일변량 누적분포함수로 표현된 ROC 곡선을 이용하여 분류성과를 평가한다. 본 연구에서는 스코어 확률변수를 이변량으로 확장하여 부도와 정상 차주의 결합누적분포함수를 이용하여 표현할 수 있는 ROC 곡선을 제안한다. 이변량 평균벡터를 통과하는 확률변수의 선형 관계를 이용하여 이변량 ROC 곡선을 구현한다. 그리고 다양한 이변량 정규분포에 대한 ROC 곡선으로부터 분류성과를 탐색하고, 이에 대응하는 AUROC 통계량과 비교분석한다. 본 연구에서 제안한 이변량 ROC 곡선으로부터 분류기준에 적합한 최적분류점을 구하고 이를 통해 이변량 혼합분포함수의 최적 분류기준을 설정할 수 있음을 보인다.

Abstract ▼ AI-Helper

For credit assessment models, the ROC curves evaluate the classification performance using two univariate cumulative distribution functions of the false positive rate and true positive rate. In this paper, it is extended to two bivariate normal distribution functions of default and non-default borrowers; in addition, the bivariate ROC curves are proposed to represent the joint cumulative distribution functions by making use of the linear function that passes though the mean vectors of two score random variables. We explore the classification performance based on these ROC curves obtained from various bivariate normal distributions, and analyze with the corresponding AUROC. The optimal threshold could be derived from the bivariate ROC curve using many well known classification criteria and it is possible to establish an optimal cut-off criteria of bivariate mixture distribution functions.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 ROC 곡선은 (0, 1)점에 가까워질수록 즉, ROC 곡선 아래의 면적(Area Under ROC Curve; AUROC)이 클수록 모형의 예측력 또는 판별력이 좋다고 평가한다 (Hanley와 McNeil, 1982). 일반적인 ROC 곡선은 일변량 확률변수에 대한 누적분포함수로 구성되는데, 본 연구는 스코어 확률변수가 이변량인 경우로 확장하여 이변량 결합누적분포함수로 표현되는 ROC 곡선을 구현하고자 한다.
임의의 값 Fn(x1, x2), Fd(x1, x2)에 대하여 유일하게 존재하는 (x1, x2)을 선정해야하므로 , 본 연구에서는 X2를 X1의 함수인 X2 = h(X1)로 표현하기 위하여 적절한 함수h(·)를 설정하고자 한다.

가설 설정

신용평가적 관점에서 임의의 x에 대하여 Fd(x, h(x)) ≥ Fn(x, h(x))를 가정하고, 기울기 b는 양수만을 고려하기로 한다.
차주(borrower)는 스코어 확률변수와 모수 공간 Θ에 의해서 특성을 나타낸다고 가정한다.
스코어 변수를 통하여 대출기관은 궁극적으로 차주의 신용가치에 관한 정보에 의거하여 차주의 미래상태 Θ를 예상하는 것이다. 차주의 모집단은 두 개의 부모집단으로 구성된다고 가정한다. 즉, Θ ={θ_d, θ_n}이라고 하면 부모집단은 미래시점에 대출상환 능력이 없는 부도(default; d)와 대출상환 능력이 있는 정상(non-default; n)으로 구분된다.

제안 방법

논문의 구성은 다음과 같다. 2절에서는 이변량 확률변수의 조건부 결합누적분포함수의 가정 하에 일반적인 방법으로 이변량 ROC 곡선을 구현할 수 없는 문제점을 지적하며, 이변량 분포함수에 대하여 ROC 곡선을 구현할 수 있는 방법을 제안한다. 그리고 다양한 형태의 이변량 정규분포의 경우에 대하여 ROC 곡선을 구현하고 현상을 살펴본다.
본 연구에서는 X₂를 두 확률변수의 평균벡터를 지나가는 일차함수를 이용하여 X₂ = h(X₁)로 설정한다. 그러면 임의의 X₁ = x에 대하여 ROC 곡선의 성격을 만족하는 누적분포함수를 설정하여 식 (2.5)의 Fⁿ(x, h(x))와 F^d(x, h(x))를구하고, 이 좌표를 바탕으로 이변량 ROC 곡선을 구현하는 방법을 제안하였다.
2절에서는 이변량 확률변수의 조건부 결합누적분포함수의 가정 하에 일반적인 방법으로 이변량 ROC 곡선을 구현할 수 없는 문제점을 지적하며, 이변량 분포함수에 대하여 ROC 곡선을 구현할 수 있는 방법을 제안한다. 그리고 다양한 형태의 이변량 정규분포의 경우에 대하여 ROC 곡선을 구현하고 현상을 살펴본다. 3절에서는 분류성과를 평가하는 통계량인 AUROC와 통계량값을 구하여 본 연구에서 제안한 ROC 곡선의 평가분석한다.
3절에서는 분류성과를 평가하는 통계량인 AUROC와 통계량값을 구하여 본 연구에서 제안한 ROC 곡선의 평가분석한다. 그리고 보편적으로 많이 사용하는 최적분류기준을 사용하여 최적분류점에 대하여 토론한다. 4절에서는 이변량 정규분포를 따르는 확률표본을 생성하여 이 표본자료를 잘 판별하고 예측할 수 있는 이변량 ROC 곡선을 구현하고, 마지막 5절에서는 이변량분포의 성과를 가장 잘 표현하는 ROC곡선을 요약정리하면서 결론을 유도한다.
다양한 이변량 분포에 대하여 ROC 곡선을 구현하기 위하여 각각의 정규분포함수 Fn(·, ·), Fd(·, ·)의 평균벡터의 거리를 일정하게 설정하고, 함수 h(·)의 기울기를 다양하게 설정하며 두 분포함수의 상관계수와 분산을 변화시키면서 어떤 경우에 모형의 판별력이 우수한지를 ROC 곡선을 통해 탐색하였다.
상관계수의 증가함에 따라 영향을 받으며 또한 기울기의 변화에 따라 조금씩 다르게 나타나지만, 두 평균벡터사이의 최적분류점으로 구한 법선은 이변량 정규분포의 최적분류기준으로 설정하여 활용할 수 있다. 본 연구에서 제안한 이변량 ROC 곡선은 이변량 혼합정규분포의 분류성과를 평가하는 방법이며, 이를 통하여 분류기준을 설정할 수 있음을 토론하였다. 이 분류기준으로 사용하여 다양한 혼합분포인 경우에 여러 종류의 최적분류기준에 대한 연구와 삼변량이상의 다변량혼합분포로 확장연구는 향후 과제로 남겨둔다.
이변량 정규분포의 X₁ = x와 X₂ = h(x)에 대하여 확률밀도함수를 구하면 다음과 같이 절단된 이변량 정규분포함수(sliced bivariate normal distribution function)로 제안한다.
표 2는 본연구에서 제안한 이변량 정규분포에 대한 ROC 곡선으로부터 구한 AUROC 통계량값을 각각의 기울기와 상관계수 그리고 분산의 크기에 따라 정리하였으며, 최적분류기준 중에서 가장 많이 사용하는 보편적인 MVD (Krzanowski와 Hand, 2009), Youden 지수 (Youden, 1950), 수정된 (0, 1)기준 (Perkins와 Schisterman, 2006), SSS (Connell과 Koepsell, 1985), True Rate (Lambert와 Lipkovich, 2008;홍종선과 주재선, 2010) 등의 기준은 Kolomogorov and Smirnov 검정통계량과 동일한 의미를 가지며 이를 바탕으로 구한 최적분류점(optimal cutoff, threshold)을 구하여 정리하였다. 최적분류점에 대하여 살펴보면, (#) = (1, 1) 경우 (k = 1)에 모든 기울기에서의 최적분류점은 ρ값에 상관없이 두 평균벡터의 중간지점이다.

대상 데이터

5인 표본 2의 경우를 고려하자. 이변량 확률표본을 각각 50,000개씩 추출하였다.

데이터처리

그리고 다양한 형태의 이변량 정규분포의 경우에 대하여 ROC 곡선을 구현하고 현상을 살펴본다. 3절에서는 분류성과를 평가하는 통계량인 AUROC와 통계량값을 구하여 본 연구에서 제안한 ROC 곡선의 평가분석한다. 그리고 보편적으로 많이 사용하는 최적분류기준을 사용하여 최적분류점에 대하여 토론한다.
(·, ·)의 평균벡터의 거리를 일정하게 설정하고, 함수 h(·)의 기울기를 다양하게 설정하며 두 분포함수의 상관계수와 분산을 변화시키면서 어떤 경우에 모형의 판별력이 우수한지를 ROC 곡선을 통해 탐색하였다. 그리고 ROC 곡선에 대응하는 AUROC 통계량값과 많이 사용하는 최적분류기준으로 구한 최적분류점을 구하고 비교분석하였다.

이론/모형

ROC 곡선은 신호탐지이론부터 사용되었고 다양한 학문분야에서의 의사결정과 의학진단의 체계에서 폭넓게 사용되어졌다 (Hanley와 McNeil, 1982; Swets, 1988; Zou, 2002). ROC 곡선의 특성에 관한 설명과 실제 연구에서 ROC 분석을 응용하는데 관련된 정보는 Fawcett (2003), Provost와 Fawcett (1997, 2001), 홍종선과 최진수 (2010) 그리고 홍종선과 이원용 (2011) 등에서 발견할 수 있으며 본 연구는 신용평가적 관점에서 논의하기로 한다.

성능/효과

Fn(·,·)의 분산이 Fd(·,·) 와 동일한 그림 1을 살펴보면, 상관계수가 큰 음수일수록 ROC 곡선이 (0, 1)점에 가깝게 접근하여 좋은 판별력을 나타내며 상관계수가 커질수록 판별력이 감소한다.
그리고 Fn(·, ·)의 분산이 Fd(·, ·)보다 작은 경우에는 ROC 곡선이 초반에 급격히 증가하나 후반에 증가속도가 감소하고, Fn(·, ·)의 분산이 큰 경우에는 초반에 ROC 곡선이 천천히 증가하며 AUROC 값의 감소폭이 줄어드는 것을 파악하였다.
본 연구에서 제안한 이변량 정규분포에 대한 ROC 곡선으로부터 많이 사용하는 보편적인 최적분류 기준을 사용하여 구한 최적분류점을 살펴보면, Fn(·, ·)의 분산이 Fd(·, ·)와 동일한 경우에 최적분류점은 ρ값에 상관없이 두 평균벡터의 중간지점이다.
(·,·) 와 동일한 그림 1을 살펴보면, 상관계수가 큰 음수일수록 ROC 곡선이 (0, 1)점에 가깝게 접근하여 좋은 판별력을 나타내며 상관계수가 커질수록 판별력이 감소한다. 이런 현상을 F_n(·,·)의 분산이 F_d(·,·)보다 작거나 큰 경우인 그림 2에서도 동일하다.

후속연구

본 연구에서 제안한 이변량 ROC 곡선은 이변량 혼합정규분포의 분류성과를 평가하는 방법이며, 이를 통하여 분류기준을 설정할 수 있음을 토론하였다. 이 분류기준으로 사용하여 다양한 혼합분포인 경우에 여러 종류의 최적분류기준에 대한 연구와 삼변량이상의 다변량혼합분포로 확장연구는 향후 과제로 남겨둔다.

질의응답

핵심어	질문	논문에서 추출한 답변
	ROC 곡선은 무엇인가?	신용평가모형의 타당성을 검정하는 대표적인 방법중의 하나인 ROC(Receiver Operation Characteristic) 곡선은 성과(performance)를 기반으로 한 분류모형(classification model) 또는 분류자(classifiers)를 시각화할 수 있고 조직화하여 향상시킬 수 있으며 평가할 수 있는 유용한 방법이다 (Centor, 1991). ROC 곡선은 신호탐지이론부터 사용되었고 다양한 학문분야에서의 의사결정과 의학진단의 체계에서 폭넓게 사용되어졌다 (Hanley와 McNeil, 1982; Swets, 1988; Zou, 2002).
	실제부도를 부도로 정확히 예측하는 비율이 어떻게 될수록 예측력이 좋은 모형인가?	실제 정상을 부도로 예측하는 비율(FPR)은 작을수록 실제 부도를 부도로 예측하는 비율(TPR)은 높을수록 예측력이 좋은 모형이다. 따라서 ROC 곡선은 (0, 1)점에 가까워질수록 즉, ROC 곡선 아래의 면적(Area Under ROC Curve; AUROC)이 클수록 모형의 예측력 또는 판별력이 좋다고 평가한다 (Hanley와 McNeil, 1982).
	ROC 곡선은 어느분야에서 사용되어왔는가?	신용평가모형의 타당성을 검정하는 대표적인 방법중의 하나인 ROC(Receiver Operation Characteristic) 곡선은 성과(performance)를 기반으로 한 분류모형(classification model) 또는 분류자(classifiers)를 시각화할 수 있고 조직화하여 향상시킬 수 있으며 평가할 수 있는 유용한 방법이다 (Centor, 1991). ROC 곡선은 신호탐지이론부터 사용되었고 다양한 학문분야에서의 의사결정과 의학진단의 체계에서 폭넓게 사용되어졌다 (Hanley와 McNeil, 1982; Swets, 1988; Zou, 2002). ROC 곡선의 특성에 관한설명과 실제 연구에서 ROC 분석을 응용하는데 관련된 정보는 Fawcett (2003), Provost와 Fawcett (1997, 2001), 홍종선과 최진수 (2010) 그리고 홍종선과 이원용 (2011) 등에서 발견할 수 있으며 본 연구는신용평가적 관점에서 논의하기로 한다.

참고문헌 (16)

홍종선, 이원용(2011). 정규혼합분포를 이용한 ROC분석, , 24, 269-278.

원문보기 상세보기
홍종선, 주재선(2010). 혼합분포에서 최적분류점, , 23, 13-28.

원문보기 상세보기
홍종선, 최진수(2010). ROC와 CAP곡선에서의 최적분류점, , 22, 911-921.
Centor, R. M. (1991). Signal detectability: The use of ROC curve and their analyses, Medical Decision Making, 11, 102-106.

상세보기
Connell, F. A. and Koepsell, T. D. (1985). Measures of gain in certainty from a diagnostic test, American Journal of Epidemiology, 121, 744-753.

상세보기
Fawcett, T. (2003). ROC Graphs: Notes and Practical Considerations for Data Mining Researchers, HP Laboratories,1501 Page Mill Road, Palo Alto, CA 94304.
Hanley, A. and McNeil, B. (1982). The meaning and use of the area under a receiver operating characteristic curve, Diagnostic Radiology, 143, 29-36.
Krzanowski,W. J. and Hand, D. J. (2009). ROC Curves for Continuous Data, Chapman & Hall/CRC, Boca Raton, Florida. Has Been Selected, Clinical Chemistry, 32, 1341-1346.
Lambert, J. and Lipkovich, I. (2008). A macro for getting more out of your ROC curve, SAS Grobal Forum, 231.
Perkins, N. J. and Schisterman, E. F. (2006). The inconsistency of "Optimal" cutpoints obtained using two criteria based on the receiver operating characteristic curve, American Journal of Epidemiology, 163, 670-675.

상세보기
Provost, F. and Fawcett, T. (1997). Analysis and visualization of classifier performance: Comparison under imprecise class and cost distributions, Proceeding of the Third International Conference on Knowledge Discovery and Data Mining, 43-48.
Provost, F. and Fawcett, T. (2001). Robust classification for imprecise environment, Machine Learning, 42, 203-231.
Swets, J. A. (1988). Measuring the accuracy of diagnostic systems, American Association for the Advancement of Science, 240, 1285-1293.

상세보기
Tasche, D. (2006). Validation of internal rating systems and PD estimates, arXiv.org, eprint arXiv:physics/0606071.
Youden, W. J. (1950). Index for rating diagnostic test, Cancer, 3, 32-35.
Zou, K. H. (2002). Receiver operating characteristic literature research, On-line bibliography available from: http://www.spl.harvard.edu/pages/ppl/zou/roc.html.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증