$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

정규혼합분포를 이용한 ROC 분석
ROC Curve Fitting with Normal Mixtures 원문보기

응용통계연구 = The Korean journal of applied statistics, v.24 no.2, 2011년, pp.269 - 278  

홍종선 (성균관대학교 통계학과) ,  이원용 (성균관대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

스코어 변수의 민감도와 특이도와의 관계로 표현한 ROC 곡선을 더욱 정확한 진단을 위하여 분포함수와 공변량을 고려한 연구가 많이 진행되었다. 공변량을 고려하는 회귀분석 방법을 사용하였으며 이때 분포함수를 정규분포로 가정하거나 잔차의 분포함수를 추정하여 ROC 분석을 하였다. 본 연구는 분포함수가 주어지지 않으며 진단에 영향을 주는 공변량을 모르는 일반적인 상황에서 논의하였다. 확률변수인 스코어와 두 개의 보모집단으로 구성된 신용평가 자료에 적합한 분포함수를 추정하기 위하여 여러 개의 정규분포가 혼합된 정규혼합분포를 사용하여 ROC 분석을 한다. 고전적인 비모수적이고 경험적인 ROC 곡선에 적합한지를 파악하기 위하여 AUC 통계량을 사용하여 비교하며, 본 연구에서 제안한 정규혼합분포를 이용한 ROC 곡선이 다른 방법으로 구한 ROC 곡선보다 적합함을 보였다.

Abstract AI-Helper 아이콘AI-Helper

There are many researches that have considered the distribution functions and appropriate covariates corresponding to the scores in order to improve the accuracy of a diagnostic test, including the ROC curve that is represented with the relations of the sensitivity and the specificity. The ROC analy...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 다음 절에서는 비모수적 경험적 방법과 회귀분석을 이용한 모수적 그리고 준모수적인 방법인 기존의 ROC 분석방법들과 본 연구에서 제안한 정규혼합분포를 이용하는 방법을 비교하기 위하여 두 종류의 예제에 대하여 실증분석한다. 우선 4절에서 논의할 두 실증예제 자료에 적합한 정규혼합분포를 구하여보자. 첫 번째로 Pepe (2003)의 연구에 사용된 자료는 1848명의 사람들 중 489명의 사람은 청각장애가 있고 1359명의 사람은 청각장애가 없는 정상인의 자료(이하 DP21)이다 (Stover 등, 1996).

가설 설정

  • 본 연구에서는 진단 결과를 의학적 관점이 아닌 신용평가(credit evaluation)적 관점으로 논의하기 위하여 d(disease; 질병)와 n(non-disease; 정상)을 d(default; 부도)와 n(non-default; 정상)로 설정한다. 그리고 차주(borrower)는 스코어(score) 확률변수 S와 모수공간 D에 의해서 특성을 나타낸다고 가정하자. 확률변수 S는 대출기관에서 차주의 신용가치를 예상하기 위해 차주에게 부여한 연속형 값을 갖는 스코어이다.
  • 스코어 변수 S를 통하여 대출기관은 궁극적으로 차주의 신용가치에 관한 정보에 의거하여 차주의 미래상태 D를 예상하는 것이다. 차주의 모집단은 두 개의 부모집단으로 구성된다고 가정한다. 즉 D = {d, n}이라고 하자.
  • Pepe (1998, 2003)는 연속형 진단결과를 가진 자료의 정확도에 영향을 주는 공변량을 고려하여 분포함수를 아는 경우와 모르는 경우의 두 종류의 회귀분석법을 제안하였다. 특히 분포함수가 주어진 경우는 정규분포로 가정하면서 분석하였고, 분포함수가 주어지지 않은 경우에는 함수를 추정하여 분석하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
Pepe는 ROC 회귀분석법을 어떻게 구분 했는가? 일반적인 ROC 분석은 공변량을 고려하지 않은 자료를 기반으로 작성하여 비모수적 경험적(nonparametric empirical) ROC 분석이라고 한다. Pepe (2003)는 공변량을 고려하여 ROC 회귀분석(regression analysis)법을 제안하였는데, 스코어의 분포함수를 아는 경우에 선형모형을 고려한 모수적(parametric) 방법과 분포함수를 모르는 경우의 준모수적(semiparametric) 방법으로 구분하였다. Pepe가 제안한 두 가지의 방법으로 구한 ROC 곡선이 고전적인 비모수적 경험적 ROC 곡선과의 적합을 연구하였다.
ROC 곡선이란? ROC 곡선(Receiver Operating Characteristic Curve)은 성과(performance)를 기반으로 한 분류모형(classification model) 또는 분류자(classifiers)를 시각화할 수 있고 평가할 수 있는 유용한 방법이다. ROC 곡선은 분류자의 ‘hit rate’(이익) 또는 ‘sensitivity’(민감도)와 ‘false alarm rate’(비용) 또는 ‘1-specifity’(1-특이도) 사이에 교환(trade-off)을 나타내는 신호탐지이론에서 오랫동안 사용되어졌다(Sobehart와 Keenan, 2001; Engelmann 등, 2003; Drummond와 Holte, 2006).
ROC 곡선은 신호탐지이론 외에 어디에서 사용되는가? ROC 곡선은 분류자의 ‘hit rate’(이익) 또는 ‘sensitivity’(민감도)와 ‘false alarm rate’(비용) 또는 ‘1-specifity’(1-특이도) 사이에 교환(trade-off)을 나타내는 신호탐지이론에서 오랫동안 사용되어졌다(Sobehart와 Keenan, 2001; Engelmann 등, 2003; Drummond와 Holte, 2006). 또한 의사결정과 의학진단의 체계에서 폭넓게 사용되어졌다 (Hanley와 McNeil, 1982; Swets, 1988; Zou, 2002). ROC 곡선의 특성에 관한 설명과 실증연구에서 ROC 분석을 응용하는데 관련된 정보는 Fawcett (2003)과 Provost와 Fawcett (1997, 2001), 홍종선과 최진수 (2009), 홍종선 등 (2010)에서 발견할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. 홍종선, 주재선, 최진수 (2010). 혼합분포에서의 최적분류점, , 23, 13-28. 

  2. 홍종선, 최진수 (2009). ROC와 CAP 곡선에서의 최적분류점, , 22, 911-921. 

  3. Drummond, C. and Holte, R. C. (2006). Cost curves: An improved method for visualizing classifier performance, Machine Learning, 65, 95-130. 

  4. Engelmann, B., Hayden, E. and Tasche, D. (2003). Measuring the discriminative power of rating systems, Discussion Paper, Series 2: Banking and Financial Supervision. 

  5. Fawcett, T. (2003). ROC Graphs: Notes and practical considerations for data mining researchers, Technical Report HPL-2003-4, HP Laboratories, 1-28. 

  6. Gatsonis, C. A., Begg, C. B. and Wieand, S. A. (1995). Introduction to advances in statistical methods for diagnostic radiology: A symposium, Academic Radiology, 2, S1-3. 

  7. Hanley, A. and McNeil, B. (1982). The meaning and use of the area under a receiver operating characteristics curve, Diagnostic Radiology, 143, 29-36. 

  8. McCullagh, P. and Nelder, J. A. (1983). Quasi-likelihood functions, Annals of Statistics, 11, 59-67. 

  9. Pepe, M. S. (1998). Three approaches to regression analysis of receiver operating characteristic curves for continuous test results, Biometrics, 54, 124-135. 

  10. Pepe, M. S. (2003). The Statistical Evaluation of Medical Tests for Classification and Prediction, University Press, Oxford. 

  11. Provost, F. and Fawcett, T. (1997). Analysis and visualization of classifier performance comparison under imprecise class and cost distributions, In Proceedings of the Third International Conference on Knowledge Discovery and Data Mining, 43-48. 

  12. Provost, F. and Fawcett, T. (2001). Robust classification for imprecise environments, Machine Learning, 42, 203-231. 

  13. Sobehart, J. R. and Keenan, S. C. (2001). Measuring default accurately, credit risk special report, Risk, 14, 31-33. 

  14. Stover, L., Gorga, M. P. and Neely, T. (1996). Towards optimizing the clinical utility of distortion product otoacoustic emission measurements, Journal of the Acoustical Society of America, 100, 956-967. 

  15. Swets, J. A. (1988). Measuring the accuracy of diagnostic systems, American Association for the Advancement of Science, 240, 1285-1293. 

  16. Swets, J. A. and Pickett, R. M. (1982). Evaluation Diagnostic Systems, Methods from Signal Detection Theory, Academic Press, New York. 

  17. Tasche, D. (2006). Validation of internal rating systems and PD estimates, On-line bibliography available from: http://arXiv:physics/0606071. 

  18. Zou, K. H. (2002). Receiver operating characteristic literature research, On-line bibliography available from: http://www.spl.havard.edu/pages/ppl/zou/roc.html. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로