$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

정규혼합분포에서 최소오류의 분류정확도 측도
Classification accuracy measures with minimum error rate for normal mixture 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.22 no.4, 2011년, pp.619 - 630  

홍종선 (성균관대학교 경제학부 통계학과) ,  (성균관대학교 응용통계연구소, 통계학과) ,  홍선우 (성균관대학교 응용통계연구소, 통계학과) ,  김강천 (성균관대학교 응용통계연구소, 통계학과)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수정규분포를 따르며 전체부도율로 혼합되었다고 가정한다. 다양한 정규혼합분포의 상황에서 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 구하여 각각의 오류율이 최소인 경우를 탐색적으로 살펴본다. 현실자료에 적합한 정규혼합분포를 추정하여 본 연구 결과를 적용하면 최소 오류율이 보장되는 분류정확도를 선택할 수 있으며, 이를 사용하여 모형의 판별력을 향상시킬 수 있다.

Abstract AI-Helper 아이콘AI-Helper

In order to estimate an appropriate threshold and evaluate its performance for the data mixed with two different distributions, nine kinds of well-known classification accuracy measures such as MVD, Youden's index, the closest-to- (0,1) criterion, the amended closest-to- (0,1) criterion, SSS, symmet...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 신용평가와 의학통계분야 등에서 두 분포함수의 혼합분포로부터 판별력을 극대화하는 분류점 (절단점; threshold, cut-off)을 추정하는 방법은 많이 연구되고 있다. 본 연구에서는 신용평가에서 차주의 신용가치를 기준으로 대출상환능력에 따라 부도 (default; d)와 정상 (non-default; n)상태를 판별하는 문제를 고려하자.

가설 설정

  • Fd(x)와 Fn(x)를 각각 차주의 부도와 정상상태에서 스코어의 조건부 누적분포함수 P(X ≤ x|θd)와 P(X ≤ x|θn)로 정의하며, 스코어 확률변수 X의 누적분포함수 F(x)는 다음과 같이 가정한다.
  • 홍종선과 권태완 (2010) 그리고 홍종선과 이원용 (2011)의 연구에서 정규혼합분포가 신용평가 자료에 적합한 분포임을 보였으며, 정규혼합분포에 적합한 VaR을 추정하고 ROC 곡선 연구를 하였다. 따라서 본 논문에서는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정한다. 다양한 모평균과 모분산 그리고 혼합율로 정의된 정규혼합분포의 상황에서 범주화된 조건에 포함되는 측도들의 최적분류점을 구하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 각각 계산한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
본 연구는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정하였는데, 그 배경이 된 홍종선과 권태완 (2010) 그리고 홍종선과 이원용 (2011)의 연구 내용은 무엇인가? 그리고 다양한 분류정확도 측도들을 범주화한 조건에 포함시킨다. 홍종선과 권태완 (2010) 그리고 홍종선과 이원용 (2011)의 연구에서 정규혼합분포가 신용평가 자료에 적합한 분포임을 보였으며, 정규혼합분포에 적합한 VaR을 추정하고 ROC 곡선 연구를 하였다. 따라서 본 논문에서는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정한다.
신용평가분석을 할 때 어떻게 가정하는가? 본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수가 정규분포를 따르며 전체부도율로 혼합되었다고 가정한다. 다양한 정규혼합분포의 상황에서 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 구하여 각각의 오류율이 최소인 경우를 탐색적으로 살펴본다.
아홉 종류의 분류정확도 측도에는 무엇이 있는가? 본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수가 정규분포를 따르며 전체부도율로 혼합되었다고 가정한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. 홍종선, 이원용 (2011). 정규혼합분포를 이용한 ROC 분석. , 24, 269-278. 

  2. 홍종선, 주재선, 최진수 (2010). 혼합분포에서 최적분류점. , 23, 13-28. 

  3. 홍종선, 권태완 (2010). 수익률분포의 적합과 리스크값 추정. , 21, 219-229. 

  4. Brasil, P. (2010). Diagnostic test accuracy evaluation for medical professionals, Package 'DiagnosisMed' in R. 

  5. Cantor, S. B., Sun, C. C., Tortolero-Luna, G., Richards-Kortum, R. and Follen, M. (1999). A comparison of C/B ratios from studies using receiver operating characteristic curve analysis. Journal of Clinical Epidemiology, 52, 885-892. 

  6. Connell, F. A. and Koepsell, T. D. (1985). Measures of gain in certainty from a diagnostic test. American Journal of Epidemiology, 121, 744-753. 

  7. Freeman, E. A. and Moisen, G. G. (2008). A comparison of theperformance of threshold criteria for binary classification in terms of predicted prevalence and kappa. Ecological Modelling, 217, 48-58. 

  8. Greiner, M. M. and Gardner, I. A. (2000). Epidemiologic issues in the validation of veterinary diagnostic tests. Preventive Veterinary Medicine, 45, 3-22. 

  9. Krzanowski, W. J. and Hand, D. J. (2009). ROC curves for continuous data, Champman & Hall/CRC, Boca Raton, FL. 

  10. Liu, C., White, M. and Newell1, G. (2009). Measuring the accuracy of species distribution models: A review. 18th World IMACS/MODSIM Congress. http://mssanz.org.au/modsim09. 

  11. Lambert, J. and Lipkovich, I. (2008). A macro for getting more out of your ROC curve. SAS Global Forum, 231. 

  12. Moses, L. E., Shapiro, D. and Littenberg, B. (1993). Combining independent studies of a diagnostic test into a summary ROC curve: Data-analytic approaches and some additional considerations. Statistics in Medicine, 12, 1293-1316. 

  13. Perkins, N. J. and Schisterman, E. F. (2006). The inconsistency of "optimal" cutpoints obtained using two criteria based on the receiver operating characteristic curve. American Journal of Epidemiology, 163, 670-675. 

  14. Pepe, M. S. (2003). The statistical evaluation of medical tests for classification and prediction, University Press, Oxford. . 

  15. Velez, D. R., White, B. C., Motsinger, A. A., Bush, W. S., Ritchie, M. D., Williams, S. M. and Moore, J. H. (2007). A balanced accuracy function for epistasis modeling in imbalanced datasets using multifactor dimensionality reduction. Genetic Epidemiology, 31, 306-315. 

  16. Youden, W. J. (1950). Index for rating diagnostic test. Cancer, 3, 32-35. 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로