[논문]정규혼합분포에서 최소오류의 분류정확도 측도

홍종선; 홍선우; 김강천

정규혼합분포에서 최소오류의 분류정확도 측도
Classification accuracy measures with minimum error rate for normal mixture 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.22 no.4, 2011년, pp.619 - 630

홍종선 (성균관대학교 경제학부 통계학과) , (성균관대학교 응용통계연구소, 통계학과) , 홍선우 (성균관대학교 응용통계연구소, 통계학과) , 김강천 (성균관대학교 응용통계연구소, 통계학과)

초록
AI-Helper

본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수가 정규분포를 따르며 전체부도율로 혼합되었다고 가정한다. 다양한 정규혼합분포의 상황에서 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 구하여 각각의 오류율이 최소인 경우를 탐색적으로 살펴본다. 현실자료에 적합한 정규혼합분포를 추정하여 본 연구 결과를 적용하면 최소 오류율이 보장되는 분류정확도를 선택할 수 있으며, 이를 사용하여 모형의 판별력을 향상시킬 수 있다.

Abstract ▼ AI-Helper

In order to estimate an appropriate threshold and evaluate its performance for the data mixed with two different distributions, nine kinds of well-known classification accuracy measures such as MVD, Youden's index, the closest-to- (0,1) criterion, the amended closest-to- (0,1) criterion, SSS, symmetry point, accuracy area, TA, TR are clustered into five categories on the basis of their characters. In credit evaluation study, it is assumed that the score random variable follows normal mixture distributions of the default and non-default states. For various normal mixtures, optimal cut-off points for classification measures belong to each category are obtained and type I and II error rates corresponding to these cut-off points are calculated. Then we explore the cases when these error rates are minimized. If normal mixtures might be estimated for these kinds of real data, we could make use of results of this study to select the best classification accuracy measure which has the minimum error rate.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

신용평가와 의학통계분야 등에서 두 분포함수의 혼합분포로부터 판별력을 극대화하는 분류점 (절단점; threshold, cut-off)을 추정하는 방법은 많이 연구되고 있다. 본 연구에서는 신용평가에서 차주의 신용가치를 기준으로 대출상환능력에 따라 부도 (default; d)와 정상 (non-default; n)상태를 판별하는 문제를 고려하자.

가설 설정

Fd(x)와 Fn(x)를 각각 차주의 부도와 정상상태에서 스코어의 조건부 누적분포함수 P(X ≤ x|θd)와 P(X ≤ x|θn)로 정의하며, 스코어 확률변수 X의 누적분포함수 F(x)는 다음과 같이 가정한다.
홍종선과 권태완 (2010) 그리고 홍종선과 이원용 (2011)의 연구에서 정규혼합분포가 신용평가 자료에 적합한 분포임을 보였으며, 정규혼합분포에 적합한 VaR을 추정하고 ROC 곡선 연구를 하였다. 따라서 본 논문에서는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정한다. 다양한 모평균과 모분산 그리고 혼합율로 정의된 정규혼합분포의 상황에서 범주화된 조건에 포함되는 측도들의 최적분류점을 구하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 각각 계산한다.

제안 방법

제II종 오류율을 최소화하길 원하면, 제4범주에 속하는 TA 통계량을 사용하고 일부 조건에서는 제3범주에 속하는 대칭점 통계량을 사용한다. 그리고 제I종과 제II종 오류율 합을 최소화하길 원하면, 제2범주에 속하는 MVD, J, 수정된 (0,1)기준, SSS, TR 통계량 사용을 제안한다.
따라서 본 논문에서는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정한다. 다양한 모평균과 모분산 그리고 혼합율로 정의된 정규혼합분포의 상황에서 범주화된 조건에 포함되는 측도들의 최적분류점을 구하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 각각 계산한다. 그리고 각각의 오류율이 최소인 경우를 탐색적으로 정리한다.
다양한 분포함수의 경우에서 다섯 종류의 범주에 속하는 정확도 측도에 대응하는 최적분류점을 발견하고 이 분류점에 대한 제I종 오류율 (α), 제II종 오류율 (β) 그리고 두 종류의 오류율 합(α + β)을 구하여 부록에 수록하였다.
본 연구는 두 분포함수의 혼합분포에서 분류정확도를 측정하는 아홉 종류의 측도들의 성격을 바탕으로 다섯 범주의 조건함수식으로 범주화 하였다. 다양한 정규혼합분포의 상황을 가정하여 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 각각 구하여 각각의 오류율이 최소인 경우를 살펴보면서 분류정확도의 조건함수와 전체부도율과의 관계를 탐색하였다. 즉 주어진 전체부도율에 의존하는 특정한 정규혼합분포의 경우에는 제I종 오류율이 최소일 때의 정확도 측도는 무엇이며 어떠한 정확도 측도가 최소의 제II종 오류율을 나타내는지 그리고 두 종류의 오류율 합이 최소일 때의 정확도 측도는 무엇인지를 파악할 수 있으며 결과를 표 3.
본 연구는 두 분포함수의 혼합분포에서 분류정확도를 측정하는 아홉 종류의 측도들의 성격을 바탕으로 다섯 범주의 조건함수식으로 범주화 하였다. 다양한 정규혼합분포의 상황을 가정하여 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 각각 구하여 각각의 오류율이 최소인 경우를 살펴보면서 분류정확도의 조건함수와 전체부도율과의 관계를 탐색하였다.
본 연구에서는 Cantor 등 (1999), Greiner와 Gardner (2000), Freeman과 Moisen (2008) 그리고 Liu 등 (2009) 이외의 많은 문헌에서 논의한 분류정확도 측도들을 최대화 또는 최소화하는 조건을 살펴보고, 조건들의 종류를 범주화한다. 그리고 다양한 분류정확도 측도들을 범주화한 조건에 포함시킨다.
본 연구의 2절에서는 스코어 변수의 분포를 가정하고, 많은 종류의 분류정확도 측도들을 최대화 또는 최소화하는 조건들을 정리하여 다섯 종류로 범주화한다. 그리고 이 범주에 포함되는 아홉 종류의 분류정확도 측도들을 설명한다.
앞에서 논의한 다섯 종류의 조건 함수들에 대한 평가기준으로 제I종 오류율 (α), 제II종 오류율 (β) 그리고 오류율 합 (α + β)의 크기를 비교 판단한다.

성능/효과

혼합분포의 최적분류점은 정확도 측도들에 따라 다르기 때문에 분류점에 대응하는 오류율의 크기가 일정하지 않아 어떤 경우에 최적인지 판단하기 어렵다. 따라서 분석할 자료에 적합한 분포와 전체부도율을 계산해서 현실자료에 적합한 혼합정규분포를 추정하고 본 연구결과를 적용하면, 제I종과 제II종 오류율 또는 오류율 합이 최소인 범주를 찾을 수 있으며, 최소 오류율이 보장되는 분류정확도를 사용하여 모형의 판별력을 향상시킬 수 있음을 발견하였다.
제II종 오류율 (β)이 최소일 때의 조건 범주를 정리한 표 3.2을 바탕으로 살펴보면, 다양한 #, µn 그리고 γ의 대부분인 경우에 제4범주에 속하는 측도의 β가 최소임을 파악할 수 있다.

후속연구

그리고 각각의 오류율이 최소인 경우를 탐색적으로 정리한다. 실제의 신용평가 자료에 적합한 혼합정규분포를 추정하여 스코어의 혼합분포를 파악할 수 있으면,제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합이 최소인 연구 결과를 바탕으로 각 최소 오류율이 보장되는 분류정확도를 추천하고 사용하여 모형의 판별력을 향상할 수 있겠다.

질의응답

핵심어	질문	논문에서 추출한 답변
	본 연구는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정하였는데, 그 배경이 된 홍종선과 권태완 (2010) 그리고 홍종선과 이원용 (2011)의 연구 내용은 무엇인가?	그리고 다양한 분류정확도 측도들을 범주화한 조건에 포함시킨다. 홍종선과 권태완 (2010) 그리고 홍종선과 이원용 (2011)의 연구에서 정규혼합분포가 신용평가 자료에 적합한 분포임을 보였으며, 정규혼합분포에 적합한 VaR을 추정하고 ROC 곡선 연구를 하였다. 따라서 본 논문에서는 정상과 부도상태의 분포함수를 정규분포로 설정하고 전체부도율을 혼합율로 사용한 혼합분포를 가정한다.
	신용평가분석을 할 때 어떻게 가정하는가?	본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수가 정규분포를 따르며 전체부도율로 혼합되었다고 가정한다. 다양한 정규혼합분포의 상황에서 군집된 측도들의 최적분류점을 발견하고, 그 분류점에 대응하는 제I종 오류율과 제II종 오류율 그리고 두 종류의 오류율 합을 구하여 각각의 오류율이 최소인 경우를 탐색적으로 살펴본다.
	아홉 종류의 분류정확도 측도에는 무엇이 있는가?	본 연구에서는 두 분포함수의 혼합된 자료에서 적절한 분류점을 추정하고 평가하기 위하여 많이 사용하는 아홉 종류의 분류정확도 측도인 MVD, Youden지수, (0,1)까지최단기준, 수정된 (0,1)까지 최단기준, SSS, 대칭점, 정확도면적, TA, TR을 다섯 개의 조건범주로 군집시킨다. 신용평가분석에서 정상과 부도상태의 스코어 확률변수가 정규분포를 따르며 전체부도율로 혼합되었다고 가정한다.

참고문헌 (16)

홍종선, 이원용 (2011). 정규혼합분포를 이용한 ROC 분석. , 24, 269-278.

원문보기 상세보기
홍종선, 주재선, 최진수 (2010). 혼합분포에서 최적분류점. , 23, 13-28.

원문보기 상세보기
홍종선, 권태완 (2010). 수익률분포의 적합과 리스크값 추정. , 21, 219-229.

원문보기 상세보기
Brasil, P. (2010). Diagnostic test accuracy evaluation for medical professionals, Package 'DiagnosisMed' in R.
Cantor, S. B., Sun, C. C., Tortolero-Luna, G., Richards-Kortum, R. and Follen, M. (1999). A comparison of C/B ratios from studies using receiver operating characteristic curve analysis. Journal of Clinical Epidemiology, 52, 885-892.

상세보기
Connell, F. A. and Koepsell, T. D. (1985). Measures of gain in certainty from a diagnostic test. American Journal of Epidemiology, 121, 744-753.

상세보기
Freeman, E. A. and Moisen, G. G. (2008). A comparison of theperformance of threshold criteria for binary classification in terms of predicted prevalence and kappa. Ecological Modelling, 217, 48-58.

상세보기
Greiner, M. M. and Gardner, I. A. (2000). Epidemiologic issues in the validation of veterinary diagnostic tests. Preventive Veterinary Medicine, 45, 3-22.

상세보기
Krzanowski, W. J. and Hand, D. J. (2009). ROC curves for continuous data, Champman & Hall/CRC, Boca Raton, FL.
Liu, C., White, M. and Newell1, G. (2009). Measuring the accuracy of species distribution models: A review. 18th World IMACS/MODSIM Congress. http://mssanz.org.au/modsim09.
Lambert, J. and Lipkovich, I. (2008). A macro for getting more out of your ROC curve. SAS Global Forum, 231.
Moses, L. E., Shapiro, D. and Littenberg, B. (1993). Combining independent studies of a diagnostic test into a summary ROC curve: Data-analytic approaches and some additional considerations. Statistics in Medicine, 12, 1293-1316.

상세보기
Perkins, N. J. and Schisterman, E. F. (2006). The inconsistency of "optimal" cutpoints obtained using two criteria based on the receiver operating characteristic curve. American Journal of Epidemiology, 163, 670-675.

상세보기
Pepe, M. S. (2003). The statistical evaluation of medical tests for classification and prediction, University Press, Oxford. .
Velez, D. R., White, B. C., Motsinger, A. A., Bush, W. S., Ritchie, M. D., Williams, S. M. and Moore, J. H. (2007). A balanced accuracy function for epistasis modeling in imbalanced datasets using multifactor dimensionality reduction. Genetic Epidemiology, 31, 306-315.

상세보기
Youden, W. J. (1950). Index for rating diagnostic test. Cancer, 3, 32-35.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증