[논문]이진자료 분류모형에 대한 평가측도의 특성 비교

김병수; 권소영

doi:10.5351/kjas.2019.32.2.291

이진자료 분류모형에 대한 평가측도의 특성 비교
Comparison of evaluation measures for classification models on binary data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.291 - 300

김병수 (인제대학교 통계학과) , 권소영 (식품의약품안전처 의료기기정책과)

초록
AI-Helper

본 논문에서는 반응변수가 이진형인 분류모형에 대한 평가측도들의 특성을 파악하고 사용하기 적합한 평가측도인가를 살펴보았다. 고려한 측도는 정분류율, 민감도, 특이도, 정밀도, F-measure, HSS (Heidke's skill score)의 6개이다. 각 측도들은 이원분할표에서 x(실제로 1인 비율), y(1로 예측되는 비율), z(실제와 예측이 모두 1인 비율)을 사용하여 표현하였다. 본 연구는 평가측도가 사용하기 적합한 측도가 되기 위한 조건으로 두 가지를 제안하였다. 제1조건은 랜덤모형인 경우에 평가측도는 x와 y에 대해 상수이고, 제2조건은 평가측도의 식이 세 변수들(x, y, z) 모두로 이루어지고 z에 대해서 증가함수이고 x와 y에 대해서 감소함수이어야 한다는 것이다. HSS는 두 조건을 모두 만족하므로 이진형 반응변수의 분류모형에 대한 평가측도로 항상 사용이 적합하고, 다른 측도들은 제한된 범위 내에서만 사용하는 것이 좋다.

Abstract ▼ AI-Helper

This study investigates the characteristics of evaluation measures for classification models on a binary response variable in order to evaluate their suitability for use. Six measures are considered: Accuracy, Sensitivity, Specificity, Precision, F-measure, and the Heidke's skill score (HSS). Evaluation measures are reformulated using x(ratio of actually 1), y(ratio predicted by 1), z(ratio of both actual and predicted by 1) from the confusion matrix. We suggest two necessary conditions to assess the suitability of the evaluation measures. The first condition is that the measure function is constant for x and y in the case of a random model. The second condition is that the measure function is increasing for z and decreasing for x and y. Since only HSS satisfies the two conditions, that is always appropriate as an evaluation measure for the classification model on the binary response variable, and the other measures should be used within a limited range.

주제어

표/그림 (10)

표 Table 1.1. Accuracy score in each random model
표 Table 2.1. General components of confusion matrix
표 Table 2.2. Measures for confusion matrix
표 Table 2.3. Confusion matrix reformulated by ratios (x, y, z)
표 Table 3.1. Measures in case of random model (z = xy)
표 Table 2.4. Measures reformulated by ratios (x; y; z)
그림 Figure 3.1. Contour plot of measures for x and y in case of random model.
표 Table 4.1. Measures in case x is constant c
표 Table 4.2. Measures in case y is constant c
표 Table 4.3. Measures in case the comparability ratio is 1 (y = x)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 반응변수가 이진형인 분류모형에 대한 평가측도들의 특성을 파악하고 사용하기 적합한 평가측도인가를 살펴보았다. 고려한 측도는 정분류율, 민감도, 특이도, 정밀도, F -measure, HSS의 6개이다.
본 연구에서 평가측도가 사용하기 적합한 측도가 되기 위해 가져야 하는 조건으로 두 가지를 제안하였다. 제1조건은 랜덤모형인 경우에 평가측도들은 x와 y에 따라 변하지 않는 상수값을 가지는 것이다.
측도들에 대한 올바른 이해와 선정이 모형 개발과 선택에 중요한 문제이며 본 연구에서는 모형 평가와 비교에서 사용되는 측도들의 특성을 파악하고 합리적인 측도를 선정하기 위한 기준을 마련할 것이다. 연구의 범위는 Kim 등 (2018a)에서 언급한 세 가지 방법 중에서 두 번째 방법인 정오분류표을 이용한 방법에 한정하였다.

가설 설정

6개의 모든 측도들은 x와 y가 고정되었을 때 z가 클수록 커지며, z가 고정되었을 때 x와 y가 증가할수록 감소한다. 민감도는 y의 영향을 받지 않고, 정밀도는 x의 영향을 받지 않는다.

제안 방법

고려한 6개 측도들이 제1조건과 제2조건을 모두 만족하는 범위를 본 논문에서 제한을 둔 x가 고정되었을 때, y가 고정되었을 때, 그리고 비교비가 1인 경우와 함께 살펴보았다. 정분류율은 x 또는 y가 0.
제1조건에서 본다면 HSS를 제외한 5개의 측도들은 평가 측도로서 사용하기에 적합하지 않다. 랜덤모형인 경우 x 또는 y에 제한이 주어진다면 6개 측도들이 제1조건을 만족하는지를 살펴볼 필요가 있으며, 이 절에서는 x가 고정된 경우, y가 고정된 경우, 비교비(y/x)가 1인 경우에 측도들의 성질에 대해 살펴보았다.
랜덤모형은 예측이 실제와 관계없이 이루어지는 모형으로 모형의 성능이 전혀 없다. 본 논문에서는 랜덤모형일 때 각 측도들의 성질을 쉽게 파악하고 비교하기 위해 랜덤모형을 Table 2.2에서 각 셀의 비율이 실제와 예측이 서로 독립일 때 나타나는 기대비율과 정확히 같아지는 것으로 한정하였다. 이러한 랜덤모형에서는 z가 xy와 같으며 Table 2.
연구의 범위는 Kim 등 (2018a)에서 언급한 세 가지 방법 중에서 두 번째 방법인 정오분류표을 이용한 방법에 한정하였다. 본 논문의 구성은 2절에서 비교를 위한 선택한 6가지 측도들에 대해 설명하고, 3절에서 랜덤모형인 경우에 측도들의 특성을 파악하고 사용하기 적합한 측도인가를 살펴보았다. 4절에서 일반적인 모형에서의 측도들의 특성을 살펴보고, 5절에서 결론 및 본 연구의 성과에 대해 살펴보았다.
본 연구에서는 이원분할표를 기반으로 하고 모형평가와 비교를 위해 많이 사용되는 측도들인 정분류율(accuracy), 민감도(sensitivity), 특이도(specificity), 정밀도(precision), F -measure, HSS의 6가지 측도를 선정하였으며 각 측도들의 식은 Table 2.2와 같다.
일반적인 모형에 대해서 x 또는 y에 제한이 주어졌을 때 6개 측도들이 제2조건을 만족하는지를 살펴볼 필요가 있으며, 이 절에서는 x가 고정된 경우, y가 고정된 경우, 비교비(y/x)가 1인 경우에 측도들의 성질에 대해 살펴보았다. x와 y가 주어졌을 때 z는 max(0, x + y – 1)와 min(x, y) 사이의 값을 가질 수 있다.

이론/모형

측도들에 대한 올바른 이해와 선정이 모형 개발과 선택에 중요한 문제이며 본 연구에서는 모형 평가와 비교에서 사용되는 측도들의 특성을 파악하고 합리적인 측도를 선정하기 위한 기준을 마련할 것이다. 연구의 범위는 Kim 등 (2018a)에서 언급한 세 가지 방법 중에서 두 번째 방법인 정오분류표을 이용한 방법에 한정하였다. 본 논문의 구성은 2절에서 비교를 위한 선택한 6가지 측도들에 대해 설명하고, 3절에서 랜덤모형인 경우에 측도들의 특성을 파악하고 사용하기 적합한 측도인가를 살펴보았다.

성능/효과

3은 y가 비교비가 1일 때(x = y) 각 측도들의 x와 z에 대한 식을 보여주는 표이다. 6개의 모든 측도들은 x가 고정되었을 때 z가 증가함에 따라 증가하고 z가 고정되었을 때 x가 증가함에 따라 감소한다. 따라서 비교비가 1인 경우에 6개의 측도들은 모두 제2조건을 만족한다.
4는 6개 측도를 (x, y, z)에 따라 표현한 것이다. 6개의 모든 측도들은 x와 y가 고정되었을 때 z가 클수록 커지며, z가 고정되었을 때 x와 y가 증가할수록 감소한다. 민감도는 y의 영향을 받지 않고, 정밀도는 x의 영향을 받지 않는다.
따라서 x 또는 y에 제한을 주지 않으면 HSS를 제외한 5개의 측도들은 평가측도로서 적합하지 않다. x가 고정되었을 때의 정밀도, y가 고정되었을 때의 민감도 및 특이도, x 또는 y가 0.5일 때의 정분류율은 상수값을 가지므로 제한된 범위 안에서 제1조건을 만족하며 평가측도로 사용하기 적합하다.
5일 때 상수값을 갖고, 나머지 3개의 측도는 상수값을 갖지 않는다. 따라서 랜덤모형일 때 상수값을 가져야 한다는 제1조건의 측면에서 x가 고정되었을 때의 정밀도와 HSS 그리고 x가 0.5일 때의 정분류율은 적합한 측도로 판단된다.
5일 때 상수값을 갖고, 나머지 2개의 측도는 상수값을 갖지 않는다. 따라서 랜덤모형일 때 상수값을 가져야 한다는 제1조건의 측면에서 y가 고정되었을 때의 민감도, 특이도, HSS와 y가 0.5일 때의 정분류율은 적합한 측도로 판단된다.
Case 1과 Case 2는 같은 자료에 대한 것으로 임계치에 따라 다르게 예측되는 것을 가정한 모형이고, Case 1과 Case 3은 전혀 다른 자료에 대한 예측결과를 가정한 것이다. 세 모형은 모두 랜덤모형과 같이 예측력이 없음에도 정분류율은 다른 값을 가지며, 정분류율이 모형을 평가하고 비교하는 측도로서 불완전하다는 것을 보여주고 있다.
고려한 6개 측도들이 제1조건과 제2조건을 모두 만족하는 범위를 본 논문에서 제한을 둔 x가 고정되었을 때, y가 고정되었을 때, 그리고 비교비가 1인 경우와 함께 살펴보았다. 정분류율은 x 또는 y가 0.5일 때, 민감도는 y가 고정되었을 때, 특이도는 y가 고정되었을 때, 정밀도는 x가 고정되었을 때 두 조건을 만족하였다. F -measure는 두 조건을 만족하는 경우가 없고, HSS는 항상 두 조건을 만족하였다.
본 논문에서는 측도가 가져야 하는 이 조건을 제2조건이라 부르겠다. 제2조건에서 본다면 정분류율, 특이도, F -measure, HSS는 적합한 측도이고, 민감도와 정밀도는 적합하지 않은 측도이다.

후속연구

예를 들어 고려하는 모형이 랜덤 모형보다 좋은 지에 대한 검정은 HSS가 0보다 큰 지에 대한 검정으로 가능할 것이다. 또한 HSS는 0과 1이 바뀌어도 같은 식을 가지므로 HSS를 확장하여 3개 이상의 범주에 대한 분류에도 사용 할 수 있을 것으로 보이므로 여기에 관한 연구는 좋은 과제가 될 것이다.
본 연구에서 고려하지 않았지만 아래의 식으로 표현될 수 있는 Matthew’s correlation coefficient (MCC)는 본 연구에서 제시한 두 조건을 모두 만족하는 것으로 보이며 심도 깊은 논의가 필요할 것으로 여겨진다.
본 연구의 결과를 바탕으로 다양한 연구들이 이어질 것으로 기대한다. 예를 들어 고려하는 모형이 랜덤 모형보다 좋은 지에 대한 검정은 HSS가 0보다 큰 지에 대한 검정으로 가능할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이진 변수의 값을 표기하는 방법은?	범주형 중에서 목표변수가 가질 수 있는 값이 두 개인 이진형인 경우는 다양한 분야에서 접할 수 있으며 이러한 변수에 대한 예측모형이 중요하게 다루어지고 있다. 이진 변수의 값은 보통 질병, 사망, 불량, 양성과 같이 사건이 일어난 경우를 1로 그렇지 않은 반대의 경우를 0으로 표기한다.
	이진변수에 대한 모형을 평가, 비교하는 방법은 어떤 것들이 있는가?	이진변수에 대한 모형이 구축되면 1에 대한 확률인 스코어가 계산되며 임계치(cutoff) 이상이면 1로 그렇지 않으면 0으로 예측하게 된다. 모형 평가와 비교는 크게 세 가지 방법으로 첫 번째 방법은 목표변수가 연속형인 경우와 유사하게 목표값과 스코어의 차이를 이용하는 것으로 root mean squared error (RMSE) 등이 있고, 두 번째 방법은 목표값과 0 또는 1의 예측값로 구성되는 정오분류표(confusion matrix)에 기반한 방법으로 정분류율 등이 있고, 세 번째 방법은 다양한 임계치에 따라 만들어지는 그래프를 이용하는 방법으로 receiver operation characteristics (ROC) 등이 있다 (Kim 등, 2018a).
	목표변수의 형태 종류는?	모형을 구축한 후에 그 모형이 얼마나 우수한지에 대한 모형 평가와 여러 모형들 중에서 최적 또는 최상의 모형을 선택하기 위한 모형 비교에서 다양한 측도들을 사용하게 된다. 모형 평가와 비교를 위해 사용되는 측도들은 목표변수의 형태에 따라 달라지며, 그 형태는 크게 연속형, 범주형, 순위형으로 나눌 수 있다. 범주형 중에서 목표변수가 가질 수 있는 값이 두 개인 이진형인 경우는 다양한 분야에서 접할 수 있으며 이러한 변수에 대한 예측모형이 중요하게 다루어지고 있다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증