고객 신용등급 평가에서 고객 신용정보 기반 기계학습 알고리즘 성능비교 A Practical Comparison of Machine Learning Algorithms using Survey of Consumer Finances Data in Multi-Class Consumer Credit Scoring원문보기
신용 점수 모델은 차용인의 채무 불이행 가능성을 예측함으로써 대출 기관에 대해 최소한의 손실 원칙을 제공하는 것이다. 따라서 많은 연구에서 신용 점수를 간단한 2 진 분류로 공식화했다. 실제로 이 신용 등급 분류는 한 사람을 많은 신용 등급 범주 중 하나로 분류하므로 실제로 비현실적이다. 이 논문은 다양한 기계 학습 알고리즘을 사용하여 실용적인 다단계 소비자 신용 점수 모델을 조사하고 공개 소스 조사 소비자 금융 ...
신용 점수 모델은 차용인의 채무 불이행 가능성을 예측함으로써 대출 기관에 대해 최소한의 손실 원칙을 제공하는 것이다. 따라서 많은 연구에서 신용 점수를 간단한 2 진 분류로 공식화했다. 실제로 이 신용 등급 분류는 한 사람을 많은 신용 등급 범주 중 하나로 분류하므로 실제로 비현실적이다. 이 논문은 다양한 기계 학습 알고리즘을 사용하여 실용적인 다단계 소비자 신용 점수 모델을 조사하고 공개 소스 조사 소비자 금융 데이터 세트를 기반으로 광범위한 비교를 수행한다. 차원 문제의 저주와 효과적인 다중 클래스 신용 점수 모델을 다루기 위해 두 단계와 세 가지 변형으로 구성된 다단계 및 다중 변형 기능 선택 알고리즘을 제안한다. 첫 번째 단계에서는 가장 유익한 기능을 선택하고 순위를 매기는 데 통계 가설 테스트, 상관 관계 및 임의의 포리스트 기능 중요도 측정을 포함한 필터 기반 선택 알고리즘이 사용되었다. 두 번째 단계에서는 순위가 매겨진 기능 중에서 가장 효과적인 기능을 선택하기 위해 Logistic Regression (LR) 및 Multivariate Adaptive 회귀 스플라인 (MARS)이 채택되었다. 그 후, 기계 학습 알고리즘의 수인 지원 벡터 머신, 랜덤 포레스트, XGBoost 및 다중 레이어 퍼셉트론 (MLP)이 실제 멀티 클래스 신용 점수 모델을 구축하도록 훈련되었다. 이 연구는 Root-Mean-Squared Error (RMSE), AUC, AUC-H, H-measure 척도 및 정확도를 사용하여 사용 된 방법과 그 변형을 평가하고 비교한다. 재정적으로 예상 최대 이익 (EMP)과 누적 실제 손실 (ACL) 측정을 사용하여 신용 점수 모델의 비즈니스 현실을 비교한다. 특히 누적 ACL은 다중 등급 신용 점수 모델과 Fair, Isaac, Company (FICO) 신용 점수 간의 비교를 위해 추정돤다. 우리의 결과는 다중 계층 퍼셉트론 네트워크가 이론 및 재무 측정 모두에서 최상의 성능을 달성했으며 기계 학습 기반 모델이 2000 년에서 2002 년 사이의 FICO 신용 점수보다 수익성이 높다는 것이 입증되었다.
신용 점수 모델은 차용인의 채무 불이행 가능성을 예측함으로써 대출 기관에 대해 최소한의 손실 원칙을 제공하는 것이다. 따라서 많은 연구에서 신용 점수를 간단한 2 진 분류로 공식화했다. 실제로 이 신용 등급 분류는 한 사람을 많은 신용 등급 범주 중 하나로 분류하므로 실제로 비현실적이다. 이 논문은 다양한 기계 학습 알고리즘을 사용하여 실용적인 다단계 소비자 신용 점수 모델을 조사하고 공개 소스 조사 소비자 금융 데이터 세트를 기반으로 광범위한 비교를 수행한다. 차원 문제의 저주와 효과적인 다중 클래스 신용 점수 모델을 다루기 위해 두 단계와 세 가지 변형으로 구성된 다단계 및 다중 변형 기능 선택 알고리즘을 제안한다. 첫 번째 단계에서는 가장 유익한 기능을 선택하고 순위를 매기는 데 통계 가설 테스트, 상관 관계 및 임의의 포리스트 기능 중요도 측정을 포함한 필터 기반 선택 알고리즘이 사용되었다. 두 번째 단계에서는 순위가 매겨진 기능 중에서 가장 효과적인 기능을 선택하기 위해 Logistic Regression (LR) 및 Multivariate Adaptive 회귀 스플라인 (MARS)이 채택되었다. 그 후, 기계 학습 알고리즘의 수인 지원 벡터 머신, 랜덤 포레스트, XGBoost 및 다중 레이어 퍼셉트론 (MLP)이 실제 멀티 클래스 신용 점수 모델을 구축하도록 훈련되었다. 이 연구는 Root-Mean-Squared Error (RMSE), AUC, AUC-H, H-measure 척도 및 정확도를 사용하여 사용 된 방법과 그 변형을 평가하고 비교한다. 재정적으로 예상 최대 이익 (EMP)과 누적 실제 손실 (ACL) 측정을 사용하여 신용 점수 모델의 비즈니스 현실을 비교한다. 특히 누적 ACL은 다중 등급 신용 점수 모델과 Fair, Isaac, Company (FICO) 신용 점수 간의 비교를 위해 추정돤다. 우리의 결과는 다중 계층 퍼셉트론 네트워크가 이론 및 재무 측정 모두에서 최상의 성능을 달성했으며 기계 학습 기반 모델이 2000 년에서 2002 년 사이의 FICO 신용 점수보다 수익성이 높다는 것이 입증되었다.
A credit scoring model is to contribute a minimum loss principle for lending institutions by predicting the probability of borrower's default. Hence, many studies have formulated credit scoring as a simple binary classification. This binary classification of borrowers is largely unrealistic as in pr...
A credit scoring model is to contribute a minimum loss principle for lending institutions by predicting the probability of borrower's default. Hence, many studies have formulated credit scoring as a simple binary classification. This binary classification of borrowers is largely unrealistic as in practice credit scoring classifies a person into one of many categories of creditworthiness. This thesis investigates a practical multi-class consumer credit scoring models using various machine learning algorithms and performs an extensive comparison based on open source survey consumer finance datasets. To deal with the curse of dimensionality issue and for an effective multi-class credit scoring model, we propose a multi-stage and multiple variants features selection algorithm that consists of two steps and three variants. In the first step, filter-based selection algorithms including statistical hypothesis tests, correlation and random forest feature importance metrics were used to select the most informative features and to rank them. In the second step, Logistic Regression (LR) and Multivariate adaptive regression splines (MARS) were employed to select the most effective features among the ranked features. Afterwards, the number of machine learning algorithms, namely Support Vector Machine, Random Forest, XGBoost and Multi-Layer perceptron are trained to build the practical multi-class credit scoring models. This study evaluates and compares the used methods and its variants by using Root-mean-squared error (RMSE), AUC, AUC-H, H-measure, and accuracy. Financially, the Expected Maximum Profit (EMP) and cumulative Actual Credit Loss (ACL) measurements are employed to clarify the business reality of credit scoring models in comparison. Especially, cumulative ACL is estimated for comparison between our multi-class credit scoring models and the Fair, Isaac and Company’s (FICO) credit score. Our results showed that Multi-Layer perceptron networks achieve the best performance in both theoretical and financial measures, and it is proven that machine learning-based models were more profitable compared with FICO credit score from 2000 to 2002.
A credit scoring model is to contribute a minimum loss principle for lending institutions by predicting the probability of borrower's default. Hence, many studies have formulated credit scoring as a simple binary classification. This binary classification of borrowers is largely unrealistic as in practice credit scoring classifies a person into one of many categories of creditworthiness. This thesis investigates a practical multi-class consumer credit scoring models using various machine learning algorithms and performs an extensive comparison based on open source survey consumer finance datasets. To deal with the curse of dimensionality issue and for an effective multi-class credit scoring model, we propose a multi-stage and multiple variants features selection algorithm that consists of two steps and three variants. In the first step, filter-based selection algorithms including statistical hypothesis tests, correlation and random forest feature importance metrics were used to select the most informative features and to rank them. In the second step, Logistic Regression (LR) and Multivariate adaptive regression splines (MARS) were employed to select the most effective features among the ranked features. Afterwards, the number of machine learning algorithms, namely Support Vector Machine, Random Forest, XGBoost and Multi-Layer perceptron are trained to build the practical multi-class credit scoring models. This study evaluates and compares the used methods and its variants by using Root-mean-squared error (RMSE), AUC, AUC-H, H-measure, and accuracy. Financially, the Expected Maximum Profit (EMP) and cumulative Actual Credit Loss (ACL) measurements are employed to clarify the business reality of credit scoring models in comparison. Especially, cumulative ACL is estimated for comparison between our multi-class credit scoring models and the Fair, Isaac and Company’s (FICO) credit score. Our results showed that Multi-Layer perceptron networks achieve the best performance in both theoretical and financial measures, and it is proven that machine learning-based models were more profitable compared with FICO credit score from 2000 to 2002.
주제어
#Multi-class credit scoring Feature selection Probability of default cumulative Actual credit loss FICO scoring
학위논문 정보
저자
라기
학위수여기관
충북대학교 전기 전자 정보 컴퓨터학부
학위구분
국내석사
학과
컴퓨터과학과(원)
지도교수
류근호
발행연도
2018
총페이지
78
키워드
Multi-class credit scoring Feature selection Probability of default cumulative Actual credit loss FICO scoring
※ AI-Helper는 부적절한 답변을 할 수 있습니다.