배재권
(Dept. of Management Information Systems, Keimyung University)
,
이승연
(Dept. of Statistics, Keimyung University)
,
서희진
(Dept. of Management Information Systems, Keimyung University)
온라인 P2P 대출(Online Peer-to-Peer Lending)이란 대출자(차입자)들이 인터넷 및 모바일 P2P 플랫폼을 통해 대출을 신청하면 P2P 플랫폼 기업이 이를 심사하고, 공개하여 불특정 다수가 자금을 빌려주고 이자를 받는 대출중개 서비스를 말한다. 국내외적으로 P2P 대출시장의 성장과 수익률에 대한 관심이 커진 상황에서 현재는 P2P 대출에 대한 안정성 측면에서 문제가 제기되고 있다. P2P 대출시장은 높은 수익률을 제공하지만 P2P 업체의 연체율과 부실률(채무불이행률)도 함께 높아지고 있는 실정이다. P2P 금융시장의 신뢰도를 높이기 위해서는 P2P 대출의 연체율과 채무불이행률을 줄이는 것이 무엇보다 중요하다. 본 연구는 세계적인 P2P 기업인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다. 구체적으로 벤치마크(benchmark) 모형으로 통계기법인 판별분석과 로지스틱 회귀분석을 이용하고, 인공지능기법으로는 신경망, CART, 그리고 C5.0을 이용하여 P2P 대출거래의 채무불이행 예측모형을 구축하고자 한다. 연구결과, P2P 대출거래의 채무불이행 예측을 위해 우선 고려해야 할 변수는 대출이자율이며, 중요도 3순위에 가장 많이 언급된 대출금액과 총부채상환비율도 고려해야 할 요인으로 추출되었다. 전통적인 통계기법보다는 인공지능기법의 예측성과가 더 좋은 것으로 나타났으며, 신경망의 경우 모든 데이터 셋에서 오분류율이 가장 낮은 예측모형으로 나타났다.
온라인 P2P 대출(Online Peer-to-Peer Lending)이란 대출자(차입자)들이 인터넷 및 모바일 P2P 플랫폼을 통해 대출을 신청하면 P2P 플랫폼 기업이 이를 심사하고, 공개하여 불특정 다수가 자금을 빌려주고 이자를 받는 대출중개 서비스를 말한다. 국내외적으로 P2P 대출시장의 성장과 수익률에 대한 관심이 커진 상황에서 현재는 P2P 대출에 대한 안정성 측면에서 문제가 제기되고 있다. P2P 대출시장은 높은 수익률을 제공하지만 P2P 업체의 연체율과 부실률(채무불이행률)도 함께 높아지고 있는 실정이다. P2P 금융시장의 신뢰도를 높이기 위해서는 P2P 대출의 연체율과 채무불이행률을 줄이는 것이 무엇보다 중요하다. 본 연구는 세계적인 P2P 기업인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다. 구체적으로 벤치마크(benchmark) 모형으로 통계기법인 판별분석과 로지스틱 회귀분석을 이용하고, 인공지능기법으로는 신경망, CART, 그리고 C5.0을 이용하여 P2P 대출거래의 채무불이행 예측모형을 구축하고자 한다. 연구결과, P2P 대출거래의 채무불이행 예측을 위해 우선 고려해야 할 변수는 대출이자율이며, 중요도 3순위에 가장 많이 언급된 대출금액과 총부채상환비율도 고려해야 할 요인으로 추출되었다. 전통적인 통계기법보다는 인공지능기법의 예측성과가 더 좋은 것으로 나타났으며, 신경망의 경우 모든 데이터 셋에서 오분류율이 가장 낮은 예측모형으로 나타났다.
In this article, an empirical study was conducted by using public dataset from Lending Club Corporation, the largest online peer-to-peer (P2P) lending in the world. We explore significant predictor variables related to P2P lending default that housing situation, length of employment, average current...
In this article, an empirical study was conducted by using public dataset from Lending Club Corporation, the largest online peer-to-peer (P2P) lending in the world. We explore significant predictor variables related to P2P lending default that housing situation, length of employment, average current balance, debt-to-income ratio, loan amount, loan purpose, interest rate, public records, number of finance trades, total credit/credit limit, number of delinquent accounts, number of mortgage accounts, and number of bank card accounts are significant factors to loan funded successful on Lending Club platform. We developed online P2P lending default prediction models using discriminant analysis, logistic regression, neural networks, and decision trees (i.e., CART and C5.0) in order to predict P2P loan default. To verify the feasibility and effectiveness of P2P lending default prediction models, borrower loan data and credit data used in this study. Empirical results indicated that neural networks outperforms other classifiers such as discriminant analysis, logistic regression, CART, and C5.0. Neural networks always outperforms other classifiers in P2P loan default prediction.
In this article, an empirical study was conducted by using public dataset from Lending Club Corporation, the largest online peer-to-peer (P2P) lending in the world. We explore significant predictor variables related to P2P lending default that housing situation, length of employment, average current balance, debt-to-income ratio, loan amount, loan purpose, interest rate, public records, number of finance trades, total credit/credit limit, number of delinquent accounts, number of mortgage accounts, and number of bank card accounts are significant factors to loan funded successful on Lending Club platform. We developed online P2P lending default prediction models using discriminant analysis, logistic regression, neural networks, and decision trees (i.e., CART and C5.0) in order to predict P2P loan default. To verify the feasibility and effectiveness of P2P lending default prediction models, borrower loan data and credit data used in this study. Empirical results indicated that neural networks outperforms other classifiers such as discriminant analysis, logistic regression, CART, and C5.0. Neural networks always outperforms other classifiers in P2P loan default prediction.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 절에서는 [Table 1]과 같이 국내외 P2P 대출기업 현황과 연체율, 그리고 부실율(채무불이행률)에 대해 분석하고자 한다. 국외 주요 P2P 대출기업(누적대출액 기준)에는 렌딩클럽(Lending Club), 프로스퍼(PROSPER), 소피(SoFi)가 있고, 국내 P2P 상위기업은 ㈜렌딧, ㈜에잇퍼센트, ㈜팝펀딩, ㈜어니스트펀드 등이 있으며 이들 기업의 연체율과 채무불이행률을 분석하고자 한다.
따라서 본 연구의 목적은 P2P 대출거래의 신뢰를 높이기 위해 투자자에게 P2P 대출거래의 채무불이행을 사전에 고지할 수 있는 P2P 대출 거래의 채무불이행 예측모형을 구축하여 연체율과 채무불이행을 낮추는 것이다. 연구데이터는 차입자의 인구통계학적 변수를 포함한 차입자정보, 대출정보, 그리고 재무 및 신용정보로 이루어진 변수를 이용하여 통계적 기법 및 인공지능기반의 P2P 대출거래 채무불이행 예측모형을 구축하였다.
대출신청자의 객관적 신용정보 이외에 주관적 정보를 반영하여 차별화된 대출금리를 산출하고 있다. 따라서 향후 연구에서는 P2P 대출거래에서 차용인의 재무적 특성과 같은 객관적 신용정보와 더불어 주관적 정보 또는 행동특성요인과 집단행동이론(herding behavior theory) 관련 변수를 고려한 채무불이행 예측모형을 구축하고자 한다. 대출신청자의 금융거래실적과 재무상황이 주 분석 대상이었던 전통적 금융기관의 대출심사평 가와 달리 기존 신용정보 이외에 심리적 행동데이터, 사회관계망 데이터, 대출신청자가 사용한 로그(log) 및 키워드 분석, 그리고 대출신청자가명시한 자금사용목적 및 상환계획 등의 주관적이고 비정형적인 데이터를 반영하여 P2P 대출 거래의 채무불이행 예측모형을 구축할 필요성이 있겠다.
본 연구는 보다 효과적인 P2P 대출거래의 채무불이행 여부를 사전에 구분하기 위한 방법으로 규칙(rule)이라는 형태를 이용하고자 의사결정나무 방법을 채택하였다. 의사결정나무 알고리즘에는 CHAID, CART, QUEST, C5.
또한 기존금융기관의 대출상환예측모형은 P2P 환경에 적합하지 않으므로 P2P 대출거래에 적합한 채무불이행 예측모형 구축이 필요하다. 본 연구에서는 첫째, P2P 대출거래의 채무불이행에 미치는 요인을 파악하기 위해 기존 금융기관에서 이용하고 있는 대출상환예측모형과 신용평가 모형을 분석하고, 글로벌 P2P 업체의 대출거래를 분석하여 이들 차이를 비교하고자 한다. 둘째, 세계적인 P2P 업체인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다.
본 연구의 목적은 P2P 대출거래에서 채무불이행 요인을 추출하여 이를 사전에 경고할 수 있는 요인을 투자자에게 알려주어 채무불이행율을 낮추는 것이다. 이를 위해 세계적인 P2P대출업체인 렌딩클럽(Lending Club)의 공개용 데이터베이스(http://www.
본 절에서는 [Table 1]과 같이 국내외 P2P 대출기업 현황과 연체율, 그리고 부실율(채무불이행률)에 대해 분석하고자 한다. 국외 주요 P2P 대출기업(누적대출액 기준)에는 렌딩클럽(Lending Club), 프로스퍼(PROSPER), 소피(SoFi)가 있고, 국내 P2P 상위기업은 ㈜렌딧, ㈜에잇퍼센트, ㈜팝펀딩, ㈜어니스트펀드 등이 있으며 이들 기업의 연체율과 채무불이행률을 분석하고자 한다.
연구는 P2P 대출거래의 채무불이행 예측모형 구축이 목적이므로 현재 상환이 진행 중이거나 연체 중이어서 상환성공과 채무불이행 여부를 알 수 없는 데이터는 제외하고, 상환완료(Fully Paid)와 채무불이행(Default) 속성을 종속변수로 활용하고자 한다. [Table 2]에서보는 바와 같이 상환완료된 대출은 120,434건이며, 채무불이행은 32,816건이다.
제안 방법
단계 1은 데이터에 대한 이해와 분석이다. P2P 대출거래의 구조와 특징을 이해하고, P2P 대출거래에서 사용 가능한 데이터 파악, 데이터 원천들에 대한 위치와 구조, 데이터 테이블의 필드와 그들의 코드 분석, 그리고 데이터의 신뢰성, 정확성, 유용성을 검토하였다[8]. 단계 2는 데이터 준비단계로 데이터 사전처리와 연구변수의 전처리 과정을 실시하였다.
Duarte et al.[2]도프로스퍼의 대출거래 데이터를 기반으로 P2P 대출거래에서 차입자의 외모가 투자자의 대출 의사결정에 미치는 영향도를 측정하였다. 이들은 차입자의 외모가 신뢰를 준다면 대출이자율이 낮아지고, 대출경매 성공가능성도 높아진다고 주장한 바 있다.
둘째, 세계적인 P2P 업체인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다. 구체적으로 예측모형 성과비교를 위해 벤치마크(benchmark) 모형으로 전통적인 통계기법인 판별분석과 로지스틱 회귀분석(로짓분석)을 이용하고, 인공지능기법으로는 신경망, CART, 그리고 C5.0을 이용하여 P2P 대출거래의 채무불이행 예측모형을 구축하고자 한다.
본 연구에서는 상환 완료된 대출과 채무불이행 대출의 특징을 설명하는 151개의 변수 중에서 채무불이행 예측에 사용할 수 없는 속성을 제외한 73개 속성의 데이터에 대해 전처리를 진행하였다. 다음으로 신용평가모형와 관련된 선행연구와 렌딩클럽의 P2P 대출거래시스템에서 제공하는 핵심변수를 고려하여 차입자의 인구통계학적 변수를 포함한 차입자정보 관련 변수, 대출정보변수, 그리고 재무 및 신용변수로 이루어진 13개의 독립변수를 선정하였다.[Table 3]에서 보는 바와 같이 차입자정보 관련 변수에는 주택소유형태, 차입자의 근무경력, 6개월 평균 잔고액, 총부채상환비율(debt to income, DTI) 등으로 구성된다.
인공지능기법의 설계과정에서는 Rstudio 프로그램을 이용하였다. 단계 4에서는 P2P 대출거래의 검증용 데이터를 예측모형에 적용시킨 후 다양한 평가도구들을 이용하여 이들 모형의 예측정확도를 비교하여 그 유용성을 검증하고 최종적인 예측모형을 제시하고자 한다.
본 연구에서는 첫째, P2P 대출거래의 채무불이행에 미치는 요인을 파악하기 위해 기존 금융기관에서 이용하고 있는 대출상환예측모형과 신용평가 모형을 분석하고, 글로벌 P2P 업체의 대출거래를 분석하여 이들 차이를 비교하고자 한다. 둘째, 세계적인 P2P 업체인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다. 구체적으로 예측모형 성과비교를 위해 벤치마크(benchmark) 모형으로 전통적인 통계기법인 판별분석과 로지스틱 회귀분석(로짓분석)을 이용하고, 인공지능기법으로는 신경망, CART, 그리고 C5.
따라서 본 연구의 목적은 P2P 대출거래의 신뢰를 높이기 위해 투자자에게 P2P 대출거래의 채무불이행을 사전에 고지할 수 있는 P2P 대출 거래의 채무불이행 예측모형을 구축하여 연체율과 채무불이행을 낮추는 것이다. 연구데이터는 차입자의 인구통계학적 변수를 포함한 차입자정보, 대출정보, 그리고 재무 및 신용정보로 이루어진 변수를 이용하여 통계적 기법 및 인공지능기반의 P2P 대출거래 채무불이행 예측모형을 구축하였다. 분석용 데이터는 온라인 P2P 대출업체인 렌딩클럽의 2016년부터 2년간 총 143,639건의 P2P 대출거래를 획득하였고, 일반화된 연구결과를 얻기 위해 상호교차검증 방법론을 이용하였다.
본 연구의 목적은 P2P 대출거래에서 채무불이행 요인을 추출하여 이를 사전에 경고할 수 있는 요인을 투자자에게 알려주어 채무불이행율을 낮추는 것이다. 이를 위해 세계적인 P2P대출업체인 렌딩클럽(Lending Club)의 공개용 데이터베이스(http://www.lendingclub.com)를 활용하고 통계기법과 인공지능기반의 P2P 대출거래 채무불이행 예측모형을 구축하고자 한다. 렌딩클럽은 2007년부터 채무상태와 채무정보, 발행된 모든 대출거래에 대한 데이터, 그리고 렌딩클럽의 신용정책에 충족하지 못한 거절된 대출신청들의 세부사항에 대한 데이터를 공개하고 있다.
판별분석은 특정한 관심대상이 어느 집단에 속하는지를 예측하는 모형을 개발하는데 사용되는 대표적인 분석방법이다. 차입자 정보, 대출정보 그리고 신용정보 등의 특성을 나타내는 독립변수 값들을 판별함수식에 대입하여 얻은 결과 값을 이용해서 정상적으로 상환 완료된 대출집단과 채무불이행 집단을 예측하였다. 로짓분석은 분석대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우에 개별관측치들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 이용된다.
종속변수가 명목척도로 측정된 범주형 질적 변수인 경우에 모형개발을 위해서 사용할 수 있는 대표적인 통계분석방법이 판별분석과 로지스틱 회귀분석(로짓분석)이다. 채무불이행 여부를 종속변수로 설정하고, 차입자정보, 대출정보, 그리고 재무 및 신용정보로 이루어진 13개의 독립변수로 정의된 판별분석과 로짓분석을 수행하였다. 판별분석은 특정한 관심대상이 어느 집단에 속하는지를 예측하는 모형을 개발하는데 사용되는 대표적인 분석방법이다.
단계 2는 데이터 준비단계로 데이터 사전처리와 연구변수의 전처리 과정을 실시하였다. 채무불이행 예측에 사용할 수 없는 속성을 제외한 데이터에 대해 전처리 과정을 진행하였다. 상환 완료된 대출과 채무불이행 대출 건인 153,250개의 대출거래에서 전처리 과정을 거쳐 총 143,639건의 대출거래를 분석에 활용하고, 모든 분석은 학습용과 검증용의 두 가지 데이터 셋으로 구성하였다.
대상 데이터
본연구에서는 시행착오법과 Hornik[5]의 선행연구를 토대로 다음과 같이 신경망 아키텍처(architecture)를 결정하였다. 다층 전방향 신경망의 구조에서 은닉층의 수는 1과 2로 설정(3층과 4층 신경망)하였고, 은닉노드의 수는 3개, 7개(n/2), 10개, 13개(n), 20개, 26개(2n), 39(3n)개로 설정하였다. 다음으로 학습률(learningrate)은 학습초기에 학습률을 ‘1’로 설정하여 빠른 학습을 유도하고, 그 다음에는 가중치의 조정이 반복(iteration)됨에 따라서 천천히 학습률을 감소시켰다.
렌딩클럽은 2007년부터 채무상태와 채무정보, 발행된 모든 대출거래에 대한 데이터, 그리고 렌딩클럽의 신용정책에 충족하지 못한 거절된 대출신청들의 세부사항에 대한 데이터를 공개하고 있다. 발행된 P2P 대출데이터에는 총 151개의 변수가 있고, 거절된 대출신청 데이터는 총 9개의 변수가 있다.
본 연구는 2016년 1월부터 2017년 12월까지 2년 간 렌딩클럽의 P2P 대출거래 데이터를 수집하여 총 759,298개의 대출거래 데이터를 획득하였다. [Table 2]는 본 연구에서 종속변수로 사용하게 될 채무상태를 나타내고 있다.
본 연구에서는 상환 완료된 대출과 채무불이행 대출의 특징을 설명하는 151개의 변수 중에서 채무불이행 예측에 사용할 수 없는 속성을 제외한 73개 속성의 데이터에 대해 전처리를 진행하였다. 다음으로 신용평가모형와 관련된 선행연구와 렌딩클럽의 P2P 대출거래시스템에서 제공하는 핵심변수를 고려하여 차입자의 인구통계학적 변수를 포함한 차입자정보 관련 변수, 대출정보변수, 그리고 재무 및 신용변수로 이루어진 13개의 독립변수를 선정하였다.
연구데이터는 차입자의 인구통계학적 변수를 포함한 차입자정보, 대출정보, 그리고 재무 및 신용정보로 이루어진 변수를 이용하여 통계적 기법 및 인공지능기반의 P2P 대출거래 채무불이행 예측모형을 구축하였다. 분석용 데이터는 온라인 P2P 대출업체인 렌딩클럽의 2016년부터 2년간 총 143,639건의 P2P 대출거래를 획득하였고, 일반화된 연구결과를 얻기 위해 상호교차검증 방법론을 이용하였다.
채무불이행 예측에 사용할 수 없는 속성을 제외한 데이터에 대해 전처리 과정을 진행하였다. 상환 완료된 대출과 채무불이행 대출 건인 153,250개의 대출거래에서 전처리 과정을 거쳐 총 143,639건의 대출거래를 분석에 활용하고, 모든 분석은 학습용과 검증용의 두 가지 데이터 셋으로 구성하였다. 즉, 학습용 데이터 셋(training dataset)으로 60%(86,183/143,639)를 사용하고, 나머지 40%(57,456/143,639)는 검증용 데이터 셋(validation dataset)으로 사용하였다.
상환 완료된 대출과 채무불이행 대출 건인 153,250개의 대출거래에서 전처리 과정을 거쳐 총 143,639건의 대출거래를 분석에 활용하고, 모든 분석은 학습용과 검증용의 두 가지 데이터 셋으로 구성하였다. 즉, 학습용 데이터 셋(training dataset)으로 60%(86,183/143,639)를 사용하고, 나머지 40%(57,456/143,639)는 검증용 데이터 셋(validation dataset)으로 사용하였다. 또한 보다 일반화된 연구결과를 얻기 위해 5회의 상호검증방법(5-fold cross-validation method)을 사용하였다.
데이터처리
다음으로 판별분석, 로짓분석, 신경망, CART, 그리고 C5.0 알고리즘을 이용하여 구축한 P2P 채무불이행 모형의 예측성과를 비교 분석하기 위해 교차검증을 통한 오분류율(misclassification rate)을 제시하였다. [Table 6]에서 보는 바와 같이 전통적인 통계기법인 판별분석의 평균 오분류율(검증용 데이터 기준)은 0.
즉, 학습용 데이터 셋(training dataset)으로 60%(86,183/143,639)를 사용하고, 나머지 40%(57,456/143,639)는 검증용 데이터 셋(validation dataset)으로 사용하였다. 또한 보다 일반화된 연구결과를 얻기 위해 5회의 상호검증방법(5-fold cross-validation method)을 사용하였다. 단계 3은 데이터 분석 및 모형화 단계로 분석용 데이터 마트(data mart)를 이용하여 P2P 대출거래 채무불이행 예측모형을 구축하는 단계이다.
이론/모형
로짓분석은 분석대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우에 개별관측치들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 이용된다. 로짓분석에서는 연구변수의 다중공선성(multicollinearity) 문제를 해결하기 위해서 변수선택법을 고려하였다. 변수선택법 중에서는 가장 안정적인 방법인 단계별선택법(stepwise selection method)을 이용하여 회귀모형을 구축하였다.
로짓분석에서는 연구변수의 다중공선성(multicollinearity) 문제를 해결하기 위해서 변수선택법을 고려하였다. 변수선택법 중에서는 가장 안정적인 방법인 단계별선택법(stepwise selection method)을 이용하여 회귀모형을 구축하였다. 단계별선택법은 다른 독립변수가 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키기 때문에 예측함수를 개발하는데 효과적이다[1].
의사결정나무 모형의 설계과정에서 고려해야 할 요인으로는 분리기준(splitting criterion)과 정지규칙(stopping rule)이 있다([Table 4] 참고). 본 연구는 이산형 목표변수 분류를 위한 것으로 CART는 지니지수(Gini index), C5.0는 엔트로피 지수(Entropyindex)를 분리기준으로 각각 사용한다. 정지규칙은 더 이상 분리가 일어나지 않고 현재의마디가 잎이 되도록 하는 규칙을 말한다.
단계 3은 데이터 분석 및 모형화 단계로 분석용 데이터 마트(data mart)를 이용하여 P2P 대출거래 채무불이행 예측모형을 구축하는 단계이다. 본 연구에서는 벤치마크 모델로 통계기법인 판별분석과 로지스틱 회귀분석을 이용하였고, 인공지능기법으로는 인공신경망과 의사결정나무로 가장 널리 활용되고 있는 CART와 C5.0 알고리즘을 이용하여 P2P 대출거래 채무불이행 예측모형을 구축하였다. 인공지능기법의 설계과정에서는 Rstudio 프로그램을 이용하였다.
일반적으로 은닉노드 수가 많아지면 학습자료에 과도학습(over-fitting)되어 일반화 오류가 커지는 경향이 있으며, 은닉노드수가 너무 적으면 학습자료에 대한 예측력이 떨어지게 된다. 본연구에서는 시행착오법과 Hornik[5]의 선행연구를 토대로 다음과 같이 신경망 아키텍처(architecture)를 결정하였다. 다층 전방향 신경망의 구조에서 은닉층의 수는 1과 2로 설정(3층과 4층 신경망)하였고, 은닉노드의 수는 3개, 7개(n/2), 10개, 13개(n), 20개, 26개(2n), 39(3n)개로 설정하였다.
본 연구는 보다 효과적인 P2P 대출거래의 채무불이행 여부를 사전에 구분하기 위한 방법으로 규칙(rule)이라는 형태를 이용하고자 의사결정나무 방법을 채택하였다. 의사결정나무 알고리즘에는 CHAID, CART, QUEST, C5.0 등이 있으며 본 연구에서는 이산형(discrete) 목표변수 분류를 위해 널리 쓰이는 CART와 C5.0 알고리즘을 사용하였다. 의사결정나무 모형의 설계과정에서 고려해야 할 요인으로는 분리기준(splitting criterion)과 정지규칙(stopping rule)이 있다([Table 4] 참고).
0 알고리즘을 이용하여 P2P 대출거래 채무불이행 예측모형을 구축하였다. 인공지능기법의 설계과정에서는 Rstudio 프로그램을 이용하였다. 단계 4에서는 P2P 대출거래의 검증용 데이터를 예측모형에 적용시킨 후 다양한 평가도구들을 이용하여 이들 모형의 예측정확도를 비교하여 그 유용성을 검증하고 최종적인 예측모형을 제시하고자 한다.
성능/효과
넷째, 차입자의 대출신청금액이 많을수록 채무불이행 확률이 높은 것으로 나타났고, 대출목적 또한 P2P 대출거래의 채무불이행에 유의한 영향을 미치는 것으로 나타났다. 주택구입비용, 생활비, 의료비 등의 생계필수비용 목적으로 대출받은 차입자의 경우 채무불이행률이 낮은 것으로 나타났다.
둘째, 인공지능기법인 신경망에서는 신용카드계좌수를 가장 영향력 있는 변수로 판별하였고, 다음으로 대출목적, 근무경력, 대출금액, 총신용사용금액/신용한도 순으로 중요도가 선정되었다. CART에서는 통계기법과 마찬가지로 대출이자율이 가장 영향력 있는 변수로 선정되었고, 다음으로 주택소유형태, 총부채상환비율, 총신용사용금액/신용한도, 대출금액 순으로 선정되었다.
첫째, 판별분석에서는 P2P 채무불이행 여부에 가장 영향력 있는 변수로 대출이자율이 선정되었고, 다음으로 대출이자율, 대출금액, 신용파산기록, 모기지대출계좌수, 총부채상환비율 순으로 중요도가 분류되었다. 로짓분석의 경우에도 대출이자율이 채무불이행 예측에 가장 영향력 있는 변수로 선정되었고, 다음으로 총부채상환비율, 대출금액, 총신용사용금액/신용한도, 신용조회건수 등이 영향력 있는 변수로 판별되었다.
마지막으로, 검증용 데이터의 상호교차검증을 통한 P2P 채무불이행 예측모형의 성과로 5개의 데이터 셋에서 신경망이 가장 낮은 평균오분류율(0.1881)을 나타내었고, 다음으로 판별분석(0.2077), C5.0(0.2100) 순으로 나타났다. 가장 우수한 예측모형 성과를 보인 신경망에서는 다른 예측모형과는 다르게 ‘신용카드계좌수’변수를 가장 영향력 있는 변수로 판별하여, 위변수도 채무불이행 예측에 우선적으로 고려해야 할 필요성이 있다.
셋째, 신경망 모형을 제외한 모든 예측모형에서 대출이자율이 P2P 대출거래의 채무불이행 예측에 가장 영향력 있는 변수로 선정되었고, 중요도 3순위 안의 변수로 대출금액과 총부채상환비율이 영향력 있는 변수로 선정되었다. 이는 대출정보와 재무적 변수가 채무불이행에 미치는 영향이 크다는 선행연구 결과와 일치한다.
즉, 전통적인 통계기법에서는 공통적으로 대출이자율, 대출금액, 총부채상환비율이 P2P 대출거래의 채무불이행을 예측하는데 가장 영향력있는 변수로 추출되었다. 신경망에서는 신용카드계좌수를 가장 영향력 있는 변수로 판별하였고, 다음으로 대출목적, 근무경력, 대출금액, 총신용사용금액/신용한도 순으로 중요도가 분류되었다. CART에서는 대출이자율이 가장 영향력 있는 변수로 선정되었고, 다음으로 주택소유형태, 총부채상환비율, 총신용사용금액/신용한도, 대출금액 순으로 분류되었다.
주택구입비용, 생활비, 의료비 등의 생계필수비용 목적으로 대출받은 차입자의 경우 채무불이행률이 낮은 것으로 나타났다. 위의 연구결과는 P2P 대출서비스가 서민금융과 금융소외계층에게 필요 자금조달수단이 되는 동시에 신용파산기록이 있는 차입자의 신용회복을 위한 수단으로 활용될 수 있다는 것을 의미한다.
3742로 나타나 판별분석이 로짓분석에 비해 예측성과가 더 좋은 결과를 보여주고 있다. 인공지능기법인 신경망의 평균 오분류율은 0.1881, CART의 평균 오분류율은 0.2313, 그리고 C5.0의 평균 오분류율은 0.2100으로 나타나 인공지능기법 중에서는 신경망의 예측성과(은닉노드의 수: 10개)가 더 좋은 것으로 나타났다. 전체적으로 전통적인 통계기법(평균 오분류율: 0.
2100으로 나타나 인공지능기법 중에서는 신경망의 예측성과(은닉노드의 수: 10개)가 더 좋은 것으로 나타났다. 전체적으로 전통적인 통계기법(평균 오분류율: 0.2909)보다는 인공지능기법(평균 오분류율: 0.2098)의 예측성과가 더 좋은 것으로 나타났으며, 신경망의 경우 모든 데이터 셋에서 오분류율이 가장 낮은 예측모형으로 나타났다.
전통적인 통계기법과 인공지능기법을 비교하면, 대출목적은 통계기법에서는 중요한 변수로 선별되지 않았으나 인공지능기법에서는 대출목적이 중요한 변수로 추출되었다. 종합하면, P2P 대출거래의 채무불이행 예측을 위해 우선 고려해야 할 변수는 대출이자율이며, 중요도 3순위에 가장 많이 언급된 대출금액과 총부채상환비율도 고려해야 할 요인으로 추출되었다.
넷째, 차입자의 대출신청금액이 많을수록 채무불이행 확률이 높은 것으로 나타났고, 대출목적 또한 P2P 대출거래의 채무불이행에 유의한 영향을 미치는 것으로 나타났다. 주택구입비용, 생활비, 의료비 등의 생계필수비용 목적으로 대출받은 차입자의 경우 채무불이행률이 낮은 것으로 나타났다. 위의 연구결과는 P2P 대출서비스가 서민금융과 금융소외계층에게 필요 자금조달수단이 되는 동시에 신용파산기록이 있는 차입자의 신용회복을 위한 수단으로 활용될 수 있다는 것을 의미한다.
로짓분석의 경우 대출이자율, 총부채상환비율, 대출금액, 총신용 사용금액/신용한도, 신용조회건수의 순서로 영향력 있는 변수를 판별하였다. 즉, 전통적인 통계기법에서는 공통적으로 대출이자율, 대출금액, 총부채상환비율이 P2P 대출거래의 채무불이행을 예측하는데 가장 영향력있는 변수로 추출되었다. 신경망에서는 신용카드계좌수를 가장 영향력 있는 변수로 판별하였고, 다음으로 대출목적, 근무경력, 대출금액, 총신용사용금액/신용한도 순으로 중요도가 분류되었다.
0로 추출된 분류나무(classification tree)의 규칙을 나타낸 것이다. 첫 번째 데이터 셋(dataset 1) 기준으로 CART에서는 가장 영향력 있는 변수로 추출된 뿌리마디(root node)의 위치에 있는 대출이자율이 분류되었고, 다음으로 주택소유형태, 총부채상환비율, 총신용사용금액/신용한도, 대출금액 순으로 분류되었다. C5.
첫째, 판별분석에서는 P2P 채무불이행 여부에 가장 영향력 있는 변수로 대출이자율이 선정되었고, 다음으로 대출이자율, 대출금액, 신용파산기록, 모기지대출계좌수, 총부채상환비율 순으로 중요도가 분류되었다. 로짓분석의 경우에도 대출이자율이 채무불이행 예측에 가장 영향력 있는 변수로 선정되었고, 다음으로 총부채상환비율, 대출금액, 총신용사용금액/신용한도, 신용조회건수 등이 영향력 있는 변수로 판별되었다.
변수중요도 순위는 5회의 상호 검증방법(5-fold cross-validation method)을이용한 검증용 데이터의 결과를 정리한 것이다. 판별분석에서는 대출이자율, 대출금액, 신용파산기록, 모기지대출계좌수, 총부채상환비율 순으로 중요도가 분류되었다. 로짓분석의 경우 대출이자율, 총부채상환비율, 대출금액, 총신용 사용금액/신용한도, 신용조회건수의 순서로 영향력 있는 변수를 판별하였다.
후속연구
따라서 향후 연구에서는 P2P 대출거래에서 차용인의 재무적 특성과 같은 객관적 신용정보와 더불어 주관적 정보 또는 행동특성요인과 집단행동이론(herding behavior theory) 관련 변수를 고려한 채무불이행 예측모형을 구축하고자 한다. 대출신청자의 금융거래실적과 재무상황이 주 분석 대상이었던 전통적 금융기관의 대출심사평 가와 달리 기존 신용정보 이외에 심리적 행동데이터, 사회관계망 데이터, 대출신청자가 사용한 로그(log) 및 키워드 분석, 그리고 대출신청자가명시한 자금사용목적 및 상환계획 등의 주관적이고 비정형적인 데이터를 반영하여 P2P 대출 거래의 채무불이행 예측모형을 구축할 필요성이 있겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
P2P 시장의 신뢰도 향상을 위해 중요한 것은?
P2P 대출시장은 높은 수익률을 제공하지만 P2P 업체의 연체율과 부실률(채무불이행률)도 함께 높아지고 있는 실정이다. P2P 금융시장의 신뢰도를 높이기 위해서는 P2P 대출의 연체율과 채무불이행률을 줄이는 것이 무엇보다 중요하다. 본 연구는 세계적인 P2P 기업인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다.
P2P대출의 경제적 장점은?
P2P대출은 대출자(차입자)들이 인터넷 및 모바일 P2P 플랫폼을 통해 대출을 신청하면 P2P 플랫폼 기업이 심사하고, 이를 공개하여 불특정 다수가 여유자금을 빌려주고 이자를 받는 대출중개 서비스를 말한다. 온라인 마켓플레이스(online marketplace)를 통해 모든 대출과정을 자동화하여 지점운영비용, 인건비, 대출영업비용 등의 불필요한 경비 지출을 최소화하여 대출자에게는 보다 낮은 금리를, 투자자에게는 보다 높은 수익을 제공하고 있다. P2P 대출은 전통적인 금융기관을 통해서만 가능했던 기존의 금융거래를 인터넷을 통해 이루어지게 함은 물론 대출자와 투자자 모두에게 합리적인 이율을 제공한다는 점이 특징이다.
온라인 P2P 대출이란?
온라인 P2P 대출(Online Peer-to-Peer Lending)이란 대출자(차입자)들이 인터넷 및 모바일 P2P 플랫폼을 통해 대출을 신청하면 P2P 플랫폼 기업이 이를 심사하고, 공개하여 불특정 다수가 자금을 빌려주고 이자를 받는 대출중개 서비스를 말한다. 국내외적으로 P2P 대출시장의 성장과 수익률에 대한 관심이 커진 상황에서 현재는 P2P 대출에 대한 안정성 측면에서 문제가 제기되고 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.