[논문]데이터마이닝을 이용한 학자금 대출 부실 고위험군 예측모형 개발

최재석; 한준태; 김면중; 정진아

doi:10.7465/jkdi.2015.26.6.1417

초록
AI-Helper

본 연구는 한국장학재단의 2012-2014년간 일반 학자금 대출 자료를 활용하여 부실채권 보유 및 신용유의자로 분류될 수 있는 위험요인들을 파악하고, 부실 고위험군 예측모형을 개발했다. 예측모형 개발은 데이터마이닝 방법 중 의사결정나무 분석을 적용하였으며, 분석 패키지는 SAS Enterprise Miner 13.2를 활용했다. 개발된 모형은 25가지의 그룹으로 세분화 했으며, 부실 위험군에 영향을 미치는 주요 요인은 소득분위, 국가장학금 수혜유무, 나이, 연체계좌 보유 이력, 대학구분 (학부/대학원), 전공 계열, 월평균 상환액이 주요 요인으로 나타났다. 본 연구에서 개발된 부실 고위험군 예측모형은 장기연체로 인한 부실채권 발생 및 신용유의자 발생 예방을 위한 세분화된 관리서비스 제공을 위한 기초자료가 될 수 있을 것이다.

Abstract ▼ AI-Helper

We develop the high risk group predictive model for loan default by utilizing the direct loan data from 2012 to 2014 of the Korea Student Aid Foundation. We perform the decision tree analysis using the data mining methodology and use SAS Enterprise Miner 13.2. As a result of this model, subject type...

We develop the high risk group predictive model for loan default by utilizing the direct loan data from 2012 to 2014 of the Korea Student Aid Foundation. We perform the decision tree analysis using the data mining methodology and use SAS Enterprise Miner 13.2. As a result of this model, subject types were classified into 25 types. This study shows that the major influencing factors for the loan default are household income, national grant, age, overdue record, level of schooling, field of study, monthly repayment. The high risk group predictive model in this study will be the basis for segmented management service for preventing loan default.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구의 목적은 일반상환 학자금 대출자의 일반적 특성, 학교 개황, 대출정보 등의 자료를 기초로 장기연체로 인한 부실채권 보유 및 신용유의자로 분류될 수 있는 위험요인들을 파악하고, 이를 근거로 향후 고위험군을 예측하기 위한 예측모형 개발에 있다. 또한, 예측모형 개발과 동시에 고위험군의 유형을 세분화 하기위해 데이터마이닝 기법 중 하나인 의사결정나무 분석을 적용하였다.

제안 방법

본 연구의 목적은 일반상환 학자금 대출자의 일반적 특성, 학교 개황, 대출정보 등의 자료를 기초로 장기연체로 인한 부실채권 보유 및 신용유의자로 분류될 수 있는 위험요인들을 파악하고, 이를 근거로 향후 고위험군을 예측하기 위한 예측모형 개발에 있다. 또한, 예측모형 개발과 동시에 고위험군의 유형을 세분화 하기위해 데이터마이닝 기법 중 하나인 의사결정나무 분석을 적용하였다. 여기서 데이터마이닝이란 대용량 자료로부터 의미있는 패턴과 규칙을 발견하기 위해서 데이터를 탐색하고 분석하는 과정이다.
본 연구에서는 의사결정나무 모형을 이용하여 부실 고위험군 예측모형을 개발하고 위험군에 미치는 주요 요인 및 25가지의 그룹을 구분하였다.

대상 데이터

부실 고위험군 예측모형 개발을 위한 자료는 한국장학재단의 원천시스템 및 데이터웨어하우스 (data warehouse)에서 2012년부터 2014년까지 일반상환 학자금대출자의 인구사회학적 특성, 소득분위, 학교 및 학과 개황, 대출정보 자료, 국가장학금 수혜 정보 등을 이용하였다. 분석 패키지는 SAS Enterprise Miner 13.
부실채권 및 신용유의정보 등록에 영향을 주는 요인은 관련 연구자료 및 발표자료 등을 고려하여, 인구사회학적 특성 (대출 당시의 나이, 성별, 결혼여부), 소득분위, 국가장학금 수혜 유무, 대출실행 당시의 학교 개황 정보로 대학구분 (학부, 대학원), 대학설립 형태 (국공립, 사립), 대학 소재지 (수도권, 비수도권), 학과개황 정보 중 계열정보 (인문계열, 사회계열, 교육계열, 공학계열, 자연계열, 의약계열, 예체능계열), 일반학자금 대출 정보와 관련된 항목으로 2012-2014년간 연체계좌 보유 이력 (1개 이하, 2개 이상)과 월평균 상환액을 설명변수로 포함하였다. 여기서 월평균 상환액은 대출계좌별로 거치기간 과 대출기간을 최댓값으로 설정하여 총 대출금액을 대출기간에서 거치기간을 제외한 개월 수로 나눈 것을 월평균 상환액으로 산출하였다.

데이터처리

2012-2014년간 대출 관련 자료에서 인구사회학적 특성 (성별, 연령, 결혼유무), 소득분위, 국가장학금 수혜 유무, 연체계좌 보유 이력, 대학 설립구분, 대학 지역구분, 대학구분, 전공 계열구분의 현황분석을 실시하기 위해 교차분석과 정상과 부실 그룹간 월평균 상환액 평균 차이를 검증하기 위해 t-test를 수행 하였다.
본 연구에서 개발된 의사결정나무 예측모형에 대한 평가는 예측 정확도를 나타내는 Root 평균제곱오차 (average squared error; ASE), 오분류율, Roc 곡선과 향상도에 근거하였다. Root ASE 은 약 0.

이론/모형

분석데이터는 크게 분석용 (training data), 평가용 (validation data)으로 구분하였고, 분석용과 평가용 데이터는 2012-2014년 일반상환학자금 대출자를 기준으로 6 대 4의 비율로 분할하여 생성하였다. 또한, 개발된 예측모형의 성능에 대한 평가는 Roc (receiver operation characteristic) 곡선, 향상도 도표 (lift chart) 및 오분류율을 이용하였다.
의사결정나무의 Interactive method를 이용하여 일반상환 대출자 (2012-2014년)를 대상으로 부실 고 위험군 예측 모형을 개발하였다. 일반상환 대출자가 부실 위험군으로 분류되는 결정에 고려한 변수는 성별, 연령, 결혼여부, 소득분위, 국가장학금 수혜 유무, 월평균 상환액, 연체계좌 보유 이력, 대학 설립 구분, 대학 지역구분, 대학구분, 전공 계열구분으로 총 11개 변수를 사용하였다.
분류 또는 예측의 과정이 나무구조에 의한 추론규칙으로 표현되기 때문에 다른 계량적 분석 방법에 비해 쉽게 이해하고 활용할 수 있다는 장점이 있다. 이에 본 연구는 부실 고위험군 예측모형 개발과 동시에 고위험군의 유형을 세분화하기 위해 의사결정나무를 적용하였다.
한국장학재단 일반상환 학자금 대출자를 중심으로, SAS Enterprise Miner 13.2를 이용하여 부실 고위험군 예측모형을 의사결정나무 분석을 적용하여 진행하였다. 의사결정나무는 의사결정 규칙을 나무 구조로 도표화하여 관심대상이 되는 집단을 몇 개의 소그룹으로 분류하거나 예측을 수행하는 분석방법이다.

후속연구

다만, 연구에 활용된 분석 자료 중에서 소득분위 중에서 소득이 파악되지 않는 ‘기타’의 정의와 대학구분별 (학부/대학원), 학종별 (4년제/전문대학)로 구분한 모형 개발을 고려할 필요가 있다. 또한 대학 정보공시 항목 등을 활용하는 것이 향후 부실 고위험군 예측모형의 고도화에 필요한 요건으로 보인다.
그러나 대출 이용자의 특성보다는 정상/연체 여부, 연체 개월 수 중심의 표준화된 서비스가 대부분이다. 따라서 소득분위, 국가장학금 수혜유무, 연체계좌 보유 이력, 전공 계열, 연령 등을 고려한 부실 고위험군 위험요인에 대한 관리는 장기연체로 인한 부실채권 발생 및 신용유의자 발생 예방을위한 세분화된 관리서비스 제공을 위한 기초자료가 될 수 있을 것이다.
다만, 연구에 활용된 분석 자료 중에서 소득분위 중에서 소득이 파악되지 않는 ‘기타’의 정의와 대학구분별 (학부/대학원), 학종별 (4년제/전문대학)로 구분한 모형 개발을 고려할 필요가 있다. 또한 대학 정보공시 항목 등을 활용하는 것이 향후 부실 고위험군 예측모형의 고도화에 필요한 요건으로 보인다. 마지막으로 본 연구에서는 고객세분화를 보다 쉽게 이해할 수 있도록 의사결정나무분석 기법만을 적용하였으나, 추후 타 모형 (로지스틱, 생존분석 등)과의 성능비교에 대한 추가적인 연구를 진행하고자 한다.
또한 대학 정보공시 항목 등을 활용하는 것이 향후 부실 고위험군 예측모형의 고도화에 필요한 요건으로 보인다. 마지막으로 본 연구에서는 고객세분화를 보다 쉽게 이해할 수 있도록 의사결정나무분석 기법만을 적용하였으나, 추후 타 모형 (로지스틱, 생존분석 등)과의 성능비교에 대한 추가적인 연구를 진행하고자 한다.
한국장학재단의 학자금대출은 대출 신청 시 작성하는 개인의 신상, 직장, 자산, 신용, 금융기관 거래 정보 등을 종합 평가하여 대출여부 및 대출금액을 산정하는 개인신용평가시스템 (credit scoring system)이 아니지만, 본 연구에서 제안한 부실 고위험군 예측모형은 대출자 즉, 고객데이터 세분화를 통해 효율적인 사후관리 측면에서 도움이 될 것으로 사료된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	의사결정나무는 무엇인가?	2를 이용하여 부실 고위험군 예측모형을 의사결정나무 분석을 적용하여 진행하였다. 의사결정나무는 의사결정 규칙을 나무 구조로 도표화하여 관심대상이 되는 집단을 몇 개의 소그룹으로 분류하거나 예측을 수행하는 분석방법이다. 분류 또는 예측의 과정이 나무구조에 의한 추론규칙으로 표현되기 때문에 다른 계량적 분석 방법에 비해 쉽게 이해하고 활용 할 수 있다는 장점이 있다.
	든든학자금 대출은 어떤 상품인가?	든든학자금 대출은 2년제 및 4년제 대학 재학 중인 학부생을 대상으로 재학 중 등록금과 생활비를 대출하고 졸업 후 일정 수준 이상의 소득이 발생하는 경우 원리금을 상환하는 융자 상품이다. 졸업 후 일정 수준 이상의 소득이 생기는 경우에만 상환의무가 발생하는 특징에 착안하여 ‘소득연계대출 (income contingent loan)’ 상품으로 부르기도 한다.
	의사결정나무의 장점은 무엇인가?	의사결정나무는 의사결정 규칙을 나무 구조로 도표화하여 관심대상이 되는 집단을 몇 개의 소그룹으로 분류하거나 예측을 수행하는 분석방법이다. 분류 또는 예측의 과정이 나무구조에 의한 추론규칙으로 표현되기 때문에 다른 계량적 분석 방법에 비해 쉽게 이해하고 활용 할 수 있다는 장점이 있다. 이에 본 연구는 부실 고위험군 예측모형 개발과 동시에 고위험군의 유형을 세분화하기 위해 의사결정나무를 적용하였다.

참고문헌 (10)

Barney, D. K., Graves, O. P. and Johnson, J. D. (1999). The Farmers Home Administration and farm debt failure prediction. Journal of Accounting and Public Policy, 18, 99-139.

상세보기
Feldman, D. and Gross, S. (2005). Mortgage default: Classification tree analysis. Journal of Real Estate Finance and Economics, 30, 369-396.

상세보기
Hong, C. S. and Bang, G. (2008). Modified Kolmogorov-Smirnov statistic for credit evaluation. The Korean Journal of Applied Statistics, 21, 1065-1075.

원문보기 상세보기
Jin, S. K., Kim, K. R. and Park, C. (2012). Cutpoint selection via penalization in credit scoring. The Korean Journal of Applied Statistics, 25, 261-267.

원문보기 상세보기
Jung, J. H. and Min, D. K. (2013). The study of foreign exchange trading revenue model using decision tree and gradient boosting. Journal of the Korean Data & Information Science Society, 24, 161-170.

원문보기 상세보기
Kim, A. and Kim, J. S. (2006). Classification of the demand groups for the rural college student loans by decision tree method. Korean Journal of Sociology of Education, 16, 51-75.
Kim, T. H. and Kim, Y. H. (2013). A study on the analysis of customer loan for the credit finance company using classification model. Journal of the Korean Data & Information Science Society, 24, 411-425.

원문보기 상세보기
Thomas, L. C. (2000). A survey of credit and behavioral scoring: Forecasting financial risk of lending to consumers. International Journal of Forecasting, 16, 149-172.

상세보기
Yang, B., Li, L. X., Ji, H. and Xu, J. (2001). An early warning system for loan risk assessment using artificial neural networks. Knowledge-Based System, 14, 303-306.

상세보기
Zurada, J. and Zurada, M. (2002). How secure are good loans: Validating loan-granting decisions and predicting default rates on consumer loans. The Review of Business Information Systems, 6, 65-83.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

데이터마이닝을 이용한 학자금 대출 부실 고위험군 예측모형 개발
Developing the high risk group predictive model for student direct loan default using data mining 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

데이터마이닝을 이용한 학자금 대출 부실 고위험군 예측모형 개발 Developing the high risk group predictive model for student direct loan default using data mining 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

최재석 (1) 정진아 (2)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

데이터마이닝을 이용한 학자금 대출 부실 고위험군 예측모형 개발
Developing the high risk group predictive model for student direct loan default using data mining 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper