[국내논문]유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용 Optimization of Multiclass Support Vector Machine using Genetic Algorithm: Application to the Prediction of Corporate Credit Rating원문보기
기업신용등급은 금융시장의 신뢰를 구축하고 거래를 활성화하는데 있어 매우 중요한 요소로서, 오래 전부터 학계에서는 보다 정확한 기업신용등급 예측을 가능케 하는 다양한 모형들을 연구해 왔다. 구체적으로 다중판별분석(Multiple Discriminant Analysis, MDA)이나 다항 로지스틱 회귀분석(multinomial logistic regression analysis, MLOGIT)과 같은 통계기법을 비롯해, 인공신경망(Artificial Neural Networks, ANN), 사례기반추론(Case-based Reasoning, CBR), 그리고 다분류 문제해결을 위해 확장된 다분류 Support Vector Machines(Multiclass SVM)에 이르기까지 다양한 기법들이 학자들에 의해 적용되었는데, 최근의 연구결과들에 따르면 이 중에서도 다분류 SVM이 가장 우수한 예측성과를 보이고 있는 것으로 보고되고 있다. 본 연구에서는 이러한 다분류 SVM의 성능을 한 단계 더 개선하기 위한 대안으로 유전자 알고리즘(GA, Genetic Algorithm)을 활용한 최적화 모형을 제안한다. 구체적으로 본 연구의 제안모형은 유전자 알고리즘을 활용해 다분류 SVM에 적용되어야 할 최적의 커널 함수 파라미터값들과 최적의 입력변수 집합(feature subset)을 탐색하도록 설계되었다. 실제 데이터셋을 활용해 제안모형을 적용해 본 결과, MDA나 MLOGIT, CBR, ANN과 같은 기존 인공지능/데이터마이닝 기법들은 물론 지금까지 가장 우수한 예측성과를 보이는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안모형이 더 우수한 예측성과를 보임을 확인할 수 있었다.
기업신용등급은 금융시장의 신뢰를 구축하고 거래를 활성화하는데 있어 매우 중요한 요소로서, 오래 전부터 학계에서는 보다 정확한 기업신용등급 예측을 가능케 하는 다양한 모형들을 연구해 왔다. 구체적으로 다중판별분석(Multiple Discriminant Analysis, MDA)이나 다항 로지스틱 회귀분석(multinomial logistic regression analysis, MLOGIT)과 같은 통계기법을 비롯해, 인공신경망(Artificial Neural Networks, ANN), 사례기반추론(Case-based Reasoning, CBR), 그리고 다분류 문제해결을 위해 확장된 다분류 Support Vector Machines(Multiclass SVM)에 이르기까지 다양한 기법들이 학자들에 의해 적용되었는데, 최근의 연구결과들에 따르면 이 중에서도 다분류 SVM이 가장 우수한 예측성과를 보이고 있는 것으로 보고되고 있다. 본 연구에서는 이러한 다분류 SVM의 성능을 한 단계 더 개선하기 위한 대안으로 유전자 알고리즘(GA, Genetic Algorithm)을 활용한 최적화 모형을 제안한다. 구체적으로 본 연구의 제안모형은 유전자 알고리즘을 활용해 다분류 SVM에 적용되어야 할 최적의 커널 함수 파라미터값들과 최적의 입력변수 집합(feature subset)을 탐색하도록 설계되었다. 실제 데이터셋을 활용해 제안모형을 적용해 본 결과, MDA나 MLOGIT, CBR, ANN과 같은 기존 인공지능/데이터마이닝 기법들은 물론 지금까지 가장 우수한 예측성과를 보이는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안모형이 더 우수한 예측성과를 보임을 확인할 수 있었다.
Corporate credit rating assessment consists of complicated processes in which various factors describing a company are taken into consideration. Such assessment is known to be very expensive since domain experts should be employed to assess the ratings. As a result, the data-driven corporate credit ...
Corporate credit rating assessment consists of complicated processes in which various factors describing a company are taken into consideration. Such assessment is known to be very expensive since domain experts should be employed to assess the ratings. As a result, the data-driven corporate credit rating prediction using statistical and artificial intelligence (AI) techniques has received considerable attention from researchers and practitioners. In particular, statistical methods such as multiple discriminant analysis (MDA) and multinomial logistic regression analysis (MLOGIT), and AI methods including case-based reasoning (CBR), artificial neural network (ANN), and multiclass support vector machine (MSVM) have been applied to corporate credit rating.2) Among them, MSVM has recently become popular because of its robustness and high prediction accuracy. In this study, we propose a novel optimized MSVM model, and appy it to corporate credit rating prediction in order to enhance the accuracy. Our model, named 'GAMSVM (Genetic Algorithm-optimized Multiclass Support Vector Machine),' is designed to simultaneously optimize the kernel parameters and the feature subset selection. Prior studies like Lorena and de Carvalho (2008), and Chatterjee (2013) show that proper kernel parameters may improve the performance of MSVMs. Also, the results from the studies such as Shieh and Yang (2008) and Chatterjee (2013) imply that appropriate feature selection may lead to higher prediction accuracy. Based on these prior studies, we propose to apply GAMSVM to corporate credit rating prediction. As a tool for optimizing the kernel parameters and the feature subset selection, we suggest genetic algorithm (GA). GA is known as an efficient and effective search method that attempts to simulate the biological evolution phenomenon. By applying genetic operations such as selection, crossover, and mutation, it is designed to gradually improve the search results. Especially, mutation operator prevents GA from falling into the local optima, thus we can find the globally optimal or near-optimal solution using it. GA has popularly been applied to search optimal parameters or feature subset selections of AI techniques including MSVM. With these reasons, we also adopt GA as an optimization tool. To empirically validate the usefulness of GAMSVM, we applied it to a real-world case of credit rating in Korea. Our application is in bond rating, which is the most frequently studied area of credit rating for specific debt issues or other financial obligations. The experimental dataset was collected from a large credit rating company in South Korea. It contained 39 financial ratios of 1,295 companies in the manufacturing industry, and their credit ratings. Using various statistical methods including the one-way ANOVA and the stepwise MDA, we selected 14 financial ratios as the candidate independent variables. The dependent variable, i.e. credit rating, was labeled as four classes: 1(A1); 2(A2); 3(A3); 4(B and C). 80 percent of total data for each class was used for training, and remaining 20 percent was used for validation. And, to overcome small sample size, we applied five-fold cross validation to our dataset. In order to examine the competitiveness of the proposed model, we also experimented several comparative models including MDA, MLOGIT, CBR, ANN and MSVM. In case of MSVM, we adopted One-Against-One (OAO) and DAGSVM (Directed Acyclic Graph SVM) approaches because they are known to be the most accurate approaches among various MSVM approaches. GAMSVM was implemented using LIBSVM-an open-source software, and Evolver 5.5-a commercial software enables GA. Other comparative models were experimented using various statistical and AI packages such as SPSS for Windows, Neuroshell, and Microsoft Excel VBA (Visual Basic for Applications). Experimental results showed that the proposed model-GAMSVM-outperformed all the competitive models. In addition, the model was found to u
Corporate credit rating assessment consists of complicated processes in which various factors describing a company are taken into consideration. Such assessment is known to be very expensive since domain experts should be employed to assess the ratings. As a result, the data-driven corporate credit rating prediction using statistical and artificial intelligence (AI) techniques has received considerable attention from researchers and practitioners. In particular, statistical methods such as multiple discriminant analysis (MDA) and multinomial logistic regression analysis (MLOGIT), and AI methods including case-based reasoning (CBR), artificial neural network (ANN), and multiclass support vector machine (MSVM) have been applied to corporate credit rating.2) Among them, MSVM has recently become popular because of its robustness and high prediction accuracy. In this study, we propose a novel optimized MSVM model, and appy it to corporate credit rating prediction in order to enhance the accuracy. Our model, named 'GAMSVM (Genetic Algorithm-optimized Multiclass Support Vector Machine),' is designed to simultaneously optimize the kernel parameters and the feature subset selection. Prior studies like Lorena and de Carvalho (2008), and Chatterjee (2013) show that proper kernel parameters may improve the performance of MSVMs. Also, the results from the studies such as Shieh and Yang (2008) and Chatterjee (2013) imply that appropriate feature selection may lead to higher prediction accuracy. Based on these prior studies, we propose to apply GAMSVM to corporate credit rating prediction. As a tool for optimizing the kernel parameters and the feature subset selection, we suggest genetic algorithm (GA). GA is known as an efficient and effective search method that attempts to simulate the biological evolution phenomenon. By applying genetic operations such as selection, crossover, and mutation, it is designed to gradually improve the search results. Especially, mutation operator prevents GA from falling into the local optima, thus we can find the globally optimal or near-optimal solution using it. GA has popularly been applied to search optimal parameters or feature subset selections of AI techniques including MSVM. With these reasons, we also adopt GA as an optimization tool. To empirically validate the usefulness of GAMSVM, we applied it to a real-world case of credit rating in Korea. Our application is in bond rating, which is the most frequently studied area of credit rating for specific debt issues or other financial obligations. The experimental dataset was collected from a large credit rating company in South Korea. It contained 39 financial ratios of 1,295 companies in the manufacturing industry, and their credit ratings. Using various statistical methods including the one-way ANOVA and the stepwise MDA, we selected 14 financial ratios as the candidate independent variables. The dependent variable, i.e. credit rating, was labeled as four classes: 1(A1); 2(A2); 3(A3); 4(B and C). 80 percent of total data for each class was used for training, and remaining 20 percent was used for validation. And, to overcome small sample size, we applied five-fold cross validation to our dataset. In order to examine the competitiveness of the proposed model, we also experimented several comparative models including MDA, MLOGIT, CBR, ANN and MSVM. In case of MSVM, we adopted One-Against-One (OAO) and DAGSVM (Directed Acyclic Graph SVM) approaches because they are known to be the most accurate approaches among various MSVM approaches. GAMSVM was implemented using LIBSVM-an open-source software, and Evolver 5.5-a commercial software enables GA. Other comparative models were experimented using various statistical and AI packages such as SPSS for Windows, Neuroshell, and Microsoft Excel VBA (Visual Basic for Applications). Experimental results showed that the proposed model-GAMSVM-outperformed all the competitive models. In addition, the model was found to u
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 배경에서 본 연구는 기업신용등급평가 모형의 예측 정확도 제고를 목표로 하여, 최근 활발하게 연구되고 있는 MSVM 기법을 보다 개선시킬 수 있는 ‘유전자 알고리즘(genetic algorithms, GA) 기반의 최적화 모형’을 제안한다.
, 2015)이 최근까지도 계속해서 발표되고 있음을 고려할 때, MSVM에서도 동일하게 예측 정확도가 개선될 수 있을 것으로 기대된다. 본 연구에서는 이러한 제안모형의 성능을 검증하고, 실제 경영 분야 문제해결에 적용될 수 있는 가능성이 얼마나 큰 지 확인해 보기 위해, 실존하는 국내 한 대형 기업신용평가업체로부터 수집된 데이터에 제안모형을 적용해 보고 그 예측력을 다른 비교모형들과 비교해 봄으로서, 그 성능을 살펴보고자 하였다.
본 연구에서 제안하는 모형은 기본적으로 OAO기반의 MSVM과 GA가 결합된 형태로 구성되어 있다. 이에 기존 문헌을 검토하게 될 본 절에서는 우선 MSVM의 기본적인 개념과 원리에 대해 먼저 살펴보고, 이어 GA에 대한 기본적인 소개와 함께, MSVM과 GA를 결합하고자 시도했던 기존 연구들을 살펴본다.
앞서 살펴본 기존 문헌들에 대한 분석결과를 토대로 본 연구에서는 기업신용등급 예측 개선을 위해 MSVM의 커널 파라미터와 입력변수 집합을 동시에 최적화하는 모형을 새롭게 제안한다. 특히 본 연구에서는 Chatterjee(2013)에서 그 효과가 입증된 GA를 활용해 최적화가 수행되는 모형을 제안한다.
앞서 살펴본 기존 문헌들에 대한 분석결과를 토대로 본 연구에서는 기업신용등급 예측 개선을 위해 MSVM의 커널 파라미터와 입력변수 집합을 동시에 최적화하는 모형을 새롭게 제안한다. 특히 본 연구에서는 Chatterjee(2013)에서 그 효과가 입증된 GA를 활용해 최적화가 수행되는 모형을 제안한다. 편의상 본 연구에서는 제안모형을 GAMSVM(Genetic Algorithm-based Multiclass Support Vector Machine)으로 칭하기로 한다.
본 연구에서 제안하는 GAMSVM 모형은 대용량 데이터를 이용하면서도 정확한 의사결정을 지원할 수 있도록 설계되어야 한다. 이러한 목표는 분석에 사용되는 데이터마이닝 기법의 목적함수와 GA의 적합도함수를 일치시키고 GA가 적합도함수를 최적화하기 위해 탐색할 공간을 전체 원 데이터로 설정함으로써 구현할 수 있다. 이러한 배경에서, 유전자 알고리즘의 적합도 함수는 학습용 데이터 셋에 대한 분류 정확도(classification accuracy)로 설정하였으며, 학습용 데이터 셋을 대상으로 GA가 최적의 커널 파라미터와 입력변수 선택을 탐색할 수 있도록 하였다.
본 연구에서는 GAMSVM을 검증하기 위해, 실제 현장에서 사용되는 국내 기업들의 채권등급 평가 관련 데이터에 해당 모형을 적용해 보았다. 대상이 된 데이터는 제조업으로 분류되는 KOSPI에 상장되어 있거나 KOSDAQ에 등록되어 있는 1,295개의 기업 데이터인데, 여기에는 이들 기업 들의 39개 재무관련 변수들과 당해연도 회사채 신용등급 결과를 포함되어 있다.
비교모형으로는 기업신용등급 예측에 전통적으로 많이 적용되어 온 각종 통계 및 인공지능 기법들을 모두 적용하였다. 구체적으로 통계 모형인 (1) 다중판별분석(MDA), (2) 다항 로지스틱 회귀분석(MLOGIT), 인공지능 모형인 (3) 사례기반추론(CBR), (4) 인공신경망(ANN), 그리고 (5) 전통적인 MSVM을 실험하였는데, 전통적인 MSVM의 경우에는 대표적인 5가지 기법-즉 OAO, OAA, DAGSVM, WW, CS를 모두 적용해 보고, 이들과 비교해 제안모형인 GAMSVM이 의미 있는 성과개선을 가져오는지 확인해 보고자 하였다.
본 논문에서는 GA를 활용해 커널함수의 파라미터와 입력변수 선택을 최적화 하는 새로운 MSVM 모형(GAMSVM)을 제안하고, 이를 기업 신용등급 예측 분야에 적용하여 예측성과가 가시적으로 개선됨을 확인하였다. 특히 GAMSVM의 경우, 전통적으로 사용되어 온 MDA, MLOGIT, CBR, ANN은 물론, 많은 기존 문헌에서 예측성과가 가장 우수한 기법으로 소개되어 온 MSVM과 비교해도 월등하게, 그리고 일관성 있게 우수한 성능을 나타내고 있어 향후 기업신용등급을 보다 정확하게 예측하고자 하는 산업계에서 유용하게 응용될 수 있을 것으로 기대된다.
본 연구가 갖는 의의를 살펴보면, 크게 3가지 정도를 들 수 있다. 첫째, 본 연구는 기업신용평가 분야에 MSVM 최적화 모형을 처음으로 적용해 보려고 시도하였다는 점에서 학술적인 의의를 갖는다. 앞서 문헌 고찰을 통해 살펴보았듯이, 이분류 SVM과 달리 MSVM의 경우에는 최적화에 관한 연구가 아직 걸음마 단계에 있는 실정이다.
제안 방법
이러한 배경에서 본 연구는 기업신용등급평가 모형의 예측 정확도 제고를 목표로 하여, 최근 활발하게 연구되고 있는 MSVM 기법을 보다 개선시킬 수 있는 ‘유전자 알고리즘(genetic algorithms, GA) 기반의 최적화 모형’을 제안한다. 본 연구의 제안모형은 OAO(One-Against-One) 방식의 MSVM에 있어, 최적 커널함수의 파라미터값과 입력변수 집합(feature subset)을 유전자 알고리즘을 활용해 탐색하도록 설계되었다. 전통적인 이 분류 SVM에 대해 최적 커널함수의 파라미터 값과 입력변수 집합(feature subset)의 선택이 예측 정확도 개선에 기여할 수 있다는 연구결과들(Huang et al.
본 연구에서 제안하는 모형은 기본적으로 OAO기반의 MSVM과 GA가 결합된 형태로 구성되어 있다. 이에 기존 문헌을 검토하게 될 본 절에서는 우선 MSVM의 기본적인 개념과 원리에 대해 먼저 살펴보고, 이어 GA에 대한 기본적인 소개와 함께, MSVM과 GA를 결합하고자 시도했던 기존 연구들을 살펴본다.
다음의 <그림 1>은 이러한 OAO 방식의 원리를 도식으로 나타나고 있다. 이 그림에서 볼 수 있듯이, A~D까지 총 4개의 클래스로 구성된 다분류 문제에 OAO를 적용하게 되면, 총 6개(= 3C2)의 이분류 SVM 모형을 구축하고, 이들의 예측결과를 투표(voting)로 종합하여 최종 클래스를 예측하게 된다.
이 때, 유전자 알고리즘이 공간을 효율적으로 탐색할 수 있도록 탐색 목적에 적합한 효과적인 매핑방법을 찾는 것이 중요한데, 이를 종합적으로 반영하여 본 연구에서는 하단의 과 같이 염색체 구조를 설계한다.
2단계: 1단계에서 초기화 작업이 끝나고 나면, 그 다음 단계에서는 생성된 초기 모집단에 수록된 파라미터 값들을 적용하여 실제 MSVM 모형을 학습 시켜보고, 해당 염색체값이 얼마나 목적에 부합하는지를 평가하는 적합도 함수값을 산출하는 과정을 거치게 된다. 본 연구에서 제안하는 GAMSVM 모형은 대용량 데이터를 이용하면서도 정확한 의사결정을 지원할 수 있도록 설계되어야 한다. 이러한 목표는 분석에 사용되는 데이터마이닝 기법의 목적함수와 GA의 적합도함수를 일치시키고 GA가 적합도함수를 최적화하기 위해 탐색할 공간을 전체 원 데이터로 설정함으로써 구현할 수 있다.
이러한 목표는 분석에 사용되는 데이터마이닝 기법의 목적함수와 GA의 적합도함수를 일치시키고 GA가 적합도함수를 최적화하기 위해 탐색할 공간을 전체 원 데이터로 설정함으로써 구현할 수 있다. 이러한 배경에서, 유전자 알고리즘의 적합도 함수는 학습용 데이터 셋에 대한 분류 정확도(classification accuracy)로 설정하였으며, 학습용 데이터 셋을 대상으로 GA가 최적의 커널 파라미터와 입력변수 선택을 탐색할 수 있도록 하였다.
커널 파라미터의 탐색 범위와 관련해서는 기존 문헌(Tay and Cao, 2001)을 참고하여 C의 경우, 10 ≤ C ≤ 100, σ2은 1≤σ2 ≤ 100사이의 값을 탐색하도록 설계하였다.
GA 탐색을 위한 제어 파라미터로 개체군의 규모를 200개체(organisms)로 설정하였으며, 교배 및 돌연변이 비율에 대해서는 각각 50%, 10%로 설정하였다. 아울러 중지 조건으로는 10,000회 반복, 즉 50세대만큼 탐색을 반복하도록 설정하였다.
본 연구의 제안모형이 상대적으로 얼마나 큰 성과개선을 도모하는지 확인하기 위해, 다수의 비교모형에 대한 실험을 추가로 수행하여 그 성과를 비교해 보았다. 비교모형으로는 기업신용등급 예측에 전통적으로 많이 적용되어 온 각종 통계 및 인공지능 기법들을 모두 적용하였다.
비교모형의 실험설계와 관련하여, 통계모형인 MDA와 MLOGIT은 SPSS for Windows 13.0을 활용해 단계별 변수선택법에 기반해 실험을 수행하였다. ANN은 상용 프로그램인 Neuroshell2 R4.
0을 이용해 실험하였고, 입력변수와 종속변수 개수의 합을 n이라 할 때, 은닉층 노드의 수를 n/2, n, 3n/2, 그리고 2n의 4가지 경우로 나누어 실험해 보고 이 중 가장 우수한 성과를 보이는 결과를 채택하였다. ANN 학습시 학습률과 모멘텀률은 모두 10%로 설정하였으며, 학습용 데이터셋의 25%로 구성된 테스트용 데이터셋을 기준으로 최소 오류 도달 후 38,950회가 지나도록 학습을 계속해도 더 이상 개선이 이루어지지 않을 경우에 학습을 중단하도록 하였다. CBR의 경우, 직접 개발한 Microsoft Excel VBA 프로그램을 이용해 실험하였으며, 1-NN(Nearest Neighbor)를 적용해 성과를 측정하였다.
CBR에서 사례간 유사도를 측정 하는 기준으로는 가장 널리 사용되는 유클리드 거리(Euclidean distance)를 사용하였다. MSVM과 GAMSVM 실험을 위한 시스템은 공개 소프트웨어인 LIBSVM v2.8(Chang and Lin, 2011)과 상용 프로그램인 Evolver 5.5를 결합시키는 Microsoft Excel VBA를 활용해 직접 개발하여 적용하였다. 단, MSVM 중 WW와 CS 모형의 경우는 BSVM v2.
본 연구에서는 제안모형과 비교모형 간의 성과를 비교하기 위해, 예측 정확도(hit ratio)를 그 기준으로 사용하였다. 상단의 <표 3>에 제안모형인 GAMSVM과 비교모형인 MDA, MLOGIT, CBR, ANN의 성과가, <표 4>에 역시 비교모형인 MSVM의 5가지 모형들-OAO, OAA, DAGSVM, WW, CS-의 성과가 제시되어 있다.
첫째, 본 연구의 제안모형은 상당히 제한적인 영역에 한하여 최적화를 시도하고 있다는 문제가 있다. 연구에서 제안된 GAMSVM은 커널 함수를 Gaussian RBF로 고정한 상태에서 커널 파라미터만 최적화하고 있는데, 기존 연구에 따르면 커널 파라미터 뿐 아니라 커널 함수도 함께 최적화할 때 더 우수한 예측성과를 도모하는 것이 가능하다(Howley and Madden, 2005). 때문에 GA의 염색체 설계를 보다 확장된 형태로 재설계하여, 커널 함수도 포함하여 최적화할 수 있는 후속 연구에 대한 필요성이 제기된다.
대상 데이터
본 연구에서는 GAMSVM을 검증하기 위해, 실제 현장에서 사용되는 국내 기업들의 채권등급 평가 관련 데이터에 해당 모형을 적용해 보았다. 대상이 된 데이터는 제조업으로 분류되는 KOSPI에 상장되어 있거나 KOSDAQ에 등록되어 있는 1,295개의 기업 데이터인데, 여기에는 이들 기업 들의 39개 재무관련 변수들과 당해연도 회사채 신용등급 결과를 포함되어 있다. 이들 기업의 당해연도 신용등급은 국내 N 신용정보기관의 공시자료를 이용하였고, 이들의 재무제표 자료는 한국상장회사협의회에서 제공하는 데이터베이스에서 추출된 것을 사용하였다.
대상이 된 데이터는 제조업으로 분류되는 KOSPI에 상장되어 있거나 KOSDAQ에 등록되어 있는 1,295개의 기업 데이터인데, 여기에는 이들 기업 들의 39개 재무관련 변수들과 당해연도 회사채 신용등급 결과를 포함되어 있다. 이들 기업의 당해연도 신용등급은 국내 N 신용정보기관의 공시자료를 이용하였고, 이들의 재무제표 자료는 한국상장회사협의회에서 제공하는 데이터베이스에서 추출된 것을 사용하였다.
본 연구에서는 학습용 데이터로 각 등급별로 80%에 해당하는 데이터(총 1,037건)를 층화추출 하여 사용하였고, 나머지 20%(총 258건)를 검증용 데이터로 사용하였다. 하지만, 제안모형의 성과를 정밀하게 검증하기에 데이터의 양이 다소 부족하다고 판단되어, 5겹 교차검증(five-fold cross validation)을 적용하였다.
데이터처리
본 연구에서는 학습용 데이터로 각 등급별로 80%에 해당하는 데이터(총 1,037건)를 층화추출 하여 사용하였고, 나머지 20%(총 258건)를 검증용 데이터로 사용하였다. 하지만, 제안모형의 성과를 정밀하게 검증하기에 데이터의 양이 다소 부족하다고 판단되어, 5겹 교차검증(five-fold cross validation)을 적용하였다. 초기 입력변수 후보군으로는 일원배치 분산분석(ANOVA)과 순차적 다중판별분석(Stepwise MDA)를 통해 최종 선택된 총 14개의 변수들을 사용하였다.
하지만, 제안모형의 성과를 정밀하게 검증하기에 데이터의 양이 다소 부족하다고 판단되어, 5겹 교차검증(five-fold cross validation)을 적용하였다. 초기 입력변수 후보군으로는 일원배치 분산분석(ANOVA)과 순차적 다중판별분석(Stepwise MDA)를 통해 최종 선택된 총 14개의 변수들을 사용하였다. 다음의 <표 1>은 본 연구에서 최종 선택된 14개의 독립변수를 나타내고 있다.
ANN 학습시 학습률과 모멘텀률은 모두 10%로 설정하였으며, 학습용 데이터셋의 25%로 구성된 테스트용 데이터셋을 기준으로 최소 오류 도달 후 38,950회가 지나도록 학습을 계속해도 더 이상 개선이 이루어지지 않을 경우에 학습을 중단하도록 하였다. CBR의 경우, 직접 개발한 Microsoft Excel VBA 프로그램을 이용해 실험하였으며, 1-NN(Nearest Neighbor)를 적용해 성과를 측정하였다. CBR에서 사례간 유사도를 측정 하는 기준으로는 가장 널리 사용되는 유클리드 거리(Euclidean distance)를 사용하였다.
과 에 제시된 예측 정확도의 차이가 통계적으로 유의한 지를 검증하기 위해 비 모수 통계기법인 멕네마(McNemar) 검정을 수행 하였다.
이론/모형
본 연구에서는 이상의 접근법들 중에서, 보편적으로 가장 많이 활용되면서 상대적으로 높은 예측정확도를 보이는 것으로 알려져 있는 OAO 방식을 활용한다(El-Bendary et al., 2015). 다음의 <그림 1>은 이러한 OAO 방식의 원리를 도식으로 나타나고 있다.
특히 본 연구에서는 Chatterjee(2013)에서 그 효과가 입증된 GA를 활용해 최적화가 수행되는 모형을 제안한다. 편의상 본 연구에서는 제안모형을 GAMSVM(Genetic Algorithm-based Multiclass Support Vector Machine)으로 칭하기로 한다. 다음의 <그림 2>는 본 연구의 제안모형인 GAMSVM이 작동하는 과정을 시각화하여 제시하고 있다.
기본적으로 본 연구에서 제안하고 있는 GAMSVM은 보편적으로 가장 많이 사용되는 커널함수인 Gaussian RBF에 기반하고 있다. 다음의 식(1)은 Gaussian RBF 커널함수의 산식을 나타낸다.
CBR의 경우, 직접 개발한 Microsoft Excel VBA 프로그램을 이용해 실험하였으며, 1-NN(Nearest Neighbor)를 적용해 성과를 측정하였다. CBR에서 사례간 유사도를 측정 하는 기준으로는 가장 널리 사용되는 유클리드 거리(Euclidean distance)를 사용하였다. MSVM과 GAMSVM 실험을 위한 시스템은 공개 소프트웨어인 LIBSVM v2.
<표 3>과 <표 4>에 제시된 예측 정확도의 차이가 통계적으로 유의한 지를 검증하기 위해 비 모수 통계기법인 멕네마(McNemar) 검정을 수행 하였다. 멕네마 검정은 4가지 전통적인 비교모형과 가장 우수한 성과를 보인 MSVM 모형이었던 OAO와 DAGSVM, 그리고 제안모형인 GAMSVM에 적용되었다. 다음의 <표 5>는 이러한 멕네마 검정의 수행 결과를 나타내고 있다.
성능/효과
(2007) 등은 상기 두가지 접근법을 결합하여, GA를 활용해 SVM의 커널 파라미터와 입력변수 집합을 동시에 최적화하는 모형을 제시하였다. 두 연구 모두 제안모형을 기업부도예측에 적용하였는데, 적용 결과 제안 모형이 보다 적은 입력변수만 활용하면서도 더 나은 예측정확도를 산출함을 확인하였다.
최근에 발표된 Chatterjee(2013)에서는 본 연구와 동일하게 MSVM 모형의 입력변수 집합과 파라미터 최적화를 GA를 통해 시도하였다. 이 연구에서 저자는 사진으로부터 추출된 정보를 활용해 석회암의 유형(6종)을 판별하는데 해당 모형을 적용하였는데, 예측 정확도와 민감도, 그리고 특이도의 관점에서 인공신경망과 같은 분류 기법이나 PCA(Principal Component Analysis)와 같은 차원 축소 기법을 사용할 때보다 제안모형을 사용했을 때 더 우수한 성과를 보임을 확인하였다. 이러한 기존 연구결과로 미루어 볼 때, 비슷한 수의 클래스(4~5종)로 구분되는 기업신용 등급 예측에서도 GA를 통한 MSVM 모형의 입력변수 집합 및 파라미터 최적화가 성과 개선에 효과적일 수 있음을 예상해 볼 수 있다.
0을 활용해 단계별 변수선택법에 기반해 실험을 수행하였다. ANN은 상용 프로그램인 Neuroshell2 R4.0을 이용해 실험하였고, 입력변수와 종속변수 개수의 합을 n이라 할 때, 은닉층 노드의 수를 n/2, n, 3n/2, 그리고 2n의 4가지 경우로 나누어 실험해 보고 이 중 가장 우수한 성과를 보이는 결과를 채택하였다. ANN 학습시 학습률과 모멘텀률은 모두 10%로 설정하였으며, 학습용 데이터셋의 25%로 구성된 테스트용 데이터셋을 기준으로 최소 오류 도달 후 38,950회가 지나도록 학습을 계속해도 더 이상 개선이 이루어지지 않을 경우에 학습을 중단하도록 하였다.
다음의 <표 2>는 5개의 데이터 셋에 GAMSVM을 적용한 결과, 최종적으로 얻어진 각 독립변수별 최적 선정 결과 및 최적 커널 파라미터 값을 나타내고 있다. 이 표에서 볼 수 있듯이, 모든 데이터 셋에서 12개의 변수만을 사용하는 것이 최적으로 나타났는데, 최적으로 선정된 변수 내역은 데이터 셋에 따라 조금씩 다르게 나타났다. 하지만, X7(총부채), X9(1인당 매출액), X13(업력), X15(유보액대총자산비율), X39((영업활동으로인한현금흐름-현금배당)/(고정자산+운전자본))의 5개 변수는 데이터 셋에 관계없이 항상 선택되는 것으로 나타나, 신용등급을 설명하는데 가장 영향력이 큰 변수들임을 알 수 있었다.
이 표에서 볼 수 있듯이, 모든 데이터 셋에서 12개의 변수만을 사용하는 것이 최적으로 나타났는데, 최적으로 선정된 변수 내역은 데이터 셋에 따라 조금씩 다르게 나타났다. 하지만, X7(총부채), X9(1인당 매출액), X13(업력), X15(유보액대총자산비율), X39((영업활동으로인한현금흐름-현금배당)/(고정자산+운전자본))의 5개 변수는 데이터 셋에 관계없이 항상 선택되는 것으로 나타나, 신용등급을 설명하는데 가장 영향력이 큰 변수들임을 알 수 있었다.
상단의 <표 3>에 제안모형인 GAMSVM과 비교모형인 MDA, MLOGIT, CBR, ANN의 성과가, <표 4>에 역시 비교모형인 MSVM의 5가지 모형들-OAO, OAA, DAGSVM, WW, CS-의 성과가 제시되어 있다. 전체적인 평균으로 볼 때, 제안모형의 예측정확도는 69.77%로 전통적인 비교모형들은 물론 MSVM 중에서 가장 성과가 우수한 OAO나 DAGSVM 보다도 더 우수한 예측성과를 나타내고 있음을 확인할 수 있다. 특히 모든 데이터셋에 대해 단 한 번의 예외없이 제안모형인 GAMSVM의 성과가 가장 높게 나타나고 있음을 고려할 때, 제안모형은 확실히 MSVM의 예측력을 유의미하게 개선시킬 수있는 좋은 대안이 될 수 있을 것으로 예상된다.
77%로 전통적인 비교모형들은 물론 MSVM 중에서 가장 성과가 우수한 OAO나 DAGSVM 보다도 더 우수한 예측성과를 나타내고 있음을 확인할 수 있다. 특히 모든 데이터셋에 대해 단 한 번의 예외없이 제안모형인 GAMSVM의 성과가 가장 높게 나타나고 있음을 고려할 때, 제안모형은 확실히 MSVM의 예측력을 유의미하게 개선시킬 수있는 좋은 대안이 될 수 있을 것으로 예상된다.
다음의 <표 5>는 이러한 멕네마 검정의 수행 결과를 나타내고 있다. 이 표를 통해 GAMSVM이 OAO와 DAGSVM을 제외한 모든 비교모형에 대해 99% 신뢰수준 하에서, 그리고 OAO와 DAGSVM에 대해서는 95% 신뢰수준 하에서 유의한 성과의 차이를 보이고 있음을 알 수 있다.
셋째, 본 연구에서 제안한 GAMSVM 모형은 모든 다분류 문제에 적용될 수 있는 범용성을 갖고 있다는 점에서 학술적, 실무적 의의를 갖는다. 비록 본 연구에서는 제안모형을 기업신용등급 예측에 적용하였지만, GAMSVM은 이론상 경영분야의 모든 다분류 문제에 적용 가능하다.
셋째, 본 연구에서 제안한 GAMSVM 모형은 모든 다분류 문제에 적용될 수 있는 범용성을 갖고 있다는 점에서 학술적, 실무적 의의를 갖는다. 비록 본 연구에서는 제안모형을 기업신용등급 예측에 적용하였지만, GAMSVM은 이론상 경영분야의 모든 다분류 문제에 적용 가능하다. 때문에, 앞으로 학계나 산업계에서 본 연구의 제안기법을 활용한 후속 연구나 사업 응용이 이루어질 수 있을 것으로 기대된다.
하지만 이러한 여러 학술적, 실무적 의의에도 불구하고, 본 연구는 다음과 같은 한계점을 갖는다. 첫째, 본 연구의 제안모형은 상당히 제한적인 영역에 한하여 최적화를 시도하고 있다는 문제가 있다. 연구에서 제안된 GAMSVM은 커널 함수를 Gaussian RBF로 고정한 상태에서 커널 파라미터만 최적화하고 있는데, 기존 연구에 따르면 커널 파라미터 뿐 아니라 커널 함수도 함께 최적화할 때 더 우수한 예측성과를 도모하는 것이 가능하다(Howley and Madden, 2005).
후속연구
본 연구의 제안모형은 OAO(One-Against-One) 방식의 MSVM에 있어, 최적 커널함수의 파라미터값과 입력변수 집합(feature subset)을 유전자 알고리즘을 활용해 탐색하도록 설계되었다. 전통적인 이 분류 SVM에 대해 최적 커널함수의 파라미터 값과 입력변수 집합(feature subset)의 선택이 예측 정확도 개선에 기여할 수 있다는 연구결과들(Huang et al., 2007; Korkmaz et al., 2014; Maldonado et al., 2014; Min et al., 2006; Miranda et al., 2014; Zhang et al., 2015)이 최근까지도 계속해서 발표되고 있음을 고려할 때, MSVM에서도 동일하게 예측 정확도가 개선될 수 있을 것으로 기대된다. 본 연구에서는 이러한 제안모형의 성능을 검증하고, 실제 경영 분야 문제해결에 적용될 수 있는 가능성이 얼마나 큰 지 확인해 보기 위해, 실존하는 국내 한 대형 기업신용평가업체로부터 수집된 데이터에 제안모형을 적용해 보고 그 예측력을 다른 비교모형들과 비교해 봄으로서, 그 성능을 살펴보고자 하였다.
본 논문에서는 GA를 활용해 커널함수의 파라미터와 입력변수 선택을 최적화 하는 새로운 MSVM 모형(GAMSVM)을 제안하고, 이를 기업 신용등급 예측 분야에 적용하여 예측성과가 가시적으로 개선됨을 확인하였다. 특히 GAMSVM의 경우, 전통적으로 사용되어 온 MDA, MLOGIT, CBR, ANN은 물론, 많은 기존 문헌에서 예측성과가 가장 우수한 기법으로 소개되어 온 MSVM과 비교해도 월등하게, 그리고 일관성 있게 우수한 성능을 나타내고 있어 향후 기업신용등급을 보다 정확하게 예측하고자 하는 산업계에서 유용하게 응용될 수 있을 것으로 기대된다.
둘째, 본 연구는 실증분석을 통해 국내 기업의 신용등급예측에 유의미한 지식을 발견하였다는 점에서 실무적인 의의를 갖는다. 물론 연구결과 요약에서 설명한 것처럼 예측 정확도를 크게 개선하였다는 점도 주목할 성과 중 하나겠으나, 제안모형을 통해 발견된 국내 신용등급예측의 핵심 영향 변수들을 식별할 수 있었다는 점 역시 본 연구의 주요한 발견 중 하나라 할 수 있다.
물론 연구결과 요약에서 설명한 것처럼 예측 정확도를 크게 개선하였다는 점도 주목할 성과 중 하나겠으나, 제안모형을 통해 발견된 국내 신용등급예측의 핵심 영향 변수들을 식별할 수 있었다는 점 역시 본 연구의 주요한 발견 중 하나라 할 수 있다. 특히 핵심 영향 변수로 선정된 5개의 변수들이 규모, 생산성, 수익성, 현금흐름 등 기업을 균형잡힌 시각에서 종합적인 상태를 점검할 수 있는 지표들로 선택되었다는 점에서, 해당 변수들의 실무적 활용 가치는 상당히 높을 것으로 기대된다.
비록 본 연구에서는 제안모형을 기업신용등급 예측에 적용하였지만, GAMSVM은 이론상 경영분야의 모든 다분류 문제에 적용 가능하다. 때문에, 앞으로 학계나 산업계에서 본 연구의 제안기법을 활용한 후속 연구나 사업 응용이 이루어질 수 있을 것으로 기대된다.
연구에서 제안된 GAMSVM은 커널 함수를 Gaussian RBF로 고정한 상태에서 커널 파라미터만 최적화하고 있는데, 기존 연구에 따르면 커널 파라미터 뿐 아니라 커널 함수도 함께 최적화할 때 더 우수한 예측성과를 도모하는 것이 가능하다(Howley and Madden, 2005). 때문에 GA의 염색체 설계를 보다 확장된 형태로 재설계하여, 커널 함수도 포함하여 최적화할 수 있는 후속 연구에 대한 필요성이 제기된다.
한 단계 더 나아가, 본 연구의 제안모형은 현재 입력변수 최적화만 시도하고 있는데, 적절한 학습표본의 선정(instance selection) 역시 이분류 SVM의 예측정확도 개선을 가져올 수 있다는 기존 연구가 이미 발표된 바 있다(안현철 등, 2006). 때문에 향후 연구에서 입력변수 집합 외에 학습 표본 집합도 함께 최적화되는 MSVM 모형에 대해 실험해 보고, 과연 해당 모형이 만족할만한 예측 성과의 개선을 가져오는지 확인할 필요가 있겠다.
마지막으로 앞의 연구의의에서 설명했듯이 본 연구의 제안모형은 모든 다분류 문제에 적용 가능한 범용성을 가지고 있다. 때문에 제안모형을 생산관리, 마케팅 등 다른 경영 분야의 다분류 문제 해결에 적용해 보고, 제안모형의 일반화 가능성을 점검하는 추후 후속 연구가 이루어질 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
SVM기반 모형은 어떤 장점을 가지고 있는가?
이러한 인공신경망의 문제를 해결할 수 있는 대안으로 최근 SVM(support vector machine)이 부상하고 있다. 기존 인공신경망 모형은 경험적 위험 최소화(empirical risk minimization) 원칙에 기반하고 있어 지역 최적화된 해로 수렴할 위험이 높지만, SVM은 구조적 위험 최소화(structural risk minimization) 원칙에 의해 학습을 수행하므로 이론적으로 전역 최적해를 얻을 수 있다(김진화 등, 2008; 안현철, 김경재, 2009). 또한 인공신경망과 비교해 최적화가 요구되는 설계 파라미터의 수도 적고, 소위 서포트 벡터(support vector)라는 이름의 경계면 주변의 데이터만 사용해 학습이 이루어지기 때문에, 적은 수의 데이터만으로도 학습이 이루어질 수 있다는 장점이 있다. 다만, 분류를 위한 SVM(support vector classification, SVC)은 본래 이분류(binary classification) 문제를 해결하기 위한 방법으로 설계된 알고리즘이기 때문에, 신용등급 분류와 같은 다분류 문제의 해결에는 직접적으로 적용될 수 없다는 한계가 있다 (Vapnik, 1995).
기업의 신용등급 크게 어떻게 나뉘는가?
일반적으로 기업의 신용등급은 크게 A1, A2, A3, B, C의 5등급으로 나뉘는데, 본 연구에서는 A1을 1로, A2를 2로, A3를 3으로, 그리고 B와 C를 4로 표기하였다. B와 C를 하나의 등급으로 취급한 이유는 C등급에 속하는 사례들의 빈도가 상대적으로 너무 부족하고, 보통 신용평가회사들이 기업 들에 대한 신용등급의 하한을 B등급으로 부여하는 관행을 갖고 있어 B등급 이하는 그 자체로 투자부적격채권(junk bond)의 의미로 해석할 수 있기 때문이다(안현철, 김경재, 2009; 안현철 등, 2006).
기업신용등급평가가 기업의 부도 위험을 제때 반영하지 못하는 문제를 막기 위해 기업들은 어떤 조치를 취하고 있는가?
아울러, 신용평가회사들이 공시하는 신용등급은 일정 주기를 갖고 갱신되는데, 간혹 평가대상 회사가 갖고 있는 부도위험을 제 때 반영하지 못하는 경우도 종종 발생한다. 이러한 이유로 오늘날 금융권 기업들을 필두로 하여, 많은 기업들이 신용평가회사들이 갱신된 신용등급 정보를 공표하기 전에 자체 적으로 투자대상이나 거래처에 대한 신용등급을 예측할 수 있는 독자적인 기업신용등급예측 모형을 개발하여 운용하고 있다(안현철, 김경재, 2009; Cao et al., 2006).
이 논문을 인용한 문헌
저자의 다른 논문 :
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.