기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.
기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.
Predicting corporate failure has been an important topic in accounting and finance. The costs associated with bankruptcy are high, so the accuracy of bankruptcy prediction is greatly important for financial institutions. Lots of researchers have dealt with the topic associated with bankruptcy predic...
Predicting corporate failure has been an important topic in accounting and finance. The costs associated with bankruptcy are high, so the accuracy of bankruptcy prediction is greatly important for financial institutions. Lots of researchers have dealt with the topic associated with bankruptcy prediction in the past three decades. The current research attempts to use ensemble models for improving the performance of bankruptcy prediction. Ensemble classification is to combine individually trained classifiers in order to gain more accurate prediction than individual models. Ensemble techniques are shown to be very useful for improving the generalization ability of the classifier. Bagging is the most commonly used methods for constructing ensemble classifiers. In bagging, the different training data subsets are randomly drawn with replacement from the original training dataset. Base classifiers are trained on the different bootstrap samples. Instance selection is to select critical instances while deleting and removing irrelevant and harmful instances from the original set. Instance selection and bagging are quite well known in data mining. However, few studies have dealt with the integration of instance selection and bagging. This study proposes an improved bagging ensemble based on instance selection using genetic algorithms (GA) for improving the performance of SVM. GA is an efficient optimization procedure based on the theory of natural selection and evolution. GA uses the idea of survival of the fittest by progressively accepting better solutions to the problems. GA searches by maintaining a population of solutions from which better solutions are created rather than making incremental changes to a single solution to the problem. The initial solution population is generated randomly and evolves into the next generation by genetic operators such as selection, crossover and mutation. The solutions coded by strings are evaluated by the fitness function. The proposed model consists of two phases: GA based Instance Selection and Instance based Bagging. In the first phase, GA is used to select optimal instance subset that is used as input data of bagging model. In this study, the chromosome is encoded as a form of binary string for the instance subset. In this phase, the population size was set to 100 while maximum number of generations was set to 150. We set the crossover rate and mutation rate to 0.7 and 0.1 respectively. We used the prediction accuracy of model as the fitness function of GA. SVM model is trained on training data set using the selected instance subset. The prediction accuracy of SVM model over test data set is used as fitness value in order to avoid overfitting. In the second phase, we used the optimal instance subset selected in the first phase as input data of bagging model. We used SVM model as base classifier for bagging ensemble. The majority voting scheme was used as a combining method in this study. This study applies the proposed model to the bankruptcy prediction problem using a real data set from Korean companies. The research data used in this study contains 1832 externally non-audited firms which filed for bankruptcy (916 cases) and non-bankruptcy (916 cases). Financial ratios categorized as stability, profitability, growth, activity and cash flow were investigated through literature review and basic statistical methods and we selected 8 financial ratios as the final input variables. We separated the whole data into three subsets as training, test and validation data set. In this study, we compared the proposed model with several comparative models including the simple individual SVM model, the simple bagging model and the instance selection based SVM model. The McNemar tests were used to examine whether the proposed model significantly outperforms the other models. The experimental results show that the proposed model outperforms the other models.
Predicting corporate failure has been an important topic in accounting and finance. The costs associated with bankruptcy are high, so the accuracy of bankruptcy prediction is greatly important for financial institutions. Lots of researchers have dealt with the topic associated with bankruptcy prediction in the past three decades. The current research attempts to use ensemble models for improving the performance of bankruptcy prediction. Ensemble classification is to combine individually trained classifiers in order to gain more accurate prediction than individual models. Ensemble techniques are shown to be very useful for improving the generalization ability of the classifier. Bagging is the most commonly used methods for constructing ensemble classifiers. In bagging, the different training data subsets are randomly drawn with replacement from the original training dataset. Base classifiers are trained on the different bootstrap samples. Instance selection is to select critical instances while deleting and removing irrelevant and harmful instances from the original set. Instance selection and bagging are quite well known in data mining. However, few studies have dealt with the integration of instance selection and bagging. This study proposes an improved bagging ensemble based on instance selection using genetic algorithms (GA) for improving the performance of SVM. GA is an efficient optimization procedure based on the theory of natural selection and evolution. GA uses the idea of survival of the fittest by progressively accepting better solutions to the problems. GA searches by maintaining a population of solutions from which better solutions are created rather than making incremental changes to a single solution to the problem. The initial solution population is generated randomly and evolves into the next generation by genetic operators such as selection, crossover and mutation. The solutions coded by strings are evaluated by the fitness function. The proposed model consists of two phases: GA based Instance Selection and Instance based Bagging. In the first phase, GA is used to select optimal instance subset that is used as input data of bagging model. In this study, the chromosome is encoded as a form of binary string for the instance subset. In this phase, the population size was set to 100 while maximum number of generations was set to 150. We set the crossover rate and mutation rate to 0.7 and 0.1 respectively. We used the prediction accuracy of model as the fitness function of GA. SVM model is trained on training data set using the selected instance subset. The prediction accuracy of SVM model over test data set is used as fitness value in order to avoid overfitting. In the second phase, we used the optimal instance subset selected in the first phase as input data of bagging model. We used SVM model as base classifier for bagging ensemble. The majority voting scheme was used as a combining method in this study. This study applies the proposed model to the bankruptcy prediction problem using a real data set from Korean companies. The research data used in this study contains 1832 externally non-audited firms which filed for bankruptcy (916 cases) and non-bankruptcy (916 cases). Financial ratios categorized as stability, profitability, growth, activity and cash flow were investigated through literature review and basic statistical methods and we selected 8 financial ratios as the final input variables. We separated the whole data into three subsets as training, test and validation data set. In this study, we compared the proposed model with several comparative models including the simple individual SVM model, the simple bagging model and the instance selection based SVM model. The McNemar tests were used to examine whether the proposed model significantly outperforms the other models. The experimental results show that the proposed model outperforms the other models.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 대표적인 앙상블 기법인 배깅의 성과 개선에 관한 연구이다. 배깅의 성과 개선을 위해 본 연구에서는 사례 선택기법을 활용한 배깅 모형을 제안하였다. 사례 선택은 데이터 마이닝 분야에서 매우 효과적인 기법 중의 하나로 원 데이터에서 불필요한 데이터, 관련 없는 데이터 또는 모형 개발에 오히려 해를 끼치는 노이즈와 같은 데이터를 제거하고 모형 개발을 위해 핵심적이고 중요한 사례를 선택하는 것을 말한다.
본 논문에서는 기존의 앙상블 부도 예측 모형의 성과 개선을 위해 사례 선택(Instance selection)을 활용하여 배깅의 성능을 개선시키는 새로운 모형을 제안한다. 지금까지 많은 앙상블 모형 관련 연구가 있었지만 아직까지 사례 선택과 배깅을 동시에 고려하는 연구는 거의 없는 것이 현실이다.
이들 방법 중에 본 논문에서는 분류기에 의해 얻어진 예측 결과에 기반을 둔 wrapper 접근방법을 사용하였다. 본 논문에서는 유전자 알고리즘을 이용하여 SVM의 최적의 사례집합(optimal instance subset)을 찾고 이 결과는 배깅 앙상블의 성능 개선을 위해 사용되었다. 본 연구는 유전자 알고리즘을 기반으로 하는 사례 선택이 최종 목표가 아니고, 이 결과를 배깅 앙상블 모형의 성능 개선을 위해 사용하는 새로운 형태의 모형 개발이 주목적이다.
본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다.
또한 사례 선택과 배깅의 결합에 관한 연구는 거의 없는 것이 현실이다. 본 연구는 SVM을 기저 분류기로 사용하는 앙상블의 성과개선에 관한 연구이다. 본 연구에서는 SVM 앙상블 모형의 성과 개선을 위해 사례 선택 기법과 배깅을 연결하는 새로운 모형을 제안하였다.
본 연구는 대표적인 앙상블 기법인 배깅의 성과 개선에 관한 연구이다. 배깅의 성과 개선을 위해 본 연구에서는 사례 선택기법을 활용한 배깅 모형을 제안하였다.
본 연구는 앙상블 부도 예측 모형의 성과 개선을 위해 유전자 알고리즘을 이용한 사례 선택과 배깅의 연결에 관한 새로운 방법을 제안하였다. 유전자 알고리즘은 배깅의 입력데이터로 사용될 최적의 사례를 선택하기 위해 사용되었다.
본 논문에서는 유전자 알고리즘을 이용하여 SVM의 최적의 사례집합(optimal instance subset)을 찾고 이 결과는 배깅 앙상블의 성능 개선을 위해 사용되었다. 본 연구는 유전자 알고리즘을 기반으로 하는 사례 선택이 최종 목표가 아니고, 이 결과를 배깅 앙상블 모형의 성능 개선을 위해 사용하는 새로운 형태의 모형 개발이 주목적이다. 즉, 유전자 알고리즘을 이용해 최적(또는 근사 최적)의 사례가 선택되고, 이 결과가 배깅 모형의 입력 데이터로 들어가게 된다.
본 연구에서는 SVM 모형을 이용한 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 방법을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다.
본 연구는 SVM을 기저 분류기로 사용하는 앙상블의 성과개선에 관한 연구이다. 본 연구에서는 SVM 앙상블 모형의 성과 개선을 위해 사례 선택 기법과 배깅을 연결하는 새로운 모형을 제안하였다.
본 연구에서는 기존의 대표적인 앙상블 모형 중의 하나인 배깅 모형의 성과개선을 위해 배깅과 사례 선택기법을 연결하는 새로운 형태의 앙상블 모형을 제안하였다. 본 연구에서는 앙상블 모형을 위한 기저 분류기로 최근에 우수한 성과로 각광받고 있는 SVM을 사용하였다.
하지만, 이 두 가지 기법의 결합에 관한 연구는 거의 없는 것이 현실이다. 본 연구에서는 단일 모형의 예측성과 개선에 매우 유용한 사례 선택과 배깅을 동시에 고려하는 새로운 모형에 대해 고찰해 보았다.
그러므로 본 연구에서 사용한 유전자 알고리즘의 적합도 함수는 예측정확도 만을 포함시켰다. 본 연구의 궁극적인 목적은 사례 선택을 통해 예측 모형에 악영향을 주는 사례를 제거하고, 이를 통해 배깅 앙상블을 위한 기저 분류기의 성과 개선 및 앙상블의 성과를 개선하고자 하는 데 있다.
그러므로, 앙상블 분류기를 통한 성과 개선을 기대하기 위해서는 기저 분류기들을 다양화시키는 것이 필요하다. 앙상블 모형은 다양한 분류기를 생성시키고 이들을 적절한 방법으로 결합함으로써 단일 모형보다 우수한 성과를 내는 것을 그 목표로 하고 있다. 분류기들을 다양화시키는 방법은 여러 가지 형태가 있을 수 있으며 대표적인 것들은 다음과 같다.
제안 방법
SVM의 성과에 중요한 영향을 미치는 파라미터 C와 의 경우 예비 실험을 통해 가장 성과가 좋은 값(Liner 커널: C=1; RBF 커널: C=1, =25)을 대표값으로 선택하여 이후의 실험에서 모두 같은 값을 가지고 실험하였다. 최적의 사례 선택을 위해 사용된 유전자 알고리즘의 실험에서 모집단(population)의 크기는 100으로 하고, 정지조건은 150세대로 설정하였다.
GAISSVM은 유전자 알고리즘을 이용하여 최적의 사례를 선택한 SVM 모형을 의미하며 본 논문에서 제안한 모형인 유전자 알고리즘을 이용한 사례 선택과 배깅을 연결한 모형은 GAIS BaggingSVM으로 표기하였다. 각각의 모형은 SVM의 linear 커널과 rbf 커널을 사용하여 각각 실험을 하였으며 사용한 커널 함수는 괄호 안에 표기하였다. [Figure 5]는 linear 커널을 사용한 실험결과를 보여주고 있고 [Figure 6]은 rbf 커널을 사용한 실험결과를 보여주고 있다.
하지만 본 연구의 목적은 모형의 예측 정확도 개선이므로 데이터 감소 비율은 상대적으로 중요성이 떨어진다고 볼 수 있다. 그러므로 본 연구에서 사용한 유전자 알고리즘의 적합도 함수는 예측정확도 만을 포함시켰다. 본 연구의 궁극적인 목적은 사례 선택을 통해 예측 모형에 악영향을 주는 사례를 제거하고, 이를 통해 배깅 앙상블을 위한 기저 분류기의 성과 개선 및 앙상블의 성과를 개선하고자 하는 데 있다.
이 중 부도 기업의 데이터와 비부도 기업의 데이터는 같은 수인 916개로 이루어져 있다. 데이터는 학습용 데이터(training data), 테스트용 데이터(test data), 그리고 검증용 데이터(validation data)로 나누어 실험을 하였다. 학습용 데이터는 모형의 학습을 위한 데이터로 사용되었으며, 테스트용 데이터는 유전자 알고리즘을 이용한 최적의 사례를 선택할 때 과적합(overfitting)을 피하기 위한 용도로 사용되었다.
(Min, 2012)은 부도 예측문제에 배깅과 random subspace 기법을 각각 적용해 보았다. 또한 성과 개선을 위해 배깅과 random subspace의 통합 모형을 제안하고 이를 부도 예측에 적용해 보았다. (Kim, 2009)은 기업의 부도 예측에 배깅과 부스팅을 적용해 보았다.
최적의 사례 선택을 위해 사용된 유전자 알고리즘의 실험에서 모집단(population)의 크기는 100으로 하고, 정지조건은 150세대로 설정하였다. 또한, 교배율(crossover rate)과 돌연변이 비율(mutation rate)은 각각 0.7과 0.1로 설정하여 실험하였다. 한편, 배깅을 이용한 앙상블 모형의 성과는 앙상블을 구성하는 기저 분류기의 총 수와 bootstrap의 크기에 따라 차이가 난다.
[Figure 2]는 본 논문에서 제안한 모형의 전반적인 절차(overall procedure)를 나타내고 있다. 본 논문에서 제안한 모형은 유전자 알고리즘을 이용한 사례 선택 모형과 배깅 모형으로 구성되어 있다. 유전자 알고리즘을 이용한 사례 선택 모형은 가장 먼저 랜덤하게 선택된 염색체(chromosomes)로부터 시작한다.
한편, 배깅을 이용한 앙상블 모형의 성과는 앙상블을 구성하는 기저 분류기의 총 수와 bootstrap의 크기에 따라 차이가 난다. 본 연구에서 배깅 실험에 사용한 기저 분류기의 총 수는 25로 고정하여 실험을 하였으며, bootstrap 크기는 예비실험을 통해 가장 성과가 좋은 값을 대표 값으로 사용하여 실험하였다.
이와 같이 유전자 알고리즘을 통해 선택된 최적의 사례들이 배깅의 최초 입력데이터로 사용되었다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 기존의 단일 모형, 사례 선택을 활용한 모형, 단순 배깅 모형을 비교 모델로 사용하였으며, ROC 커브, AUC, 예측정확도 등과 같은 다양한 성과지표를 사용해 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.
대표적인 방법으로는 배깅과 부스팅이 있다. 샘플링 방법을 이용해 서로 다른 학습데이터를 생성시키고 이를 이용해 다양한 기저 분류기를 생성한다.
본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하는 것으로 이를 통해 입력 데이터의 크기를 줄일 수 있으며, 저장 공간의 절약, 데이터 처리 속도의 향상과 같은 효과를 기대할 수 있다.
입력변수 선택을 위해 총 131개의 재무비율을 대상으로 1차적으로 단일표본 t검정(Independent-samples t-test)을 실시하였다. 이를 통해 p-value 값이 0.05보다 큰 변수는 제외하고, 나머지 변수를 대상으로 stepwise method를 이용한 로지스틱 회귀분석(Logistic Regression) 과 선행연구 결과 등을 종합적으로 고려해 최종변수를 선정하였다. [Table 1]은 최종 선정된 변수에 대한 설명과 동일 변수를 부도예측 모형에 사용한 선행연구를 보여주고 있다.
본 논문에서 기저 분류기로 사용한 SVM 모형은 결과값이 이진값인 이산형 분류기이므로 ROC space 상에 단지 한 점만 대응되지만, class boundary로부터의 거리 계산을 통해 특정 사례가 어떤 class의 member인지 정도를 알 수 있으며 이를 통해 연속형 분류기 형태로 변형이 가능하다. 이와 같이 SVM의 결과값을 변형한 형태로 사용하여 일반 연속형 분류기처럼 임계치에 변화를 줌으로써 ROC 커브를 완성할 수 있으며 본 연구에서는 이와 같은 방법을 이용하여 ROC 커브를 구현하였다.
대상 데이터
본 연구에서 사용한 데이터는 자산규모가 10억에서 70억 사이인 국내 비외감 기업의 데이터로 총 1832개로 구성되어 있다. 이 중 부도 기업의 데이터와 비부도 기업의 데이터는 같은 수인 916개로 이루어져 있다.
SVM의 성과에 중요한 영향을 미치는 파라미터 C와 의 경우 예비 실험을 통해 가장 성과가 좋은 값(Liner 커널: C=1; RBF 커널: C=1, =25)을 대표값으로 선택하여 이후의 실험에서 모두 같은 값을 가지고 실험하였다. 최적의 사례 선택을 위해 사용된 유전자 알고리즘의 실험에서 모집단(population)의 크기는 100으로 하고, 정지조건은 150세대로 설정하였다. 또한, 교배율(crossover rate)과 돌연변이 비율(mutation rate)은 각각 0.
데이터는 학습용 데이터(training data), 테스트용 데이터(test data), 그리고 검증용 데이터(validation data)로 나누어 실험을 하였다. 학습용 데이터는 모형의 학습을 위한 데이터로 사용되었으며, 테스트용 데이터는 유전자 알고리즘을 이용한 최적의 사례를 선택할 때 과적합(overfitting)을 피하기 위한 용도로 사용되었다. 검증용 데이터는 모형의 비교 검증을 위해 사용하였다.
데이터처리
학습용 데이터는 모형의 학습을 위한 데이터로 사용되었으며, 테스트용 데이터는 유전자 알고리즘을 이용한 최적의 사례를 선택할 때 과적합(overfitting)을 피하기 위한 용도로 사용되었다. 검증용 데이터는 모형의 비교 검증을 위해 사용하였다.
본 논문에서 제안한 모형과 비교 모형들의 성과 차이에 대한 통계적 유의성을 검토하기 위해 맥네마 검정(McNemar test)을 수행 하였으며 그 결과는 [Table 3]와 같다. 표에서 ** 표시는 1% 수준에서 유의한 차이가 있다는 것을 의미한다.
본 논문에서 제안한 모형에서는 배깅의 입력 데이터로 사용될 최적의 사례를 선택하기 위해 유전자 알고리즘을 사용하였다. 본 논문에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 기존의 단일 모형, 사례 선택을 활용한 모형, 단순 배깅 모형을 비교 모델로 사용하였으며, 실제 기업데이터를 이용해 다양한 성과지표를 가지고 비교 분석하였다.
기업의 부도 여부를 예측하기 위한 입력변수로는 재무비율을 사용하였다. 입력변수 선택을 위해 총 131개의 재무비율을 대상으로 1차적으로 단일표본 t검정(Independent-samples t-test)을 실시하였다. 이를 통해 p-value 값이 0.
이론/모형
여기에서 SimpleSVM는 SVM 단일 모형을 의미하며 SimpleBaggingSVM은 SVM을 기저분류기로 하는 기본 배깅 모형을 의미한다. GAISSVM은 유전자 알고리즘을 이용하여 최적의 사례를 선택한 SVM 모형을 의미하며 본 논문에서 제안한 모형인 유전자 알고리즘을 이용한 사례 선택과 배깅을 연결한 모형은 GAIS BaggingSVM으로 표기하였다. 각각의 모형은 SVM의 linear 커널과 rbf 커널을 사용하여 각각 실험을 하였으며 사용한 커널 함수는 괄호 안에 표기하였다.
본 연구에서는 앙상블 모형을 위한 기저 분류기로 최근에 우수한 성과로 각광받고 있는 SVM을 사용하였다. SVM의 커널(kernel) 함수로는 가장 많이 사용되고 있는 linear 커널과 rbf 커널을 사용하여 실험하였으며 제안한 모형의 우수성을 검증하기 위해 단일 모형, 일반 배깅 모형, 사례선택 기법을 활용한 모형을 비교 모델로 사용하였다.
본 논문에서 제안한 모형에서는 배깅의 입력 데이터로 사용될 최적의 사례를 선택하기 위해 유전자 알고리즘을 사용하였다. 본 논문에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 기존의 단일 모형, 사례 선택을 활용한 모형, 단순 배깅 모형을 비교 모델로 사용하였으며, 실제 기업데이터를 이용해 다양한 성과지표를 가지고 비교 분석하였다.
본 논문에서 제안한 앙상블 모형의 기저 분류기로는 SVM(Support Vector Machines)을 사용하였다. SVM은 (Vapnik, 1995)에 의해 소개된 이후 뛰어난 일반화 성능으로 인해 데이터 마이닝 분야에서 큰 관심을 끌고 있다.
본 연구에서는 기존의 대표적인 앙상블 모형 중의 하나인 배깅 모형의 성과개선을 위해 배깅과 사례 선택기법을 연결하는 새로운 형태의 앙상블 모형을 제안하였다. 본 연구에서는 앙상블 모형을 위한 기저 분류기로 최근에 우수한 성과로 각광받고 있는 SVM을 사용하였다. SVM의 커널(kernel) 함수로는 가장 많이 사용되고 있는 linear 커널과 rbf 커널을 사용하여 실험하였으며 제안한 모형의 우수성을 검증하기 위해 단일 모형, 일반 배깅 모형, 사례선택 기법을 활용한 모형을 비교 모델로 사용하였다.
이렇게 기저 분류기의 학습이 완료되면 이들 기저 분류기들의 예측 결과의 결과값(output)을 결합해야 한다. 본 연구에서는 앙상블 모형의 성과 개선을 위한 최적 사례 선택 및 최적 분류기 선택 쪽에 초점을 두었기 때문에 결합 방법은 가장 많이 사용되고 있는 방법 중의 하나인 다수결 투표(majority vote) 방법을 사용하여 실험하였다.
본 연구는 앙상블 부도 예측 모형의 성과 개선을 위해 유전자 알고리즘을 이용한 사례 선택과 배깅의 연결에 관한 새로운 방법을 제안하였다. 유전자 알고리즘은 배깅의 입력데이터로 사용될 최적의 사례를 선택하기 위해 사용되었다. 이와 같이 유전자 알고리즘을 통해 선택된 최적의 사례들이 배깅의 최초 입력데이터로 사용되었다.
, 2012)에 의하면 사례 선택은 wrapper와 filter의 두 가지 접근 방식이 있다. 이들 방법 중에 본 논문에서는 분류기에 의해 얻어진 예측 결과에 기반을 둔 wrapper 접근방법을 사용하였다. 본 논문에서는 유전자 알고리즘을 이용하여 SVM의 최적의 사례집합(optimal instance subset)을 찾고 이 결과는 배깅 앙상블의 성능 개선을 위해 사용되었다.
성능/효과
[Figure 7]과 [Figure 8]은 각 모형 별 예측 정확도(Accuracy) 값과 AUC 값을 보여주고 있다. [Figure 7]에서 보는 바와 같이 예측 정확도를 기준으로 볼 때 본 논문에서 제안한 새로운 모형인 GAISBaggingSVM 모형이 각 커널에서 가장 좋은 성과를 보임을 알 수 있다. 또한 [Figure 8]에서도 본 논문에서 제안한 모형이 AUC를 기준으로 가장 좋은 값을 보임을 알 수 있다.
즉, 모든 모형이 임의 추측보다 좋은 결과를 나타내고 있다는 것을 알 수 있다. 그 중에서도 본 논문에서 제안한 모형인 GAISBaggingSVM모형이 Base Line을 기준으로 가장 바깥쪽에 위치해 있는 것을 확인 할 수 있다. 그러므로, ROC 커브를 기준으로 볼 때 제안한 모형이 가장 우수하다는 것을 알수 있다.
그 중에서도 본 논문에서 제안한 모형인 GAISBaggingSVM모형이 Base Line을 기준으로 가장 바깥쪽에 위치해 있는 것을 확인 할 수 있다. 그러므로, ROC 커브를 기준으로 볼 때 제안한 모형이 가장 우수하다는 것을 알수 있다.
표에서 ** 표시는 1% 수준에서 유의한 차이가 있다는 것을 의미한다. 맥네마 검정 분석 결과 Linear 커널 함수를 사용한 경우 제안한 모형이 단순 svm과 단순 배깅 모형보다는 통계적으로 유의한 차이가 있는 것으로 나왔지만 유전자 알고리즘을 이용한 사례선택 모형과 비교할 때는 통계적으로 유의한 차이가 없는 것으로 나왔다. 하지만 rbf 커널 함수를 사용할 경우 제안한 모형이 다른 모든 비교 모형보다 통계적으로 유의한 차이가 있는 것으로 나와 본 논문에서 제안한 모형의 우수성을 알 수 있었다.
이와 같은 연속형 분류기는 분류를 수행할 때 기준이 되는 임계치 값의 변화를 줌으로써 ROC space 상에 서로 다른 점을 나타낼 수 있으며 이것을 연결한 것이 ROC 커브이다. 본 논문에서 기저 분류기로 사용한 SVM 모형은 결과값이 이진값인 이산형 분류기이므로 ROC space 상에 단지 한 점만 대응되지만, class boundary로부터의 거리 계산을 통해 특정 사례가 어떤 class의 member인지 정도를 알 수 있으며 이를 통해 연속형 분류기 형태로 변형이 가능하다. 이와 같이 SVM의 결과값을 변형한 형태로 사용하여 일반 연속형 분류기처럼 임계치에 변화를 줌으로써 ROC 커브를 완성할 수 있으며 본 연구에서는 이와 같은 방법을 이용하여 ROC 커브를 구현하였다.
본 논문에서 제안한 모형의 우수성을 검증하기 위해 기존의 모형과 다양한 비교를 하였으며, 비교를 위해 사용한 성과 지표로는 예측정확도, ROC 커브, AUC가 있다. 일반적으로 이진 분류 문제에서 가능한 두 개의 결과값을 positive class와 negative class라고 할 경우 분류기 예측을 통해 가능한 모든 경우는 [Table 2]와 같이 정리할 수 있다.
이를 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하는 것으로 이를 통해 입력 데이터의 크기를 줄일 수 있으며, 저장 공간의 절약, 데이터 처리 속도의 향상과 같은 효과를 기대할 수 있다. 뿐만 아니라, 예측 모형에 악영향을 줄 수 있는 불필요한 데이터, 노이즈 등의 제거로 인해 예측 성과 개선도 기대할 수 있다.
본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 기존의 단일 모형, 사례 선택을 활용한 모형, 단순 배깅 모형을 비교 모델로 사용하였으며, ROC 커브, AUC, 예측정확도 등과 같은 다양한 성과지표를 사용해 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.
이 기준선으로부터 오른쪽 아래에 위치한 분류기는 임의 추측값보다 성과가 좋지 않다는 것을 의미하며, 왼쪽 위에 위치한 분류기는 임의 추측보다 성과가 좋은 분류기를 의미한다. 실험 결과 모든 모형의 ROC 커브가 기준선보다 왼쪽 위쪽에 위치하고 있음을 알 수 있다. 즉, 모든 모형이 임의 추측보다 좋은 결과를 나타내고 있다는 것을 알 수 있다.
(Kim, 2009)은 기업의 부도 예측에 배깅과 부스팅을 적용해 보았다. 실험결과 의사결정 트리, 인공신경망을 기저 분류기로 했을 때의 단일 모형 보다 앙상블 모형이 성과가 좋음을 알 수 있었다. (Ok and Kim, 2009)은 로지스틱 회귀분석, 의사결정트리, 인공신경망, 사례기반추론의 최적 결합을 위해 유전자 알고리즘을 사용하였으며, 기업의 부도 예측 문제에 적용한 결과 제안한 모형이 기존의 단일 모형, 단순 결합 방법과 비교해 좋은 성과를 보였다.
맥네마 검정 분석 결과 Linear 커널 함수를 사용한 경우 제안한 모형이 단순 svm과 단순 배깅 모형보다는 통계적으로 유의한 차이가 있는 것으로 나왔지만 유전자 알고리즘을 이용한 사례선택 모형과 비교할 때는 통계적으로 유의한 차이가 없는 것으로 나왔다. 하지만 rbf 커널 함수를 사용할 경우 제안한 모형이 다른 모든 비교 모형보다 통계적으로 유의한 차이가 있는 것으로 나와 본 논문에서 제안한 모형의 우수성을 알 수 있었다.
후속연구
여기서 기저 분류기들이 서로 다르다는 것은 다양성을 의미한다. 다양성과 정확성을 통해 소수의 개별 분류기가 잘못 예측하더라도 나머지 다수의 개별분류기가 정확하게 예측하면 앙상블 분류기는 정확하게 예측할 수 있을 것이며 이와 같은 기저 분류기의 시너지 효과를 통해 앙상블 분류기는 단일 기저 분류기보다 좋은 성과를 기대할 수 있을 것이다. 그러므로, 앙상블 분류기를 통한 성과 개선을 기대하기 위해서는 기저 분류기들을 다양화시키는 것이 필요하다.
우선 본 연구에서 제안한 모형의 우수성을 검증하기 위해서는 보다 다양한 데이터에서의 검증이 필요할 것으로 보인다. 또한 앙상블 모형의 성과는 파라미터의 값에 따라 그 성과가 차이가 있으므로, 파라미터의 영향을 통제하기 위한 보다 다양한 실험이 추가로 필요할 것으로 여겨진다. 본 연구에서 제안한 모형은 부도 예측 문제가 아닌 다른 예측 문제에도 적용 가능할 것이다.
만약에 앙상블을 구성하고 있는 기저 분류기들이 모두 완전하게 동일하다면 앙상블의 성과는 개별 분류기의 성과보다 더 좋아질 수 없을 것이다. 반대로 기저 분류기들이 서로 다르다면 좋은 결합 방법을 통해 앙상블의 성과 개선을 기대해 볼 수 있을 것이다. 여기서 기저 분류기들이 서로 다르다는 것은 다양성을 의미한다.
또한 앙상블 모형의 성과는 파라미터의 값에 따라 그 성과가 차이가 있으므로, 파라미터의 영향을 통제하기 위한 보다 다양한 실험이 추가로 필요할 것으로 여겨진다. 본 연구에서 제안한 모형은 부도 예측 문제가 아닌 다른 예측 문제에도 적용 가능할 것이다. 이에 대한 검증을 위해 추가적인 연구가 필요할 것으로 여겨진다.
사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하는 것으로 이를 통해 입력 데이터의 크기를 줄일 수 있으며, 저장 공간의 절약, 데이터 처리 속도의 향상과 같은 효과를 기대할 수 있다. 뿐만 아니라, 예측 모형에 악영향을 줄 수 있는 불필요한 데이터, 노이즈 등의 제거로 인해 예측 성과 개선도 기대할 수 있다. 한편, 배깅을 통한 앙상블 모형은 단순하면서도 가장 많이 이용되는 기법 중의 하나로 이를 통해 단일 모형보다 개선된 성과를 기대할 수 있으며, 많은 과거 연구에 의하면 배깅을 통해 단일 모형보다 모형의 성과가 개선됨을 알 수 있다.
본 연구의 한계와 향후 연구 방향을 정리하면 다음과 같다. 우선 본 연구에서 제안한 모형의 우수성을 검증하기 위해서는 보다 다양한 데이터에서의 검증이 필요할 것으로 보인다. 또한 앙상블 모형의 성과는 파라미터의 값에 따라 그 성과가 차이가 있으므로, 파라미터의 영향을 통제하기 위한 보다 다양한 실험이 추가로 필요할 것으로 여겨진다.
본 연구에서 제안한 모형은 부도 예측 문제가 아닌 다른 예측 문제에도 적용 가능할 것이다. 이에 대한 검증을 위해 추가적인 연구가 필요할 것으로 여겨진다.
질의응답
핵심어
질문
논문에서 추출한 답변
금융기관에게 정확한 부도 예측이 중요한 이유는?
기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다.
앙상블 모형은 무엇인가?
최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다.
Bagging은 어떤 특징이 있는가?
사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다.
Ahn, H., K.-j. Kim, and I. Han, "Simultaneous Optimization Model of Case-Based Reasoning for Effective Customer Relationship Management," Journal of Intelligence and Information Systems, Vol.11, No.2(2005),175-195.
(Kim, 2004; Ahn et al., 2005 ; Kim and Ahn, 2011)의 연구에 의하면 사례 선택을 적절하게 수행할 경우 저장 공간을 절약할 수 있고, 자료 처리 속도를 높일 수 있을 뿐만 아니라 예측 모형의 성과가 개선될 수 있다는 것을 알 수 있다.
Altman, E. I., "Financial ratios, discriminant analysis and the prediction of corporate bankruptcy," The Journal of Finance, Vol.23, No.4(1968), 589-609.
단일변량분석(univariate analysis) (Beaver, 1966), 다변량 판별분석(multiple discriminant analysis) (Altman, 1968), 다중회귀분석(multiple regression analysis) (Meyer and Pifer, 1970), 로지스틱 회귀분석(logistic regression) (Dimitras et al., 1996; Ohlson, 1980) 등의 통계 모형을 부도 예측에 적용해 보는 연구가 여기에 속한다.
Beaver, W. H., "Financial ratios as predictors of failure," Journal of Accounting Research, Vol.4(1966), 71-111.
단일변량분석(univariate analysis) (Beaver, 1966), 다변량 판별분석(multiple discriminant analysis) (Altman, 1968), 다중회귀분석(multiple regression analysis) (Meyer and Pifer, 1970), 로지스틱 회귀분석(logistic regression) (Dimitras et al., 1996; Ohlson, 1980) 등의 통계 모형을 부도 예측에 적용해 보는 연구가 여기에 속한다.
Bian, S. and W. Wang, "On diversity and accuracy of homogeneous and heterogeneous ensembles," International Journal of Hybrid Intelligent Systems, Vol.4, No.2(2007), 103-128.
앙상블 모형이 기저 분류기들 보다 더 좋은 성과를 내려면, 앙상블 모형을 구성하고 있는 기저 분류기들의 성과가 가능하면 좋아야 하며, 이들 개별 기저 분류기들이 가능한 한 다양성을 갖는 것이 필요하다 (Bian and Wang , 2007; Kuncheva and Whitaker , 2003).
사례기반추론(Casebased reasoning) (Buta, 1994; Bryant, 1997), 귀납적 학습방법(inductive learning) (Messier and Hansen, 1998; Shaw and Gentry, 1998), 인공신경망(Artificial neural networks) (Tam and Kiang, 1992; Zhang et al., 1999)과 같은 다양한 모형들을 부도 예측 문제에 적용한 연구가 여기에 속한다.
Bryant, S. M., "A case-based reasoning approach to bankruptcy prediction modeling," Intelligent Systems in Accounting, Finance and Management, Vol.6, No.3(1997), 195-214.
사례기반추론(Casebased reasoning) (Buta, 1994; Bryant, 1997), 귀납적 학습방법(inductive learning) (Messier and Hansen, 1998; Shaw and Gentry, 1998), 인공신경망(Artificial neural networks) (Tam and Kiang, 1992; Zhang et al., 1999)과 같은 다양한 모형들을 부도 예측 문제에 적용한 연구가 여기에 속한다.
Derrac, J., C. Cornelis, S. Garcia, and F. Herrera, "Enhancing evolutionary instance selection algorithms by means of fuzzy rough set based feature selection," Information Sciences, Vol.186, No.1(2012), 73-92.
대부분의 경우에 앙상블 모형은 그것을 구성하고 있는 기저 분류기들보다 더 좋은 예측률을 보이는 것으로 알려져 있다 (Dietterich, 1997). 또한, 단순한 선형 분류기(simple linear classifier)도 앙상블 모형을 통해 결합이 되면 complex decision boundary를 만들어 낼 수 있으며 앙상블 모형은 단일 분류기보다 더 robust 하다고 알려져 있다 (Kuncheva , 2004).
Dimitras, A. I., S. H. Zanakis, and C. Zopounidis, "A survey of business failure with an emphasis on prediction methods and industrial applications," European Journal of Operational Research, Vol.90, No.3(1996), 487-513.
단일변량분석(univariate analysis) (Beaver, 1966), 다변량 판별분석(multiple discriminant analysis) (Altman, 1968), 다중회귀분석(multiple regression analysis) (Meyer and Pifer, 1970), 로지스틱 회귀분석(logistic regression) (Dimitras et al., 1996; Ohlson, 1980) 등의 통계 모형을 부도 예측에 적용해 보는 연구가 여기에 속한다.
ROC(Receiver operating characteristics) 그래프는 X축에 false positive rate를 Y축에는 true positive rate를 표시한 2차원 그래프로 true positive와 false positive와의 상대적인 절충(tradeoff) 관계를 나타내 주고 있다 (Fawcett, 2006).
Garcia, V., A. I. Marques, and J. S. Sanchez, "On the use of data filtering techniques for credit risk prediction with instance-based models," Expert Systems with Applications, Vol.39, No.18(2012), 13267-13276.
최초의 사례 선택 기법 중의 하나는 Hart에 의한 Condensed Nearest Neighbor Rule(CNN) 이다 (Hart, 1968).
Hong, S.-H., K.-S. Shin, "Using GA based Input Selection Method for Artificial Neural Network Modeling: Application to Bankruptcy Prediction," Journal of Intelligence and Information Systems, Vol.9, No.1(2003), 227-249.
부도 예측을 위한 최적의 입력변수 선정 문제 (Hong and Shin, 2003), 최적의 입력 데이터 정규화 문제(Tai and Shin, 2010), 최적의 사례 선택 문제 (Kim, 2004), 최적의 분류기 선택 문제(Kim, 2010)에 유전자 알고리즘을 활용한 연구들이 여기에 속한다.
Kim, D., S.-H. Min., I. Han, "Corporate Credit Rating using Partitioned Neural Network and Case-Based Reasoning," Journal of Information Technology Applications and Management, Vol.14, No.2(2007), 151-168.
(Kim and Kim, 2007)은 여러 개의 후보 기저 분류기 중에서 평균 이상의 성과를 보인 기저 분류기만을 선택하여 결합하는 변형된 배깅 모형을 제안하였으며, 단일 모형보다 제안한 배깅 모형이 우수한 성과를 보였다.
Kim, K.-j., "Data Mining using Instance Selection in Artificial Neural Networks for Bankruptcy Prediction," Journal of Intelligence and Information Systems, Vol.10, No.1(2004), 109-123.
부도 예측을 위한 최적의 입력변수 선정 문제 (Hong and Shin, 2003), 최적의 입력 데이터 정규화 문제(Tai and Shin, 2010), 최적의 사례 선택 문제 (Kim, 2004), 최적의 분류기 선택 문제(Kim, 2010)에 유전자 알고리즘을 활용한 연구들이 여기에 속한다.
(Kim, 2004; Ahn et al., 2005 ; Kim and Ahn, 2011)의 연구에 의하면 사례 선택을 적절하게 수행할 경우 저장 공간을 절약할 수 있고, 자료 처리 속도를 높일 수 있을 뿐만 아니라 예측 모형의 성과가 개선될 수 있다는 것을 알 수 있다.
Kim, K.-j. and H. Ahn, "Optimization of Support Vector Machines for Financial Forecasting," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 241-254.
(Kim, 2004; Ahn et al., 2005 ; Kim and Ahn, 2011)의 연구에 의하면 사례 선택을 적절하게 수행할 경우 저장 공간을 절약할 수 있고, 자료 처리 속도를 높일 수 있을 뿐만 아니라 예측 모형의 성과가 개선될 수 있다는 것을 알 수 있다.
Kim, M. J. "A Performance Comparison of Ensemble in Bankruptcy Prediction," Entrue Journal of Information Technology, Vol.8, No.2(2009), 41-49.
(Kim, 2009)은 기업의 부도 예측에 배깅과 부스팅을 적용해 보았다. 실험결과 의사결정 트리, 인공신경망을 기저 분류기로 했을 때의 단일 모형 보다 앙상블 모형이 성과가 좋음을 알 수 있었다.
Kim, M., "Optimal Selection of Classifier Ensemble Using Genetic Algorithms," Journal of Intelligence and Information Systems, Vol.16, No.4 (2010), 99-112.
부도 예측을 위한 최적의 입력변수 선정 문제 (Hong and Shin, 2003), 최적의 입력 데이터 정규화 문제(Tai and Shin, 2010), 최적의 사례 선택 문제 (Kim, 2004), 최적의 분류기 선택 문제(Kim, 2010)에 유전자 알고리즘을 활용한 연구들이 여기에 속한다.
Kim, M.-J., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 29-45.
(Kim, 2012)은 기하평균개념을 부스팅 알고리즘에 적용한 새로운 형태의 GM-Boost알고리즘을 확장하여 다범주 문제인 회사채 등급평가 문제에 적용해 보았다.
Kim, S. H. and J. W. Kim, "SOHO Bankruptcy Prediction Using Modified Bagging Predictors," Journal of Intelligence and Information Systems, Vol.13, No.2(2007), 15-26.
Kuncheva, L. I., Combining Pattern Classifiers: Methods and Algorithms, John Wiley & Sons, Inc., Hoboken, New Jersey, 2004.
대부분의 경우에 앙상블 모형은 그것을 구성하고 있는 기저 분류기들보다 더 좋은 예측률을 보이는 것으로 알려져 있다 (Dietterich, 1997). 또한, 단순한 선형 분류기(simple linear classifier)도 앙상블 모형을 통해 결합이 되면 complex decision boundary를 만들어 낼 수 있으며 앙상블 모형은 단일 분류기보다 더 robust 하다고 알려져 있다 (Kuncheva , 2004).
Kuncheva, L. I. and C. J. Whitaker, "Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy," Machine Learning, Vol.51, No.2(2003), 181-207.
앙상블 모형이 기저 분류기들 보다 더 좋은 성과를 내려면, 앙상블 모형을 구성하고 있는 기저 분류기들의 성과가 가능하면 좋아야 하며, 이들 개별 기저 분류기들이 가능한 한 다양성을 갖는 것이 필요하다 (Bian and Wang , 2007; Kuncheva and Whitaker , 2003).
Messier, W. F. Jr. and J. V. Hansen, "Inducing rules for expert system development: an example using default and bankruptcy data," Management Science, Vol.34, No.12(1998), 1403-1415.
단일변량분석(univariate analysis) (Beaver, 1966), 다변량 판별분석(multiple discriminant analysis) (Altman, 1968), 다중회귀분석(multiple regression analysis) (Meyer and Pifer, 1970), 로지스틱 회귀분석(logistic regression) (Dimitras et al., 1996; Ohlson, 1980) 등의 통계 모형을 부도 예측에 적용해 보는 연구가 여기에 속한다.
사례기반추론(Casebased reasoning) (Buta, 1994; Bryant, 1997), 귀납적 학습방법(inductive learning) (Messier and Hansen, 1998; Shaw and Gentry, 1998), 인공신경망(Artificial neural networks) (Tam and Kiang, 1992; Zhang et al., 1999)과 같은 다양한 모형들을 부도 예측 문제에 적용한 연구가 여기에 속한다.
Meyer, P. A. and H. W. Pifer, "Prediction of bank failures," The Journal of Finance, Vol.25, No.4(1970), 853-868.
단일변량분석(univariate analysis) (Beaver, 1966), 다변량 판별분석(multiple discriminant analysis) (Altman, 1968), 다중회귀분석(multiple regression analysis) (Meyer and Pifer, 1970), 로지스틱 회귀분석(logistic regression) (Dimitras et al., 1996; Ohlson, 1980) 등의 통계 모형을 부도 예측에 적용해 보는 연구가 여기에 속한다.
Min, S.-H., "Developing an Ensemble Classifier for Bankruptcy Prediction," Journal of the Korea Society Industrial Information System, Vol.17, No.7(2012), 139-148.
Ok, J.-k. and K.-j. Kim, "Integrated Corporate Bankruptcy Prediction Model Using Genetic Algorithms," Journal of Intelligence and Information Systems, Vol.15, No.4(2009), 99-121.
(Ok and Kim, 2009)은 로지스틱 회귀분석, 의사결정트리, 인공신경망, 사례기반추론의 최적 결합을 위해 유전자 알고리즘을 사용하였으며, 기업의 부도 예측 문제에 적용한 결과 제안한 모형이 기존의 단일 모형, 단순 결합 방법과 비교해 좋은 성과를 보였다.
Shaw, M. J. and J. A. Gentry, "Using and expert system with inductive learning to evaluate business loans," Financial Management, Vol.17, No.3(1988), 45-56.
사례기반추론(Casebased reasoning) (Buta, 1994; Bryant, 1997), 귀납적 학습방법(inductive learning) (Messier and Hansen, 1998; Shaw and Gentry, 1998), 인공신경망(Artificial neural networks) (Tam and Kiang, 1992; Zhang et al., 1999)과 같은 다양한 모형들을 부도 예측 문제에 적용한 연구가 여기에 속한다.
Shin, T, and T. Hong, "Corporate Credit Rating Based on Bankruptcy Probability Using AdaBoost Algorithm-Based Support Vector Machine," Journal of Intelligence and Information Systems, Vol.17, No. 3(2011), 25-41.
(Shin and Hong, 2011)은 SVM을 기저 분류기로 하는 AdaBoost 모형을 기업신용평가 문제에 적용해 보았으며, 실험 결과 제안한 모형이 오분류 문제를 줄 일수 있음을 보였다.
Tai, Q.-y. and K.-s. Shin, "GA-based Normalization Approach in Back-propagation Neural Network for Bankruptcy Prediction Modeling," Journal of Intelligence and Information Systems, Vol.16, No.3(2010), 1-14.
부도 예측을 위한 최적의 입력변수 선정 문제 (Hong and Shin, 2003), 최적의 입력 데이터 정규화 문제(Tai and Shin, 2010), 최적의 사례 선택 문제 (Kim, 2004), 최적의 분류기 선택 문제(Kim, 2010)에 유전자 알고리즘을 활용한 연구들이 여기에 속한다.
Tam, K. Y. and Kiang, M. Y., "Managerial applications of neural networks: the case of bank failure predictions," Management Science, Vol.38, No.7(1992), 926-947.
사례기반추론(Casebased reasoning) (Buta, 1994; Bryant, 1997), 귀납적 학습방법(inductive learning) (Messier and Hansen, 1998; Shaw and Gentry, 1998), 인공신경망(Artificial neural networks) (Tam and Kiang, 1992; Zhang et al., 1999)과 같은 다양한 모형들을 부도 예측 문제에 적용한 연구가 여기에 속한다.
Vapnik, V. N., The nature of statistical learning theory, Springer, New York, 1995.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.