[논문]기업부실 예측 데이터의 불균형 문제 해결을 위한 앙상블 학습

김명종

기업부실 예측 데이터의 불균형 문제 해결을 위한 앙상블 학습
Ensemble Learning for Solving Data Imbalance in Bankruptcy Prediction 원문보기

지능정보연구 = Journal of intelligence and information systems, v.15 no.3, 2009년, pp.1 - 15

김명종 (동서대학교 경영학부)

초록
AI-Helper

데이터 불균형 문제는 분류 및 예측 문제에서 하나의 범주에 속하는 표본의 수가 다른 범주들에 속하는 표본 수에 비하여 현저하게 적을 경우 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류 경계영역이 왜곡되고 결과적으로 분류자의 학습성과가 저하되는 문제가 발생한다. 본 연구에서는 데이터 불균형 문제를 해결하기 위하여 Geometric Mean-based Boosting (GM-Boost) 알고리즘을 제안하고자 한다. GM-Boost 알고리즘은 기하평균 개념에 기초하고 있어 다수 범주와 소수 범주를 동시에 고려한 학습이 가능하고 오분류된 표본에 집중하여 학습을 강화할 수 있는 장점이 있다. 기업부실 예측문제를 활용하여 GM-Boost 알고리즘의 성과를 검증한 결과 기존의Under-Sampling, Over-Sampling 및 AdaBoost 알고리즘에 비하여 우수한 분류 정확성을 보여주었고 데이터 불균형 정도에 관계없이 견고한 학습성과를 나타냈다.

Abstract ▼ AI-Helper

In a classification problem, data imbalance occurs when the number of instances in one class greatly outnumbers the number of instances in the other class. Such data sets often cause a default classifier to be built due to skewed boundary and thus the reduction in the classification accuracy of such a classifier. This paper proposes a Geometric Mean-based Boosting (GM-Boost) to resolve the problem of data imbalance. Since GM-Boost introduces the notion of geometric mean, it can perform learning process considering both majority and minority sides, and reinforce the learning on misclassified data. An empirical study with bankruptcy prediction on Korea companies shows that GM-Boost has the higher classification accuracy than previous methods including Under-sampling, Over-Sampling, and AdaBoost, used in imbalanced data and robust learning performance regardless of the degree of data imbalance.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

데이터 불균형 문제는 분류자의 성과에 미치는 영향이 크기 때문에 패턴 인식과 기계학습 분야에서 관심을 받고 있는 이슈 중 하나이다. 본 연구는 데이터 불균형이 심화되는 환경에서도 높은 성과를 창출할 수 있고 견고한 분류자를 생성할 수 있는 GM-Boost 알고리즘을 제안하였다.
비록 변별력과 직접적인 관련성은 없으나, 다중 공선성 문제는 모형 개발 시 필수적으로 고려해야할 문제이다. 본 연구에서는 7개 재무비율 사이의 다중공선성의 존재여부를 확인하기 위하여 분산 팽창요인(Variance Inflation Factors：VIF) 분석을 실시하였다. 일반적으로 다중공선성이 존재한다고 의심되는 VIF 임계치는 5～10사이이며 VIF가 10이상이면 다중공선성이 심각한 것으로 판단할 수 있다.
(1997)이 제안한 기하평균 개념을 도입한 새로운 부스팅 알고리즘으로 데이터 불균형이 심각한 상황에서도 높은 예측력을 확보할 수 있으며 데이터 불균형 정도에 관계없이 견고한 학습능력을 제공한다는 장점이 있다. 본 연구에서는 GM-Boost를 데이터 불균형이 존재하는 2범주 분류 문제인 기업부실 예측에 적용하여 제안 알고리즘의 성과를 검증하고자 한다.
본 연구에서는 데이터 불균형의 문제점을 완화하고 다수 범주와 소수 범주에 대한 균형적 학습이 가능한 Geometric Mean-based Boosting (GMBoost)을 제안하고자 한다. GM-Boost는 AdaBoost 알고리즘에 Kubat et al.
본 장에서는 데이터 불균형의 문제를 살펴보고 이를 해결하기 위하여 제안된 해결방법을 검토하고자 한다.
제 4장에서는 제안 모형의 유용성을 확인하기 위한 실험 데이터 수집 및 실험 설계 과정에 대하여 설명한다. 제 5장에서는 GM-Boost의 성과 검증 결과를 종합적으로 정리하여 제시하고자 한다. 마지막 제 6장에서는 결론과 함께 향후 연구방향을 제시하고자 한다.

가설 설정

둘째, 분류자의 학습 성과가 저하되는 문제이다. 데이터 불균형 하에서 다수 범주 표본에 의한 분류 경계영역의 침해로 인하여 소수 범주 영역이 점차로 축소하고 결과적으로 소수 범주에 대한 분류 정확성이 급격히 감소된다.
앞서 언급한 AdaBoost 알고리즘 의 기본 가정과 더불어 n개의 학습 표본이 소수 범주에 속하는 n⁺개의 표본과 다수 범주에 속하는 n^-개의 표본으로 구성되어 있다고 가정해보자. 이 때 k번째 분류자의 소수 범주 오류율을 #라 하고 다수 범주 오류율을 #라 하면 기하평균 오류율(e_k)은 다음과 같이 계산된다.

제안 방법

2단계에서는 1단계에서 구성된 표본을 다음과 같이 재구성하였다. Under-Sampling 방법을 적용하기 위하여 표본집합 B, C, D, E의 학습표본에서 부실기업 수(n = 300)와 동일하게 정상 기업을 무작위로 추출하여 부실기업과 정상 기업을 1：1비율로 재구성하였다. Over-Sampling의 학습표본은 Chawla(2002)가 제안한 SMOTE(Synthetic Minority Over-Sampling Technique) 알고리즘을 이용하여 새로운 부실기업 데이터를 생성하였다.
둘째, 본 연구에서 제안한 앙상블 기법은 부스팅 알고리즘의 수정을 통하여 데이터 불균형 문제를 해결하는 방향으로 진행되었다. 그러나 본 연구의 결과를 SVM의 커널조정과 연계하는 방법으로 데이터 불균형 문제를 해결할 수 있기 때문에 이러한 후속연구가 진행되길 기대한다(Hong, 2007; Wu et al.
본 장에서는 GM-Boost의 성과 검증 결과를 종합적으로 정리하여 제시하고자 한다.
본 장에서는 대표적 부스팅 기법인 AdaBoost 알고리즘과 본 연구에서 제안한 GM-Boost 알고리즘에 대하여 비교하여 설명하고자 한다.
부실 예측에 사용되는 재무비율은 일차적으로 기존의 기업부실 예측연구에 사용된 비율 및 실무에서 부실예측의 지표로 유용하게 활용되는 비율을 중심으로 30개의 재무비율을 수집하였다. 수집된 재무비율을 수익성, 부채상환능력, 레버지리, 자본구조, 유동성, 활동성 및 규모의 7개 재무비율군으로 재분류하였으며, 최종 입력변수는 데이터 불균형을 고려하여 ROC 곡선에 의하여 산출된 AUROC를 이용하여 각 분류군별로 AUROC가 높은 7개 재무비율을 선정하였다. 일차적으로 선정된 30개 비율 및 최종 선정된 7개 재무비율의 AUROC 는 <표 2>에 제시되어있다.

대상 데이터

표본 불균형에 따른 분류자의 성과 변화를 분석하기 위하여 표본 구성은 다음과 같이 2단계로 나누어 진행하였다. 1단계에서는 전체 10,000개 표본 중에서 부실기업과 정상 기업을 1：1(A), 1：3(B), 1：5(C), 1：10(D), 1：24(E)의 비율로 5개 표본을 추출하였고 각 표본의 75%는 학습표본으로 25%는 검증표본으로 구분하였다. 이러한 방법으로 추출된 데이터 구성현황은 <표 4>에 요약되어 있다.
같은 방법을 50회 반복하여 각 표본 집합마다 50개의 학습표본과 각 50개의 검증표본을 구성하였다.
본 연구의 실험 데이터는 한신평정보㈜의 기업 정보 DB를 기초로 수집하였다. 부실 기업은 2002～2005년 중 은행연합회 신용정보 등록기업, 당좌부도 발생기업, 회사정리절차 개시기업, 기업구조조정절차 개시기업에 해당하는 400개 외부감사 제조 기업으로 구성하였으며 부실기업에 대한 재무자료는 부실 직전 년도를 중심으로 수집하되 직전 년도 재무자료가 없는 경우 2년 전 재무자료를 수집하였다.
부실 예측에 사용되는 재무비율은 일차적으로 기존의 기업부실 예측연구에 사용된 비율 및 실무에서 부실예측의 지표로 유용하게 활용되는 비율을 중심으로 30개의 재무비율을 수집하였다. 수집된 재무비율을 수익성, 부채상환능력, 레버지리, 자본구조, 유동성, 활동성 및 규모의 7개 재무비율군으로 재분류하였으며, 최종 입력변수는 데이터 불균형을 고려하여 ROC 곡선에 의하여 산출된 AUROC를 이용하여 각 분류군별로 AUROC가 높은 7개 재무비율을 선정하였다.
부실 기업은 2002～2005년 중 은행연합회 신용정보 등록기업, 당좌부도 발생기업, 회사정리절차 개시기업, 기업구조조정절차 개시기업에 해당하는 400개 외부감사 제조 기업으로 구성하였으며 부실기업에 대한 재무자료는 부실 직전 년도를 중심으로 수집하되 직전 년도 재무자료가 없는 경우 2년 전 재무자료를 수집하였다. 정상 기업은 2002～2005년 말 기준 부실 사유에 해당하지 않는 2,400개 외부감사 제조기업으로 2001～2004년의 년도 별 재무제표 9,600건을 수집하였다. 이러한 방법으로 재무자료 기준으로 총 10,000건의 재무 자료를 수집하였으며 4년의 평균부도율은 전문 신용평가기관의 부도율 예상 범위 (3～5%)인 4% 수준으로 유지하였다.

데이터처리

이러한 문제점에 대한 해결대안으로 제안된 방법이 기하평균 정확도와 ROC 분석이다. 기하평균 정확도는 다수 범주의 정확도와 소수 범주의 정확도를 모두 고려한 성과지표로 (민감도 × 특이도) 1/2로 계산된다(Kubat et al.
최종 구성된 표본 집합을 대상으로 50회 교차타당성 검증을 수행하였으며 Duncan test를 이용하여 GM-Boost와 타 분류자의 분류 정확도 사이에 정확성 차이를 분석하였다. <표 5>는 5개 표본집합에 대한 기하평균 정확도의 50회 평균과 Duncan test 결과를 제시하고 있다.

이론/모형

이러한 방법으로 부실기업과 정상기업의 비율이 1：n인 표본에 대하여 n-1번을 반복하여 정상기업과 동일한 부실기업수를 생성하게 된다. AdaBoost 알고리즘과 GMBoost 알고리즘은 1단계에서 구성된 표본 집합을 별도의 처리 없이 활용하였다.
GM-Boost 알고리즘의 성과비교 대상으로 UnderSampling, Over-Sampling, AdaBoost 알고리즘을 선정하였다. 기저 분류자(base classifier)로서 SVM은 Platt(1998)에 의해 제안된 SMO(Sequential Minimal Optimization) 알고리즘을 사용하였다.
Under-Sampling 방법을 적용하기 위하여 표본집합 B, C, D, E의 학습표본에서 부실기업 수(n = 300)와 동일하게 정상 기업을 무작위로 추출하여 부실기업과 정상 기업을 1：1비율로 재구성하였다. Over-Sampling의 학습표본은 Chawla(2002)가 제안한 SMOTE(Synthetic Minority Over-Sampling Technique) 알고리즘을 이용하여 새로운 부실기업 데이터를 생성하였다. SMOTE 알고리즘은 k minority class nearest neighbors에 기초하여 특정 관측치 및 유사한 k개의 소수범주의 사례를 조합하여 새로운 데이터를 생성하는 방법으로 일반적으로 X_{≠ w} = X + raand(0, 1) × (X_nn - X)를 이용하여 새로운 사례를 생성한다.
GM-Boost 알고리즘의 성과비교 대상으로 UnderSampling, Over-Sampling, AdaBoost 알고리즘을 선정하였다. 기저 분류자(base classifier)로서 SVM은 Platt(1998)에 의해 제안된 SMO(Sequential Minimal Optimization) 알고리즘을 사용하였다. 데이터를 고차원 특성공간으로 매핑하기 위한 커널 함수는 커널차수가 1인 다항커널 (polynomial kernel)을 이용하였다.
기저 분류자(base classifier)로서 SVM은 Platt(1998)에 의해 제안된 SMO(Sequential Minimal Optimization) 알고리즘을 사용하였다. 데이터를 고차원 특성공간으로 매핑하기 위한 커널 함수는 커널차수가 1인 다항커널 (polynomial kernel)을 이용하였다. AdaBoost 알고리즘과 GM-Boost 알고리즘은 분류자 생성횟수가 25회를 넘어서면 오류 감소효과가 미미하다는 연구 결과(Opitz and Maclin, 1999)에 기초하여 최대 앙상블 생성횟수를 25회로 제한하였다.

성능/효과

표본집합 E에 대한 T-test 결과 역시 유의적인 분류 정확도 차이를 보여주고 있다. 결과적으로 소수 범주와 다수 범주에 대한 균형적 학습이 가능한 GM-Boost 알고리즘은 AdaBoost 알고리즘과 비교하여 데이터 불균형 문제에 대한 효과적인 해결 대안이 될 수 있다.
연구 결과 불균형 비율이 크지 않은 표본 집합(1：1, 1：3)의 경우 두 범주 사이의 경계 영역의 크기가 유사함을 보여주었다. 그러나 불균형 비율이 심해진 표본집합(1：5, 1：10)의 경우 다수 범주의 표본이 소수 범주의 영역을 침범하게 되어 소수 범주의 영역이 점점 작아지기 때문에 소수 범주에 속하는 표본의 분류 정확성이 감소하는 것을 확인하였다. 특히, 극단적인 불균형을 보이는 표본집합(1：30, 1：50)의 경우 분류자의 소수 범주에 대한 영역이 과도하게 작아져 소수 범주에 대한 분류 자체가 큰 의미가 없음을 보고하고 있다.
기업 부실 예측문제를 대상으로 GM-Boost 알고리즘의 성과를 확인한 결과 GM-Boost 알고리즘은 데이터 불균형이 심각한 상황에서도 높은 분류 정확성과 견고한 학습능력을 확보하고 있음을 확인하였다.
넷째, GM-Boost 알고리즘은 모든 표본 집합에 대하여 가장 높은 분류 정확성을 보여주었다. <표 6>의 Duncan test 결과에서도 GM-Boost는 AdaBoost의 표본집합 A를 제외하고 다른 분류자에 비교하여 유의적인 정확도 차이를 보여 주었다.
둘째, 분류자의 학습 성과가 저하되는 문제이다. 데이터 불균형 하에서 다수 범주 표본에 의한 분류 경계영역의 침해로 인하여 소수 범주 영역이 점차로 축소하고 결과적으로 소수 범주에 대한 분류 정확성이 급격히 감소된다. 이러한 문제의 해결 대안으로서 Under-Sampling, Over-Sampling, Cost Adaptation Strategies, 부스팅 알고리즘 등 다양한 기법이 활용되고 있다.
첫째, 학습데이터 비율의 불균형으로 소수 범주 표본이 소수 범주 경계영역 내에 존재하지 않으려는 경향이 발생한다. 둘째, support vector 비율의 불균형으로 다수 범주에 과도한 표본이 집중되는 경우 다수 범주의 분류 경계영역이 확대되고 소수 범주의 분류 경계영역이 축소되는 경계영역의 왜곡이 나타나며, 결과적으로 분류자는 예측 표본을 다수 범주로 분류할 가능성이 높아지게 된다는 분석 결과를 제시하였다.
둘째, 부스팅 알고리즘 기반의 AdaBoost와 GMBoost 알고리즘은 US-SVM과 OS-SVM과 비교하여 높은 분류 성과를 나타내고 있으며 불균형이 심할수록 성과 격차도 점점 커지고 있다. 표본집합 E에 대한 T-test 결과도 1% 유의수준에서 두 방법과 비교하여 유의적인 성과차이를 보여주고 있다.
특히, 극단적인 불균형을 보이는 표본집합(1：30, 1：50)의 경우 분류자의 소수 범주에 대한 영역이 과도하게 작아져 소수 범주에 대한 분류 자체가 큰 의미가 없음을 보고하고 있다. 또한 데이터 불균형이 심해질수록 소수 범주 표본의 분류 정확도가 크게 감소하고 이에 따라서 기하평균 정확도는 감소하지만 단순평균 정확도는 오히려 다수 범주의 높은 분류 정확도에 의존하여 꾸준히 증가함을 보여주었다. 이러한 결과를 기초로 데이터 불균형 상황에서 단순평균 정확도는 성과 지표로서 적합하지 않음을 주장하였다.
셋째, GM-Boost 알고리즘은 AdaBoost 알고리즘과 비교하여 데이터 균형인 표본집합 A를 제외한 모든 불균형 표본집합에서 유의적인 분류 정확성 차이를 보여주고 있다. 표본집합 E에 대한 T-test 결과 역시 유의적인 분류 정확도 차이를 보여주고 있다.
(2006)은 각 307개의 정상기업과 부실기업을 대상으로 SVM과 유전자 알고리즘의 결합분류자, SVM, 인공신경망, 로지스틱 회귀분석의 분류 정확성을 비교하였다. 실험 결과 SVM 기반의 분류자들은 로지스틱 회귀분석이나 인공신경망보다 높은 분류 정확성을 보여주었다. 이와 같이 대부분의 기업부실 예측연구들은 UnderSampling 방법을 이용하여 데이터 불균형 문제를 통제하고 있다.
(2005)은 정상기업과 부실기업의 구성비율이 1：1인 2320개 기업을 대상으로 SVM과 인공신경망의 분류 정확성을 비교하였다. 실험 결과 SVM 은 인공신경망보다 우수한 분류 정확성을 보여주었다. Min et al.
또한 데이터 불균형이 심해질수록 소수 범주 표본의 분류 정확도가 크게 감소하고 이에 따라서 기하평균 정확도는 감소하지만 단순평균 정확도는 오히려 다수 범주의 높은 분류 정확도에 의존하여 꾸준히 증가함을 보여주었다. 이러한 결과를 기초로 데이터 불균형 상황에서 단순평균 정확도는 성과 지표로서 적합하지 않음을 주장하였다.
<표 5>와 <표 6>은 다음과 같은 결과들을 제시하고 있다. 첫째, US-SVM이나 OS-SVM은 샘플링을 수행하지 않은 SVM에 비하여 모든 표본 집합에서 유의적인 분류 정확성 차이를 보여주고 있다. 특히, 데이터 불균형이 심할수록 분류 정확도 차이가 더욱 커지고 있으며 표본집합 E에 대한 T-test 결과 1% 유의수준 하에서 유의적인 성과 차이를 보이고 있다.
첫째, 부스팅 알고리즘은 학습표본에 이상치(Outlier)를 가진 특정 관측치가 포함되거나 앙상블 분류자 사이의 상관관계가 높은 경우 분류 정확도가 감소되는 문제가 발생하는 단점이 있다. (Optiz and Maclin, 1999).
Wu and Chang(2003)은 데이터 불균형으로 인한 SVM의 경계영역의 왜곡(Skewed Boundary)의 원인을 다음 두 가지로 보고하고 있다. 첫째, 학습데이터 비율의 불균형으로 소수 범주 표본이 소수 범주 경계영역 내에 존재하지 않으려는 경향이 발생한다. 둘째, support vector 비율의 불균형으로 다수 범주에 과도한 표본이 집중되는 경우 다수 범주의 분류 경계영역이 확대되고 소수 범주의 분류 경계영역이 축소되는 경계영역의 왜곡이 나타나며, 결과적으로 분류자는 예측 표본을 다수 범주로 분류할 가능성이 높아지게 된다는 분석 결과를 제시하였다.
첫째, US-SVM이나 OS-SVM은 샘플링을 수행하지 않은 SVM에 비하여 모든 표본 집합에서 유의적인 분류 정확성 차이를 보여주고 있다. 특히, 데이터 불균형이 심할수록 분류 정확도 차이가 더욱 커지고 있으며 표본집합 E에 대한 T-test 결과 1% 유의수준 하에서 유의적인 성과 차이를 보이고 있다. 이는 Sampling을 이용하는 방법이 Sampling을 하지 않는 방법보다 데이터 불균형 해소에 효과적임을 의미한다.

후속연구

둘째, 본 연구에서 제안한 앙상블 기법은 부스팅 알고리즘의 수정을 통하여 데이터 불균형 문제를 해결하는 방향으로 진행되었다. 그러나 본 연구의 결과를 SVM의 커널조정과 연계하는 방법으로 데이터 불균형 문제를 해결할 수 있기 때문에 이러한 후속연구가 진행되길 기대한다(Hong, 2007; Wu et al., 2005).
(Optiz and Maclin, 1999). 이러한 단점을 보완하기 위하여 다양한 방법(Maia et al., 2009; Cover and Thomsa, 1991; Darbellay, 1999)들이 제안되고 있으며 후속 연구에서는 이러한 방법과 결합된 알고리즘을 개발 연구를 수행하고자 한다.
셋째, 데이터 불균형이 발생하는 영역 중 GMBoost 알고리즘이 적용 가능한 또 다른 영역으로는 다범주 분류문제를 들 수 있다. 특히 회사채 평가 등은 재무분야의 전형적인 다범주 분류문제라 할 수 있으며 후속연구로서 이 영역에 대한 연구를 수행하고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터 불균형 문제는 어떤 경우에 나타나는가?	데이터 불균형 문제는 분류 및 예측 문제에서 하나의 범주에 속하는 표본의 수가 다른 범주들에 속하는 표본 수에 비하여 현저하게 적을 경우 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류 경계영역이 왜곡되고 결과적으로 분류자의 학습성과가 저하되는 문제가 발생한다.
	기하평균 정확도는 어떻게 계산되는가?	이러한 문제점에 대한 해결대안으로 제안된 방법이 기하평균 정확도와 ROC 분석이다. 기하평균 정확도는 다수 범주의 정확도와 소수 범주의 정확도를 모두 고려한 성과지표로 (민감도 × 특이도) 1/2로 계산된다(Kubat et al., 1997).
	SVM의 장점으로 인해 어떤 분야에도 활발하게 적용되고 있는가?	SVM은 첫째, 명료한 이론적 근거에 기반하므로 결과 해석이용이하고, 둘째, 실제 응용에 있어 높은 성과를 나타내고, 셋째, 입력변수의 차원에 의존하지 않고 자료의 수에 의존하여 신속하게 학습을 수행할 수 있 으며, 넷째, 구조적 위험 최소화 원칙(structural risk minimization)에 기반하므로 과대적합 (overfitting) 문제에 견고하다는 장점이 있다. 이러한 장점으로 인하여 문자인식, 이미지 인식, 마이크로어레이 분석 등 자연과학 분야에서 적용되어 왔으며 최근 시계열 예측 및 분류(Cao and Tay, 2001; Kim, 2004; Tay and Cao, 2002), 채권신용등급(Huang et al., 2004 ), 기업부실예측(Shin et al., 2005; Min et al., 2006) 등 경영분야에도 활발하게 적용되고 있다.

참고문헌 (50)

강필성, 조성준 (2006), "데이터 불균형 해결을 위한 Under-sampling 기반 앙상블 SVMs", 대한산업공학회/한국경영과학회 2006 춘계공동학술대회.
Altman, E. L., "Financial ratios, discriminant analysis and the prediction of corporate bankruptcy", The Journal of Finance, Vol.23 No.4(1968), 589-609.

상세보기
Altman, E. L., I. Edward, R. Haldeman, and P. Narayanan, "A new model to identify bankruptcy risk of corporations", Journal of Banking and Finance, Vol.1(1977), 29-54.

상세보기
Beaver, W., "Financial ratios as predictors of failure, empirical research in accounting：Selected studied", Journal ofAccounting Research, Vol.4, No.3(1966), 71-111.

상세보기
Bruzzone, L. and S. B. Serpico, "Classifications of imbalanced remote-sensing data by neural networks", Pattern recognition letters, Vol.18, No.11-13(1997), 1323-1328.

상세보기
Bryant, S. M., "A case-based reasoning approach to bankruptcy prediction modeling", International Journal of Intelligent Systems in Accounting, Finance and Management, Vol.6, No.3(1997), 195-214

상세보기
Buta, P., "Mining for financial knowledge with CBR", AI Expert, Vol.9. No.10(1994), 34-41.
Cao, L. and F. E. H. Tay, "Financial forecasting using support vector machines", Neural Computing and Applications, Vol.10(2001), 184-192.

상세보기
Chawla, N., K. Bowyer, L. Hall, and W. Kegelmeyer, "SMOTE： synthetic minority oversampling techniques", Journal of Artificial Intelligence Research, Vol.16(2002), 321-357.
Chawla, N., A. Lazarevic, L. Hall, and K. Bowyer, "SMOTEBoost：improving prediction of the minority class in boosting", 7th European conference on principles and practice of knowledge discovery in databases. Cavtat-Dubrovnik, Croatia, (2003), 107-119.
Cover, T. M. and J. A. Thomas, Element of information theory, John Wiley and Sons, (1991).
Darbellay, G. A., "An estimator of the mutual information based on a criterion for independence", Computational Statistics and Data Analysis, Vol.32(1999), 1-17.

상세보기
Dimitras, A. I., S. H. Zanakis, and C. Zopounidis, "A survey of business failure with an emphasis on prediction methods and industrial applications", European Journal of Operational Research, Vol.90, No.3(1996), 487-513.

상세보기
Elkan, C., "The foundation of cost-sensitive learning", In Proceedings of the 17th International Joint Conference on Artificial Intelligence, (2001), 973-978, Seattle, WA.
Fawcett, T., "An introduction to ROC analysis", Pattern Recognition Letters, Vol.27(2006), 861-874.

상세보기
Fawcett, T. and F. Provost, "Adaptive fraud detection", Data Mining and Knowledge discovery, Vol.1, No.3(1997), 291-316.

상세보기
Freund, Y. and R. E. Schapire, "A decision theoretic generalization of online learning and an application to boosting", Journal of Computer and System Science, Vol.55, No.1(1997), 119-139.

상세보기
Han, I., J. S. Chandler, and T. P. Liang, "The impact of measurement scale and correlation structure on classification performance of inductive learning and statistical methods". Expert System with Applications, Vol.10, No.2(1996), 209-221.

상세보기
Hong, X., "A kernel-based two-class classifier for imbalanced data sets", IEEE Transactions on neural networks, Vol.18, No.1(2007), 28-40.

상세보기
Huang, Zan, Chen, Hsinchun, Hsu, Chia-Jung, Chen, Wun-Hwa, and Wu, Soushan, "Credit rating analysis with support vector machines and neural networks. A market comparative study", Decision Support Systems, Vol.37(2004), 543-558.

상세보기
Japkowicz, N. and S. Stephen, "The class imbalance problem：a systematic study", Intelligent Data Analysis, Vol.6, No.5(2002), 429-250.

상세보기
Kim, K., "Financial time series forecasting using support vector machines", Neurocomputing, Vol.55(2004), 307-319.
Kotsiantis, S., D. Tzelepis, E. Kounmanakos, and V. Tampakas, "Selective costing voting for bankruptcy prediction", International Journal of Knowledge-based and Intelligent Engineering Systems, Vol.11(2007), 115-127.

상세보기
Kubat, M., Holte, R., and S. Matwin, "Learning when Negative example abound", Proceedings of the 9th European Conference on Machine Learning, ECML'97 (1997).
Kubat M. and S. Matwin, "Addressing the curse of imbalanced training sets：one-sided selection", In Proceedings of the Fourteenth International Conference onMachine Learning, (1997), 179-186.
Laitinen, T. and M. Kankaanpaa, "Comparative analysis of failure prediction methods：the Finish case", European Accounting Review, Vol.8, No.1(1999), 67-92.

상세보기
Laurikkala, J., "Instance-based data reduction for improved identification of difficult small classes", Intelligent Data Analysis, Vol.6, No.4(2002), 311-322.

상세보기
Maia, T. T., A. P. Braga, and A. F. Carvalho, "Hybrid classification algorithms based on boosting and support vector machines", Kybernetes, Vol.37, No.9(2008), 1469-1491.

상세보기
Meyer, P. A. and H. Pifer, "Prediction of bank failures", The Journal of Finance, Vol.25(1970), 853-68.

상세보기
Min, S. H., J. M. Lee, and I. G. Han, Hybrid genetic algorithms and support vector machines for bankruptcy prediction. Expert Systems with Applications, Vol.31(2006), 652-660.

상세보기
Odom, M. and R. Sharda, "A neural network for bankruptcy prediction", Proceedings of the International Joint Conference on Neural Networks, IEEE Press, San Diego, CA. (1990).
Ohlson, J., "Financial ratios and the probabilistic prediction of bankruptcy", Journal of Accounting Research, Vol.18, No.1(1980), 109-131.

상세보기
Optiz, D. and R. Maclin, "Popular ensemble methods： an empirical study", Journal of Artificial Intelligence, Vol.11(1999), 169-198.
Pantalone, C. and M. B. Platt, "Predicting commercial bank failure since deregulation", New England Economic Review, (1987), 37-47.
Platt, J., "Fast Training of Support Vector Machines using Sequential Minimal Optimization. In B. Schoelkopf, C. Burges, and A. Smola, (Eds.)", Advances in Kernel Methods-Support Vector Learning, MIT Press, (1998).
Provost. F. and T. Fawcett, "Robust classification for imprecise environments", Machine Learning, Vol.42(2001), 203-231.
Ravi, P. and K. V. Ravi, "Bankruptcy prediction in banks and firms via statistical and intelligent techniques-a review", European Journal of Operational Research, Vol.180(2007), 1-28.

상세보기
Seiffert, C., T. M. Khoshgoftaar, J. Van Hulse, and A. Napolitano, "RUSBoost： Improving classification performance when training data is skewed", 19th International Conference on Pattern Recognition, (2008), 1-4.
Shaw, M. and J. Gentry, "Using and expert system with inductive learning to evaluate business loans", Financial Management, Vol.17, No.3(1998), 45-56.
Shin, H. J. and S. Z. Cho, "Response modeling with support vector machines", Expert Systems with applications, Vol.30, No.4(2006), 746-760.

상세보기
Shin, K., T. Lee, and H. Kim, "An application of support vector machines in bankruptcy prediction", Expert Systems with Applications, Vol.28(2005), 127-135.

상세보기
Tay. F. E. J. and L. J. Cao, "Modified support vector machine in financial time series forecasting", Neurocomputing, Vol.48(2002), 847-861.

상세보기
Vapnik, V. N., "The nature of statistical learning theory", New York：Springer, (1995).
Wang, B. X. and N. Japkowicz, "Boosting support vector machines for imbalanced data sets", Knowledge and Information Systems, forthcoming, (2009).
Weiss, G. M., "Mining with rarity：a unifying framework", SIGKDD Explorations, Vol.T, No.1(2004), 7-19.
Wu, G. and E. Chang, "Adaptive feature-space conformal transformation for imbalanced data learning", In Proceedings of the 20th International Conference on Machine Learning, (2003).
Wu, G. and E. Chang, "KBA： Kernel boundary alignment considering imbalanced data distribution", IEEE Transactions on knowledge and data engineering, Vol.17, No.6(2005), 786-795.

상세보기
Wu, G. Y. Wu, L. Jiao, Y. F. Wang, and E. Chang, "Multi-camera spatio-temporal fusion and biased sequence-data learning for security surveillance", Proceedings of 20th International Conference on Multimedia, (2003).
Yan, R., Y. Liu, and R. Hauptman, "On predicting rare classes with SVM ensembles in scene classification", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'03), (2003).
Zmijewski, M. E.,："Methodological issues related to the estimation of financial distress prediction models", Journal of Accounting Research, Vol.22, No.1(1984), 59-82.

상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증