[논문]불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델

이재식; 권종구

doi:10.13088/jiis.2013.19.2.125

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델
A Hybrid SVM Classifier for Imbalanced Data Sets 원문보기

지능정보연구 = Journal of intelligence and information systems, v.19 no.2, 2013년, pp.125 - 140

이재식 (아주대학교 경영대학 e-비즈니스학과) , 권종구 (아주대학교 일반대학원 경영정보학과)

초록
AI-Helper

어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

Abstract ▼ AI-Helper

We call a data set in which the number of records belonging to a certain class far outnumbers the number of records belonging to the other class, 'imbalanced data set'. Most of the classification techniques perform poorly on imbalanced data sets. When we evaluate the performance of a certain classification technique, we need to measure not only 'accuracy' but also 'sensitivity' and 'specificity'. In a customer churn prediction problem, 'retention' records account for the majority class, and 'churn' records account for the minority class. Sensitivity measures the proportion of actual retentions which are correctly identified as such. Specificity measures the proportion of churns which are correctly identified as such. The poor performance of the classification techniques on imbalanced data sets is due to the low value of specificity. Many previous researches on imbalanced data sets employed 'oversampling' technique where members of the minority class are sampled more than those of the majority class in order to make a relatively balanced data set. When a classification model is constructed using this oversampled balanced data set, specificity can be improved but sensitivity will be decreased. In this research, we developed a hybrid model of support vector machine (SVM), artificial neural network (ANN) and decision tree, that improves specificity while maintaining sensitivity. We named this hybrid model 'hybrid SVM model.' The process of construction and prediction of our hybrid SVM model is as follows. By oversampling from the original imbalanced data set, a balanced data set is prepared. SVM_I model and ANN_I model are constructed using the imbalanced data set, and SVM_B model is constructed using the balanced data set. SVM_I model is superior in sensitivity and SVM_B model is superior in specificity. For a record on which both SVM_I model and SVM_B model make the same prediction, that prediction becomes the final solution. If they make different prediction, the final solution is determined by the discrimination rules obtained by ANN and decision tree. For a record on which SVM_I model and SVM_B model make different predictions, a decision tree model is constructed using ANN_I output value as input and actual retention or churn as target. We obtained the following two discrimination rules: 'IF ANN_I output value <0.285, THEN Final Solution = Retention' and 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn.' The threshold 0.285 is the value optimized for the data used in this research. The result we present in this research is the structure or framework of our hybrid SVM model, not a specific threshold value such as 0.285. Therefore, the threshold value in the above discrimination rules can be changed to any value depending on the data. In order to evaluate the performance of our hybrid SVM model, we used the 'churn data set' in UCI Machine Learning Repository, that consists of 85% retention customers and 15% churn customers. Accuracy of the hybrid SVM model is 91.08% that is better than that of SVM_I model or SVM_B model. The points worth noticing here are its sensitivity, 95.02%, and specificity, 69.24%. The sensitivity of SVM_I model is 94.65%, and the specificity of SVM_B model is 67.00%. Therefore the hybrid SVM model developed in this research improves the specificity of SVM_B model while maintaining the sensitivity of SVM_I model.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

Hybrid Model 사용의 목적은 하나의 문제를 해결하기 위해 여러 다양한 모델들을 사용함으로써 하나의 모델을 사용할 때보다 더 좋은 예측 성능을 얻고자 하는 것이다. Hybrid Model은 입력 데이터의 사용 방법, 하위 모델들의 역할, 하위 모델들로부터 얻어진 해의 결합 방법 등에 따라 여러 유형으로 분류될 수 있는데, Lee and Lee는 Hybrid Model을 구축하는 방법으로서 Whole Data Approach와 Segmented Data Approach의 두 가지 접근법을 제시하였다(Lee and Lee, 2006).
따라서 본 연구에서는 불균형 데이터 집합 분류에서 나타나는 문제점을 해결하기 위한 Hybrid Model을 제시하고자 한다. 즉, 불균형 데이터 집합을 분류할 때 상대적으로 낮게 나오는 소수 클래스의 적중률을 높이고 상대적으로 높게 나오는 다수 클래스의 적중률은 유지하고자 한다.
완성된 Hybrid SVM Model과 SVM_I, SVM_B Model의 Test Data에 대한 성능은 [Table 6]와 같다. 본 연구에서는 Sampling을 10번 하여 10-fold Cross Validation을 수행하였으므로, 10개 Fold의 결과가 제시되어 있다.
본 연구에서는 불균형 데이터 집합의 분류에 있어서 두각을 나타내고 있는 SVM을 기본으로, 적중률을 높일 뿐만 아니라 민감도와 특이도에 있어서도 만족할만한 성능을 보이는 Hybrid SVM Model을 구축하였다.
3절에서 제시한 Hybrid SVM Model의 두 가지 목적을 다음과 같이 설정하였다. 즉, Hybrid SVM Model의 민감도는 SVM_I의 수준을, 특이도는 SVM_B의 수준을 유지하거나 또는 그 이상으로 향상 시키고자 한다.
따라서 본 연구에서는 불균형 데이터 집합 분류에서 나타나는 문제점을 해결하기 위한 Hybrid Model을 제시하고자 한다. 즉, 불균형 데이터 집합을 분류할 때 상대적으로 낮게 나오는 소수 클래스의 적중률을 높이고 상대적으로 높게 나오는 다수 클래스의 적중률은 유지하고자 한다.

제안 방법

5-fold Cross Validation을 이용하여 최적의 C, γ를 구하였으며 이를 이용하여 SVM 분석을 수행하였다.
ANN Model은 은닉층의 노드의 개수를 처음 10개부터 시작하여 점차 2개씩 증가시키면서 학습을 시켰다. 은닉노드의 개수가 14일 때 Training Data의 적중률이 제일 높았으며 14개를 전후로 적중률이 떨어지는 현상이 나타났다.
SVM Model의 설계에서는 격자탐색 알고리즘을 사용하여 SVM Model의 마진폭에 대응하는 분류오차의 페널티 C와 커널 파라메타 γ를 선정하였다.
②번 방향으로 진행된 레코드들에 대해서는, 의사결정나무 모델을 사용하여 최종 해를 결정하였다. Training Data에 대한 ANN_I의 예측치를 입력값으로, 각 레코드의 이탈 여부를 목표값으로 설정하여 의사결정나무 모델을 구축하였다. Discri_2 Model의 규칙은 [Table 5]와 같다.
두 번째 단계에서는 불균형 데이터 집합으로 구성된 Training Data로부터 이탈고객을 Oversampling하여 유지고객 50%(1500개), 이탈고객 50%(1500개)로 구성된 클래스 간에 균형을 이룬 Training Data를 만들었다. Sampling 과정은 [Figure 1]과 같다.
첫째, 소수 클래스에 속한 레코드를 중복해서 추출하는 Oversampling이나 다수 클래스에 속한 레코드를 적게 추출하는 Undersampling을 통하여 균형 데이터 집합으로 구성한 후 모델에 적용하여 학습을 시킨다. 둘째, 소수 클래스와 다수 클래스의 균형을 맞추기 위하여 소수 클래스에 의도적으로 학습을 기울이도록 분류 모델을 구성하는 것이다. 하지만 이러한 방법을 사용하면 소수 클래스의 적중률은 다소 올라가나 다수 클래스의 적중률은 낮아지게 되어 전체적으로 적중률이 낮아지는 문제점이 발생한다.
Hybrid SVM Model에 있어서 Discrimination(판별) Model의 역할은 SVM_I와 SVM_B의 예측치를 통합하고, SVM_I와 ANN_I의 예측치를 비교하여 최종 해를 결정해주는 것이다. 본 연구에서는 다음과 같은 과정으로 Discrimination Model을 설계하였다.
예측 시스템의 설계를 위해서는 적절한 Sampling 작업이 필요하다. 본 연구에서는 두 단계에 걸쳐 데이터 Sampling 작업을 하였다. 첫 번째는 불균형 데이터 집합을 만드는 단계로서 유지고객 85%(4293개), 이탈고객 15%(707개)로 구성된 전체 5000개의 레코드 중에서 3000개를 Sampling하여 Training(학습용) Data로, 1000개를 Sampling하여 Test(테스트용) Data로 사용하고, 나머지 1000개의 레코드는 모델의 최종 적중률을 측정하기 위한 Evaluation(평가용) Data로 사용하였다.
이러한 Sampling 작업을 10번 하여 10-fold Cross Validation을 수행하였다.
, 2003). 첫째, 소수 클래스에 속한 레코드를 중복해서 추출하는 Oversampling이나 다수 클래스에 속한 레코드를 적게 추출하는 Undersampling을 통하여 균형 데이터 집합으로 구성한 후 모델에 적용하여 학습을 시킨다. 둘째, 소수 클래스와 다수 클래스의 균형을 맞추기 위하여 소수 클래스에 의도적으로 학습을 기울이도록 분류 모델을 구성하는 것이다.

대상 데이터

본 논문은 총 8장으로 구성되어 있다. 제 1장에서는 연구의 배경 및 목적과 논문의 구성에 대해서 기술하고, 제 2장에서는 불균형 데이터 집합에 대한 기존 연구들을 살펴본다.
본 연구에서는 UCI Machine Learning Repository에서 제공하는 Churn Data Set을 사용하였다(Bache and Lichman, 2013). 이 데이터는 21개의 속성으로 구성되어 있으며 이동통신 고객의 유지(Retention)와 이탈(Churn)에 대한 총 5000개의 레코드가 있으며, 다수 클래스인 유지고객이 85%이고 소수 클래스인 이탈고객이 15%인 불균형 데이터 집합이다. Churn Data Set의 속성은 [Table 1]과 같다.
본 연구에서는 SVM Model과 ANN Model의 결합을 통하여 [Figure 4]와 같은 예측모델을 제시 한다. 이 모델은 제 5장에서 소개한 Hybrid Model의 유형 중에서 S1 Type에 속하는 Hybrid Model이다.
본 연구에서는 두 단계에 걸쳐 데이터 Sampling 작업을 하였다. 첫 번째는 불균형 데이터 집합을 만드는 단계로서 유지고객 85%(4293개), 이탈고객 15%(707개)로 구성된 전체 5000개의 레코드 중에서 3000개를 Sampling하여 Training(학습용) Data로, 1000개를 Sampling하여 Test(테스트용) Data로 사용하고, 나머지 1000개의 레코드는 모델의 최종 적중률을 측정하기 위한 Evaluation(평가용) Data로 사용하였다.

이론/모형

본 연구에서는 SVM, 인공신경망 그리고 의사결정나무의 세 가지 기법이 사용되었다.
본 연구에서는 UCI Machine Learning Repository에서 제공하는 Churn Data Set을 사용하였다(Bache and Lichman, 2013). 이 데이터는 21개의 속성으로 구성되어 있으며 이동통신 고객의 유지(Retention)와 이탈(Churn)에 대한 총 5000개의 레코드가 있으며, 다수 클래스인 유지고객이 85%이고 소수 클래스인 이탈고객이 15%인 불균형 데이터 집합이다.

성능/효과

C와 γ의 값이 각각 23, 2-1일 때 예측성과가 가장 우수한 것으로 나타났으며, 이때의 Training Data에 대한 적중률은 94.4%이었다.
비록 Hybrid SVM Model의 적중률이 SVM_I의 적중률보다는 미세하게 높지만, 우리가 주목할 점은 민감도와 특이도이다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. 동일 데이터에 대한 SVM_I의 민감도는 94.
SVM_I와 SVM_B의 성능을 비교해 보면, 민감도는 SVM_I가 높고, 특이도는 SVM_B가 높다. Hybrid SVM Model의 민감도는 SVM_I의 수준을 유지하였으며, 특이도는 SVM_B 보다 높게 나왔다. 즉, 불균형 데이터 집합에 대한 예측을 수행하고자 할 때에, 불균형 데이터에 대한 학습결과 및 그 데이터 집합으로부터 생성한 균형 데이터 집합에 대한 학습결과를 동시에 사용하고, 본 연구에서 제시한 판별규칙의 Threshold를 구하여 사용하는 것이 예측 적중률을 높이는데 효과적이라고 할 수 있다.
전반적으로 SVM Model의 적중률이ANN Model의 적중률보다 뛰어났다. SVM_I가 SVM_B보다 적중률은 높았으나, 민감도와 특이도에서는 성능이 엇갈렸다. 민감도는 SVM_I가 높았고 특이도는 SVM_B가 높았다.
여기서 주목할 점은 단순한 적중률의 증가가 아니라, 민감도와 특이도의 적절한 조화이다. SVM_I와 SVM_B의 성능을 비교해 보면, 민감도는 SVM_I가 높고, 특이도는 SVM_B가 높다. Hybrid SVM Model의 민감도는 SVM_I의 수준을 유지하였으며, 특이도는 SVM_B 보다 높게 나왔다.
00%이었다. 그러므로 SVM 단일 기법만을 사용한 Model에 비해서, 본 연구에서 개발된 Hybrid SVM Model이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률은 향상시키는 성능을 보였다.
[Table 6]에서 보듯이, Hybrid SVM Model의 적중률이 SVM_I나 SVM_B Model의 적중률보다 높다. 그리고 우리가 제 6.4절에서 밝힌 두 가지 목적, 즉 민감도는 SVM_I의 수준으로, 특이도는 SVM_B의 수준으로 얻고자 하는 목적이 달성되었다. Hybrid SVM Model이 다른 두 모델보다 우수한 것은 ROC(Receiver Operating Characteristic) 곡선의 분석으로도 알 수 있다.
24%이었다. 동일 데이터에 대한 SVM_I의 민감도는 94.65%이었고, SVM_B의 특이도는 67.00%이었다. 그러므로 SVM 단일 기법만을 사용한 Model에 비해서, 본 연구에서 개발된 Hybrid SVM Model이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률은 향상시키는 성능을 보였다.
SVM_I가 SVM_B보다 적중률은 높았으나, 민감도와 특이도에서는 성능이 엇갈렸다. 민감도는 SVM_I가 높았고 특이도는 SVM_B가 높았다. 이러한 결과를 토대로 제 6.
연구를 수행하는 과정에서, 불균형 데이터 집합으로 학습한 SVM인 SVM_I Model, Oversampling하여 생성한 균형 데이터 집합으로 학습한 SVM인 SVM_B Model도 구축되었다. Hybrid SVM Model의 적중률이 이 두 SVM Model 보다 높게 나왔다.
ANN Model은 은닉층의 노드의 개수를 처음 10개부터 시작하여 점차 2개씩 증가시키면서 학습을 시켰다. 은닉노드의 개수가 14일 때 Training Data의 적중률이 제일 높았으며 14개를 전후로 적중률이 떨어지는 현상이 나타났다. 따라서 은닉노드의 개수를 14로 설정하였다.
전반적으로 SVM Model의 적중률이ANN Model의 적중률보다 뛰어났다. SVM_I가 SVM_B보다 적중률은 높았으나, 민감도와 특이도에서는 성능이 엇갈렸다.
Hybrid SVM Model의 민감도는 SVM_I의 수준을 유지하였으며, 특이도는 SVM_B 보다 높게 나왔다. 즉, 불균형 데이터 집합에 대한 예측을 수행하고자 할 때에, 불균형 데이터에 대한 학습결과 및 그 데이터 집합으로부터 생성한 균형 데이터 집합에 대한 학습결과를 동시에 사용하고, 본 연구에서 제시한 판별규칙의 Threshold를 구하여 사용하는 것이 예측 적중률을 높이는데 효과적이라고 할 수 있다.
첫째, Hybrid SVM Model의 민감도(Sensitivity : ‘유지’를 ‘유지’로 예측하는 비율)는 불균형 데이터 집합으로 학습한 SVM Model의 민감도의 수준이 되어야 하고, 둘째, Hybrid SVM Model의 특이도(Specificity : ‘이탈’을 ‘이탈’로 예측하는 비율)는 균형 데이터 집합으로 학습한 SVM Model의 특이도의 수준이 되어야 한다.

후속연구

둘째, 본 연구에서 제시한 Hybrid SVM Model을 다양한 불균형 데이터 집합에 적용해 봐서 성능의 우수성을 일반화시킬 필요가 있다.
첫째, Discrimination Model인 Discri_2의 규칙을 도출할 때에, ANN 이외의 다른 기법의 예측치도 사용하여 Hybrid Model의 유연성을 확장할 필요가 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	불균형 데이터 집합이란 어떤 경우를 말하는가?	어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다.
	속성은 무엇으로 구분할 수 있는가?	하나의 데이터는 다수의 레코드를 포함하고 있으며, 레코드는 여러 개의 속성으로 이루어져 있다. 속성은 레코드를 구분하는 목표속성과 목표속성에 영향을 주는 설명속성으로 구분할 수 있다. 목표속성 값에 따라 레코드들은 여러 개의 클래스로 군집화 될 수 있다.
	비대칭(Skewed) 데이터 집합의 예는 무엇이 있는가?	각 클래스들이 비교적 균등한 개수의 레코드들을 포함하고 있을 때, 이 데이터 집합을 균형데이터 집합(Balanced Data Set)이라고 부르고, 어떤 특정 클래스가 다른 클래스들보다 현저히 많은 레코드들을 포함하고 있을 때 이를 불균형 데이터 집합(Imbalanced Data Set) 혹은 비대칭(Skewed) 데이터 집합이라고 부른다. 이러한 불균형 데이터 집합의 예로는 의료 분야에서 희귀한 질병을 가진 환자, 이동통신에서의 이탈 고객, 금융 분야에서의 신용불량자 등이 있다(McNamee et al., 2002).

참고문헌 (28)

Akbani R., K. Wek, and S. J. Apkwicz, "Applying Support Vector Machines to Imbalanced Data Sets," Proc. 15th European Conf. on Machine Learning, (2004), 39-50.
Barandela, J., S. Sanchez, V. Garcaa, and E. Rangel, "Strategies for Learning in Class Imbalance Problems," Pattern Recognition, Vol.36(2003), 849-851.

상세보기
Bache, K. and M. Lichman, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA : University of California, School of Information and Computer Science, 2013.
Breiman, L., J. H. Friedman, J. A. Olshen, and C. J. Stone, Classification and Regression Trees, Wadsworth, 1984.
Calleja, J., A. Benitez, M. A. Medina, and O. Fuentes, "Machine Learning from Imbalanced Data Sets for Astronomical Object Classification," Proc. Int'l Conf. on Soft Computing and Pattern Recognition, (2011), 435-439.
Cardie, C. and N. Howe, "Improving Minority Class Prediction Using Case-Specific Feature Weights," Proc. 14th Int'l Conf. on Machine Learning, (1997), 57-65.
Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE : Synthetic Minority Over Sampling Technique," Journal of Artificial Intelligence Research, Vol.16(2002), 321-357.
Chen, X., B. Gerlach, and D. Casasent, "Pruning Support Vectors for Imbalanced Data Classification," Proc. Int'l Joint Conf. on Neural Networks, (2005), 1883-1888.
Cristianini, N. and J. Shawe-Taylor, An Introduction to Support Vector Machines, Cambridge University Press, MA, 2000.
Egan, J. P., Signal Detection Theory and Roc Analysis. New York : Academic Press, 1975.
Ganganwar, V., "An Overview of Classification Algorithms for Imbalanced Datasets," Int'l Journal of Emerging Technology and Advanced Engineering, Vol.2, No.4(2012), 42-47.
Grzymala-Busse, J., X. Zheng, L. Goodwin, and W. Grzymala-Busse, "An Approach to Imbalanced Data Sets Based on Changing Rule Strength," Proc. AAAI Workshop, (2000), 69-74.
Jang, Y. S., J. W. Kim, and J. Hur, "Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm," Journal of Intelligence and Information Systems, Vol.14, No.3 (2008), 133-154.
Jo, T. and N. Japkowicz, "Class Imbalances versus Small Disjuncts," ACM SIGKDD Exploration, Vol.6(2004), 40-49.

상세보기
Joshi, M., V. Kumar, and R. Agarwal, "Evaluating Boosting Algorithms to Classify Rare Classes : Comparison and Improvements," Proc. 1st IEEE Int'l Conf. on Data Mining, (2001), 257-264.
Kim, M.-J., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 29-45.
Kotsiantis, S. B. and P. E. Pintelas, "Mixture of Expert Agents for Handling Imbalanced Data Sets," Ann. Math. Computer Teleinformatics, (2003), 46-55.
Kubat, M. and S. Matwin, "Addressing the Curse of Imbalanced Data Sets : One-sided Sampling," Proc. 14th Int'l Conf. on Machine Learning, (1997), 179-186.
Lee, H.-U. and H. Ahn, "An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 157-173.
Lee, J. S. and J. C. Lee, "Customer Churn Prediction by Hybrid Model," Advanced Data Mining and Applications, Lecture Note on Artificial Intelligence Vol.4093(2006), 959-966.
Ling, C. and C. Li, "Data Mining for Direct Marketing Problems and Solutions," Proc. 4th Int'l Conf. on Knowledge Discovery and Data Mining (KDD-98), New York, 1998.
Linoff, G. and M. Berry, Data Mining Techniques, 3rd Ed., Wiley Pub. Inc., 2011.
McNamee, B., P. Cunningham, S. Byrne, and O. Corrigan, "The Problem of Bias in Training Data in Regression Problems in Medical Decision Support," Artificial Intelligence in Medicine, Vol.24(2002), 51-70.

상세보기
Min, J. H. and Y. C. Lee, "Bankruptcy Prediction Using Support Vector Machine with Optimal Choice of Kernel Function Parameters," Expert Systems with Applications, Vol.28(2005), 603-614.

상세보기
Vapnik, V., Estimation of Dependences Based on Empirical Data, Nauka, Moscow, 1979.
Vapnik, V., The Nature of Statistical Learning Theory, Chapter 5. Springer-Verlag, New York, 1995.
Veropoulos, K., C. Campbell, and N. Cristianini, "Controlling the Sensitivity of Support Vector Machines," Proc. Int'l Joint Conf. on AI , (1999), 55-60.
Wu, G. and E. Chang, "Class-Boundary Alignment for Imbalanced Dataset Learning," Proc. Int'l Conf. on Machine Learning : 2003 Workshop on Learning from Imbalanced Data Sets, Washington, D.C., 2003.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증