In recent years, imbalanced data is one of the most important and frequent issue for quality control in industrial field. As an example, defect rate has been drastically reduced thanks to highly developed technology and quality management, so that only few defective data can be obtained from product...
In recent years, imbalanced data is one of the most important and frequent issue for quality control in industrial field. As an example, defect rate has been drastically reduced thanks to highly developed technology and quality management, so that only few defective data can be obtained from production process. Therefore, quality classification should be performed under the condition that one class (defective dataset) is even smaller than the other class (good dataset). However, traditional multi-class classification methods are not appropriate to deal with such an imbalanced dataset, since they classify data from the difference between one class and the others that can hardly be found in imbalanced datasets. Thus, one-class classification that thoroughly learns patterns of target class is more suitable for imbalanced dataset since it only focuses on data in a target class. So far, several one-class classification methods such as one-class support vector machine, neural network and decision tree there have been suggested. One-class support vector machine and neural network can guarantee good classification rate, and decision tree can provide a set of rules that can be clearly interpreted. However, the classifiers obtained from the former two methods consist of complex mathematical functions and cannot be easily understood by users. In case of decision tree, the criterion for rule generation is ambiguous. Therefore, as an alternative, a new one-class classifier using hyper-rectangles was proposed, which performs precise classification compared to other methods and generates rules clearly understood by users as well. In this paper, we suggest an approach for improving the limitations of those previous one-class classification algorithms. Specifically, the suggested approach produces more improved one-class classifier using hyper-rectangles generated by using Gaussian function. The performance of the suggested algorithm is verified by a numerical experiment, which uses several datasets in UCI machine learning repository.
In recent years, imbalanced data is one of the most important and frequent issue for quality control in industrial field. As an example, defect rate has been drastically reduced thanks to highly developed technology and quality management, so that only few defective data can be obtained from production process. Therefore, quality classification should be performed under the condition that one class (defective dataset) is even smaller than the other class (good dataset). However, traditional multi-class classification methods are not appropriate to deal with such an imbalanced dataset, since they classify data from the difference between one class and the others that can hardly be found in imbalanced datasets. Thus, one-class classification that thoroughly learns patterns of target class is more suitable for imbalanced dataset since it only focuses on data in a target class. So far, several one-class classification methods such as one-class support vector machine, neural network and decision tree there have been suggested. One-class support vector machine and neural network can guarantee good classification rate, and decision tree can provide a set of rules that can be clearly interpreted. However, the classifiers obtained from the former two methods consist of complex mathematical functions and cannot be easily understood by users. In case of decision tree, the criterion for rule generation is ambiguous. Therefore, as an alternative, a new one-class classifier using hyper-rectangles was proposed, which performs precise classification compared to other methods and generates rules clearly understood by users as well. In this paper, we suggest an approach for improving the limitations of those previous one-class classification algorithms. Specifically, the suggested approach produces more improved one-class classifier using hyper-rectangles generated by using Gaussian function. The performance of the suggested algorithm is verified by a numerical experiment, which uses several datasets in UCI machine learning repository.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
H-RTGL을 이용한 단일 분류기는 Jeong and Choi[9]에 의해 제안된 바 있지만, H-RTGL을 생성하기 위해서 사용되는 인터벌 생성 시 데이터의 분포가 고려되지 않는다는 단점이 존재한다. 따라서 본 논문에서는 이러한 H-RTGL 기반 단일 분류기들의 단점을 개선할 수 있는 새로운 H-RTGL 기반 단일 분류 알고리즘을 제시하고자 한다.
한편, 실제 산업 현장에서 발생하는 문제점들을 근본적으로 해결하기 위해서는 단순히 데이터를 분류하는 것이 아니라, 도출된 분류기에 대한 해석이 가능해야 한다.따라서, 본 논문에서는 분류 정확도를 유지하면서도 해석력을 제공할 수 있는 단일 분류기인 hyper-rectangle(H- RTGL)을 이용한 단일 분류기를 제안한다. H-RTGL을 이용한 단일 분류기는 Jeong and Choi[9]에 의해 제안된 바 있지만, H-RTGL을 생성하기 위해서 사용되는 인터벌 생성 시 데이터의 분포가 고려되지 않는다는 단점이 존재한다.
본 논문에서 제안된 가우시안 기반 H-RTGL 단일 분류기 GbH의 성능을 평가하기 위해서 UCI machine learning repository[1]에서 제공되는 데이터 집합들을 이용한 수치 실험을 설계하였다. 사용된 데이터 집합은 Iris, Breast, Liver, Biomed의 4가지였으며, 각 데이터 집합에 대한 정보는 [Table 1]과 같다.
본 논문에서는 산업 현장에서 점차 중요성이 대두되고 있는 불균형 데이터에 대한 클래스 분류와 같은 단일 분류 문제를 위한 효율적인 알고리즘을 제안하였다. 특히, 분류 정확도와 더불어 분류 요인에 대한 해석력까지 함께 제공할 수 있는 H-RTGL 기반 단일 분류기인 GbH를 설계하였다.
본 논문에서는 앞서 언급되었던 MbH와 CbH의 단점을 개선할 수 있는 새로운 가우시안 기반 H-RTGL(Gaussian based H-RTGL : GbH) 단일 분류기를 제안한다. GbH를 이용한 단일 분류는 주어진 데이터가 특정한 가우시안 혼합(Gaussian mixture)임을 가정하고, 각각의 가우시안 분포로부터 인터벌을 생성함으로써 데이터의 산포를 고려한 분류기를 얻을 수 있다.
가설 설정
특히, 분류 정확도와 더불어 분류 요인에 대한 해석력까지 함께 제공할 수 있는 H-RTGL 기반 단일 분류기인 GbH를 설계하였다. GbH는 주어진 인스턴스들이 특정한 가우시안 분포를 따른다고 가정하며, 가우시안 분포의 통계량인 평균과 표준 편차를 이용하여 인터벌을 생성, 결합하여 H-RTGL을 얻는다. 결과적으로, GbH를 이용한 단일 분류기는 기존에 제안되었던 H-RTGL 기반의 분류 방법인 MbH와 GbH를 이용한 단일 분류기보다 개선된 분류 정확도를 보였으며, 분류 요인에 대한 해석 또한 가능했다.
본 논문에서는 앞서 언급되었던 MbH와 CbH의 단점을 개선할 수 있는 새로운 가우시안 기반 H-RTGL(Gaussian based H-RTGL : GbH) 단일 분류기를 제안한다. GbH를 이용한 단일 분류는 주어진 데이터가 특정한 가우시안 혼합(Gaussian mixture)임을 가정하고, 각각의 가우시안 분포로부터 인터벌을 생성함으로써 데이터의 산포를 고려한 분류기를 얻을 수 있다. GbH를 이용한 단일 분류기를 생성하는 과정은 [Figure 1]의 단계에 따라 다음과 같이 설명될 수 있다.
예를 들면, 대표적인 분류 기법인 sup-port vector machine(SVM)[4, 13]은 양(positive)의 클래스와 음(negative)의 클래스의 차이점을 이용하여 두 개의 클래스를 구분할 수 있는 hyper-plane을 찾는다. 반면, 단일 분류는 주어진 데이터 집합이 오직 하나의 클래스로만 구성되어 있으며, 해당 클래스에 소속되지 않은 데이터는 모두 이상치(outlier)로 가정한다. 이 때, 단일 분류는 클래스가 하나만 존재하기 때문에 해당 클래스의 패턴을 보다 정밀하게 묘사할 수 있는 분류기를 생성하는 것이 필요하다.
이 후, 도출된 사영점으로부터 인터벌을 생성하기 위해서는 각 사영점의 군집을 하나의 가우시안 분포와 대응시키는 것이 필요하다. 즉, 군집 내의 인스턴스들이 특정한 가우시안 분포를 따르는 데이터 집합이라고 가정하는 것이다. 이에 대한 결과로서, 속성 r에 대한 qr (qr = 1, 2, .
제안 방법
가 존재한다. 따라서, 이 2가지 매개 변수들의 값을 바꿔가며 ROC 곡선을 그림으로써 가장 좋은 AUC 값을 나타내는 매개 변수 조합을 찾을 수 있도록 하였다.
따라서 본 논문에서는 각각의 데이터 집합에 대해서 클래스들 중 하나를 분류의 목적이 되는 목표 클래스(target class)로 정의하고 나머지 클래스들은 이상치 데이터로 분류하는 One- versus-All(OvA) 방식을 사용하였다. 또한, 실험의 다양성을 위해서 Iris 데이터 집합에 대해서는 3가지 클래스 모두를 각각 목표 클래스로 사용한 3번의 독립적인 실험을 수행하였다.
본 논문에서는 H-RTGL을 이용한 단일 분류기를 [Figure 1]과 같은 프레임워크를 따라서 생성한다. 먼저, 각 속성 별로 기본적인 인터벌들을 생성하고, 도출된 인터벌들의 결합(conjunction)을 통해 기본적인 H-RTGL을 생성한다. 이렇게 생성된 H-RTGL은 각각의 속성마다 독립적으로 생성된 인터벌을 이용하였기 때문에 적당한 크기로 조정하는 피팅(fitting) 과정이 필요할 수 있다.
본 논문에서는 GbH 생성을 위해 고려되는 매개 변수 값들을 다양하게 변화시키면서 다양한 성능의 분류기와 그에 대응하는 ROC 곡선을 생성하였다. 보다 구체적으로는 인터벌 생성 시 인터벌의 길이를 결정하는 매개 변수 v의 값을 변화시키며 ROC 곡선을 그렸다. 만약 v가 0의 값을 갖는다면, 생성되는 인터벌들이 피팅 함수에 의해 학습 데이터 집합에 매우 과적합된 H-RTGL이 생성될 수 있다.
본 논문에서 제안된 GbH는 비교적 간단한 매개 변수 조합을 통해 생성되었다. 따라서, 추후 연구로서 인터벌생성에 영향을 줄 수 있는 추가적인 매개 변수에 대한 탐색이 이루어질 수 있다.
본 논문에서는 GbH 생성을 위해 고려되는 매개 변수 값들을 다양하게 변화시키면서 다양한 성능의 분류기와 그에 대응하는 ROC 곡선을 생성하였다. 보다 구체적으로는 인터벌 생성 시 인터벌의 길이를 결정하는 매개 변수 v의 값을 변화시키며 ROC 곡선을 그렸다.
셋째, DT는 데이터 집합으로부터 규칙을 추출하고, 추출된 규칙을 각각의 노드에 할당하여 할당된 규칙을 토대로 분류를 수행한다. 이 때, 생성된 규칙은 사용자에 의해 해석될 수 있으며 이를 통해 데이터 집합에 대한 분석이 가능해진다.
다중 분류는 데이터 집합이 다양한 클래스로 구성되며, 새로 발생하는 인스턴스가 여러 개의 클래스들 중 어떤 클래스의 데이터인지 예측하는 것이다[11]. 이를 위해 데이터 상에 존재하는 여러 클래스의 차이점을 이용하여 분류의 기준이 되는 분류기를 생성한다. 예를 들면, 대표적인 분류 기법인 sup-port vector machine(SVM)[4, 13]은 양(positive)의 클래스와 음(negative)의 클래스의 차이점을 이용하여 두 개의 클래스를 구분할 수 있는 hyper-plane을 찾는다.
따라서, 데이터 집합의 통계량과는 독립적으로 H-RTGL의 크기를 조정하여 과적합 문제를 해결할 필요가 있다. 이를 위해, 각 속성별로 인터벌 길이를 조정함으로써 H-RTGL의 부피를 결정하는 매개 변수 v를 도입하여 피팅(fitting) 과정을 수행한다. 인터벌 결합 π(q1, q2, ⋯, qm)의 속성 r에 대한 피팅 값은 다음과 같이 얻을 수 있다.
제 2장에서는 단일 분류에 대한 연구 동향을 기술하고, 제 3장에서는 본 논문에서 제안하는 개선된 H-RTGL 기반 단일 분류기를 설명한다. 이후, 제 4장에서 실제 데이터에 기반한 수치 실험을 통해 본 논문에서 제안하는 단일 분류 알고리즘의 성능을 검증하고, 분류 요인에 대한 해석을 제공한다. 제 5장에서는 본 논문의 결론을 제시하고 추후 연구 방향을 제시한다.
본 논문에서는 산업 현장에서 점차 중요성이 대두되고 있는 불균형 데이터에 대한 클래스 분류와 같은 단일 분류 문제를 위한 효율적인 알고리즘을 제안하였다. 특히, 분류 정확도와 더불어 분류 요인에 대한 해석력까지 함께 제공할 수 있는 H-RTGL 기반 단일 분류기인 GbH를 설계하였다. GbH는 주어진 인스턴스들이 특정한 가우시안 분포를 따른다고 가정하며, 가우시안 분포의 통계량인 평균과 표준 편차를 이용하여 인터벌을 생성, 결합하여 H-RTGL을 얻는다.
다른 분류 알고리즘의 AUC는 [9, 10]을 참고하여 기록하였다. 해당 논문에서는 MATLAB toolbox의 일종인 Data Description toolbox(dd_tools)를 통한 매개 변수 최적화를 수행하여 가장 최적의 AUC 값을 기록하였다
대상 데이터
본 논문에서는 목표 클래스에 속한 데이터 중 50%를 임의로 추출하여 훈련 데이터로 사용하였다. 또한, 훈련 데이터로 선정되지 않은 목표 클래스의 데이터와 이상치는 모두 시험 데이터로 사용하였다. 예를 들면, Breast 데이터 집합에 대한 실험의 경우, 목표 클래스에 속한 241개의 인스턴스 중에서 50%인 120개의 인스턴스를 학습 데이터로 사용하였고, 목표 클래스에 있지만 선택되지 않은 나머지 121개의 인스턴스와 458개의 이상치를 모두 시험 데이터로 사용하였다.
일반적인 분류 문제에서 분류기 생성을 위한 학습을 수행하기 위해 사용되는 데이터를 훈련 데이터(training data)라고 하며, 생성된 분류기의 성능 측정을 위해 사용되는 데이터를 시험 데이터(test data)라고 한다. 본 논문에서는 목표 클래스에 속한 데이터 중 50%를 임의로 추출하여 훈련 데이터로 사용하였다. 또한, 훈련 데이터로 선정되지 않은 목표 클래스의 데이터와 이상치는 모두 시험 데이터로 사용하였다.
본 논문에서 제안된 가우시안 기반 H-RTGL 단일 분류기 GbH의 성능을 평가하기 위해서 UCI machine learning repository[1]에서 제공되는 데이터 집합들을 이용한 수치 실험을 설계하였다. 사용된 데이터 집합은 Iris, Breast, Liver, Biomed의 4가지였으며, 각 데이터 집합에 대한 정보는 [Table 1]과 같다. 그러나 이러한 데이터들은 2개 이상의 클래스를 포함하고 있기 때문에, 단일 분류 실험을 위한 목적으로 바로 사용될 수가 없다.
또한, 훈련 데이터로 선정되지 않은 목표 클래스의 데이터와 이상치는 모두 시험 데이터로 사용하였다. 예를 들면, Breast 데이터 집합에 대한 실험의 경우, 목표 클래스에 속한 241개의 인스턴스 중에서 50%인 120개의 인스턴스를 학습 데이터로 사용하였고, 목표 클래스에 있지만 선택되지 않은 나머지 121개의 인스턴스와 458개의 이상치를 모두 시험 데이터로 사용하였다. 이와 같이 시험 데이터를 목표 클래스와 이상치를 모두 포함하도록 정의함으로써, 분류기가 목표 클래스의 데이터를 얼마나 잘 반영시키고 이상치 데이터를 얼마나 잘 배제시킬 수 있는지 파악할 수 있다.
데이터처리
GbH 기반 단일 분류기의 경우, 제 4.1절에서 설명된 방법을 적용하여 구한 가장 높은 AUC 값을 갖는 k와 Nσ 값을 표현하였으며, 이러한 환경에서 각 시행에 대해 계산된 20회의 AUC 값에 대한 평균과 표준 편차를 기록하였다.
이론/모형
그러나 이러한 데이터들은 2개 이상의 클래스를 포함하고 있기 때문에, 단일 분류 실험을 위한 목적으로 바로 사용될 수가 없다. 따라서 본 논문에서는 각각의 데이터 집합에 대해서 클래스들 중 하나를 분류의 목적이 되는 목표 클래스(target class)로 정의하고 나머지 클래스들은 이상치 데이터로 분류하는 One- versus-All(OvA) 방식을 사용하였다. 또한, 실험의 다양성을 위해서 Iris 데이터 집합에 대해서는 3가지 클래스 모두를 각각 목표 클래스로 사용한 3번의 독립적인 실험을 수행하였다.
제안된 단일 분류기의 성능을 검증하기 위한 성능 지표로 Area Under the Receiver Operating Characteristics curve (AUC)를 채택하였다. Receiver Operating Characteristics(ROC)곡선은 분류 모델이 양의 데이터로 분류한 인스턴스 중 실제로 양의 데이터의 비율인 true positive rate(TPR)과 실제로는 음의 데이터이지만 양의 데이터로 분류된 인스턴스의 비율인 false positive rate(FPR)를 기반으로 그려진다.
성능/효과
GbH는 주어진 인스턴스들이 특정한 가우시안 분포를 따른다고 가정하며, 가우시안 분포의 통계량인 평균과 표준 편차를 이용하여 인터벌을 생성, 결합하여 H-RTGL을 얻는다. 결과적으로, GbH를 이용한 단일 분류기는 기존에 제안되었던 H-RTGL 기반의 분류 방법인 MbH와 GbH를 이용한 단일 분류기보다 개선된 분류 정확도를 보였으며, 분류 요인에 대한 해석 또한 가능했다.
또한, 기존에 제안되었던 MbH와 CbH를 이용한 단일 분류기와 비교했을 때, 개선된 AUC 값을 나타냄을 알 수 있었다. 결과적으로, 본 논문에서 제안한 단일 분류기가 높은 분류 정확도와 강건성(robustness) 까지 갖추고 있음을 검증할 수 있었다. 특히, 데이터 집합의 크기가 비교적 작은 편인 Iris 데이터 집합에서는 모든 목표 클래스에 대해 가장 좋은 AUC 값을 보였다.
다른 특성 값들에 비해, 특성 4에서 나타난 인터벌들의 값이 공통적으로 데이터 스케일(1-10)의 모든 값을 포함하여 매우 넓은 인터벌을 가짐을 확인할 수 있다. 이는 특성 4가 학습 데이터의 특정 패턴을 규정하는 데에 사용되고 있지 못하며, 데이터의 특성을 결정짓는 주요한 속성이 아님을 알 수 있다.
데이터가 분산되어 있는 정도를 반영할 수 있는 매개 변수 Nσ에 대해서도 데이터 집합에 따른 변화가 나타났다.
이를 통해, GbH 기반 단일 분류기가 복잡도가 높은 방법들과 비교하였을 때 분류 정확도의 측면에서 결코 부족하지 않음을 알 수 있었다. 또한, 기존에 제안되었던 MbH와 CbH를 이용한 단일 분류기와 비교했을 때, 개선된 AUC 값을 나타냄을 알 수 있었다. 결과적으로, 본 논문에서 제안한 단일 분류기가 높은 분류 정확도와 강건성(robustness) 까지 갖추고 있음을 검증할 수 있었다.
본 논문에서 제안하는 GbH를 이용한 단일 분류기는 높은 분류 정확도를 보장하면서도 분류 결과에 대한 해석이 함께 가능하다는 장점을 갖는다. 분류에 대한 해석은 DT와 같이 해석력을 제공하는 알고리즘을 사용하거나, 해석력을 제공하지 않는 방법들로부터 규칙을 추출하여 사용하는 방법이 있다[3].
실제로, 특성 4는 Marginal Adhesion으로서 추후 연구를 통해 악성 유방암의 유발 요인이 아님이 밝혀졌다. 이를 통해 GbH가 학습 데이터의 패턴을 올바르게 반영하고 있으며, GbH의 기반이 되는 인터벌이 분류 결과의 해석을 위한 규칙으로 사용될 수 있음을 추가로 확인할 수 있었다.
제안된 GbH를 이용한 단일 분류기는 Parzen, Naïve Parzen과 더불어 가장 높은 수준의 AUC 값을 가졌다. 이를 통해, GbH 기반 단일 분류기가 복잡도가 높은 방법들과 비교하였을 때 분류 정확도의 측면에서 결코 부족하지 않음을 알 수 있었다. 또한, 기존에 제안되었던 MbH와 CbH를 이용한 단일 분류기와 비교했을 때, 개선된 AUC 값을 나타냄을 알 수 있었다.
제안된 GbH를 이용한 단일 분류기는 Parzen, Naïve Parzen과 더불어 가장 높은 수준의 AUC 값을 가졌다.
결과적으로, 본 논문에서 제안한 단일 분류기가 높은 분류 정확도와 강건성(robustness) 까지 갖추고 있음을 검증할 수 있었다. 특히, 데이터 집합의 크기가 비교적 작은 편인 Iris 데이터 집합에서는 모든 목표 클래스에 대해 가장 좋은 AUC 값을 보였다.
특히, GbH 기반 단일 분류기 생성을 위해 소요되는 시간 T 값은 데이터 집합의 크기 변화에 따라 큰 변동이 없었으며, 이를 통해 빠른 시간에 제안된 알고리즘이 수행됨을 알 수 있었다.
후속연구
이와 같이 인터벌 생성을 위한 핵심 매개 변수인 v의 값을 변화시키면 생성되는 H-RTGL의 크기를 조절할 수 있으며, 목표 클래스의 데이터를 더 많이 포함시키는 분류기를 생성할 수 있다. 따라서, 본 논문에서는 v의 값을 점차 증가시키며 ROC 곡선을 그리되, 시험 데이터 중 목표 클래스의 데이터가 모두 포함되었다면 실험을 종료하였다.
본 논문에서 제안된 GbH는 비교적 간단한 매개 변수 조합을 통해 생성되었다. 따라서, 추후 연구로서 인터벌생성에 영향을 줄 수 있는 추가적인 매개 변수에 대한 탐색이 이루어질 수 있다. 또한, 사용할 분포의 수나 표준 편차에 대해서도 임의 탐색이 아니라 데이터의 패턴에 따른 탐색을 수행할 수 있는 방법론이나 k-means가 아닌 다른 군집화 방법 등을 함께 고려할 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
다중 분류란 무엇인가?
이러한 데이터를 분류하기 위한 방법으로 다루고자 하는 데이터에 존재하는 클래스의 수에 따라 단일 분류(One class classification)와 다중 분류(Multi-class classi-fication)를 고려할 수 있다[18]. 다중 분류는 데이터 집합이 다양한 클래스로 구성되며, 새로 발생하는 인스턴스가 여러 개의 클래스들 중 어떤 클래스의 데이터인지 예측하는 것이다[11]. 이를 위해 데이터 상에 존재하는 여러 클래스의 차이점을 이용하여 분류의 기준이 되는 분류기를 생성한다.
최근 산업 현장에서 품질 관리를 위해 불균형 데이터(imbalanced data)를 고려해야 하는 이유는 무엇인가?
최근 산업 현장에서 품질 관리를 위해 고려해야 하는 가장 큰 이슈 중 하나는 불균형 데이터(imbalanced data)이다. 그 이유는 기술의 발달과 고도로 발전하는 품질 관리 기법들로 인해 불량률은 매우 적은 수준으로 줄어들었으며, 공정에서 발생하는 데이터에는 불량 데이터가 거의 존재하지 않게 되었기 때문이다. 즉, 하나의 클래스(양품)가 다른 클래스(불량품)에 비해 매우 크기 때문에 불균형 데이터가 된다.
불균형 데이터에 다중 분류를 이용한 접근을 하면 어떤 결과가 발생하는가?
그러나 만일 불균형 데이터에 대해 다중 분류를 이용한 접근을 고려한다면 클래스와 다른 클래스 간의 차이를 통해 분류기를 학습하는 특성에 의해 분류기를 생성하기 위해 보다 많은 연산이 요구되고 분류기의 정확도가 떨어진다. 따라서, 불균형 데이터에 대해서는 검출하고자 하는 대상 클래스에 대해 면밀한 학습을 통해 분류기를 생성하는 단일 분류를 통한 접근이 더 적합하다.
참고문헌 (18)
Asuncion, A. and Newman, D., UCI machine learning repository, http://www.ics.uci.edu/-mlearn/MLRepository.html.
Baehrens, D., Schroeter, T., Harmeling, S., Kawanabe, M., Hansen, K., and Muller, K.R., How to explain individual classification decisions, The Journal of Machine Learning Research, 2010, Vol. 11, pp. 1803-1831.
Barakat, N. and Bradley, A.P., Rule extraction from support vector machines : a review, Neurocomputing, 2010, Vol. 74, No. 1-3, pp. 178-190.
De Comite, F., Denis, F., Gilleron, R., and Letouzey, F., Positive and unlabeled examples help learning, Proceedings of International Conference on Algorithmic Learning Theory, 1999, Berlin, Germany, pp. 219-230.
De Ridder, D., Tax, D., and Duin, R.P., An experimental comparison of one-class classification methods, the 4th Annual Conference of the Advanced School for Computing and Imaging, 1998, Delft, Netherlands.
Desir, C., Bernard, S., Petitjean, C., and Heutte, L., A random forest based approach for one class classification in medical imaging, Machine Learning in Medical Imaging, Lecture Notes in Computer Science, 2012, Vol. 7588, pp. 250-257.
Hempstalk, K., Frank, E., and Witten, I.H., One-class classification by combining density and class probability estimation, Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2008, Berlin, Germany, pp. 505-519.
Jeong, I.K. and Choi, J.Y., Design of One-Class Classifier Using Hyper-Rectangles, Journal of the Korean Institute of Industrial Engineers, 2015, Vol. 41, No. 5, pp. 439-446.
Juszczak, P., Tax, D.M., Pe, E., and Duin, R.P., Minimum spanning tree based one-class classifier, Neurocomputing, 2009, Vol. 72, No. 7-9, pp. 1859-1869.
Kang, B.S. and Kim, S.S., Combined Artificial Bee Colony for Data Clustering, Journal of Society of Korea Industrial and Systems Engineering, 2017, Vol. 40, No. 4, pp. 203-210.
Letouzey, F., Denis, F., and Gilleron, R., Learning from positive and unlabeled examples, Proceedings of 10th International Conference on Algorithmic Learning Theory, Berlin, German, 2000, pp. 71-85.
Park, Y.J., Kim, G.Y., and Jang, S.W., Traffic Anomaly Identification Using Multi-Class Support Vector Machine, Journal of the Korea Academia-Industrial Cooperation Society, 2013, Vol. 14, No. 4, pp. 1942-1950.
Scholkopf, B., Williamson, R., Smola, A., Taylor, J.S., and Platt, J., Support vector method for novelty detection, Advances in Neural Information Processing Systems, 2000, Vol. 12, pp. 582-588.
Tarassenko, L., Hayton, P., Cerneaz, N., and Brady, M., Novelty detection for the identification of masses in mammograms, 4th International Conference on Artificial Neural Networks, 1995, pp. 442-447.
Tax, D.M.J. and Duin, R.P.W., Data domain description using support vectors, Proceedings of European Symposium on Artificial Neural Networks, 1999a, Brussels, Belgium, pp. 251-256.
Tax, D.M.J. and Duin, R.P.W., Support vector domain description, Pattern Recognition Letters, 1999b, Vol. 20, pp. 1191-1199.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.