자질 선택은 기계학습을 이용한 분류기의 학습에 있어서 가장 중요한 과정 중의 하나로 분류기의 성능에 결정적인 영향을 미친다. 자질 선택은 사용할 분류기를 어떻게 이용하는가에 따라서 필터 기반 방법과 래퍼 기반 방법으로 나뉜다. 필터 기반 방법은 사용할 분류기에 상관없이 데이터의 내재된 특징을 이용하여 자질을 선택하고, 래퍼 기반 방법은 분류기를 직접 이용한다. 일반적으로 래퍼 기반 방법은 분류기에 최적화된[biased] 자질을 선택하기 때문에 필터 기반 방법보다 성능이 좋다. 하지만 래퍼 기반 방법은 분류기의 학습과 평가를 여러 번 반복해야 하므로 계산 비용이 크다. 한편, ...
자질 선택은 기계학습을 이용한 분류기의 학습에 있어서 가장 중요한 과정 중의 하나로 분류기의 성능에 결정적인 영향을 미친다. 자질 선택은 사용할 분류기를 어떻게 이용하는가에 따라서 필터 기반 방법과 래퍼 기반 방법으로 나뉜다. 필터 기반 방법은 사용할 분류기에 상관없이 데이터의 내재된 특징을 이용하여 자질을 선택하고, 래퍼 기반 방법은 분류기를 직접 이용한다. 일반적으로 래퍼 기반 방법은 분류기에 최적화된[biased] 자질을 선택하기 때문에 필터 기반 방법보다 성능이 좋다. 하지만 래퍼 기반 방법은 분류기의 학습과 평가를 여러 번 반복해야 하므로 계산 비용이 크다. 한편, 마이크로어레이 데이터는 자질의 개수가 수천 개 이상으로 래퍼 기반 방법을 적용하기가 어렵고, 표본의 크기가 작아서 자질 선택 과정에서 쉽게 과대적합(overfitting)이 될 수 있다. 본 논문에서는 마이크로어레이 데이터를 위한 대응표본 t-검정 기반의 효율적인 래퍼 기반 방법을 제안한다. 제안하는 방법인 ERPT(Efficient wRapper based on Paired t-Test)는 강한 관련성의 자질을 선택하는 감소(decrement)과정과 약한 관련성의 자질을 선택하는 증가(increment)과정으로 구성된다. ERPT는 자질공간의 탐색 없이 자질을 통계적인 방법으로 선택하며, 시간 복잡도가 작아서 자질이 많은 데이터에 적용이 가능하다. 특히, ERPT는 마이크로어레이 데이터와 같이 작은 표본 문제(small sample problem)를 가지고 있는 데이터에 대해서 다른 방법에 비해 좋은 성능을 보인다. 실험을 통해서 ERPT의 성능이 다른 방법과 비슷한 성능을 가짐을 보이고, 자질의 개수가 크고 표본의 크기가 작은 마이크로어레이 데이터에 대한 성능을 다른 자질 선택 방법과 비교한다.
자질 선택은 기계학습을 이용한 분류기의 학습에 있어서 가장 중요한 과정 중의 하나로 분류기의 성능에 결정적인 영향을 미친다. 자질 선택은 사용할 분류기를 어떻게 이용하는가에 따라서 필터 기반 방법과 래퍼 기반 방법으로 나뉜다. 필터 기반 방법은 사용할 분류기에 상관없이 데이터의 내재된 특징을 이용하여 자질을 선택하고, 래퍼 기반 방법은 분류기를 직접 이용한다. 일반적으로 래퍼 기반 방법은 분류기에 최적화된[biased] 자질을 선택하기 때문에 필터 기반 방법보다 성능이 좋다. 하지만 래퍼 기반 방법은 분류기의 학습과 평가를 여러 번 반복해야 하므로 계산 비용이 크다. 한편, 마이크로어레이 데이터는 자질의 개수가 수천 개 이상으로 래퍼 기반 방법을 적용하기가 어렵고, 표본의 크기가 작아서 자질 선택 과정에서 쉽게 과대적합(overfitting)이 될 수 있다. 본 논문에서는 마이크로어레이 데이터를 위한 대응표본 t-검정 기반의 효율적인 래퍼 기반 방법을 제안한다. 제안하는 방법인 ERPT(Efficient wRapper based on Paired t-Test)는 강한 관련성의 자질을 선택하는 감소(decrement)과정과 약한 관련성의 자질을 선택하는 증가(increment)과정으로 구성된다. ERPT는 자질공간의 탐색 없이 자질을 통계적인 방법으로 선택하며, 시간 복잡도가 작아서 자질이 많은 데이터에 적용이 가능하다. 특히, ERPT는 마이크로어레이 데이터와 같이 작은 표본 문제(small sample problem)를 가지고 있는 데이터에 대해서 다른 방법에 비해 좋은 성능을 보인다. 실험을 통해서 ERPT의 성능이 다른 방법과 비슷한 성능을 가짐을 보이고, 자질의 개수가 크고 표본의 크기가 작은 마이크로어레이 데이터에 대한 성능을 다른 자질 선택 방법과 비교한다.
Feature selection is one of the most crucial steps in machine learning. It influences the whole subsequent classification procedures. There are two kinds of approaches for this task according to how they use induction algorithms : filter-based and wrapper-based methods. In general, filter-based meth...
Feature selection is one of the most crucial steps in machine learning. It influences the whole subsequent classification procedures. There are two kinds of approaches for this task according to how they use induction algorithms : filter-based and wrapper-based methods. In general, filter-based methods require less computational effort than wrapper-based methods and yields less optimal results of classification performance. Microarray data generally contains tens of thousands of features and small sized of samples. Feature selection is not readily applicable microarray data because it has a tremendous features, and prone to overfitting. In this paper, we propose wrapper method, ERPT (Efficient wRapper based on Paired t-Test), based on statistical approach, without search procedures. ERPT is especially efficient and effective to microarray data. ERPT consists of two steps, ie,, decrement and increment step. At the decrement step, it selects positive strongly-relevant features using statistical test. Then, at the increment step, it adds weakly-relevant features, which significantly improves the performance of classifiers. Although ERPT does not deploy search procedures, it shows comparable classification performances with other wrapper-based methods. Especially, ERPT shows better performance on data sets which have small number of samples and huge feature sets. We have shown the classification performance and the time complexity of the proposed approach via a lot of experiments.
Feature selection is one of the most crucial steps in machine learning. It influences the whole subsequent classification procedures. There are two kinds of approaches for this task according to how they use induction algorithms : filter-based and wrapper-based methods. In general, filter-based methods require less computational effort than wrapper-based methods and yields less optimal results of classification performance. Microarray data generally contains tens of thousands of features and small sized of samples. Feature selection is not readily applicable microarray data because it has a tremendous features, and prone to overfitting. In this paper, we propose wrapper method, ERPT (Efficient wRapper based on Paired t-Test), based on statistical approach, without search procedures. ERPT is especially efficient and effective to microarray data. ERPT consists of two steps, ie,, decrement and increment step. At the decrement step, it selects positive strongly-relevant features using statistical test. Then, at the increment step, it adds weakly-relevant features, which significantly improves the performance of classifiers. Although ERPT does not deploy search procedures, it shows comparable classification performances with other wrapper-based methods. Especially, ERPT shows better performance on data sets which have small number of samples and huge feature sets. We have shown the classification performance and the time complexity of the proposed approach via a lot of experiments.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.