[국내논문]베이지언 문서분류시스템을 위한 능동적 학습 기반의 학습문서집합 구성방법 An Active Learning-based Method for Composing Training Document Set in Bayesian Text Classification Systems원문보기
기계학습 기법을 이용한 문서분류시스템의 정확도를 결정하는 요인 중 가장 중요한 것은 학습문서 집합의 선택과 그것의 구성방법이다. 학습문서집합 선택의 문제란 임의의 문서공간에서 보다 정보량이 큰 적은 양의 문서집합을 골라서 학습문서로 채택하는 것을 말한다. 이렇게 선택한 학습문서집합을 재구성하여 보다 정확도가 높은 문서분류함수를 만드는 것이 학습문서집합 구성방법의 문제이다. 전자의 문제를 해결하는 대표적인 알고리즘이 능동적 학습(active learning) 알고리즘이고, 후자의 경우는 부스팅(boosting) 알고리즘이다. 본 논문에서는 이 두 알고리즘을 Naive Bayes 문서분류 알고리즘에 적응해보고, 이때 생기는 여러 가지 특징들을 분석하여 새로운 학습문서집합 구성방법인 AdaBUS 알고리즘을 제안한다. 이 알고리즘은 능동적 학습 알고리즘의 아이디어를 이용하여 최종 문서분류함수룰 만들기 위해 임시로 만든 여러 임시 문서분류함수(weak hypothesis)들 간의 변이(variance)를 높였다. 이를 통해 부스팅 알고리즘이 효과적으로 구동되기 위해 필요한 핵심 개념인 교란(perturbation)의 효과를 실현하여 문서분류의 정확도를 높일 수 있었다. Router-21578 문서집합을 이용한 경험적 실험을 통해, AdaBUS 알고리즘이 기존의 알고리즘에 비해 Naive Bayes 알고리즘에 기반한 문서분류시스템의 정확도를 보다 크게 향상시킨다는 사실을 입증한다.
기계학습 기법을 이용한 문서분류시스템의 정확도를 결정하는 요인 중 가장 중요한 것은 학습문서 집합의 선택과 그것의 구성방법이다. 학습문서집합 선택의 문제란 임의의 문서공간에서 보다 정보량이 큰 적은 양의 문서집합을 골라서 학습문서로 채택하는 것을 말한다. 이렇게 선택한 학습문서집합을 재구성하여 보다 정확도가 높은 문서분류함수를 만드는 것이 학습문서집합 구성방법의 문제이다. 전자의 문제를 해결하는 대표적인 알고리즘이 능동적 학습(active learning) 알고리즘이고, 후자의 경우는 부스팅(boosting) 알고리즘이다. 본 논문에서는 이 두 알고리즘을 Naive Bayes 문서분류 알고리즘에 적응해보고, 이때 생기는 여러 가지 특징들을 분석하여 새로운 학습문서집합 구성방법인 AdaBUS 알고리즘을 제안한다. 이 알고리즘은 능동적 학습 알고리즘의 아이디어를 이용하여 최종 문서분류함수룰 만들기 위해 임시로 만든 여러 임시 문서분류함수(weak hypothesis)들 간의 변이(variance)를 높였다. 이를 통해 부스팅 알고리즘이 효과적으로 구동되기 위해 필요한 핵심 개념인 교란(perturbation)의 효과를 실현하여 문서분류의 정확도를 높일 수 있었다. Router-21578 문서집합을 이용한 경험적 실험을 통해, AdaBUS 알고리즘이 기존의 알고리즘에 비해 Naive Bayes 알고리즘에 기반한 문서분류시스템의 정확도를 보다 크게 향상시킨다는 사실을 입증한다.
There are two important problems in improving text classification systems based on machine learning approach. The first one, called "selection problem", is how to select a minimum number of informative documents from a given document collection. The second one, called "composition problem", is how t...
There are two important problems in improving text classification systems based on machine learning approach. The first one, called "selection problem", is how to select a minimum number of informative documents from a given document collection. The second one, called "composition problem", is how to reorganize selected training documents so that they can fit an adopted learning method. The former problem is addressed in "active learning" algorithms, and the latter is discussed in "boosting" algorithms. This paper proposes a new learning method, called AdaBUS, which proactively solves the above problems in the context of Naive Bayes classification systems. The proposed method constructs more accurate classification hypothesis by increasing the valiance in "weak" hypotheses that determine the final classification hypothesis. Consequently, the proposed algorithm yields perturbation effect makes the boosting algorithm work properly. Through the empirical experiment using the Routers-21578 document collection, we show that the AdaBUS algorithm more significantly improves the Naive Bayes-based classification system than other conventional learning methodson system than other conventional learning methods
There are two important problems in improving text classification systems based on machine learning approach. The first one, called "selection problem", is how to select a minimum number of informative documents from a given document collection. The second one, called "composition problem", is how to reorganize selected training documents so that they can fit an adopted learning method. The former problem is addressed in "active learning" algorithms, and the latter is discussed in "boosting" algorithms. This paper proposes a new learning method, called AdaBUS, which proactively solves the above problems in the context of Naive Bayes classification systems. The proposed method constructs more accurate classification hypothesis by increasing the valiance in "weak" hypotheses that determine the final classification hypothesis. Consequently, the proposed algorithm yields perturbation effect makes the boosting algorithm work properly. Through the empirical experiment using the Routers-21578 document collection, we show that the AdaBUS algorithm more significantly improves the Naive Bayes-based classification system than other conventional learning methodson system than other conventional learning methods
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 중에서도 기계학습기법은 최근까지 매우 활발한 연구가 진행되고 있으며, 문서분류시스템의 문서분류 정확도(accuracy)를 크게 향상시키는데 기여하고 있다. 본 논문에서는 기계학습기법 올 이용한 문서분류의 문제를 다룬다. 이 기법에서는 학습 방법이 문서분류의 정확도를 크게 좌우하기 때문에 이에 대한 연구는 문서분류의 문제에 있어 상당히 중요하다.
본 논문에서는 학습문서집합 구성방법의 대표적인 방법인 능동적 학습 알고리즘과 부스팅 알고리즘을 다룬다. 전자는 학습문서를 선택하는데 초점을 맞춘 알고리즘이고, 후자는 학습문서집합을 재구성하여 더욱 정확도가 큰 문서분류함수를 만들어내기 위한 알고리즘이다.
그리고 이때 생기는 여러 가지 이슈들을 분석하여, 새로운 학습문서집합 구성 방법인 AdaBUS(Adaptive Boosting with Uncertaintybased Sampling) 알고리즘을 제안한다. 이 알고리즘은 보다 더 적은 학습문서로 문서분류시스템의 정확도를 높이는 것을 목표로 한다.
이를 자세히 살펴보자. 먼저 전체문서 집합으로부터 일정한 개수의 문서를 선택한 후에 이에 대한 카테고리를 전문가가 부여하여 학습문서집합을 구성한다.
본 논문은 Naive Bayes 문서분류 알고리즘에 제공하는 학습문서집합을 지능적으로 구성하여 Naive Bayes 문서분류 알고리즘이 추정하는 문서분류함수의 문서분류 정확도를 보다 향상시키는 것을 목표로 한다.
첫째는 전체 문서집합으로부터 학습문서집합을 골라내는 작업이다. 둘째는 그리고 이렇게 주어진 학습문서집합을 재구성하여 문서분류 추정 알고리즘에 제공하는 것이다. 셋째는 이러한 과정을 여러 번 거쳐 여러 개의 문서분류함수들을 만든 후에 이들을 이용하여 하나의 새로운 문서분류함수를 만드는 것이다.
이를 통해 문서분류함수의 정확도를 높이는 것이 이 알고리즘의 목적이다.
본 절에서는 321절에서 개략적으로 설명한 불확실성 기반 샘플링 알고리즘올 자세히 살펴본다. 그림 4는 이 알고리즘의 의사코드를 보여준다.
불확실성은 문서의 카테고리를 예측하고, 이 예측에 대한 확신을 수치로 나타낼 수 있는 문서분류 알고리즘에서는 모두 정의가 가능하다. 여기서는 Naive Bayes 문서분류 알고리즘에서 불확실성을 측정하는 두 가지 측정치를 소개한다.
첫 번째로 신뢰도(confidence) 측정치를 살펴보자. 문서 人가 카테고리 g로 할당되는 경우의 신뢰도는 다음과 같이 정의된다[4, 8].
무작위 샘플링이란 라벨이 없는 문서집합으로부더 임의로 문서를 선택하여 학습문서를 추가하는 방법을 말한다. 이제 각 알고리즘의 실험결과를 차례대로 분석해보자.
이제 불확실성 기반 샘플링 알고리즘의 결과를 살펴보자. 이 알고리즘은 무작위 샘플링보다 분류정확도 면에서 우수하다.
마지막으로 AdaBUS 알고리즘의 실험결과를 살펴보자. 그림 13에서 볼 个 있듯이, AdaBUS 알고리즘의 문서분류 정확도는 모든 알고리즘 중 가장 높다 그 이유는 4.
요인이다. 본 논문에서는 문서분류함수 추정 알고리즘인 Naive Bayes 문서분류 알고리즘에 기존의 학습문서집합 구성방법울 적용해본 후에 그들의 장단점을 분석하여 AdaBUS 알고리즘이라는 새로운 학습문서집합 구성방법을 제안하였다. 그리고 실험을 통해 AdaBUS 알고리즘을 적용한 Naive Bayes 문서분류시스템의 정확도가 다른 알고리즘을 적용한 것에 비해 높다는 사실을 입증하였다.
가설 설정
청의 2. 문서집합 본 논문에서 가정하는 문서분류시스템에서는, 시스템 내에 수 많은 문서가 존재한다고 가정한다 문서집합은 문서분류함수를 형성하는 기초가 되고 문서 분류시스템 의 정 확도를 측정 하는데 사용되는 시스템내의 모든 문서들의 집합이다. 문서분류함수를 만드는데 사용되는 문서집합올 학습문서집합이라 하고, 정확도 측정에 사용되는 문서집합올 테스트 문서집합이라고 한다.
따라서 P(x\c) 는 다시 P(<W1, W2, …, Sxl>IQ로 나타낼 수 있다. Naive Bayes 문서분류 알고리즘은 P(<wi, W2, …, lSx|기 Q의 계산을 좀 더 쉽게 하기 위해, 문서 내에 존재하는 모든 단어들인 Wl, W2, I仞如가 서로 독립 (independent)이고, 문서 내의 단어 위치와 그 단어의 출현 확률사이에도 독립성이 존재한다고 가정한다. 이 가정에 따르면 는 다음과 같은 식으로 표현된다.
3.3.1 절에서 보았듯이 부스팅 알고리즘의 핵심은 교란과 합성이다、특히 교란이 적절히 실현되지 않으면, 부스팅 알고리즘의 효과논 기대할 수가 없다. 皿란이 적절히 실현된다는 말의 의미는 만들어낸 여러 개의 임시 문서분류함수 돌 간의 이질성이 크다라는 것을 말한다.
제안 방법
이 두 가지 유형의 학습 알고리즘을 Naive Bayes 문서분류 알고리즘에 적용해본다. 그리고 이때 생기는 여러 가지 이슈들을 분석하여, 새로운 학습문서집합 구성 방법인 AdaBUS(Adaptive Boosting with Uncertaintybased Sampling) 알고리즘을 제안한다. 이 알고리즘은 보다 더 적은 학습문서로 문서분류시스템의 정확도를 높이는 것을 목표로 한다.
3장에서는 문서분류의 정확도를 높이는데 중요한 요소로 작용하는 학습문서집합 구성방법에 대해 논한다. 대표적인 학습문서집합 구성방법인 부스팅 알고리즘과 능동적 학습 알고리즘을 Naive Bayes 문서분류 알고리즘에 적용하는 방법을 살펴보고, 각 방법의 특성과 한계를 논한다. 4장에서는 3장에서 수행한 분석을 토대로 새로운 학습문서집합 구성 방법론인 AdaBUS 알고리즘을 소개한다.
이 장에서는 기계학습 기반 문서분류시스템의 시스템흐름도와 그 구성요소들을 살펴보고, 본 논문에서 문서분류함수 추정 알고리즘으로 선택한 Naive Bayes 문서분류 알고리즘의 정의와 특징에 대하여 살펴본다.
이를 자세히 살펴보자. 먼저 전체문서 집합으로부터 일정한 개수의 문서를 선택한 후에 이에 대한 카테고리를 전문가가 부여하여 학습문서집합을 구성한다. 이를 학습문서집합 구성방법을 통해 재구성하여 문서분류함수 추정 알고리즘에 제공한다.
먼저 전체문서 집합으로부터 일정한 개수의 문서를 선택한 후에 이에 대한 카테고리를 전문가가 부여하여 학습문서집합을 구성한다. 이를 학습문서집합 구성방법을 통해 재구성하여 문서분류함수 추정 알고리즘에 제공한다. 이때 최종적인 문서분류함수가 만들어진다.
2.1 절에서 학습문서집합 구성방법의 개략적인 정의를 다루었다 여기서는 이를 좀 더 구체적으로 살펴본다. 학습문서집 합 구성방법이 란 학습문서집 합과 문서 분류함수 추정 알고리즘을 이용하여 문서분류함수를 만들어내는 일련의 알고리즘을 의미한다.
이제 다음 절에서는 학습문서집합 구성방법의 대표적인 두 알고리즘인 능동적 학습 알고리즘과 부스팅 알고리즘에 대하여 살펴본다.
두 번째로 평균절대편차 (MAD, Mean Absolute Deviation)# 이용한 불확실성 측정치를 알아보자[4丄 이 측정치에서는 앞에서 정의한 P(clx)의 값들이 그 값들의 평균(卫)과 얼마나 떨어져 있는지를 이용하여 불확실성을 측정한다. 이는 다음과 같이 정의된다.
그리고 각 카테고리로부터 30개의 문서를 임의로 선택하여 총 210개의 테스트 문서집합을 구성하였고, 나머지 1453개의 문서로는 라벨이 없는 문서집합을 구성하였다. 실험의 공정성을 위하여 이러한 데이타 집합 구성을 임의로 10회 구성하여 실험을 실시하였다.
일반적으로 문서 분류의 성능을 높이고 분류 계산시간을 줄이기 위하여 본 실험에서는 속성집합선택을 수행한다. [19] 에서는 이것을 위한 대표적인 방법인 문서빈도 (document frequency), 정 보이 득량 (information gain), 캬이제곱통계량(-statistics), 상호정보량(mutual information) 그리고 용어강도(term strength)를 기준값으로 한 방법을 소개하였고, 그것들의 성능을 비교하였다.
희귀한 단어는 문서 분류를 하는데 있어 정보를 거의 제공하지 못한다는 것이 이 방법의 기본적인 가정이므로, 이 방법은 문서빈도가 높은 것을 우선하여 속성으로 선택한다. 본 논문에서는 학습 문서 집합 내의 각 단어들에 대하여 문서빈도를 계산한 후에, 이 수치로 단어들의 순위를 부여하여 상위 30%인 것들만 속성으로 선택하였다.
모든 카테고리에 대한 평균적인 성능올 평가하기 위해 여기서는 macro-averaging 방법을 이용한다. 이 빙시에서는 각 카테고리 별로 recall, precision, F\ 측정치 등을 계산하고 이들의 평균을 계산하여 전체적인 문서분류시스템의 성능을 평가한다.
대상 데이터
표 1에서 볼 수 있듯이 전체 7개의 카테고리가 실험에 쓰였으며, 각 카테고리에서 5개의 문서를 임의로 선택하여 총 35개의 초기 학습문서집합을 구성하였다. 그리고 각 카테고리로부터 30개의 문서를 임의로 선택하여 총 210개의 테스트 문서집합을 구성하였고, 나머지 1453개의 문서로는 라벨이 없는 문서집합을 구성하였다.
그리고 각 카테고리로부터 30개의 문서를 임의로 선택하여 총 210개의 테스트 문서집합을 구성하였고, 나머지 1453개의 문서로는 라벨이 없는 문서집합을 구성하였다. 실험의 공정성을 위하여 이러한 데이타 집합 구성을 임의로 10회 구성하여 실험을 실시하였다.
이론/모형
전자는 학습문서를 선택하는데 초점을 맞춘 알고리즘이고, 후자는 학습문서집합을 재구성하여 더욱 정확도가 큰 문서분류함수를 만들어내기 위한 알고리즘이다. 이 두 가지 유형의 학습 알고리즘을 Naive Bayes 문서분류 알고리즘에 적용해본다. 그리고 이때 생기는 여러 가지 이슈들을 분석하여, 새로운 학습문서집합 구성 방법인 AdaBUS(Adaptive Boosting with Uncertaintybased Sampling) 알고리즘을 제안한다.
본 연구에서는 문서분류시스템을 구성하고 이것의 분류 정확도롤 측정하기 위해서 Reuter-21578 문서집합을 이용하였다. 이 문서집합은 일반적으로 문서분류시스템 올 평가하기 위한 실험에서 많이 사용된다[18].
본 실험에서는 [19] 의 실험결과를 반영하여 시간적으로 효율성이 좋으면서 분류성능을 높이는 그 결과 앞의 세 방법이 상대적으로 효과적임을 밝혔다. 여기서는 문서빈도를 기준값으로 한 속성선택 기법을 사용 방법을 사용하였다. 앞에서 소개한 5가지 속성집합선택 방법들을 Naive Bayes 문서 분류기에 적용한 결과, [32] 에서와 같이 앞의 세 방법의 성능이 비슷하게 효과적인것으로 밝혀졌다.
. 모든 카테고리에 대한 평균적인 성능올 평가하기 위해 여기서는 macro-averaging 방법을 이용한다. 이 빙시에서는 각 카테고리 별로 recall, precision, F\ 측정치 등을 계산하고 이들의 평균을 계산하여 전체적인 문서분류시스템의 성능을 평가한다.
성능/효과
3.2, 3.3절에서 소개한 능동적 학습 알고리즘과 부스팅 알고리즘은 모두 문서분류함수의 정확도를 높이기 위한 알고리즘이다. 이번 절에서는 이 두 알고리즘의 장점을 모두 수용한 알고리즘을 제시한다.
이 알교리줗의 문서분류 정확도는 예상 대로 좋지 않다. 2.2 절에서 언급했듯이, Naive Bayes 문서분류 알고리즘은 상당히 안정적인 알고리즘이기 때문에 AdaBoost 알고리즘 올 적용해도 교란의 효과를 얻을 수가 없다. 이러한 이유 때문에 그림에서 보듯이 AdaBoost 알고리즘을 적용하지 않은 무작위 샘플링의 결과보다 AdaBoost 알고리즘 올 적용한 문서분류 알고리즘의 결과가 좋지 않다.
이 알고리즘은 무작위 샘플링보다 분류정확도 면에서 우수하다. 그 이유는 불확실성 기반 샘플링 알고리즘율 이용해서 선택한 문서들이 임의로 선택한 문서들보다 활씬 정보량이 크기 때문으로 분석된다[4L 불확실성 기반 샘플링 알고리즘을 적용함으로써 보다 적은 학습믄서룰 통해 보다 정확한 문서분류함수를 얻을 수 있다는 사실을 실험결과를 통해 확인할 수 있다.
그림에서 볼 수 있듯이 항상 AdaBUS가 만들어 내는 임시 문서분류함수들 간의 변이가 더 크다는 것을 알 수 있다. 이를 통해 AdaBUS 알고리즘은 Naive Bayes 문서분류 알고리즘이 갖고 있는 안정적인 특성을 극복한 것을 확인할 수 있다.
대부분의 경우 AdaBUS 알고리즘의 임시 문서분류함수들의 평균 Fi 측정치가 크다는 것을 알 수 있다. 임시 문서분류함수들 간의 변이와 이들의 평균 Fi 측 정치면에서 AdaBUS 알고리즘이 AdaBoost 알고리즘보다 크기 때문에 최종 문서분류함수의 정확도면에서 AdaBUS 알고리즘이 AdaBoost 알고리즘보다 높은 것으로 분석된다.
본 논문에서는 문서분류함수 추정 알고리즘인 Naive Bayes 문서분류 알고리즘에 기존의 학습문서집합 구성방법울 적용해본 후에 그들의 장단점을 분석하여 AdaBUS 알고리즘이라는 새로운 학습문서집합 구성방법을 제안하였다. 그리고 실험을 통해 AdaBUS 알고리즘을 적용한 Naive Bayes 문서분류시스템의 정확도가 다른 알고리즘을 적용한 것에 비해 높다는 사실을 입증하였다. AdaBUS 알고리즘을 이용한 문서분류시스템온 보다 적은 수의 학습문서로 보다 높은 정확도의 문서분류 결과를 얻을 수 있었다.
그리고 실험을 통해 AdaBUS 알고리즘을 적용한 Naive Bayes 문서분류시스템의 정확도가 다른 알고리즘을 적용한 것에 비해 높다는 사실을 입증하였다. AdaBUS 알고리즘을 이용한 문서분류시스템온 보다 적은 수의 학습문서로 보다 높은 정확도의 문서분류 결과를 얻을 수 있었다.
후속연구
학습문서집합의 구성 방법과 관련하여 학습문서 선택의 문제 외에도 선택한 학습문서 집합의 재구성 문제도 문서분류의 성능에 큰 영향을 미친다. 주어진 학습문서집합을 있는 그대로 이용하여 문서분류함수를 만들 수도 있으나, 이를 지능적으로 재구성하여 이용하면 보다 더 정확한 문서분류함수를 얻을 수 있을 것이다.
합성은 이들 임시문서분류 함수들을 합쳐서 하나의 최종 문서분류함수를 만드는 과정이다. 교란이 적절히 이루어져서 서로 이질적인 함수들이 만들어져야만 합성의 결과로 만뜰어진 최종문서분류함수의 문서분류 정확도의 향상을 기대할 수 있다. 그림 6은 이러한 개념올 도식화한 것이다.
향후 연구과제로는 AdaBUS 알고리즘의 우수성을 수학적으로 분석해보는 방안을 생각할 수 있다. 본 논문에서는 AdaBUS 알고리즘이 다른 알고리즘에 비해 문서분류함수의 정확도를 높여준다는 사실을 경험적인 실험에 의해 증명하였는데, 향후 이를 수학적으로 입증한다면 AdaBUS 알고리즘의 우수성을 보다 공정하고 정확하게 평가할 수 있을 것이다.
분석해보는 방안을 생각할 수 있다. 본 논문에서는 AdaBUS 알고리즘이 다른 알고리즘에 비해 문서분류함수의 정확도를 높여준다는 사실을 경험적인 실험에 의해 증명하였는데, 향후 이를 수학적으로 입증한다면 AdaBUS 알고리즘의 우수성을 보다 공정하고 정확하게 평가할 수 있을 것이다. 또한 본 논문에서는 AdaBUS 알고리즘을 Naive Bayes 문서분류 알고리즘에 적용하였지만 이를 최근 들어 문서분류시스템을 구성하는데 자주 사용되고 있는 SVM 알고리즘 등에 적용해 보는 것도 홍미로운 작업이 될 것이다.
본 논문에서는 AdaBUS 알고리즘이 다른 알고리즘에 비해 문서분류함수의 정확도를 높여준다는 사실을 경험적인 실험에 의해 증명하였는데, 향후 이를 수학적으로 입증한다면 AdaBUS 알고리즘의 우수성을 보다 공정하고 정확하게 평가할 수 있을 것이다. 또한 본 논문에서는 AdaBUS 알고리즘을 Naive Bayes 문서분류 알고리즘에 적용하였지만 이를 최근 들어 문서분류시스템을 구성하는데 자주 사용되고 있는 SVM 알고리즘 등에 적용해 보는 것도 홍미로운 작업이 될 것이다.
참고문헌 (19)
Tom M. Mitchell. Machine Learning. McGraw-Hill International Editions, chapter 6, 1997
R. Agrawal, R. Bayardo, and R. Srikant. Athena: Mining-based Interactive Management of Text Databases. In Proceedings of the 7th International Conference on Extending Database Technology, pages 365-379, 2000
Pedro Domingos and Michael Pazzani. Beyond Independence: Conditions for the Optimality of the Simple Bayesian Classifier. In Proceedings of the 13th International Conference on Machine Learning, pages 105-112, 1996
김제욱, 김한준, 이상구, Naive Bayes 문서 분류기를 위한 점진적 학습 모델 연구, 정보기술과 데이타베이스 저널, 8(1), pages 95-104, 2001
David D. Lewis and William A. Gale. A Sequential Algorithm for Training Text Classifiers. In Proceedings of the 17th Annual International ACMSIGIR Conference on Research and Development in Information Retrieval, pages 3-12, 1994
Yoav Freund and Robert E. Schapire. Experiments with a New Boosting Algorithm. In Proceedings of the 13th International Conference on Machine earning, pages 148-156, 1996
David D. Lewis and Jason Catlett. Heterogeneous Uncertainty Sampling for Supervised Learning. In Proceedings of the 11th international Conference on Machine Learning, pages 148-156, 1994
M. Trensh, N. Palmer, and A. Luniewski. Type Classification of Semi-structured Documents. In Proceedings of the 21st ACM SIGMOD International Conference on Management of Data, 1995
Yoav Freund and Robert E. Schapire, A Decisiontheoretic Generalization of On-line Learning and an Application to Boosting. Journal of Computer and System Sciences, 55(1), pages 119-139, 1997
Kai Ming Ting and Zijian Zheng. Improving the Performance of Boosting for Naive Bayesian Classification. In Proceedings of the 3rd Pacific-Asia Conference on Knowledge Discovery and Data Mining, 1999
Zijian Zheng. Naive Bayesian Classifier Committees. In Proceedings of European Conference on Machine Learning, pages 196-207, 1998
Ron Kohavi, David H. Wolpert. Bias Plus Variance Decomposition for Zero-One Loss Functions. In Proceedings of the 13th International Conference on Machine Learning, pages 275-283, 1996
Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information Retrieval, 1(1), pages 67-88, 1999
Yiming Yang and J. O. Pedersen. A Comparative Study on Feature Selection in Text Categorization. In Proceedings of the 14th International Conference on Machine Learning, pages 42-420, 1997
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.