[논문]다중 분류기 시스템을 이용한 자동 문서 분류

김인철

doi:10.3745/kipstb.2004.11b.5.545

문제 정의

또 본 연구에서는 기존의 순수 Bagging, Boosting, Stacking 방식에서는 포함하고 있지 않은 분류기 생성과정의 편향성 (bias)이나 분류기 결합방식을 도입하여 새로운 다중 분류기 시스템들인 Stacked Bagging과 Stacked Boosting, 그리고 Bagged Stackin叩과 Boosted Stacking을 제안한다. 그리고 이러한 새로운 다중 분류기 시스템들을 문서 분류에 적용하여 문서 분류의 정확도를 높여 보려고 한다. 본 연구에서는 MEDLINE 학술 기사, 유즈넷 뉴스(Usenet news) 기사, 그리고 웹 문서 등의 문서집합을 이용한 문서 분류 실험을 통하여 기존 다중 분류기 시스템들과 본 연구에서 제안하는 새로운 다중 분류기 시스탬들의 분류 성능을 비교해본다.
또 본 연구에서는 기존의 순수 Bagging, Boosting, Stacking 방식에서는 포함하고 있지 않은 분류기 생성과정의 편향성 (bias)이나 분류기 결합방식을 도입하여 새로운 다중 분류기 시스템들인 Stacked Bagging과 Stacked Boosting, 그리고 Bagged Stackin叩과 Boosted Stacking을 제안한다. 그리고 이러한 새로운 다중 분류기 시스템들을 문서 분류에 적용하여 문서 분류의 정확도를 높여 보려고 한다. 본 연구에서는 MEDLINE 학술 기사, 유즈넷 뉴스(Usenet news) 기사, 그리고 웹 문서 등의 문서집합을 이용한 문서 분류 실험을 통하여 기존 다중 분류기 시스템들과 본 연구에서 제안하는 새로운 다중 분류기 시스탬들의 분류 성능을 비교해본다.
/개의 서로 다른 클래스들과 N'개의 데이터들로 구성된 훈련 데이터 집합 L =n =1, ・-, N'으로부터 K개의 서로 다른 기반 분류기들을 생성하였다고 가정호]■자. 그리고 훈련 데이터 각각에 대해 기반 분류기별로 그 데이터가 속할 클래스들의 확률분포를 다음과 같이 구해준다고 하자. F\m =(M1(X”),&(幻.
분류 성능을 비교해 보려고 하였다. 또 이 밖에도 메타 학습 알고리즘이 다중 분류기 시스탬들의 분류 성능에 어떤 영향을 주는 지도 함께 분석해보려고 하였다. 이와 같은 실험목적을 달성하기 위해 본 연구에서는 MEDLINE 학술 기사, 유즈넷 뉴스(Usenet news) 기사, 그리고 웹 문서 등을 실험용 문서 집합들로 사용하였다.
본 연구에서는 MEDLINE 학술 기사, 유즈넷 뉴스(Usenet news) 기사, 그리고 웹 문서 등의 문서집합을 이용한 문서 분류 실험을 통하여 기존 다중 분류기 시스템들과 본 연구에서 제안하는 새로운 다중 분류기 시스탬들의 분류 성능을 비교해본다. 또 이 밖에도 실험을 통해 메타 학습 알고리즘과 문서 모델이 다중 분류기 시스탬들의 분류 성능에 어떤 영향을 주는지도 함께 분석해 본다.
본 논문에서는 MEDLINE, 유즈넷 뉴스, 웹 문서 등의 문서집합을 이용한 문서 분류 실험들을 전개하여 새로운 다중 분류기 시스템들의 성능을 평가하였다. 그리고 이러한 실험결과를 통해 새로이 제안한 혼합형 다중 분류기 시스템들이 전반적으로 기존 시스템들보다 우수한 성능을 보인다는 것을 확인하였다.
이에 따라 문서의 자동 분류 (classification), 군집 화(clustering), 여과(filtering) 등과 같이 비정형 텍스트 데이터 조직을 통해 정보 접근 문제를 해결하려는 노력이 정보검색, 인공지능 분야에서 다양하게 수행되고 있다[2]. 본 논문에서는 다중 분류기 시스템(multiple classifier system)을 이용하여 문서 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험결과를 기술하였다.
그리고 이러한 새로운 다중 분류기 시스템들을 문서 분류에 적용하여 문서 분류의 정확도를 높여 보려고 한다. 본 연구에서는 MEDLINE 학술 기사, 유즈넷 뉴스(Usenet news) 기사, 그리고 웹 문서 등의 문서집합을 이용한 문서 분류 실험을 통하여 기존 다중 분류기 시스템들과 본 연구에서 제안하는 새로운 다중 분류기 시스탬들의 분류 성능을 비교해본다. 또 이 밖에도 실험을 통해 메타 학습 알고리즘과 문서 모델이 다중 분류기 시스탬들의 분류 성능에 어떤 영향을 주는지도 함께 분석해 본다.
본 연구에서는 문서 분류 실험을 통하여 Bagging, Boosting, Satcking과 같은 기존 다중 분류기 시스템들과 앞서 제안한 Stacked Bagging, Stacked Boosting, Bagged Stacking, Boosted Stacking 등 새로운 다중 분류기 시스탬들의 분류 성능을 비교해 보려고 하였다. 또 이 밖에도 메타 학습 알고리즘이 다중 분류기 시스탬들의 분류 성능에 어떤 영향을 주는 지도 함께 분석해보려고 하였다.

가설 설정

그리고 특히 본 연구에서는 각 문서 d는 오직 하나의 클래스에만 할당되는 것으로 가정한다. 따라서 일반적인 학습기반의 문서분류작업은 다음과 같이 정의 할 수 있다.
먼저 클래스들의 집합 C와 문서들의 집합 〃에 대해, 임의의 문서를 하나의 클래스에 대응시키는 하나의 목적함수(target function) 가 존재한다고 가정한다. 그리고 훈련 문서 집합 〃' UZ)에 속한 모든 문서 d들에 대해, 이들이 속한 클래스인 T(d) 는 이미 알고 있는 것으로 가정한다. 이때 우리는 교사학습(supervised learning)< 통해, 훈련 집합에 포함된 정보로부터 목적함수 T에 근사한 하나의 모델(model) 혹은 가설함수(hypothesis function) H: C 를 찾는다.
따라서 일반적인 학습기반의 문서분류작업은 다음과 같이 정의 할 수 있다. 먼저 클래스들의 집합 C와 문서들의 집합 〃에 대해, 임의의 문서를 하나의 클래스에 대응시키는 하나의 목적함수(target function) 가 존재한다고 가정한다. 그리고 훈련 문서 집합 〃' UZ)에 속한 모든 문서 d들에 대해, 이들이 속한 클래스인 T(d) 는 이미 알고 있는 것으로 가정한다.

제안 방법

시스템이다. Bagging과 Boostin吗이 서로 다른 훈련 데이터 집합들에 기초하여 분류기들을 생성하고 이들의 예측 .결과를 단순히 투표 방식으로 결합하는데 반해, Stackinge 서로 다른 학습 알고리즘들에 기초하여 분류기들을 생성하고 이들의 예측결과를 토대로 상위 단계에서 또 한번 학습하는 메타 학습기를 두어 최종 결과를 도줄한다.
정리하면 다음과 같다. Stacked Batinge (그림 4) 와같이 가중치를 적용한 부트스트랩 표본 추출법(weighted bootstrap sampling)을 통하여 훈련 문서 집합의 구성을 달리 하면서 기반 분류기들을 생성한 다음, 일정한 수의 문서 집합에 대한 각 기반 분류기의 예측 결과인 클래스 확률 분포를 생성한다. 그리고 이 클래스 확률분포를 메타 데이터로 삼아 상위 단계의 메타 분류기를 생성한다.
Bagging과 Boostin吗이 서로 다른 훈련 데이터 집합들에 기초하여 분류기들을 생성하고 이들의 예측 .결과를 단순히 투표 방식으로 결합하는데 반해, Stackinge 서로 다른 학습 알고리즘들에 기초하여 분류기들을 생성하고 이들의 예측결과를 토대로 상위 단계에서 또 한번 학습하는 메타 학습기를 두어 최종 결과를 도줄한다. 따라서 Stacking 방식의 다중 분류기 시스템은 하위의 기반 단계 (base level, level-0)와 상위의 메타 단계 (meta level, level-1) 등두 단계의 분류기들로 구성된다.
그런 다음 이렇게 가중치가 조정된 데이터 집합으로부터 부트스트랩 표본 추출을 적용하여 동일한 크기의 훈련데이터 집합을 확보한다. 그리고 이 새로운 훈련 데이터 집합으로부터 이전과 동일한 학습 알고리즘을 적용함으로써 또 다른 분류기를 유도해낸다. 이와 같은 과정은 훈련 데이터들에 대한 분류기의 분류 오류율(error) e가 0이 되거나 오히려 0.
이것을 메타 데이터들의 집합이라고 부른다. 그리고 이러한 메타 데이터들에 하나의 메타 학습 알고리즘을 적용함으로써 최종 클래스를 예측할 수 있는 메타 분류기 을 유도한다. 새로운 데이터를 분류하기 위해서는 각 기반 분류기 Mk7} 이 데이터에 대해 예측하는 클래스 확률 벡터 (如, …, /成, … Mm, …, 如7)를 구해주게 되고, 이것은 메타 분류기 의 입력으로 전달이 되어 최종 분류결과인 AT의 출력을 얻을 수 있다.
기존의 순수 Bagging과 Boostinge 기반 분류기들을 비교적 단순한 다수결 투표와 가중치 투표방법으로 결합한다. 본 연구에서 새로이 제안하는 다중 분류기 방식인 Stacked Bagging 과 Stacked Boosting 은 기존 Bagging 과 Boosting 에서 사용하는 투표기반의 분류기 결합방식을 유연성이 큰 Stacking의 메타 학습기 방식으로 교체, 확장한 것들이다.
기존의 순수 Stackinge 기반 분류기들의 생성을 위해 동일한 하나의 훈련 데이터 집합에 단지 학습 알고리즘들만을 바꾸어 적용한다. 본 연구에서 제안하는 또 다른 형태의 다중 분류기 방식인 Bagged Stacking과 Boosted Stacking 은 기존 Stacking처럼 동일한 훈련 데이터 집합을 사용하지 않고 Bagging과 Boosting처럼 서로 다른 훈련 데이터 집합들을 이용하여 기반 분류기들을 생성한다.
실험에 사용한 학습 알고리즘들은 다음과 같다. 단일 분류기 생성에는 k-NN, C₄.5, Nave Bayesian(NB)등을 각각 적용하였고, Bagging과 Boosting, 그리고 Stacking 등 다중 분류기 시스템의 기반 학습에 C₄.5와 Nave Bayesian(NB)을 적용하고, 메타 학습에도 C₄.5, Nave Bayesian(NB) 등을 적용하여 보았다. 실험은 Linux 운영체제를 갖춘 Intel Pentium IV processor, 256MB 하드웨어 환경에서 수행되었다.
OSHUMED는 MEDLINE 학술데이터베이스에서 확보한 문서집합으로서 정보검색 연구의 표준데이터로 이용되고 있으나 주제 분류항목이 결여되어 있어 자동 분류의 훈련 데이터로 적합치 않았다. 따라서 본 실험에서는 MeSH(Medical Subject Heading) 주제어 가운데 'Mental Disorder'의 하위 토픽을 MEDLINE 데이터베이스에 직접 질의하여 OSHUMED와 동일한 형식의 훈련 문서 집합을 확보하였다. 유즈넷 뉴스 문서들은 5개의 컴퓨터 관련 주제영역으로부터 문서 데이터들을 확보하였다.
방식의 특징과 장점을 분석해본다. 또 본 연구에서는 기존의 순수 Bagging, Boosting, Stacking 방식에서는 포함하고 있지 않은 분류기 생성과정의 편향성 (bias)이나 분류기 결합방식을 도입하여 새로운 다중 분류기 시스템들인 Stacked Bagging과 Stacked Boosting, 그리고 Bagged Stackin叩과 Boosted Stacking을 제안한다. 그리고 이러한 새로운 다중 분류기 시스템들을 문서 분류에 적용하여 문서 분류의 정확도를 높여 보려고 한다.
다음과 같다. 먼저 부트스트랩 표본 추출법(bootstap sampling)을 통하여 훈련 문서 집합의 구성을 달리 하면서 일정 수의 기반 분류기들을 생성한 다음, 일정한 수의 문서 집합에 대한 각 기반 분류기의 예측 결과인 클래스 확률분포를 생성한다. 그리고 이 클래스 확률분포를 메타 데이터로 삼아 상위 단계의 메타 분류기를 생성한다.
문서 모델을 생성하기 위해 문서 집합들로부터 각 단어의 정보 획득량(IG, Information Gain)을 기준으로 특징어들을 1, 000개씩 선택하여 가중치 벡터 모델을 구축하였다. 실험에 사용한 학습 알고리즘들은 다음과 같다.
본 논문에서는 문서 분류를 위한 새로운 다중 분류기 시스템들인 Stacked Bagging, Stacked Boosting, Bagged Stacking, Boosted Sta사dug들을 제안하였다 이들은 Bagging, Boosting, Stacking과 같은 기존 다중 분류기 시스템들의 장점들을 결합한 일종의 혼합형 다중 분류기 시스템들이다. 본 논문에서는 MEDLINE, 유즈넷 뉴스, 웹 문서 등의 문서집합을 이용한 문서 분류 실험들을 전개하여 새로운 다중 분류기 시스템들의 성능을 평가하였다.
결합한다. 본 연구에서 새로이 제안하는 다중 분류기 방식인 Stacked Bagging 과 Stacked Boosting 은 기존 Bagging 과 Boosting 에서 사용하는 투표기반의 분류기 결합방식을 유연성이 큰 Stacking의 메타 학습기 방식으로 교체, 확장한 것들이다. 즉 새로운 Stacked Bagging 과 Stacked'Boosting 은 기반 분류기들을 생성할 때는 종래의 방식대로 각각 순수 부트스트랩 표본 추출법과 가중치 부트스트랩 표본 추출법을 적용하여 서로 다른 훈련 데이터 집합들을 유도하는 대신, 기반 분류기들을 결합할 때는 기반 분류기들이 생성한 메타데이터에 기초하여 하나의 메타 분류기를 생성하고 이것을 이용한다.
바꾸어 적용한다. 본 연구에서 제안하는 또 다른 형태의 다중 분류기 방식인 Bagged Stacking과 Boosted Stacking 은 기존 Stacking처럼 동일한 훈련 데이터 집합을 사용하지 않고 Bagging과 Boosting처럼 서로 다른 훈련 데이터 집합들을 이용하여 기반 분류기들을 생성한다. 즉 새로운 Bagged Stacking과 Boosted Stackinge (그림 5)와 같이 기반 분류기들을 생성할 때는 각각 순수 부트스트랩 표본추출법(bootstrap sampling)과 가중치 부트스트랩 표본 추출법 (weighted bootstrap sampling)을 적용하여 서로 다른 훈련 데이터 집합들을 유도하고 여기에 서로 다른 학습 알고리즘들을 적용한다.
기존의 실험연구들에 의하면 다양한 실험 데이터 집합들에서 메타 학습기를 이용한 결합방식이 투표를 이용한 결합방식들에 비해 대체로 더 우수한 분류 성능을 보여주는 것으로 알려져 있다. 본 연구에서는 기존의 순수 Bagging, Boosting, Stacking방식에서는 포함하고 있지 않은 분류기 생성과정의 편향성이나 새로운 분류기 결합방식을 도입하여 새로운 다중 분류기 시스템들인 Stacked Bagging과 Stacked Boosting, 그리고 Bagged Stacking과 Boosted Stacking을 제안한다. 그리고 이러한 새로운 다중 분류기 시스템들을 문서분류에 적용하여 문서 분류의 정확도를 높여 보려고 한다.
본 연구에서는 다중 분류기 시스템의 일반적인 개념을 살펴본 뒤, 분류기들의 생성방식과 이들을 결합하는 방식을 중심으로 기존 다중 분류기 시스템들인 Bagging, Boosting, Stacking 방식의 특징과 장점을 분석해본다. 또 본 연구에서는 기존의 순수 Bagging, Boosting, Stacking 방식에서는 포함하고 있지 않은 분류기 생성과정의 편향성 (bias)이나 분류기 결합방식을 도입하여 새로운 다중 분류기 시스템들인 Stacked Bagging과 Stacked Boosting, 그리고 Bagged Stackin叩과 Boosted Stacking을 제안한다.
실험은 Linux 운영체제를 갖춘 Intel Pentium IV processor, 256MB 하드웨어 환경에서 수행되었다. 실험을 위한 각 다중 분류기 시스템들은 WEKA 라이브러리[15]를 기초로 Java 프로그래밍 언어로 구현하였다.

대상 데이터

유즈넷 뉴스 문서들은 5개의 컴퓨터 관련 주제영역으로부터 문서 데이터들을 확보하였다. 웹 문서의 경우는 몇 개의 미국 대학 전산학과 홈페이지에서 주제별로 확보한 문서집합을 이용하였다. 다음은 본 실험에 사용한 훈련 문서 집합에 대한 상세 내역이다.
따라서 본 실험에서는 MeSH(Medical Subject Heading) 주제어 가운데 'Mental Disorder'의 하위 토픽을 MEDLINE 데이터베이스에 직접 질의하여 OSHUMED와 동일한 형식의 훈련 문서 집합을 확보하였다. 유즈넷 뉴스 문서들은 5개의 컴퓨터 관련 주제영역으로부터 문서 데이터들을 확보하였다. 웹 문서의 경우는 몇 개의 미국 대학 전산학과 홈페이지에서 주제별로 확보한 문서집합을 이용하였다.
또 이 밖에도 메타 학습 알고리즘이 다중 분류기 시스탬들의 분류 성능에 어떤 영향을 주는 지도 함께 분석해보려고 하였다. 이와 같은 실험목적을 달성하기 위해 본 연구에서는 MEDLINE 학술 기사, 유즈넷 뉴스(Usenet news) 기사, 그리고 웹 문서 등을 실험용 문서 집합들로 사용하였다. OSHUMED는 MEDLINE 학술데이터베이스에서 확보한 문서집합으로서 정보검색 연구의 표준데이터로 이용되고 있으나 주제 분류항목이 결여되어 있어 자동 분류의 훈련 데이터로 적합치 않았다.

이론/모형

잘 알려져 있다. 기본적으로 Bagging과 Bostinge복위 있는 임의 표본 추출법 (random sampling with replacement), 즉 부트스트랩 표본 추출법(bootstrap sampling)을사용하여 서로 다른 훈련 데이터 집합들을 만들어 낸다. 부트스트랩 표본 추출법은 아래와 같이 정의할 수 있다.
본 연구에서 제안하는 또 다른 형태의 다중 분류기 방식인 Bagged Stacking과 Boosted Stacking 은 기존 Stacking처럼 동일한 훈련 데이터 집합을 사용하지 않고 Bagging과 Boosting처럼 서로 다른 훈련 데이터 집합들을 이용하여 기반 분류기들을 생성한다. 즉 새로운 Bagged Stacking과 Boosted Stackinge (그림 5)와 같이 기반 분류기들을 생성할 때는 각각 순수 부트스트랩 표본추출법(bootstrap sampling)과 가중치 부트스트랩 표본 추출법 (weighted bootstrap sampling)을 적용하여 서로 다른 훈련 데이터 집합들을 유도하고 여기에 서로 다른 학습 알고리즘들을 적용한다. 하지만 기반 분류기들을 결합할 때는 기존 방식대로 메타 학습을 통해 하나의 메타 분류기를 생성하고 이것을 이용한다.

성능/효과

(그림 1)은 Bagging 방법을 도식화한 것이다. Bagginge 부트스트랩 표본 추출법을 통해 얻어진 서로 다른 훈련 데이터 집합들에 동일한 학습 알고리즘을 적용하여 다수의 분류기들을 생성한 다음, 새로운 데이터에 대한 분류 작업시 다수결 투표(majority voting)방식으로 이들 분류기들의 예측 결과들을 취합하여 최종 결론을 내린다.
Boostinge 분류기 생성시에 가중치 부트스트랩 표본 추출 방법을 적용함으로써 분류기별로 서로 분리된(disjoint) 훈련데이터 집합을 이용하도록 유도하고, 또한 생성되는 각 분류기도 자신에게 할당된 특정 훈련 집합에만 높은 성능을 보일 수 있도록 특화되는 경향을 보인다. 또 분류작업시 최종결과를 도출할 때에도 각 분류기의 분류성능에 따라 가중치를 적용함으로써 분류성능이 높은 분류기의 예측결과가 더 많이 반영되는 경향을 보인다.
본 논문에서는 MEDLINE, 유즈넷 뉴스, 웹 문서 등의 문서집합을 이용한 문서 분류 실험들을 전개하여 새로운 다중 분류기 시스템들의 성능을 평가하였다. 그리고 이러한 실험결과를 통해 새로이 제안한 혼합형 다중 분류기 시스템들이 전반적으로 기존 시스템들보다 우수한 성능을 보인다는 것을 확인하였다. 혼합형 다중 분류기 시스템들은 높은 계산 비용을 요구하지만 성능 향상과 신뢰도 확보가 중요시 되는 응용 분야들에서는 그 비용이 정당화될 것으로 판단된다.
따라서 기반 학습 알고리즘들의 편향성을 이용하는 혼합형 다중분류기들이 그렇지 않은 다중 분류기들에 비해 더 우수한 결과를 보인 것으로 해석할 수 있다. 네 가지 혼합형 다중분류기 시스템들 중에서는 훈련 데이터의 편향성, 학습 알고리즘의 편향성, 그리고 메타 학습기까지 이 모두를 이용하는 Boosted Sta아dng이 가장 안정적이고 높은 성능을 보여 주었다.
이것은 유즈넷 뉴스 문서들의 경우 다른 훈련 문서집합들에 비해 각 뉴스기사들이 주제별로 잘 정리되어 있어 분류가 용이했던 때문으로 추측된다. 단일 분류기들 중에서는 확률에 기초한 Naive Bayesian 분류기가 세 가지 문서 집합들 모두에서 가장 좋은 성능을 보였다. 전체적으로 단일 분류기들에 비해 기존의 다중 분류기 시스템들이, 또 기존의 다중 분류기시스템들에 비해 본 논문에서 재안한 혼합형 분류기시스템들이 더 높은 성능을 보였다.
즉, StackedBagging StackedBoostinge 모두 하나의 동일한 기반 학습 알고리즘만을 이용하는데 반해, BaggedStackingBoostedStackinge 서로 다른 기반 학습 알고리즘들을 이용한다. 따라서 기반 학습 알고리즘들의 편향성을 이용하는 혼합형 다중분류기들이 그렇지 않은 다중 분류기들에 비해 더 우수한 결과를 보인 것으로 해석할 수 있다. 네 가지 혼합형 다중분류기 시스템들 중에서는 훈련 데이터의 편향성, 학습 알고리즘의 편향성, 그리고 메타 학습기까지 이 모두를 이용하는 Boosted Sta아dng이 가장 안정적이고 높은 성능을 보여 주었다.
또 전반적으로 메타 학습기를 이용한 분류기들의 통합 효과도 확인할 수 있는데, 동일한 학습 알고리즘으로부터 얻어진 동질적인 분류기들(homogenous classifiers)의 통합에도, 서로 다른 학습 알고리즘들로부터 얻어진 이질적인 분류기들(het erogenous classifiers)의 통합에도 모두 효과가 높은 것으로 나타났다. 예컨대 각각 서로 이질적인 학습 알고리즘인 k-NN, C₄.
5, Naive Bayesian을 적용하는 단일 분류기들에 비해 이들을 메타 학습으로 통합하는 Stacking이 더 높은 성능을 보일 뿐 아니라, 동일한 하나의 학습 알고리즘을 적용하는 Bagging과 Boosting에 비해 이들을 메타 학습으로 확장한 StackedBagging과 StackedBoosting이 각각 더 개선된 성능을 보였다. 본 실험에 이용된 메타 학습기들 간의 성능을 비교해보면, Naive Bayesian에 비해 C₄.5가 거의 모든 경우에 더 높은 성능을 보였다. 한 가지 흥미로운 사실은<표 2>의 실험 결과에는 나타내지 않았으나 Decision Stump(StackDC)와 같은 낮은 성능의 학습 알고리즘을 메타 학습기로 이용하는 경우, 다중 분류기 시스템들은 단일분류기들보다 더 낮은 성능을 보였다.
표에서 각 다중 분류기시스템에 적용된 학습 알고리즘들을 나타내기 위해 기반 학습알고리즘(base learner)은 B로, 메타 학습알고리즘(meta learner)은 M으로 표시하였다. 실험결과를 살펴보면, 먼저 분류기들의 성능이 문서 집합에 따라 큰 편차를 보였는데 MEDLINE과 웹 문서 집합의 경우는 분류 정확도가 약 70-80% 대에 머무는 반면에 유즈넷 뉴스 문서집합은 모든 분류기가 97%가 넘는 높은 분류 정확도를 보였다. 이것은 유즈넷 뉴스 문서들의 경우 다른 훈련 문서집합들에 비해 각 뉴스기사들이 주제별로 잘 정리되어 있어 분류가 용이했던 때문으로 추측된다.
것으로 나타났다. 예컨대 각각 서로 이질적인 학습 알고리즘인 k-NN, C₄.5, Naive Bayesian을 적용하는 단일 분류기들에 비해 이들을 메타 학습으로 통합하는 Stacking이 더 높은 성능을 보일 뿐 아니라, 동일한 하나의 학습 알고리즘을 적용하는 Bagging과 Boosting에 비해 이들을 메타 학습으로 확장한 StackedBagging과 StackedBoosting이 각각 더 개선된 성능을 보였다. 본 실험에 이용된 메타 학습기들 간의 성능을 비교해보면, Naive Bayesian에 비해 C₄.
이와 같은 사실은<표 3>을 통해서도 확인할 수 있는데, <표 3>은 적용된 기반 학습 알고리즘과 메타 학습알고리즘을 구분하지 않고 분류기 유형별로 평균 분류 성능을 구하여 정리한 것이다. 이러한 결과는 훈련 데이터 또는 학습 알고리즘의 편향성을 이용하여 기반 분류기들을 생성하는 방식과 별도의 메타 학습기를 이용하여 기반 분류기들을 결합하는 방식이 하나의 다중 분류기 시스템 속에서 통합될 때 문서 분류에 더욱 효과가 있음을 보여준 것이다.
단일 분류기들 중에서는 확률에 기초한 Naive Bayesian 분류기가 세 가지 문서 집합들 모두에서 가장 좋은 성능을 보였다. 전체적으로 단일 분류기들에 비해 기존의 다중 분류기 시스템들이, 또 기존의 다중 분류기시스템들에 비해 본 논문에서 재안한 혼합형 분류기시스템들이 더 높은 성능을 보였다. 이와 같은 사실은<표 3>을 통해서도 확인할 수 있는데, <표 3>은 적용된 기반 학습 알고리즘과 메타 학습알고리즘을 구분하지 않고 분류기 유형별로 평균 분류 성능을 구하여 정리한 것이다.
한편, 본 논문에서 재안한 혼합형 다중 분류기 시스템들 간의 분류 성능을 비교해보면, Sta아dn増을 확장한 Bagged Stacking과 Boosted Staking 이 Bagging과 Boosting을 확장한 Stacked Bagging과 Stacked Boosting 보다 성능이 높게 나타났다. 이 두 다중 분류기 유형간의 차이점은 적용되는 기반 학습알고리즘의 차이뿐이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

다중 분류기 시스템을 이용한 자동 문서 분류
Automatic Document Classification Using Multiple Classifier Systems 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

다중 분류기 시스템을 이용한 자동 문서 분류 Automatic Document Classification Using Multiple Classifier Systems 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

김인철 (75)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

다중 분류기 시스템을 이용한 자동 문서 분류
Automatic Document Classification Using Multiple Classifier Systems 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper