[논문]k-최근접 템플릿기반 다중 분류기 결합방법

민준기; 조성배

k-최근접 템플릿기반 다중 분류기 결합방법
Multiple Classifier Fusion Method based on k-Nearest Templates 원문보기

정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, v.14 no.4, 2008년, pp.451 - 455

초록
AI-Helper

본 논문에서는 다중 분류기를 효과적으로 결합하기 위하여 k-최근접 템플릿방법을 제안한다. 이는 하나의 클래스를 여러개의 템플릿으로 모델링하기 위하여 분류기의 출력값을 기반으로 각 클래별 학습 샘플들을 여러개의 하위클래스로 분해하고, 각 하위클래스별 분류기 출력값의 평균을 계산하여 지역화된 템플릿을 생성한다. 그 뒤 평가샘플과 각 템플릿간의 거리를 계산하고, k개의 최근접 템플릿들 중 가장 많은 비율을 차지하는 클래스로 평가샘플을 분류한다. 본 논문에서는 클래스 분해를 위해 C-means 클러스터링 알고리즘을 이용하였으며, k값은 주어진 데이타 셋의 클래스 내 밀집도와 클래스 간 분리도에 따라 자동으로 결정하였다. 제안하는 방법은 각 클래스별로 여러 개의 모델을 사용하며, 이들 중 가장 유사한 하나의 모델과 매칭하는 대신 k개의 모델을 참조하기 때문에 안정적이고 높은 분류성능을 획득할 수 있다. 본 논문에서는 UCI와 ELENA데이타베이스를 이용한 실험을 통해 제안하는 방법이 기존의 결합 방법들에 비해 우수한 분류성능을 보임을 확인하였다.

Abstract ▼ AI-Helper

In this paper, the k-nearest templates method is proposed to combine multiple classifiers effectively. First, the method decomposes training samples of each class into several subclasses based on the outputs of classifiers to represent a class as multiple models, and estimates a localized template by averaging the outputs for each subclass. The distances between a test sample and templates are then calculated. Lastly, the test sample is assigned to the class that is most frequently represented among the k most similar templates. In this paper, C-means clustering algorithm is used as the decomposition method, and k is automatically chosen according to the intra-class compactness and inter-class separation of a given data set. Since the proposed method uses multiple models per class and refers to k models rather than matches with the most similar one, it could obtain stable and high accuracy. In this paper, experiments on UCI and ELENA database showed that the proposed method performed better than conventional fusion methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서논 다중 분류기를 효과적으로 결합하기 위하여 다중결정템플릿방법에 /C-최근접 이웃 분류기법을 적용한 4최근접 템플릿을 제안하였다. 이는 각 클래스를 여러 개의 템플릿으로 모델링하며, 이들 중 가장 유사한 하나의 템플릿과 매칭하는 대신 k개의 모델을 참조하기 때문에 기존의 분류기 결합방법에 비해 안정적이고 높은 분류성능을 획득할 수 있다.
본 논문에서는 다양한 데이타 셋을 이용한 실험을 통해 제안하는 방법의 성능을 검증하였다.
손실된다. 본 장에서는 클래스를 여러 개의 하위클래스로 분해한 뒤 k개의 템플릿올 참조하여 분류성능과 안정성을 높인 최근접 템플릿기반 분류기 결합방법에 대해 설명한다. 그림 1은 제안하는 방법의 전체 흐름도를 나타낸다.

제안 방법

결합 방법별 성능을 비교하기 위하여 각 데이타에 대해 10-fold cross validation실험을 수행하였다. 표 3과 표 4 는 각각 실험결과의 오분류율과 표준편차를 나타낸다.
결정하였다. 그림 2와 같이 사용하는 신경망의 수가 10개 이상이 되면 결합을 통해 얻을 수 있는 성능의 향상 정도가 줄어드는 것을 확인하였으며, 따라서 본 논문의 이후 실험에서는 [1]의 연구와 마찬가지로 신경망의 수를 25개로 고정하였다
본 논문에서는 결합을 위한 개별 분류기로 신경망을 사용하였으며, 학습율과 모멘텀은 각각 0.15와 0.9로 설정하였다. 신경망 내부 노드들 간의 초기 연결강도는 -0.
본 논문에서는 다중결정템플릿의 분류성능과 안정성을 높인 化-최근접 템플릿방법을 제안한다, 이 방법은데이타 셋의 클래스 내 밀집도와 클래스 간 분리도에 따라 다중결정템플릿에서 참조할 템플릿의 수인 k 값을 자동으로 결정하며, 이를 통해 오류 클러스터의 영향을 줄인다. 본 논문에서는 다양한 데이타 셋을 이용한 실험을 통해 제안하는 방법의 성능을 검증하였다.
분류기 결합방법의 성능 안정성을 평가하기 위하여본 논문에서는 결합방법별로 모든 데이타셋에 대한 10- fold cross validation실험 분류결과의 CV(Coefficient of Variance)값을 측정하였다. CV값은 상호분산 정도를 측정하기 위해 많이 사용되는 통계적 방법으로, 데이타값의 집중경향을 나타낸다.
9로 설정하였다. 신경망 내부 노드들 간의 초기 연결강도는 -0.5〜0.5 사이의 임의 값으로 초기화하였으며, 각 신경망은 Bagging을 이용하여 학습하였다. 신경망의 은닉 노드(Hidden node) 수와 세대 수는 [1]의 연구와 동일 한기준으로 다음과 같이 결정하였다, 우선 은닉노드는 최소 5개가 되도록 하였으며, 하나의 클래스 당 혹은 10개의 특징 당 최소 하나의 은닉노드를 갖도록 하였다.
5 사이의 임의 값으로 초기화하였으며, 각 신경망은 Bagging을 이용하여 학습하였다. 신경망의 은닉 노드(Hidden node) 수와 세대 수는 [1]의 연구와 동일 한기준으로 다음과 같이 결정하였다, 우선 은닉노드는 최소 5개가 되도록 하였으며, 하나의 클래스 당 혹은 10개의 특징 당 최소 하나의 은닉노드를 갖도록 하였다. 세대 수는 데이타 셋의 샘플수가 250개 이하인 경우 60〜 80세대, 샘플수가 250〜500개인 경우 40세대, 샘플수가 500개 이상인 경우 20〜40세대로 설정하였다(표 2).
이 방법은 k-최근접 이웃(/c〜Nearest Neighbor) 분류방법과 마찬가지로 *값에 영향을 많이 받는다. 최적의 k 값은 데이타 셋에 의존적이기 때문에 제안하는 방법에서는 클래스 내 밀집도(Intra-class compactness)오} 클래스 간 분리도(Inter-이ass separationX 분석하여 k 값을 결정한다. 데이타 셋의 밀도 분석은 주로 클러스터링 알고리즘의 정당성 지표(Validity index)에 사용되는 방법으로, 본 논문에서는 식 (7)과 식 (8)을 이용하여 클래스 내 밀집도 亿와 클래스 간 분리도 /S를 계산하였다[7丄
평가샘플의 결정프로파일과 템플릿들 간의 유사도를 계산한 뒤, 가장 유사한 k개의 템플릿들 중 가장 많은 비율을 차지하는 레이블로 샘플을 분류한다. 본 논문에서는 유클리드거리식을 이용하여 유사도를 계산하였다.

대상 데이터

본 논문에서는 패턴인식 분야에서 널리 사용되는 UCI 와 ELENA 데이타베이스 중 10개의 데이타 셋을 대상으로 실험을 수행하였다(표 1).

이론/모형

2절의 식 (2)의 결정 프로파일로 구성한다. 각 클래스의 결정프로파일을 C-Means 알고리즘을 이용하여 클러스터링하고, 다음식을 이용하여 c 번째 클러스터의 지역화된 템플릿 DTg를 계산한다[5丄
최적의 k 값은 데이타 셋에 의존적이기 때문에 제안하는 방법에서는 클래스 내 밀집도(Intra-class compactness)오} 클래스 간 분리도(Inter-이ass separationX 분석하여 k 값을 결정한다. 데이타 셋의 밀도 분석은 주로 클러스터링 알고리즘의 정당성 지표(Validity index)에 사용되는 방법으로, 본 논문에서는 식 (7)과 식 (8)을 이용하여 클래스 내 밀집도 亿와 클래스 간 분리도 /S를 계산하였다[7丄
본 논문에서 사용할 신경망의 수는 기존의 분류기 결합 방법인 MAJ, MIN, MAX, AVG를 이용한 실험을 통해 결정하였다. 그림 2와 같이 사용하는 신경망의 수가 10개 이상이 되면 결합을 통해 얻을 수 있는 성능의 향상 정도가 줄어드는 것을 확인하였으며, 따라서 본 논문의 이후 실험에서는 [1]의 연구와 마찬가지로 신경망의 수를 25개로 고정하였다
차지하는 레이블로 샘플을 분류한다. 본 논문에서는 유클리드거리식을 이용하여 유사도를 계산하였다. 이 방법은 k-최근접 이웃(/c〜Nearest Neighbor) 분류방법과 마찬가지로 *값에 영향을 많이 받는다.

성능/효과

표 3에서 굵게 표시된 숫자는 각 데이타 셋의 최소 오분류율을 나타내는 것으로(오라클 제외), 실험결과 제안하는 방법이 가장 많은 수인 6개의데이타 셋에서 최고 분류율을 보였으며, 그 외의 데이타셋에서도 높은 성능을 나타냈다. MuDTs(다중 결정 템플릿)은 두 번째로 좋은 성능을 보였으며, 기존 결합 방법들 중에서는 평균 선택(AVG)방법이 좋은 성능을 나타냈다.
보였다. MuDTs의 경우 분류성능은 DT와 비슷하였으나, 클러스터링 결과에 영향을 받기 때문에 표준편차가 높게 나타났다. 표 5는 제안하는 방법과 AVG, DT, MuDTs 간의 대웅 t검정결과를 보여준다.
이때 k값은 데이타셋의 클래스 내 밀짐도와 클래스 간 분리도에 따라 적합한 k값을 자동으로 선택한다. 기존의 분류기 결합 방법인 투표기반, 최대값 선택, 최소값 선택, 평균 선택, 결정 템플릿 방법 등을 이용하여 UCI와 ELENA의 10가지 데이타 셋에 대한 비교실험을 수행한 결과 제안하는 방법이 안정적이면서 높은 성능을 보임을 확인하였다.
분석결과 그림 4와 같이 제안하는 방법이 기존의결합방법에 비해 가장 안정적인 성능을 보임을 확인하였다.
2절의 식 (9)에 의해 Iono sphere, Sonar, Phoneme, Clouds, Concentric^] 5가지데이타 셋의 경우 心, 나머지의 경우는 k=G/2=10으로 k값이 선택되었다. 표 3에서 굵게 표시된 숫자는 각 데이타 셋의 최소 오분류율을 나타내는 것으로(오라클 제외), 실험결과 제안하는 방법이 가장 많은 수인 6개의데이타 셋에서 최고 분류율을 보였으며, 그 외의 데이타셋에서도 높은 성능을 나타냈다. MuDTs(다중 결정 템플릿)은 두 번째로 좋은 성능을 보였으며, 기존 결합 방법들 중에서는 평균 선택(AVG)방법이 좋은 성능을 나타냈다.

후속연구

추후연구로 보다 다양한 데이타 셋에 대한 성능평가를 통해 방법의 일반성을 검중하고, 데이타 셋의 특징과 k값과의 상관관계를 정량적으로 분석하여 k값을 보다 정교하게 선택해주는 규칙을 생성할 계획이다.

참고문헌 (7)

D. Opitz and R. Maclin, "Popular ensemble methods: An empirical study," J. Artificial Intelligence Research, Vol.11, pp. 169-198, 1999
L.I. Kuncheva, "A theoretical study on six classifier fusion strategies," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.24, No.2, pp. 281-286, 2002

상세보기
L.I. Kuncheva, J.C. Bezdek, and R.P.W. Duin, "Decision templates for multiple classifier fusion: An experimental comparison," Pattern Recognition, Vol.34, No.2, pp. 299-314, 2001

상세보기
L.I. Kuncheva, "Switching between selection and fusion in combining classifiers: An experiment," IEEE Trans. Systems, Man, and Cybernetics, Part B-Cybernetics, Vol.32, No.2, pp. 146-156, 2002

상세보기
J.-K. Min, J.-H. Hong, and S.-B. Cho, "Fingerprint classification using multiple decision template with SVM," J. Korea Information Science Society, Vol.32, No.11, pp. 1136-1146, 2005
A.K. Jain and R.C. Dubes, Algorithms for Clustering Data, Prentice Hall, 1988
U. Maulik and S. Bandyopadhyay, "Performance evaluation of some clustering algorithms and validity indices," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.24, No.12, pp. 1650-1654, 2002

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증