$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

지역 기반 분류기의 앙상블 학습
Ensemble Learning of Region Based Classifiers 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.14B no.4, 2007년, pp.303 - 310  

최성하 (서강대학교 대학원 컴퓨터학과) ,  이병우 (서강대학교 대학원 컴퓨터학과) ,  양지훈 (서강대학교 컴퓨터학과)

초록
AI-Helper 아이콘AI-Helper

기계학습에서 분류기틀의 집합으로 구성된 앙상블 분류기는 단일 분류기에 비해 정확도가 높다는 것이 입증되어왔다. 본 논문에서는 새로운 앙상블 학습으로서 데이터의 지역 기반 분류기들의 앙상블 학습을 제시하여 기존의 앙상블 학습과의 비교를 통해 성능을 검증하고자 한다. 지역 기반 분류기의 앙상블 학습은 데이터의 분포가 지역에 따라 다르다는 점에 착안하여 학습 데이터를 분할하여 해당하는 지역에 기반을 둔 분류기들을 만들어 나간다. 이렇게 만들어진 분류기들로부터 지역에 따라 가중치를 둔 투표를 적용하여 앙상블 방법을 이끌어낸다. 본 논문에서 제시한 앙상블 분류기의 성능평가를 위해 단일 분류기와 기존의 앙상블 분류기인 배깅부스팅 등을 UCI Machine Learning Repository에 있는 11개의 데이터 셋으로 정확도 비교를 하였다. 그 결과 새로운 앙상블 방법이 기본 분류기로 나이브 베이즈와 SVM을 사용했을 때 다른 방법보다 좋은 성능을 보이는 것을 알 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

In machine learning, the ensemble classifier that is a set of classifiers have been introduced for higher accuracy than individual classifiers. We propose a new ensemble learning method that employs a set of region based classifiers. To show the performance of the proposed method. we compared its pe...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 다른 앙상블 방법인 배징과 부스팅과의 정확도 비교를 살펴보자. 표에서 보는 바와 같이 나이브 베이즈와 SVM을 기본 학습알고리즘으로 사용한 앙상블들의 비교에서는 RBE가 대체적으로 정확도가 높음을 알 수 있다.
  • 이는 데이터를 분할해나가면서 얻는 이점이 되고 앙상블을 하는 근거가 된다. 우선 첫 번째 이슈에 대해 논해보자.
  • 그러므로 자식 노드의 분류기들의 집합이 부모 노드의 분류기보다 학습데이터에 대해서 충분히 적은 에러를 보일 것이라고 예상된다. 이를 Theorem 1으로 제시하고 증명해보자.
  • 이제 두 번째 이슈에 대해 살펴보자. RBE에서는 데이터를 분할해 나감에 따라 데이터의 클래스 분포가 단순화되기 때문에 하단 노드로 갈수록 분류하기 쉽게 된다.
  • 지금까지 RBE의 데이터 분할에 대한 의미에 대해서 살펴보았다. 이제 이러한 데이터 분할에 의한 분류기 생성이 앙상블 학습의 측면에서 볼 때 어떠한 의미가 있는지 살펴보자. 2장에서 좋은 앙상블의 조건으로서 기본 학습알고리즘으로부터 생성되는 분류기들이 서로 다양성을 가져야하고 정확도가 높아야한다고 하였다[11].
  • eoWq+e?이 성립함을 보이기 위해서 e01 > ex A e02 > e2 를 보이는 것으로 충분하다. 이제 이를 보이도록 하겠다. 주어진 학습알고리즘 乙이 표현할 수 있는 가설 공간에서 扁의 Q에 대한 결과와 같은 값을 내는 가설들의 집합을 7希I이라 하자.
  • . 지금까지 RBE의 데이터 분할에 대한 의미에 대해서 살펴보았다. 이제 이러한 데이터 분할에 의한 분류기 생성이 앙상블 학습의 측면에서 볼 때 어떠한 의미가 있는지 살펴보자.

가설 설정

  • 9%로 단일 분류기의 10%보다 10분의 1로 줄었다. 더불어, 오분류 확률은 분류기가 늘어남에 따라 더욱더 줄어들 것이다. 하지만 실제로는 분류기들 사이에 같은 분포에서 샘플링된 데이터로 하기 때문에 완벽한 다양성을 유지할 수 없다.
본문요약 정보가 도움이 되었나요?

참고문헌 (18)

  1. Bauer, E. & Kohavi, R., 'An Empirical Comparison of Voting Classification Algorithm: Bagging, Boosting, and Variants', Machine Learning, 36(1-2), pp. 105-142, 1999 

  2. Blake, C. & Merz, C., UCI Repository of Machine Learning Database, http//www.ics.uci.edu /~mlearn/MLRepository.html, 1998 

  3. Breiman, L., 'Bias, Variance, and Arcing Classifiers', Technical Report TR, 460, UC Berkeley, 1996 

  4. Breiman, L., 'Bagging Predictors', Machine Learning, 24(2), pp. 123-140, 1996 

  5. Dietterich, T., 'An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization', Machine Learning , 40(2), pp. 139-157, 2000 

  6. Dietterich, T., 'Ensemble method in Machine learning', In J. Kittler and F. Roli (Ed.) First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science, pp. 1-15, 2000 

  7. Dietterich, T., 'Ensemble Learning', In The Handbook of Brain Theory and Neural Networks, Second edition, The MIT Press, pp. 405-408, 2002 

  8. Freund, Y. & Schapire, R., 'Experiments with a new boosting algorithm', In Proc. of the Thirteenth International Conference on Machine Learning, pp. 148-156, 1996 

  9. Freund, Y. & Schapire, R., 'A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting', Journal of Computer and System Science, 55, pp. 119-139, 1997 

  10. Friedman, J., Hastie, T. & Tibshirani, R., 'Additive Logistic Regression: a Statistical View of Boosting', Annals of Statistics, 28(2), pp. 337-374, 2000 

  11. Hansen, L. & Salamon, P., 'Neural Network Ensembles', IEEE Transaction on Pattern Analysis and Machine Intelligence, 12, pp. 993-1001, 1990 

  12. L.I. Kuncheva and C.J. Whitaker. 'Measures of diversity in classifier ensembles', Machine Learning, 51, pp. 181-207, 2003 

  13. Opitz, D. & Maclin, R., 'Popular Ensemble Methods: An Empirical Study', Journal of Artificial Intelligence Research, 11, pp. 169-198, 1999 

  14. Platt, J. Fast Training of Support Vector Machines using Sequential Minimal Optimization, chapter 12, pp. 185-208, The MIT Press, 1999 

  15. Quinlan, J., 'Induction of Decision Tree', Machine Learning, 1(1), pp. 81- 106, 1986 

  16. Quinlan, J., C4.5: Programs for Machine Learning, Morgan Kaufmann, 1993 

  17. Quinlan, J., 'Bagging, Boosting, and C4.5.', In Proc. of the Thirteenth National Conference on Artificial Intelligence, pp. 725-730, 1996 

  18. Witten, I. & Frank, E., Data Mining: Practical Machine Learning Tools and Techniques with Java Implementation, Second edition, Morgan Kaufmann, 2005 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로