$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

앙상블기법을 이용한 다양한 데이터마이닝 성능향상 연구
A Study for Improving the Performance of Data Mining Using Ensemble Techniques 원문보기

한국통계학회 논문집 = Communications of the Korean Statistical Society, v.17 no.4, 2010년, pp.561 - 574  

정연해 (고려대학교 통계학과) ,  어수행 (고려대학교 통계학과) ,  문호석 (육군사관학교 전자공학과) ,  조형준 (고려대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

본 논문은 8가지 방법의 데이터 마이닝 알고리즘(CART, QUEST, CRUISE, 로지스틱 회귀분석, 선형판별분석, 이차판별분석, 신경망분석, 서포트 벡터 머신) 기법과 단일 알고리즘에 2가지 앙상블기법(배깅, 부스팅)을 적용한 16가지 방법을 바탕으로 총 24가지의 방법을 비교하였다. 알고리즘의 성능 비교를 위하여 13개의 이항반응변수로 구성된 데이터를 사용하였다. 비교 기준은 민감도, 특이도오분류율을 사용하여 데이터 마이닝 기법의 성능향상에 대해 평가하였다.

Abstract AI-Helper 아이콘AI-Helper

We studied the performance of 8 data mining algorithms including decision trees, logistic regression, LDA, QDA, Neral network, and SVM and their combinations of 2 ensemble techniques, bagging and boosting. In this study, we utilized 13 data sets with binary responses. Sensitivity, Specificity and mi...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 위에서 설명한 기본 부스팅을 변화시킨 여러 가지 버전이 존재한다. 그 중에서 가장 유명하고 본 논문에서 정확도 비교 대상으로 선택한 AdaBoost(adaptive boosting)에 대해 설명하도록 하겠다. Freund와 Schapire (1996)에 의해 처음 소개된 AdaBoost는 이전의 부스팅 알고리즘의 어려움을 많이 해결하였으며, Schapire와 Singer (1999)에 의해 일반화되었다.
  • 본 논문에서는 13가지 이항반응변수 데이터에 대해 오분류율 및 민감도 그리고 특이도를 각 알고리즘 별로 계산하여 그 성능을 분석하였다. 대부분의 모든 데이터에서 배깅의 오분류율은 8가지의 단일 데이터 마이닝의 오분류율보다 약간 감소하였고, 일부 데이터에서는 부스팅의 오분류율은 단일 데이터 마이닝기법보다 크게 감소하였지만 반대로 오분류율이 증가한 데이터도 있다.
  • 본 논문에서는 다양한 데이터 마이닝 기법(8가지)에 앙상블기법인 배깅과 부스팅 알고리즘을 적용시켜 이항반응변수를 갖는 13개의 데이터의 분석결과를 통해 포괄적인 평가를 하고자 한다. 논문의 구성은 다음과 같다.
  • 서포트 벡터 머신의 알고리즘은 다음과 같이 요약할 수 있다. 학습 자료로 주어진 n차원의 벡터공간에서 분류 공간 간에 모든 점 사이의 거리를 최대화하도록 만들어 하나의 평면을 구해내는 것을 목표로 한다. 이 선형 평면 분류 경계를 최대마진분리경계면(OSH; Optimal Separating Hyperplane)라고 하며, 최대마진분리경계면에 가장 가까운 점들을 서포트 벡터(support vector)라고 부른다.

가설 설정

  • 입력층과 출력층은 통계학적 용어로 설명변수와 종속변수로 해석할 수 있으며, 종속변수가 설명변수와 관계가 있고 그 두 변수 사이에 은닉층(hidden layer)이 있는 모형을 가정한다. 또한, 설명변수가 은닉층 안의 모든 노드에 영향을 주게 되며 종속변수는 은닉층 안의 모든 노드에 의해 영향을 받는 것을 가정한다. 은닉층의 수는 클 수 있지만, 대체적으로 하나 또는 두 개의 은닉층이 사용된다.
  • 신경망 분석은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성되어 있다. 입력층과 출력층은 통계학적 용어로 설명변수와 종속변수로 해석할 수 있으며, 종속변수가 설명변수와 관계가 있고 그 두 변수 사이에 은닉층(hidden layer)이 있는 모형을 가정한다. 또한, 설명변수가 은닉층 안의 모든 노드에 영향을 주게 되며 종속변수는 은닉층 안의 모든 노드에 의해 영향을 받는 것을 가정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
앙상블기법에는 어떤 알고리즘이 있는가? 앙상블기법 중에는 대표적으로 배깅(bagging)과 부스팅(boosting) 알고리즘이 있다. 이 알고리즘들은 분석용(training) 데이터에서 재표본(resampling)기법으로 얻어진 데이터에 의해 각 분류자가 형성된다.
신경망 분석에서 은닉층은 몇 개가 사용되는가? 또한, 설명변수가 은닉층 안의 모든 노드에 영향을 주게 되며 종속변수는 은닉층 안의 모든 노드에 의해 영향을 받는 것을 가정한다. 은닉층의 수는 클 수 있지만, 대체적으로 하나 또는 두 개의 은닉층이 사용된다.
데이터 마이닝은 어떠한 과정을 말하는가? 대용량 데이터에서 유용한 정보와 관계를 탐색하고 모형화하여 지식을 발견하고자 하는 일련의 과정을 데이터 마이닝(data mining)이라고 한다. 고전적 통계 모형인 선형판별분석(linear discriminant analysis), 로지스틱 회귀분석(logistic regression) 등에서부터 최근 신경망분석(neural network), 서포트 벡터 머신(support vector machine)에 이르기까지 다양한 알고리즘(algorithm)이 데이터 마이닝에 사용되고, 지속적으로 연구되고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. 김규곤 (2003). 데이터 마이닝에서 분류방법에 관한 연구, Journal of the Korean Data Analysis Society, 5, 101-112. 

  2. 김기영, 전명식 (1994). , 자유아카데미, 서울. 

  3. 이영섭, 오현정, 김미경 (2005). 데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석, , 18, 343-354. 

  4. 허면회, 서혜선 (2001). , 자유아카데미, 서울. 

  5. Bauer, E. and Kohavi, R. (1999). An empirical comparison of voting classification algorithms: Bagging, Boosting and variants, Machine Learning, 36, 105-139. 

  6. Breiman, L. (1996). Bagging predictors, Machine Learning, 26, 123-140. 

  7. Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and Regression Trees, Chapman & Hall, New York. 

  8. Clemen, R. (1989). Combining forecasts: A review and annotated bibliography, Journal of Forecasting, 5, 559-583. 

  9. Drucker, H. and Cortes, C. (1996). Boosting decision trees, Neural Information Processing Systems, 8, 470-485. 

  10. Druker, H., Schapire, R. and Simard, P. (1993). Boosting performance in neural networks, International Journal of Pattern Recognition and Artificial Intelligence, 7, 705-719. 

  11. Efron, B. and Tibshirani, R. (1993). An Introduction to the Bootstrap, Chapman & Hall, New York. 

  12. Frank, A. and Asuncion, A. (2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science. 

  13. Freund, Y. (1995). Boosting a weak learning algorithm by majority, Information and Computation, 121, 256-285. 

  14. Freund, Y. and Schapire, R. (1996). Experiments with a new boosting algorithm, Proceedings of the Thirteenth International Conference on Machine Learning, 148-156. 

  15. Kass, G. V. (1980). An Exploratory Technique for Investigating Large Quantities of Categorical Data. Journal of the Royal Statistical Society. Series C (Applied Statistics), 29, 119-127. 

  16. Kearns, M. and Valiant, L. G. (1994). Cryptographic limitations on learning Boolean formulae and finite automata, Journal of the Association for Computing Machinery, 41, 67-95. 

  17. Kim, H. J. and Loh, W. Y. (2001). Classification trees with unbiased multiway splits, Journal of the American Statistical Association, 96, 598-604. 

  18. Loh, W. Y. and Shih, Y. S. (1997). Split selection method for classification trees, Statistica Sinica, 7, 815-840. 

  19. Opitz, D. and Maclin, R. (1999). Popular ensemble methods: An empirical study, Journal of the Artificial Intelligence Research, 11, 169-198. 

  20. Perrone, M. (1993). Improving regression estimation: Averaging methods for variance reduction with extensions to general convex measure optimization, Doctoral dissertation, Department of Physics, Brown University. 

  21. Quinlan, J. R. (1992). C4.5 : Programming with Machine Learning, Morgan Kaufmann Publishers. 

  22. Quinlan, J. R. (1996). Bagging, boosting, and C4.5, Proceedings of the Fourteenth National Conference on Machine Learning, 725-730. 

  23. Schapire, R. E. (1990). The strength of weak learnability, Machine Learning, 5, 197-227. 

  24. Schapire, R. E. and Singer, Y. (1999). Improved boosting algorithms using confidence-rated predictions, Machine Learning, 37, 297-336. 

  25. Valiant, L. G. (1984). A theory of the learnable, Communication of the ACM, 27, 1134-1142. 

  26. Vapnik, V. (1979). Estimation of Dependences Based on Empirical Data, Nauka, Moscow. 

  27. Wolpert, D. (1992). Stacked generalization, Neural Network, 5, 241-259. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로