본 논문은 8가지 방법의 데이터 마이닝 알고리즘(CART, QUEST, CRUISE, 로지스틱 회귀분석, 선형판별분석, 이차판별분석, 신경망분석, 서포트 벡터 머신) 기법과 단일 알고리즘에 2가지 앙상블기법(배깅, 부스팅)을 적용한 16가지 방법을 바탕으로 총 24가지의 방법을 비교하였다. 알고리즘의 성능 비교를 위하여 13개의 이항반응변수로 구성된 데이터를 사용하였다. 비교 기준은 민감도, 특이도 및 오분류율을 사용하여 데이터 마이닝 기법의 성능향상에 대해 평가하였다.
본 논문은 8가지 방법의 데이터 마이닝 알고리즘(CART, QUEST, CRUISE, 로지스틱 회귀분석, 선형판별분석, 이차판별분석, 신경망분석, 서포트 벡터 머신) 기법과 단일 알고리즘에 2가지 앙상블기법(배깅, 부스팅)을 적용한 16가지 방법을 바탕으로 총 24가지의 방법을 비교하였다. 알고리즘의 성능 비교를 위하여 13개의 이항반응변수로 구성된 데이터를 사용하였다. 비교 기준은 민감도, 특이도 및 오분류율을 사용하여 데이터 마이닝 기법의 성능향상에 대해 평가하였다.
We studied the performance of 8 data mining algorithms including decision trees, logistic regression, LDA, QDA, Neral network, and SVM and their combinations of 2 ensemble techniques, bagging and boosting. In this study, we utilized 13 data sets with binary responses. Sensitivity, Specificity and mi...
We studied the performance of 8 data mining algorithms including decision trees, logistic regression, LDA, QDA, Neral network, and SVM and their combinations of 2 ensemble techniques, bagging and boosting. In this study, we utilized 13 data sets with binary responses. Sensitivity, Specificity and missclassificate error were used as criteria for comparison.
We studied the performance of 8 data mining algorithms including decision trees, logistic regression, LDA, QDA, Neral network, and SVM and their combinations of 2 ensemble techniques, bagging and boosting. In this study, we utilized 13 data sets with binary responses. Sensitivity, Specificity and missclassificate error were used as criteria for comparison.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
위에서 설명한 기본 부스팅을 변화시킨 여러 가지 버전이 존재한다. 그 중에서 가장 유명하고 본 논문에서 정확도 비교 대상으로 선택한 AdaBoost(adaptive boosting)에 대해 설명하도록 하겠다. Freund와 Schapire (1996)에 의해 처음 소개된 AdaBoost는 이전의 부스팅 알고리즘의 어려움을 많이 해결하였으며, Schapire와 Singer (1999)에 의해 일반화되었다.
본 논문에서는 13가지 이항반응변수 데이터에 대해 오분류율 및 민감도 그리고 특이도를 각 알고리즘 별로 계산하여 그 성능을 분석하였다. 대부분의 모든 데이터에서 배깅의 오분류율은 8가지의 단일 데이터 마이닝의 오분류율보다 약간 감소하였고, 일부 데이터에서는 부스팅의 오분류율은 단일 데이터 마이닝기법보다 크게 감소하였지만 반대로 오분류율이 증가한 데이터도 있다.
본 논문에서는 다양한 데이터 마이닝 기법(8가지)에 앙상블기법인 배깅과 부스팅 알고리즘을 적용시켜 이항반응변수를 갖는 13개의 데이터의 분석결과를 통해 포괄적인 평가를 하고자 한다. 논문의 구성은 다음과 같다.
서포트 벡터 머신의 알고리즘은 다음과 같이 요약할 수 있다. 학습 자료로 주어진 n차원의 벡터공간에서 분류 공간 간에 모든 점 사이의 거리를 최대화하도록 만들어 하나의 평면을 구해내는 것을 목표로 한다. 이 선형 평면 분류 경계를 최대마진분리경계면(OSH; Optimal Separating Hyperplane)라고 하며, 최대마진분리경계면에 가장 가까운 점들을 서포트 벡터(support vector)라고 부른다.
가설 설정
입력층과 출력층은 통계학적 용어로 설명변수와 종속변수로 해석할 수 있으며, 종속변수가 설명변수와 관계가 있고 그 두 변수 사이에 은닉층(hidden layer)이 있는 모형을 가정한다. 또한, 설명변수가 은닉층 안의 모든 노드에 영향을 주게 되며 종속변수는 은닉층 안의 모든 노드에 의해 영향을 받는 것을 가정한다. 은닉층의 수는 클 수 있지만, 대체적으로 하나 또는 두 개의 은닉층이 사용된다.
신경망 분석은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성되어 있다. 입력층과 출력층은 통계학적 용어로 설명변수와 종속변수로 해석할 수 있으며, 종속변수가 설명변수와 관계가 있고 그 두 변수 사이에 은닉층(hidden layer)이 있는 모형을 가정한다. 또한, 설명변수가 은닉층 안의 모든 노드에 영향을 주게 되며 종속변수는 은닉층 안의 모든 노드에 의해 영향을 받는 것을 가정한다.
제안 방법
5를 사용하였다. 또한, 각 데이터를 분석용 데이터(training data)와 테스트 데이터(test data)의 비율이 7 : 3이 되도록 랜덤하게 분할하여 알고리즘의 정확도 및 속도를 비교하였고, 정확한 값을 얻기 위하여 100번의 독립된 반복 실험을 행하였다.
본 논문에서는 R (version 2.6.2) 또는 FORTRAN/95으로 만들어진 프로그램을 사용하였다. 표 1에 본 논문에서 사용된 프로그램과 분류 옵션을 포함한 총 8가지 알고리즘이 제시되어 있다.
반응변수가 이산형인 경우 분류나무를 구성하고 연속형인 경우는 회귀 나무를 구성한다. 본 논문에서는 반응변수가 이항변수이므로 분류나무를 중점적으로 다루기로 한다. 현재까지 많은 의사결정나무를 기반으로 한 기법들이 제안되었으며, 대표적으로 CHAID (Kass, 1980) CART (Breiman 등, 1984), C4.
알고리즘의 비교 기준은 2장에서 기술한 8가지의 단일 데이터 마이닝 알고리즘을 3장의 배깅과 부스팅 알고리즘에 결합하여 총 24가지 방법(단일 알고리즘 8가지, 앙상블 방법 16가지)을 비교하였다. 각 알고리즘의 정확도에 대한 비교 기준으로 오분류율과 민감도, 특이도의 평균 및 표준오차를 살펴보고 알고리즘의 속도에 대한 비교를 위해 각각의 알고리즘의 시간을 측정하여 살펴보았고 분류기준값으로는 0.
서로 다른 붓스트랩 데이터들은 원래의 분석용 데이터에서 무작위로 관측값을 선택하여 만들어지기 때문에 중복되는 관측값도 있을 수 있고 한 번도 선택 되지 않는 관측값도 있을 수 있다. 이렇게 무작위로 다르게 샘플링 된 붓스트랩 데이터를 가지고 각각 데이터 마이닝기법을 통해 단일 분류자를 생성시켜 그 집합으로 앙상블을 형성한다. 이렇게 만들어진 배깅 분류자는 그것을 구성하는 단일 분류자들의 다수결(Majority Voting)로 최종 분류 결정을 내린다.
대상 데이터
각 데이터에 대한 자세한 분석 결과는 홈페이지에 공개하였다(http:\\www.korea.ac.kr/˜stat2242/Ensemble).
본 논문에서는 반응변수로 이항변수(binary variable)을 가지는 13개의 데이터를 분석에 사용하였다. 각 데이터에 대한 설명은 표 3에 요약되어 있다.
그리고 # of predictors는 설명변수의 수를 말하는데, Num은 연속형 설명 변수의 개수, Cat는 이산형 설명변수의 개수를 나타낸 것이다. 분석에 사용된 모든 데이터 셋은 UCI repository (Frank와 Asuncion, 2010)에서 다운로드 받을 수 있다.
표 5은 각각의 단일 알고리즘별 앙상블 기법의 효과를 비교한 표이다. 총 13개의 데이터를 가지고 붓스트랩 반복 25번인 경우를 기준으로 하였다. 첫 번째로 의사결정나무의 QUEST, 선형판별분석(LDA), 이차판별분석(QDA), 로지스틱회귀분석(GLM), 신경망분석(NNET)의 결과를 살펴보면, 부스팅이 배깅에 비해 상대적으로 향상된 결과를 보이며, 반대로 의사결정나무의 CRUISE, 서포트 벡터 머신(SVM)의 경우에는 배깅의 경우에서 부스팅에 비해 상대적으로 향상된 결과가 많았다.
데이터처리
알고리즘의 비교 기준은 2장에서 기술한 8가지의 단일 데이터 마이닝 알고리즘을 3장의 배깅과 부스팅 알고리즘에 결합하여 총 24가지 방법(단일 알고리즘 8가지, 앙상블 방법 16가지)을 비교하였다. 각 알고리즘의 정확도에 대한 비교 기준으로 오분류율과 민감도, 특이도의 평균 및 표준오차를 살펴보고 알고리즘의 속도에 대한 비교를 위해 각각의 알고리즘의 시간을 측정하여 살펴보았고 분류기준값으로는 0.5를 사용하였다. 또한, 각 데이터를 분석용 데이터(training data)와 테스트 데이터(test data)의 비율이 7 : 3이 되도록 랜덤하게 분할하여 알고리즘의 정확도 및 속도를 비교하였고, 정확한 값을 얻기 위하여 100번의 독립된 반복 실험을 행하였다.
이론/모형
데이터가 불안정하고 분류자의 변동성이 큰 경우에는 데이터가 조금이라도 바뀐 상태에서 예측자의 변동성을 감소시키고자 붓스트랩 방법을 통해 분류자를 얻을 수 있다. 이러한 방법을 배깅 알고리즘(bagging algorithm)이라 하며, 배깅은 붓스트랩(boostrap)방법 (Efron과 Tibshirani, 1993)을 이용한 앙상블기법으로 Breiman (1996)에 의해 제안되었다.
성능/효과
BreastCancer 데이터의 분석결과를 보면, 대체적으로 평균 0.041의 낮은 오분류율 및 0.972의 높은 민감도와 0.935의 높은 특이도 값으로 모형이 적절하게 적합 되었음을 살펴볼 수 있다. 서포트 벡터 머신(SVM)의 알고리즘에 배깅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.
Ionosphere 데이터의 분석결과를 보면, 대체적으로 평균 0.116의 오분류율을 보이며, 민감도와 특이도의 평균값은 각각 0.903, 0.844로 전반적으로 비슷한 값을 가지는 것을 살펴볼 수 있다. 의사결정 나무의 CRUISE 알고리즘에 배깅을 적용한 경우 오분류율이 0.
Mroz 데이터의 분석결과를 보면, 대체적으로 평균 0.308의 오분류율을 보이며, 민감도와 특이도의 평균값은 각각 0.654, 0.729로 전반적으로 특이도의 값이 더 높을 것을 살펴볼 수 있다. 의사결정 나무의 QUEST 알고리즘에 배깅을 적용하여 50번 붓스트랩 반복 한 경우 오분류율이 0.
Promoter 데이터의 분석결과를 보면, 대체적으로 평균 0.21의 오분류율을 보이며, 민감도와 특이도의 평균값은 각각 0.792, 0.802로 전반적으로 비슷한 값을 가지는 것을 살펴볼 수 있다. 의사결정나무의 RPART 알고리즘에 배깅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.
결론적으로 본 논문의 13개 데이터를 분석결과를 종합해 보면 단일 데이터 마이닝 기법보다 앙상블 기법인 배깅과 부스팅을 적용하였을 경우 성능이 향상된다는 것을 알 수 있다. 또한, 2가지 앙상블 기법 중 부스팅의 경우가 배깅보다 좀 더 성능이 좋은 것을 알 수 있다.
즉, 알고리즘의 비교 기준을 오분류율로 정한다면, 단일 알고리즘을 이용하여 분석을 하는 것보다는 배깅과 부스팅같은 앙상블 기법을 이용하여 분석하였을 때 보다 낳은 결과를 가져온다고 할 수 있다. 계산 비용을 알고리즘의 비교기준으로 보면, 붓스트랩 반복을 25번 실행한 경우와 50번 실행한 경우의 결과차이가 거의 없음을 볼 수 있다. 이는 앙상블 기법을 사용한 일반적인 분석에서는 25번의 붓스트랩 반복으로도 적절한 결과를 가져올 수 있음을 뜻한다.
본 논문에서는 13가지 이항반응변수 데이터에 대해 오분류율 및 민감도 그리고 특이도를 각 알고리즘 별로 계산하여 그 성능을 분석하였다. 대부분의 모든 데이터에서 배깅의 오분류율은 8가지의 단일 데이터 마이닝의 오분류율보다 약간 감소하였고, 일부 데이터에서는 부스팅의 오분류율은 단일 데이터 마이닝기법보다 크게 감소하였지만 반대로 오분류율이 증가한 데이터도 있다. 예를 들어 Heart data 분석결과의 이차판별분석(QDA) 알고리즘을 살펴보면 단일기법일 경우 오분류율이 0.
또한, 2가지 앙상블 기법 중 부스팅의 경우가 배깅보다 좀 더 성능이 좋은 것을 알 수 있다. 데이터 셋의 관측값 수, 목표변수, 입력변수의 크기가 클수록 부스팅 알고리즘이 적합함을 알 수 있고 이와 반대로 관측값 수, 목표변수, 입력변수의 크기가 작을수록 배깅의 알고리즘이 적합함을 알 수 있다. 이것은 대용량의 데이터와 데이터의 속성이 복잡해질수록 부스팅의 알고리즘이 적합하고, 데이터의 양이 적고 데이터 속성이 단순할수록 배깅 알고리즘이 적합하다고 할 수 있다.
데이터들에 대한 전반적인 분석결과를 보면, 이차판별분석(QDA)와 로지스틱회귀분석(GLM)의 경우를 제외하고는 앙상블 기법인 배깅과 부스팅을 적용하였을 경우 Single경우보다 오분류율이 약간 감소하는 것을 볼 수 있다.
두 번째로 의사결정나무의 RPART, QUEST, CRUISE와 신경망분석(NNET)의 경우를 보면 앙상블 기법의 적용이 탁월한 효과를 보이는 것을 알 수 있다.
1%로 부스팅이 배깅보다 단일 알고리즘에 적용되었을 때 향상된 결과를 보이는 것을 알 수 있다. 따라서 본 논문의 13개 데이터를 분석결과를 종합해 보면 부스팅의 성능이 좀 더 우수하다고 말할 수 있다.
755로 전반적으로 특이도의 값이 더 높을 것을 살펴볼 수 있다. 로지스틱회귀분석(GLM)의 알고리즘에 부스팅을 적용하여 50번 붓스트랩 반복 한 경우 오분류율이 0.262(0.018)로 가장 낮은 값을 갖는 것으로 나타났다. 이와는 반대로 의사결정나무의 RPART 단일 알고리즘과 이차판별분석(QDA)의 단일 알고리즘의 경우 0.
kr/˜stat2242/Ensemble). 먼저 Chile 데이터의 결과를 보면, 대체적으로 평균 0.079의 낮은 오분류율 및 0.918의 높은 민감도와 0.922의 높은 특이도 값으로 모형이 적절하게 적합 되었음을 볼 수 있다. 선형판별분석(LDA)의 알고리즘에 부스팅을 적용한 경우 오분류율이 0.
본 논문은 기존에 앙상블기법의 분류자로 사용되면 의사결정나무의 CART 방법 외에 7가지 다양한 분류자를 사용하여 앙상블기법을 적용하여 본 결과 성능향상이 있다는 점에서 의미가 있다고 할 수 있다. 그러나 배깅과 부스팅에 성능향상을 13개의 데이터를 가지고 일반화를 시킨다는 것은 어려움이 따른다.
935의 높은 특이도 값으로 모형이 적절하게 적합 되었음을 살펴볼 수 있다. 서포트 벡터 머신(SVM)의 알고리즘에 배깅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.03(0.011)으로 가장 낮은 값을 갖는 것으로 나타났다. 이와는 반대로 의사결정나무의 RPART의 단일 알고리즘의 경우 0.
655로 전반적으로 특이도의 값이 더 높을 것을 살펴볼 수 있다. 선형판별분석(LDA)의 알고리즘에 부스팅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.35(0.015)로 가장 낮은 값을 갖는 것으로 나타났다. 이와는 반대로 신경망분석(NNET)의 Single 알고리즘 경우 0.
세 번째로 배깅과 부스팅의 성능을 총괄적으로 비교하여 보았을 때 배깅의 경우 67.3% 향상된 경우가 있었으며, 부스팅의 경우 71.1%로 부스팅이 배깅보다 단일 알고리즘에 적용되었을 때 향상된 결과를 보이는 것을 알 수 있다. 따라서 본 논문의 13개 데이터를 분석결과를 종합해 보면 부스팅의 성능이 좀 더 우수하다고 말할 수 있다.
표 4는 각 데이터의 알고리즘별 최저 오분류율 및 최적 앙상블모형, 붓스트랩 반복수를 보여준다. 위에서 언급한 24가지 방법을 가지고 각 데이터에 맞는 최적의 알고리즘을 찾아본 결과, 단일 알고리즘을 최적의 방법으로 택한 데이터가 2개(Heart, Iris data), 배깅인 경우 5개(Long, Mroz, Ionosphere, Promoter, Breast Cancer data), 부스팅인 경우가 6개(Chile, Greene, Powers, Working Moms, German Credit, Australian data)를 보였다. 즉, 알고리즘의 비교 기준을 오분류율로 정한다면, 단일 알고리즘을 이용하여 분석을 하는 것보다는 배깅과 부스팅같은 앙상블 기법을 이용하여 분석하였을 때 보다 낳은 결과를 가져온다고 할 수 있다.
829로 전반적으로 비슷한 값을 가지는 것을 살펴볼 수 있다. 의사결정나무의 CRUISE 알고리즘에 부스팅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.132(0.021)으로 가장 낮은 값을 갖는 것으로 나타났다. 이와는 반대로 신경망분석(NNET)의 단일 알고리즘의 경우 0.
568로 전반적으로 민감도의 값이 더 높을 것을 살펴볼 수 있다. 의사결정나무의 CRUISE 알고리즘에 부스팅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.259(0.032)으로 가장 낮은 값을 갖는 것으로 나타났다. 이와는 반대로 의사결정나무의 RPART의 단일 알고리즘의 경우 0.
802로 전반적으로 비슷한 값을 가지는 것을 살펴볼 수 있다. 의사결정나무의 RPART 알고리즘에 배깅을 적용하여 50번 붓스트랩 반복을 한 경우 오분류율이 0.127(0.075)으로 가장 낮은 값을 갖는 것으로 나타났다. 이와는 반대로 이차판별분석(QDA)의 단일 알고리즘의 경우 0.
031)로 가장 높은 오분류율 값을 갖고 있었다. 전반적인 결과를 살펴보았을 때 단일 알고리즘을 사용한 경우보다 앙상블 기법인 배깅과 부스팅을 적용하였을 때 오분류율이 감소하는 것을 볼 수 있다.
하지만 각 알고리즘의 전반적인 오분류율 값 차이는 대체적으로 미미한 수준을 나타냈으며, 민감도와 특이도 역시 전반적으로 비슷한 수치를 보였다. 전반적인 결과를 살펴보았을 때 단일 알고리즘을 사용한 경우와 앙상블 기법인 배깅과 부스팅을 적용하였을 경우의 오분류율이 비슷한 값을 보였다.
025)로 가장 높은 오분류율 값을 갖고 있었다. 전반적인 결과를 살펴보았을 때 단일 알고리즘을 적용한 경우보다 앙상블 기법인 배깅과 부스팅을 적용하였을 때 오분류율이 감소하는 것을 볼 수 있다.
039)로 가장 높은 오분류율 값을 갖고 있었다. 전반적인 결과를 살펴보았을 때 의사결정나무 알고리즘의 경우 단일 알고리즘을 사용한 경우보다 앙상블 기법인 배깅과 부스팅을 적용하였을 경우 대부분의 오분류율이 감소하는 것을 볼 수 있으며, 그 외의 알고리즘의 경우에는 오히려 대부분의 경우 오분류율이 증가하는 것을 볼 수 있다.
031)로 가장 높은 오분류율 값을 갖고 있었다. 전반적인 결과를 살펴보았을 때 의사결정나무와 신경망분석(NNET) 알고리즘의 경우 단일 알고리즘을 사용한 경우보다 앙상블 기법인 배깅과 부스팅을 적용하였을 경우 대부분의 오분류율이 감소하는 것을 볼 수 있으며, 그 외의 알고리즘의 경우에는 배깅과 부스팅의 효과가 없는 것을 볼 수 있다.
044)로 가장 높은 오분류율 값을 갖고 있었다. 전반적인 결과를 살펴보았을 때 의사결정나무의 RPART, QUEST, CRUISE의 경우 단일 알고리즘을 사용한 경우보다 앙상블 기법인 배깅과 부스팅을 적용하였을 경우 대부분의 오분류율이 감소하는 것을 볼 수 있으며, 그 외의 알고리즘의 경우에는 오히려 대부분의 경우 오분류율이 증가하는 것을 볼 수 있다. 또한, 선형판별분석(LDA)와 이차판별분석(QDA)의 경우 다른 알고리즘에 비해 탁월한 효과가 있음을 알 수 있다.
총 13개의 데이터를 가지고 붓스트랩 반복 25번인 경우를 기준으로 하였다. 첫 번째로 의사결정나무의 QUEST, 선형판별분석(LDA), 이차판별분석(QDA), 로지스틱회귀분석(GLM), 신경망분석(NNET)의 결과를 살펴보면, 부스팅이 배깅에 비해 상대적으로 향상된 결과를 보이며, 반대로 의사결정나무의 CRUISE, 서포트 벡터 머신(SVM)의 경우에는 배깅의 경우에서 부스팅에 비해 상대적으로 향상된 결과가 많았다.
011)로 가장 높은 오분류율 값을 갖고 있었다. 하지만 각 알고리즘의 전반적인 오분류율 값 차이는 대체적으로 미미한 수준을 나타냈으며, 민감도와 특이도 역시 전반적으로 비슷한 수치를 보였다. 전반적인 결과를 살펴보았을 때 단일 알고리즘을 사용한 경우와 앙상블 기법인 배깅과 부스팅을 적용하였을 경우의 오분류율이 비슷한 값을 보였다.
149)로 가장 높은 오분류율 값을 갖고 있었다. 하지만 전반적인 결과를 살펴보았을 때 신경망분석을 제외한 단일 알고리즘을 적용한 경우보다 앙상블 기법인 배깅과 부스팅을 적용하였을 때 오분류율이 증가하는 경향을 볼 수 있다.
후속연구
그러나 배깅과 부스팅에 성능향상을 13개의 데이터를 가지고 일반화를 시킨다는 것은 어려움이 따른다. 따라서 더 많은 데이터를 가지고 앙상블 알고리즘을 적용하여 배깅과 부스팅의 일반적인 특성을 파악해야 할 것이다. 또한, 배깅과 부스팅외에도 랜덤 포레스트(Random Forest) 알고리즘을 적용하여 성능을 살펴보는 것을 향후 연구과제로 생각할 수 있다.
따라서 더 많은 데이터를 가지고 앙상블 알고리즘을 적용하여 배깅과 부스팅의 일반적인 특성을 파악해야 할 것이다. 또한, 배깅과 부스팅외에도 랜덤 포레스트(Random Forest) 알고리즘을 적용하여 성능을 살펴보는 것을 향후 연구과제로 생각할 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
앙상블기법에는 어떤 알고리즘이 있는가?
앙상블기법 중에는 대표적으로 배깅(bagging)과 부스팅(boosting) 알고리즘이 있다. 이 알고리즘들은 분석용(training) 데이터에서 재표본(resampling)기법으로 얻어진 데이터에 의해 각 분류자가 형성된다.
신경망 분석에서 은닉층은 몇 개가 사용되는가?
또한, 설명변수가 은닉층 안의 모든 노드에 영향을 주게 되며 종속변수는 은닉층 안의 모든 노드에 의해 영향을 받는 것을 가정한다. 은닉층의 수는 클 수 있지만, 대체적으로 하나 또는 두 개의 은닉층이 사용된다.
데이터 마이닝은 어떠한 과정을 말하는가?
대용량 데이터에서 유용한 정보와 관계를 탐색하고 모형화하여 지식을 발견하고자 하는 일련의 과정을 데이터 마이닝(data mining)이라고 한다. 고전적 통계 모형인 선형판별분석(linear discriminant analysis), 로지스틱 회귀분석(logistic regression) 등에서부터 최근 신경망분석(neural network), 서포트 벡터 머신(support vector machine)에 이르기까지 다양한 알고리즘(algorithm)이 데이터 마이닝에 사용되고, 지속적으로 연구되고 있다.
참고문헌 (27)
김규곤 (2003). 데이터 마이닝에서 분류방법에 관한 연구, Journal of the Korean Data Analysis Society, 5, 101-112.
김기영, 전명식 (1994). , 자유아카데미, 서울.
이영섭, 오현정, 김미경 (2005). 데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석, , 18, 343-354.
Bauer, E. and Kohavi, R. (1999). An empirical comparison of voting classification algorithms: Bagging, Boosting and variants, Machine Learning, 36, 105-139.
Breiman, L. (1996). Bagging predictors, Machine Learning, 26, 123-140.
Breiman, L., Friedman, J. H., Olshen, R. A. and Stone, C. J. (1984). Classification and Regression Trees, Chapman & Hall, New York.
Clemen, R. (1989). Combining forecasts: A review and annotated bibliography, Journal of Forecasting, 5, 559-583.
Drucker, H. and Cortes, C. (1996). Boosting decision trees, Neural Information Processing Systems, 8, 470-485.
Druker, H., Schapire, R. and Simard, P. (1993). Boosting performance in neural networks, International Journal of Pattern Recognition and Artificial Intelligence, 7, 705-719.
Efron, B. and Tibshirani, R. (1993). An Introduction to the Bootstrap, Chapman & Hall, New York.
Frank, A. and Asuncion, A. (2010). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
Freund, Y. (1995). Boosting a weak learning algorithm by majority, Information and Computation, 121, 256-285.
Freund, Y. and Schapire, R. (1996). Experiments with a new boosting algorithm, Proceedings of the Thirteenth International Conference on Machine Learning, 148-156.
Kass, G. V. (1980). An Exploratory Technique for Investigating Large Quantities of Categorical Data. Journal of the Royal Statistical Society. Series C (Applied Statistics), 29, 119-127.
Kearns, M. and Valiant, L. G. (1994). Cryptographic limitations on learning Boolean formulae and finite automata, Journal of the Association for Computing Machinery, 41, 67-95.
Kim, H. J. and Loh, W. Y. (2001). Classification trees with unbiased multiway splits, Journal of the American Statistical Association, 96, 598-604.
Loh, W. Y. and Shih, Y. S. (1997). Split selection method for classification trees, Statistica Sinica, 7, 815-840.
Opitz, D. and Maclin, R. (1999). Popular ensemble methods: An empirical study, Journal of the Artificial Intelligence Research, 11, 169-198.
Perrone, M. (1993). Improving regression estimation: Averaging methods for variance reduction with extensions to general convex measure optimization, Doctoral dissertation, Department of Physics, Brown University.
Quinlan, J. R. (1992). C4.5 : Programming with Machine Learning, Morgan Kaufmann Publishers.
Quinlan, J. R. (1996). Bagging, boosting, and C4.5, Proceedings of the Fourteenth National Conference on Machine Learning, 725-730.
Schapire, R. E. (1990). The strength of weak learnability, Machine Learning, 5, 197-227.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.