[논문]그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신

김은경; 전명식; 방성완

doi:10.5351/kjas.2016.29.5.961

그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신
Hierarchically penalized support vector machine for the classication of imbalanced data with grouped variables 원문보기

응용통계연구 = The Korean journal of applied statistics, v.29 no.5, 2016년, pp.961 - 975

김은경 (코리아크레딧뷰로 연구소) , 전명식 (고려대학교 통계학과) , 방성완 (육군사관학교 수학과)

초록
AI-Helper

H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다. 이러한 문제점들을 보완하기 위해 본 논문에서는 적응적 조율모수를 사용하여 변수선택의 성능을 개선하고 집단별 오분류 비용을 차등적으로 부여하는 WAH-SVM을 제안하였다. 또한, 모의실험과 실제자료 분석을 통하여 제안한 모형과 기존 방법론들의 성능 비교하였으며, 제안한 모형의 유용성과 활용 가능성 확인하였다.

Abstract ▼ AI-Helper

The hierarchically penalized support vector machine (H-SVM) has been developed to perform simultaneous classification and input variable selection when input variables are naturally grouped or generated by factors. However, the H-SVM may suffer from estimation inefficiency because it applies the same amount of shrinkage to each variable without assessing its relative importance. In addition, when analyzing imbalanced data with uneven class sizes, the classification accuracy of the H-SVM may drop significantly in predicting minority class because its classifiers are undesirably biased toward the majority class. To remedy such problems, we propose the weighted adaptive H-SVM (WAH-SVM) method, which uses a adaptive tuning parameters to improve the performance of variable selection and the weights to differentiate the misclassification of data points between classes. Numerical results are presented to demonstrate the competitive performance of the proposed WAH-SVM over existing SVM methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 소수집단의 분류 정확도를 향상시키기 위하여 H-SVM의 적합식에 오분류 비용을 차등 적용하고, 벌칙항의 조율모수를 적응적으로 부여하여 그룹과 그룹내 입력변수의 선택에서 효율적인 WAH-SVM 기법을 제안하였다. 본 논문의 구성은 다음과 같다.
본 논문에서는 두 집단의 개체수가 상이한 불균형 자료에서 고차원의 입력변수들이 그룹화 되어 있거나 특정 요인(factor)에서 의해 파생되어진 경우를 고려하였다. 이러한 자료구조에서는 개별 입력변수 뿐만 아니라 그룹(group) 또는 요인의 중요성도 함께 고려되어야 한다.
-norm SVM은 입력변수들을 개별적으로 선택함으로 인해 그룹변수들의 동시적인 선택에서는 그 유용성이 떨어진다. 본 논문에서는 입력변수들이 그룹화 되어 있는 고차원 자료의 분류분석에서 그룹과 그룹내 입력변수의 동시적인 선택이 가능한 H-SVM을 응용하여 불균형 자료의 분석에 활용 가능한 WAH-SVM 방법론을 제안하였다. 이는 H-SVM에 적응적 조율모수를 적용하여 추정의 효율성을 향상시키고, 오분류 비용을 집단별로 차등적으로 적용하여 소수집단의 예측력을 개선한 모형이다.

제안 방법

2절에서는 먼저 분류분석에서 그룹화된 입력변수의 선택을 위한 기존의 F∞-norm SVM과 H-SVM 방법론을 소개하고, 이어서 H-SVM에 적응적 조율모수와 오분류에 대한 개체별 가중치를 적용한 WAH-SVM을 제안하였다.
또한, 조율모수 λ를 선택하기 위해 크기가 1,000인 검증자료(validation data)와 분류기법들의 분류 정확도를 평가하기 위해 크기가 10,000인 평가자료(test data)를 각각 독립적으로 생성하였다. 각 분류기법의 예측력을 평가하기 위하여 전체정확도, 민감도, 특이도, 그리고 기하평균을 계산하였으며, 변수선택의 성능을 평가하기 위하여 중요한 입력변수 중에서 유의한 변수로 올바르게 선택된 개수(number of correctly selected input variable; NC)와 잡음변수 중에서 유의한 변수로 잘못 선택된 개수(number of incorrectly selected input variable; NIC)를 각각 계산하였다. 이러한 과정을 100번 독립적으로 반복하였으며, 각 평가지표에 대한 100번의 평균을 모의실험의 결과를 정리한 각각의 표에 나타내었다.
각각의 모의실험에서 모형적합을 위해 총 1,000개의 훈련자료(training data)를 생성하였으며, 이때소수집단의 비율을 5%(소수집단 50개, 다수집단 950개), 10%(소수집단 100개, 다수집단 900개), 20%(소수집단 200개, 다수집단 800개)로 하여 불균형의 정도를 달리하였다. 또한, 조율모수 λ를 선택하기 위해 크기가 1,000인 검증자료(validation data)와 분류기법들의 분류 정확도를 평가하기 위해 크기가 10,000인 평가자료(test data)를 각각 독립적으로 생성하였다.
분류기법들의 예측력 평가를 위해 전체 정확도, 민감도, 특이도. 그리고 기하평균을 계산하였으며, 변수선택의 선택을 평가하기 위해16개의 입력요인 중 유의한 요인으로 선택된 입력요인의 개수와 44개 입력요인 중 유의한 변수로 선택된 입력변수의 개수를 각각 계산하였다. 이러한 과정을 100번 독립적으로 반복하였으며, 각각의 평가지표에 대한 100번의 평균을 계산하였다.
본 논문에서 제안하는WAH-SVM의 성능을 평가하기 위해 L₁-norm SVM, F_∞-norm SVM, H-SVM에 적응적 조율모수 또는 오분류 가중치를 적용한 방법론들과 그 성능을 비교하였다. 그리고 불균형 자료의 분류분석에서 오분류 비용에 대한 가중치는 집단별로 부여하였다. 즉, 다수집단(−)과 소수집단(+)의 개체수를 각각 N⁻와 N⁺로 나타낼 때, 다수집단(−)의 오분류 비용 c_i는 C⁻ = N⁺/(N⁺+ N⁻)로, 소수집단(+)의 오분류 비용 c_i는 C⁺ = N⁻/(N⁺+N⁻)로 부여하였다.
연속형 입력변수 14개는 표준화하여 3차 다항식을 입력변수로 활용하였으며, 범주형 입력요인은 가변수(dummy variables) 형태로 변환하여 입력변수로 활용하였다. 따라서, 모형적합을 위해 총 44개 입력변수(input features)를 16개의 그룹(groups)으로 구성하였다 (Table 4.3).
먼저 제안한 WAH-SVM의 성능을 집단별 가중치와 적응적 조율모수의 적용여부에 따른 다양한 SVM방법론들과 비교하기 위해 소수집단의 비율이 10%인 불균형 자료에서 모의실험을 진행하였으며, 그 결과는 Table 3.1에 정리되어 있다. 가중치의 적용여부에 따른 분류정확도를 보면, 집단별로 오분류 비용을 차등 적용한 가중치 적용 방법이 가중치를 적용하지 않은 방법에 비해 다수집단의 분류 정확도인 특이도가 다소 하락하긴 하였으나, 전체정확도, 민감도, 기하평균이 향상되었으며, 특히 소수집단의 정확도인 민감도가 크게 향상된 것을 알 수 있다.
본 논문에서 제안하는WAH-SVM의 성능을 평가하기 위해 L1-norm SVM, F∞-norm SVM, H-SVM에 적응적 조율모수 또는 오분류 가중치를 적용한 방법론들과 그 성능을 비교하였다.
-norm SVM, H-SVM과 각각의 기법들에 가중치와 적응적 조율모수를 적용한 방법론을 사용하여 대출승인 자료를 분석하였으며, 이때 모형의 적합 및 평가를 위해 전체 자료의 1/4을 훈련자료로, 1/4을 검증자료로, 그리고 나머지1/2을 평가자료로 활용하였다. 분류기법들의 분류 정확도 평가를 위해 전체 정확도, 민감도, 특이도, 그리고 기하평균을 계산하였으며, 변수선택의 성능을 평가하기 위해 14개의 입력요인 중 유의한 요인으로 선택된 입력요인의 개수와 44개의 입력변수 중 유의한 변수로 선택된 입력변수의 개수를 각각 계산하였다. 이러한 과정을 100번 독립적으로 반복하였으며, 각각의 평가지표에 대한 100번의 평균을 Table 4.
1에 정리되어 있다. 비선형 분류함수의 추정을 위하여 표준화된 연속형 입력요인의 3차 다항식을 입력변수로 이용하였으며, 범주형 입력요인은 가변수(dummy variables)형태로 변환하여 입력변수(input features)로 활용하였다.
총 20개 입력요인 중, 입력변수로 사용하기 어려운 주소, 전화번호 등을 제외한 16개 요인을 활용하였다. 연속형 입력변수 14개는 표준화하여 3차 다항식을 입력변수로 활용하였으며, 범주형 입력요인은 가변수(dummy variables) 형태로 변환하여 입력변수로 활용하였다. 따라서, 모형적합을 위해 총 44개 입력변수(input features)를 16개의 그룹(groups)으로 구성하였다 (Table 4.
이 자료는 2011–2012년 사이에 국내 은행의 대출 승인에 관한 데이터로 대출자 2,000명에 대한 14개의 입력요인과 우량 또는 불량을 나타내는 이항 범주형 반응변수로 구성되어 있다.

대상 데이터

또한, 조율모수 λ를 선택하기 위해 크기가 1,000인 검증자료(validation data)와 분류기법들의 분류 정확도를 평가하기 위해 크기가 10,000인 평가자료(test data)를 각각 독립적으로 생성하였다.
전체 자료는 대출자의 대출 실행 후 1년 간 정상적인 상환이 이루어진 1,602명의 우량 대출자와 3회 차 이상의 연체가 발생한 398명의 불량 대출자로 구성되어 있으며, 두 집단 간의 개체수가 상당히 불균형적이다. 분류분석에서 사용한 입력요인은 대출 심사 시 대출 신청인이 제출한 신청서와 크레딧뷰로(credit bureau)로부터 수집하였으며, 이는 Table 4.1에 정리되어 있다. 비선형 분류함수의 추정을 위하여 표준화된 연속형 입력요인의 3차 다항식을 입력변수로 이용하였으며, 범주형 입력요인은 가변수(dummy variables)형태로 변환하여 입력변수(input features)로 활용하였다.
이동통신 이탈 자료는 이동통신 고객 5,000명의 유지(retention)와 이탈(churn)의 이항 반응변수와20개의 입력요인으로 구성되어 있으며, UCI Machine Learning Repository (http://archive.ics.uci.edu /ml)에서 제공하는 자료를 사용하였다. 이 자료는 소수집단인 이탈고객이 707명(15%)이고 다수집단인 유지고객이 4,293명(85%)인 불균형 자료이다.
전체 자료 중 1/4을 모형 적합을 위한 훈련자료로, 1/4을 조율모수 λ를 선택하기 위한 검증자료로, 그리고 나머지 1/2을 적합된 모형을 평가하기 위한 평가자료로 활용하였다.
제안하는 WAH-SVM의 성능을 비교 평가하기 위해 L1-norm SVM, F∞-norm SVM, H-SVM과 각각의 기법들에 가중치와 적응적 조율모수를 적용한 방법론을 사용하여 대출승인 자료를 분석하였으며, 이때 모형의 적합 및 평가를 위해 전체 자료의 1/4을 훈련자료로, 1/4을 검증자료로, 그리고 나머지1/2을 평가자료로 활용하였다.
이 자료는 소수집단인 이탈고객이 707명(15%)이고 다수집단인 유지고객이 4,293명(85%)인 불균형 자료이다. 총 20개 입력요인 중, 입력변수로 사용하기 어려운 주소, 전화번호 등을 제외한 16개 요인을 활용하였다. 연속형 입력변수 14개는 표준화하여 3차 다항식을 입력변수로 활용하였으며, 범주형 입력요인은 가변수(dummy variables) 형태로 변환하여 입력변수로 활용하였다.

데이터처리

이번 절에서는 대출승인 자료(loan approval data)를 활용하여 제안하는 WAH-SVM과 기존 SVM 방법들의 성능을 비교 평가하였다. 이 자료는 2011–2012년 사이에 국내 은행의 대출 승인에 관한 데이터로 대출자 2,000명에 대한 14개의 입력요인과 우량 또는 불량을 나타내는 이항 범주형 반응변수로 구성되어 있다.

이론/모형

5)의 목적함수 값이 감소하기 때문에 항상 수렴된 추정값을 얻을 수 있다. 본 논문에서는 선형계획법 문제의 최적해를 구하기 위해 R 프로그램 (R Core Team, 2014)의 lpSolve패키지 (Berkelaar 등, 2014)에 포함되어 있는 lp 함수를 사용하였다. 또한 L₂-norm SVM의 최적해는 quadprog 패키지 (Turlach와 Weingessel, 2013)에 포함되어 있는 solve.
이항 범주형 자료의 분류분석에서 분류 정확도를 비교 평가하기 위한 지표로 Kim 등 (2015)에서 사용한 전체정확도(overall accuracy), 민감도(sensitivity), 특이도(speciﬁcity) 그리고 기하평균(g-mean)을 사용하였다. 불균형 자료의 경우에는 일반적으로 널리 사용되는 전체정확도 보다 소수집단의 예측력을 평가할 수 있는 민감도와 기하평균이 더 의미 있는 평가지표가 될 수 있다.

성능/효과

2절에서는 먼저 분류분석에서 그룹화된 입력변수의 선택을 위한 기존의 F_∞-norm SVM과 H-SVM 방법론을 소개하고, 이어서 H-SVM에 적응적 조율모수와 오분류에 대한 개체별 가중치를 적용한 WAH-SVM을 제안하였다. 3절과 4절에서는 모의실험과 실제자료 분석을 통해 기존의 분류기법과 제안한 WAH-SVM의 성능을 비교하였으며, 제안 방법론의 활용가능성을 보였다. 마지막으로 5절에서는 결론과 더불어 차후 연구방향을 제시하였다.
Table 4.2를 보면, 우선 집단 간의 오분류 비용을 차등 적용하는 가중치 방법인 WL1-norm SVM, WF∞-norm SVM, WH-SVM이 가중치를 이용하지 않는 방법론에 비해 비록 특이도가 다소 감소하지만, 금융분야에서 중요하게 다루어지는 민감도 측면에서 아주 우수한 성능을 나타내고 있는 것을 확인할 알 수 있다.
1에 정리되어 있다. 가중치의 적용여부에 따른 분류정확도를 보면, 집단별로 오분류 비용을 차등 적용한 가중치 적용 방법이 가중치를 적용하지 않은 방법에 비해 다수집단의 분류 정확도인 특이도가 다소 하락하긴 하였으나, 전체정확도, 민감도, 기하평균이 향상되었으며, 특히 소수집단의 정확도인 민감도가 크게 향상된 것을 알 수 있다. 변수 선택 측면에도 가중치를 적용한 방법들이 그렇지 않은 방법들에 비해 잡음그룹과 변수의 제거 능력이 탁월한 것으로 나타났다.
변수 선택 측면에도 가중치를 적용한 방법들이 그렇지 않은 방법들에 비해 잡음그룹과 변수의 제거 능력이 탁월한 것으로 나타났다. 다음으로 적응적 조율모수의 사용여부에 따른 분류 정확도를 보면, 동일한 조율모수를 사용하는 방법에 비해 적응적 조율모수를 사용하는 방법론이 4가지 지표 모두 높은 수준을 나타내는 것을 알 수 있다. 마지막으로, 제안 방법인WAH-SVM의 경우 기존의 SVM 방법론들에 비해 소수집단의 분류 정확도인 민감도와 기하평균 측면에서 가장 우수한 성능을 보였으며, 잡음그룹과 잡음변수의 제거에도 그 성능이 탁월하였다.
오분류 비용에 대한 가중치를 적용하지 않은 H-SVM과 AH-SVM의 경우 소수집단에 대한 훈련개체의 비율이 낮아질수록 소수집단의 분류 정확도인 민감도가 급격히 낮아진 반면, 가중치를 적용한 WH-SVM과 WAH-SVM의 경우에는 민감도 하락이 크지 않음을 알 수 있다. 또한 제안 모형인 WAH-SVM의 분류 정확도가 가장 우수하게 나타났으며, 변수 선택에서도 잡음그룹과 변수를 제거하는 능력이 가장 탁월한 것을 확인할 수 있다.
가중치 적용방법인 WH-SVM과 WAH-SVM의 경우에는 소수집단의 비율이 낮아짐에도 불구하고 민감도 하락이 크지 않았다. 또한, 제안 모형인 WAH-SVM은 특이도는 다소 하락했으나, 민감도와 기하평균의 성능이 향상되었음을 알 수 있다. 변수 선택에 있어서도 제안 방법인WAH-SVM이 분류분석 기법들 중에서 잡음변수를 가장 많이 제거하였다.
또한 가중치가 적용된 상태에서 적응적 조율모수를 추가 적용한 WAL₁-norm SVM, WAF_∞-norm SVM, WAH-SVM은 적응적 조율모수를 적용하지 않은 방법들에 비해 변수선택에 있어서 더 간결한 모형을 제공하고 있다. 마지막으로 제안 방법인 WAH-SVM은 다른 비교 방법론들에 비해서 분류 정확도가 가장 우수하며, 입력변수의 선택에 있어서도 가장 간결한 모형을 제공하므로 실제불균형 자료의 분류분석에서 그 활용 가능성이 높다고 할 수 있겠다.
다음으로 적응적 조율모수의 사용여부에 따른 분류 정확도를 보면, 동일한 조율모수를 사용하는 방법에 비해 적응적 조율모수를 사용하는 방법론이 4가지 지표 모두 높은 수준을 나타내는 것을 알 수 있다. 마지막으로, 제안 방법인WAH-SVM의 경우 기존의 SVM 방법론들에 비해 소수집단의 분류 정확도인 민감도와 기하평균 측면에서 가장 우수한 성능을 보였으며, 잡음그룹과 잡음변수의 제거에도 그 성능이 탁월하였다.
3에 정리되어 있다. 모의실험 1의 결과와 마찬가지로 오분류 비용을 차등 적용하기위한 가중치와 적응적 조율모수의 사용으로 제안 방법인 WAH-SVM의 분류 정확도 및 변수선택의 성능이 크게 향상되었음을 알 수 있다.
가중치의 적용여부에 따른 분류정확도를 보면, 집단별로 오분류 비용을 차등 적용한 가중치 적용 방법이 가중치를 적용하지 않은 방법에 비해 다수집단의 분류 정확도인 특이도가 다소 하락하긴 하였으나, 전체정확도, 민감도, 기하평균이 향상되었으며, 특히 소수집단의 정확도인 민감도가 크게 향상된 것을 알 수 있다. 변수 선택 측면에도 가중치를 적용한 방법들이 그렇지 않은 방법들에 비해 잡음그룹과 변수의 제거 능력이 탁월한 것으로 나타났다. 다음으로 적응적 조율모수의 사용여부에 따른 분류 정확도를 보면, 동일한 조율모수를 사용하는 방법에 비해 적응적 조율모수를 사용하는 방법론이 4가지 지표 모두 높은 수준을 나타내는 것을 알 수 있다.
또한, 제안 모형인 WAH-SVM은 특이도는 다소 하락했으나, 민감도와 기하평균의 성능이 향상되었음을 알 수 있다. 변수 선택에 있어서도 제안 방법인WAH-SVM이 분류분석 기법들 중에서 잡음변수를 가장 많이 제거하였다.
이는 H-SVM에 적응적 조율모수를 적용하여 추정의 효율성을 향상시키고, 오분류 비용을 집단별로 차등적으로 적용하여 소수집단의 예측력을 개선한 모형이다. 본 논문에서는 모의실험과 실제자료의 분석을 통해 제안한 WAH-SVM이 입력변수가 그룹화 되어 있는 불균형 자료의 분류분석에서 기존의 방법들에 비해 분류 정확도와 변수선택 측면에서 그 성능이 우수함을 확인하였다.
우선, 소수집단의 예측력 개선을 위해 가중치를 달리 적용하는 WL1-norm SVM, WF∞-norm SVM, WH-SVM이 가중치를 이용하지 않는 방법론에 비해 소수집단의 예측력인 민감도가 크게 향상되었으며, 그로 인해 전체 예측력과 기하평균이 높게 나타남을 알 수 있다.
적응적 조율모수를 추가 적용한 WAL1-norm SVM, WAF∞-norm SVM, WAH-SVM은 동일한 조율모수를 적용하는 방법론에 비해 분류 정확도와 모형의 간결성측면에서 우수했으며, 특히 제안 방법인 WAH-SVM이 가장 좋은 성능을 보이고 있는 것을 확인할 수 있다.
이 자료는 2011–2012년 사이에 국내 은행의 대출 승인에 관한 데이터로 대출자 2,000명에 대한 14개의 입력요인과 우량 또는 불량을 나타내는 이항 범주형 반응변수로 구성되어 있다. 전체 자료는 대출자의 대출 실행 후 1년 간 정상적인 상환이 이루어진 1,602명의 우량 대출자와 3회 차 이상의 연체가 발생한 398명의 불량 대출자로 구성되어 있으며, 두 집단 간의 개체수가 상당히 불균형적이다. 분류분석에서 사용한 입력요인은 대출 심사 시 대출 신청인이 제출한 신청서와 크레딧뷰로(credit bureau)로부터 수집하였으며, 이는 Table 4.
2)는 연속형 요인의 4차 다항식을 입력변수로 이용한 가법모형이다. 총 9개의 요인 중에서 세 개의 요인 x₃, x₆, x₉가 중요한 요인으로 활용되었으며, 최종적으로 8개의 입력변수가 분류함수에 포함되었다.

후속연구

이처럼 입력변수의 상대적인 중요도에 관계없이 동일한 강도로 계수를 축소 추정하는 경우에는 추정의 효율성이 감소될 수 있다 (Fan과 Li, 2001; Yuan과 Lin, 2006). 따라서 변수선택의 성능을 향상시키기 위해 입력변수의 영향력이 강하다면 계수 추정 시 약한 벌점을 주고, 반대로 입력변수의 영향력이 약하다면 강한 벌점을 주는 적응적(adaptive) 조율모수를 고려할 수 있을 것이다. 입력변수들이 그룹화 되어 있는 경우 그룹별 변수선택의 성능을 향상시키기 위해 Bang과 Jhun (2012)은 조율모수를 적응적으로 부여한 Adaptive F_∞-norm SVM(AF_∞-norm SVM)을 제안하였으며, 그 적합식은
QP 함수를 사용하였다. 입력변수의 차원과 훈련자료의 개체수가 커짐에 따라 Rmosek 패키지 (Friberg, 2013)나 FIRST (Hwang등, 2009) 등과 같은 대규모(large scale) 최적화 문제(optimization problem)에 적합한 계산 알고리즘을 활용할 수 있을 것이며, 나아가 효율적인 계산을 위하여 solution path (Zhu 등, 2003)로 구현할 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	불균형 자료의 분류분석에서 일반적인 분류기법을 적용할 경우 단점은?	불균형 자료의 분류분석에서는 일반적으로 개체수가 많은 다수집단(majority class)보다 개체수가 작은 소수집단(minority class)의 오분류 손실이 더 크며, 그로 인해 소수집단의 분류 정확도에 대한 중요성이 더 강조된다. 그러나 불균형 자료의 분석에서 일반적인 분류기법을 적용할 경우 전체 정확도를 향상시키기 위해 분류함수를 다수집단으로 편향되게 추정하므로 소수집단의 분류정확도가 현저히 감소하게 된다. 소수집단의 분류 정확도를 향상시키기 위한 대표적인 방법에는 가중치를 이용하여 소수집단의 오분류 비용을 증가시키는 오분류 비용의 차등적용 방법과 균형된 자료로 만들기 위해 개체수를 인위적으로 조정하는 샘플링 방법이 있다.
	H-SVM은 무엇인가?	H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다.
	H-SVM이 추정의 효율성면에서 감소하는 이유?	H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다.

참고문헌 (28)

Akbani, R., Kwek, S., and Japkowicz, N. (2004). Applying support vector machines to imbalanced datasets. In Proceedings of European Conference of Machine Learning, 3201, 39-50.
Bang, S. and Jhun, M. (2012). On the use of adaptive weights for the $F_{\infty}$ -norm support vector machine, The Korean Journal of Applied Statistics, 25, 829-835.

원문보기 상세보기
Bang, S., Kang, J., Jhun, M., and Kim, E. (2016). Hierarchically penalized support vector machine with grouped variables, International Journal of Machine Learning and Cybernetics, DOI:10.1007/s13042-016-0494-2.

상세보기
Berkelaar, M. and others (2014). lpSolve: Interface to Lp solve v. 5.5 to solve linear/integer programs. R package version 5.6.10. http://CRAN.R-project.org/packagelpSolve.
Breiman, L. (1995). Better subset regression using the nonnegative garrote, Technometrics, 37, 373-384.

상세보기
Chawla, N., Bowyer, K., Hall, L., and Kegelmeyer, W. (2002). SMOTE: Synthetic minority over-sampling technique, Journal of Articial Intelligence Research, 16, 321-357.

상세보기
Cortes, C. and Vapnik, V. (1995). Support vector networks, Machine Learning, 20, 273-297.

상세보기
Domingos, P. (1999). Metacost: a general method for making classifiers cost-sensitive. In Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 155-164.
Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and its Oracle properties, Journal of American Statistical Association, 96, 1348-1360.

상세보기
Friberg, H. A. (2013). Users Guide to the R-to-MOSEK Interface. URL http://rmosek.r-forge.r-project.org.
Hwang W., Zhang H., and Ghosal, S. (2009). FIRST: Combining forward iterative selection and shrinkage in high dimensional sparse linear regression, Statistics and Its Interface, 2, 341-348.

상세보기
Japkowicz, N. (2000). The Class imbalance problem; Significance and Strategies. In Proceedings of the 2000 International Conference on Articial Intelligence : Special Track on Inductive Learning, 1, 111-117
Kim, E., Jhun, M., and Bang, S. (2015). Weighted $L_1$ -norm support vector machine for classification of highly imbalanced data, The Korea Journal of Applied Statistics, 28, 9-22.

원문보기 상세보기
Kotsiantis, S., Kanellopoulos, D., and Pintelas, P. (2006). Handling imbalanced datasets: a review, GESTS International Transactions on Computer Science and Engineering, 30, 25-36.
Kubat, M. and Matwin, S. (1997). Addressing the curse of imbalanced training sets: one-sided selection. In Proceedings of the Fourteenth International Conference on Machine Learning, 179-186.
Lin, Y., Lee, Y., and Wahba, G. (2002). Support vector machines for classification in nonstandard situations, Machine Learning, 46, 191-202.
R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.
Tang, Y., Zhang, Y., Chawla, N., and Krasser, S. (2009). SVMs modeling for highly imbalanced classification, IEEE Transactions on Systems, Man, and Cybernetics, Part B, 39, 281-288.

상세보기
Turlach, B. and Weingessel, A. (2013). quadprog: Functions to solve quadratic programming problems. R package version 1.5-5. http://CRAN.R-project.org/packagequadprog.
Vapnik, V. N. (1998). Statistical Learning Theory, Wiley, New York.
Veropoulos, K., Campbell, C. and Cristianini, N. (1999). Controlling the sensitivity of support vector machines. In Proceedings of the International Joint Conference on AI, 55-60.
Wang, S., Nan, B., Zhou, N., and Zhu, J. (2009). Hierarchically penalized Cox regression with grouped variables, Biometrika, 96, 307-322.

상세보기
Yuan, M. and Lin, Y. (2006). Model selection and estimation in regression with grouped variables, Journal of the Royal Statistical Society, Series B, 68, 49-67.

상세보기
Zhou, N. and Zhu, J. (2010). Group variable selection via a hierarchical lasso and its oracle property, Statistics and Its Interface, 3, 557-574.
Zhu, J., Rosset, S., Hastiem T., and Tibshirani, R. (2003). 1-norm support vector machine, Neural Information Proceeding Systems, 16, 49-56.
Zou, H. (2006). The adaptive lasso and its oracle properties, Journal of the Royal Statistical Society, Series B, 101, 1418-1429.
Zou, H. (2007). An improved 1-norm SVM for simultaneous classification and variable selection. In Proceedings of the 11th International Conference on Articial Intelligence and Statistics.
Zou, H. and Yuan, M. (2008). The $F_{\infty}$ -norm support vector machine, Statistica Sinica, 18, 379-398.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증