최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기응용통계연구 = The Korean journal of applied statistics, v.29 no.5, 2016년, pp.961 - 975
김은경 (코리아크레딧뷰로 연구소) , 전명식 (고려대학교 통계학과) , 방성완 (육군사관학교 수학과)
The hierarchically penalized support vector machine (H-SVM) has been developed to perform simultaneous classification and input variable selection when input variables are naturally grouped or generated by factors. However, the H-SVM may suffer from estimation inefficiency because it applies the sam...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
불균형 자료의 분류분석에서 일반적인 분류기법을 적용할 경우 단점은? | 불균형 자료의 분류분석에서는 일반적으로 개체수가 많은 다수집단(majority class)보다 개체수가 작은 소수집단(minority class)의 오분류 손실이 더 크며, 그로 인해 소수집단의 분류 정확도에 대한 중요성이 더 강조된다. 그러나 불균형 자료의 분석에서 일반적인 분류기법을 적용할 경우 전체 정확도를 향상시키기 위해 분류함수를 다수집단으로 편향되게 추정하므로 소수집단의 분류정확도가 현저히 감소하게 된다. 소수집단의 분류 정확도를 향상시키기 위한 대표적인 방법에는 가중치를 이용하여 소수집단의 오분류 비용을 증가시키는 오분류 비용의 차등적용 방법과 균형된 자료로 만들기 위해 개체수를 인위적으로 조정하는 샘플링 방법이 있다. | |
H-SVM은 무엇인가? | H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. | |
H-SVM이 추정의 효율성면에서 감소하는 이유? | H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다. |
Akbani, R., Kwek, S., and Japkowicz, N. (2004). Applying support vector machines to imbalanced datasets. In Proceedings of European Conference of Machine Learning, 3201, 39-50.
Bang, S., Kang, J., Jhun, M., and Kim, E. (2016). Hierarchically penalized support vector machine with grouped variables, International Journal of Machine Learning and Cybernetics, DOI:10.1007/s13042-016-0494-2.
Berkelaar, M. and others (2014). lpSolve: Interface to Lp solve v. 5.5 to solve linear/integer programs. R package version 5.6.10. http://CRAN.R-project.org/packagelpSolve.
Breiman, L. (1995). Better subset regression using the nonnegative garrote, Technometrics, 37, 373-384.
Chawla, N., Bowyer, K., Hall, L., and Kegelmeyer, W. (2002). SMOTE: Synthetic minority over-sampling technique, Journal of Articial Intelligence Research, 16, 321-357.
Cortes, C. and Vapnik, V. (1995). Support vector networks, Machine Learning, 20, 273-297.
Domingos, P. (1999). Metacost: a general method for making classifiers cost-sensitive. In Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 155-164.
Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and its Oracle properties, Journal of American Statistical Association, 96, 1348-1360.
Friberg, H. A. (2013). Users Guide to the R-to-MOSEK Interface. URL http://rmosek.r-forge.r-project.org.
Hwang W., Zhang H., and Ghosal, S. (2009). FIRST: Combining forward iterative selection and shrinkage in high dimensional sparse linear regression, Statistics and Its Interface, 2, 341-348.
Japkowicz, N. (2000). The Class imbalance problem; Significance and Strategies. In Proceedings of the 2000 International Conference on Articial Intelligence : Special Track on Inductive Learning, 1, 111-117
Kotsiantis, S., Kanellopoulos, D., and Pintelas, P. (2006). Handling imbalanced datasets: a review, GESTS International Transactions on Computer Science and Engineering, 30, 25-36.
Kubat, M. and Matwin, S. (1997). Addressing the curse of imbalanced training sets: one-sided selection. In Proceedings of the Fourteenth International Conference on Machine Learning, 179-186.
R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.
Tang, Y., Zhang, Y., Chawla, N., and Krasser, S. (2009). SVMs modeling for highly imbalanced classification, IEEE Transactions on Systems, Man, and Cybernetics, Part B, 39, 281-288.
Turlach, B. and Weingessel, A. (2013). quadprog: Functions to solve quadratic programming problems. R package version 1.5-5. http://CRAN.R-project.org/packagequadprog.
Vapnik, V. N. (1998). Statistical Learning Theory, Wiley, New York.
Veropoulos, K., Campbell, C. and Cristianini, N. (1999). Controlling the sensitivity of support vector machines. In Proceedings of the International Joint Conference on AI, 55-60.
Wang, S., Nan, B., Zhou, N., and Zhu, J. (2009). Hierarchically penalized Cox regression with grouped variables, Biometrika, 96, 307-322.
Yuan, M. and Lin, Y. (2006). Model selection and estimation in regression with grouped variables, Journal of the Royal Statistical Society, Series B, 68, 49-67.
Zhu, J., Rosset, S., Hastiem T., and Tibshirani, R. (2003). 1-norm support vector machine, Neural Information Proceeding Systems, 16, 49-56.
Zou, H. (2006). The adaptive lasso and its oracle properties, Journal of the Royal Statistical Society, Series B, 101, 1418-1429.
Zou, H. (2007). An improved 1-norm SVM for simultaneous classification and variable selection. In Proceedings of the 11th International Conference on Articial Intelligence and Statistics.
Zou, H. and Yuan, M. (2008). The $F_{\infty}$ -norm support vector machine, Statistica Sinica, 18, 379-398.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.