$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신
Hierarchically penalized support vector machine for the classication of imbalanced data with grouped variables 원문보기

응용통계연구 = The Korean journal of applied statistics, v.29 no.5, 2016년, pp.961 - 975  

김은경 (코리아크레딧뷰로 연구소) ,  전명식 (고려대학교 통계학과) ,  방성완 (육군사관학교 수학과)

초록
AI-Helper 아이콘AI-Helper

H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다. 이러한 문제점들을 보완하기 위해 본 논문에서는 적응적 조율모수를 사용하여 변수선택의 성능을 개선하고 집단별 오분류 비용을 차등적으로 부여하는 WAH-SVM을 제안하였다. 또한, 모의실험과 실제자료 분석을 통하여 제안한 모형과 기존 방법론들의 성능 비교하였으며, 제안한 모형의 유용성과 활용 가능성 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

The hierarchically penalized support vector machine (H-SVM) has been developed to perform simultaneous classification and input variable selection when input variables are naturally grouped or generated by factors. However, the H-SVM may suffer from estimation inefficiency because it applies the sam...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문에서는 소수집단의 분류 정확도를 향상시키기 위하여 H-SVM의 적합식에 오분류 비용을 차등 적용하고, 벌칙항의 조율모수를 적응적으로 부여하여 그룹과 그룹내 입력변수의 선택에서 효율적인 WAH-SVM 기법을 제안하였다. 본 논문의 구성은 다음과 같다.
  • 본 논문에서는 두 집단의 개체수가 상이한 불균형 자료에서 고차원의 입력변수들이 그룹화 되어 있거나 특정 요인(factor)에서 의해 파생되어진 경우를 고려하였다. 이러한 자료구조에서는 개별 입력변수 뿐만 아니라 그룹(group) 또는 요인의 중요성도 함께 고려되어야 한다.
  • -norm SVM은 입력변수들을 개별적으로 선택함으로 인해 그룹변수들의 동시적인 선택에서는 그 유용성이 떨어진다. 본 논문에서는 입력변수들이 그룹화 되어 있는 고차원 자료의 분류분석에서 그룹과 그룹내 입력변수의 동시적인 선택이 가능한 H-SVM을 응용하여 불균형 자료의 분석에 활용 가능한 WAH-SVM 방법론을 제안하였다. 이는 H-SVM에 적응적 조율모수를 적용하여 추정의 효율성을 향상시키고, 오분류 비용을 집단별로 차등적으로 적용하여 소수집단의 예측력을 개선한 모형이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
불균형 자료의 분류분석에서 일반적인 분류기법을 적용할 경우 단점은? 불균형 자료의 분류분석에서는 일반적으로 개체수가 많은 다수집단(majority class)보다 개체수가 작은 소수집단(minority class)의 오분류 손실이 더 크며, 그로 인해 소수집단의 분류 정확도에 대한 중요성이 더 강조된다. 그러나 불균형 자료의 분석에서 일반적인 분류기법을 적용할 경우 전체 정확도를 향상시키기 위해 분류함수를 다수집단으로 편향되게 추정하므로 소수집단의 분류정확도가 현저히 감소하게 된다. 소수집단의 분류 정확도를 향상시키기 위한 대표적인 방법에는 가중치를 이용하여 소수집단의 오분류 비용을 증가시키는 오분류 비용의 차등적용 방법과 균형된 자료로 만들기 위해 개체수를 인위적으로 조정하는 샘플링 방법이 있다.
H-SVM은 무엇인가? H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다.
H-SVM이 추정의 효율성면에서 감소하는 이유? H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (28)

  1. Akbani, R., Kwek, S., and Japkowicz, N. (2004). Applying support vector machines to imbalanced datasets. In Proceedings of European Conference of Machine Learning, 3201, 39-50. 

  2. Bang, S. and Jhun, M. (2012). On the use of adaptive weights for the $F_{\infty}$ -norm support vector machine, The Korean Journal of Applied Statistics, 25, 829-835. 

  3. Bang, S., Kang, J., Jhun, M., and Kim, E. (2016). Hierarchically penalized support vector machine with grouped variables, International Journal of Machine Learning and Cybernetics, DOI:10.1007/s13042-016-0494-2. 

  4. Berkelaar, M. and others (2014). lpSolve: Interface to Lp solve v. 5.5 to solve linear/integer programs. R package version 5.6.10. http://CRAN.R-project.org/packagelpSolve. 

  5. Breiman, L. (1995). Better subset regression using the nonnegative garrote, Technometrics, 37, 373-384. 

  6. Chawla, N., Bowyer, K., Hall, L., and Kegelmeyer, W. (2002). SMOTE: Synthetic minority over-sampling technique, Journal of Articial Intelligence Research, 16, 321-357. 

  7. Cortes, C. and Vapnik, V. (1995). Support vector networks, Machine Learning, 20, 273-297. 

  8. Domingos, P. (1999). Metacost: a general method for making classifiers cost-sensitive. In Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 155-164. 

  9. Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and its Oracle properties, Journal of American Statistical Association, 96, 1348-1360. 

  10. Friberg, H. A. (2013). Users Guide to the R-to-MOSEK Interface. URL http://rmosek.r-forge.r-project.org. 

  11. Hwang W., Zhang H., and Ghosal, S. (2009). FIRST: Combining forward iterative selection and shrinkage in high dimensional sparse linear regression, Statistics and Its Interface, 2, 341-348. 

  12. Japkowicz, N. (2000). The Class imbalance problem; Significance and Strategies. In Proceedings of the 2000 International Conference on Articial Intelligence : Special Track on Inductive Learning, 1, 111-117 

  13. Kim, E., Jhun, M., and Bang, S. (2015). Weighted $L_1$ -norm support vector machine for classification of highly imbalanced data, The Korea Journal of Applied Statistics, 28, 9-22. 

  14. Kotsiantis, S., Kanellopoulos, D., and Pintelas, P. (2006). Handling imbalanced datasets: a review, GESTS International Transactions on Computer Science and Engineering, 30, 25-36. 

  15. Kubat, M. and Matwin, S. (1997). Addressing the curse of imbalanced training sets: one-sided selection. In Proceedings of the Fourteenth International Conference on Machine Learning, 179-186. 

  16. Lin, Y., Lee, Y., and Wahba, G. (2002). Support vector machines for classification in nonstandard situations, Machine Learning, 46, 191-202. 

  17. R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/. 

  18. Tang, Y., Zhang, Y., Chawla, N., and Krasser, S. (2009). SVMs modeling for highly imbalanced classification, IEEE Transactions on Systems, Man, and Cybernetics, Part B, 39, 281-288. 

  19. Turlach, B. and Weingessel, A. (2013). quadprog: Functions to solve quadratic programming problems. R package version 1.5-5. http://CRAN.R-project.org/packagequadprog. 

  20. Vapnik, V. N. (1998). Statistical Learning Theory, Wiley, New York. 

  21. Veropoulos, K., Campbell, C. and Cristianini, N. (1999). Controlling the sensitivity of support vector machines. In Proceedings of the International Joint Conference on AI, 55-60. 

  22. Wang, S., Nan, B., Zhou, N., and Zhu, J. (2009). Hierarchically penalized Cox regression with grouped variables, Biometrika, 96, 307-322. 

  23. Yuan, M. and Lin, Y. (2006). Model selection and estimation in regression with grouped variables, Journal of the Royal Statistical Society, Series B, 68, 49-67. 

  24. Zhou, N. and Zhu, J. (2010). Group variable selection via a hierarchical lasso and its oracle property, Statistics and Its Interface, 3, 557-574. 

  25. Zhu, J., Rosset, S., Hastiem T., and Tibshirani, R. (2003). 1-norm support vector machine, Neural Information Proceeding Systems, 16, 49-56. 

  26. Zou, H. (2006). The adaptive lasso and its oracle properties, Journal of the Royal Statistical Society, Series B, 101, 1418-1429. 

  27. Zou, H. (2007). An improved 1-norm SVM for simultaneous classification and variable selection. In Proceedings of the 11th International Conference on Articial Intelligence and Statistics. 

  28. Zou, H. and Yuan, M. (2008). The $F_{\infty}$ -norm support vector machine, Statistica Sinica, 18, 379-398. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로