$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델
A Hybrid SVM Classifier for Imbalanced Data Sets 원문보기

지능정보연구 = Journal of intelligence and information systems, v.19 no.2, 2013년, pp.125 - 140  

이재식 (아주대학교 경영대학 e-비즈니스학과) ,  권종구 (아주대학교 일반대학원 경영정보학과)

초록
AI-Helper 아이콘AI-Helper

어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

We call a data set in which the number of records belonging to a certain class far outnumbers the number of records belonging to the other class, 'imbalanced data set'. Most of the classification techniques perform poorly on imbalanced data sets. When we evaluate the performance of a certain classif...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • Hybrid Model 사용의 목적은 하나의 문제를 해결하기 위해 여러 다양한 모델들을 사용함으로써 하나의 모델을 사용할 때보다 더 좋은 예측 성능을 얻고자 하는 것이다. Hybrid Model은 입력 데이터의 사용 방법, 하위 모델들의 역할, 하위 모델들로부터 얻어진 해의 결합 방법 등에 따라 여러 유형으로 분류될 수 있는데, Lee and Lee는 Hybrid Model을 구축하는 방법으로서 Whole Data Approach와 Segmented Data Approach의 두 가지 접근법을 제시하였다(Lee and Lee, 2006).
  • 따라서 본 연구에서는 불균형 데이터 집합 분류에서 나타나는 문제점을 해결하기 위한 Hybrid Model을 제시하고자 한다. 즉, 불균형 데이터 집합을 분류할 때 상대적으로 낮게 나오는 소수 클래스의 적중률을 높이고 상대적으로 높게 나오는 다수 클래스의 적중률은 유지하고자 한다.
  • 완성된 Hybrid SVM Model과 SVM_I, SVM_B Model의 Test Data에 대한 성능은 [Table 6]와 같다. 본 연구에서는 Sampling을 10번 하여 10-fold Cross Validation을 수행하였으므로, 10개 Fold의 결과가 제시되어 있다.
  • 본 연구에서는 불균형 데이터 집합의 분류에 있어서 두각을 나타내고 있는 SVM을 기본으로, 적중률을 높일 뿐만 아니라 민감도와 특이도에 있어서도 만족할만한 성능을 보이는 Hybrid SVM Model을 구축하였다.
  • 3절에서 제시한 Hybrid SVM Model의 두 가지 목적을 다음과 같이 설정하였다. 즉, Hybrid SVM Model의 민감도는 SVM_I의 수준을, 특이도는 SVM_B의 수준을 유지하거나 또는 그 이상으로 향상 시키고자 한다.
  • 따라서 본 연구에서는 불균형 데이터 집합 분류에서 나타나는 문제점을 해결하기 위한 Hybrid Model을 제시하고자 한다. 즉, 불균형 데이터 집합을 분류할 때 상대적으로 낮게 나오는 소수 클래스의 적중률을 높이고 상대적으로 높게 나오는 다수 클래스의 적중률은 유지하고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
불균형 데이터 집합이란 어떤 경우를 말하는가? 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다.
속성은 무엇으로 구분할 수 있는가? 하나의 데이터는 다수의 레코드를 포함하고 있으며, 레코드는 여러 개의 속성으로 이루어져 있다. 속성은 레코드를 구분하는 목표속성과 목표속성에 영향을 주는 설명속성으로 구분할 수 있다. 목표속성 값에 따라 레코드들은 여러 개의 클래스로 군집화 될 수 있다.
비대칭(Skewed) 데이터 집합의 예는 무엇이 있는가? 각 클래스들이 비교적 균등한 개수의 레코드들을 포함하고 있을 때, 이 데이터 집합을 균형데이터 집합(Balanced Data Set)이라고 부르고, 어떤 특정 클래스가 다른 클래스들보다 현저히 많은 레코드들을 포함하고 있을 때 이를 불균형 데이터 집합(Imbalanced Data Set) 혹은 비대칭(Skewed) 데이터 집합이라고 부른다. 이러한 불균형 데이터 집합의 예로는 의료 분야에서 희귀한 질병을 가진 환자, 이동통신에서의 이탈 고객, 금융 분야에서의 신용불량자 등이 있다(McNamee et al., 2002).
질의응답 정보가 도움이 되었나요?

참고문헌 (28)

  1. Akbani R., K. Wek, and S. J. Apkwicz, "Applying Support Vector Machines to Imbalanced Data Sets," Proc. 15th European Conf. on Machine Learning, (2004), 39-50. 

  2. Barandela, J., S. Sanchez, V. Garcaa, and E. Rangel, "Strategies for Learning in Class Imbalance Problems," Pattern Recognition, Vol.36(2003), 849-851. 

  3. Bache, K. and M. Lichman, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA : University of California, School of Information and Computer Science, 2013. 

  4. Breiman, L., J. H. Friedman, J. A. Olshen, and C. J. Stone, Classification and Regression Trees, Wadsworth, 1984. 

  5. Calleja, J., A. Benitez, M. A. Medina, and O. Fuentes, "Machine Learning from Imbalanced Data Sets for Astronomical Object Classification," Proc. Int'l Conf. on Soft Computing and Pattern Recognition, (2011), 435-439. 

  6. Cardie, C. and N. Howe, "Improving Minority Class Prediction Using Case-Specific Feature Weights," Proc. 14th Int'l Conf. on Machine Learning, (1997), 57-65. 

  7. Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE : Synthetic Minority Over Sampling Technique," Journal of Artificial Intelligence Research, Vol.16(2002), 321-357. 

  8. Chen, X., B. Gerlach, and D. Casasent, "Pruning Support Vectors for Imbalanced Data Classification," Proc. Int'l Joint Conf. on Neural Networks, (2005), 1883-1888. 

  9. Cristianini, N. and J. Shawe-Taylor, An Introduction to Support Vector Machines, Cambridge University Press, MA, 2000. 

  10. Egan, J. P., Signal Detection Theory and Roc Analysis. New York : Academic Press, 1975. 

  11. Ganganwar, V., "An Overview of Classification Algorithms for Imbalanced Datasets," Int'l Journal of Emerging Technology and Advanced Engineering, Vol.2, No.4(2012), 42-47. 

  12. Grzymala-Busse, J., X. Zheng, L. Goodwin, and W. Grzymala-Busse, "An Approach to Imbalanced Data Sets Based on Changing Rule Strength," Proc. AAAI Workshop, (2000), 69-74. 

  13. Jang, Y. S., J. W. Kim, and J. Hur, "Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm," Journal of Intelligence and Information Systems, Vol.14, No.3 (2008), 133-154. 

  14. Jo, T. and N. Japkowicz, "Class Imbalances versus Small Disjuncts," ACM SIGKDD Exploration, Vol.6(2004), 40-49. 

  15. Joshi, M., V. Kumar, and R. Agarwal, "Evaluating Boosting Algorithms to Classify Rare Classes : Comparison and Improvements," Proc. 1st IEEE Int'l Conf. on Data Mining, (2001), 257-264. 

  16. Kim, M.-J., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 29-45. 

  17. Kotsiantis, S. B. and P. E. Pintelas, "Mixture of Expert Agents for Handling Imbalanced Data Sets," Ann. Math. Computer Teleinformatics, (2003), 46-55. 

  18. Kubat, M. and S. Matwin, "Addressing the Curse of Imbalanced Data Sets : One-sided Sampling," Proc. 14th Int'l Conf. on Machine Learning, (1997), 179-186. 

  19. Lee, H.-U. and H. Ahn, "An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 157-173. 

  20. Lee, J. S. and J. C. Lee, "Customer Churn Prediction by Hybrid Model," Advanced Data Mining and Applications, Lecture Note on Artificial Intelligence Vol.4093(2006), 959-966. 

  21. Ling, C. and C. Li, "Data Mining for Direct Marketing Problems and Solutions," Proc. 4th Int'l Conf. on Knowledge Discovery and Data Mining (KDD-98), New York, 1998. 

  22. Linoff, G. and M. Berry, Data Mining Techniques, 3rd Ed., Wiley Pub. Inc., 2011. 

  23. McNamee, B., P. Cunningham, S. Byrne, and O. Corrigan, "The Problem of Bias in Training Data in Regression Problems in Medical Decision Support," Artificial Intelligence in Medicine, Vol.24(2002), 51-70. 

  24. Min, J. H. and Y. C. Lee, "Bankruptcy Prediction Using Support Vector Machine with Optimal Choice of Kernel Function Parameters," Expert Systems with Applications, Vol.28(2005), 603-614. 

  25. Vapnik, V., Estimation of Dependences Based on Empirical Data, Nauka, Moscow, 1979. 

  26. Vapnik, V., The Nature of Statistical Learning Theory, Chapter 5. Springer-Verlag, New York, 1995. 

  27. Veropoulos, K., C. Campbell, and N. Cristianini, "Controlling the Sensitivity of Support Vector Machines," Proc. Int'l Joint Conf. on AI , (1999), 55-60. 

  28. Wu, G. and E. Chang, "Class-Boundary Alignment for Imbalanced Dataset Learning," Proc. Int'l Conf. on Machine Learning : 2003 Workshop on Learning from Imbalanced Data Sets, Washington, D.C., 2003. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로