최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기지능정보연구 = Journal of intelligence and information systems, v.19 no.2, 2013년, pp.125 - 140
이재식 (아주대학교 경영대학 e-비즈니스학과) , 권종구 (아주대학교 일반대학원 경영정보학과)
We call a data set in which the number of records belonging to a certain class far outnumbers the number of records belonging to the other class, 'imbalanced data set'. Most of the classification techniques perform poorly on imbalanced data sets. When we evaluate the performance of a certain classif...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
불균형 데이터 집합이란 어떤 경우를 말하는가? | 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. | |
속성은 무엇으로 구분할 수 있는가? | 하나의 데이터는 다수의 레코드를 포함하고 있으며, 레코드는 여러 개의 속성으로 이루어져 있다. 속성은 레코드를 구분하는 목표속성과 목표속성에 영향을 주는 설명속성으로 구분할 수 있다. 목표속성 값에 따라 레코드들은 여러 개의 클래스로 군집화 될 수 있다. | |
비대칭(Skewed) 데이터 집합의 예는 무엇이 있는가? | 각 클래스들이 비교적 균등한 개수의 레코드들을 포함하고 있을 때, 이 데이터 집합을 균형데이터 집합(Balanced Data Set)이라고 부르고, 어떤 특정 클래스가 다른 클래스들보다 현저히 많은 레코드들을 포함하고 있을 때 이를 불균형 데이터 집합(Imbalanced Data Set) 혹은 비대칭(Skewed) 데이터 집합이라고 부른다. 이러한 불균형 데이터 집합의 예로는 의료 분야에서 희귀한 질병을 가진 환자, 이동통신에서의 이탈 고객, 금융 분야에서의 신용불량자 등이 있다(McNamee et al., 2002). |
Akbani R., K. Wek, and S. J. Apkwicz, "Applying Support Vector Machines to Imbalanced Data Sets," Proc. 15th European Conf. on Machine Learning, (2004), 39-50.
Barandela, J., S. Sanchez, V. Garcaa, and E. Rangel, "Strategies for Learning in Class Imbalance Problems," Pattern Recognition, Vol.36(2003), 849-851.
Bache, K. and M. Lichman, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA : University of California, School of Information and Computer Science, 2013.
Breiman, L., J. H. Friedman, J. A. Olshen, and C. J. Stone, Classification and Regression Trees, Wadsworth, 1984.
Calleja, J., A. Benitez, M. A. Medina, and O. Fuentes, "Machine Learning from Imbalanced Data Sets for Astronomical Object Classification," Proc. Int'l Conf. on Soft Computing and Pattern Recognition, (2011), 435-439.
Cardie, C. and N. Howe, "Improving Minority Class Prediction Using Case-Specific Feature Weights," Proc. 14th Int'l Conf. on Machine Learning, (1997), 57-65.
Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE : Synthetic Minority Over Sampling Technique," Journal of Artificial Intelligence Research, Vol.16(2002), 321-357.
Chen, X., B. Gerlach, and D. Casasent, "Pruning Support Vectors for Imbalanced Data Classification," Proc. Int'l Joint Conf. on Neural Networks, (2005), 1883-1888.
Cristianini, N. and J. Shawe-Taylor, An Introduction to Support Vector Machines, Cambridge University Press, MA, 2000.
Egan, J. P., Signal Detection Theory and Roc Analysis. New York : Academic Press, 1975.
Ganganwar, V., "An Overview of Classification Algorithms for Imbalanced Datasets," Int'l Journal of Emerging Technology and Advanced Engineering, Vol.2, No.4(2012), 42-47.
Grzymala-Busse, J., X. Zheng, L. Goodwin, and W. Grzymala-Busse, "An Approach to Imbalanced Data Sets Based on Changing Rule Strength," Proc. AAAI Workshop, (2000), 69-74.
Jang, Y. S., J. W. Kim, and J. Hur, "Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm," Journal of Intelligence and Information Systems, Vol.14, No.3 (2008), 133-154.
Jo, T. and N. Japkowicz, "Class Imbalances versus Small Disjuncts," ACM SIGKDD Exploration, Vol.6(2004), 40-49.
Joshi, M., V. Kumar, and R. Agarwal, "Evaluating Boosting Algorithms to Classify Rare Classes : Comparison and Improvements," Proc. 1st IEEE Int'l Conf. on Data Mining, (2001), 257-264.
Kim, M.-J., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 29-45.
Kotsiantis, S. B. and P. E. Pintelas, "Mixture of Expert Agents for Handling Imbalanced Data Sets," Ann. Math. Computer Teleinformatics, (2003), 46-55.
Kubat, M. and S. Matwin, "Addressing the Curse of Imbalanced Data Sets : One-sided Sampling," Proc. 14th Int'l Conf. on Machine Learning, (1997), 179-186.
Lee, H.-U. and H. Ahn, "An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 157-173.
Lee, J. S. and J. C. Lee, "Customer Churn Prediction by Hybrid Model," Advanced Data Mining and Applications, Lecture Note on Artificial Intelligence Vol.4093(2006), 959-966.
Ling, C. and C. Li, "Data Mining for Direct Marketing Problems and Solutions," Proc. 4th Int'l Conf. on Knowledge Discovery and Data Mining (KDD-98), New York, 1998.
Linoff, G. and M. Berry, Data Mining Techniques, 3rd Ed., Wiley Pub. Inc., 2011.
McNamee, B., P. Cunningham, S. Byrne, and O. Corrigan, "The Problem of Bias in Training Data in Regression Problems in Medical Decision Support," Artificial Intelligence in Medicine, Vol.24(2002), 51-70.
Min, J. H. and Y. C. Lee, "Bankruptcy Prediction Using Support Vector Machine with Optimal Choice of Kernel Function Parameters," Expert Systems with Applications, Vol.28(2005), 603-614.
Vapnik, V., Estimation of Dependences Based on Empirical Data, Nauka, Moscow, 1979.
Vapnik, V., The Nature of Statistical Learning Theory, Chapter 5. Springer-Verlag, New York, 1995.
Veropoulos, K., C. Campbell, and N. Cristianini, "Controlling the Sensitivity of Support Vector Machines," Proc. Int'l Joint Conf. on AI , (1999), 55-60.
Wu, G. and E. Chang, "Class-Boundary Alignment for Imbalanced Dataset Learning," Proc. Int'l Conf. on Machine Learning : 2003 Workshop on Learning from Imbalanced Data Sets, Washington, D.C., 2003.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.