$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

가우시안 기반 Hyper-Rectangle 생성을 이용한 효율적 단일 분류기
An Efficient One Class Classifier Using Gaussian-based Hyper-Rectangle Generation 원문보기

Journal of Korean Society of Industrial and Systems Engineering = 한국산업경영시스템학회지, v.41 no.2, 2018년, pp.56 - 64  

김도균 (아주대학교 산업공학과) ,  최진영 (아주대학교 산업공학과) ,  고정한 (아주대학교 산업공학과)

Abstract AI-Helper 아이콘AI-Helper

In recent years, imbalanced data is one of the most important and frequent issue for quality control in industrial field. As an example, defect rate has been drastically reduced thanks to highly developed technology and quality management, so that only few defective data can be obtained from product...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • H-RTGL을 이용한 단일 분류기는 Jeong and Choi[9]에 의해 제안된 바 있지만, H-RTGL을 생성하기 위해서 사용되는 인터벌 생성 시 데이터의 분포가 고려되지 않는다는 단점이 존재한다. 따라서 본 논문에서는 이러한 H-RTGL 기반 단일 분류기들의 단점을 개선할 수 있는 새로운 H-RTGL 기반 단일 분류 알고리즘을 제시하고자 한다.
  • 한편, 실제 산업 현장에서 발생하는 문제점들을 근본적으로 해결하기 위해서는 단순히 데이터를 분류하는 것이 아니라, 도출된 분류기에 대한 해석이 가능해야 한다.따라서, 본 논문에서는 분류 정확도를 유지하면서도 해석력을 제공할 수 있는 단일 분류기인 hyper-rectangle(H- RTGL)을 이용한 단일 분류기를 제안한다. H-RTGL을 이용한 단일 분류기는 Jeong and Choi[9]에 의해 제안된 바 있지만, H-RTGL을 생성하기 위해서 사용되는 인터벌 생성 시 데이터의 분포가 고려되지 않는다는 단점이 존재한다.
  • 본 논문에서 제안된 가우시안 기반 H-RTGL 단일 분류기 GbH의 성능을 평가하기 위해서 UCI machine learning repository[1]에서 제공되는 데이터 집합들을 이용한 수치 실험을 설계하였다. 사용된 데이터 집합은 Iris, Breast, Liver, Biomed의 4가지였으며, 각 데이터 집합에 대한 정보는 [Table 1]과 같다.
  • 본 논문에서는 산업 현장에서 점차 중요성이 대두되고 있는 불균형 데이터에 대한 클래스 분류와 같은 단일 분류 문제를 위한 효율적인 알고리즘을 제안하였다. 특히, 분류 정확도와 더불어 분류 요인에 대한 해석력까지 함께 제공할 수 있는 H-RTGL 기반 단일 분류기인 GbH를 설계하였다.
  • 본 논문에서는 앞서 언급되었던 MbH와 CbH의 단점을 개선할 수 있는 새로운 가우시안 기반 H-RTGL(Gaussian based H-RTGL : GbH) 단일 분류기를 제안한다. GbH를 이용한 단일 분류는 주어진 데이터가 특정한 가우시안 혼합(Gaussian mixture)임을 가정하고, 각각의 가우시안 분포로부터 인터벌을 생성함으로써 데이터의 산포를 고려한 분류기를 얻을 수 있다.

가설 설정

  • 특히, 분류 정확도와 더불어 분류 요인에 대한 해석력까지 함께 제공할 수 있는 H-RTGL 기반 단일 분류기인 GbH를 설계하였다. GbH는 주어진 인스턴스들이 특정한 가우시안 분포를 따른다고 가정하며, 가우시안 분포의 통계량인 평균과 표준 편차를 이용하여 인터벌을 생성, 결합하여 H-RTGL을 얻는다. 결과적으로, GbH를 이용한 단일 분류기는 기존에 제안되었던 H-RTGL 기반의 분류 방법인 MbH와 GbH를 이용한 단일 분류기보다 개선된 분류 정확도를 보였으며, 분류 요인에 대한 해석 또한 가능했다.
  • 본 논문에서는 앞서 언급되었던 MbH와 CbH의 단점을 개선할 수 있는 새로운 가우시안 기반 H-RTGL(Gaussian based H-RTGL : GbH) 단일 분류기를 제안한다. GbH를 이용한 단일 분류는 주어진 데이터가 특정한 가우시안 혼합(Gaussian mixture)임을 가정하고, 각각의 가우시안 분포로부터 인터벌을 생성함으로써 데이터의 산포를 고려한 분류기를 얻을 수 있다. GbH를 이용한 단일 분류기를 생성하는 과정은 [Figure 1]의 단계에 따라 다음과 같이 설명될 수 있다.
  • 예를 들면, 대표적인 분류 기법인 sup-port vector machine(SVM)[4, 13]은 양(positive)의 클래스와 음(negative)의 클래스의 차이점을 이용하여 두 개의 클래스를 구분할 수 있는 hyper-plane을 찾는다. 반면, 단일 분류는 주어진 데이터 집합이 오직 하나의 클래스로만 구성되어 있으며, 해당 클래스에 소속되지 않은 데이터는 모두 이상치(outlier)로 가정한다. 이 때, 단일 분류는 클래스가 하나만 존재하기 때문에 해당 클래스의 패턴을 보다 정밀하게 묘사할 수 있는 분류기를 생성하는 것이 필요하다.
  • 이 후, 도출된 사영점으로부터 인터벌을 생성하기 위해서는 각 사영점의 군집을 하나의 가우시안 분포와 대응시키는 것이 필요하다. 즉, 군집 내의 인스턴스들이 특정한 가우시안 분포를 따르는 데이터 집합이라고 가정하는 것이다. 이에 대한 결과로서, 속성 r에 대한 qr (qr = 1, 2, .
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
다중 분류란 무엇인가? 이러한 데이터를 분류하기 위한 방법으로 다루고자 하는 데이터에 존재하는 클래스의 수에 따라 단일 분류(One class classification)와 다중 분류(Multi-class classi-fication)를 고려할 수 있다[18]. 다중 분류는 데이터 집합이 다양한 클래스로 구성되며, 새로 발생하는 인스턴스가 여러 개의 클래스들 중 어떤 클래스의 데이터인지 예측하는 것이다[11]. 이를 위해 데이터 상에 존재하는 여러 클래스의 차이점을 이용하여 분류의 기준이 되는 분류기를 생성한다.
최근 산업 현장에서 품질 관리를 위해 불균형 데이터(imbalanced data)를 고려해야 하는 이유는 무엇인가? 최근 산업 현장에서 품질 관리를 위해 고려해야 하는 가장 큰 이슈 중 하나는 불균형 데이터(imbalanced data)이다. 그 이유는 기술의 발달과 고도로 발전하는 품질 관리 기법들로 인해 불량률은 매우 적은 수준으로 줄어들었으며, 공정에서 발생하는 데이터에는 불량 데이터가 거의 존재하지 않게 되었기 때문이다. 즉, 하나의 클래스(양품)가 다른 클래스(불량품)에 비해 매우 크기 때문에 불균형 데이터가 된다.
불균형 데이터에 다중 분류를 이용한 접근을 하면 어떤 결과가 발생하는가? 그러나 만일 불균형 데이터에 대해 다중 분류를 이용한 접근을 고려한다면 클래스와 다른 클래스 간의 차이를 통해 분류기를 학습하는 특성에 의해 분류기를 생성하기 위해 보다 많은 연산이 요구되고 분류기의 정확도가 떨어진다. 따라서, 불균형 데이터에 대해서는 검출하고자 하는 대상 클래스에 대해 면밀한 학습을 통해 분류기를 생성하는 단일 분류를 통한 접근이 더 적합하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. Asuncion, A. and Newman, D., UCI machine learning repository, http://www.ics.uci.edu/-mlearn/MLRepository.html. 

  2. Baehrens, D., Schroeter, T., Harmeling, S., Kawanabe, M., Hansen, K., and Muller, K.R., How to explain individual classification decisions, The Journal of Machine Learning Research, 2010, Vol. 11, pp. 1803-1831. 

  3. Barakat, N. and Bradley, A.P., Rule extraction from support vector machines : a review, Neurocomputing, 2010, Vol. 74, No. 1-3, pp. 178-190. 

  4. Cortes, C. and Vapnik, V., Support-vector networks, Machine Learning, 1995, Vol. 20, No. 3, pp. 273-297. 

  5. De Comite, F., Denis, F., Gilleron, R., and Letouzey, F., Positive and unlabeled examples help learning, Proceedings of International Conference on Algorithmic Learning Theory, 1999, Berlin, Germany, pp. 219-230. 

  6. De Ridder, D., Tax, D., and Duin, R.P., An experimental comparison of one-class classification methods, the 4th Annual Conference of the Advanced School for Computing and Imaging, 1998, Delft, Netherlands. 

  7. Desir, C., Bernard, S., Petitjean, C., and Heutte, L., A random forest based approach for one class classification in medical imaging, Machine Learning in Medical Imaging, Lecture Notes in Computer Science, 2012, Vol. 7588, pp. 250-257. 

  8. Hempstalk, K., Frank, E., and Witten, I.H., One-class classification by combining density and class probability estimation, Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2008, Berlin, Germany, pp. 505-519. 

  9. Jeong, I.K. and Choi, J.Y., Design of One-Class Classifier Using Hyper-Rectangles, Journal of the Korean Institute of Industrial Engineers, 2015, Vol. 41, No. 5, pp. 439-446. 

  10. Juszczak, P., Tax, D.M., Pe, E., and Duin, R.P., Minimum spanning tree based one-class classifier, Neurocomputing, 2009, Vol. 72, No. 7-9, pp. 1859-1869. 

  11. Kang, B.S. and Kim, S.S., Combined Artificial Bee Colony for Data Clustering, Journal of Society of Korea Industrial and Systems Engineering, 2017, Vol. 40, No. 4, pp. 203-210. 

  12. Letouzey, F., Denis, F., and Gilleron, R., Learning from positive and unlabeled examples, Proceedings of 10th International Conference on Algorithmic Learning Theory, Berlin, German, 2000, pp. 71-85. 

  13. Park, Y.J., Kim, G.Y., and Jang, S.W., Traffic Anomaly Identification Using Multi-Class Support Vector Machine, Journal of the Korea Academia-Industrial Cooperation Society, 2013, Vol. 14, No. 4, pp. 1942-1950. 

  14. Scholkopf, B., Williamson, R., Smola, A., Taylor, J.S., and Platt, J., Support vector method for novelty detection, Advances in Neural Information Processing Systems, 2000, Vol. 12, pp. 582-588. 

  15. Tarassenko, L., Hayton, P., Cerneaz, N., and Brady, M., Novelty detection for the identification of masses in mammograms, 4th International Conference on Artificial Neural Networks, 1995, pp. 442-447. 

  16. Tax, D.M.J. and Duin, R.P.W., Data domain description using support vectors, Proceedings of European Symposium on Artificial Neural Networks, 1999a, Brussels, Belgium, pp. 251-256. 

  17. Tax, D.M.J. and Duin, R.P.W., Support vector domain description, Pattern Recognition Letters, 1999b, Vol. 20, pp. 1191-1199. 

  18. Tax, D.M.J., One-class Classification, [dissertation], [Delft, Netherlands] : Delft University of Technology, 2001. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로