$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법
A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.21 no.2, 2011년, pp.171 - 177  

전성해 (청주대학교 바이오정보통계학과)

초록
AI-Helper 아이콘AI-Helper

기계학습에서 모형의 정확도와 컴퓨팅시간은 중요하게 다루어지는 부분이다. 일반적으로 모형을 구축하는 데 사용되는 컴퓨팅시간은 분석에 사용되는 데이터의 크기에 비례하여 커진다. 따라서 컴퓨팅시간 단축을 위하여 분석에 사용되는 데이터의 크기를 줄이는 샘플링전략이 필요하다. 하지만 학습데이터의 크기가 작게 되면 구축된 모형의 정확도도 함께 떨어지게 된다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다. 군집, 층화, 계통추출에 의한 통계적 샘플링기법을 사용하여 정확도를 최대한 유지하면서 컴퓨팅시간을 단축할 수 있는 방법을 보인다. 제안방법의 성능을 평가하기 위하여 객관적인 기계학습 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다.

Abstract AI-Helper 아이콘AI-Helper

Accuracy and computing time are considerable issues in machine learning. In general, the computing time for data analysis is increased in proportion to the size of given data. So, we need a sampling approach to reduce the size of training data. But, the accuracy of constructed model is decreased by ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 객관적인 선정기준이 마련되지 못했기 때문에 분석결과의 성능은 분석가의 경험과 지식에 의존하게 된다. 따라서 본 논문에서는 기존의 주관적 샘플링 전략들과는 다른 객관적인 샘플링 기법을 적용하여 기존의 연구결과에 비해 좀 더 객관적인 방법을 사용하려고 노력하였다. 따라서 본 연구는 기계학습 알고리즘의 컴퓨팅시간 단축을 위하여 객관적인 통계적 샘플링방법을 제안하였다.
  • 따라서 본 논문에서는 기존의 주관적 샘플링 전략들과는 다른 객관적인 샘플링 기법을 적용하여 기존의 연구결과에 비해 좀 더 객관적인 방법을 사용하려고 노력하였다. 따라서 본 연구는 기계학습 알고리즘의 컴퓨팅시간 단축을 위하여 객관적인 통계적 샘플링방법을 제안하였다. 제안된 내용의 성능평가를 위하여 UCI Machine Learning Repository로부터의 객관적인 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다[16].
  • 기존의 통계적 샘플링 기법들은 주로 여론조사, 마케팅을 위한 시장조사 등 사회과학의 설문조사(survey)에 맞추어 있기 때문에 기계학습 데이터에 그대로 적용하는데는 어려움이 있다. 본 논문에서는 기계학습 데이터분석에 알맞은 새로운 통계적 샘플링방법을 제안하고 이를 이용한 기계학습 컴퓨팅시간 단축을 위한 방안에 대하여 연구한다. 단순임의추출을 비롯한 군집추출, 층화추출, 계통추출 등의 통계적 샘플링기법들을 이용하여 주어진 데이터에 알맞은 샘플링방법을 개발하여 컴퓨팅시간의 단축을 시도한다.
  • 물론 중앙처리장치(CPU)와 같은 컴퓨터 하드웨어의 발전이 이루어지고 있지만 저장되는 데이터용량을 따라 잡기는 어렵다. 본 논문에서는 기계학습 알고리즘의 컴퓨팅 시간 단축문제의 해결을 위하여 전체데이터의 일부분을 추출하여 분석하는 통계적 샘플링(statistical sampling) 방법을 제안한다. 단순임의추출(simple random sampling)과 같이 기존의 통계적 샘플링 기법을 그대로 적용하여 기계학습의 컴퓨팅시간을 줄이는 연구는 그동안 꾸준히 이루어져 왔다[7],[8],[9],[10],[11].
  • 단순임의추출을 비롯한 군집추출, 층화추출, 계통추출 등의 통계적 샘플링기법들을 이용하여 주어진 데이터에 알맞은 샘플링방법을 개발하여 컴퓨팅시간의 단축을 시도한다. 본 논문에서는 수집된 전체데이터를 모집단으로 설정하고 이것을 가장 잘 대표할 수 있는 샘플을 추출할 수 있는 객관적인 방법을 제안한다. 다음 그림은 본 연구에 대한 전체적인 개념을 간략하게 나타내고 있다.
  • 위 그림에서 모집단인 학습데이터는 단순임의추출, 층화 추출, 계통추출, 그리고 군집추출의 4가지 통계적 샘플링 기법들을 변형한 새로운 통계적 샘플링방법이 적용된다. 본 논문에서는 의사결정나무모형(decision tree)과 SVM(support vector machine)과 같은 분류모형, 다중선형 회귀모형(multiple linear regression)과 로지스틱 회귀모형 (logistic regression)으로 대표되는 회귀모형, 그리고 자기조직화지도(self organizing map, SOM)와 K-평균(means) 군집화와 같은 군집화 모형 등 대부분의 기계학습 알고리즘에 적용할 수 있는 객관적인 샘플링방법을 제안한다. 본 연구에서 기계학습 알고리즘은 샘플로 이루어진 축소된 학습 데이터를 이용하여 컴퓨팅시간이 감소된 최적의 모형을 구축하게 된다.
  • 하지만 학습데이터의 크기가 작게 되면 구축된 모형의 정확도도 함께 떨어지게 된다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다.
  • 본 논문에서는 전체 데이터를 이용한 학습모형과 비슷한 정확도를 유지하면서 동시에 컴퓨팅시간을 줄일 수 있는 축소된 학습데이터를 생성하는 통게적 샘플링방법을 제안하였다. 전체데이터의 구조를 단계별로 확인하면서 가장 적절한 통계적 샘플링기법을 객관적으로 결정할 수 있게 하였다.
  • 단순임의추출, 층화추출(stratified sampling), 계통추출(systematic sampling), 그리고 군집추출(cluster sampling)은 대표적인 확률추출의 샘플링 기법들이다. 본 논문에서는 확률분포에 의한 추정량의 성능을 평가할 수 있다고 이론적으로 증명되어 있는 객관적인 확률추출을 고려한다. 즉, 확률추출에서는개개의 샘플에 대응되는 추정값을 계산할 수 있기 때문에 추정값들의 확률분포(probability distribution)를 사용할 수 있고, 이를 통하여 추정량의 표준오차(standard error)를 계산할 수도 있다.
  • 본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다. 군집, 층화, 계통추출에 의한 통계적 샘플링기법을 사용하여 정확도를 최대한 유지하면서 컴퓨팅시간을 단축할 수 있는 방법을 보인다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
샘플링 방법 중 비확률추출은 무엇인가? 샘플링은 크게 비확률추출(non-probability sampling)과 확률추출(probability sampling)의 2가지 방법으로 나뉜다. 비확률추출은 분석가의 주관적 기준에 의해 샘플을 선정하는 방법이다. 즉, 분석가의 지식과 경험을 통하여 모집단을 가장 잘 나타낸다고 판단되는 개체들을 주관적으로 선정하는 샘플링이다.
컴퓨팅시간은 무엇에 비례하여 커지는가? 기계학습에서 모형의 정확도와 컴퓨팅시간은 중요하게 다루어지는 부분이다. 일반적으로 모형을 구축하는 데 사용되는 컴퓨팅시간은 분석에 사용되는 데이터의 크기에 비례하여 커진다. 따라서 컴퓨팅시간 단축을 위하여 분석에 사용되는 데이터의 크기를 줄이는 샘플링전략이 필요하다.
기계학습은 어떤 방법론인가? 기계학습(machine learning)은 관측된 과거의 데이터로부터 학습을 통하여 예측모형을 구축하고, 이를 바탕으로 앞으로 발생되는 여러 문제들에 대하여 최적의 의사결정을 이끌어 내는 방법론이다[1],[2]. 사전에 데이터의 정규성(normality assumption) 가정이 필요한 통계적 분석기법에 비해 대부분의 기계학습 알고리즘은 데이터에 대한 사전가정이 필요하지 않은 유연성 때문에 최근에 전통적인 통계학 분야에서도 사용되고 있다[3],[4],[5],[6].
질의응답 정보가 도움이 되었나요?

참고문헌 (27)

  1. T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, Springer, 2001. 

  2. T. M. Mitchell, Machine Learning, McGraw-Hill, 1997. 

  3. A. Ben-Hur, D. Horn, H. T. Siegelmann, V. N. Vapnik, “Support Vector Clustering,” Journal of Machine Learning Research, vol. 2, pp. 125-137, 2001. 

  4. S. R. Gunn, “Support Vector Machines for Classification and Regression,” Technical Report, University of Southampton, 1998. 

  5. V. N. Vapnik, Statistical Learning Theory, John Wiley & Sons, 1998. 

  6. V. N. Vapnik, “An Overview of Statistical Learning Theory,” IEEE Transactions on Neural Networks, vol. 10, no. 5, pp. 988-999, 1999. 

  7. Z.-J. Chen, B. Liu, X.-P. He, “A SVC Iterative Learning Algorithm Based on Sample Selection for Large Samples," Proceedings of International Conference on Machine Learning and Cybernetics, vol. 6, pp. 3308-3313, 2007. 

  8. M.-H. Ha, L.-F. Zheng, J.-Q. Chen, “The Key Theorem of Learning Theory Based on Random Sets Samples," Proceedings of International Conference on Machine Learning and Cybernetics, vol. 5, pp. 2826-2831, 2007. 

  9. Y. S. Jia, C. Y. Jia, H. W. Qi, “A New Nu-Support Vector Machine for Training Sets with Duplicate Samples,” Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, pp. 4370-4373, 2005. 

  10. W. Ng, M. Dash, “An Evaluation of Progressive Sampling for Imbalanced Data Sets," Proceedings of Sixth IEEE International Conference on Data Mining, pp. 657-661, 2006. 

  11. K.-H. Yang, G.-L. Shan L.-L. Zhao, “Correlation Coefficient Method for Support Vector Machine Input Samples," Proceedings of International Conference on Machine Learning and Cybernetics, pp. 2856-2861, 2006. 

  12. C. S. Ding, Q. Wu, C. T. Hsieh, M. Pedram, “Stratified Random Sampling for Power Estimation,” IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, vol. 17, no. 6, pp. 465-471, 1998. 

  13. M. Keramat, R. Kielbasa, “A study of stratified sampling in variance reduction techniques for parametric yield estimation,” Proceedings of IEEE International Symposium on Circuits and Systems, vol. 3, pp. 1652-1655, 1997. 

  14. P. A. D. I. Santos, Jr., R. J. Burke, J. M. Tien, “Prograssive Random Sampling With Stratification,” IEEE Transactions on Systems, Man, and Cybernetics-Part A: Applications and Reviews, vol. 37, no. 6, pp. 1223-1230, 2007. 

  15. M. Xing, M. Jaeger, H. Baogang, “An Effective Stratified Sampling Scheme for Environment Maps with Median Cut Method,” Proceedings of International Conference on Computer Graphics, Imaging and Visualisation, pp. 384-389, 2006. 

  16. The UC Irvine Machine Learning Repository, http://archive.ics.uci.edu/ml/ 

  17. S. K. Thompson, Sampling, 2nd ed., John Wiley & Sons, 2002. 

  18. S. Jun, “Support Vector Machine based on Stratified Sampling,” International Journal of Fuzzy Logic and Intelligent System, vol. 9, no. 2, pp. 141-146, 2009. 

  19. S. Jun, “Improvement of SOM using Stratifiation,” International Journal of Fuzzy Logic and Intelligent Systems, vol. 9, no. 1, pp. 36-41, 2009. 

  20. S. Jun, “Web Usage Mining Using Evolutionary Support Vector Machine," Lecture Note in Artificial Intelligence, vol. 3809, pp. 1015-1020, Springer-Verlag, 2005. 

  21. J. Wang, X. Wu, C. Zhang, “Support vector machines based on K-means clustering for real-time business intelligent systems,” International Journal Business Intelligence and Data Mining, vol. 1, no. 1, pp. 54-64, 2005. 

  22. 김영원, 류제복, 박진우, 홍기학 역, 표본조사의 이해와 활용, 교우사, 2006. 

  23. R. L. Scheaffer, W. Mendenhall III, R. L. Ott, Elementary Survey Sampling 6th edition, Duxbury, 2006. 

  24. 손건태, 전산통계개론 - 통계적 모의실험과 추정 알고리즘 제4판, 자유아카데미, 2005. 

  25. R Development Core Team, R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, http://www.R-project.org, 2010. 

  26. Y. Tille, A. Matei, Survey Sampling-Package 'sampling', R-Project CRAN, 2009. 

  27. B. Repley, Feed-forward Neural Networks and Multinomial Log-Linear Models-Package 'nnet', R-Project CRAN, 2009. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로