$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

다중선형회귀모형에서의 변수선택기법 평가
Evaluating Variable Selection Techniques for Multivariate Linear Regression 원문보기

대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.42 no.5, 2016년, pp.314 - 326  

류나현 (고려대학교 산업경영공학부) ,  김형석 (고려대학교 산업경영공학부) ,  강필성 (고려대학교 산업경영공학부)

Abstract AI-Helper 아이콘AI-Helper

The purpose of variable selection techniques is to select a subset of relevant variables for a particular learning algorithm in order to improve the accuracy of prediction model and improve the efficiency of the model. We conduct an empirical analysis to evaluate and compare seven well-known variabl...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 의사결정 시 새로운 정보가 유입되면 사실에 대한 불 확실성이 줄어들어 최적에 가까운 의사 결정을 내리는 것을 가능하게 한다. 본 연구는 최적의 변수선택 기법 선택시 내려 지는 결정에 대한 불확실성을 줄여줄 것으로 사료된다. 예를 들어, 본 연구에서 GA는 최소 약 2,266초(약 38분)에서 최대 약 34,421초(약 10시간)의 시간이 변수선택을 하는데 소요되었다.
  • 본 연구에서는 실제 산업 현장에서 가장 많이 사용되고 있는 다중선형회귀분석 기법에 대하여 여러 가지 변수선택기법을 적용했을 때의 결과를 비교하고자 각 기법의 성능을 예측 정확도 측면과 변수선택의 효율성 측면을 중심으로 실제 49개의 데이터에 대해 총 일곱 가지의 변수선택기법들을 실험적으로 평가하였다.
  • 본 연구의 의의는 충분히 많은 수의 데이터셋을 이용하여 다양한 변수선택기법의 성능을 실증적으로 비교․평가했다는 것에 있다. 대부분의 데이터마이닝 및 머신러닝 알고리즘의 계산 복잡도는 모델 자체의 복잡도와 데이터의 복잡도(데이터 의 크기)에 복합적으로 영향을 받는다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
다중선형회귀분석이란 무엇인가? 다중선형회귀분석(multivariate linear regression : MLR)은 다수의 설명변수(explanatory variables)와 하나의 반응변수(response variable) 사이의 관계를 선형으로 가정하고 주어진 데이터를 가장 잘 설명할 수 있도록 회귀 계수(regression coefficients)를 추정하는 통계적 기법이다(Ross, 2004). 선형회귀분석은 몇 가 지 가정을 데이터가 만족할 경우 명시적으로 최적의 해가 존재한다는 점과 더불어 각 설명변수의 통계적 유의성을 도출할 수 있으며 해당 설명변수의 변화가 반응변수에 미치는 영향력 을 정량화할 수 있다는 점, 그리고 노이즈에 상대적으로 민감하지 않으면서 과적합의 우려가 적다는 장점 등으로 인하여 여전히 산업 현장에서는 복잡한 최신의 비선형 알고리즘에 비해 실제 시스템을 구현할 때 선호되는 회귀 모형이다(Kang et al.
차원의 저주란 무엇인가? 저차원에서는 변수가 증가할수록 예측 오차가 감소하는 경향이 있지만 일정수준 이상의 변수를 사용할 경우 새로운 데이터에 대해서는 오히려 예측 오차가 증가하는 현상을 나타내게 된다. 고차원에서는 차원이 높을수록 일정한 예측 정확성을 위해 필요한 관측치의 수가 급격히 증가하는데 이를 차원의 저주(curse of dimensionality)라고 부른다. 차원이 증가하면 차원의 수에 비해 상대적으로 관측치의 수가 부족하기 때문에 예측 결과의 변동성이 커지므로 차원이 높을수록 고차원 에서는 예측 오차는 증가하게 되는 것이다(Bellman, 2015; Madhuri and Rani, 2015).
차원이 증가하면 어떤 특성으로 인해 차원의 저주에 빠지게 되는 것인가? 고차원에서는 차원이 높을수록 일정한 예측 정확성을 위해 필요한 관측치의 수가 급격히 증가하는데 이를 차원의 저주(curse of dimensionality)라고 부른다. 차원이 증가하면 차원의 수에 비해 상대적으로 관측치의 수가 부족하기 때문에 예측 결과의 변동성이 커지므로 차원이 높을수록 고차원 에서는 예측 오차는 증가하게 되는 것이다(Bellman, 2015; Madhuri and Rani, 2015). 따라서 제한된 관측치 내에서 차원의 저주 를 해결하기 위해서는 예측모델을 구축하기 위한 효율적인 변수 집합을 구성해야 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (20)

  1. Bellman, R. E. (2015), Adaptive Control Processes : A Guided Tour, Princeton university press. 

  2. Blum, A. L. and Langley, P. (1997), Selection of relevant features and examples in machine learning, Artificial Intelligence, 97(1), 245-271. 

  3. Chatterjee, S. and Hadi, A. S. (2015), Regression Analysis by Example, John Wiley and Sons. 

  4. Fernandez-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. (2014), Do we need hundreds of classifiers to solve real world classification problems, J. Mach. Learn. Res, 15(1), 3133-3181. 

  5. Guyon, I. and Elisseeff, A. (2003), An introduction to variable and feature selection, The Journal of Machine Learning Research, 3, 1157-1182. 

  6. Hoerl, A. E. and Kennard, R. W. (1970), Ridge regression : Biased estimation for non orthogonal problems, Technometrics, 12(1), 55-67. 

  7. James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013), An Introduction to Statistical Learning, New York : springer, 112. 

  8. Kang, P., Lee, H., Cho, S., Kim, D., Park, J., and Park, C.-K. (2009), A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications, 36(11), 12554-12561. 

  9. Kang, P., Kim, D., Lee, H., Doh, S., and Cho, S. (2011), Virtual metrology for run-to-run control in semiconductor manufacturing, Expert Systems with Applications, 38(3), 2508-2522. 

  10. Kim, D., Kang, P., Lee, S.-K., Kang, S., Doh, S., and Cho, S. (2015), Improvement of virtual metrology performance by removing metrology noises in a training dataset, Pattern Analysis and Applications, 18(1), 173-189. 

  11. Kohavi, R. and John, G. H. (1997), Wrappers for feature subset selection, Artificial intelligence, 97(1), 273-324. 

  12. Lastovicka, J. L. and Sirianni, N. J. (2011), Truly, madly, deeply : Consumers in the throes of material possession love, Journal of Consumer Research, 38(2), 323-342. 

  13. Lee, H., Kim, S. G., Park, H.-W., and Kang, P. (2014), Pre-launch new product demand forecasting using the Bass model : A statistical and machine learning-based approach, Technological Forecasting and Social Change, 86, 49-64. 

  14. Madhuri, V. H. and Rani, T. S. (2015), Ranking and dimensionality reduction using biclustering, In Proceedings of the Fifth International Conference on Fuzzy and Neuro Computing (FANCCO), 209-226. 

  15. Mallick, H. and Yi, N. (2013), Bayesian methods for high dimensional linear models, Journal of Biometrics and Biostatistics, 1(5). 

  16. Ross, S. M. (2004), Introduction to Probability and Statistic for Engineers and Scientists, Academic Press. 

  17. Shumway, R. H. and Stoffer, D. S. (2010), Time series analysis and its applications : with R examples, Springer Science and Business Media. 

  18. Smialowski, P., Frishman, D., and Kramer, S. (2010), Pitfalls of supervised feature selection, Bioinformatics, 26(3), 440-443. 

  19. Tibshirani, R. (1996), Regression shrinkage and selection via the lasso, Journal of the Royal Statistical Society, Series B (Methodological), 267-288. 

  20. Yang, J. and Honavar, V. (1998), Feature subset selection using a genetic algorithm, IEEE Intelligent Systems and Their Applications, 13(2), 44-49. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로