최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기대한산업공학회지 = Journal of the Korean Institute of Industrial Engineers, v.42 no.5, 2016년, pp.314 - 326
류나현 (고려대학교 산업경영공학부) , 김형석 (고려대학교 산업경영공학부) , 강필성 (고려대학교 산업경영공학부)
The purpose of variable selection techniques is to select a subset of relevant variables for a particular learning algorithm in order to improve the accuracy of prediction model and improve the efficiency of the model. We conduct an empirical analysis to evaluate and compare seven well-known variabl...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
다중선형회귀분석이란 무엇인가? | 다중선형회귀분석(multivariate linear regression : MLR)은 다수의 설명변수(explanatory variables)와 하나의 반응변수(response variable) 사이의 관계를 선형으로 가정하고 주어진 데이터를 가장 잘 설명할 수 있도록 회귀 계수(regression coefficients)를 추정하는 통계적 기법이다(Ross, 2004). 선형회귀분석은 몇 가 지 가정을 데이터가 만족할 경우 명시적으로 최적의 해가 존재한다는 점과 더불어 각 설명변수의 통계적 유의성을 도출할 수 있으며 해당 설명변수의 변화가 반응변수에 미치는 영향력 을 정량화할 수 있다는 점, 그리고 노이즈에 상대적으로 민감하지 않으면서 과적합의 우려가 적다는 장점 등으로 인하여 여전히 산업 현장에서는 복잡한 최신의 비선형 알고리즘에 비해 실제 시스템을 구현할 때 선호되는 회귀 모형이다(Kang et al. | |
차원의 저주란 무엇인가? | 저차원에서는 변수가 증가할수록 예측 오차가 감소하는 경향이 있지만 일정수준 이상의 변수를 사용할 경우 새로운 데이터에 대해서는 오히려 예측 오차가 증가하는 현상을 나타내게 된다. 고차원에서는 차원이 높을수록 일정한 예측 정확성을 위해 필요한 관측치의 수가 급격히 증가하는데 이를 차원의 저주(curse of dimensionality)라고 부른다. 차원이 증가하면 차원의 수에 비해 상대적으로 관측치의 수가 부족하기 때문에 예측 결과의 변동성이 커지므로 차원이 높을수록 고차원 에서는 예측 오차는 증가하게 되는 것이다(Bellman, 2015; Madhuri and Rani, 2015). | |
차원이 증가하면 어떤 특성으로 인해 차원의 저주에 빠지게 되는 것인가? | 고차원에서는 차원이 높을수록 일정한 예측 정확성을 위해 필요한 관측치의 수가 급격히 증가하는데 이를 차원의 저주(curse of dimensionality)라고 부른다. 차원이 증가하면 차원의 수에 비해 상대적으로 관측치의 수가 부족하기 때문에 예측 결과의 변동성이 커지므로 차원이 높을수록 고차원 에서는 예측 오차는 증가하게 되는 것이다(Bellman, 2015; Madhuri and Rani, 2015). 따라서 제한된 관측치 내에서 차원의 저주 를 해결하기 위해서는 예측모델을 구축하기 위한 효율적인 변수 집합을 구성해야 한다. |
Bellman, R. E. (2015), Adaptive Control Processes : A Guided Tour, Princeton university press.
Blum, A. L. and Langley, P. (1997), Selection of relevant features and examples in machine learning, Artificial Intelligence, 97(1), 245-271.
Chatterjee, S. and Hadi, A. S. (2015), Regression Analysis by Example, John Wiley and Sons.
Fernandez-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. (2014), Do we need hundreds of classifiers to solve real world classification problems, J. Mach. Learn. Res, 15(1), 3133-3181.
Guyon, I. and Elisseeff, A. (2003), An introduction to variable and feature selection, The Journal of Machine Learning Research, 3, 1157-1182.
Hoerl, A. E. and Kennard, R. W. (1970), Ridge regression : Biased estimation for non orthogonal problems, Technometrics, 12(1), 55-67.
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013), An Introduction to Statistical Learning, New York : springer, 112.
Kang, P., Lee, H., Cho, S., Kim, D., Park, J., and Park, C.-K. (2009), A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications, 36(11), 12554-12561.
Kang, P., Kim, D., Lee, H., Doh, S., and Cho, S. (2011), Virtual metrology for run-to-run control in semiconductor manufacturing, Expert Systems with Applications, 38(3), 2508-2522.
Kim, D., Kang, P., Lee, S.-K., Kang, S., Doh, S., and Cho, S. (2015), Improvement of virtual metrology performance by removing metrology noises in a training dataset, Pattern Analysis and Applications, 18(1), 173-189.
Kohavi, R. and John, G. H. (1997), Wrappers for feature subset selection, Artificial intelligence, 97(1), 273-324.
Lastovicka, J. L. and Sirianni, N. J. (2011), Truly, madly, deeply : Consumers in the throes of material possession love, Journal of Consumer Research, 38(2), 323-342.
Lee, H., Kim, S. G., Park, H.-W., and Kang, P. (2014), Pre-launch new product demand forecasting using the Bass model : A statistical and machine learning-based approach, Technological Forecasting and Social Change, 86, 49-64.
Madhuri, V. H. and Rani, T. S. (2015), Ranking and dimensionality reduction using biclustering, In Proceedings of the Fifth International Conference on Fuzzy and Neuro Computing (FANCCO), 209-226.
Mallick, H. and Yi, N. (2013), Bayesian methods for high dimensional linear models, Journal of Biometrics and Biostatistics, 1(5).
Ross, S. M. (2004), Introduction to Probability and Statistic for Engineers and Scientists, Academic Press.
Shumway, R. H. and Stoffer, D. S. (2010), Time series analysis and its applications : with R examples, Springer Science and Business Media.
Smialowski, P., Frishman, D., and Kramer, S. (2010), Pitfalls of supervised feature selection, Bioinformatics, 26(3), 440-443.
Tibshirani, R. (1996), Regression shrinkage and selection via the lasso, Journal of the Royal Statistical Society, Series B (Methodological), 267-288.
Yang, J. and Honavar, V. (1998), Feature subset selection using a genetic algorithm, IEEE Intelligent Systems and Their Applications, 13(2), 44-49.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.