최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기응용통계연구 = The Korean journal of applied statistics, v.26 no.5, 2013년, pp.747 - 758
이동혁 (고려대학교 통계학과) , 이재원 (고려대학교 통계학과)
The covariance matrix is important in multivariate statistical analysis and a sample covariance matrix is used as an estimator of the covariance matrix. High dimensional data has a larger dimension than the sample size; therefore, the sample covariance matrix may not be suitable since it is known to...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
적응적 경계 추정량이란 무엇인가? | 적응적 경계 추정량(Adaptive Thresholding Estimator; ATE)은 표본 공분산행렬의 각 원소마다 다른 파라미터의 경계함수를 적용하는 방법이다. 일반화 경계 추정량이 하나의 경계함수를 표본공분산행렬의 모든 원소에 적용하는 방법이라면 적응적 경계 추정량은 원소마다 다른 경계함수를 적용시키는 방법이다. | |
공분산행렬은 주로 무엇으로 이용되는가? | 이러한 통계적 방법들은 기본적으로 기존의 전통적인 다변량 방법들에 바탕을 두고 있다. 보통의 다변량 통계분석 방법에서 공분산행렬(covariance matrix)은 중요한 역할을 담당하고 있으며 주성분 분석, 인자분석, 군집분석, 판별분석 등에서 표본공분산행렬은 참공분산행렬의 추정량으로 이용된다. 그러나 고차원 데이터에서는 역행렬과 관련된 문제들 (Ledoit과 Wolf, 2004), 고유값 구조 등의 문제 (Sch¨afer와 Strimmer, 2005)로 표본공분산행렬을 그대로 사용할 수 없다. | |
공분산행렬의 한계점은 무엇인가? | 그러나 고차원 데이터에서는 역행렬과 관련된 문제들 (Ledoit과 Wolf, 2004), 고유값 구조 등의 문제 (Sch¨afer와 Strimmer, 2005)로 표본공분산행렬을 그대로 사용할 수 없다. 또한 SAM (Tusher 등, 2001)과 PAM (Tibshirani 등, 2002) 등과 같은 방법들에서 변수들 사이의 독립을 가정한 분류분석 방법이 제안되어 현재까지 많이 쓰이고 있지만, 독립성 가정이 성립하지 않는 경우 정보의 손실 등으로 인해 분류오차가 늘어날 소지가 있다. 고차원 데이터에서 표본공분산행렬을 대체할 수 있는 추정량들의 연구는 Ledoit와 Wolf (2004)에 의해서 표본공분산행렬과 단위행렬과의 볼록 선형결합(convex linear combination)인 축소추정(shrinkage estimation)이 연구되었고, Sch¨afer와 Strimmer (2005)는 단위행렬 이외의 다른 구조를 가지는 표적행렬과의 볼록 선형결합에 대한 연구로 확장하였다. |
Bickel, P. J. and Levina, E. (2008a). Covariance regularization by thresholding, The Annals of Statistics, 36, 2577-2604.
Bickel, P. J. and Levina, E. (2008b). Regularized estimation of large covariance matrices, The Annals of Statistics, 36, 199-227.
Bouveyron, C., Girard, S. and Schmid, C. (2007). High-dimensional data clustering, Computational Statistics & Data Analysis, 52, 502-519.
Cai, T. and Liu, W. (2011). Adaptive thresholding for sparse covariance matrix estimation, Journal of the American Statistical Association, 106, 672-6684.
Cai, T., Zhang, C. H. and Zhou, H. H. (2010). Optimal rates of convergence for covariance matrix estimation, The Annals of Statistics, 38, 2118-2144.
Choe, S., Kim, S., Lee, C., Yang, W., Park, Y., Choi, H., Chung, H., Lee, D. and Hwang, B. Y. (2011). Species identification of Papaver by metabolite profiling, Forensic Science International.
Chun, H. and Keles, S. (2010a). Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 72, 3-25.
Chung, D. and Keles, S. (2010b). Sparse partial least squares classification for high dimensional data, Statistical Applications in Genetics and Molecular Biology, 9, 17.
Clemmensen, L., Hastie, T., Witten, D. and Ersboll, B. (2011). Sparse discriminant analysis, Technometrics, 53, 406-413.
Fisher, T. J. and Sun, X. (2011). Improved Stein-type shrinkage estimators for the high-dimensional multivariate normal covariance matrix, Computational Statistics & Data Analysis, 55, 1909-1918.
Ghosh, D. and Chinnaiyan, A. M. (2002). Mixture modelling of gene expression data from microarray experiments, Bioinformatics, 18, 275-286.
Huang, J. Z., Liu, N., Pourahmadi, M. and Liu, L. (2006). Covariance matrix selection and estimation via penalised normal likelihood, Biometrika, 93, 85-98.
Kim, N., Kim, K., Choi, B. Y., Lee, D. H., Shin, Y. S., Bang, K. H., Cha, S. W., Lee, J. W., Choi, H. K., Jang, D. S. and Lee, D. (2011). Metabolomic approach for age discrimination of Panax ginseng using UPLC-Q-Tof MS, Journal of Agricultural and Food Chemistry, 59, 10435-10441.
Ledoit, O. and Wolf, M. (2004). A well-conditioned estimator for large-dimensional covariance matrices, Journal of Multivariate Analysis, 88, 365-411.
Levina, E., Rothman, A. and Zhu, J. (2008). Sparse estimation of large covariance matrices via a nested Lasso penalty, The Annals of Applied Statistics, 245-263.
Mai, Q., Zou, H. and Yuan, M. (2012). A direct approach to sparse discriminant analysis in ultra-high dimensions, Biometrika, 99, 29-42.
McLachlan, G. J., Bean, R. and Peel, D. (2002). A mixture model-based approach to the clustering of microarray expression data, Bioinformatics, 18, 413-422.
McNicholas, P. D. and Murphy, T. B. (2010). Model-based clustering of microarray expression data via latent Gaussian mixture models, Bioinformatics, 26, 2705-2712.
Palmitesta, P. and Provasi, C. (n.d.). Computer Generation of Random Vectors from Continuous Multivariate Distributions. Available from: http://www.econpol.unisi.it/dmq/pdf/DMQ WP34.pdf.
Rothman, A. J., Levina, E. and Zhu, J. (2009). Generalized thresholding of large covariance matrices, Journal of the American Statistical Association, 104, 177-186.
Rothman, A. J., Levina, E. and Zhu, J. (2010). A new approach to Cholesky-based covariance regularization in high dimensions, Biometrika, 97, 539-550.
Schafer, J. and Strimmer, K. (2005). A shrinkage approach to large-scale covariance matrix estimation and implications for functional genomics, Statistical Applications in Genetics and Molecular Biology, 4, 32.
Shen, H. and Huang, J. Z. (2008). Sparse principal component analysis via regularized low rank matrix approximation, Journal of Multivariate Analysis, 99, 1015-1034.
Tibshirani, R., Hastie, T., Narasimhan, B. and Chu, G. (2002). Diagnosis of multiple cancer types by shrunken centroids of gene expression, Proceedings of the National Academy of Sciences, 99, 6567-6572.
Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response, Proceedings of the National Academy of Sciences, 98, 5116-5121.
Zou, H., Hastie, T. and Tibshirani, R. (2006). Sparse principal component analysis, Journal of Computational and Graphical Statistics, 15, 265-286.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.