최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.24 no.5, 2013년, pp.1063 - 1076
The power of modern technology is opening a new era of big data. The size of the datasets affords us the opportunity to answer many open scientific questions but also presents some interesting challenges. High-dimensional data such as microarray are common in big data. In this paper, we give an over...
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
다중비교에서 필수적인 것은 무엇인가? | 예를 들면 생물정보학에서 마이크로어레이 자료 분석의 경우 유전자의 갯수가 자료의 갯수보다 많고 각각의 유전자에 대한 발현여부를 통계적 가설검정을 이용하여 알고자 할 때 연구자들은 유전자의 갯수만큼 적게는 수천에서 많게는 수만개의 가설검정을 동시에 행하 게 된다. 이러한 다중비교에서 오류 (error rate)의 조정은 필수적이다. 기존의 가설검정방법을 오발견 (false discovery)에 대한 고려없이 사용할 경우, 즉 각각의 유전자에 대한 유의수준 0. | |
FDR 방법론은 어떠한 분야에 성공적으로 사용되었는가? | FDR 방법은 사실 1980년대 의학통계에서 쓰였던 다중검정 방법에서 그 유래를 찾을 수 있다. 이후 이 방법론은 다양한 분야의 연구, 신호처리에서 웨이블렛 함수의 분계점 선택 (threshold selection), 천 체물리학에서 우주배경복사 (cosmic microwave background)를 이용한 빅뱅이론의 확인, 마이크로어레 이 자료의 분석 등에 성공적으로 사용되었다 (Lindsay 등, 2004). Table 1. | |
빅데이터 분석에 가장 유용한 분석방법들에는 무엇이 있는가? | 21세기는 빅데이터의 도래로 많은 분야의 연구들이 새로운 통계분석방법을 요구한다. 현재 빅데이터 분석에 가장 유용한 분석방법들로는 다중검정방법, 구체적으로 대역검정 (global testing)과 동시검정 (simultaneous testing)을 들 수 있겠다. 예를 들면 생물정보학에서 마이크로어레이 자료 분석의 경우 유전자의 갯수가 자료의 갯수보다 많고 각각의 유전자에 대한 발현여부를 통계적 가설검정을 이용하여 알고자 할 때 연구자들은 유전자의 갯수만큼 적게는 수천에서 많게는 수만개의 가설검정을 동시에 행하 게 된다. |
Arias-Castro, E., Candes, E. J. and Plan, Y. (2011). Global testing under sparse alternatives: Anova, multiple comparisons and the higher criticism. Annals of Statistics, 39, 2533-2556.
Benjamini, Y., Drai, D., Elmer, G., Kafkafi, N. and Golani, I (2001). Controlling the false discovery rate in behavior genetics research. Behavioural Brain Research, 125, 279-284.
Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society B, 57, 289-300.
Benjamini, Y. and Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics, 29, 1165-1188.
Donoho, D. L. and Jin, J. (2004). Higher criticism for detecting sparse heterogeneous mixtures, Annals of Statistics, 32, 962-994.
Efron, B. (2010). Large-scale inferece: Empirical Bayes methods for estimation, testing, and prediction, Cambridge University Press, Cambridge.
Fan, J. (1996). Test of significance based on wavelet thresholding and Neyman's truncation. Journal of the American Statistical Association, 91, 674-688.
Fan, J. and Lin, S.-K.(1998). Test of significance when data are curves. Journal of the American Statistical Association, 93, 1007-1021.
Genovese, C. R., Lazar, N. A. and Nichols, T. (2002). Thresholding of statistical maps in functional neuroimaging using false discovery rate. Neuroimage, 15, 870-878.
Genovese, C. R. and Wasserman, L. A. (2004). A stochastic process approach to false discovery control. Annals of Statistics, 32, 1035-1061.
Jin, J. (2008). Proportion of non-zero normal means: Universal oracle equivalences and uniformly consistent estimators. Journal of the Royal Statistical Society B, 70, 461-493.
Lindsay, B. G., Kettenring, J. and Siegmund, D. O. (2004). A report on the future of statistics. Statistical Science, 19, 387-413.
Park, C., Ahn, J., Hendry, M. and Jang, W. (2011). Analysis of long period variable stars with nonparametric tests for trend detection. Journal of the American Statistical Association, 106, 832-845.
Patti, M. E., Butte, A. J., Crunkhorn, S., Cusi, K., Berria, R., Kashyap, S., Miyazaki, Y., Kohane, I., Costello, M., Saccone, R., Landaker, E. J., Goldfine, A. B., Mun, E., DeFronzo, R., Finlayson, J., Kahn, C. R. and Mandarino, L. J. (2003). Coordinate reduction of genes of oxidative metabolism in humans with insulin resistance and diabetes: Potential role of PGC1 and NRF1. Proceedings of the National Academy Sciences of USA, 100, 8466-8471.
Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M. A., Bender, D., Maller, J., Sklar, P., de Bakker, P. I., Daly, M. J. and Sham, P. C. (2007). PLINK: A tool set for whole-genome association and population-based linkage analyses. American Journal of Human Genetics, 81, 559-575.
Storey, J. D. (2002). A direct approach to false discovery rates. Journal of the Royal Statistical Society B, 100, 9440-9445.
Storey, J. and Tibshirani, R. (2003). Statistical significance for genomewide studies. Proceedings of the National Academy Sciences of USA, 98, 5116-5121.
Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of micorarrays applied to the ionizing radiation response. Proceedings of the National Academy Sciences of USA, 98, 5116-5121.
Weisberg, S. P., McCann, D., Desai, M., Rosenbaum, M., Leibel, R. L. and Ferrante, A. W. (2003). Obesity is associated with macrophage accumulation in adipose tissue. Journal of Clinical Investigation, 112, 1796-1808.
Wilkinson, L. (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54, 594-604.
Wit, E. (2010). Comments on Discovering the false discovery rate by Benjamini. Journal of the Royal Statistical Society B, 72, 410-411.
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.