$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

천문학에서의 대용량 자료 분석
Analysis of massive data in astronomy 원문보기

응용통계연구 = The Korean journal of applied statistics, v.29 no.6, 2016년, pp.1107 - 1116  

신민수 (한국천문연구원)

초록
AI-Helper 아이콘AI-Helper

최근의 탐사 천문학 관측으로부터 대용량 관측 자료가 획득되면서, 기존의 일상적인 자료 분석 방법에 큰 변화가 있었다. 고전적인 통계적인 추론과 더불어 기계학습 방법들이, 자료의 표준화로부터 물리적인 모델을 추론하는 단계까지 자료 분석의 전 과정에서 활용되어 왔다. 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다. 그러나 이러한 병렬 분산 분석 환경의 일반적인 자료 분석에서의 활용은 아직 활발하지 않은 상황이다. 천문학에서 기계학습을 사용하는데 있어서, 충분한 학습 자료를 관측을 통해 획득하는 것이 어렵고, 그래서 다양한 출처의 자료를 모아서 학습 자료를 수집해야 는 것이 일반적이다. 따라서 앞으로 준 지도학습이나 앙상블 학습과 같은 방법의 역할이 중요해 질 것으로 예상된다.

Abstract AI-Helper 아이콘AI-Helper

Recent astronomical survey observations have produced substantial amounts of data as well as completely changed conventional methods of analyzing astronomical data. Both classical statistical inference and modern machine learning methods have been used in every step of data analysis that range from ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 논문에서는, 위에 기술한 최근의 대용량 천문 자료 분석에서 관심이 되고 있는 주제를 중심으로, 최근의 자료 분석의 핵심 문제들과 분석 사례를 소개하고자 한다. 이를 통해서 이 논문이 국내 이">2015). 문제는 제한된 수의 은하들에 대해서 그 종류와 적색편이가 알려져 있고, 이들 학습 자료를 이용해서 다수의 종류와 거리가 알려지지 않은 은하들에 대해서 그 종류와 적색편이를 추정하는 것을 목적으로 한다. 이렇게 추정된 적색 편이 정보는 우주의 은하 분포가 가지는 거대 구조를 연구하거나, 거리에 따른 후)천문자료">천문 자료 분석에서 관심이 되고 있는 주제를 중심으로, 최근의 자료 분석의 핵심 문제들과 분석 사례를 소개하고자 한다. 이를 통해서 이 논문이 국내 통계학자들이 대용량 천문학 자료를 분석하는 문제에 참여하는 기회를 모색하는데 도움이 되었으면 한다. 이를 위해서 먼저

    가설 설정

    • ">결부 된다. 첫째, 측정치에 대한 오차를 추정하기 위해 관측되는 신호가 가지는 통계 분포가 일반적으로 가정되어야 하는데, 흔히 Poisson 분포나 Gaussian 분포가 가정된다. 둘째, 측정치와 물리량 사이의 전환은 측정치가 가지는 오차를 고려하여 회귀분석의 방법으로 흔히 얻어지게 된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
대용량 관측 자료의 획득과 공유를 통한 자료 분석이라는 연구 환경의 변화로 천문학자들이 대용량 자료 분석에 있어서 어떤 현실적인 문제들을 겪었는가? 이러한 대용량 관측 자료의 획득과 공유를 통한 자료 분석이라는 연구 환경의 변화는, 천문학자들이 자연스럽게 대용량 자료 분석에 있어서 몇 가지 현실적인 문제들을 경험하게 하였다. 첫째, 대용량 자료를 분석할 수 있는 컴퓨터 알고리즘과 분석 환경의 중요성이 새롭게 인식되었는데, 이는 컴퓨터 과학자들과의 협업을 통해서 병렬 분산 컴퓨팅 기술이 대용량 천문학 자료 분석에 필수적으로 활용되는 변화로 이어졌다. 둘째, 기존의 다양한 분석 방법을 큰 규모의 자료 분석에 적용하기 위해서, 이들 분석 방법에 대한 새로운 구현의 필요성이 대두되었다. 이는 병렬 분산 처리라는 분석 환경에 맞추어 자료 분석을 구현하는 것이다. 이 부분에 있어서 기존에 ‘Astroinformatics’라는 분야로 이루어지던 통계학자 및 전산학자들과의 공동 연구가 가지는 중요성이 새롭게 인식되고 있다 (Zhang과 Zhao, 2015). 셋째, 자동화된 대용량 자료 분석과 그 과정에서 잘못된 검출과 판단의 규모를 정량적으로 추정하는 것의 중요성이 부각되었다. 이 목적을 위하여 기계학습 방법이 다양한 목적을 가지고 활용되기 시작하였는데, 아직까지 천문학에서의 활용은 본격적이지는 않은 상황으로 기계학습 연관 분야와의 공동 연구가 요구되고 있다.
대용량 천문학 자료의 분석에서 문제점은? 적은 비용으로 대형 검출 기기들을 이용할 수 있게 되고, 더불어서 고속의 컴퓨터 네트워크를 통해서 대용량의 자료들을 쉽게 공유할 수 있게 되면서, 기존의 다양한 천문학 자료 분석의 문제들에 대해서 기계학습을 활용하는 것이 보편화되고 있다. 일반적으로 대용량 천문학 자료의 분석은, 자료의 시간과 공간 분포가 가지는 비 균질성 때문에 야기되는 효과를 고려해야 하는 문제를 가진다. 오늘날 증가하는 자료의 규모는 자연스럽게 기계학습의 활용과 더불어 병렬 분산 컴퓨팅을 필요로 하고 있다.
앙상블 학습법이란? 학습 입력 자료 구성에 따라서 기계학습법 적용의 성패가 다르기 때문에, 불 균질적인 학습 자료나 소수의 학습 자료에서 학습된 결과를 압도적으로 더 큰 적용 자료에 활용하는 방법에 대한 추가적인 연구가 요구되는 상황이다. 이러한 점에서 다양한 출처의 학습 자료로 부터 얻어지는 개개의 학습 결과를 결합해서 적용하는 앙상블 학습법(ensemble learning; Zhou, 2015)의 활용 가능성이 크다. 또한, 준 지도학습(semi-supervised learning; Chapelle 등, 2010)과 같이 그 정답을 아는 학습 자료의 양이 부족한 경우를 대상으로 하는 방법들의 활용 가능성이 크다.
질의응답 정보가 도움이 되었나요?

참고문헌 (38)

  1. Abazajian, K. N. Abazajian, K. N., Adelman-McCarthy, J. K., Agueros, M. A., Allam, S. S., Prieto, C. A., An, D., et al. (2009). The seventh data release of the Sloan Digital Sky survey. The Astrophysical Journal Supplement, 182, 543-558. 

  2. Al-Jarrah, O. Y., Yoo, P. D., Muhaidat, S., Karagiannidis, G. K., and Taha, K. (2015). Efficient machine learning for big data: a review. Big Data Research, 2, 87-93. 

  3. Allison, R. and Dunkley, J. (2014). Comparison of sampling techniques for Bayesian parameter estimation. Monthly Notices of the Royal Astronomical Society, 437, 3918-3928. 

  4. Alonso, D. (2012). CUTE solutions for two-point correlation functions from large cosmological datasets, ArXiv e-prints, 1210.1833. Available from: https://arxiv.org/abs/1210.1833 

  5. Ball, N. M. and Brunner, R. J. (2010). Data mining and machine learning in astronomy. International Journal of Modern Physics D, 19, 1049-1106. 

  6. Bhat, P. C. (2011). Multivariate analysis methods in particle physics. Annual Review of Nuclear and Particle Science, 61, 281-309. 

  7. Borne, K. (2013). Virtual observatories, data mining, and astroinformatics. In Planets, Stars and Stellar Systems (pp. 403-443), Springer Netherlands 

  8. Borra, S. and Di Ciaccio, A. (2010). Measuring the prediction error. A comparison of cross-validation, bootstrap and covariance penalty methods. Computational Statistics & Data Analysis, 54, 2976-2989. 

  9. Cavuoti, S., Brescia, M., De Stefano, V., and Longo, G. (2015). Photometric redshift estimation based on data mining with PhotoRApToR. Experimental Astronomy, 39, 45-71. 

  10. Chapelle, O., Schlkopf, B., and Zien, A. (2010). Semi-Supervised Learning, The MIT Press. 

  11. Feigelson, E. D. and Babu, J. (2012). Statistical Challenges in Modern Astronomy V, (Volume 902 of Lecture Notes in Statistics), Springer, New York. 

  12. Feroz, F., Hobson, M. P., and Bridges, M. (2009). MULTINEST: an efficient and robust Bayesian inference tool for cosmology and particle physics. Monthly Notices of the Royal Astronomical Society, 398, 1601-1614. 

  13. Foreman-Mackey, D., Hogg, D. W., Lang, D., and Goodman, J. (2013). emcee: The MCMC Hammer. Publications of the Astronomical Society of Pacific, 125, 306-312. 

  14. Gebru, I. D., Alameda-Pineda, X., Forbes, F., and Horaud, R. (2015). EM algorithms for weighted-data clustering with application to audio-visual scene analysis, CoRR, Available from: https://arxiv.org/abs/1509.01509 

  15. Golombek, D. (2004). Archives, databases and the emerging virtual observatories. Astrophysics and Space Science, 290, 449-456. 

  16. Gunn, J. E., Siegmund, W. A., Mannery, E. J., Owen, R. E., Hull, C. L., Leger, R. F., et al. (2006). The 2.5 m telescope of the sloan digital sky survey. The Astronomical Journal, 131, 2332-2359. 

  17. Hahm, J., Kwon, O.-K., Kim, S., Jung, Y.-H., Yoon, J.-W., Kim, J., Kim, M.-K., Byun, Y.-I., Shin, M.-S., and Park, C. (2012). Astronomical time series data analysis leveraging science cloud, In Lecture Notes in Electrical Engineering, 181, 493-500. 

  18. Hira, Z. M. and Gillies, D. F. (2015). A review of feature selection and feature extraction methods applied on microarray data, Advances in Bioinformatics, 2015, Article ID 198363. 

  19. Ihaka, R. and Gentleman, R. (1996). R: a language for data analysis and graphics. Journal of Computational and Graphical Statistics, 5, 299-314. 

  20. Ivezic, Z., Tyson, J. A., Abel, B., Acosta, E., Allsman, R., AlSayyad, Y., et al. (2008). LSST: from science drivers to reference design and anticipated data products, ArXiv e-prints, 0805.2366, Available from: https://arxiv.org/abs/0805.2366 

  21. Ivezic, Z., Connolly, A. J., VanderPlas, J. T., and Gray, A. (2014). Statistics, Data Mining, and Machine Learning in Astronomy: A Practical Python Guide for the Analysis of Survey Data, Princeton University Press. 

  22. Liao, K., Treu, T., Marshall, P., Fassnacht, C. D., Rumbaugh, N., Dobler, G., et al. (2015). Strong lens time delay challenge. II. Results of TDC1. The Astrophysical Journal, 800, 11. 

  23. Patil, A., Huard, D., and Fonnesbeck, C. (2010). PyMC: Bayesian stochastic modelling in python. Journal of Statistical Software, 35, 4. 

  24. Pier, J. R., Munn, J. A., Hindsley, R. B., Hennessy, G. S., Kent, S. M., Lupton, R. H., et al. (2003). Astrometric calibration of the sloan digital sky survey. The Astronomical Journal, 125, 1559-1579. 

  25. Saeys, Y., Inza, I., and Larra-naga, P. (2007). A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517. 

  26. Shin, M.-S. and Byun, Y.-I. (2004). Efficient period search for time series photometry. Journal of Korean Astronomical Society, 37, 79-85. 

  27. Singh, N., Browne, L.-M,. and Butler, R. (2013). Parallel astronomical data processing with Python: Recipes for multicore machines. Astronomy and Computing, 2, 1-10. 

  28. Stetson, P. B. (1996). On the automatic determination of light-curve parameters for Cepheid variables. Publications of the Astronomical Society of the Pacific, 108, 851-876. 

  29. Szalay, A. S., Kunszt, P. Z., Thakar, A. R., Gray, J., and Slutz, D. (2000). The sloan digital sky survey and its archive, Astronomical Data Analysis Software and Systems IX. ASP Conference Proceedings, 216, 405-414. 

  30. Szapudi, I., Pan, J., Prunet, S., and Budavari, T. (2005). Fast edge-corrected measurement of the two-point correlation function and the power spectrum. The Astrophysical Journal, 631, L1-L4. 

  31. Townsend, R. H. D. (2010). Fast calculation of the Lomb-Scargle periodogram using graphics processing units. The Astrophysical Journal Supplement, 191, 247-253. 

  32. Vio, R., Diaz-Trigo, M., and Andreani, P. (2013). Irregular time series in astronomy and the use of the Lomb-Scargle periodogram. Astronomy and Computing, 1, 5-16. 

  33. Way, M. J., Scargle, J. D., Ali, K. M., and Srivastava, A. N. (2012). Advances in Machine Learning and Data Mining for Astronomy (1st ed.), Chapman & Hall/CRC. 

  34. Zhang, Y. and Zhao, Y. (2015). Astronomy in the big data era. Data Science Journal, 14, 1-9. 

  35. Zheng, H. and Zhang, Y. (2008). Feature selection for high-dimensional data in astronomy. Advances in Space Research, 41, 1960-1964. 

  36. Zhou, Z.-H. (2015). Ensemble learning, Encyclopedia of Biometrics, Springer US, Boston. 

  37. Zuntz, J., Paterno, M., Jennings, E., Rudd, D., Manzotti, A., Dodelson, S., Bridle, S., Sehrish, S., and Kowalkowski, J. (2015). CosmoSIS: Modular cosmological parameter estimation. Astronomy and Computing, 12, 45-59. 

  38. Von Neumann, J. (1941). Distribution of the ratio of mean square successive difference to the variance. The Annals of Mathematical Statistics, 12, 367-395. 

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로