$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

모형 선택에서의 수정된 AIC 사용에 대하여
Using the corrected Akaike's information criterion for model selection 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.1, 2017년, pp.119 - 133  

송은정 (인하대학교 통계학과) ,  원성호 (서울대학교 보건대학원) ,  이우주 (인하대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

이미 corrected Akaike's information criterion(AICc)가 AIC에 비해 우수한 이론적 성질을 가진 것으로 알려져 있으나, 현재 실제 자료분석에서 최적의 예측 모형을 선택하기 위해 가장 널리 사용되는 정보기준은 여전히 Akaike's information criterion(AIC)이다. 이것은 AICc를 사용함으로써 실제 우리가 어떠한 종류의 이점을 얻을 수 있는가에 대해 논의하고 있는 연구가 부족해서이다. 우리는 이 논문에서 수치 연구를 통해 AIC와 AICc의 성능을 비교하고 AICc 의 사용이 가져오는 장점에 대해 확인을 할 것이다. 또한, 포아송 또는 이항 분포 자료 분석에서 과대산포(overdispersion) 현상이 나타난 경우 사용하는 quasi Akaike's information criterion(QAIC)와 corrected quasi Akaike's information criterion(QAICc) 성능에 대해서도 시뮬레이션을 통해 비교해보고자 한다.

Abstract AI-Helper 아이콘AI-Helper

Corrected Akaike's information criterion (AICc) is known to have better finite sample properties. However, Akaike's information criterion (AIC) is still widely used to select an optimal prediction model among several candidate models due to of a lack of research on benefits obtained using AICc. In t...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • QAIC와QAICc의 성능 비교는 최근에 Kim 등 (2014)에 의해서 진행되었는데, 이 연구 또한 Cavanaugh 등(2008)처럼 여러 후보모형 중에서 참모형이 선택되었는지 여부를 가지고 성능이 측정되었다. 그러므로 본 논문에서는 QAIC와 QAICc의 비교 연구에서도 예측력이 높은 모형을 얼마나 잘 선택 할 수 있는지를 가지고 성능을 확인하고자 한다.
  • 그러나 AIC의 본질적 목표는 참모형을 찾는 것이 아니라, 예측을 잘하는 모형을 선택하기 위한 것이며 특히 예측을 잘하는 모형과 참모형은 동일하지 않은 경우가 빈번하다는 사실에 주목해야 한다 (Shmueli, 2010). 따라서 AIC와 AICc로 선택된 모형이 참모형인지 보다는 예측을 잘하는 모형인지를 확인하는 것이 바람직하다고 할 수 있으며, 본 논문에서 이러한 관점에서 선택된 모형을 평가하고자 한다. 그러나 선택된 모형이 예측력이 좋은 모형인지 아닌지를 확인하는 것은 참모형을 선택한 것인지 확인하는 것보다 조금 더 어려운 문제이다.
  • 첫 번째는 피어슨 잔차의 제곱합을 이용하여 얻은 통계량이고, 두 번째 측도는 로그 가능도 함수를 이용하여 구한 통계량이다. 본 논문에서는 두 측도를 이용하여 예측력이 좋은 모형인지 아닌지 확인 할 뿐만 아니라,두 측도를 비교해 봄으로써 선택된 모형의 예측력에 대한 평가가 사용되는 측도에 크게 의존하는지를 추가적으로 확인해 보고자 한다. 또한 Cavanaugh 등 (2008)의 연구에서는 참모형이 후보모형 중에 포함되어 있지 않은 경우는 다루어지지 않았는데 본 논문에서는 그에 대해서도 추가로 다루어 보고자 한다.
  • 이를 토대로 제 5절에서는 위의 네 가지 기준들을 실제자료에 적용하여 보고자 한다. 실제 많은 연구에서 여전히 AIC와 QAIC가 많이 사용되고 있지만, 수치연구 결과에서 살펴보았듯이 AICc와 QAICc가 예측력이 좋은 모형을 선택하는데 더 우수한 성능을 보여주었고 실제 자료를 다룰 때에 AIC와 QAIC와는 다른 모형이 AICc와 QAICc에 의해 선택되어짐을 보여주고자 한다.

가설 설정

  • 다음의 3절에서는 지금까지 소개한 AIC와 AICc의 성능을 비교하고 확인하기 위하여 정규분포를 가정하여 시뮬레이션을 진행하였다. 실제 연구자들이 AIC를 사용할 때에는, 후보 모형이 참인 모형을 포함하는 여부에 관계없이 사용하는 경우가 많으므로 Cavanaugh 등 (2008)에서 고려된 시뮬레이션과는 달리 참모형이 후보모형들 가운데 없는 경우에 대해서도 수치 연구를 시행할 것이다.
  • 2). 따라서 두 개의 설명변수에 대하여 반응변수는 이항분포를 따른다고 가정하여 일반화선형모형으로 분석하였다. 고려한 후보모형은 각 변수가 하나씩 들어간 것과 두 개 모두 포함된것, 교차항이 포함된 것까지 총 4개를 고려하였다.
  • 우리는 AIC와 AICc가 예측력이 높은 모형을 얼마나 잘 선택하는지 확인하기 위해 정규분포를 가정하여 시뮬레이션을 진행하였다. 시뮬레이션에서는 참모형으로부터 추출된 자료 #들을 이용하여 후보모형들의 모수 θ를 추정하여 #을 구하고, 자료 #와는 독립이면서 같은 참모형으로부터 추출된 랜덤표본 yi들을 이용하여 추정된 각각의 모형의 예측력을 평가하였다.
  • AIC와 AICc 비교연구는 Cavanaugh 등 (2008)에 의하여 시도된 적이 있었다. 이 연구에서 모형선택 기준들의 성능은 정규분포를 가정한 여러개의 후보모형 중에서 참모형이 얼마나 높은 빈도로 선택되었는지로 확인하였다. 그러나 AIC의 본질적 목표는 참모형을 찾는 것이 아니라, 예측을 잘하는 모형을 선택하기 위한 것이며 특히 예측을 잘하는 모형과 참모형은 동일하지 않은 경우가 빈번하다는 사실에 주목해야 한다 (Shmueli, 2010).
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
예측력을 평가하는 판단기준으로 어떤 두 가지 측도를 이용하였는가? 본 논문에서는 예측력을 평가하는 판단기준으로 두 가지 측도를 이용하였다. 첫 번째는 피어슨 잔차의 제곱합을 이용하여 얻은 통계량이고, 두 번째 측도는 로그 가능도 함수를 이용하여 구한 통계량이다. 본 논문에서는 두 측도를 이용하여 예측력이 좋은 모형인지 아닌지 확인 할 뿐만 아니라,두 측도를 비교해 봄으로써 선택된 모형의 예측력에 대한 평가가 사용되는 측도에 크게 의존하는지를 추가적으로 확인해 보고자 한다.
AIC란 무엇인가? 이러한 모형선택 문제에 대한 하나의 해결책으로 Akaike(1973)는 Akaike’s information criterion(AIC)를 제안하였다. AIC는 참모형과 후보 모형 사이의 불일치 정도를 수치화한 통계량으로, 각 모형에 대응하는 AIC 값 중 가장 작은 값에 대응하는 모형을 선택함으로써 예측력이 가장 좋은 모형을 선택하게 해주는 것으로 알려져 있다 (Shmueli, 2010). 그러나AIC는 통계량을 유도하는 과정에서 최대가능도 추정량의 점근적 성질들을 이용하기 때문에 모형에서 추정해야 할 모수의 개수에 비해 자료수가 충분히 많지 않으면 예측력이 높은 모형을 선택하는데 어려움을 가진다.
AIC의 단점은? AIC는 참모형과 후보 모형 사이의 불일치 정도를 수치화한 통계량으로, 각 모형에 대응하는 AIC 값 중 가장 작은 값에 대응하는 모형을 선택함으로써 예측력이 가장 좋은 모형을 선택하게 해주는 것으로 알려져 있다 (Shmueli, 2010). 그러나AIC는 통계량을 유도하는 과정에서 최대가능도 추정량의 점근적 성질들을 이용하기 때문에 모형에서 추정해야 할 모수의 개수에 비해 자료수가 충분히 많지 않으면 예측력이 높은 모형을 선택하는데 어려움을 가진다. 이와 같은 한계점을 보완하기 위해 Hurvich와 Tsai (1989)는 corrected Akaike’s information criterion(AICc)를 제안하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. In 2nd International Symposium on Information Theory (pp. 267-281), Akademia Kiado, Budapest. 

  2. Bloom, M. and Milkovich, G. T. (1998). Relationships among risk, incentive pay, and organizational performance, Academy of Management Journal, 41, 283-297. 

  3. Burnham, K. P. and Anderson, D. (2003). Model Selection and Multi-Model Inference: a Practical Informatio-Theoric Approach, Springer, New York. 

  4. Cavanaugh, J. E., Davies S. L., and Neath, A. A. (2008). Discrepancy-based model selection criteria using cross-validation. In Statistical Models and Methods for Biomedical and Technical Systems (pp. 473-486), Birkhauser, Boston. 

  5. Debrock, C., Preux, P. M., Houinato, D., Druet-Cabanac, M., Kassa, F., Adjien, C., Avode, G., Denis, F., Boutros-Toni, F., and Dumas, M. (2000). Estimation of the prevalence of epilepsy in the Benin region of Zinvie using the capture-recapture method, International Journal of Epidemiology, 29, 330-335. 

  6. Harada, T., Ariyoshi, N., Shimura, H., Sato, Y., Yokoyama, I., Takahashi, K., Yamagata, S., Imamaki, M., Kobayashi, Y., Ishii, I., Miyazaki, M., and Kitada, M. (2010). Application of Akaike information criterion to evaluate warfarin dosing algorithm, Thrombosis Research, 126, 183-190. 

  7. Hinde, J. and Demetrio, C. G. B. (2007). Overdispersion: models and estimation. In A Short Course for 13th Brazilian Symposium of Probability and Statistics (SINAPE 1998), Brazil. 

  8. Hurvich, C. M. and Tsai, C. L. (1989). Regression and time series model selection in small samples, Biometrika, 76, 297-307. 

  9. Johnson, R. J., Kerr, C. L., Enouri, S. S., Modi, P., Lascelles, B. D. X., and Castillo, J. R. E. (2016). Pharmacoki-netics of liposomal encapsulated buprenorphine suspension following subcutaneous administration to cats, Journal of Veterinary Pharmacology and Therapeutics, Available from: http://dx.doi.org/10.1111/jvp.12357 

  10. Kim, H. J., Cavanaugh, J. E., Dallas, T. A., and Fore, S. A. (2014). Model selection criteria for overdispersed data and their application to the characterization of a host-parasite relationship, Environmental and Ecological Statistics, 21, 329-350. 

  11. Lebreton, J. D., Burnham, K. P., Clobert, J., and Anderson, D. R. (1992). Modeling survival and testing biological hypotheses using marked animals: a uni ed approach with case studies, Ecological Monograph, 62, 67-118. 

  12. McDonald, G. C. and Schwing, R. C. (1973). Instabilities of regression estimates relating air pollution to mortality, Technometrics, 15, 463-481. 

  13. Shmueli, G. (2010). To explain or to predict?, Statistical Science, 25, 289-310. 

  14. Takeuchi, K. (1976). Distribution of informational statistics and a criterion of model fitting, Suri-Kagaku (Mathematic Sciences), 153, 12-18. 

  15. Zampetakis, L. A., Bouranta, N., and Moustakis, V. S. (2010). On the relationship between individual creativity and time management, Thinking Skills and Creativity, 5, 23-32. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로