[논문]불완전 자료에 대한 Metropolis-Hastings Expectation Maximization 알고리즘 연구

전수영; 이희찬

doi:10.5351/kjas.2012.25.1.183

불완전 자료에 대한 Metropolis-Hastings Expectation Maximization 알고리즘 연구
Metropolis-Hastings Expectation Maximization Algorithm for Incomplete Data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.25 no.1, 2012년, pp.183 - 196

초록
AI-Helper

결측자료(missing data), 절단분포(truncated distribution), 중도절단자료(censored data) 등 불완전한 자료(incomplete data)하의 추론문제(incomplete problems)는 통계학에서 자주 발생되는 현상이다. 이런 문제의 해결방법으로 Expectation Maximization, Monte Carlo Expectation Maximization, Stochastic Expectation Maximization 알고리즘 등을 이용하는 방법이 있지만, 정형화된 분포의 가정이 필요하다는 단점을 가지고 있다. 본 연구에서는 정형화된 분포의 가정이 없는 경우에 사용할 수 있는 Metropolis-Hastings Expectation Maximization(MHEM) 알고리즘을 제안하고자 한다. MHEM 알고리즘의 효율성은 중도절단자료(censored data)를 이용한 모의실험과 KOSPI 200 수익률의 실증자료분석를 통해 알수 있었다.

Abstract ▼ AI-Helper

The inference for incomplete data such as missing data, truncated distribution and censored data is a phenomenon that occurs frequently in statistics. To solve this problem, Expectation Maximization(EM), Monte Carlo Expectation Maximization(MCEM) and Stochastic Expectation Maximization(SEM) algorithm have been used for a long time; however, they generally assume known distributions. In this paper, we propose the Metropolis-Hastings Expectation Maximization(MHEM) algorithm for unknown distributions. The performance of our proposed algorithm has been investigated on simulated and real dataset, KOSPI 200.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 EM, MCEM, SEM 알고리즘 등은 각각의 장·단점을 가지고 있지만, 모두 정형화된 분포의 가정이 필요한 알고리즘이다. 그래서 본 논문에서는 정형화된 분포의 가정이 필요하지 않은 MH 알고리즘과 EM 알고리즘을 결합하여 적용한 MHEM 알고리즘을 제안하였다.
하지만 모의실험에서처럼 정형화된 분포가 아니라 정형화되지 않은 분포를 따르는 자료에서는 다른 알고리즘들 사용할 수 없지만, MHEM 알고리즘은 쉽게 사용할 수 있다는 효율성이 있다. 따라서 본 논문에서는 정형화되지 않은 분포를 가지고 있는 오른쪽 중도 절단된 자료에 대해서 MHEM 알고리즘을 이용하여 실증분석을 하였다. 그 결과는 본 논문에서 제안한 MHEM 알고리즘의 효율성을 잘 보여주고 있다.
이제까지 살펴본 알고리즘들은 확률분포가 알려져 있지 않을때 이용하지 못하는 단점을 가지고 있다. 따라서 본 논문에서는 확률분포가 알려지지 않을 때 유용한 Metropolis-Hastings Expectation Maximization(MHEM) 알고리즘이라는 변형된 EM 알고리즘을 제안하고자 한다.
앞에서 설명한 기존의 알고리즘들은 모두 분포의 가정이 필요하거나 분포를 알고 있어야 한다는 특징을 가지고 있다. 본 논문에서는 확률분포가 알려지지 않을 때 모수 추정이 가능하도록 하는 방법으로 메트로폴리스-헤스팅스(Metropolis-Hastings; MH) 알고리즘을 이용하여 새롭게 변형된 EM 알고리즘을 제안한다. MH 알고리즘은 관심의 대상이 되는 확률분포가 주어지지 않거나 가정이 되지 않았을 때, 직접 난수를 생성할 수 없으므로, 간접적으로 확률분포가 극한분포를 갖는 마코브 연쇄로부터 난수를 발생시켜 추론하는 알고리즘이다.
지금까지의 분포추정, 모의실험 등을 바탕으로 정형화되지 않은 추정된 분포에 MHEM 알고리즘을 이용하여 추정한 결과, 그 결과값이 실제 수익률 자료를 잘 추정하고 있다는 것을 알 수 있었다. 이것들을 바탕으로 본 실증분석에서는 최근 수익률 자료를 바탕으로 관측되지 않은 앞으로의 수익률을 예측해 보고자 한다. 2005년부터 2010년까지의 KOSPI 200의 수익률 자료를 가지고 2011년의 수익률을 예측하였다.
이러한 VaR 분석기법을 조금 더 적극적으로 활용하기 위해서 최근까지의 자료들을 관측된 자료들로 정하고, 미래의 자료를 결측자료로 가정하여, 중도 절단된 자료로 설정한다. 이와 같이 설정하여 본 논문에서는 MHEM 알고리즘을 통해서 미래의 자료를 포함한 VaR를 추정하여 위험 관리에서 조금 더 능동적으로 대처하고자 한다.
1에 KOSPI 200 수익률의 실제 기간에 따른 평균, 표준편차, 왜도, 첨도, SW(Shapiro-Wilk) 통계량과 정규분포 검정에 대한 유의 수준 P값이 정규 분포의 기초 통계 값과 비교되어 정리되어있다. 평균을 통해서는 KOSPI 200 주가지수의 수익률이 0을 중심으로 하는 분포인가를 보게 되고, 표준편차를 통해서는 데이터의 기간에 따른 변동성의 변화를 보고자한다. 왜도는 평균 근방의 비대칭 정도를 나타내는 값으로 정규분포를 따른다면 0의 값을 가지게 될 것이다.

가설 설정

이러한 VaR 분석기법을 조금 더 적극적으로 활용하기 위해서 최근까지의 자료들을 관측된 자료들로 정하고, 미래의 자료를 결측자료로 가정하여, 중도 절단된 자료로 설정한다. 이와 같이 설정하여 본 논문에서는 MHEM 알고리즘을 통해서 미래의 자료를 포함한 VaR를 추정하여 위험 관리에서 조금 더 능동적으로 대처하고자 한다.

제안 방법

1999년 1월 4일부터 2003년 4월 7일까지의 자료를 가지고 1999년 1월 4일부터 2001년 11월 21일까지의 자료는 관측된 자료로 하고, 2001년 11월 22일부터 2003년 4월 7일까지의 자료는 관측되지 않은 자료로 설정해서, 관측된 자료들을 바탕으로 관측되지 않은 자료들을 MHEM 알고리즘을 이용하여 추정하였다.
3.1절에서 설명한 정규분포를 따르는 자료를 바탕으로 각각의 알고리즘들을 이용하여 모의실험을 진행하였다.
VaR 측정 시 고려해야 할 중요 요소인 보유기간은 1일 종가 지수를 기준으로 분석하였다. 사실 보유 기간은 필요에 따라 달라질 수 있는데 하루 단위로 선정하는 이유는 변동성이 관찰되면서 BIS에서 요구하는 것이 2주 VaR임에도 불구하고 대부분의 금융회사들은 내부위험제어의 목적으로 하루 동안 손실을 막을 수 있는 VaR를 적용하기 때문이다.
2절에서 실제 자료들은 정규분포가 아닌 다른 분포를 따르는 자료들이라는 것을 알 수 있었다. 그러면 실제 자료들은 어떠한 분포를 따르는지를 알아보기 위해 비모수적 분석 방법에서 많이 사용되고 있는 커널 분석 방법(Kernel analysis method)을 이용하여 실제 자료들이 어떠한 분포를 따르고 있는지 알아보도록 하겠다.
모의실험에서 각 알고리즘들에 대한 θ의 초기치를 0으로 하여 알고리즘들마다 각각 반복을 10000번씩 진행 하였다.
본 논문에서는 오른쪽 중도 절단된 자료를 생성하여 모의실험을 통해 모수를 추정하였다. 이를 위한 방법으로 EM, SEM, MCEM, MHEM 알고리즘을 사용하였다.
본 모의실험은 Robert와 Casella (2004, p.178)에 의해 제시된 예를 이용하여 정규분포를 따르는 자료를 생성시켜, 1장과 2장에서 설명한 각 알고리즘들을 비교 분석하고 MHEM 알고리즘의 효율성을 알아보았다. 모의실험을 위한 통계 패키지로는 R-software(version 2.
MHEM 알고리즘은 정형화된 분포를 따르지 않는 자료들을 이용하여 모수를 추정할 수 있다는 장점을 가지고 있다. 본 실증분석에서는 이러한 MHEM 알고리즘의 장점을 이용하여 실증분석을 진행하였다.
이와 같이 구간을 설정한 이유는 외환위기 이후의 KOSPI 200 자료들을 바탕으로 MHEM 알고리즘을 이용하여 VaR를 추정하여 MHEM 알고리즘으로 추정한 VaR가 정확하게 모형을 반영하고 있는지 보기 위함이다. 이를 위해 모의실험을 살펴보았고, 최근 자료들을 이용하여 실증분석을 진행하였다. 또한 1999년 1월 4일부터 2003년 4월 7일까지의 KOSPI 200자료를 설정한 이유는 외환 위기에는 금융 경색, 리스크 프리미엄의 폭등 등으로 인하여 VaR 추정 결과에 대하여 명확하고 확실한 의미를 부여할 수 없다는 점에서 외환위기 이후의 자료가 필요하였으며, 그 구간 동안 신용카드와 신용대출의 무분별한 사용으로 경제적 위기로 인하여 자료의 변동 폭이 커 그 구간을 MHEM 알고리즘을 이용하여 VaR 추정 결과를 잘 보여준다면, 정확하게 모형을 반영하고 있다고 판단하였기 때문이다.
1과 유사한 형태를 보여 주고 있다. 조금 더 정확히 살펴보기 위하여 표 4.3과 같이 실제 수익률 자료의 통계량과 추정한 분포를 이용하여 생성한 수익률 자료의 통계량을 비교하였다. 표를 보면 알 수 있듯이 커널 함수를 이용하여 추정한 분포가 실제 수익률 분포를 잘 반영하고 있는 것을 알 수 있다.
5를 기준으로 오른쪽으로 절단하여 오른쪽으로 중도 절단된 자료(censored data)를 설정하였다. 즉, 정규분포에서 4.5보다 작거나 같은 값은 관측된 자료로 설정하고, 4.5보다 큰 경우는 결측 자료로 설정하여 관측된 자료를 바탕으로 결측된 자료를 포함한 완전자료의 평균을 추정하기 위해 설정하였다. 생성된 자료들의 평균과 관측된 자료들로 설정된 자료의 평균은 표 3.

대상 데이터

이것들을 바탕으로 본 실증분석에서는 최근 수익률 자료를 바탕으로 관측되지 않은 앞으로의 수익률을 예측해 보고자 한다. 2005년부터 2010년까지의 KOSPI 200의 수익률 자료를 가지고 2011년의 수익률을 예측하였다. 즉, 관측된 자료인 2005∼2010년 자료를 가지고 관측되지 않은 2011년 자료의 평균 수익률을 예측 하였다.
본 논문의 모의실험을 위해 평균이 4이고 분산이 1인 정규분포를 따르는 자료를 100개 생성하였다 (그림 3.1).
본 논문의 실증분석에 사용되는 자료는 증권거래소에서 제공하는 1999년 1월 4일부터 2003년 4월 7일까지의 KOSPI 200의 자료와 2005년 1월 3일부터 2010년 12월 30일까지의 KOSPI 200의 자료이다. 이와 같이 구간을 설정한 이유는 외환위기 이후의 KOSPI 200 자료들을 바탕으로 MHEM 알고리즘을 이용하여 VaR를 추정하여 MHEM 알고리즘으로 추정한 VaR가 정확하게 모형을 반영하고 있는지 보기 위함이다.

이론/모형

43). 따라서 본 논문에서는 2차 미분이 가능한 확률밀도함수인 Gaussian 커널 함수를 이용하여 분포를 추정하였다. Gaussian 커널 함수를 선택하면 최적의 h는 다음의 식 (4.
본 논문에서는 오른쪽 중도 절단된 자료를 생성하여 모의실험을 통해 모수를 추정하였다. 이를 위한 방법으로 EM, SEM, MCEM, MHEM 알고리즘을 사용하였다. 그 결과 MHEM 알고리즘을 이용하여 모수를 추정한 결과의 정확도가 약간 떨어졌지만 대체적으로 모수를 잘 추정하였다.

성능/효과

4.2절에서 실제 자료들은 정규분포가 아닌 다른 분포를 따르는 자료들이라는 것을 알 수 있었다. 그러면 실제 자료들은 어떠한 분포를 따르는지를 알아보기 위해 비모수적 분석 방법에서 많이 사용되고 있는 커널 분석 방법(Kernel analysis method)을 이용하여 실제 자료들이 어떠한 분포를 따르고 있는지 알아보도록 하겠다.
이를 위한 방법으로 EM, SEM, MCEM, MHEM 알고리즘을 사용하였다. 그 결과 MHEM 알고리즘을 이용하여 모수를 추정한 결과의 정확도가 약간 떨어졌지만 대체적으로 모수를 잘 추정하였다. 모의실험은 정형화된 분포를 가정하고 그 분포에서 자료를 생성하였기 때문에 MHEM 알고리즘의 효율성이 조금은 떨어진 것으로 보인다.
따라서 본 논문에서는 정형화되지 않은 분포를 가지고 있는 오른쪽 중도 절단된 자료에 대해서 MHEM 알고리즘을 이용하여 실증분석을 하였다. 그 결과는 본 논문에서 제안한 MHEM 알고리즘의 효율성을 잘 보여주고 있다.
물론 각각의 알고리즘들마다 장·단점이 다르기 때문에 모의실험 결과에는 약간의 차이가 있다. 그 중 MHEM 알고리즘을 사용한 결과가 다른 알고리즘들을 사용한 결과보다 정확도가 떨어지는 것을 볼 수 있다. 하지만 대체적으로 실제 평균값에 가깝게 추정되는 것을 확인 할 수 있다.
이러한 특성 때문에 외부에서 강한 충격이 온다면 본 논문에서 예측한 KOSPI 200의 수익률과 다른 방향으로 진행 될 수 있다. 그러므로 본 논문에서 예측한 KOSPI 200의 수익률을 절대적인 지표로 삼기보다는 주가의 수익률을 예측함에 있어서 참고사항으로 하여 포트폴리오를 구성하면 더 좋을 것이다.
이것은 실제 자료들이 정규분포를 따르지 않는 다는 것을 보여준다. 또한 실제 자료들의 분포가 정규분포를 따르는가에 대한 더 엄밀한 검증을 위해서 Shapiro-Wilk 정규성 검정을 해 본 결과 실제 자료들은 정규분포를 따르지 않는다는 결과를 보여주고 있다.
모의실험 결과, 자료들의 실제 평균값과 EM, SEM, MHEM 알고리즘들을 이용하여 추정한 평균이 결측된 자료를 제외하고 관측된 자료를 가지고 평균을 추정한 값보다 더욱 좋은 결과를 보여준다는 것을 알 수 있다 (표 3.2). 물론 각각의 알고리즘들마다 장·단점이 다르기 때문에 모의실험 결과에는 약간의 차이가 있다.
지금까지의 분포추정, 모의실험 등을 바탕으로 정형화되지 않은 추정된 분포에 MHEM 알고리즘을 이용하여 추정한 결과, 그 결과값이 실제 수익률 자료를 잘 추정하고 있다는 것을 알 수 있었다. 이것들을 바탕으로 본 실증분석에서는 최근 수익률 자료를 바탕으로 관측되지 않은 앞으로의 수익률을 예측해 보고자 한다.
3과 같이 실제 수익률 자료의 통계량과 추정한 분포를 이용하여 생성한 수익률 자료의 통계량을 비교하였다. 표를 보면 알 수 있듯이 커널 함수를 이용하여 추정한 분포가 실제 수익률 분포를 잘 반영하고 있는 것을 알 수 있다.

후속연구

예를 들어 우리나라 기업은 안정적인 구조를 가지고 있음에도 해외에서 커다란 이슈 및 투자 심리를 위축하는 사건이 발생한다면, 해외 자금의 투자금 회수 및 외국인 투자자들의 투자 심리 위축 등으로 많은 영향을 받아서 주가의 수익률에 큰 영향을 미친다. 이러한 특성 때문에 외부에서 강한 충격이 온다면 본 논문에서 예측한 KOSPI 200의 수익률과 다른 방향으로 진행 될 수 있다. 그러므로 본 논문에서 예측한 KOSPI 200의 수익률을 절대적인 지표로 삼기보다는 주가의 수익률을 예측함에 있어서 참고사항으로 하여 포트폴리오를 구성하면 더 좋을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	불완전한 자료 하의 추론문제들로는 어떤 것들이 있는가?	결측자료(missing data), 절단분포(truncated distribution), 중도절단자료(censored data) 등 불완전한 자료(incomplete data)하의 추론문제(incomplete problems)는 통계학에서 자주 발생되는 현상이다. 이런 문제의 해결방법으로 Expectation Maximization, Monte Carlo Expectation Maximization, Stochastic Expectation Maximization 알고리즘 등을 이용하는 방법이 있지만, 정형화된 분포의 가정이 필요하다는 단점을 가지고 있다.
	불완전한 자료하의 추론문제의 이전 해결방법의 종류에는 무엇이 있는가?	결측자료(missing data), 절단분포(truncated distribution), 중도절단자료(censored data) 등 불완전한 자료(incomplete data)하의 추론문제(incomplete problems)는 통계학에서 자주 발생되는 현상이다. 이런 문제의 해결방법으로 Expectation Maximization, Monte Carlo Expectation Maximization, Stochastic Expectation Maximization 알고리즘 등을 이용하는 방법이 있지만, 정형화된 분포의 가정이 필요하다는 단점을 가지고 있다. 본 연구에서는 정형화된 분포의 가정이 없는 경우에 사용할 수 있는 Metropolis-Hastings Expectation Maximization(MHEM) 알고리즘을 제안하고자 한다.
	통계 자료 및 통계 분석 결과를 활용하기 위해서는 무엇이 선행되어야 하는가?	현대 사회에서의 통계는 우리 생활과 아주 밀접한 관계를 가지고 있기 때문에, 통계가 우리 생활과 가까워질수록 통계 자료 및 통계 분석 결과를 많은 분야에서 활용을 하게 되었다. 이러한 통계 자료 및 통계 분석 결과를 활용하기 위해서는 통계 자료들을 수집해야 하는 것이 선행되어야 한다. 하지만 사회에서 자료들을 수집하는 것은 여러 가지 상황 및 제약 때문에 완전한 자료들을 구한다는 것은 매우 어려운 일이어서 통계 전반에 걸쳐 결측치와 불완전 자료들에 관한 많은 문제들이 존재한다.

참고문헌 (13)

강만기 (2000). Weibull 분포에서 MEM 알고리즘에 의한 모수 추정, Journal of the Korean Data Analysis Society, 2, 299-305.
김승구 (2003). 자기공명영상분할에서 바이어스 필드 보정을 위한 재귀적 EM 알고리즘, Journal of the Korean Data Society, 5, 323-336.
김승구 (2004). 정규혼합모형의 대용량자료 적합을 위한 일반화 Incremental EM 알고리즘에 대한 연구, Journal of the Korean Data Analysis Society, 6, 1031-1041.
김승구 (2005). 인자분석자 혼합모형을 위한 Incremental EM 알고리즘, Journal of the Korean Data Analysis Society, 7, 1605-1614.
김행선 (2003). 위험관리수단으로서 VaR(Value at Risk)의 추정 방법의 비교 및 분석, 서강대학교 대학원 석사학위 논문.
Celeux, G. and Diebolt, J. (1985). The SEM algorithm: A probabilistic teacher algorithm derived from the EM algorithm for the mixture problem, Computational Statistics, 2, 73-82.
Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM Algorithm, Journal of the Royal Statistical Society B, 39, 1-38.
Hastings, W. (1970). Monte Carlo sampling methods using Markov chains and their application, Biometrika, 57, 97-109.

상세보기
Ip, E. H. S. (1994). A stochastic EM estimator in the presence of missing data theory and applications, Technical report, Department of Statictics, Stanford University.
Robert, C. P. and Casella, G. (2004). Monte Carlo Statistical Methods, Second edition, Springer.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. and Teller, E. (1953). Equations of state calculations by fast computing machines, Journal of Chemical Physics, 21, 1087-1091.

상세보기
Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis, Champman and Hall.
Wei, G. C. G. and Tanner, M. A. (1990). A monte carlo implementation of the EM algorithm and the poor man's data augmentation algorithms, Journal of the American Statistical Association, 85, 699-714.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증