[논문]계수형 시계열 모형을 위한 자동화 차수 선택 알고리즘

지윤미; 성병찬

doi:10.5351/kjas.2020.33.2.147

계수형 시계열 모형을 위한 자동화 차수 선택 알고리즘
Automatic order selection procedure for count time series models 원문보기

응용통계연구 = The Korean journal of applied statistics, v.33 no.2, 2020년, pp.147 - 160

초록
AI-Helper

본 논문은 시계열 일반화 선형 모형의 하나인 계수형 시계열 모형에서 중요한 역할을 하는 과거 관측값과 조건부 평균값의 차수를 자동으로 결정하는 알고리즘을 연구한다. 본 알고리즘은 ARIMA 모형의 차수를 기반으로 시계열 일반화 선형 모형의 차수 후보군을 만들고, 차수 후보군의 조합을 이용하여 정보량 기준으로 최종 모형으로 선택한다. 제안된 알고리즘을 평가하기 위하여, 내재적 모형 및 내재적 시계열의 종류에 따른 시뮬레이션 및 실증 분석을 수행하고 예측력을 ARIMA 모형과 비교한다. 예측 성능 평가 결과, 계수형 시계열 분석에서 ARIMA 모형에 비해 시계열 일반화 선형 모형의 예측 성능이 우수함을 확인할 수 있다. 또한 실증분석으로서, 살인사건 발생 건수의 예측결과 ARIMA 모형보다 중기 및 장기 예측에서 우수한 성능을 나타내는 것을 확인할 수 있다.

Abstract ▼ AI-Helper

In this paper, we study an algorithm that automatically determines the orders of past observations and conditional mean values that play an important role in count time series models. Based on the orders of the ARIMA model, the algorithm constitutes the order candidates group for time series generalized linear models and selects the final model based on information criterion among the combinations of the order candidates group. To evaluate the proposed algorithm, we perform small simulations and empirical analysis according to underlying models and time series as well as compare forecasting performances with the ARIMA model. The results of the comparison confirm that the time series generalized linear model offers better performance than the ARIMA model for the count time series analysis. In addition, the empirical analysis shows better performance in mid and long term forecasting than the ARIMA model.

주제어

표/그림 (13)

그림 Figure 3.1. ACF and PACF plots of TSGLM(1)(0) and ARIMA(1, 0, 0).
그림 Figure 3.2. ACF and PACF plots of TSGLM(1, 12)(0) and ARIMA(1, 0, 0)(1, 0, 0)_s=12.
그림 Figure 3.3. ACF and PACF plots of TSGLM(1)(1) and ARIMA(1, 0, 1).
표 Table 3.1. Simulation results in case of the Poisson distribution with the identity link
그림 Figure 3.4. Percentage barplot for comparing estimated orders with true values.
표 Table 3.2. Simulation results in case of the negative binomial distribution with the log link
표 Table 3.3. Simulation result of RMSE, MAE for the two models: ARMA as true model
표 Table 3.4. Simulation result of RMSE, MAE for the two models according to means
그림 Figure 4.1. Time series plot of Murder cases.
그림 Figure 4.2. Seasonal plot of Murder cases.
그림 Figure 4.3. Multi-step forecasting performances of the two models.
그림 Figure 4.4. Comparison of forecast performance of the two models applied Murder cases.
표 Table 4.1. RMSE, MAE, MAPE for test set forecasts of the two models

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

유사한 방법을 통해 모형의 차수를 결정하는 ARIMA 모형의 경우 자동화 차수 결정 알고리즘이 이미 존재하지만 차분의 개념과 계절형 승법 구조를 시계열 일반화선형 모형에 그대로 반영하기 어려워 ARIMA 모형의 차수 결정을 바로 이용할 수 없다. 따라서 본 논문에서는 이를 고려하여 시계열 일반화 선형 모형의 차수 후보군을 만들고, 후보군의 조합을 이용하여 적합한 모형 중 AIC가 가장 작은 모형을 최종 모형으로 선택하는 ARIMA 모형 차수 결정에 기반한 자동 차수 결정 알고리즘을 고안하였다.
먼저, 시계열 일반화 선형 모형의 차수에 따른 자기상관함수와 편자기상관함수(partial ACF; PACF)의 특징을 살펴보기 위해 대표적인 차수에 의해 생성된 계수형 자료의 자기상관함수와 편자기상관함수 그 림을 살펴보고자 한다. 그리고, 이것을 ARIMA 모형의 차수에 따른 형태와 비교한다.
본 논문에서는 R 패키지 tscount (Liboschik 등, 2017)의 tsglm 함수에 의하여 계산되는 정보량 기준값(Akaike information criterion; AIC)을 이용하여 차수 결정 자동화 알고리즘을 고안한다. 참고로 tsglm 함수에서 차수 P 와 Q에 해당하는 인자는 각각 past obs과 past mean이다.
본 논문에서는 계수형 시계열 자료에 대하여 포아송 또는 음이항 분포를 가정하는 시계열 일반화 선형 모형에 대해 소개하고 모형에 사용되는 차수를 자동으로 결정하는 자동화 알고리즘을 제안하고 있다. 또한, 제안한 자동화 차수 결정 알고리즘을 이용하여 시뮬레이션을 통한 시계열 일반화 선형 모형과 ARIMA 모형의 예측 성능을 비교하고, 실증분석으로 국내 살인 사건 발생 건수에 대하여 분석하였다.
일반적으로 관측치의 값이 큰 경우, 중심극한정리(central limit theorem)에 의하여 경험적 분포의 형태는 대칭적이며 정규 분포에 가까워지는 경향이 있다. 즉, 시계열의 평균이 큰 경우 계수형 시계열 자료 분석에 ARIMA 모형도 사용 가능하며 이 경우 일반화 선형 모형이 ARIMA 모형에 비해 좋은 성능을 갖는지 살펴보고자 한다. 이를 위하여 내재적 프로세스(underlying or true process)의 평균의 크기를 µ = 10, 40, 100, 200으로 다르게 설정하여 각각 N = 100개의 관측치를 생성하였다.
추가적으로 일반화 선형모형의 분포와 연결함수를 다르게 설정한 경우에도 ARIMA 모형에 비해 좋은 예측 성능을 갖는지 살펴보고자 한다. 2가지 분포(포아송, 음이항)와 2가지 연결함수(항등, 로그)의 조합에 관계없이 모두 Table 3.

가설 설정

내재적 모형(underlying or true model)을 시계열 일반화 선형 모형으로 가정하여, past obs 차수만 있거나 past obs과 past mean 차수가 모두 있는 다음 의 6가지 모형들을 고려하였다.
시계열 일반화 선형 모형에서 과거의 정보 F t−1 에 대하여 Y t 의 분포는 포아송 분포 또는 음이항 분포를 가정한다.

제안 방법

강한 자기 상관성을 갖는 차수의 경우 주변 차수에서도 자기 상관성이 높게 나타나기 때문에 각 차수에서 ±1값도 추가로 고려한다. TSGLM 모형에 계절 효과를 추가하기 위하여, ARIMA 모형의 계절항도 비계절항과 동일한 과정으로, TSGLM 모형의 차수 후보군을 만든다. 이때 계절 주기 차수 직전의 시차에서도 자기상관성이 높게 나타나기 때문에 후보 차수로 고려한다.
각 모형에서 N = 50, 100, 200, 400개의 관측치를 생성하였으며, 관측치의 80%는 훈련자료로 사용하여 시계열 일반화 모형과 ARIMA 모형을 적합하였고, 관측치의 20%는 검증자료로 사용하여 두 모형의 RMSE와 MAE를 계산하였다. 동일한 실험을 1,000번 반복함으로써 얻어진RMSE_i와 MAE_i(i = 1, .
먼저, 시계열 일반화 선형 모형의 차수에 따른 자기상관함수와 편자기상관함수(partial ACF; PACF)의 특징을 살펴보기 위해 대표적인 차수에 의해 생성된 계수형 자료의 자기상관함수와 편자기상관함수 그 림을 살펴보고자 한다. 그리고, 이것을 ARIMA 모형의 차수에 따른 형태와 비교한다.
이를 위하여 내재적 프로세스(underlying or true process)의 평균의 크기를 µ = 10, 40, 100, 200으로 다르게 설정하여 각각 N = 100개의 관측치를 생성하였다. 내재적 모형은 ARMA(1, 0), ARMA(2, 0), ARMA(0, 1), ARMA(0, 2), ARMA(1, 1)으로 각각 설정하였으며, 3.2.1절과 동일한 방식으로 실험하였으며 결과는 Table 3.4를 통해 확인할 수 있다.
또한 3.1절의 자동화 알고리즘의 차수 결정 성능을 살펴보기 위하여, 일반화 선형모형의 추정된 차수와 참값을 비교하였다. Figure 3.
sim 함수를 사용하였다. 또한, 시계열 일반화 선형 모형 적합과 ARIMA 모형 적합은 각각 R의 tscount 패키지의 tsglm 함수와 R의 forecast 패키지의 auto.arima 함수를 사용하였다. 모형의 예측 성능을 비교하는 지표는 root mean squared error (RMSE), mean absolute error (MAE)를 사용하였다.
본 논문에서 제안하는 자동화 알고리즘은 auto.arima에 의해 결정된 ARIMA 모형의 차수를 이용하여 TSGLM 모형의 차수 후보군을 만드는 것이다. ARIMA 모형의 비계절항에서 AR 차수에 차분 횟수를 포함시키는 경우 차분 횟수만큼 과거 관측의 시차가 증가한다.
본 논문에서는 시계열 일반화 선형 모형의 차수 결정 알고리즘 고안과 시뮬레이션 및 실증분석을 통하여 ARIMA 모형과의 예측 성능을 비교하였다. 본 논문은 총 5장으로 구성되어 있으며 2장에서는 시계열 일반화 선형 모형 및 추정 방법을 설명하고, 3장에서는 차수를 결정해주는 자동화 알고리즘 소개와 ARIMA 모형과의 예측 성능 비교를 위한 시뮬레이션을 진행한다.
3과 같다. 본 논문은 모형 (2.1)을 모수 공간 (2.6) 또는 (2.7)과 같은 정상성 조건 하에서고려하기 때문에 차분이 있는 ARIMA 모형이 내재적 모형인 경우는 예측 성능 검토를 위한 실험을 생략하기로 한다.
본 장에서는 시계열 일반화 선형 모형을 사용하여 실제 계수형 시계열 자료를 적합 및 예측한다. 이를 통하여 본 연구에서 제안하는 계수형 시계열 모형의 자동화 차수 결정 알고리즘을 검증한다.
본 절에서는 3.1절에서 고안한 차수 결정 자동화 알고리즘의 예측 성능을 검토한다. 예측 성능 비교를 위하여 대조 모형으로 ARIMA 모형을 사용하였다.
이를 위하여 내재적 프로세스(underlying or true process)의 평균의 크기를 µ = 10, 40, 100, 200으로 다르게 설정하여 각각 N = 100개의 관측치를 생성하였다.
본 장에서는 시계열 일반화 선형 모형을 사용하여 실제 계수형 시계열 자료를 적합 및 예측한다. 이를 통하여 본 연구에서 제안하는 계수형 시계열 모형의 자동화 차수 결정 알고리즘을 검증한다. 실증분석에 사용한 자료는 검찰청에 보고된 국내 살인사건 발생 건수이며, 2002년 1월부터 2013년 12월까지의 월별 자료이다.

대상 데이터

이를 통하여 본 연구에서 제안하는 계수형 시계열 모형의 자동화 차수 결정 알고리즘을 검증한다. 실증분석에 사용한 자료는 검찰청에 보고된 국내 살인사건 발생 건수이며, 2002년 1월부터 2013년 12월까지의 월별 자료이다. 총 144개의 관측값으로 구성된 계수형 시계열 자료로 모형 적합을 위한 훈련자료(training set)의 기간은 2002년 1월부터 2010년 12월이고, 예측 성능 평가를 위한 검증 자료(test set)의 기간은 2011년 1월부터 2013년 12월이다.
실증분석에 사용한 자료는 검찰청에 보고된 국내 살인사건 발생 건수이며, 2002년 1월부터 2013년 12월까지의 월별 자료이다. 총 144개의 관측값으로 구성된 계수형 시계열 자료로 모형 적합을 위한 훈련자료(training set)의 기간은 2002년 1월부터 2010년 12월이고, 예측 성능 평가를 위한 검증 자료(test set)의 기간은 2011년 1월부터 2013년 12월이다. 해당 자료는 국가통계포털을 이용하여 얻을 수 있다 (http://kosis.
추가적으로 시계열 교차검증(cross-validation) 방법을 사용하여 시계열 일반화 선형 모형의 예측 성능을 평가하였다. 최초의 훈련 자료 기간은 2002년 1월부터 2009년 12월이고, 2010년 이후의 시점을 월별로 하나씩 추가하여 훈련 자료를 갱신하였다. 각 훈련 자료에서 최대 12시점까지 예측하였으며, 동일 미래 시점 예측에 대하여 Figure 4.

데이터처리

본 논문에서는 계수형 시계열 자료에 대하여 포아송 또는 음이항 분포를 가정하는 시계열 일반화 선형 모형에 대해 소개하고 모형에 사용되는 차수를 자동으로 결정하는 자동화 알고리즘을 제안하고 있다. 또한, 제안한 자동화 차수 결정 알고리즘을 이용하여 시뮬레이션을 통한 시계열 일반화 선형 모형과 ARIMA 모형의 예측 성능을 비교하고, 실증분석으로 국내 살인 사건 발생 건수에 대하여 분석하였다. 시뮬레이션 및 실증분석 결과, 차수가 비교적 단순한 경우 시계열 일반화 선형 모형의 예측 성능이 ARIMA 모형의 예측 성능보다 우수한 것으로 나타났다.
예측 성능 비교를 위하여 대조 모형으로 ARIMA 모형을 사용하였다. 시뮬레이션을 위해 포아송 분포를 가정하는 시계열자료의 생성은 R의 tscount 패키지의 tsglm.sim 함수를 사용하였고, 정규분포를 가정하는 시계열 자료의 생성은 R의 forecast 패키지의 arima.sim 함수를 사용하였다. 또한, 시계열 일반화 선형 모형 적합과 ARIMA 모형 적합은 각각 R의 tscount 패키지의 tsglm 함수와 R의 forecast 패키지의 auto.
추가적으로 시계열 교차검증(cross-validation) 방법을 사용하여 시계열 일반화 선형 모형의 예측 성능을 평가하였다. 최초의 훈련 자료 기간은 2002년 1월부터 2009년 12월이고, 2010년 이후의 시점을 월별로 하나씩 추가하여 훈련 자료를 갱신하였다.

이론/모형

계수형 시계열의 모형은 관측치가 음수가 아닌 정수임을 고려해야 하며, 관측치 사이의 의존성을 적절히 포착해야 한다. 가장 편리하고 유연한 접근 방법은, Fahrmeir과 Tutz (2001, 6장) 그리고 Kedem과 Fokianos (2002, 1-4장)가 제안한 과거 정보에 대한 관측치를 조건부로 모형화하기 위해 일반화 선형 모형(generalized linear model; GLM)을 사용하는 것이다. 이 모형은 계수형 자료에 대한 적절한 분포와 연결 함수를 선택하여 사용한다.
모형 (2.1)을 적합시키기 위하여 준조건부 최대 가능도(quasi-conditional maximum likelihood) 추정을 사용한다. 모수 벡터를 θ = (β₀ , β₁ , .
arima 함수를 사용하였다. 모형의 예측 성능을 비교하는 지표는 root mean squared error (RMSE), mean absolute error (MAE)를 사용하였다. 실제 시계열 자료 y_i와 예측값 ˆy_i에 대하여 미래 시점 h까지의 RMSE와 MAE는 다음과 같이 계산한다.
1절에서 고안한 차수 결정 자동화 알고리즘의 예측 성능을 검토한다. 예측 성능 비교를 위하여 대조 모형으로 ARIMA 모형을 사용하였다. 시뮬레이션을 위해 포아송 분포를 가정하는 시계열자료의 생성은 R의 tscount 패키지의 tsglm.
예측 성능을 비교하기 위한 대조 모형으로 ARIMA 모형을 사용하였으며, 두 모형의 예측 성능을 비교하는 지표는 RMSE, MAE 그리고 mean absolute percentage error (MAPE)를 사용하였다. 실제 시계열 자료 y i 와 예측값 ˆy i 에 대하여 미래 시점 h까지의 MAPE는 다음과 같이 계산한다.

성능/효과

2) AR 차수와 차분 횟수를 합한 값을 past obs, MA 차수를 past mean 차수에 각각 대응시킨다.
추가적으로 일반화 선형모형의 분포와 연결함수를 다르게 설정한 경우에도 ARIMA 모형에 비해 좋은 예측 성능을 갖는지 살펴보고자 한다. 2가지 분포(포아송, 음이항)와 2가지 연결함수(항등, 로그)의 조합에 관계없이 모두 Table 3.1과 유사한 결과(지면 관계상 생략)를 보였으나, 음이항 분포에서 연결함수가 로그함수인 경우, Table 3.2의 결과와 같이 일반화 선형 모형의 성능은 N = 50인 경우를 제외하고는 ARIMA 모형에 비해서 좋지 않았으며 종종 RMSE 및 MAE의 값이 상대적으로 아주 크게 나타나기도 하였다. N = 100 이상에서 ARIMA 모형의 성능이 특히 개선된 것은, 과산포의 특징을 가지는 음이항 분포에서 로그 연결함수가 분산안정화 변환의 역할을 함으로써 생긴 결과로 추측된다.
5) 후보 차수의 조합 중에서 AIC가 가장 작은 모형을 최종 모형으로 선택한다.
6시점 이상의 예측에서는 시계열 일반화 선형 모형의 RMSE, MAE, MAPE 값이 더 작게 나타나며 중·장기 예측에서는 시계열 일반화 선형 모형이 ARIMA 모형에 비해 더 좋은 예측 성능을 갖는 것을 확인할 수 있다.
4와 같이 예측 성능을 비교하였다. ARIMA와 시계열 일반화 선형 모형의 예측 성능을 비교했을 때, 1, 2, 3시점 이후의 예측에서는 ARIMA 모형의 RMSE, MAE, MAPE 값이 일반화 선형 모형의 경우보다 더 작은 것을 확인할 수 있다. 이는 살인 사건 발생 건수 자료의 경우 계절성이 뚜렷하고 차수가 비교적 복잡하기 때문에 단기 예측에서 ARIMA 모형의 성능이 더 우수한 것으로 보여진다.
3은 최종 선택된 두 모형을 이용하여 예측한 36개월의 예측값과 검증 자료에 대한 그림이다. 검증 자료 기간 동안 매년 감소하는 추세를 보이는 실제 살인 사건 발생 건수와는 대조적으로, ARIMA 모형의 경우 증가하는 추세를 예측하였으며 예측값 자체도 실제값에서 많이 벗어난다. 반면, 시계열 일반화 선형 모형의 경우 2011년 1월부터 2013년 12월까지의 실제 살인 사건 발생 건수의 흐름과 전반적으로 비슷한 추세를 예측하였다.
그러나, 기대하였던 ARIMA 모형의 성능은 µ = 100일 때 ARMA(1, 0)의 경우에서만 우수하였으며 나머지 모든 상화에서는 일반화 선형 모형의 평균 RMSE와 평균 MAE의 값이 더 작게 나타났다.
이때 계절 주기 차수 직전의 시차에서도 자기상관성이 높게 나타나기 때문에 후보 차수로 고려한다. 다음으로 past obs과 past mean의 후보 차수군을 조합하여 TSGLM 모형을 적합하고, 그 중 AIC가 가장 작은 모형을 최종 모형으로 선택한다. 이상 을 요약하면 다음과 같다.
3은 TSGLM(1)(1)와 ARIMA(1, 0, 1)의 자기상관함수와 편자기상관함수 그림을 나타낸 것이다. 두 모형 모두에서 자기상관함수 및 편자기상관함수가 1 시차에서 큰 자기 상관성을 갖는 것을 확인할 수 있다. 따라서 past obs 차수만 있는 경우, past obs에 계절 차수를 포함하는 경우, past obs와 past mean의 차수를 모두 포함 하는 경우의 세 가지 유형의 시계열 일반화 선형 모형을 통해 ARIMA 모형과 유사한 형태의 자기상관함수와 편자기상관함수를 갖는 것으로 나타났으며, 특히 ARIMA 모형의 AR 차수는 past obs에 대응되고 MA 차수는 past mean에 대응되는 것을 확인할 수있다.
2는 시계열에 계절성이 반영된 경우로서 TSGLM(1, 12)(0)와 ARIMA(1, 0, 0)(1, 0, 0) s=12 의 자기상관함수와 편자기상관함수 그림을 나타낸 것이다. 두 모형 모두에서 자기상관함수 및 편자기상관함수가 12 주기의 시차들에서 큰 자기 상관성을 갖는 것을 확인할 수 있다.
1은 TSGLM(1)(0)과 ARIMA(1, 0, 0)에서 각각 100개의 관측치로 구성된 시계열 자료를 생성하여 자기상관함수와 편자기상관함수 그림을 나타낸 것이다. 두 모형 모두에서 자기상관함수는 지수적으로 감소하고 있으며, 편자기상관 함수는 lag 1에서 큰 자기 상관성을 갖는 것을 확인할 수 있다.
둘째, ARIMA 모형의 표본 공간은(−∞, ∞)의 범위를 갖는 실수(real-valued)이다.
두 모형 모두에서 자기상관함수 및 편자기상관함수가 1 시차에서 큰 자기 상관성을 갖는 것을 확인할 수 있다. 따라서 past obs 차수만 있는 경우, past obs에 계절 차수를 포함하는 경우, past obs와 past mean의 차수를 모두 포함 하는 경우의 세 가지 유형의 시계열 일반화 선형 모형을 통해 ARIMA 모형과 유사한 형태의 자기상관함수와 편자기상관함수를 갖는 것으로 나타났으며, 특히 ARIMA 모형의 AR 차수는 past obs에 대응되고 MA 차수는 past mean에 대응되는 것을 확인할 수있다. 하지만 TSGLM에는 ARIMA 모형의 차분 횟수에 대응되는 인자가 없기 때문에 ARIMA 차수결정을 그대로 따를 수 없다.
시계열 길이가 50, 100인 상황을 제외한 대부분의 상황에서 일반화 선형 모형의 평균 RMSE와 평균 MAE의 값이 ARIMA 모형에 비해 더 작게 나타났다. 따라서 내재적 모형이 비계절 ARMA이고 차수가 비교적 단순한 경우에 시계열 일반화 선형 모형의 예측 성능이 ARIMA 모형의 예측 성능보다 우수한 것을 확인할 수 있다.
모든 상황에서 ARIMA 모형에 비해 일반화 선형 모형의 평균 RMSE와 평균 MAE의 값이 더 작게 나타났다. 따라서 내재적 모형이 시계열일반화 선형 모형이고 차수가 ARIMA 모형의 비계절형 경우처럼 단순한 경우 생성된 시계열 자료의 길이와 상관없이 ARIMA 모형의 예측 성능보다 시계열 일반화 선형 모형의 성능이 더 우수한 것을 확인할 수 있다.
그러나, 기대하였던 ARIMA 모형의 성능은 µ = 100일 때 ARMA(1, 0)의 경우에서만 우수하였으며 나머지 모든 상화에서는 일반화 선형 모형의 평균 RMSE와 평균 MAE의 값이 더 작게 나타났다. 따라서 평균의 크기에 상관없이 내재적 모형이 비계절 ARMA인 경우에도 ARIMA 모형의 예측 성능보다 시계열 일반화 선형 모형의 성능이 더 우수한 것을 확인할 수 있다.
6시점 이상의 예측에서는 시계열 일반화 선형 모형의 RMSE, MAE, MAPE 값이 더 작게 나타나며 중·장기 예측에서는 시계열 일반화 선형 모형이 ARIMA 모형에 비해 더 좋은 예측 성능을 갖는 것을 확인할 수 있다. 또한, ARIMA의 경우에는 RMSE, MAE, MAPE가 예측 시점이 멀어질수록 급격히 증가하지만 시계열 일반화 선형 모형은 전반적으로 비슷한 값을 갖는 것을 확인할 수있다. 즉, ARIMA 모형은 예측기간이 증가할수록 예측력이 급격하게 감소하지만 시계열 일반화 선형 모형은 미래 예측 시점에 상관없이 안정적인 예측력을 보인다.
arima 함수를 이용하여 ARIMA 모형의 차수를 추정하면 ARIMA (1, 0, 0)(2, 1, 0)_s=12 이 선택된다. 또한, 본 논문에서 제안한 계수형 시계열 모형을 위한 자동화 알고리즘을 적용한 결과 시계열 일반화 선형 모형은 TSGLM(1, 11, 12, 24)(0)이 선택되었다.
1를 통해 확인할 수 있다. 모든 상황에서 ARIMA 모형에 비해 일반화 선형 모형의 평균 RMSE와 평균 MAE의 값이 더 작게 나타났다. 따라서 내재적 모형이 시계열일반화 선형 모형이고 차수가 ARIMA 모형의 비계절형 경우처럼 단순한 경우 생성된 시계열 자료의 길이와 상관없이 ARIMA 모형의 예측 성능보다 시계열 일반화 선형 모형의 성능이 더 우수한 것을 확인할 수 있다.
시뮬레이션 및 실증분석 결과, 차수가 비교적 단순한 경우 시계열 일반화 선형 모형의 예측 성능이 ARIMA 모형의 예측 성능보다 우수한 것으로 나타났다. 반면, 계절성이 있고 자기상관 구조가 복잡한 경우 단기 예측에서는 ARIMA 모형의 예측 성능이 더 우수하였으나 예측 시점이 멀어질수록 시계열 일반화 선형 모형의 예측 성능이 더 안정적으로 나타났다.
시계열 길이가 50, 100인 상황을 제외한 대부분의 상황에서 일반화 선형 모형의 평균 RMSE와 평균 MAE의 값이 ARIMA 모형에 비해 더 작게 나타났다. 따라서 내재적 모형이 비계절 ARMA이고 차수가 비교적 단순한 경우에 시계열 일반화 선형 모형의 예측 성능이 ARIMA 모형의 예측 성능보다 우수한 것을 확인할 수 있다.
또한, 제안한 자동화 차수 결정 알고리즘을 이용하여 시뮬레이션을 통한 시계열 일반화 선형 모형과 ARIMA 모형의 예측 성능을 비교하고, 실증분석으로 국내 살인 사건 발생 건수에 대하여 분석하였다. 시뮬레이션 및 실증분석 결과, 차수가 비교적 단순한 경우 시계열 일반화 선형 모형의 예측 성능이 ARIMA 모형의 예측 성능보다 우수한 것으로 나타났다. 반면, 계절성이 있고 자기상관 구조가 복잡한 경우 단기 예측에서는 ARIMA 모형의 예측 성능이 더 우수하였으나 예측 시점이 멀어질수록 시계열 일반화 선형 모형의 예측 성능이 더 안정적으로 나타났다.
대표적인 시계열 분석 모형인 자기회귀누적이동평균(autoregressive integrated moving average;ARIMA) 모형을 계수형 시계열 자료 분석에 사용할 수 있지만 한계점을 갖는다. 첫째, ARIMA 모형은 오차항의 분포가 정규분포를 따른다고 가정하며 이 분포의 형태는 대칭적인 종 모양이지만 계수형 시계열 자료의 경우, 특히 값이 적은 경우, 경험적 분포가 다소 편향된 형태를 갖기 때문에 적절하지 않다. 일반적으로 편향된 자료에 대해 로그 변환을 한 후 정규분포 가정을 하는 경우도 있지만 0을 많이 포함하고 있는 계수형 시계열 자료인 경우에는 적용이 어렵다.

질의응답

핵심어	질문	논문에서 추출한 답변
	계수형 시계열 자료란?	예를 들면, 월별 승합차 운전자의 사상자 수, 주별 자동차 서비스 부품의 재고량, 일별 말라리아 감염 환자 수 등 다양한 분야에서 횟수로 구성된 시계열자료를 접할 수 있다. 이와 같이 일정한 시간 간격 동안 발생하는 사건의 수에 관련된 시계열 자료를 계수형 시계열 자료(count time series)라고 한다. 계수형 시계열 자료의 가장 큰 특징은 음이 아닌 정수의 값(non-negative integer value)을 갖는다는 것이다.
	계수형 시계열 모형에 대한 가장 편리하고 유연한 접근 방법은?	계수형 시계열의 모형은 관측치가 음수가 아닌 정수임을 고려해야 하며, 관측치 사이의 의존성을 적절히 포착해야 한다. 가장 편리하고 유연한 접근 방법은, Fahrmeir과 Tutz (2001, 6장) 그리고 Kedem과 Fokianos (2002, 1-4장)가 제안한 과거 정보에 대한 관측치를 조건부로 모형화하기 위해 일반화 선형 모형(generalized linear model; GLM)을 사용하는 것이다. 이 모형은 계수형 자료에 대한 적절한 분포와 연결 함수를 선택하여 사용한다.
	ARIMA 모형의 표본 공간은?	일반적으로 편향된 자료에 대해 로그 변환을 한 후 정규분포 가정을 하는 경우도 있지만 0을 많이 포함하고 있는 계수형 시계열 자료인 경우에는 적용이 어렵다. 둘째, ARIMA 모형의 표본 공간은(−∞, ∞)의 범위를 갖는 실수(real-valued)이다. 즉, 계수형 시계열 자료에 ARIMA 모형을 적용할 경우 이산형(discrete) 표본 공간의 특성이 고려되지 않는다.

참고문헌 (12)

Christou, V. and Fokianos, K. (2014). Quasi-likelihood inference for negative binomial time series models, Journal of Time Series Analysis, 35, 55-78.

상세보기
Doukhan, P., Fokianos, K., and Tjostheim, D. (2012). On weak dependence conditions for Poisson autoregressions, Statistics & Probability Letters, 82, 942-948.

상세보기
Fahrmeir, L. and Tutz, G. (2001). Multivariate Statistical Modelling based on Generalized Linear Models (2nd ed), Springer, New York.
Ferland, R., Latour, A., and Oraichi, D. (2006). Integer-valued GARCH process, Journal of Time Series Analysis, 27, 923-942.

상세보기
Fokianos, K., Rahbek, A., and Tjostheim, D. (2009). Poisson autoregression, Journal of the American Statistical Association, 104, 1430-1439.

상세보기
Fokianos, K. and Tjostheim, D. (2011). Log-linear Poisson autoregression, Journal of Multivariate Analysis, 102, 563-578.

상세보기
Hyndman, R. J. and Khandakar, Y. (2008). Automatic time series forecasting: the forecast package for R, Monash Econometrics and Business Statistics Working Papers 6/07, Monash University, Department of Econometrics and Business Statistics.
Hyndman, R. (2017). Forecast: forecasting functions for time series and linear models, R package version 8.2.
Kedem, B. and Fokianos, K. (2002). Regression Models for Time Series Analysis, John Wiley & Sons, Chichester.
Liboschik, T., Fokianos, K., and Fried, R. (2017). tscount: An R package for analysis of count time series following generalized linear models, Journal of Statistical Software, 82, 1-51.
Tjostheim, D. (2015). Count time series with observation-driven autoregressive parameter dynamics, Handbook of Discrete-Valued Time Series, Handbooks of Modern Statistical Methods, 77-100.
Weiss, C. H. (2008). Thinning operations for modeling time series of counts-a survey, AStA Advances in Statistical Analysis, 92, 319.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증