본 연구는 KTX 수송수요를 예측하기 위한 방법으로 다중개입 시계열 모형을 제안하였다. 구체적으로 2011년 이전의 자료로서 경부 2단계 개통 개입만 고려한 Kim과 Kim (Korean Society for Railway, 14, 470-476, 2011)의 연구를 수정 보완하기 위해 다양한 개입이 추가적으로 발생하고 있는 2011년 이후의 시계열 자료를 효과적으로 모델링하는 한편 KTX 수송수요를 정확히 예측하기 위한 방법으로 다중개입 계절형 ARIMA 모형을 도입하였다. 자료 분석을 통해 KTX 수송수요에 영향을 주었던 경부 및 호남 2단계 개통, 메르스 발병과 설추석 명절 등 다양한 개입의 효과를 효과적으로 해석하는 한편, 이를 통해 예측의 정확성을 높일 수 있음을 확인하였다.
본 연구는 KTX 수송수요를 예측하기 위한 방법으로 다중개입 시계열 모형을 제안하였다. 구체적으로 2011년 이전의 자료로서 경부 2단계 개통 개입만 고려한 Kim과 Kim (Korean Society for Railway, 14, 470-476, 2011)의 연구를 수정 보완하기 위해 다양한 개입이 추가적으로 발생하고 있는 2011년 이후의 시계열 자료를 효과적으로 모델링하는 한편 KTX 수송수요를 정확히 예측하기 위한 방법으로 다중개입 계절형 ARIMA 모형을 도입하였다. 자료 분석을 통해 KTX 수송수요에 영향을 주었던 경부 및 호남 2단계 개통, 메르스 발병과 설추석 명절 등 다양한 개입의 효과를 효과적으로 해석하는 한편, 이를 통해 예측의 정확성을 높일 수 있음을 확인하였다.
This study proposed a multiple intervention time series model to predict KTX passenger demand. In order to revise the research of Kim and Kim (Korean Society for Railway, 14, 470-476, 2011) considering only the intervention of the second phase of Gyeong-bu before November of 2011, we adopted multipl...
This study proposed a multiple intervention time series model to predict KTX passenger demand. In order to revise the research of Kim and Kim (Korean Society for Railway, 14, 470-476, 2011) considering only the intervention of the second phase of Gyeong-bu before November of 2011, we adopted multiple intervention seasonal ARIMA models to model the time series data with additional interventions which occurred after November of 2011. Through the data analysis, it was confirmed that the effects of various interventions such as Gyeong-bu and Ho-nam 2 phase, outbreak of MERS and national holidays, which affected the KTX transportation demand, are successfully explained and the prediction accuracy could be quite improved significantly.
This study proposed a multiple intervention time series model to predict KTX passenger demand. In order to revise the research of Kim and Kim (Korean Society for Railway, 14, 470-476, 2011) considering only the intervention of the second phase of Gyeong-bu before November of 2011, we adopted multiple intervention seasonal ARIMA models to model the time series data with additional interventions which occurred after November of 2011. Through the data analysis, it was confirmed that the effects of various interventions such as Gyeong-bu and Ho-nam 2 phase, outbreak of MERS and national holidays, which affected the KTX transportation demand, are successfully explained and the prediction accuracy could be quite improved significantly.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
Kim과 Kim (2011) 등은 이를 극복하기 위하여 개입 계절형 ARIMA 모형을 도입하여 경부 2단계 개통 개입 효과를 적절히 설명하였다. 본 연구는 2011년 이전의 자료로서 경부 2단계 개통 개입만 고려한 Kim과 Kim (2011)의 연구를 수정 보완하기 위해 다양한 개입이 발생하고 있는 2011년 이후의 시계열 자료를 효과적으로 모델링하는 한편 KTX 수송수요를 정확히 예측하기 위한 방법으로 다중개입 계절형 ARIMA 모형을 제안한다.
본 연구는 KTX 수송 수요를 예측하기 위한 방법으로 다중개입 시계열 모형을 제안하였다. 구체적으로 2010년 11월 경부 2단계 개통, 2015년 4월 호남 2단계 개통, 2015년 6월과 7월의 메르스 사태 등의 개입 효과를 분석하기 위하여 다중개입 계절형 ARIMA 모형을 도입하였다.
가설 설정
1의 시계열도를 보면 메르스 개입의 효과가 2015년 6월과 7월에 서로 다르다고 볼 수 있기 때문에 이를 구분하여 개입 변수를 설정하였다. 경부 2단계 개통, 운송력 증대 및 호남 2단계 개통 개입은 발생한 시점 이후에 지속적으로 영향을 미친다고 판단하여 계단함수를 사용하고, 마찬가지로 개입의 효과가 바로 반영되어 지연 효과가 없으며 그 크기가 일정한 경우와 선형으로 증가하는 경우를 동시에 가정하여 개입 모형을 설정하였다. 단, 호남축 수송실적 자료에 대한 2011년 11월부터 2015년 3월 기간동안의 운송력 증대 개입 효과는 Figure 2.
다중개입 시계열 분석은 시계열 자료가 장기간에 걸쳐 관측되는 경우에 제어할 수 없는 여러 가지 외부적인 사건들이 발생하면 이에 대한 영향을 모형화한 후 이의 효과를 추정하고 이를 통해 미래를 예측하는 분석법이다. 다중개입 시계열 모형은 개입이 포함되지 않은 시계열에 가해지는 여러 가지 외부적인 충격의 영향이 가법적인 형태로 미친다고 가정하여 다음의 형태로 모형화한다.
따라서 개입으로 인한 결정적 추세 변화를 1차 차분으로 분석하기 보다는 개입 분석을 활용하는 것이 바람직하다고 판단하였다. 둘째, 계절형 차분연산자의 차수는 D = 1을 고려하였다. 이는 본 연구의 선행 연구라고 할 수 있는 Kim과 Kim (2011)에서도 이미 동일한 자료에 대해 1차 계절차분을 시행하였을 뿐만 아니라, 다중개입으로 분석할 수 있는 비계절형 결정적 추세 변화와는 달리 계절형 결정적 추세 변화는 그 존재에 대해설명하기 어려울뿐만 아니라 분석도 매우 복잡하기 때문이다.
본 연구에서는 0 ≤ p, q ≤ 2와 0 ≤ P, Q ≤ 1를 가정하였다.
참고로 경부 2단계 개통은 경부축 뿐만 아니라 호남축의 철도 공급에도 영향을 미쳐 수송실적을 변화 시키기 때문에 공통 개입으로 정의한다. 설 또는 추석 명절 개입과 2015년 6월과 7월에 발생한 메르스 개입은 개입의 효과가 발생 시점에만 영향을 미치는 경우이므로 분석을 위해 펄스함수를 사용하고, 개입의 효과가 바로 반영되어 지연 효과가 없으며 그 크기가 모두 일정한 경우를 가정한다. 참고로 설추석 명절 개입은 주중에만 효과를 미친다고 보아 주중 자료에만 반영하였으며, 명절에 평일이 1–2일이 포함되어 있는 경우와 3일 이상이 포함되어 있는 경우로 구분하여 개입 변수를 설정하였다.
제안 방법
본 논문의 구성은 다음과 같다. 2절에서는 연구 자료의 소개와 일반적인 다중개입 계절형 ARIMA 모형을 살펴보고, 본 연구의 KTX 수송수요 자료에 발생하는 다양한 개입을 설명한 후 이를 반영하기 위한 구체적인 개입 형태를 제안한다. 3절에서는 KTX 수송실적 자료에 적합한 다중개입 계절형 ARIMA모형 식별과 추정을 통해 다양한 개입 효과를 분석하고, 모형 검증을 통해 예측력을 살펴본다.
첫째, 경부축과 호남축을 구분하여 예측한다. Kim과 Kim (2011)의 선행 연구에서는 경부축과 호남축의 수송실적을 합하여 총량 자료를 구축한 후 이를 분석하였으나, 본 연구에서는 경부축과 호남축으로 구분하여 각각 분석하고자 한다. 이는 경부축과 호남축에 영향을 미친 개입과 시계열적 특성이 서로 다르기 때문에 이러한 개별적인 성질을 반영하여 분석하는 것이 경부축과 호남축 자료의 해석력을 높이는 동시에 궁극적으로 예측의 정확도를 향상시킬 수 있다고 보여진다.
본 연구는 KTX 수송 수요를 예측하기 위한 방법으로 다중개입 시계열 모형을 제안하였다. 구체적으로 2010년 11월 경부 2단계 개통, 2015년 4월 호남 2단계 개통, 2015년 6월과 7월의 메르스 사태 등의 개입 효과를 분석하기 위하여 다중개입 계절형 ARIMA 모형을 도입하였다. KTX 수송수요 자료 분석의 중요한 결과는 다음과 같다.
이는 경부축과 호남축에 영향을 미친 개입과 시계열적 특성이 서로 다르기 때문에 이러한 개별적인 성질을 반영하여 분석하는 것이 경부축과 호남축 자료의 해석력을 높이는 동시에 궁극적으로 예측의 정확도를 향상시킬 수 있다고 보여진다. 둘째, KTX 수송수요를 주중과주말로 구분하여 예측한다. 이는 Kim과 Kim (2011) 등의 선행 연구에서 KTX 수송실적 자료를 주중(월–목)과 주말(금–일)로 구분하여 분석하여 예측 정확도를 향상 시킬 수 있었음을 참고하였다.
다중개입 시계열 모형의 모형 식별은 시계열 Zt가 ARIMA(p,d,q)(P,D,Q) s모형을 따른다는 가정하에, 차분 계수인 d와 D, ARMA 모형 차수인 p와 P, 계절 ARMA 모형 차수인 q와 Q를 결정하는 단계이다. 이를 위해 일반적으로 개입이 있기 전의 시계열 자료를 이용하여 모형화하지만 본 논문에서는 전통적인 모형 식별 방법 대신 다음과 같이 모형 식별을 진행하였다. 첫째, 비계절형 차분연산자의 차수는 d = 0을 고려하였다.
참고로 설추석 명절 개입은 주중에만 효과를 미친다고 보아 주중 자료에만 반영하였으며, 명절에 평일이 1–2일이 포함되어 있는 경우와 3일 이상이 포함되어 있는 경우로 구분하여 개입 변수를 설정하였다.
첫째, 경부축과 호남축을 구분하여 예측한다. Kim과 Kim (2011)의 선행 연구에서는 경부축과 호남축의 수송실적을 합하여 총량 자료를 구축한 후 이를 분석하였으나, 본 연구에서는 경부축과 호남축으로 구분하여 각각 분석하고자 한다.
대상 데이터
끝으로 모형식별 및 추정, 검증 및 예측에 적합한 분석기간을 설정한다. 모형식별 및 추정 기간은 2006년 1월부터 2015년 12월까지의 10년 동안의 자료로서 총 120개월이며, 모형 검증은 2016년 1월부터 2016년 11월까지의 11개월이다. 참고로 2016년 12월은 SRT의 개통으로 인해 KTX 수송실적이 일시적으로 크게 감소하여 검증기간에 포함하지 않았음을 밝힌다.
본 연구에서 이용한 자료는 2006년 1월 이후부터 2016년 11월까지의 KTX 전체 월별 일평균 통행량(통행/일)이다. Choi와 Kim (2004) 및 Kim과 Kim (2011)의 선행 연구 등을 참고하여 연구 자료를 검토한 결과 다음과 같은 분석방향을 설정하였다.
데이터처리
Table 3.1의 적합된 다중개입 계절형 ARIMA 모형의 예측력 검증을 위해 2016년 1월부터 2016년 11월간의 예측치와 실측치를 제곱근평균제곱오차(root mean squared error; RMSE), 평균절대오차(mean absolute error; MAE), 평균절대백분율 오차(mean absolute percent error; MAPE)로 비교하였다. 표본구간 내 예측력 검정을 실시한 결과 MAPE 기준으로 경부축 주중과 주말은 각각 1.
성능/효과
w1,10 는 2010년 11월 경부 2단계 개통 이후부터 2012년 11월 운송력 증대 이전까지의 일정 증가 효과, w 2,10 는 동 기간 동안의 선형 증가 효과, w1,12 는 2012년 11월 이후 운송력 증대 일정 증가 효과, w2,12 는 동 기간 동안의 선형 증가 효과, wM6 는 2015년 6월 메르스 일정 증가 효과, wM7 는 2015년 7월 메르스 일정 증가 효과, w H 12 는 2006년 이후 평일이 1–2일 포함된 명절 일정 증가 효과, wH3 는 2006년 이후 평일이 3일 이상 포함된 명절 일정 증가 효과이다.
또한 륭박스 검정과 잔차 ACF 그림을 통해 모형 적합이 매우 적절하게 이루어졌음을 확인하였다. 끝으로 2016년 1월부터 11월까지 예측을 하여 모형 검증을 한 결과 MAPE 기준으로 경부축 주중과 주말이 각각 1.34%와 2.17%로서 예측의 정확도가 매우 높았으며, 호남축 주중과 주말도 각각 3.83%와 3.66%으로 예측오차가 높지 않음을 확인하였다. 요약하자면 다중개입 계절형 ARIMA 모형을 도입하여 KTX 수송수요에 영향을 주었던 다양한 개입의 효과를 효과적으로 해석하는 한편, 이를 통해 예측의 정확성을 높일 수 있음을 확인하였다.
끝으로 평일이 1–2일이 포함되는 명절의 경우에 경부축과 호남축 주중 수송수요가 각각 5,772명과 1,498명이며, 평일이 3일 포함되는 경우에는 각각8,953명과 2,673명이 일시적으로 증가하였다.
1에서 확인할 수 있다. 대부분의 추정값이 유의수준 1%에서 유의하여 모형 적합이 매우 잘 이루어지고 있음을 확인할 수 있다. Table 3.
이를 2012년 10월 운송력 증대 개입 이전으로 비교하면 w1,15 + w2,15 − w2,12 값으로 계산하여 약 10,048명과 16,899명이 일정 증가하였고, 매월 선형 증가량은 이전 해석과 동일하다. 둘째, 메르스의 영향으로 경부축 주중 및 주말 모형에서 2015년 6월에 각각 약 25,140명과 약 43,174명이 7월에는 9,218명과 8,565명이 일시 감소하였고, 호남축 주중 및 주말 모형에서 2015년 6월에 각각 약 7,098명과 11,828명이, 7월에는 약 2,374명과 3,897명이 일시 감소하였다. 끝으로 평일이 1–2일이 포함되는 명절의 경우에 경부축과 호남축 주중 수송수요가 각각 5,772명과 1,498명이며, 평일이 3일 포함되는 경우에는 각각8,953명과 2,673명이 일시적으로 증가하였다.
첫째, 경부축 주중 및 주말 모형에서는 경부 2단계 개통으로 개입 이전 대비 각각 약 20,000명과 약 30,747명이 일정 증가하였고, 약 373명과 340명 매월 선형 증가하는 것으로 나타났다. 둘째, 호남축 주중 및 주말 모형에서는 호남 2단계 개통으로 개입 2010년 11월 경부 2단계 개통 개입 이전 대비 각각 약 16,018명과 24,145명이 일정 증가하였고, 약 514명과 479명이 매월 선형 증가하였다. 이를 2012년 10월 운송력 증대 개입 이전으로 비교하면 w1,15 + w2,15 − w2,12 값으로 계산하여 약 10,048명과 16,899명이 일정 증가하였고, 매월 선형 증가량은 이전 해석과 동일하다.
시계열 모형의 1차 차분은 확률적 추세 변화가 있는 시계열 자료의 경우에 사용하는 것이 일반적인 데, 본 논문에서 분석하고 있는 KTX 자료는 확률적 추세 변화보다는 개입으로 인한 결정적 추세 변화가 있는 것으로 판단된다. 따라서 개입으로 인한 결정적 추세 변화를 1차 차분으로 분석하기 보다는 개입 분석을 활용하는 것이 바람직하다고 판단하였다. 둘째, 계절형 차분연산자의 차수는 D = 1을 고려하였다.
경부축과 호남축의 주중 및 주말 수송수요 다중개입 계절형 ARIMA 모형에서 대부분의 모수 추정의 결과가 통계적으로 매우 유의하여 다양한 개입 효과를 성공적으로 설명하였다. 또한 륭박스 검정과 잔차 ACF 그림을 통해 모형 적합이 매우 적절하게 이루어졌음을 확인하였다. 끝으로 2016년 1월부터 11월까지 예측을 하여 모형 검증을 한 결과 MAPE 기준으로 경부축 주중과 주말이 각각 1.
셋째, 경부 및 호남고속철도 2단계 개통, KTX 운행을 대폭 확대한 운송력 증대 및 메르스 발병 등의 개입을 반영한 다중개입 계절형 ARIMA 모형을 도입한다. Figure 2.
이는 본 연구의 선행 연구라고 할 수 있는 Kim과 Kim (2011)에서도 이미 동일한 자료에 대해 1차 계절차분을 시행하였을 뿐만 아니라, 다중개입으로 분석할 수 있는 비계절형 결정적 추세 변화와는 달리 계절형 결정적 추세 변화는 그 존재에 대해설명하기 어려울뿐만 아니라 분석도 매우 복잡하기 때문이다. 셋째, 자기상관도와 부분자기상관도를 이용하여 비계절형 ARMA 모형 차수와 계절형 ARMA 모형 차수를 결정하는 대신, 각각의 비계절형 및 계절형 ARMA 차수의 상한을 상정한 후 모든 가능한 조합의 모형 중에서 Akaike information criteria (AIC)값을 최소화하는 차수를 결정하였다. 이는 자기상관도와 부분자기상관도를 이용하는 방법은 객관적인 방법이라고 볼 수 없음을 고려하였다.
첫째, 비계절형 차분연산자의 차수는 d = 0을 고려하였다. 시계열 모형의 1차 차분은 확률적 추세 변화가 있는 시계열 자료의 경우에 사용하는 것이 일반적인 데, 본 논문에서 분석하고 있는 KTX 자료는 확률적 추세 변화보다는 개입으로 인한 결정적 추세 변화가 있는 것으로 판단된다. 따라서 개입으로 인한 결정적 추세 변화를 1차 차분으로 분석하기 보다는 개입 분석을 활용하는 것이 바람직하다고 판단하였다.
66%으로 예측오차가 높지 않음을 확인하였다. 요약하자면 다중개입 계절형 ARIMA 모형을 도입하여 KTX 수송수요에 영향을 주었던 다양한 개입의 효과를 효과적으로 해석하는 한편, 이를 통해 예측의 정확성을 높일 수 있음을 확인하였다.
1에서 몇 가지 중요한 해석을 하자면 다음과 같다. 첫째, 경부축 주중 및 주말 모형에서는 경부 2단계 개통으로 개입 이전 대비 각각 약 20,000명과 약 30,747명이 일정 증가하였고, 약 373명과 340명 매월 선형 증가하는 것으로 나타났다. 둘째, 호남축 주중 및 주말 모형에서는 호남 2단계 개통으로 개입 2010년 11월 경부 2단계 개통 개입 이전 대비 각각 약 16,018명과 24,145명이 일정 증가하였고, 약 514명과 479명이 매월 선형 증가하였다.
1의 적합된 다중개입 계절형 ARIMA 모형의 예측력 검증을 위해 2016년 1월부터 2016년 11월간의 예측치와 실측치를 제곱근평균제곱오차(root mean squared error; RMSE), 평균절대오차(mean absolute error; MAE), 평균절대백분율 오차(mean absolute percent error; MAPE)로 비교하였다. 표본구간 내 예측력 검정을 실시한 결과 MAPE 기준으로 경부축 주중과 주말은 각각 1.34%, 2.17%, 호남축 주중과 주말은 각각 3.83%, 3.66%로 나타났다. 경부축에서는 RMSE, MAE, MAPE 모두 주중에 비해서는 주말이 더 크게 나타나고 있으며, 호남축에서는 RMSE, MAE는 주중이, MAPE는 주말이 더 크게 나타나고 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
일반적인 시계열 모형인, ARIMA 모형과 계절형 ARIMA 모형의 한계점은?
가장 일반적인 시계열 모형으로 자료의 자기상관성을 분석하는 ARIMA 모형과 계절적인 특성을 함께 분석하는 계절형 ARIMA 모형이 있다. 그러나 시계열 자료에 영향을 미치는 외생변수 또는 개입변수 등이 존재하는 경우에 ARIMA 계열의 모형들은 적절한 모형이 아니므로, 이를 반영하기 위해 전이함수모형 또는 개입 ARIMA 모형 등을 고려한다. 시계열 자료에서 개입은 시계열 자료에 영향을 미칠 수 있는 사건을 의미하며, 이들을 입력변수 또는 설명변수로 반영하여 분석하는 모형을 개입 시계열 모형이라고 한다.
시계열 자료에서 개입은 무엇인가?
그러나 시계열 자료에 영향을 미치는 외생변수 또는 개입변수 등이 존재하는 경우에 ARIMA 계열의 모형들은 적절한 모형이 아니므로, 이를 반영하기 위해 전이함수모형 또는 개입 ARIMA 모형 등을 고려한다. 시계열 자료에서 개입은 시계열 자료에 영향을 미칠 수 있는 사건을 의미하며, 이들을 입력변수 또는 설명변수로 반영하여 분석하는 모형을 개입 시계열 모형이라고 한다. 예를 들어 KTX 수송실적에 영향을 미치는 개입으로 경부고속철도 2단계 개통, 호남고속도로 2단계 개통과 같은 정책의 변화, 그리고 SARS 및 MERS와 같은 국가감염병 등의 사건을 들 수 있다.
일반적인 시계열 자료 분석의 목적은?
일반적으로 시계열 자료 분석의 목적은 자료에 내재되어 있는 다양한 시계열적 성질 및 특성을 효과적으로 설명하는 동시에 미래를 가능한 정확히 예측하는 데 있다. 가장 일반적인 시계열 모형으로 자료의 자기상관성을 분석하는 ARIMA 모형과 계절적인 특성을 함께 분석하는 계절형 ARIMA 모형이 있다.
참고문헌 (10)
Box, G. E. P. and Tiao, G. C. (1975). Intervention analysis with application to economic and environmental problems, Journal of the American Statistical Association, 70, 70-79.
Cho, S., Sohn, Y. and Seong, B (2016). Time Series Analysis using SAS/ETS, Yulgok Books, Seoul.
Choi, T. and Kim, S. (2004). An empirical comparison among initialization methods of Holt-Winters model for railway passenger demand forecast, Journal of the Korean Society for Railway, 7, 9-13.
Cryer, J. D. and Chan, K. S. (2008). Time Series Analysis: With Applications in R, Springer-Verlag, New York.
Hong, C. and Lee, G. (2016). Study of factors affecting the size of government employment in Korea, Korean Public Personnel Administration Review, 15, 29-60.
Huh, H. J. and Kim, H. C. (2001). Forecasting demand for Jeju-bound tourist: an application of intervention method, Journal of Tourism Sciences, 25, 27-42.
Kim, K. and Kim, H. (2011). KTX passenger demand forecast with intervention ARIMA model, Korean Society for Railway, 14, 470-476.
Kim, Y. and Jo, J. (2014). A study on demand forecasting for KTX passengers by using time series models, Korean Journal of Applied Statistics, 27, 1257-1268.
Song, J. (2016). A study on demand forecasting for Jeju-bound tourists by travel purpose using seasonal ARIMA-intervention, Journal of the Korean Data & Information Science Society, 27, 725-732.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.