[국내논문]시계열 이상치 탐지 기법을 활용한 경부선 주요도시 철도 승객수의 이상치 탐색 연구 A Study on the Outliers Detection in the Number of Railway Passengers for the Gyeongbu Line From Seoul to Major Cities Using a Time Series Outlier Detection Technique원문보기
2004년 4월 1일, 국내 최초의 고속철도(HSR)인 KTX (Korea Train eXpress)가 경부선에 도입 되었다. KTX의 등장은 경부선을 이용하는 철도 승객들의 운송수단 선택 및 도시구간별 이용객 수 변화를 가져왔다. KTX의 등장과 같은 개입사건(Intervention events)의 영향은 개입사건 전후 변화를 단순 통계량으로 분석하거나 개입 ARIMA 모델을 통해 분석 되었다. 개입 ARIMA 모델은 개입사건의 발생 시점(t)과 개입사건의 영향 형태(type) 등의 가정이 필요하다는 한계가 있었으며, 본 연구에서는 기존 연구에서의 한계점을 보완할 수 있는 시계열 이상치 탐지(time seriesoutlier detection)를 활용하였다. 일반적으로 개입사건의 발생시기는 잘 알려져 있지 않으므로 시계열 이상치 탐지를 통해 개입사건에의 발생 시기를 추정할 수 있다. 시계열 이상치 탐지기법을 활용하여 개입의 시점과 영향 형태에 관한 가정 없이 개입사건에 대한 영향을 분석할 수 있으며, 발생된 이상치의 시점을 개입사건의 시점, 이상치의 영향을 개입사건의 영향으로 가정하였다. 데이터는 KTDB (Korea Transport Database)로 부터 KTX가 도입되기 이전인 2003년부터 2014년까지 12년 동안의 경부선(4개의 주요 도시구간 합산)을 포함한 주요 도시구간 4개의 월별데이터를 수집하여 활용하였다. 경부선 도시 구간별 이상치를 탐지 하고 그 영향을 분석한 결과, 동일한 개입사건 임에도 그 영향의 형태의 정도가 도시구간마다 다르게 나타나거나 영향이 나타나지 않았으며, 기존 연구에서 분석되지 않은 개입사건을 찾을 수 있었다.
2004년 4월 1일, 국내 최초의 고속철도(HSR)인 KTX (Korea Train eXpress)가 경부선에 도입 되었다. KTX의 등장은 경부선을 이용하는 철도 승객들의 운송수단 선택 및 도시구간별 이용객 수 변화를 가져왔다. KTX의 등장과 같은 개입사건(Intervention events)의 영향은 개입사건 전후 변화를 단순 통계량으로 분석하거나 개입 ARIMA 모델을 통해 분석 되었다. 개입 ARIMA 모델은 개입사건의 발생 시점(t)과 개입사건의 영향 형태(type) 등의 가정이 필요하다는 한계가 있었으며, 본 연구에서는 기존 연구에서의 한계점을 보완할 수 있는 시계열 이상치 탐지(time series outlier detection)를 활용하였다. 일반적으로 개입사건의 발생시기는 잘 알려져 있지 않으므로 시계열 이상치 탐지를 통해 개입사건에의 발생 시기를 추정할 수 있다. 시계열 이상치 탐지기법을 활용하여 개입의 시점과 영향 형태에 관한 가정 없이 개입사건에 대한 영향을 분석할 수 있으며, 발생된 이상치의 시점을 개입사건의 시점, 이상치의 영향을 개입사건의 영향으로 가정하였다. 데이터는 KTDB (Korea Transport Database)로 부터 KTX가 도입되기 이전인 2003년부터 2014년까지 12년 동안의 경부선(4개의 주요 도시구간 합산)을 포함한 주요 도시구간 4개의 월별데이터를 수집하여 활용하였다. 경부선 도시 구간별 이상치를 탐지 하고 그 영향을 분석한 결과, 동일한 개입사건 임에도 그 영향의 형태의 정도가 도시구간마다 다르게 나타나거나 영향이 나타나지 않았으며, 기존 연구에서 분석되지 않은 개입사건을 찾을 수 있었다.
On April 1, 2004, KTX (Korea Train eXpress), the first HSR (High-Speed Rail) in Korea, was introduced to Gyeongbu Line. The introduction of the KTX service led to a change in the number of passengers for Gyeongbu Line. Previous studies have analyzed the pre and post-event changes of the intervening ...
On April 1, 2004, KTX (Korea Train eXpress), the first HSR (High-Speed Rail) in Korea, was introduced to Gyeongbu Line. The introduction of the KTX service led to a change in the number of passengers for Gyeongbu Line. Previous studies have analyzed the pre and post-event changes of the intervening events by either simple statistics or intervention ARIMA analysis. However, the intervention ARIMA model has a limitation that several assumptions such as the occurrence time and the type of intervention events are necessary. To this end, this study analyzed the effects of intervention event on the number of passengers using the Gyeongbu line based on a time series outlier detection technique which can overcome limitations in the previous studies. The time series outlier detection technique can analyze the time, effect type and size of an intervention event without the assumption of the time and effect type of the intervention event. The data were collected from the Korea Transport Database (KTDB) for twelve years from 2003 to 2014 (144 months). The analysis results showed that the size of the influence type in the same intervention events was different across the major city routes, and the intervention event which could not be found by previous study methods was also found.
On April 1, 2004, KTX (Korea Train eXpress), the first HSR (High-Speed Rail) in Korea, was introduced to Gyeongbu Line. The introduction of the KTX service led to a change in the number of passengers for Gyeongbu Line. Previous studies have analyzed the pre and post-event changes of the intervening events by either simple statistics or intervention ARIMA analysis. However, the intervention ARIMA model has a limitation that several assumptions such as the occurrence time and the type of intervention events are necessary. To this end, this study analyzed the effects of intervention event on the number of passengers using the Gyeongbu line based on a time series outlier detection technique which can overcome limitations in the previous studies. The time series outlier detection technique can analyze the time, effect type and size of an intervention event without the assumption of the time and effect type of the intervention event. The data were collected from the Korea Transport Database (KTDB) for twelve years from 2003 to 2014 (144 months). The analysis results showed that the size of the influence type in the same intervention events was different across the major city routes, and the intervention event which could not be found by previous study methods was also found.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 시계열 이상치 탐지(time series outlier detection) 기법을 활용하여 개입에 대한 영향을 분석하고자 한다. 이상치 탐지는 기존의 데이터 분포와 비교해서 정상 데이터 분포에서 크게 벗어나는 데이터를 탐지하는 것을 말하며, 시계열 이상치 탐지는 특정 시간 주기 패턴을 파악하고 이에 벗어나는 이벤트가 발생하는 이상 현상을 탐지하는 것이다.
시계열 이상치 탐지는 이전의 개입 ARIMA 분석에서 필요한 개입사건의 발생시점이나 영향 형태에 대한 가정 없이 개입사건의 영향을 분석할 수 있기 때문에 기존의 연구에서 분석하지 않았던 개입사건을 탐지할 수 있다. 본 연구에서는 경부 고속철도가 도입되기 이전의 2003년부터 2014년까지의 철도 승객 월별 데이터를 경부선의 주요 도시 구간인 서울-부산, 서울-대구, 서울-대전, 서울-천안을 중심으로 탐지된 이상치를 통하여 철도 수요에 직/간접적으로 영향을 주는 개입 사건과 그 영향을 분석하였다.
본 연구에서는 개입 ARIMA 분석이 가지고 있는 단점을 보완 할 수 있는 시계열 이상치 탐지방법을 활용하여 분석하였다. 본 분석 방법은 시계열에 영향을 미치는 사건의 발생 시점과 발생효과를 알 수 없는 상황에서 개입 사건의 시점과 영향성을 도출하고자 할 때 적합하다. 본 연구에서는 오픈소프트웨어인 R을 활용하여 시계열 이상치 탐지를 수행하였다(López, 2014, 2016; Chen and Liu, 1993).
가설 설정
일반적으로 개입사건의 발생시기가 알려져 있지 않으므로 이상치 탐지를 통해 개입사건의 발생 시기를 추정할 수 있다. 시계열 이상치 탐지에서 발생된 이상치의 시점을 개입사건의 시점, 이상치의 영향을 개입사건의 영향으로 가정하였다. 시계열 이상치 탐지는 이전의 개입 ARIMA 분석에서 필요한 개입사건의 발생시점이나 영향 형태에 대한 가정 없이 개입사건의 영향을 분석할 수 있기 때문에 기존의 연구에서 분석하지 않았던 개입사건을 탐지할 수 있다.
제안 방법
KTDB는 출발역과 도착역 구간에 따른 OD (Origin & Destination)로 승객 수를 제공하고 있다. 본 연구에서 수행하고자 하는 도시 구간의 출/도착 도시에서 2개 이상의 역이 존재 하는 경우에는 한 도시구간에서 다수의 OD가 생기므로 관련 OD 별 승객 수를 합산 하여 분석에 활용하였다. 주요 도시구간별 포함되는 OD를 Table 2와 같이 정리하였다.
본 연구에서는 개입 ARIMA 분석이 가지고 있는 단점을 보완 할 수 있는 시계열 이상치 탐지방법을 활용하여 분석하였다. 본 분석 방법은 시계열에 영향을 미치는 사건의 발생 시점과 발생효과를 알 수 없는 상황에서 개입 사건의 시점과 영향성을 도출하고자 할 때 적합하다.
주요 도시 4개 구간의 철도 승객 수 데이터를 시계열 이상치 탐지방법을 활용하여 이상치를 탐지하여 주요 도시 구간별로 비교하고, 이상치를 발생시킨 개입 사건을 조사·분석하였다.
기존 연구에서 수행된 개입사건에 대한 분석은, 발생한 시점 전후의 통계량 혹은 개입이 발생한 시점과 그 영향의 형태를 가정하고 개입사건에 대한 영향 분석을 수행하였다. 하지만 본 연구에서는 개입되는 외부요인의 영향을 시계열 이상치 탐지 방법으로 수행되었기 때문에, 개입이 일어나는 시점과 형태를 모르는 개입사건에 대하여 개입시 점과 영향 형태에 대한 가정 없이 분석할 수 있었다.
대상 데이터
경부선의 주요 도시 구간을 이용한 철도 승객 수를 Table 1과 같이 수집하였다. 데이터는 KTDB (Korea Transport Database)를 통해서 경부선의 주요 도시구간인 서울-부산, 서울-대구, 서울-대전 및 서울-천안 등의 4개 구간으로 한정하여 2003년부터 2014년까지의 월별 철도 승객 수 데이터를 수집하였다.
경부선의 주요 도시 구간을 이용한 철도 승객 수를 Table 1과 같이 수집하였다. 데이터는 KTDB (Korea Transport Database)를 통해서 경부선의 주요 도시구간인 서울-부산, 서울-대구, 서울-대전 및 서울-천안 등의 4개 구간으로 한정하여 2003년부터 2014년까지의 월별 철도 승객 수 데이터를 수집하였다.
Table 1과 같이, 기차 승객은 무궁화호, 새마을호, 누리호(서울-천안 구간만 해당) 및 KTX를 이용한 승객 수를 경부선의 주요도시 구간별로 합산하여 산정하였다. KTDB는 출발역과 도착역 구간에 따른 OD (Origin & Destination)로 승객 수를 제공하고 있다.
0을 사용하였다. 본 연구에서 활용된 표본 크기는 11년 동안의 월별 데이터 144건이므로 임계값을 3.5로 사용하였다. 동일한 시점에 두 가지 유형의 이상치가 있을 경우에는 통계 값이 큰 유형의 이상치를 유지하며 그 외의 이상치 유형은 제거된다.
경부선의 주요 도시구간의 승객 수 변화에 대하여 탐지된 이상치 형태, 이상치 시점, 이상치 영향 정도의 분석 결과를 Table 5로 정리하였다. 계수(Coefficients) 값을 나타내는 단위는 가공한 데이터 단위로서, 본 연구에서는 승객수의 단위를 10,000명으로 설정하였다.
하지만 본 연구에서는 개입되는 외부요인의 영향을 시계열 이상치 탐지 방법으로 수행되었기 때문에, 개입이 일어나는 시점과 형태를 모르는 개입사건에 대하여 개입시 점과 영향 형태에 대한 가정 없이 분석할 수 있었다. 특히, 국내 교통의 중추노선인 경부선을 중심으로 KTX의 도입 이전인 2003년부터 2014년도 까지 최근 12년간 주요 4개 도시 구간의 철도 승객수를 활용하여 분석하였다. 그 결과, 동일한 개입사건 임에도 그 영향의 형태와 정도가 도시 구간마다 다르게 나타나거나 영향이 나타나지 않았다.
이론/모형
본 연구에서는 오픈소프트웨어인 R을 활용하여 시계열 이상치 탐지를 수행하였다(López, 2014, 2016; Chen and Liu, 1993).
성능/효과
서울에서 대구까지 고속선(HSR line)을 신설하고, 대구에서 부산은 기존선로를 활용하는 형태로 1단계가 개통되었으며, 2010년 10월에 2단계 공사가 완료됨에 따라 서울-부산 전 구간이 고속선으로 연결되었다. KTX의 등장으로 서울에서 부산까지 KTX (2시간 20분)의 이동시간은 기존 무궁화호(5시간 30분)와 새마을호(4시간 20분) 대비 절반이상 단축 되었으며, 신규 편성된 KTX의 운행으로 무궁화호와 새마을호의 운행횟수가 감소되었다. 경부고속철도 등장과 같은 개입사건(Intervention event)은 경부선 주요 도시 간 철도 승객 수에 영향을 끼쳤으며 선행연구에서는 개입에 대한 영향을 개입사건 전후의 변화로 분석하였다.
서울-부산 구간은 2004년 4월(LS), 2006년 2월(LS), 2006년 10월(TC), 2010년 11월(LS)까지 총 4번의 이상치가 나타났다(Figure 3). 3번의 LS 중에서 2004년과 2010년 발생한 LS 는 KTX의 1단계 및 2단계 개통 완료에 따라 줄어든 철도 이용시간 덕분에 승객수가 각각 14만 명과 4만 7천명이 증가하는 LS로 나타났다. 이와 반대로, 2006년 나타난 LS는 신 대구 고속도로 개통에 따른 영향으로 약 3만 9천명의 승객 수가 줄어든 LS로 나타났다.
대구-부산의육상 구간을 이어주는 신 대구부산 고속도로가 2006년 2월 12일부터 운영이 시작되어 육상교통의 이동시간이 단축 되었다. 그 결과, 서울-부산 구간의 고속버스 시간은 경부터미널 기준 50분, 동서울 터미널 기준 20분이 감소되어 고속버스 이용객이 증가하여 직간접적으로 경부선 철도 승객에게 영향을 끼친 것으로 예상된다.
대구-부산 구간의 신대구고속도로 개통은, 철도 승객에게 직접적이지는 않지만 육로 이동시간의 감축에 따른 간접적인 요인으로 서울-부산 구간의 철도 승객 감소라는 영향을 끼쳤다. 마지막으로, 분석된 이상치의 결과와 동향조사를 바탕으로 2006년 10월의 영향은 긴 연휴기간에 따른 개입이며, 서울-대전 구간에서 나타난 2개의 이상치는 철도 파업의 영향으로 이상치가 탐지 된 것으로 분석 된다.
후속연구
그러나 본 연구에서 수행된 시계열 이상치 탐지방법으로 밝혀낸 서울-대구 구간의 2006년 1월에 이상치 탐지 결과는 수집된 데이터와 동향조사를 수행했음에도 불구하고 개입의 영향을 찾기에는 한계가 있었다. 향후, 철도 운행 빈도, 가격 등의 정보 및 도시마다의 교통정책 등을 반영하여 철도 승객수를 변화시킬 수 있는 개입사건 및 요인에 대한 추가적인 정보를 통하여 개입의 영향성을 파악할 수 있을 것이며 별도의 추가 연구로 진행해야 할 것이다.
그러나 본 연구에서 수행된 시계열 이상치 탐지방법으로 밝혀낸 서울-대구 구간의 2006년 1월에 이상치 탐지 결과는 수집된 데이터와 동향조사를 수행했음에도 불구하고 개입의 영향을 찾기에는 한계가 있었다. 향후, 철도 운행 빈도, 가격 등의 정보 및 도시마다의 교통정책 등을 반영하여 철도 승객수를 변화시킬 수 있는 개입사건 및 요인에 대한 추가적인 정보를 통하여 개입의 영향성을 파악할 수 있을 것이며 별도의 추가 연구로 진행해야 할 것이다. 마지막으로, 수서 발 고속철도가 개통함(2016.
향후, 철도 운행 빈도, 가격 등의 정보 및 도시마다의 교통정책 등을 반영하여 철도 승객수를 변화시킬 수 있는 개입사건 및 요인에 대한 추가적인 정보를 통하여 개입의 영향성을 파악할 수 있을 것이며 별도의 추가 연구로 진행해야 할 것이다. 마지막으로, 수서 발 고속철도가 개통함(2016.12.09)에 따라 동일한 구간 내 두 개의 HSR이 운영되었을 때의 전후 통계량과 설문 결과를 분석한 선행 사례연구(Cascetta and Coppola, 2014)와 같이 국내 두 번째 HSR 운영자 등장과 같은 개입사건의 수요 영향 연구가 수행되어야 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
개입 ARIMA 분석은 어떤 방법인가?
개입 사건의 전후 통계량 비교 이외에도 철도 승객 수의 시계열 자료를 통하여 개입 ARIMA 분석을 수행할 수 있다. 이는 개입사건에 대하여 시계열에 미치는 영향 및 영향정도를 알 수 있으며, 분석 기간 동안의 발생한 개입사건에 대한 영향성을 모형에 포함하여 미래수요를 예측하는 방법이다(Kim and Kim, 2011). 개입 ARIMA 분석은 시계열 모형의 단점인 수요의 구조적 측정과 영향력 측정의 부재라는 문제점을 해결하기 위해 각 개입사건별 영향력 계수를 제시함으로써 시계열 모형이 가지고 있는 단점을 보완했다(Kim et al.
개입 ARIMA의 분석 방법이 가지는 단점은 무엇인가?
사건이 T 시점에서 발생하여 그 효과가 T 시점에만 영향을 미치는 경우가 지시개입이며, T 시점에서 발생하여 그 효과가 발생시점이후로 지속적인 영향을 미치는 경우가 계단개입이다. 그러나, 개입 ARIMA의 분석 방법은 개입이 일어난 시점과 그 영향의 형태가 지시개입인지 계단개입인지에 대한 가정을 해야 하는 단점이 있다.
시계열 이상치 탐지방법은 어떤 방식으로 탐지를 진행하는가?
시계열 이상치 탐지방법은 분석할 데이터를 통하여 ARIMA 모델이 주어지면 가능한 모든 시간 지점에서 모든 유형별로 이상점 효과를 감지하고 통계량을 구하며, 이상치 감지는 임계값(critical value)보다 높은 통계치를 나타낸 시간 지점과 유형을 탐색한다. Chang and Tiao(1983)와 Kaiser and Maravall(1999)은 표본크기(sample size)에 따라서 3.
참고문헌 (17)
Box G. E. P., Tiao G. C. (1975), Intervention Analysis with Applications to Economic and Environmental Problems, Journal of the American Statistical Associations, 70(349), 70-77.
Cascetta E., Coppola P. (2014), Competition on Fast Track: An Analysis of the First Competitive Market for HSR Services, Procedia-Social and Behavioral Sciences, 111, 176-185.
Chen C., Liu L. M. (1993), Joint Estimation of Model Parameters and Outlier Effects in Time Series, Journal of the American Statistical Association, 88(421), 284-297.
Kaiser R., Maravall A. (1999), Seasonal Outliers in Time Series.
Kim H. W., Lee D. H., Park H. S. (2013), The Impact of Gyeongbu High Speed Rail Construction on Regional Economic Growth, KSCE Journal of Civil Engineering, 17(6), 1206-1212.
Kim M. S., Kim K. W., Sung S. P. (2012), A Study on the Air Travel Demand Forecasting Using Time Series ARIMA-Intervention Model, Journal of the Korean Society for Aviation and Aeronautics, 20(1), 63-74.
Lee J. H., Chang J. (2006), Effects of High-speed Rail Service on Shares of Intercity Passenger Ridership in South Korea, Transportation Research Record: Journal of the Transportation Research Board, 1943, 31-42.
Lee S.J., Change J.S., Lee S. J., Yoon Y. W. (2013), An Analysis on Speed-Distance Comparative Advantage of Transportation Modes After the Opening of Gyeongbu High-speed Railway Project Phase II, Conference of the Korean Society for Railway, 1162-1174.
Lim S. J., Lim K. W., Lee Y. I., Kim K. H. (2008), A Study on Air and High Speed Rail Modal According to the Introduction of Low Cost Carrier Air Service, J. Korean Soc. Transp., 26(4), Korean Society of Transportation, 51-61.
Lopez J., Lopez M. J. (2016), Package 'tsoutliers'.
Lopez-de-Lacalle (2014), J. tsoutliers R Package for Detection of Outliers in Time Series.
Park M. S., Eom J. K., Heo T. Y., Song J. (2015), Intervention Analysis of the Impact of Opening a New Railway Line on Passenger Ridership in Seoul, KSCE Journal of Civil Engineering, 1-11.
Park M. S., Kim Y. (2016), The Impacts of High Speed Train on the Regional Economy of Korea, Korean Journal of Applied Statistics, 29(1), 13-25.
Park S. K. (2004), The Impact of Terrorism on World Tourism, Journal of Tourism Sciences, 28(2), 77-94.
Suh S., Yang K. Y. (2005), Customers' Reactions to the Introduction of High-speed Rail Service: Korean Train express, Transportation Research Record: Journal of the Transportation Research Board, 1916, 20-25.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.