[논문]스마트카드 빅데이터를 이용한 서울시 지하철 이동패턴 분석

김관호; 오규협; 이영규; 정재윤

doi:10.7838/jsebs.2013.18.3.211

스마트카드 빅데이터를 이용한 서울시 지하철 이동패턴 분석
Discovery of Travel Patterns in Seoul Metropolitan Subway Using Big Data of Smart Card Transaction Systems 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.18 no.3, 2013년, pp.211 - 222

김관호 (Department of Industrial and Management Systems Engineering, Kyung Hee University) , 오규협 (Department of Industrial and Management Systems Engineering, Kyung Hee University) , 이영규 (Seoul Metropolitan Rapid Transit Corp.) , 정재윤 (Department of Industrial and Management Systems Engineering, Kyung Hee University)

초록
AI-Helper

지리적으로 인접되어 있으면서 이동관점에서 같은 역할을 수행하는 Zone의 파악은 사람들의 이동흐름을 이해하고 도시개발 및 이동편의성 개선 등을 위한 중요한 정보로 활용된다. 그러나 기존의 연구는 특정 지점간의 이동과 Zone 발견을 개별적으로 수행하여, 거시적 관점에서의 이동패턴을 이해하는 데에는 한계가 존재한다. 따라서 본 연구에서는 스마트카드 전자거래 빅데이터로부터 Zone들을 발견하고 동시에 Zone들 간의 관계를 설명하는 클러스터링 기반의 이동패턴 분석기법을 제안한다. 또한, 설명력과 종속성 관점에서 이동패턴을 정량적으로 평가하는 지표를 제안한다. 제안된 분석기법을 이용하여 서울시 지하철에서 수집된 실 데이터를 분석하여 서울시에서의 이동패턴을 밝혀내고 시각화하였다.

Abstract ▼ AI-Helper

Discovering zones which a1re sets of geographically adjacent regions are essential in sophisticated urban developments and people's movement improvements. While there are some studies that separately focus on movements between particular regions and zone discovery, they show limitations to understand people's movements from a wider viewpoint. Therefore, in this research, we propose a clustering based analysis method that aims at discovering movement patterns, which involves zones and their relations, based on a big data of smart card transaction systems. Moreover, the effectiveness of discovered movement patterns is quantitatively evaluated by using the proposed metrics. By using a real-world dataset obtained in Seoul metropolitan subway networks, we investigate and visualize hidden movement patterns in Seoul.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

하지만 이들 중 대부분의 속성들은 특정 목적이나 시스템에 종속적이어서 다른 분석환경에서 활용하는 데 제한적이다. 따라서 본 연구에서는 [Table 2]와 같이 스마트카드 데이터의 속성들 중에서 출발-도착(Origin-Destination)에 해당되는 네 가지의 기본적 승하차 속성들만을 활용하여 제시된 모델의 적용범위를 최대화하고자 하였다.
본 논문에서는 스마트카드 빅데이터를 이용하여 이동패턴을 추출하여, 지리적으로 유사하면서도 동일한 기능을 수행하는 Zone을 발견하고 이들 간의 연관성을 파악하고자 하였다. 또한, 추출된 이동패턴을 정량적으로 평가하기 위한 지표를 제안하였다.
또한, 제시된 이동패턴을 정량적으로 수치화 하지 못하여 실질적인 의사결정이나 정책수립에 활용되기에는 어려움이 존재한다. 이와 달리, 본 연구에서는 Zone 발견과 동시에 이들 간의 관계를 분석하는 데 목적을 두어 기존의 연구와는 차별화된다고 할 수 있다.
제안되는 분석기법은 상향식 접근법(Bottom-Up Approach)을 적용하여 데이터로부터 실생활이 반영되는 의미 있는 이동패턴을 찾는 데 연구의 주안점을 둔다. 첫째로, 수집된 이동 데이터로부터 이동패턴을 추출하기 위한 병합적 군집화 기법(Agglomerative Clustering Method)을 개발하여 어떤 인접지역들이 같은 기능을 수행하는지를 파악할 뿐만 아니라 이와 밀접한 관련을 갖는 인접지역을 동시에 밝히고자 한다. 둘째로, 밝혀진 이동패턴들을 설명력과 종속성 관점에서 밝혀진 이동패턴들을 정량적으로 평가하는 세 가지 지표들을 제안한다.

제안 방법

제시되는 각각 지표들은 장바구니 분석에서 규칙의 평가를 위해 제안된 지표들인 지지도(Support), 향상도 (Lift), 코사인(Cosine)을 기반으로 한다[5, 9]. 기존의 지표들은 동시에 발생하는 사건들에 대해 평가하는데 목적을 두고 있기 때문에, 이를 Zone 내의 임의의 역에서 발생하는 이동을 고려하여 평가할 수 있도록 수정하였다.
제시된 분석기법을 이용하여 서울시 지하철 5호선～8호선에서 수집된 승하차 이동 데이터를 분석하고 밝혀진 이동패턴을 제시하고 평가한다. 나아가, 도출된 이동패턴으로부터 서울시에서 나타나는 주요한 이동특성을 분석하고 시각화하였다.
다음으로, 시간대별 이동패턴들의 특징을 살펴보기 위해 출근 시간대(08시～09시)와 퇴근 시간대(18시～19시)에 대해서 어떻게 이동 패턴이 변화하는지를 살펴보았다. [Table 5]와 [Table 6]은 각각 출근과 퇴근시간대에 복합지표 기준으로 상위 5개의 이동패턴을 나타낸다.
또한, 지하철 네트워크를 바탕으로 역간의 인접여부 및 역간 최단거리를 계산하여 향후 이동패턴 분석에 활용할 수 있도록 한다. 둘째, 이동패턴 분석 및 평가부분에서는 이동패턴 분석 알고리즘을 이용하여 데이터로부터 이동패턴을 분석한 후, 이들을 평가하여 이동패턴들을 정량적으로 비교 평가한다.
첫째로, 수집된 이동 데이터로부터 이동패턴을 추출하기 위한 병합적 군집화 기법(Agglomerative Clustering Method)을 개발하여 어떤 인접지역들이 같은 기능을 수행하는지를 파악할 뿐만 아니라 이와 밀접한 관련을 갖는 인접지역을 동시에 밝히고자 한다. 둘째로, 밝혀진 이동패턴들을 설명력과 종속성 관점에서 밝혀진 이동패턴들을 정량적으로 평가하는 세 가지 지표들을 제안한다.
본 논문에서는 스마트카드 빅데이터를 이용하여 이동패턴을 추출하여, 지리적으로 유사하면서도 동일한 기능을 수행하는 Zone을 발견하고 이들 간의 연관성을 파악하고자 하였다. 또한, 추출된 이동패턴을 정량적으로 평가하기 위한 지표를 제안하였다. 특히, 제안된 이동패턴 분석기법은 데이터 측면에서 Zone을 발견함과 동시에 Zone간의 관계분석을 수행하여, 오늘날 도시계획 및 수송계획에 필수적인 권역분석 및 권역 간의 이동분석에 직접적으로 활용될 수 있다는 측면에서 기존의 연구와는 차별화된다고 할 수 있다.
본 연구에서는 스마트카드 전자거래 빅데이터로부터 Zone들을 발견하고 두 Zone간의 연관성을 나타내는 이동패턴(MZP : Movement Pattern between Zones) 분석기법을 제안한다. 제안되는 분석기법은 상향식 접근법(Bottom-Up Approach)을 적용하여 데이터로부터 실생활이 반영되는 의미 있는 이동패턴을 찾는 데 연구의 주안점을 둔다.
기존의 병합적 군집화 기법은 주어진 유사도 함수에 기반으로 주어진 데이터를 트리 형태의 군집화 수행에 목적이 있다[7]. 본 연구에서는 이동 데이터의 방향성과 병합 시 Zone에서의 평균 이동 횟수를 고려하여 이동 데이터들을 병합하도록 기존 기법을 수정하여 이동패턴 분석에 적용하였다. [Table 3]은 이동패턴 분석 알고리즘에 사용된 기호와 이의 설명을 나타내고 있다.
본 연구에서의 이동패턴 분석은 [Figure 1]에서와 같이 데이터 수집 및 필터링(Data Acquisition and Filtering)과 패턴 발견 및 평가(Pattern Discovery and Measuring)의 두 부분으로 구분된다. 첫째, 데이터 수집 및 필터링 단계에서는 지하철의 스마트카드 시스템에서 기록된 승하차 이동 데이터를 수집하고, 이동거리 및 시간에 따라 분할하여 분석용 데이터베이스를 구축한다.
제시된 분석기법을 이용하여 서울시 지하철 5호선～8호선에서 수집된 승하차 이동 데이터를 분석하고 밝혀진 이동패턴을 제시하고 평가한다. 나아가, 도출된 이동패턴으로부터 서울시에서 나타나는 주요한 이동특성을 분석하고 시각화하였다.
본 연구에서는 스마트카드 전자거래 빅데이터로부터 Zone들을 발견하고 두 Zone간의 연관성을 나타내는 이동패턴(MZP : Movement Pattern between Zones) 분석기법을 제안한다. 제안되는 분석기법은 상향식 접근법(Bottom-Up Approach)을 적용하여 데이터로부터 실생활이 반영되는 의미 있는 이동패턴을 찾는 데 연구의 주안점을 둔다. 첫째로, 수집된 이동 데이터로부터 이동패턴을 추출하기 위한 병합적 군집화 기법(Agglomerative Clustering Method)을 개발하여 어떤 인접지역들이 같은 기능을 수행하는지를 파악할 뿐만 아니라 이와 밀접한 관련을 갖는 인접지역을 동시에 밝히고자 한다.
주요 이동패턴을 살펴보기 위해 수집된 데이터로부터 [Figure 2]에 제시된 알고리즘을 이용하여 이동패턴을 추출하였다. 밝혀진 이동패턴들은 제안된 세 지표로 평가되었다.
본 연구에서의 이동패턴 분석은 [Figure 1]에서와 같이 데이터 수집 및 필터링(Data Acquisition and Filtering)과 패턴 발견 및 평가(Pattern Discovery and Measuring)의 두 부분으로 구분된다. 첫째, 데이터 수집 및 필터링 단계에서는 지하철의 스마트카드 시스템에서 기록된 승하차 이동 데이터를 수집하고, 이동거리 및 시간에 따라 분할하여 분석용 데이터베이스를 구축한다. 또한, 지하철 네트워크를 바탕으로 역간의 인접여부 및 역간 최단거리를 계산하여 향후 이동패턴 분석에 활용할 수 있도록 한다.

대상 데이터

승하차가 기록된 시간은 05시부터 23시까지이며, 총 역의 수는 148개였다. 수집된 데이터는 5, 6, 7, 8호선이 각각 32%, 25%, 27%, 14%의 분포를 보였다.
제시된 기법의 효과를 검증하기 위해서 서울도시철도공사에서 2012년 6월 18일부터 22일까지 5호선～8호선에서 수집된 총 5,405,736건의 승하차 이동 데이터 사용하였다. 승하차가 기록된 시간은 05시부터 23시까지이며, 총 역의 수는 148개였다. 수집된 데이터는 5, 6, 7, 8호선이 각각 32%, 25%, 27%, 14%의 분포를 보였다.
제시된 기법의 효과를 검증하기 위해서 서울도시철도공사에서 2012년 6월 18일부터 22일까지 5호선～8호선에서 수집된 총 5,405,736건의 승하차 이동 데이터 사용하였다. 승하차가 기록된 시간은 05시부터 23시까지이며, 총 역의 수는 148개였다.

이론/모형

본 연구에서는 개별 데이터로부터 전체적인 관점에서 의미 있는 이동패턴을 발견하기 위해서 병합적 군집화 기법[3]을 이용한다. 기존의 병합적 군집화 기법은 주어진 유사도 함수에 기반으로 주어진 데이터를 트리 형태의 군집화 수행에 목적이 있다[7].

성능/효과

48%의 이동이 이에 해당되었다. 또한, 전체 21,904개의 출발역과 도착역의 쌍들 중 97개의 쌍이 전체 이동 데이터 중 10%가 넘는 이동에 해당되며, 2,265개의 쌍들은 이동이 관측되지 않았다. 이는 다수의 이동이 소수의 역에 집중되고, 다수의 역은 소수의 이동만이 발생함을 의미한다.
분석된 복합지표 기준의 상위 이동패턴을 살펴보면 모두가 같은 호선에서 비교적 가까운 Zone간의 강한 연관성을 보여주고 있음을 알 수 있다. 다른 호선의 Zone과의 강한 연관성이 나타나지 않은 이유는 다음과 같은 두가지 측면으로 설명할 수 있겠다.
55%에 해당되는 이동을 설명하며, 동시에 매우 높은 의존성을 보였다. 제시된 상위 5개의 이동패턴의 설명력의 합은 4.988%로서, 임의의 두 역간의 평균 설명력이 0.002%임을 감안할 때 분석된 이동패턴들은 Zone간의 종속성뿐만 아니라 이동량 측면으로도 매우 중요한 이동 흐름을 표현하고 있다고 볼 수 있겠다.
또한, 추출된 이동패턴을 정량적으로 평가하기 위한 지표를 제안하였다. 특히, 제안된 이동패턴 분석기법은 데이터 측면에서 Zone을 발견함과 동시에 Zone간의 관계분석을 수행하여, 오늘날 도시계획 및 수송계획에 필수적인 권역분석 및 권역 간의 이동분석에 직접적으로 활용될 수 있다는 측면에서 기존의 연구와는 차별화된다고 할 수 있다.

후속연구

그러나 최근에 방대한 양의 데이터를 대상으로 한 빠른 분석 도구들이 등장함에 따라 본 연구에서 대상으로 한 스마트카드 데이터와 같은 실제 이동데이터를 활용하는 연구들이 늘어나고 있다. 과거 비교적 적은 양의 데이터를 대상으로 한 연구에서 확인하기 힘든 다양한 주제들을 다룰 수 있다는 측면에서 빅데이터를 이용한 이동패턴 연구가 앞으로도 확산될 것으로 예상된다.
또한, 설명력과 같은 지표들이 보다 의미 있는 지표로 활용되기 위해 데이터의 전처리 또는 승하차역간의 조합을 고려한 지표의 개선이 필요할 것으로 판단된다. 나아가서, 제시된 분석결과는 도시계획, 대중교통 서비스향상, 대체 이동수단 보완 등에 활용될 수 있을 것으로 기대된다.
연구의 결과는 지하철뿐만 아니라 버스 및 택시 등의 다양한 대중교통에서 발생하는 대용량 이동 데이터를 바탕으로 보다 정확하고 의미 있는 이동분석을 가능하게 할 것이다. 또한, 설명력과 같은 지표들이 보다 의미 있는 지표로 활용되기 위해 데이터의 전처리 또는 승하차역간의 조합을 고려한 지표의 개선이 필요할 것으로 판단된다. 나아가서, 제시된 분석결과는 도시계획, 대중교통 서비스향상, 대체 이동수단 보완 등에 활용될 수 있을 것으로 기대된다.
첫째, 데이터 수집 및 필터링 단계에서는 지하철의 스마트카드 시스템에서 기록된 승하차 이동 데이터를 수집하고, 이동거리 및 시간에 따라 분할하여 분석용 데이터베이스를 구축한다. 또한, 지하철 네트워크를 바탕으로 역간의 인접여부 및 역간 최단거리를 계산하여 향후 이동패턴 분석에 활용할 수 있도록 한다. 둘째, 이동패턴 분석 및 평가부분에서는 이동패턴 분석 알고리즘을 이용하여 데이터로부터 이동패턴을 분석한 후, 이들을 평가하여 이동패턴들을 정량적으로 비교 평가한다.
연구의 결과는 지하철뿐만 아니라 버스 및 택시 등의 다양한 대중교통에서 발생하는 대용량 이동 데이터를 바탕으로 보다 정확하고 의미 있는 이동분석을 가능하게 할 것이다. 또한, 설명력과 같은 지표들이 보다 의미 있는 지표로 활용되기 위해 데이터의 전처리 또는 승하차역간의 조합을 고려한 지표의 개선이 필요할 것으로 판단된다.
[Figure 4]의 (a)에서 나타내는 바와 같이 전체 이동 중에서 탑승 후 3～5개의 역만을 통과한 후 하차하는 빈도가 가장 높기 때문에, 자연스럽게 두 Zone들 간의 거리 또한 비교적 가깝게 형성되고 있다고 볼 수 있다. 이와 더불어, 본 연구는 5～8호선에서 수집된 데이터로만 수행되어, 타 호선과 관련되고 멀리 떨어진 Zone간을 갖는 숨겨진 이동패턴이 분석되지 못한 한계가 존재할 것으로 판단된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Zone 분석은 무엇을 위한 중요한 정보로 인식되는가?	따라서 사람들의 지하철을 통한 이동은 도시 환경에서 지역 간의 특징과 관계를 반영하고 있으며, 이를 통해서 지리적으로 인접되어 있으면서 이동관점에서 동일한 역할을 수행하는 Zone들을 발견하는 것은 이동 관점에서의 지역의 기능적 성격을 규명하고 연관된 지역과의 숨겨진 상호작용을 이해하는데 매우 중요하다[14]. 이와 더불어, Zone 분석은 도시개발 계획수립 및 이동편의성 개선을 위한 중요한 정보로 인식되고 있다. 여기서 Zone은 지리적으로 인접한 지역을 의미한다[4].
	Zone은 무엇을 의미하는가?	오늘날 도시환경에서 지하철은 사람들의 출퇴근, 등하교, 여가생활 등의 활동에 매우 중요한 교통수단으로서의 역할을 수행하고 있다. 따라서 사람들의 지하철을 통한 이동은 도시 환경에서 지역 간의 특징과 관계를 반영하고 있으며, 이를 통해서 지리적으로 인접되어 있으면서 이동관점에서 동일한 역할을 수행하는 Zone들을 발견하는 것은 이동 관점에서의 지역의 기능적 성격을 규명하고 연관된 지역과의 숨겨진 상호작용을 이해하는데 매우 중요하다[14]. 이와 더불어, Zone 분석은 도시개발 계획수립 및 이동편의성 개선을 위한 중요한 정보로 인식되고 있다.
	본 연구에서 제안한 두 Zone간의 연관성을 나타내는 이동패턴은 어디에 연구의 주안점을 두는가?	본 연구에서는 스마트카드 전자거래 빅데이터로부터 Zone들을 발견하고 두 Zone간의 연관성을 나타내는 이동패턴(MZP : Movement Pattern between Zones) 분석기법을 제안한다. 제안되는 분석기법은 상향식 접근법(Bottom-Up Approach)을 적용하여 데이터로부터 실생활이 반영되는 의미 있는 이동패턴을 찾는 데 연구의 주안점을 둔다. 첫째로, 수집된 이동 데이터로부터 이동패턴을 추출하기 위한 병합적 군집화 기법(Agglomerative Clustering Method)을 개발하여 어떤 인접지역들이 같은 기능을 수행하는지를 파악할 뿐만 아니라 이와 밀접한 관련을 갖는 인접지역을 동시에 밝히고자 한다.

참고문헌 (14)

Bagchi, M. and White, P. R., "The Potential of Public Transport Smart Card Data," Transport Policy, Vol. 12, No. 5, pp. 464-474, 2005.

상세보기
Blythe, P., "Improving Public Transport Ticketing Through Smart Cards," Proceedings of the Institute of Civil Engineers, Municipal Engineer, Vol. 157, pp. 47-54, 2004.
Day, W. and Edelsbrunner, H., "Efficient Algorithms for Agglomerative Hierarchical Clustering Methods," Journal of Classification, Vol. 1, No. 1, pp. 7-24, 1984.

상세보기
Fusco, G. and Caglioni, M., "Hierarchical Clustering Through Spatial Interaction Data. The Case of Commuting Flows in South-Eastern France," Lecture Notes in Computer Science, Vol. 6782, pp. 135-151, 2011.
He, B., Ding, Y., and Yan, E., "Mining Patterns of Author Orders in Scientific Publications," Journal of Informetrics, Vol. 6, No. 3, pp. 359-367, 2012.

상세보기
Jang, W., "Travel Time and Transfer Analysis Using Transit Smart Card Data," Journal of the Transportation Research Board, Vol. 2144, pp. 142-149, 2010.

상세보기
Jung, J.-Y., "PROCL : A Process Log Clustering System," Journal of Society for e-Business Studies, Vol. 13, No. 2, pp. 181-194, 2008.
Karlsson, C., "Clusters, Functional Regions and Cluster Policies," JIBS and CESIS Electronic Working Paper Series, Vol. 84, 2007.
Kim, J.-H. and Heo, H., "An Interpretation of Interoperability Definitions Using Association Rules Discovery," Journal of Society for e-Business Studies, Vol. 16, No. 2, pp. 39-91, 2011.
Konjar, M., Lisec, A., and Drobne, S., "Method for Delineation of Functional Regions Using Data on Commuters," Proceedings of the 13-th AGILE International Conference on Geographic Information Science, Portugal, 2010.
Park, J. Y. and Kim, D. J., "The Potential of Using the Smart Sard Data to Define the Use of Public Transit in Seoul," Journal of the Transportation Research Board, Vol. 2063, No. 1, pp. 3-9, 2008.

상세보기
Srinivasan, S. and Ferreira, J., "Travel Behavior at the Household Level : Understanding Linkages with Residential Choice," Transportation Research Part D, Vol. 7, No. 3, pp. 225-242, 2002.

상세보기
Trepanier, M., Morency, C., and Agard, B., "Calculation of Transit Performance Measures Using Smart Card Data," Journal of Public Transportation, Vol. 12, No. 1, pp. 79-96, 2009.
Yuan, J., Zheng, Y. and Xie, X., "Discovering Regions of Different Functions in a City Using Human Mobility and POIs," Proceedings of the 18-th ACM SIGKDD International Conference on Discovery and Data Mining, Vol. 12, pp. 186-194, 2013.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증