본 연구는 전 세계에서 발생한 200,578,703건의 지오트윗을 수집하여 트윗 봇을 제거한 후, 인간의 도시 내 이동패턴을 분석하였다. 활동반경(Activity Radius)이라는 개념을 이용하여 트위터 사용자를 구분하였으며, 거주지역을 국내와 국외로 구분하고 국내는 다시 시내와 시외로 구분하였다. 그리고 활동반경과 거주지역에 따라 트위터 사용자의 활동성과 활동지역에 대한 통계적 특성을 기술하였고 지리적 분포를 시각적으로 표현하였다. 라스베이거스를 대상으로 하는 사례 분석을 통해, 거주지역에 따른 활동성과 활동지역의 차이를 확인하였다. 향후 본 연구의 방법에 따라 다양한 도시를 대상으로 분석을 수행하면, 인간의 이동성에 대한 다양한 이론을 도출할 수 있을 것이다.
본 연구는 전 세계에서 발생한 200,578,703건의 지오트윗을 수집하여 트윗 봇을 제거한 후, 인간의 도시 내 이동패턴을 분석하였다. 활동반경(Activity Radius)이라는 개념을 이용하여 트위터 사용자를 구분하였으며, 거주지역을 국내와 국외로 구분하고 국내는 다시 시내와 시외로 구분하였다. 그리고 활동반경과 거주지역에 따라 트위터 사용자의 활동성과 활동지역에 대한 통계적 특성을 기술하였고 지리적 분포를 시각적으로 표현하였다. 라스베이거스를 대상으로 하는 사례 분석을 통해, 거주지역에 따른 활동성과 활동지역의 차이를 확인하였다. 향후 본 연구의 방법에 따라 다양한 도시를 대상으로 분석을 수행하면, 인간의 이동성에 대한 다양한 이론을 도출할 수 있을 것이다.
In this study, we collected 200,578,703 geo-tweets and removed the twitter bots. Using the concept of activity radius, Twitter users are classified. Users are also divided first into domestic and overseas, and again domestic ones are divided into locals and non-locals. Statistical characteristics of...
In this study, we collected 200,578,703 geo-tweets and removed the twitter bots. Using the concept of activity radius, Twitter users are classified. Users are also divided first into domestic and overseas, and again domestic ones are divided into locals and non-locals. Statistical characteristics of activity strength and active area of Twitter users are described according to activity radius and home region, and the geographical distribution is presented visually. Through a case study of Las Vegas, we have identified the difference in activity strength and active area by the user's home residence. We expect to derive theories about human mobility by analyzing various cities with the method proposed in this study.
In this study, we collected 200,578,703 geo-tweets and removed the twitter bots. Using the concept of activity radius, Twitter users are classified. Users are also divided first into domestic and overseas, and again domestic ones are divided into locals and non-locals. Statistical characteristics of activity strength and active area of Twitter users are described according to activity radius and home region, and the geographical distribution is presented visually. Through a case study of Las Vegas, we have identified the difference in activity strength and active area by the user's home residence. We expect to derive theories about human mobility by analyzing various cities with the method proposed in this study.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 전 세계에서 발생한 지오트윗을 수집하여 인간의 도시 내 이동패턴을 분석하였다. 연구의 의의를 토의하면 다음과 같다.
제안 방법
트위터 사용자의 활동반경에 대한 연구는 거리를 측정하는 방법, 격자 셀을 방문한 개수로 측정하는 방법, 그리고 이 두 가지를 혼합한 연구가 있다. 거리를 측정하는 방법은 사용자의 시간 변화에 따른 위치 변화(이전 트윗 위치와 현재 트윗 위치)에 대한 정보를 이용하여 트윗 순서, 트윗 거리, 시간 간격, 이동 속도 등과 같은 이동성 지수를 계산하거나[4], 사용자의 트윗들의 회전반경(중심점과의 거리)을 이용하여 활동반경을 측정한다[5]. [5]의 연구에 의하면, 뉴질랜드와 호주 같은 원격지에 떨어져 있는 국가의 사용자는 활동반경이 800km 가까이 월등하게 크고, 이스라엘은 400km로 3위인데, 주변 중동지역 내에는 갈 곳이 없고, 일단 이스라엘이라는 국가를 벗어나면 다른 대륙으로 이동해야만 하는 정치상황과 무관하지 않은 결과를 보인다.
902359). 그리고 인간의 이동에만 집중하기 위하여 트윗 봇을 제거하였다. 트윗 봇에 관한 선행 연구를 검토하여 총 이동거리의 합이 100m 미만인 사용자, 이동속도가 시속 1,000km 이상인 사용자, 활동반경의 표준편차가 0.
활동반경(Activity Radius)이라는 개념을 이용하여 트위터 사용자를 구분하였으며, 거주지역을 국내와 국외로 구분하고, 국내는 다시 시내와 시외로 구분하였다. 그리고 활동반경과 거주지역에 따라 트위터 사용자의 활동성과 활동지역에 대한 통계적 특성을 기술하였고 지리적 분포를 시각적으로 표현하였다.
먼저 거주국가를 추정하였으며, 거주국가가 미국인 경우 거주지역이 라스베이거스 시내인지 시외인지를 추정하였다. 다시 말해서 거주지역을 국외, 라스베이거스 시외, 라스베이거스 시내로 구분하였다. 거주지역의 국내외 추정은 지오트윗 데이터의 국가코드(country_code)를 이용하였고, 시내외 추정은 라스베이거스의 경위도 좌표 범위를 이용하였다(위도: 35.
활동반경평균(활동반경의 평균)은 홛동성의 크기를 나타내고, 활동반경편차(활동반경의 표준편차)는 활동성의 변화를 나타낸다. 둘째, 거주일수를 이용하여 거주지역(시내 거주, 시외 거주, 국외 거주)을 추정하는 방법을 고안하였다. 체류지역의 변화에 따라 트윗 시작일과 종료일을 확인하여 거주일수를 계산함으로써 거주지역 추정의 정확도를 높였다.
마지막으로, 인간의 거주지역과 활동성의 유의한 관계를 발견하였다. 라스베이거스를 대상으로 하는 사례 분석을 통해, 거주지역에 따른 활동성과 활동지역의 차이를 확인하였다. 본 연구의 방법에 따라 다양한 도시를 대상으로 분석을 수행한다면, 인간의 이동성에 대한 다양한 이론을 도출할 수 있을 것이다.
마지막으로, 지역별 거주일수를 비교하여 최장 기간(일) 체류한 지역을 거주지역으로 추정하였다. 최장 기간 체류한 지역을 단일 지역으로 특정하지 못할 경우에는 거주지역 불명(unknown)으로 판정하였다.
거주지역의 추정은 2 단계로 진행하였다. 먼저 거주국가를 추정하였으며, 거주국가가 미국인 경우 거주지역이 라스베이거스 시내인지 시외인지를 추정하였다. 다시 말해서 거주지역을 국외, 라스베이거스 시외, 라스베이거스 시내로 구분하였다.
활동반경과 거주지역의 지리적 분포를 정량적으로 집계하고 그 결과를 효과적으로 시각화하기 위하여, 사용자의 중심위치를 포함하는 지리적 상위 계층으로 ‘중심구역’을 구성하였다. 먼저 수식 (1)을 통해 계산한 중심위치의 경도 좌표와 위도 좌표를 각각 소수점 셋째 자리에서 반올림하여 중심구역의 경도 좌표와 위도 좌표를 계산하였다. 경위도 좌표에서 0.
본 연구는 전 세계에서 발생한 200,578,703건의 지오트윗을 수집하여 트윗 봇을 제거한 후, 인간의 도시 내 이동패턴을 분석하였다. 활동반경(Activity Radius)이라는 개념을 이용하여 트위터 사용자를 구분하였으며, 거주지역을 국내와 국외로 구분하고, 국내는 다시 시내와 시외로 구분하였다.
사용자의 활동반경을 계산하기 위하여 우선 중심위치의 경위도 좌표를 산출하였다. 중심위치의 경위도 좌표는 수식 (1)과 같이 해당 사용자의 모든 트윗 위치의 경위도 좌표를 평균하여 계산하였다.
그런데 사용자의 이동경로가 ‘미국-멕시코-미국’처럼 미국에 있다가 멕시코를 방문하고 다시 미국으로 돌아오는 경우에, 미국의 거주일수를 미국에서 트윗한 시작일과 최종일의 차이로 단순히 구하면 미국의 거주일수가 멕시코의 거주일수를 포함하는 오류가 발생한다. 이를 해결하기 위하여 지역(국가 또는 시내외)의 변화가 있을 때마다 거주일수를 구한 후, 동일 지역의 거주일수를 합산하여 최종적으로 해당 지역의 거주일수를 계산하였다.
특히 GPS 좌표가 포함되어 있는 지오트윗 데이터는 순도 100%의 시공간 데이터인데, 이 데이터를 이용한 인간의 이동 행태에 관한 연구가 새로운 전기를 맞이하고 있다. 이제까지는 휴대폰 데이터[3], 교통카드 데이터, 차량 GPS 데이터, 신용카드 데이터 등을 이용하여 이동성을 분석하였다. 하지만 이러한 비즈니스 데이터들은 고객정보 및 경영정보 유출 문제 때문에 일반에 제한적으로 공개되었다.
이러한 방법으로 총 693개의 중심구역을 생성하였다. 중심구역_ID 를 이용하여 사용자 수, 사용자 비율, 활동반경평균, 활동반경편차 등을 집계하였고 중심구역의 경도 좌표와 위도 좌표를 이용하여 사용자의 지리적 분포를 시각화하였다.
사용자의 활동반경을 계산하기 위하여 우선 중심위치의 경위도 좌표를 산출하였다. 중심위치의 경위도 좌표는 수식 (1)과 같이 해당 사용자의 모든 트윗 위치의 경위도 좌표를 평균하여 계산하였다.
연구의 의의를 토의하면 다음과 같다. 첫째, 활동반경을 이용하여 인간의 활동성을 이해할 수 있는 지표를 개발하였다. 활동반경평균(활동반경의 평균)은 홛동성의 크기를 나타내고, 활동반경편차(활동반경의 표준편차)는 활동성의 변화를 나타낸다.
둘째, 거주일수를 이용하여 거주지역(시내 거주, 시외 거주, 국외 거주)을 추정하는 방법을 고안하였다. 체류지역의 변화에 따라 트윗 시작일과 종료일을 확인하여 거주일수를 계산함으로써 거주지역 추정의 정확도를 높였다. 마지막으로, 인간의 거주지역과 활동성의 유의한 관계를 발견하였다.
트위터의 Public Streaming API를 이용하여 2015년 7월 14일부터 2015년 9월 1일까지 50일 동안 전 세계에서 발생한 200,578,703건의 지오트윗을 수집하였다. 트위터 사용자의 도시 내 이동패턴을 분석하기 위하여 라스베이거스를 선택하였다. 라스베이거스는 미국 서남부 네바다주에 위치한 세계적인 관광 도시로 거주자와 방문자의 이동패턴을 비교하기에 적절한 도시이다.
그리고 인간의 이동에만 집중하기 위하여 트윗 봇을 제거하였다. 트윗 봇에 관한 선행 연구를 검토하여 총 이동거리의 합이 100m 미만인 사용자, 이동속도가 시속 1,000km 이상인 사용자, 활동반경의 표준편차가 0.0m 이하인 사용자 등을 트윗 봇으로 판단하고 삭제하였다. 이상의 과정을 통해 12,191개 트위터 계정의 371,532개 트윗 위치를 활동반경의 계산에 사용하였다.
본 연구는 전 세계에서 발생한 200,578,703건의 지오트윗을 수집하여 트윗 봇을 제거한 후, 인간의 도시 내 이동패턴을 분석하였다. 활동반경(Activity Radius)이라는 개념을 이용하여 트위터 사용자를 구분하였으며, 거주지역을 국내와 국외로 구분하고, 국내는 다시 시내와 시외로 구분하였다. 그리고 활동반경과 거주지역에 따라 트위터 사용자의 활동성과 활동지역에 대한 통계적 특성을 기술하였고 지리적 분포를 시각적으로 표현하였다.
활동반경과 거주지역의 지리적 분포를 정량적으로 집계하고 그 결과를 효과적으로 시각화하기 위하여, 사용자의 중심위치를 포함하는 지리적 상위 계층으로 ‘중심구역’을 구성하였다.
활동반경평균(MAR)의 평균(4.16)과 활동반경편차(SDAR)의 평균(2.73)을 기준으로 그림 (1)에서 보는 바와 같이 트위터 사용자를 4개의 활동반경 그룹으로 구분하였다.
대상 데이터
다시 말해서 거주지역을 국외, 라스베이거스 시외, 라스베이거스 시내로 구분하였다. 거주지역의 국내외 추정은 지오트윗 데이터의 국가코드(country_code)를 이용하였고, 시내외 추정은 라스베이거스의 경위도 좌표 범위를 이용하였다(위도: 35.944955~36.355835, 경도: -115.367373~-114.902359).
. 본 연구에서는 데이터 수집 기간인 50일 중에서 최장 기간(일) 체류한 지역을 거주지역으로 정의하였다. 거주지역의 추정은 2 단계로 진행하였다.
0m 이하인 사용자 등을 트윗 봇으로 판단하고 삭제하였다. 이상의 과정을 통해 12,191개 트위터 계정의 371,532개 트윗 위치를 활동반경의 계산에 사용하였다.
트위터의 Public Streaming API를 이용하여 2015년 7월 14일부터 2015년 9월 1일까지 50일 동안 전 세계에서 발생한 200,578,703건의 지오트윗을 수집하였다. 트위터 사용자의 도시 내 이동패턴을 분석하기 위하여 라스베이거스를 선택하였다.
데이터처리
01로 근사하여 거리를 계산하였다. 다음으로 수식 (2)를 통해 구한 활동반경을 이용하여 수식 (3)과 같이 활동반경의 평균(활동반경평균, Mean Activity Radius, MAR)을 구하였고 수식 (4)과 같이 활동반경의 표준편차(활동반경편차, Standard Deviation Activity Radius, SDAR)를 구하였다.
이론/모형
중심위치로부터 트윗위치까지의 거리인 활동반경 Ri는 수식 (2)와 같이 구하였다. 수식 (2)는 경위도 좌표를 이용하여 두 지점 사이의 거리를 구하는 대표적 공식인 하버사인 공식(Haversine formula)[15]을 이용하였다.
성능/효과
먼저 수식 (1)을 통해 계산한 중심위치의 경도 좌표와 위도 좌표를 각각 소수점 셋째 자리에서 반올림하여 중심구역의 경도 좌표와 위도 좌표를 계산하였다. 경위도 좌표에서 0.01도의 차이를 거리로 환산하면 1km 정도로 활동반경의 지리적 패턴을 파악하는 데 적절하다고 판단하였다. 다음으로, 중심구역의 경도 좌표와 위도 좌표를 결합하여 ‘중심구역_ID’를 생성하였다.
위 두 가지를 혼합한 방법을 사용한 [8]은 세계 주요 58개 도시를 대상으로, 트위터 사용자를 현지인(local)과 방문자(non-local)로 구분한 후, 두 집단별 트윗 평균 반경과 방문셀 수를 계산하였다. 그 결과 현지인은 방문자에 비해 활동반경과 방문셀 수 모두 현격하게 적다는 사실을 발견하였다.
체류지역의 변화에 따라 트윗 시작일과 종료일을 확인하여 거주일수를 계산함으로써 거주지역 추정의 정확도를 높였다. 마지막으로, 인간의 거주지역과 활동성의 유의한 관계를 발견하였다. 라스베이거스를 대상으로 하는 사례 분석을 통해, 거주지역에 따른 활동성과 활동지역의 차이를 확인하였다.
그림 (3)은 그림 (2)와 차원을 달리하여 거주지역별로 활동반경 그룹의 사용자 비율을 보여주고 있다. 전체적으로 보면 도박사 그룹의 사용자 비율이 44%로 가장 높고 관광객 그룹의 비율이 7%로 가장 낮다. 거주지역별로 살펴보면, 라스베이거스 거주자는 다른 지역의 거주자보다 도박사 그룹의 비율이 36%로 가장 낮고 나머지 비율은 가장 높다.
그림 (2)는 활동반경평균과 활동반경편차의 평균을 기준으로 구분한 활동반경 그룹별로 거주지역의 사용자 비율을 보여주고 있다. 전체적으로 보면 라스베이거스 시내 거주자의 비율이 57%로 가장 높다. 전체 방문자(시외 거주자와 국외 거주자) 중에서 국외 거주자의 비율은 12%이다.
따라서 데이터를 얻게 되더라도 몇 가지 제약이 존재한다. 첫째, 공개되는 양이 적으며, 둘째, 국내 데이터이기 때문에 다른 국가와 비교연구가 어렵고, 셋째, 고객의 위치정보가 정밀하지 않다. 그에 반해 트위터 데이터는 무제한으로 다운로드 받을 수 있으며, 지역적 제한이 없어 글로벌 수준의 비교연구가 가능하며, GPS 위치 값이 포함된 지오트윗을 수집할 경우 개인의 상세한 시공간 이동성을 분석할 수 있다.
활동반경평균이 활동반경평균의 평균보다 작고 활동반경편차도 활동반경편차의 평균보다 작은 그룹을 도박사(gambler)로 명명하였으며, 활동반경평균은 크고 활동반경편차는 작은 그룹을 관광객(sightseer)으로 명명하였다. 그리고 활동반경평균과 활동반경편차가 모두 큰 그룹을 통근자(commuter)로 명명하였다.
후속연구
라스베이거스를 대상으로 하는 사례 분석을 통해, 거주지역에 따른 활동성과 활동지역의 차이를 확인하였다. 본 연구의 방법에 따라 다양한 도시를 대상으로 분석을 수행한다면, 인간의 이동성에 대한 다양한 이론을 도출할 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
휴대폰 데이터, 교통카드 데이터 등을 이용해 비즈니스 데이터들을 얻게 되더라도 존재하는 제약에는 무엇이 있는가?
따라서 데이터를 얻게 되더라도 몇 가지 제약이 존재한다. 첫째, 공개되는 양이 적으며, 둘째, 국내 데이터이기 때문에 다른 국가와 비교연구가 어렵고, 셋째, 고객의 위치정보가 정밀하지 않다. 그에 반해 트위터 데이터는 무제한으로 다운로드 받을 수 있으며, 지역적 제한이 없어 글로벌 수준의 비교연구가 가능하며, GPS 위치 값이 포함된 지오트윗을 수집할 경우 개인의 상세한 시공간 이동성을 분석할 수 있다.
트위터 사용자의 활동반경에 대한 연구는 어떤 연구가 있는가?
트위터 사용자의 활동반경에 대한 연구는 거리를 측정하는 방법, 격자 셀을 방문한 개수로 측정하는 방법, 그리고 이 두 가지를 혼합한 연구가 있다. 거리를 측정하는 방법은 사용자의 시간 변화에 따른 위치 변화(이전 트윗 위치와 현재 트윗 위치)에 대한 정보를 이용하여 트윗 순서, 트윗 거리, 시간 간격, 이동 속도 등과 같은 이동성 지수를 계산하거나[4], 사용자의 트윗들의 회전반경(중심점과의 거리)을 이용하여 활동반경을 측정한다[5].
거주지를 판별ㆍ추정할 때 이용하는 트위터 데이터는 무엇인가?
거주지를 판별ㆍ추정할 때 이용하는 트위터 데이터는 (1) 사용자의 트윗글, (2) 사용자의 프로파일 정보, 또는 (3) 트윗 위치(트윗이 발생한 GPS 좌표값)이다. 사용자의 트윗글을 이용할 경우, 도시나 주와 같은 행정구역 정도를 판별하는 수준이거나[9], 오차범위가 100마일 정도로 정교성이 떨어진다[10].
참고문헌 (16)
S. Park, Y. I. Kim, and S. R. Lee, "Hierarchical visualization of cloud-based social network service using fuzzy," J. KICS, vol. 38B, no. 7, pp. 501-511. Jul. 2013.
J. Moon, I. Jang, Y. C. Choe, J. G. Kim, and G. Bock, "Case study of big data-based agri-food recommendation system according to types of customers," J. KICS, vol. 40, no. 5, pp. 903-913, May 2015.
J. H. Cho, "Tutorial: Geo-tweet analysis to understand mobility patterns of people," in Proc. Korea Soc. IT Serv. Conf., pp. 419-428, Seoul, Korea, May 2016.
B. Hawelka, I. Sitko, E. Beinat, S. Sobolevsky, P. Kazakopoulos, and C. Ratti, "Geo-located twitter as proxy for global mobility patterns," Cartography and Geographic Inf. Sci., vol. 41, no. 3, pp. 260-271, Feb. 2014.
J. Yin, Y. Gao, Z. Du, and S. Wang, "Exploring multi-scale spatiotemporal twitter user mobility patterns with a visual-analytics approach," ISPRS Int. J. Geo-Inf., vol. 5, no. 10, id. 187, pp. 1-19, Oct. 2016.
J. H. Cho and I. Seo, "Comparing the spatial mobility of residents and tourists by using teotagged tweets," J. Inf. Technol. Serv., vol. 15, no. 3, pp. 211-221, Sep. 2016.
M. Lenormand, B. Goncalves, A. Tugores, and J. J. Ramasco, "Human diffusion and city influence," J. The Royal Soc. Interface, vol. 12, no. 109, id. 20150473, pp. 1-9, Jul. 2015.
J. Mahmud, J. Nichols, and C. Drews, "Home location identification of twitter users," ACM Trans. Intell. Syst. Technol., vol. 5, no. 3, id. 47, pp. 1-21, Jul. 2014.
Z. Cheng, J. Caverlee, and K. Lee, "You are where you tweet: A content-based approach to geo-locating Twitter use," in Proc. 19th ACM Int. Conf. Inf. and Knowledge Management, pp. 759-768, Toronto, Canada, Oct. 2010.
B. Hecht, L. Hong, B. Suh, and E. H. Chi, "Tweets from Justin Bieber's heart: The dynamics of the 'location' field in user profiles," in Proc. SIGCHI Conf. Human Factors in Comput. Syst., pp. 237-246, Vancouver, Canada, May 2011.
J. Kulshrestha, F. Kooti, A. Nikravesh, and K. P. Gummadi, "Geographic dissection of the Twitter network," in Proc. 6th Int. AAAI Conf. on Weblogs and Social Media, pp. 202-209, Dublin, Ireland, Jun. 2012.
A. Belyi, I. Bojic, S. Sobolevsky, I. Sitko, B. Hawelka, L. Rudikova, A. Kurbatski, and C. Ratti, Global multi-layer network of human mobility (2016), Retrived Jan. 6, 2017, from http://arxiv.org/abs/1601.05532.
N. Hossain, T. Hu, R. Feizi, A. M. White, J. Luo, and H. Kautz, Inferring fine-grained details on user activities and home location from social media: detecting drinking-whiletweeting patterns in communities (2016), Retrived Jan. 6, 2017, from http://arxiv.org/ abs/1603.03181.
C. Robusto, "The cosine-haversine formula," The Am. Math. Monthly, vol. 64, no. 1, pp. 38-40, 1957.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.