본 연구는 트위터를 대상으로 트윗 공간 데이터에서 지리적 의미를 탐색하기 위한 방법을 모색하였다. 트윗 공간 데이터의 구축 과정 및 지리적 분석의 프레임워크를 정립하고 지리적 연구 방법론을 제안하였다. 이를 위해 본 연구는 제주도의 GPS 좌표 참조 트윗(geotweet)을 대상으로 트윗의 내용적 특성과 트윗 발생 위치의 공간 분포 특성을 확인하였다. 제주도 좌표 참조 트윗에서는 지명 또는 장소명이 많이 출현하였는데, 이는 자신의 위치를 알리고자하는 의도로 파악하였다. 트윗의 공간 분포는 제주공항을 중심으로 한 일부 관광지 주변으로 핫스팟이 확인되었고, 이는 제주도 유동인구 핫스팟과 유사한 패턴을 보였다. 주제 중심의 트윗 분석을 위해 본 연구에서는 토픽 모델링 알고리즘을 이용하여 분석하였다. 분석 결과, 주제의 지리적 위치와 트윗의 내용은 서로 관련이 있음을 알 수 있었다. 마지막으로 본 연구는 토픽 모델링 분석을 통해 방대한 트윗 데이터의 내용에 상응하는 지역 분포 특성을 직관적으로 확인하는데 유용하게 활용될 수 있다는 것을 확인하였다.
본 연구는 트위터를 대상으로 트윗 공간 데이터에서 지리적 의미를 탐색하기 위한 방법을 모색하였다. 트윗 공간 데이터의 구축 과정 및 지리적 분석의 프레임워크를 정립하고 지리적 연구 방법론을 제안하였다. 이를 위해 본 연구는 제주도의 GPS 좌표 참조 트윗(geotweet)을 대상으로 트윗의 내용적 특성과 트윗 발생 위치의 공간 분포 특성을 확인하였다. 제주도 좌표 참조 트윗에서는 지명 또는 장소명이 많이 출현하였는데, 이는 자신의 위치를 알리고자하는 의도로 파악하였다. 트윗의 공간 분포는 제주공항을 중심으로 한 일부 관광지 주변으로 핫스팟이 확인되었고, 이는 제주도 유동인구 핫스팟과 유사한 패턴을 보였다. 주제 중심의 트윗 분석을 위해 본 연구에서는 토픽 모델링 알고리즘을 이용하여 분석하였다. 분석 결과, 주제의 지리적 위치와 트윗의 내용은 서로 관련이 있음을 알 수 있었다. 마지막으로 본 연구는 토픽 모델링 분석을 통해 방대한 트윗 데이터의 내용에 상응하는 지역 분포 특성을 직관적으로 확인하는데 유용하게 활용될 수 있다는 것을 확인하였다.
This paper attempts to analyze the geographical characters of Twitter data and presents analysis potentials for social network analysis in geography. First, this paper suggests a methodology for a topic modeling-based approach in order to identify the geographical characteristics of tweets, includin...
This paper attempts to analyze the geographical characters of Twitter data and presents analysis potentials for social network analysis in geography. First, this paper suggests a methodology for a topic modeling-based approach in order to identify the geographical characteristics of tweets, including an analysis flow of Twitter data sets, tweet data collection and conversion, textural pre-processing and structural analysis, topic discovery, and interpretation of tweets' topics. GPS coordinates referencing tweets(geotweets) were extracted among sampled Twitter data sets because it contains the tweet place where it was created. This paper identifies a correlated relationship between some specific topics and local places in Jeju. This correlation is closely associated with some place names and local sites in Jeju Island. We assume it is the intention of tweeters to record their tweet places and to share and retweet with other tweeters in some cases. A surface density map shows the hotspots of tweets, detecting around some specific places and sites such as Jeju airport, sightseeing sites, and local places in Jeju Island. The hotspots show similar patterns of the floating population of Jeju, especially the thirty-year age group. In addition, a topic modeling algorithm is applied for the geographical topic discovery and comparison of the spatial patterns of tweets. Finally, this empirical analysis presents that Twitter data, as social network data, provide geographical significance, with topic modeling approach being useful in analyzing the textural features reflecting the geographical characteristics in large data sets of tweets.
This paper attempts to analyze the geographical characters of Twitter data and presents analysis potentials for social network analysis in geography. First, this paper suggests a methodology for a topic modeling-based approach in order to identify the geographical characteristics of tweets, including an analysis flow of Twitter data sets, tweet data collection and conversion, textural pre-processing and structural analysis, topic discovery, and interpretation of tweets' topics. GPS coordinates referencing tweets(geotweets) were extracted among sampled Twitter data sets because it contains the tweet place where it was created. This paper identifies a correlated relationship between some specific topics and local places in Jeju. This correlation is closely associated with some place names and local sites in Jeju Island. We assume it is the intention of tweeters to record their tweet places and to share and retweet with other tweeters in some cases. A surface density map shows the hotspots of tweets, detecting around some specific places and sites such as Jeju airport, sightseeing sites, and local places in Jeju Island. The hotspots show similar patterns of the floating population of Jeju, especially the thirty-year age group. In addition, a topic modeling algorithm is applied for the geographical topic discovery and comparison of the spatial patterns of tweets. Finally, this empirical analysis presents that Twitter data, as social network data, provide geographical significance, with topic modeling approach being useful in analyzing the textural features reflecting the geographical characteristics in large data sets of tweets.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 소셜빅데이터2) 중 하나인 트위터를 대상으로 공간 정보 데이터 구축 및 지리적 분석의 프레임워크를 정립하고 트윗 공간 데이터의 지리적 연구 방법론을 제안하는 것을 목적으로 하였다. 트윗 데이터는 사용자들의 일상, 의견, 감정, 상황 등이 기록된 텍스트적 정보와 그것이 발생한 위치적 정보가 실시간으로 수집되는 공간 데이터이다.
트윗 데이터는 사용자들의 일상, 의견, 감정, 상황 등이 기록된 텍스트적 정보와 그것이 발생한 위치적 정보가 실시간으로 수집되는 공간 데이터이다. 이러한 트윗의 내용적 특성과 트위터 사용자들의 지리적 위치와의 관련성을 확인하고 온라인 공간에서의 지역 특성을 발견하려는 방법을 연구한다.
본 연구는 트윗 데이터의 위치 정보에 상응하는 트위터 사용자들의 언어적 특성을 주목하였다. 이는 유사한 내용적 정보를 공유하는 사용자의 집합은 그들의 지리적 특성을 반영하는 성향과 관련이 깊다.
본 연구는 대중들의 생각의 속도가 실시간으로 반영되는 소셜빅데이터인 트위터를 대상으로, 그것의 발생하는 위치에 근거하여 내용적 특성에 따른 지역특성을 파악하고자 하였다. 이를 위해 트윗 공간데이터의 지리적 분석 방법론의 프레임워크를 정립하고, 트윗 데이터의 토픽 모델링을 통해 트윗의 주제에 따른 공간 분포를 확인하였다.
가설 설정
이 장에서는 제주도에서 발생된 GPS 좌표가 참조된 트윗(geotweet)을 대상으로 트윗 데이터의 공간 분포 패턴을 분석하였다. 분석에 앞서 트윗을 작성하려는 의도에 따라 위치 정보의 참조 유형이 달라질 것으로 가정하고, 관광객이 많은 제주도는 그들의 정확한 좌표를 참조하여 방문 장소와 관광 행태를 드러내는 트윗을 작성할 것으로 예상하였다. 시기적으로 국회위원 총선과 봄꽃의 개화 시점인 2016년 4월 1일에서 4월 8일까지의 제주도 좌표 참조 트윗 954건을 대상으로 키워드의 출현 빈도를 분석하여 어떤 내용이 주로 언급되었는지 분석하였다.
앞 장에서 제주도의 좌표 참조 트윗은 주로 관광객이 작성하여 지명 및 장소에 대한 내용의 비율이 높다는 것을 확인하였다. 즉, 제주도 트윗에서 추출되는 주제의 내용은 관광 목적, 관광지 특성, 여행자의 행태를 반영할 것으로 가정하였다.
제안 방법
토픽 모델링의 결과는 각 트윗마다 할당된 주제의 확률 분포와, 각 주제에 대한 단어 확률 분포로서 나타난다. 도출된 주제의 확률 구간별로 트윗의 비율을 산출하고, 주제에 따른 공간 분포 및 지역 특성을 확인하였다.
제주시는 인구 대비 트윗 수가 전국에서 가장 높은 지역으로서, 트윗 사용자의 대부분은 제주도의 거주민이 아닌 방문자로 추정된다.3) 제주시의 트윗 중에서 GPS 좌표가 참조된 트윗을 대상으로 제주도 트윗의 내용 및 공간 분포 특성을 파악하고, 토픽 모델링 과정을 통해 도출된 주제에 따라 지리적 특성을 확인하였다.
강애띠・강영옥 등(2015)은 트윗 데이터의 위치 희박 문제의 대안으로 사용자의 거주 지역을 유추하는 방법을 고안하였다. 트위터 사용자의 이동궤적과 사용자의 언어에서 일상생활패턴을 확인하였다. 오효정 등(2014)은 트윗 텍스트의 내용을 분석하여 사용자의 연령이나 성별뿐만 아니라 사용자 선호지역을 추출하는 방법을 고안하였다.
수집된 데이터는 연구 목적에 적합한 필드를 정제하고 GIS 분석이 가능한 형식으로 변환하는 데이터 파싱(parsing)과정을 거친다. 수집된 트윗의 내용은 형태소 분석을 통해 문장을 구성하는데 직접적 영향을 미치는 자질을 추출하는 자연어 처리(NLP; Natural Language Processing)과정을 수행한다. 이렇게 구축된 데이터는 연구 목적, 분석 시점, 분석의 공간적 스케일 등을 조건으로 전처리한다.
제외어 및 포함어 리스트를 통한 트윗 필터링 - 시간 조건의 설정 - 공간 스케일의 지정의 일련의 과정을 통해 추출되는 트윗 데이터를 분석용 초기 자료로 구축한다. 다음으로 트윗 데이터에서 토픽을 추출하기 위해 토픽 모델링을 수행한다. 토픽 모델링의 결과는 각 트윗마다 할당된 토픽의 리스트와, 각 토픽에 대한 단어 확률 분포로서 나타난다.
토픽 모델링의 결과는 각 트윗마다 할당된 토픽의 리스트와, 각 토픽에 대한 단어 확률 분포로서 나타난다. 트윗의 토픽별 확률 가중치에 기반하여 지리적 패턴 및 지역별 특성을 분석한다.
본 연구에서는 트위터의 Streaming API를 통해 국내에서 실시간으로 발생하는 위치 정보가 포함된 트윗들을 수집하였다. 그렇게 하기 위해 남한 전체를 커버하는 직사각형의 공간적 범위에서 발생하는 트윗을 조건으로 데이터를 호출하였다.
이차적으로 단어의 음절 길이와 별도의 불용어 리스트에 의해 다시 한 번 형태소를 정제하여 트윗 고유 ID에 해당하는 형태소 분석 파일을 저장한다. 본 연구에서 일련의 형태소 분석 과정은 KoNLPy 모듈에서 제공하는 트위터와 같은 대용량의 문서에 대한 처리시간이 빠른 Twitter 분석기를 사용하였다.
도출된 주제의 해석을 위해 주제 구성 단어들의 의미적 연관성을 고려하여 주제의 내용을 유추하고 토픽명을 부여한다. 토픽에서 높은 확률을 갖는 단어를 중심으로 주제를 요약하는데, 단순한 단어의 배열만으로 의미를 파악하기 어렵다.
이 장에서는 제주도에서 발생된 GPS 좌표가 참조된 트윗(geotweet)을 대상으로 트윗 데이터의 공간 분포 패턴을 분석하였다. 분석에 앞서 트윗을 작성하려는 의도에 따라 위치 정보의 참조 유형이 달라질 것으로 가정하고, 관광객이 많은 제주도는 그들의 정확한 좌표를 참조하여 방문 장소와 관광 행태를 드러내는 트윗을 작성할 것으로 예상하였다.
분석에 앞서 트윗을 작성하려는 의도에 따라 위치 정보의 참조 유형이 달라질 것으로 가정하고, 관광객이 많은 제주도는 그들의 정확한 좌표를 참조하여 방문 장소와 관광 행태를 드러내는 트윗을 작성할 것으로 예상하였다. 시기적으로 국회위원 총선과 봄꽃의 개화 시점인 2016년 4월 1일에서 4월 8일까지의 제주도 좌표 참조 트윗 954건을 대상으로 키워드의 출현 빈도를 분석하여 어떤 내용이 주로 언급되었는지 분석하였다. 좌표 참조 트윗의 경우에는 지명 또는 장소명이 많이 출현하였는데, 이는 좌표를 첨부하여 자신의 위치를 드러내고자 하는 의도가 반영된 것으로 해석하였다(표 1 참조).
제주도의 트윗 분포의 공간적 밀도를 파악하기 위해 커널 밀도 분석을 수행하였다. <그림 4>에서 보는 것처럼 제주공항 주변 지역 및 서귀포 시청 인근 지 역, 수월봉, 섭지코지 등의 관광지가 위치한 해안을 따라 핫스팟이 분포하였다.
최종적으로 출현빈도가 높은 ‘제주(1323회)’, ‘제주도(508회)’, ‘특별자치도(418회)’의 단어와 출현 횟수가 10회 미만으로 모델링 학습을 위한 맥락이 부족한 다수의 단어들을 제거하고 최종적 코퍼스를 생성하였다.
그렇다면 관광객들이 어떤 목적과 내용으로 트윗을 작성하며 트윗이 발생한 장소와 어떤 관련이 있는지 확인하기 위해 토픽 모델링 분석을 위한 TF-IDF 행렬을 작성하였다. 최종적으로 출현빈도가 높은 ‘제주(1323회)’, ‘제주도(508회)’, ‘특별자치도(418회)’의 단어와 출현 횟수가 10회 미만으로 모델링 학습을 위한 맥락이 부족한 다수의 단어들을 제거하고 최종적 코퍼스를 생성하였다.
그 다음 문서 집합에서 추출될 토픽의 수를 조절하면서 토픽에 할당되는 단어의 확률과 단어 간의 관계를 파악하였다. 5개의 토픽 수에서 순차적으로 값을 늘려가면서 모델링 결과를 확인하여 15개의 토픽과 토픽별로 확률 값이 높은 상위 10개의 단어를 추출하였다.
본 연구는 대중들의 생각의 속도가 실시간으로 반영되는 소셜빅데이터인 트위터를 대상으로, 그것의 발생하는 위치에 근거하여 내용적 특성에 따른 지역특성을 파악하고자 하였다. 이를 위해 트윗 공간데이터의 지리적 분석 방법론의 프레임워크를 정립하고, 트윗 데이터의 토픽 모델링을 통해 트윗의 주제에 따른 공간 분포를 확인하였다. 사례 연구로서 이러한 분석 방법론을 적용하여 제주도를 대상으로 지역적 특성을 분석하였다.
이를 위해 트윗 공간데이터의 지리적 분석 방법론의 프레임워크를 정립하고, 트윗 데이터의 토픽 모델링을 통해 트윗의 주제에 따른 공간 분포를 확인하였다. 사례 연구로서 이러한 분석 방법론을 적용하여 제주도를 대상으로 지역적 특성을 분석하였다.
이렇게 구축된 데이터는 제외어 및 포함어 리스트를 통한 필터링 - 시간 조건의 설정 - 공간 스케일의 지정의 일련의 전처리 과정을 통해 분석용 초기 자료로 구축한다. 다음으로 트윗 데이터에서 주제를 추출하기 위해 문서와 단어 간의 TF-IDF 행렬을 구성하고 공통어를 포함한 불용어를 제거한다. 마지막으로 토픽 모델링을 통해 도출된 트윗의 토픽별 확률 가중치에 기반하여 지리적 패턴 및 지역별 특성을 분석한다.
다음으로 트윗 데이터에서 주제를 추출하기 위해 문서와 단어 간의 TF-IDF 행렬을 구성하고 공통어를 포함한 불용어를 제거한다. 마지막으로 토픽 모델링을 통해 도출된 트윗의 토픽별 확률 가중치에 기반하여 지리적 패턴 및 지역별 특성을 분석한다.
위의 과정에 근거하여 제주도에서 발생한 좌표 참조 트윗을 대상으로 공간 분포와 토픽에 따른 지리적 분포 패턴을 확인하였다. 첫 번째 좌표 참조 트윗을 작성하는 목적을 분석하기 위해 키워드 출현 빈도를 확인하였는데 지명 또는 장소명이 많이 출현하였다.
위의 과정에 근거하여 제주도에서 발생한 좌표 참조 트윗을 대상으로 공간 분포와 토픽에 따른 지리적 분포 패턴을 확인하였다. 첫 번째 좌표 참조 트윗을 작성하는 목적을 분석하기 위해 키워드 출현 빈도를 확인하였는데 지명 또는 장소명이 많이 출현하였다. 이는 좌표를 첨부하여 자신의 위치를 드러내고자 하는 의도가 반영된 것이다.
7 이상인 트윗의 내용을 참조하였다. 다시 말해, 트윗의 내용이 70% 이상 특정 토픽을 대변한다고 해석할 수 있는 트윗의 내용으로부터 토픽을 해석하였다. 보조적으로 동시 발생 키워드 네트워크 분석을 통해 군집으로 확인되는 단어들의 연결 관계와 구조를 참조하였다.
다시 말해, 트윗의 내용이 70% 이상 특정 토픽을 대변한다고 해석할 수 있는 트윗의 내용으로부터 토픽을 해석하였다. 보조적으로 동시 발생 키워드 네트워크 분석을 통해 군집으로 확인되는 단어들의 연결 관계와 구조를 참조하였다.
각각의 트윗에서 가장 높은 확률 가중치를 갖는 토픽을 그 트윗의 대표 토픽으로 간주하고, 각 토픽에 해당하는 트윗 수와 토픽의 확률 가중치를 4개의 구간으로 나누어 구간별로 해당 트윗의 수를 집계하고 이러한 값을 비율로 환산하였다. 전체 토픽 중에서 토픽1은 해당 트윗 수 1157건, 트윗 비율 28.
대상 데이터
본 연구는 사례 지역으로 제주시를 선정하였다. 제주시는 인구 대비 트윗 수가 전국에서 가장 높은 지역으로서, 트윗 사용자의 대부분은 제주도의 거주민이 아닌 방문자로 추정된다.
본 연구의 대상인 트위터는 사용자의 생각 또는 의견을 140자 한도의 짧은 글에 담아낸 메시지인 트윗을 교환하여 사용자들이 소통하도록 하는 소셜 네트워크 서비스(Social Network Service)이자 마이크로 블로그(microblog) 서비스(http://ko.wikipedia.org/wiki/트위터)이다. 이러한 짧은 트윗 텍스트 이면에는 더 많은 메타데이터가 존재한다.
먼저, 트위터의 Open API를 활용하여 트윗 데이터를 수집한다. 수집된 데이터는 연구 목적에 적합한 필드를 정제하고 GIS 분석이 가능한 형식으로 변환하는 데이터 파싱(parsing)과정을 거친다.
이렇게 구축된 데이터는 연구 목적, 분석 시점, 분석의 공간적 스케일 등을 조건으로 전처리한다. 제외어 및 포함어 리스트를 통한 트윗 필터링 - 시간 조건의 설정 - 공간 스케일의 지정의 일련의 과정을 통해 추출되는 트윗 데이터를 분석용 초기 자료로 구축한다. 다음으로 트윗 데이터에서 토픽을 추출하기 위해 토픽 모델링을 수행한다.
트위터는 데이터의 효율적인 수집을 위해 트위터 API를 제공하고, 다양한 프로그래밍 언어를 통해 트위터의 API에 접근할 수 있다. 본 연구에서는 트위터의 Streaming API를 통해 국내에서 실시간으로 발생하는 위치 정보가 포함된 트윗들을 수집하였다. 그렇게 하기 위해 남한 전체를 커버하는 직사각형의 공간적 범위에서 발생하는 트윗을 조건으로 데이터를 호출하였다.
먼저, 트윗 공간 데이터의 지리적 분석 방법의 절차는 다음과 같다. 트위터의 Open API를 활용하여 실시간으로 트윗 데이터 호출・수집한다. 수집된 데이터는 연구에 사용될 필드를 정제하고 데이터 파싱(parsing)과정을 통해 분석이 가능하도록 변환한다.
이 장은 트윗 데이터에서 주제를 발견하고 주제에 따른 지리적 분포 패턴을 분석하였다. 사용된 데이터는 2016년 7월 5일 정오부터 9월 14일 정오까지 수집된 4093개의 제주도 GPS 좌표 참조 트윗이다. 트윗의 공간 분포를 분석한 데이터와 다른 데이터를 사용한 이유는 분석을 수행한 기간이 다르고, 토픽 모델링 분석은 충분한 데이터의 양이 확보되어야 하기 때문에 장기간 데이터 수집이 요구되었기 때문이다.
이론/모형
트위터와 같은 빅 데이터의 가치는 그 속에서 중요한 정보를 추출하여 의미가 있는 정보로 변환되었을 때 발생한다. 그렇기 때문에 트윗 데이터에 활발하게 논의되는 주제들을 도출하기 위해 토픽 모델링과 같은 텍스트 마이닝 기법을 이용하였다. 토픽 모델링의 결과는 각 트윗마다 할당된 주제의 확률 분포와, 각 주제에 대한 단어 확률 분포로서 나타난다.
성능/효과
(2013)은 미국에서 위치가 태그된 트윗과 플리커(Flickr) 이미지를 대상으로 시공간적 분포 패턴을 비교하고 지역의 사회경제적 특성과의 관계를 파악하였다. 또한 트위터와 플리커의 공간 밀도를 종속 변수로 하여 PLSR(partial Least Squares Regression)을 적용하여 교육과 인종과 같은 요인이 영향을 미치는 것을 확인하였다. 신정엽(2014)은 트윗 데이터에 대한 논의를 정보 격차를 중심으로 고찰하였다.
미국 킹 카운티를 사례로, 트윗 데이터가 시공간에 따라 집중적으로 분포하고 도시-농촌간 정보 격차가 나타나고 있음을 탐지하였다. 또한 트윗 데이터의 분포는 사회인구학적 변수 중 젊은 층 인구, 소득 등의 변수와 일부 관련성을 가지는 것을 확인하였다.
강애띠(2016)는 트위터에서 사용자가 스트레스에 대해 표현하고 있는 트윗들을 추출하여 LDA 알고리즘을 적용하여 15개의 토픽을 추출하였다. 그 토픽들을 스트레스 원인, 결과, 해소방법이라는 3가지 주제로 분류하고 지역별로 스트레스에 대한 주제와 감성이 차이가 있음을 확인하였다.
토픽 모델링의 결과로서 최종적인 말뭉치(corpus)4)로부터 문서마다 할당된 주제의 리스트가 생성되고 리스트 형태는 [주제 ID, 주제 확률]로 표현된다. 각 주제들은 단어에 대한 다차원 분포로서 각 주제의 단어마다 [단어 ID, 단어 확률]의 리스트가 생성된다.
제주도 총 49,112개의 지 점에서의 유동인구 비율을 가중치로 하여 유동인구 밀도의 핫스팟을 확인하면, 제주 공항이 가장 높고, 제주시의 노형동, 연동 주변지역 및 서귀포시 월드컵 경기장 인근과 서귀포시 성산읍 인근에서 나타났다 (그림 5 참조). 결과적으로, 트윗 밀도의 핫스팟과 유 동인구 비율의 핫스팟은 유사한 지역적 패턴을 보이 는 것을 확인할 수 있었다. 이러한 현상은 다른 선행 연구에서도 확인된 바 있는데(구자용, 2015), 특히 제 주도는 관광객의 유동인구가 많은 장소가 트윗 생성량이 많다는 것을 보여준다.
그 다음 문서 집합에서 추출될 토픽의 수를 조절하면서 토픽에 할당되는 단어의 확률과 단어 간의 관계를 파악하였다. 5개의 토픽 수에서 순차적으로 값을 늘려가면서 모델링 결과를 확인하여 15개의 토픽과 토픽별로 확률 값이 높은 상위 10개의 단어를 추출하였다.
트윗에서 토픽 4에 할당된 토픽의 확률 값의 구간별로 지리적 분포를 확인해 보면 높은 확률 구간의 트윗들은 주제를 대표하는 지명 또는 위치 상에 분포하고 있는 것을 확인할 수 있다(그림 7 참조). 결과적으로 트윗에서 특정 값 이상의 가장 높은 확률 가중치가 할당된 토픽이 그 트윗을 대표하는 토픽이 되고, 이러한 트윗의 분포는 토픽이 설명하는 지리적 위치와 더욱 관련이 있었다. 그렇기 때문에 트윗 데이터의 토픽 모델링을 통해 트윗 내용에 상응하는 지역 분포와의 관련성을 직관적으로 확인할 수 있었다.
반면 지역명 참조 트윗의 경우 정치적 키워드의 출현 빈도가 높았는데, 이런 경우 트윗은 사용자의 사회적 관심사에 관한 내용에 편향적인 것으로 해석하였다. 두 번째, 제주도 트윗의 분포의 공간적 밀도는 제주공항을 중심으로 해안의 관광지를 따라 핫스팟이 나타났다. 이것은 제주도 유동인구의 핫스팟과 유사한 패턴을 보였다.
이것은 제주도 유동인구의 핫스팟과 유사한 패턴을 보였다. 세 번째, 제주도 트윗의 토픽 모델링 분석 결과, 트윗에서 특정 값 이상의 높은 확률 가중치가 할당된 토픽이 그 트윗의 대표 토픽으로서, 이러한 트윗의 분포는 토픽이 설명하는 지리적 위치 및 내용과 더욱 관련이 있었다. 그렇기 때문에 토픽 모델링을 통해 트윗 데이터의 내용에 상응하는 지역 분포와의 관련성을 직관적으로 확인하는데 유용하게 활용될 수 있다는 점을 확인하였다.
세 번째, 제주도 트윗의 토픽 모델링 분석 결과, 트윗에서 특정 값 이상의 높은 확률 가중치가 할당된 토픽이 그 트윗의 대표 토픽으로서, 이러한 트윗의 분포는 토픽이 설명하는 지리적 위치 및 내용과 더욱 관련이 있었다. 그렇기 때문에 토픽 모델링을 통해 트윗 데이터의 내용에 상응하는 지역 분포와의 관련성을 직관적으로 확인하는데 유용하게 활용될 수 있다는 점을 확인하였다. 이는 좌표 참조된 트윗을 올린 사용자의 시기적인 관심이나 특정 장소에 대한 선호를 토픽 모델링을 통해 직관적으로 파악하고, 그들의 위치에 대한 분포나 밀도를 확인하여 특정 지역에 대한 정보의 수집이나 마케팅의 수단으로 활용될 수 있다.
<그림 4>에서 보는 것처럼 제주공항 주변 지역 및 서귀포 시청 인근 지 역, 수월봉, 섭지코지 등의 관광지가 위치한 해안을 따라 핫스팟이 분포하였다. 제주도 총 49,112개의 지 점에서의 유동인구 비율을 가중치로 하여 유동인구 밀도의 핫스팟을 확인하면, 제주 공항이 가장 높고, 제주시의 노형동, 연동 주변지역 및 서귀포시 월드컵 경기장 인근과 서귀포시 성산읍 인근에서 나타났다 (그림 5 참조). 결과적으로, 트윗 밀도의 핫스팟과 유 동인구 비율의 핫스팟은 유사한 지역적 패턴을 보이 는 것을 확인할 수 있었다.
각각의 트윗에서 가장 높은 확률 가중치를 갖는 토픽을 그 트윗의 대표 토픽으로 간주하고, 각 토픽에 해당하는 트윗 수와 토픽의 확률 가중치를 4개의 구간으로 나누어 구간별로 해당 트윗의 수를 집계하고 이러한 값을 비율로 환산하였다. 전체 토픽 중에서 토픽1은 해당 트윗 수 1157건, 트윗 비율 28.3%로 전체 트윗에서 가장 비중이 높은 토픽으로 확인되었다. 그러나 토픽 1에 해당된 트윗의 85% 정도가 토픽 확률 가중치 0.
트윗에서 토픽 4에 할당된 토픽의 확률 값의 구간별로 지리적 분포를 확인해 보면 높은 확률 구간의 트윗들은 주제를 대표하는 지명 또는 위치 상에 분포하고 있는 것을 확인할 수 있다(그림 7 참조). 결과적으로 트윗에서 특정 값 이상의 가장 높은 확률 가중치가 할당된 토픽이 그 트윗을 대표하는 토픽이 되고, 이러한 트윗의 분포는 토픽이 설명하는 지리적 위치와 더욱 관련이 있었다.
후속연구
즉 대규모의 자발적 지리 정보(big volunteered geographic Information)1)로의 소셜빅데이터를 통해 지리적 공간에 투영되는 대중들의 행태를 즉각적으로 포착해 낼 수 있다(Goodchild, 2007; 신정엽, 2014). 또한 다양한 주제에 따른 지리적 특성을 분석함으로서 온라인에서 기능하는 공간이 중요한 지리적 연구 대상이 될 수 있음을 보여준다.
마지막으로 본 연구 내용을 바탕으로 시급하게 연구되어야 할 내용으로는 트윗 데이터의 신뢰성과 정확성을 높이는 기법 개발이 필요하다. 예를 들어 필터링 과정에서 더욱 세분화된 조건을 주어 불필요한 트윗을 제거할 수 있는 기법이나 알고리즘이 개발되어야 한다.
예를 들어 필터링 과정에서 더욱 세분화된 조건을 주어 불필요한 트윗을 제거할 수 있는 기법이나 알고리즘이 개발되어야 한다. 또한 지역성을 잘 드러낼 수 있는 주제를 선정하여 트윗 데이터의 공간적 구조에 대해 보다 심도 있는 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
트위터의 사용자 관련 정보로 어떤 것들을 포함하는가?
이러한 짧은 트윗 텍스트 이면에는 더 많은 메타데이터가 존재한다. 트윗 관련 정보로서 트윗 고유 ID, 트윗 생성 일자, 텍스트, 작성 위치 등이 있고, 사용자 관련 정보로서 사용자 공유 ID, 팔로워 수 등을 포함한다. 사용자의 필요에 따라 위치정보의 참조 여부를 결정할 수 있는데, 모바일의 GPS에서 부여되는 좌표를 참조하는 경우 지리학 연구에서 유용하게 활용될 수 있다(박재희, 2013).
LDA 알고리즘은 잠재적 변수인 주제를 어떻게 학습하는가?
, 2003). 이 알고리즘은 문서에서 주제를 추론해내는 확률 분포 모델로서, 하나의 텍스트 내의 단어들의 사용 빈도를 확률적으로 분석하여 잠재적 변수인 주제를 학습한다. LDA는 문서가 가질 수 있는 주제들의 확률 분포와 각 주제에 대한 단어들의 확률 분포를 추론한다(조태민・이지형, 2015).
트윗 데이터란 무엇인가?
본 연구는 소셜빅데이터2) 중 하나인 트위터를 대상으로 공간 정보 데이터 구축 및 지리적 분석의 프레임워크를 정립하고 트윗 공간 데이터의 지리적 연구 방법론을 제안하는 것을 목적으로 하였다. 트윗 데이터는 사용자들의 일상, 의견, 감정, 상황 등이 기록된 텍스트적 정보와 그것이 발생한 위치적 정보가 실시간으로 수집되는 공간 데이터이다. 이러한 트윗의 내용적 특성과 트위터 사용자들의 지리적 위치와의 관련성을 확인하고 온라인 공간에서의 지역 특성을 발견하려는 방법을 연구한다.
참고문헌 (25)
강애띠, 2016, 트윗에서 추출한 스트레스 감성과 토픽의 공간적 특성 연구, 이화여자대학교 박사학위논문.
강애띠.강영옥, 2015, 타임라인데이터를 이용한 트위터 사용자의 거주 지역 유추방법, 한국공간정보학회지, 23(2), 69-81.
신정엽, 2014, 정보 격차의 맥락에서 트윗 데이터의 이론적 고찰과 실증적 공간 탐색: 미국 킹 카운티를 사례로, 한국지도학회지, 14(2), 89-106.
오효정.윤보현.최남현.유철중.김용, 2014, 소셜 빅데이터 내용 분석 기반 사용자 그룹별 선호지역 및 이동패턴 시각화, 한국정보기술학회지, 12(12), 195-203.
원진영.김대곤, 2014, 텍스트마이닝을 활용한 사회위험 이슈 도출, 한국위기관리논집, 10(7), 33-52.
이병혁.이기현.윤지영, 2005, IT와 공간구조의 재구성, 정보통신정책연구원.
전철욱(편역), 2016, Building Machine Learning Systems with Python 한국어판(개정판), 에이콘, 서울(Coelho, L. P. and Richert, W., 2013,Building Machine Learning Systems withPython, Packt Publishing, Ltd., Birmingham,UK)
Blei, D. M., Ng, A. Y., and Jordan, M. I., 2003, Latent Dirichlet Allocation, Journal of Machine Learning Research, 3, 993-1022.
Hong, L., and Davison, B. D., 2010, Empirical study of topic modeling in twitter, Proceedings of the First Workshop on Social Media Analytics(SOMA), 80-88.
Li, L., Goodchild, M. F., and Xu, B., 2013, Spatial, temporal, and socioeconomic patterns in the use of Twitter and Flickr, Cartography and Geographic Information Science, 40(2), 61-77.
Sui, D., and Goodchild, M., 2011, The convertgence of GIS and social media: challenges for GIScience, International Journal of Geographical Information Science, 29(1), 1737-1748.
Yin, Z., Cao, L., Han, J., Zhai, C., and Huang, T., 2011, Geographical topic discovery and comparison, Proceedings of the 20th International Conference on World Wide Web, 247-256.
Zhao, W. X., Jiang, J., Weng, J., He, J., Lim, E. P., Yan, H., and Li, X., 2011, Comparing twitter and traditional media using topic models, European Conference on Information Retrieval, Springer Berlin Heidelberg, 338-349.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.