트위터와 페이스북 같은 소셜 네트워크 서비스가 급격히 성장하면서, 소셜 네트워크 분석에 관련된 연구들도 많은 관심을 받고 있다. 특히 최근에는 트위터 상에 사용자가 관찰한 방대한 양의 정보가 실시간으로 생산된다는 점에 착안하여, 트위터 데이터 분석을 통한 이벤트 감지를 시도하는 연구가 진행되어왔다. 이를 통해 지진 발생을 감지하여 알려주는 시스템이나 지역 축제를 탐지하는 시스템의 개발 등 다양한 연구가 있었다. 그러나 이러한 시스템은 이벤트 발생위치를 탐지할 때 사용자가 제공한 위치정보나 트윗 작성위치를 사용하면서도 그 정확성에 대한 분석은 수행하지 않았다. 본 논문에서는 이벤트 감지 시스템 개발의 사전연구로써, 사용자가 입력한 프로필의 위치정보와 트윗에 포함된 GPS 좌표 사이의 관계와 신뢰성을 분석한다. 이 실험을 위해 52 만개 이상의 국내 사용자 계정과 280 만개 이상의 해외 사용자 계정을 분석하였고, 그 결과 국내 사용자의 경우 49.73%가, 해외 사용자의 경우 90.64%가 프로필 위치에서 주로 트윗을 작성한 것으로 나타났다. 이러한 분석 결과를 통해 사용자 위치정보의 신뢰성 수준을 알 수 있었으며, 이 결과는 추후 트위터의 위치정보를 활용하는 응용을 개발할 때 참고할 수 있을 것으로 기대한다.
트위터와 페이스북 같은 소셜 네트워크 서비스가 급격히 성장하면서, 소셜 네트워크 분석에 관련된 연구들도 많은 관심을 받고 있다. 특히 최근에는 트위터 상에 사용자가 관찰한 방대한 양의 정보가 실시간으로 생산된다는 점에 착안하여, 트위터 데이터 분석을 통한 이벤트 감지를 시도하는 연구가 진행되어왔다. 이를 통해 지진 발생을 감지하여 알려주는 시스템이나 지역 축제를 탐지하는 시스템의 개발 등 다양한 연구가 있었다. 그러나 이러한 시스템은 이벤트 발생위치를 탐지할 때 사용자가 제공한 위치정보나 트윗 작성위치를 사용하면서도 그 정확성에 대한 분석은 수행하지 않았다. 본 논문에서는 이벤트 감지 시스템 개발의 사전연구로써, 사용자가 입력한 프로필의 위치정보와 트윗에 포함된 GPS 좌표 사이의 관계와 신뢰성을 분석한다. 이 실험을 위해 52 만개 이상의 국내 사용자 계정과 280 만개 이상의 해외 사용자 계정을 분석하였고, 그 결과 국내 사용자의 경우 49.73%가, 해외 사용자의 경우 90.64%가 프로필 위치에서 주로 트윗을 작성한 것으로 나타났다. 이러한 분석 결과를 통해 사용자 위치정보의 신뢰성 수준을 알 수 있었으며, 이 결과는 추후 트위터의 위치정보를 활용하는 응용을 개발할 때 참고할 수 있을 것으로 기대한다.
We have observed huge success in social network services like Facebook and Twitter, and many researchers have done their analysis on these services. As massive data observed by users is produced on Twitter, many researchers have been conducting research to detect an event on Twitter. Some of them de...
We have observed huge success in social network services like Facebook and Twitter, and many researchers have done their analysis on these services. As massive data observed by users is produced on Twitter, many researchers have been conducting research to detect an event on Twitter. Some of them developed a system to detect the earthquakes or to find the local festivals. However, they did not consider the credibility of location information on Twitter although their systems were using the location information. In this paper, we analyze the credibility of the profile location and the correlation between the spatial attributes on Twitter as the preliminary research of the event detection system on Twitter. We analyzed 0.5 million Twitter users in Korea and 2.8 million users around the world. 49.73% of the users in Korea and 90.64% of the users in the world posted tweets in their profile locations. This paper will be helpful to understand the credibility of the spatial attributes on Twitter when the researchers develop an application using them.
We have observed huge success in social network services like Facebook and Twitter, and many researchers have done their analysis on these services. As massive data observed by users is produced on Twitter, many researchers have been conducting research to detect an event on Twitter. Some of them developed a system to detect the earthquakes or to find the local festivals. However, they did not consider the credibility of location information on Twitter although their systems were using the location information. In this paper, we analyze the credibility of the profile location and the correlation between the spatial attributes on Twitter as the preliminary research of the event detection system on Twitter. We analyzed 0.5 million Twitter users in Korea and 2.8 million users around the world. 49.73% of the users in Korea and 90.64% of the users in the world posted tweets in their profile locations. This paper will be helpful to understand the credibility of the spatial attributes on Twitter when the researchers develop an application using them.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
1) 이 논문은 트위터에서 사용자가 제공한 위치정보의 신뢰성을 분석하였다.
본 논문에서는 트위터 사용자의 프로필 위치 정보와 트윗이 작성된 위치정보 사이의 관계 분석을 통하여, 사용자가 제공한 프로필 위치가 어느 정도 신뢰성을 가지는지 확인하였다. 기존의 이벤트 감지에 대한 연구들은 단순히 사용자의 위치정보를 이용할 뿐 그에 대한 신뢰도가 어느 정도 수준인지 확인하지 않았기 때문에, 본 연구의 결과는 트위터에서 위치정보를 사용하는 응용을 개발할 때 연구의 기반을 제시해 줄 수 있을 것으로 기대한다.
하지만 이러한 점을 고려하지 않을 경우 이벤트 감지 시스템의 성능에 대한 객관적인 판단이 불가능하기 때문에, 연구 결과의 신뢰성을 확보하기 위해서는 트위터 사용자의 위치정보에 대한 신뢰성 분석이 선행되어야만 한다. 본 연구에서는 이러한 목적을 위해 실제 수집한 방대한 양의 데이터 분석을 통해, 트위터 위치정보의 신뢰성을 조사하였다.
우리는 이 실험에서 트위터 사용자 프로필에 입력된 위치와 트윗이 실제로 작성된 위치의 관계를 조사하기 위해 각 사용자별로 동일한 위치에서 작성된 트윗들끼리 그룹핑 한 다음 프로필의 위치가 어느 그룹과 매칭되는지 알아보았다. 우선 표 1과 같이 수집한 데이터를 이용하여 “사용자ID#프로필위치#트윗작성위치”의 형태로 문자열을 생성하였다.
제안 방법
2) 국내 트위터 사용자와 해외 사용자의 위치정보에 대한 신뢰성을 비교하였다.
3) 일반적인 거리 기반 클러스터링 기법이 아닌 행정구역 구분을 고려한 클러스터링 방법을 고안하여 실험을 수행하였다.
2011년 새롭게 변경된 트위터 API는 트위터 데이터에 대한 애플리케이션의 시간당 접근 횟수를 제한하기 때문에 이 실험에서는 28대의 클라이언트 서버를 이용하여 계정과 트윗을 수집하였다. 데이터의 수집을 위해 그림 3과 같은 단순한 형태의 트위터 사용자 수집기 (crawler)를 구현하였는데, 시드(seed)로 입력된 사용자의 팔로워(follower) 정보를 XML 형태로 가져온 다음 데이터베이스에 저장하였다.
이들의 실험결과는 전체적으로 약 80% 이상의 재현율 (recall), 60% 이상의 정확도(precision), 70% 이상의 F-Value값을 가졌다. 두 번째 실험으로 해당 트윗들이 작성된 위치정보를 기준으로 Kalman Filter와 Particle Filter를 적용하여 지진이 발생한 진원을 예측하였다. 실험에서는 Particle Filter를 이용한 것이 진원을 예측하는데 좋은 성능을 보여주었다.
그러나 표 3과 같은 예에서 사용자 51267은 프로필 위치와 Top-1이 일치하지만, 31개의 트윗을 남긴 Top-1 이외의 그룹을 고려할 경우 29개의 트윗을 남긴 “경기도_성남시”에서 가장 많은 트윗을 남겼다고 말할 수 없다. 따라서 우리는 각 Top-k의 신뢰도를 분석하기 위해 각 계정의 트윗이 그룹핑 된 후 각 Top-k 마다 몇 개의 트윗이 분류되었는지 해당 계정의 전체 트윗에 대한 비율을 계산해 보았다.
본 논문에서는 트위터에서 사용자가 제공한 프로필 위치정보와 트윗에 포함된 트윗 작성위치의 관계 분석을 통해 프로필 위치의 신뢰성을 분석하였다. 이러한 분석은 보편화되고 있는 위치정보 기반의 응용[14,15]에 소셜 정보를 적용할 때, 결과물의 신뢰성 확보를 위해 필수적이다.
앞의 실험에서는 동일한 위치에서 작성된 트윗들끼리 그룹핑한 다음 프로필의 위치가 어느 그룹과 매칭되는지 알아보았다. 하지만 이는 전체 계정 중 프로필의 위치에서 가장 많은 트윗을 남긴 Top-1계정의 비율을 통해 프로필 위치와 트윗 위치의 정확도만을 확인한 것으로 Top-1 이외의 나머지 그룹은 고려하지 않았다.
위의 과정을 통해 잘 정의된 프로필 위치정보와 트윗 위치정보를 모두 가진 계정을 선별하고, 프로필의 위치와 정리된 트윗 위치를 비교하여 서로 일치하는 것이 Top-k중 어떤 그룹에 속하는지를 확인하였다. 그림 7의 결과를 보면 국내 사용자 중 Top-1과 Top-2 그룹에 속한 사용자의 비율이 약 63%(각각 49.
그들은 지진 감지 시스템인 Toretter를 개발하였는데, ‘earthquake’와 ‘shake’를 검색할 단어로 미리 지정해두고 해당 키워드가 갑자기 빈번해지는 지역을 실시간으로 감지하였다. 이 시스템을 통해 두 가지 중요한 실험을 했는데, 우선 각 단어의 검색 결과에 대해 의미론적 분석을 시도했다. 이 의미론적 분석은 트윗에 언급된 ‘earthquake’와 ‘shake’가 지진 때문인지, 아니면 다른 문맥에서 사용된 단어인지를 가려냈다.
그 다음 이 문자열 목록을 동일한 것들끼리 병합하고 병합된 문자열의 개수에 따라 표 2와 같이 정렬 하였다. 이처럼 정렬된 목록을 기반으로 각 사용자별 프로필의 위치가 정렬된 트윗 작성위치의 몇 번째(k) 그룹에 포함되는지를 확인하여 Top-k 그룹으로 분류하였다. 예를 들어 표 2의 예에서 사용자 10001은 프로필의 위치가 “서울시_양천구”인데, 양천구에서 가장 많은 트윗을 작성했기 때문에 이 사용자는 Top-1 그룹에 포함되었다.
트위터 사용자가 제공한 위치정보의 신뢰성을 분석하기 위해 프로필의 위치정보와 트윗 작성위치를 비교하였다. 이 실험에는 두 개의 데이터셋이 사용되었는데, 첫 번째는 Lee 등의 논문[9, 11]에서 사용된 국내 사용자 계정 52만개에 대해 Search API를 이용 하여 수집한 해당 사용자의 전체 트윗 1,113만개이고 (한국인 계정 데이터셋), 두 번째는 @ladygaga 계정의 팔로워로 구성된 해외 사용자 계정 280만개에서 Streaming API를 이용하여 수집한 트윗 87만개이다 (레이디가가 데이터셋).
대상 데이터
트위터에서 사용자의 위치정보를 수집하기 위해서는 먼저 사용자 계정을 수집해야 한다. 2011년 새롭게 변경된 트위터 API는 트위터 데이터에 대한 애플리케이션의 시간당 접근 횟수를 제한하기 때문에 이 실험에서는 28대의 클라이언트 서버를 이용하여 계정과 트윗을 수집하였다. 데이터의 수집을 위해 그림 3과 같은 단순한 형태의 트위터 사용자 수집기 (crawler)를 구현하였는데, 시드(seed)로 입력된 사용자의 팔로워(follower) 정보를 XML 형태로 가져온 다음 데이터베이스에 저장하였다.
또한 트위터의 컨텐츠에 해당하는 트윗에는 각 트윗을 작성한 위치를 선택적으로 추가할 수 있는데, [geo]태그에 좌표 형태로 포함되거나 [place]태그에 지명 형태로 포함될 수 있다. 국내 트위터 사용자만을 추려내기 위해 데이터 수집단계에서부터 [location]태그의 GPS 좌표가 대한민국 좌표범위 내에 있거나 한글 유니코드가 하나 이상 들어있는 계정을 별도로 수집하였다.
이 실험에는 두 개의 데이터셋이 사용되었는데, 첫 번째는 Lee 등의 논문[9, 11]에서 사용된 국내 사용자 계정 52만개에 대해 Search API를 이용 하여 수집한 해당 사용자의 전체 트윗 1,113만개이고 (한국인 계정 데이터셋), 두 번째는 @ladygaga 계정의 팔로워로 구성된 해외 사용자 계정 280만개에서 Streaming API를 이용하여 수집한 트윗 87만개이다 (레이디가가 데이터셋). 레이디가가 데이터셋은 2011년 12월 26일부터 2012년 1월 25일까지 한 달 동안 수집하였다. 이 두 개의 데이터셋에서 실험에 사용할 수 있도록 잘 정의된 프로필 위치정보를 가진 사용자만 선별하고, 다시 트윗 작성위치가 GPS 좌표로 포함된 트윗 작성자를 걸러냈다.
트위터 사용자가 제공한 위치정보의 신뢰성을 분석하기 위해 프로필의 위치정보와 트윗 작성위치를 비교하였다. 이 실험에는 두 개의 데이터셋이 사용되었는데, 첫 번째는 Lee 등의 논문[9, 11]에서 사용된 국내 사용자 계정 52만개에 대해 Search API를 이용 하여 수집한 해당 사용자의 전체 트윗 1,113만개이고 (한국인 계정 데이터셋), 두 번째는 @ladygaga 계정의 팔로워로 구성된 해외 사용자 계정 280만개에서 Streaming API를 이용하여 수집한 트윗 87만개이다 (레이디가가 데이터셋). 레이디가가 데이터셋은 2011년 12월 26일부터 2012년 1월 25일까지 한 달 동안 수집하였다.
이 실험을 위해 트위터에서 제공하는 Search API 를 이용하여 수집한 52 만개 이상의 국내 사용자 계정과 Streaming API를 이용하여 수집한 280만개 이상의 해외 사용자 계정을 분석하였다. 그 결과 국내 사용자의 경우 49.
성능/효과
1%의 신뢰도를 가진 L2 정보를 확보할 수 있다는 점을 알 수 있었다. 같은 방법으로 레이디가가 데이터셋을 분석 하면 84.9%의 신뢰도를 가진 L2 정보를 확보할 수 있음을 알 수 있었다. 이러한 비교를 통해 프로필에 위치정보가 없는 국내 사용자는 트윗의 위치정보만으로 해당 사용자의 정확한 위치정보를 판단하는데 어려움이 있지만, 해외 사용자의 경우는 비교적 믿을 만한 위치정보를 가져올 수 있다는 점을 유추할 수있었다.
특히 국내 사용자의 경우 해외 사용자보다 항상 두 배 이상 많은 트윗 작성위치를 가지고 있었으며, 국내 사용자 Top-6 이상의 그룹을 모두 포함한 Top-others의 경우 무려 12개 이상의 서로 다른 위치를 가지는 것을 알 수 있었다. 결과적으로 트윗 작성위치의 수는 k가 증가함에 따라 점점 늘어나고, 이러한 사실을 통해 더 다양한 지역에서 트윗을 작성하는 사용자일수록 프로필 위치정보의 신뢰성이 낮아진다는 점을 유추할 수 있 었다.
실험 결과에 따르면, 전체적으로 국내 사용자보다는 해외 사용자의 위치정보가 더 높은 신뢰성을 가지는 것으로 나타났다. 국내 사용자의 50%는 프로필의 위치에서 가장 많은 트윗을 작성하지만 동시에 약 30%의 사용자는 프로필 위치에서 작성한 트윗이 전혀 없는 것으로 나타났다. 반면 해외 사용자의 경우에는 약 90%의 사용자가 프로필 위치에서 가장 많은 트윗을 작성하는 것으로 나타났다.
다음으로는 단 하나의 트윗도 프로필 위치와 일치 하지 않는 None 그룹을 제외한 나머지 그룹에 대해 몇개씩의 지역을 가지는지 확인해보았고, 그 결과는 그림 8과 같다. 국내 사용자의 경우 Top-1 그룹은 평균 3.6개의 트윗 작성위치를 가지는데 반해, 해외 사용자의 경우 Top-1 그룹은 평균 1.4개의 트윗 작성위치를 가지는 것으로 나타났다. 특히 국내 사용자의 경우 해외 사용자보다 항상 두 배 이상 많은 트윗 작성위치를 가지고 있었으며, 국내 사용자 Top-6 이상의 그룹을 모두 포함한 Top-others의 경우 무려 12개 이상의 서로 다른 위치를 가지는 것을 알 수 있었다.
이 실험을 위해 트위터에서 제공하는 Search API 를 이용하여 수집한 52 만개 이상의 국내 사용자 계정과 Streaming API를 이용하여 수집한 280만개 이상의 해외 사용자 계정을 분석하였다. 그 결과 국내 사용자의 경우 49.73%가, 해외 사용자의 경우 90.64%가 프로필 위치에서 주로 트윗을 작성한 것으로 나타났다. 본 논문의 의의는 다음과 같다.
반면 해외 사용자의 경우에는 약 90%의 사용자가 프로필 위치에서 가장 많은 트윗을 작성하는 것으로 나타났다. 또한 각 Top-k 그룹별 트윗 작성위치의수 k를 분석한 결과 k가 증가하면 트윗 작성위치의 수도 점점 늘어남을 알 수 있다. 이를 통해 다양한 지역에서 트윗을 작성하는 사용자는 이벤트의 위치정보를 판단하기 위한 데이터에서 배제하는 것이 더나은 결과를 가져올 것으로 예측할 수 있었다.
이러한 결과는 한국이 전 세계 평균의 10배, 전체 23위에 해당할 만큼 인구밀도가 높아 실제 거주지역과 활동지역이 다른 유동인구가 많기 때문으로 판단된다[13]. 많은 사람들이 프로필 위치에 회사나 학교의 위치보다는 주거지의 위치를 입력하는 경우가 많다는 점을 고려하면, 국내 사용자의약 절반 정도는 주거지에서 가장 많은 트윗을 작성하지만, 30%정도의 사용자는 프로필에 입력한 위치에 전혀 인접하지 않은 다른 위치에서 주로 트윗을 작성한다는 사실을 알 수 있었다. 레이디가가 데이터셋의 경우 모든 데이터가 Top-4 이내에 속하였고, None 그룹에 포함된 사용자가 전혀 없었다.
그림 5는 한글 유니코드가 포함된 계정의 샘플이다. 수집한 사용자의 수는 GPS 좌표를 기준으로 수집한 사용자의 수와 거의 비슷하였지만, 정확한 위치를 입력한 사용자의 비율이 매우 낮아 실험에 사용할 수 있는 데이터의 수가 매우 적었다. 그림 5의 예에서볼 수 있듯이 1개 이상의 위치를 입력한 사용자들이나 “지구별”과 같이 위치정보로써 사용될 수 없는 무의미한 정보들이 다수를 차지하였다.
그림 5의 예에서볼 수 있듯이 1개 이상의 위치를 입력한 사용자들이나 “지구별”과 같이 위치정보로써 사용될 수 없는 무의미한 정보들이 다수를 차지하였다. 실제로 수집한 데이터에서 [location]태그의 내용에 한글 유니코드를 포함한 사용자들 중 약 3%정도에서만 시/도및 구/군 단위까지 포함한 비교적 정확한 정보를 추출할 수 있었다. 이러한 문제점은 사용자 위치정보를 이용하는 응용시스템을 개발할 때 해결해야 할 어려움 중 하나이다.
이러한 분석은 보편화되고 있는 위치정보 기반의 응용[14,15]에 소셜 정보를 적용할 때, 결과물의 신뢰성 확보를 위해 필수적이다. 실험 결과에 따르면, 전체적으로 국내 사용자보다는 해외 사용자의 위치정보가 더 높은 신뢰성을 가지는 것으로 나타났다. 국내 사용자의 50%는 프로필의 위치에서 가장 많은 트윗을 작성하지만 동시에 약 30%의 사용자는 프로필 위치에서 작성한 트윗이 전혀 없는 것으로 나타났다.
두 번째 실험으로 해당 트윗들이 작성된 위치정보를 기준으로 Kalman Filter와 Particle Filter를 적용하여 지진이 발생한 진원을 예측하였다. 실험에서는 Particle Filter를 이용한 것이 진원을 예측하는데 좋은 성능을 보여주었다. 그러나 지진보다 넓은 범위를 포함하는 태풍 멜로르(Melor) 의 진행경로를 예측한 결과는 그림 1과 같이 인구밀도가 높고 트위터 사용자가 많은 도심지에 가까운 형태로 이동경로가 예측되는 모습을 보였다.
이 의미론적 분석은 트윗에 언급된 ‘earthquake’와 ‘shake’가 지진 때문인지, 아니면 다른 문맥에서 사용된 단어인지를 가려냈다. 이들의 실험결과는 전체적으로 약 80% 이상의 재현율 (recall), 60% 이상의 정확도(precision), 70% 이상의 F-Value값을 가졌다. 두 번째 실험으로 해당 트윗들이 작성된 위치정보를 기준으로 Kalman Filter와 Particle Filter를 적용하여 지진이 발생한 진원을 예측하였다.
8%임을 말한다. 이로써 우리는 사용자로부터 L2의 정보를 가져올 수 없을 때, 해당 사용자를 가장 많은 계정이 속한 Top1 그룹으로 가정하고 트윗을 분석하면 그림7(49.73%)과 그림 9(78.80%)의 결과에 의해 39.1%의 신뢰도를 가진 L2 정보를 확보할 수 있다는 점을 알 수 있었다. 같은 방법으로 레이디가가 데이터셋을 분석 하면 84.
또한 각 Top-k 그룹별 트윗 작성위치의수 k를 분석한 결과 k가 증가하면 트윗 작성위치의 수도 점점 늘어남을 알 수 있다. 이를 통해 다양한 지역에서 트윗을 작성하는 사용자는 이벤트의 위치정보를 판단하기 위한 데이터에서 배제하는 것이 더나은 결과를 가져올 것으로 예측할 수 있었다. 이러한 점들을 종합적으로 고려할 때, 본 논문의 결과는 트위터에서 추출된 이벤트의 정확성을 판단할 수 있는 기초적인 정보를 제공할 뿐만 아니라, 추출된 이벤트 위치의 정확성을 향상시키는데 도움이 될 것으로 기대한다.
4개의 트윗 작성위치를 가지는 것으로 나타났다. 특히 국내 사용자의 경우 해외 사용자보다 항상 두 배 이상 많은 트윗 작성위치를 가지고 있었으며, 국내 사용자 Top-6 이상의 그룹을 모두 포함한 Top-others의 경우 무려 12개 이상의 서로 다른 위치를 가지는 것을 알 수 있었다. 결과적으로 트윗 작성위치의 수는 k가 증가함에 따라 점점 늘어나고, 이러한 사실을 통해 더 다양한 지역에서 트윗을 작성하는 사용자일수록 프로필 위치정보의 신뢰성이 낮아진다는 점을 유추할 수 있 었다.
후속연구
4) 본 논문의 결과는 트위터의 위치정보를 이용하는 응용을 개발할 때 기반이 되는 연구로써 활용될 수 있다.
본 논문에서는 트위터 사용자의 프로필 위치 정보와 트윗이 작성된 위치정보 사이의 관계 분석을 통하여, 사용자가 제공한 프로필 위치가 어느 정도 신뢰성을 가지는지 확인하였다. 기존의 이벤트 감지에 대한 연구들은 단순히 사용자의 위치정보를 이용할 뿐 그에 대한 신뢰도가 어느 정도 수준인지 확인하지 않았기 때문에, 본 연구의 결과는 트위터에서 위치정보를 사용하는 응용을 개발할 때 연구의 기반을 제시해 줄 수 있을 것으로 기대한다.
이를 통해 다양한 지역에서 트윗을 작성하는 사용자는 이벤트의 위치정보를 판단하기 위한 데이터에서 배제하는 것이 더나은 결과를 가져올 것으로 예측할 수 있었다. 이러한 점들을 종합적으로 고려할 때, 본 논문의 결과는 트위터에서 추출된 이벤트의 정확성을 판단할 수 있는 기초적인 정보를 제공할 뿐만 아니라, 추출된 이벤트 위치의 정확성을 향상시키는데 도움이 될 것으로 기대한다. 특히, 국가적 수준의 이벤트 보다는 교통사고나 화재 같은 지역적 수준의 이벤트를 추출할때 더 도움이 될 것이다.
특히, 국가적 수준의 이벤트 보다는 교통사고나 화재 같은 지역적 수준의 이벤트를 추출할때 더 도움이 될 것이다. 향후 연구에서는 본 논문의 결과를 실제 이벤트 감지 시스템에 적용하여 어느정도의 성능을 가져올 수 있는지 확인해야한다.
질의응답
핵심어
질문
논문에서 추출한 답변
트위터의 가장 중요한 속성 중 하나는 무엇인가요?
2010년에 발표된 Takeshi 등의 연구는 트위터의 가장 중요한 속성 중 하나인 현재성을 활용하여 트위터 데이터가 실시간으로 동작하는 소셜 센서 데이터로써 다루어질 수 있음을 보여주었다. 그들은 지진 감지 시스템인 Toretter를 개발하였는데, ‘earthquake’와 ‘shake’를 검색할 단어로 미리 지정해두고 해당 키워드가 갑자기 빈번해지는 지역을 실시간으로 감지하였다.
트위터에서 사용자의 위치정보를 수집하기 위해서는 무엇을 수집해야 하나요?
트위터에서 사용자의 위치정보를 수집하기 위해서는 먼저 사용자 계정을 수집해야 한다. 2011년 새롭게 변경된 트위터 API는 트위터 데이터에 대한 애플리케이션의 시간당 접근 횟수를 제한하기 때문에이 실험에서는 28대의 클라이언트 서버를 이용하여 계정과 트윗을 수집하였다.
본 논문에서 단문서비스인 트위터의 데이터를 연구하며 생긴 문제점은 무엇인가요?
Meenakshi 등의 연구는 트위터의 사용자들이 실제 발생한 사건들을 관심있게 다루고 있음을 실제로 확인했다는 점에 의미가 있다. 트위터의 데이터는 블로그 데이터와는 다르게 140자의 단문으로 이루어져 있기 때문에 내용 전체의 맥락을 고려하여 이벤트를 추출해내는 것이 쉽지 않다는 문제점이 있다. 대신 사용자의 프로필에 기본 위치를 설정할 수 있고, 스마트폰을 이용해서 트윗을 작성하게 되면 GPS 좌표를 위치정보로 포함할 수 있다는 점을 고려할 수 있다.
참고문헌 (15)
A. Chowdhury, Global Pulse, http://blog.twitter.com/2011/06/global-pulse.html, 2011.
N. K. Cheblb and R. M. Sohall, "The Reasons Social Media Contributed to the 2011 Egyptian Revolution," Int'l Journal of Business Research and Management, Vol. 2, Issue 3, pp. 139-162, 2011.
T. Sakaki, M. Okzaki, and Y. Matsuo, "Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors," Proc. of the 19th Int'l Conf. on World Wide Web, pp. 851-860, 2010.
M. Nagarajan, K. Gomadam, A. P. Sheth, A. Ranabahu, R. Mutharaju, and A. Jadhav, "Spatio-Temporal-Thematic Analysis of Citizen Sensor Data: Challenges and Experiences," Proc. of the 10th Int'l Conf. on Web Information Systems Engineering, LNCS, Vol. 5802, pp. 539-553, 2009.
J. Russell, Japan Overtakes Indonesia as Biggest Twitter User in Asia, http://www.asiancorrespondent.com, 2011.
이범석, 김석중, 최우성, 장경훈, 윤진영, 황병연, "트위터에서 사용자 위치와 트윗 작성위치의 관계분석," 제28회 한국멀티미디어학회 추계학술대회논문집, 제14권, 제2호, pp. 1-3, 2011.
R. Lee and K. Sumiya, "Measuring Geographical Regularities of Crowd Behaviors for Twitter-based Geo-social Event Detection," Proc. of the 2nd ACM SIGSPATIAL Int'l Workshop on Location Based Social Networks, pp. 1-10, 2010.
Bumsuk Lee and Byung-Yeon Hwang, "A Study of the Correlation between the Spatial Attributes on Twitter," Proc. of the 28th IEEE Int'l Conf. on Data Engineering Workshop on Spatio Temporal data Integration and Retrieval, 2012.
Version 1.0 야후! 주소 ${\leftrightarrow}$ 좌표 변환 API, http://kr.open.gugi.yahoo.com/document/geocooder.php, 2011.
List of sovereign states and dependent territories by population density, http://en.wikipedia.org/wiki/List_of_sovereign_states_and_dependent_territories_by_population_density, 2012.
윤혜진, 창병모, "위치 인식을 이용한 음식점 추천 시스템의 설계 및 구현", 멀티미디어학회논문지, 제14권, 제1호, pp. 112-120, 2011.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.