$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

위치기반 소셜 미디어 데이터의 텍스트 마이닝 기반 공간적 클러스터링 분석 연구
Spatial Clustering Analysis based on Text Mining of Location-Based Social Media Data 원문보기

한국지형공간정보학회지 = Journal of the korean society for geospatial information science, v.23 no.2, 2015년, pp.89 - 96  

박우진 (서울대학교 환경정화기술 및 위해성평가 연구센터) ,  유기윤 (서울대학교 건설환경공학부)

초록
AI-Helper 아이콘AI-Helper

위치기반 소셜 미디어 데이터는 빅데이터, 위치기반서비스 등 다양한 분야에서 활용가능성이 매우 큰 데이터이다. 본 연구에서는 위치기반 소셜 미디어 데이터의 텍스트 정보를 분석하여 주요한 키워드들이 공간적으로 어떻게 분포하고 있는지를 파악할 수 있는 일련의 분석방법론을 적용해보았다. 이를 위해, 위치태그를 지닌 트윗 데이터를 서울시 강남지역과 그 주변지역에 대하여 2013년 8월 한달 간 수집하였으며, 이 데이터를 대상으로 하여 텍스트 마이닝을 통해 주요 키워드들을 도출하였다. 이러한 키워드들 중 음식, 엔터테인먼트, 업무 및 공부의 세 카테고리에 해당하는 키워드들만 추출, 분류하였으며 각 카테고리에 해당하는 트윗 데이터들에 대해서 공간적 클러스터링을 실시하였다. 도출된 각 카테고리별 클러스터들을 실제 그 지역의 건물 또는 벤치마크 POI들과 비교한 결과, 음식 카테고리 클러스터는 대규모 상업지역들과 일치도가 높았고 엔터테인먼트 카테고리의 클러스터는 공연장, 극장, 잠실운동장 등과 일치하였다. 업무 및 공부 카테고리 클러스터들은 학원 밀집지역 및 사무용 빌딩 밀집지역과 높은 일치도를 나타내었다.

Abstract AI-Helper 아이콘AI-Helper

Location-based social media data have high potential to be used in various area such as big data, location based services and so on. In this study, we applied a series of analysis methodology to figure out how the important keywords in location-based social media are spatially distributed by analyzi...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이에 본 연구에서는 위치기반 소셜미디어 데이터로부터 중요한 키워드들을 텍스트 마이닝 기법을 통해 추출하고 이를 카테고리화 함으로써 대상지역에 대한 키워드들이 가지는 지역적 의미를 살펴보고자 하였다. 또한, 이들 키워드들의 공간적 분포 패턴을 살펴보고 이를 통해 특정 지역에서 어떤 키워드들이 주로 소셜 미디어 데이터상에 나타나는지를 파악하고 이러한 분석 패턴이 그 지역의 주요한 벤치마크와 어떠한 연관성이 있는지 비교할 수 있는 일련의 분석방법론을 적용해보고자 하였다.
  • 본 연구에서는 위치기반 소셜 미디어 데이터로부터 텍스트 정보를 분석함으로써, 주요한 키워드를 도출하고, 이러한 키워드들을 담고 있는 메시지들이 공간적으로 어떻게 분포하고 있는지 살펴보고자 하였다. 이에 대한 결론은 다음과 같다.
  • 본 연구에서는 위치태그를 포함하는 트위터 데이터를 대상으로 하여 서울시 강남지역(강남구, 서초구 등)에 대한 주요 키워드를 추출하고 키워드들을 카테고리화한 후, 각 카테고리에 해당하는 트윗 데이터의 공간적인 분포를 분석하고, 이러한 분포와 그 지역의 주요한 벤치마크 POI(Point of Interest)와 어떠한 연관이 있는지 살펴보고자 하였다.
  • 본 절에서는 트윗 데이터의 텍스트 정보들에 대하여 텍스트 마이닝 기법을 적용함으로써 주요한 키워드를 도출하고 카테고리화하는 과정을 서술하였다. 본 연구에서 적용한 텍스트 마이닝 기법은 연구자가 직접 Java와 Matlab을 통해 구현한 프로그램 코드에 의해 실행되었다.
  • 이에 본 연구에서는 위치기반 소셜미디어 데이터로부터 중요한 키워드들을 텍스트 마이닝 기법을 통해 추출하고 이를 카테고리화 함으로써 대상지역에 대한 키워드들이 가지는 지역적 의미를 살펴보고자 하였다. 또한, 이들 키워드들의 공간적 분포 패턴을 살펴보고 이를 통해 특정 지역에서 어떤 키워드들이 주로 소셜 미디어 데이터상에 나타나는지를 파악하고 이러한 분석 패턴이 그 지역의 주요한 벤치마크와 어떠한 연관성이 있는지 비교할 수 있는 일련의 분석방법론을 적용해보고자 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
Trendsmap의 장단점은 무엇인가? LBSNS 관련 서비스 중 Trendsmap2) 은 미국 내에서 지역별로 이용자들 사이에서 많이 언급되고 있는 키워 드를 보여주는 기능을 제공하고 있으나 카운티 단위의 넓은 지역에 대한 시각화를 제공하여 세부적인 지역에 대해서는 파악하기 어렵다는 한계점을 가지고 있다. 유사한 사례로 San Diego State University의 Center for Human Dynamics in the Mobile Age에서 개발한 Geoviewer3) 서비스를 들 수 있는데 이 서비스는 실시간으로 위치태그를 가지고 있는 트윗 데이터를 공간적으로 지도화하고 핫스팟과 그에 해당하는 주요 키워드를 3개씩 뽑아서 시각화하고 있으나 불용어(stopwords) 제거를 하지 않았기 때문에 추출된 키워드들은 큰 의미를 담지 못하는 일반적인 단어(예를 들어, “we”, “I’m”, “can” 등)가 대부분이다.
기존의 소셜 미디어 데이터의 공간적 분포 패턴에 대해 분석한 사례들은 어떤 한계점을 가지는가? (2010)의 연구에서는 일본 지역 내에서의 지진의 발생과 트위터 데이터의 공간적 분포 패턴 간의 유사성 및 시간적 추이를 분석하여 지진이 발생할 위치를 예측하는 모델을 개발한 바 있다. 그러나 이러한 사례들은 단순한 키워드로 관련 데이터를 필터링하여 발생빈도를 시공간적으로 분석하는 데에만 그치고 있어 다각도의 텍스트 마이닝 기법을 적용하지는 않은 한계가 있다.
공간적 클러스터링 기법에는 어떤 것들이 있는가? 위의 절에서 재분류된 트윗 데이터들에 대하여 공간적 클러스터링을 실시하였다. 공간적 클러스터링 기법에는 계층적 클러스터링, 비계층적 클러스터링, 밀도 기반의 클러스터링, 격자기반 클러스터링 등 다양한 기법들이 개발되어 왔다(Kang et al., 2004).
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. Chae, J., Thom, D., Bosch, H., Jang, Y., Maciejewski, R., Ebert, D. and Ertl, T., 2012, Spatiotemporal social media analytics for abnormal event detection using seasonal-trend decomposition, Proceedings of IEEE Conference on Visual Analytics Science and Technology, IEEE, pp. 143-152. 

  2. Choi, H. and Yom, J., 2014, Implementation of webGIS for integration of GIS spatial Analysis and social network analysis, Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography, Vol. 32, No. 2, pp. 95-107. 

  3. Gerber, S., 2014, Predicting crime using Twitter and kernel density estimation, Decision Support Systems, Vol. 61, pp. 115-125. 

  4. Ghosh, D. and Guha, R., 2013, What are we 'tweeting' about obesity? Mapping tweets with topic modeling and Geographic Information System, Cartography and Geographic Information Science, Vol. 40, No. 2, pp. 90-102. 

  5. Java, A., Song, X., Finin, T. and Tseng, B., 2007, Why we Twitter: understanding microblogging usage and communities, Proceedings of WebKDD/ SNAKDD 2007, ACM, pp. 56-65. 

  6. Kang, N., Kang, J and Yong, H., 2004, Performance comparison of clustering techniques for spatio-temporal data, Journal of Intelligence and Information Systems, Vol. 10, No. 2, pp. 15-37. 

  7. Kim, M. and Park, S., 2014, Construction and application of POI database with spatial relations using SNS, Journal of Korea Spatial Information Society, Vol. 22, No. 4, pp. 21-38. 

  8. Kouloumpis, E., Wilson, T. and Moore, J., 2011, Twitter sentiment analysis: The good the bad and the OMG! Proceedings of ICWSM 2011, AAAI, pp. 538-541. 

  9. Mardia, K. and Kent, J., 1979, Multivariate Analysis, Academic Press. 

  10. Mei, Q., Liu, C., Su, H. and Zhai, C., 2006, A probabilistic approach to spatiotemporal theme pattern mining on weblogs, Proceedings of the 15th international conference on World Wide Web, ACM, pp. 533-542. 

  11. Park, W., Eo, S. and Yu, K., 2015, Analyzing spatial correlation between location-based social media data and real estates price index through rasterization, Journal of the Korean Society for Geo-Spatial Information System, Vol. 23, No. 1, pp. 23-29. 

  12. Qu, Z. and Liu, Y., 2011, Interactive group suggesting for Twitter, Proceedings of HLT 2011, ACL, pp. 519-523. 

  13. Sakaki, T., Okazaki, M. and Matsuo, Y., 2010, Earthquake shakes Twitter users: real-time event detection by social sensors, Proceedings of the 19th International Conference on World Wide Web, ACM. 

  14. San Diego State University, Center for Human Dynamics in the Mobile Age, 2015, GeoViewer, http://vision.sdsu.edu/hdma/geoviewer 

  15. Shin, J., 2004, Research on areal interpolation methods and error measurement techniques for reorganizing incompatible regional data units, Journal of the Korean Association of Regional Geographers, Vol. 10, No. 2, pp. 389-406. 

  16. Trendsmap solutions, 2009, Trendsmap, http://trendsmap.com 

  17. Wang, Z. and Muller, J., 1998, Line generalization based on analysis of shape characteristics, Cartography and Geographic Information Systems, Vol. 25, No. 1, pp. 3-15. 

  18. Widener, J. and Li, W., 2014, Using geolocated Twitter data to monitor the prevalence of healthy and unhealthy food references across the US, Applied Geography, Vol. 54, pp. 189-197. 

  19. Yu, K., 1998, Generalization of point feature in digital map through point pattern analysis, Journal of GIS Association of Korea, Vol. 6, No. 1, pp. 11-23. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로