현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.
현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.
People are nowadays creating a tremendous amount of data on Social Network Service (SNS). In particular, the incorporation of SNS into mobile devices has resulted in massive amounts of data generation, thereby greatly influencing society. This is an unmatched phenomenon in history, and now we live i...
People are nowadays creating a tremendous amount of data on Social Network Service (SNS). In particular, the incorporation of SNS into mobile devices has resulted in massive amounts of data generation, thereby greatly influencing society. This is an unmatched phenomenon in history, and now we live in the Age of Big Data. SNS Data is defined as a condition of Big Data where the amount of data (volume), data input and output speeds (velocity), and the variety of data types (variety) are satisfied. If someone intends to discover the trend of an issue in SNS Big Data, this information can be used as a new important source for the creation of new values because this information covers the whole of society. In this study, a Twitter Issue Tracking System (TITS) is designed and established to meet the needs of analyzing SNS Big Data. TITS extracts issues from Twitter texts and visualizes them on the web. The proposed system provides the following four functions: (1) Provide the topic keyword set that corresponds to daily ranking; (2) Visualize the daily time series graph of a topic for the duration of a month; (3) Provide the importance of a topic through a treemap based on the score system and frequency; (4) Visualize the daily time-series graph of keywords by searching the keyword; The present study analyzes the Big Data generated by SNS in real time. SNS Big Data analysis requires various natural language processing techniques, including the removal of stop words, and noun extraction for processing various unrefined forms of unstructured data. In addition, such analysis requires the latest big data technology to process rapidly a large amount of real-time data, such as the Hadoop distributed system or NoSQL, which is an alternative to relational database. We built TITS based on Hadoop to optimize the processing of big data because Hadoop is designed to scale up from single node computing to thousands of machines. Furthermore, we use MongoDB, which is classified as a NoSQL database. In addition, MongoDB is an open source platform, document-oriented database that provides high performance, high availability, and automatic scaling. Unlike existing relational database, there are no schema or tables with MongoDB, and its most important goal is that of data accessibility and data processing performance. In the Age of Big Data, the visualization of Big Data is more attractive to the Big Data community because it helps analysts to examine such data easily and clearly. Therefore, TITS uses the d3.js library as a visualization tool. This library is designed for the purpose of creating Data Driven Documents that bind document object model (DOM) and any data; the interaction between data is easy and useful for managing real-time data stream with smooth animation. In addition, TITS uses a bootstrap made of pre-configured plug-in style sheets and JavaScript libraries to build a web system. The TITS Graphical User Interface (GUI) is designed using these libraries, and it is capable of detecting issues on Twitter in an easy and intuitive manner. The proposed work demonstrates the superiority of our issue detection techniques by matching detected issues with corresponding online news articles. The contributions of the present study are threefold. First, we suggest an alternative approach to real-time big data analysis, which has become an extremely important issue. Second, we apply a topic modeling technique that is used in various research areas, including Library and Information Science (LIS). Based on this, we can confirm the utility of storytelling and time series analysis. Third, we develop a web-based system, and make the system available for the real-time discovery of topics. The present study conducted experiments with nearly 150 million tweets in Korea during March 2013.
People are nowadays creating a tremendous amount of data on Social Network Service (SNS). In particular, the incorporation of SNS into mobile devices has resulted in massive amounts of data generation, thereby greatly influencing society. This is an unmatched phenomenon in history, and now we live in the Age of Big Data. SNS Data is defined as a condition of Big Data where the amount of data (volume), data input and output speeds (velocity), and the variety of data types (variety) are satisfied. If someone intends to discover the trend of an issue in SNS Big Data, this information can be used as a new important source for the creation of new values because this information covers the whole of society. In this study, a Twitter Issue Tracking System (TITS) is designed and established to meet the needs of analyzing SNS Big Data. TITS extracts issues from Twitter texts and visualizes them on the web. The proposed system provides the following four functions: (1) Provide the topic keyword set that corresponds to daily ranking; (2) Visualize the daily time series graph of a topic for the duration of a month; (3) Provide the importance of a topic through a treemap based on the score system and frequency; (4) Visualize the daily time-series graph of keywords by searching the keyword; The present study analyzes the Big Data generated by SNS in real time. SNS Big Data analysis requires various natural language processing techniques, including the removal of stop words, and noun extraction for processing various unrefined forms of unstructured data. In addition, such analysis requires the latest big data technology to process rapidly a large amount of real-time data, such as the Hadoop distributed system or NoSQL, which is an alternative to relational database. We built TITS based on Hadoop to optimize the processing of big data because Hadoop is designed to scale up from single node computing to thousands of machines. Furthermore, we use MongoDB, which is classified as a NoSQL database. In addition, MongoDB is an open source platform, document-oriented database that provides high performance, high availability, and automatic scaling. Unlike existing relational database, there are no schema or tables with MongoDB, and its most important goal is that of data accessibility and data processing performance. In the Age of Big Data, the visualization of Big Data is more attractive to the Big Data community because it helps analysts to examine such data easily and clearly. Therefore, TITS uses the d3.js library as a visualization tool. This library is designed for the purpose of creating Data Driven Documents that bind document object model (DOM) and any data; the interaction between data is easy and useful for managing real-time data stream with smooth animation. In addition, TITS uses a bootstrap made of pre-configured plug-in style sheets and JavaScript libraries to build a web system. The TITS Graphical User Interface (GUI) is designed using these libraries, and it is capable of detecting issues on Twitter in an easy and intuitive manner. The proposed work demonstrates the superiority of our issue detection techniques by matching detected issues with corresponding online news articles. The contributions of the present study are threefold. First, we suggest an alternative approach to real-time big data analysis, which has become an extremely important issue. Second, we apply a topic modeling technique that is used in various research areas, including Library and Information Science (LIS). Based on this, we can confirm the utility of storytelling and time series analysis. Third, we develop a web-based system, and make the system available for the real-time discovery of topics. The present study conducted experiments with nearly 150 million tweets in Korea during March 2013.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터 이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS 는 먼저 Hadoop 과 MongoDB 를 사용하여 빅데이터를 실시간으로 처리 및 저장하고, 둘째로 토픽 모델링을 통해 키워드 빈도수를 기반으로 하는 기존의 이슈 트래킹과 차별점을 두었다.
본 연구에서는 트위터에서 생성되는 방대한 양의 텍스트 데이터를 효과적으로 실시간 처리하고, 토픽 모델링을 통한 이슈 추출과 이의 시각화 기능을 특징으로 하는 TITS 를 개발하였다. 본 연구를 위한 실험 데이터는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013 년 3월 한국어 트위터 데이터를 대상으로 한다.
가설 설정
Kim and Chung(2012)의 연구에서는 위키피디아 데이터를 사용하여 검색어에 대한 대체어(annotation) 기능을 넣어 검색의 성능 향상을 이루었다. 본 연구에서도 위키피디아 데이터에서 개체명 항목을 추출하여 이를 이슈 키워드에 가중치로 부여하였다.
제안 방법
본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터 이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS 는 먼저 Hadoop 과 MongoDB 를 사용하여 빅데이터를 실시간으로 처리 및 저장하고, 둘째로 토픽 모델링을 통해 키워드 빈도수를 기반으로 하는 기존의 이슈 트래킹과 차별점을 두었다. 마지막으로 분석 결과를 시각화 하여 웹 페이지를 통해 이용자 GUI 환경을 구축했다.
특히 [Figure 7]에서는 특정 토픽이 다음 날짜의 다른 토픽과 선으로 연결되어 있는 것을 볼 수 있는데, 이런 Line 그래프를 통해 토픽의 시계열성을 파악할 수 있다. TITS 시스템의 토픽 간 연결은 토픽 모델링 알고리즘에서 제공 하는 토픽 간의 유사도 점수를 통해 구현하였다.
d3.js의 treemap 라이브러리를 활용하여 매일의 이슈 키워드를 토픽 점수와 키워드 빈도수에 따라 두 종류로 시각화 하였다. 토픽 점수는 [Table 2]와 같이 토픽 모델링 알고리즘을 통한 단어 별 토픽점수에 3.
js, Bootstrap 라이브러리를 이용해 반응형 웹 페이지를 구축하여 분석 결과를 나타내었다. 각 페이지에서는 토픽의 시계열 분석, 특정 날짜의 주요 토픽, 주요 토픽을 구성하는 이슈 키워드 등을 한눈에 제공하고 적절한 컨텐츠 배치를 통해 이용자에게 트위터 상의 이슈를 쉽고 직관적으로 파악할 수 있게 하였다. 각 기능별 상세 내용은 다음 장에서 살펴본다.
기본적인 전처리 과정을 거친 후, RT 된 횟수가 많으면 많을수록 해당 날짜의 이슈와 연관될 가능성이 높기 때문에 날짜 별로 RT 트윗에서 사용한 키워드를 따로 추출하여 출현 빈도 순으로 정렬 하였다. 이후 중요도를 처리하기 위하여 정리된 단어들에 RT 횟수를 기반으로 한 정규화된 가중치를 부여하였다.
org/) 에 저장한다. 다음 단계로 Twitter Stop word Removal 모듈로 트위터 본문에 대한 전처리 (Pre-Processing) 과정을 수행하고, Twitter Word Count By Date 모듈로 일별 출현 단어의 빈도수를 계산한다. 이와 같은 전처리 과정을 거친 데이터에 LDA 토픽 모델링 알고리즘을 적용하여 이슈 토픽을 추출하고 RT 와 위키피디아에서 추출한 키워드와 비교하여 일치하는 키워드에 가중치를 부여하여 순위를 매긴다.
먼저 실험 데이터가 GMT 0 시를 기준으로 수집되었기 때문에 날짜 별 이슈 추출을 위해서 한국 시간인 GMT 9 시를 적용하여 일별로 정리했고, 트윗 본문에서 space 를 기준으로 single token 으로 분리하여, 각 단어들의 단순 출현 빈도와 한 트윗에서의 동시 출현 빈도를 계산하였다. 다음으로 날짜 별로 출현 빈도가 1 인 단어는 불용어로 취급하여 삭제하였고, Open Source 인 Lucene Arirang 형태소 분석기(http://sourceforge.net/projects/lucenekorean/)를 사용하여 명사/명사추정(고유명사)으로 판정되지 않는 단어들을 전부 삭제하였다. 그 이유는 이슈가 될 수 있는 주제어나 키워드는 기본적으로 그 품사가 명사라고 가정하였기 때문이다.
키워드의 빈도수를 기반으로 하는 기존 이슈 트래킹에서는, 토픽의 스토리텔링 및 시간에 따른 토픽의 변화 양상에 대한 분석이 어렵다는 한계가 있다. 따라서 본 연구에서는 Hadoop을 기반으로 토픽 모델링을 가능하게 한 Open Source, hadoop-lda Library 에 TF*IDF(Term Frequency*Inverse Document Frequency) 가중치를 추가하여 적용하였다. 정제를 위한 전처리 과정을 거친 각 단어의 주제 확률 분포를 계산해 일별 50개의 토픽으로 단어들을 분류하고 이중 실제 이슈와 일치하는 토픽 10개를 선정하였다.
[Figure 7]은 토픽 모델링 수행 결과로 추출한 50개 토픽 중, 일별 상위 점수의 토픽 10개를 선정하고, 각 토픽 간의 유사도를 계산하여 한달간 주요 토픽의 변화 양상을 Line 그래프로 시각화하였다. 또한 각 토픽을 정치, 사회, 연예, 스포츠, 일상의 5개 카테고리로 범주화하고 색을 다르게 부여하여 변화 양상을 쉽게 확인할 수 있게 구현하였다. 특히 [Figure 7]에서는 특정 토픽이 다음 날짜의 다른 토픽과 선으로 연결되어 있는 것을 볼 수 있는데, 이런 Line 그래프를 통해 토픽의 시계열성을 파악할 수 있다.
이후 중요도를 처리하기 위하여 정리된 단어들에 RT 횟수를 기반으로 한 정규화된 가중치를 부여하였다. 또한 인명, 지명, 회사명 등의 고유명사에 가중치를 주기 위해 한국 위키피디아(http://dumps.wikimedia.org/kowiki/)의 항목명 데이터 44 만개 가량을 추출하여 일치하는 단어에는 가중치를 적용했다. 이를 사용한 이유는 선행연구에서 살펴보았듯, 위키피디아 항목명과 일치한 단어는 분명 고유명사 혹은 의미를 지닌 명사일 가능성이 높기 때문이다.
TITS 는 먼저 Hadoop 과 MongoDB 를 사용하여 빅데이터를 실시간으로 처리 및 저장하고, 둘째로 토픽 모델링을 통해 키워드 빈도수를 기반으로 하는 기존의 이슈 트래킹과 차별점을 두었다. 마지막으로 분석 결과를 시각화 하여 웹 페이지를 통해 이용자 GUI 환경을 구축했다. 특히 Open Source 라이브러리를 활용하여, 부트스트랩으로 반응형 웹을 구현 하였고 d3.
먼저 실험 데이터가 GMT 0 시를 기준으로 수집되었기 때문에 날짜 별 이슈 추출을 위해서 한국 시간인 GMT 9 시를 적용하여 일별로 정리했고, 트윗 본문에서 space 를 기준으로 single token 으로 분리하여, 각 단어들의 단순 출현 빈도와 한 트윗에서의 동시 출현 빈도를 계산하였다. 다음으로 날짜 별로 출현 빈도가 1 인 단어는 불용어로 취급하여 삭제하였고, Open Source 인 Lucene Arirang 형태소 분석기(http://sourceforge.
본 TITS 시스템에서는 데이터 분석 결과를 웹페이지를 통해 시각화하고 이용자 GUI 를 구현하기 위해서 Open Source 인 d3.js, Bootstrap 라이브러리를 이용해 반응형 웹 페이지를 구축하여 분석 결과를 나타내었다. 각 페이지에서는 토픽의 시계열 분석, 특정 날짜의 주요 토픽, 주요 토픽을 구성하는 이슈 키워드 등을 한눈에 제공하고 적절한 컨텐츠 배치를 통해 이용자에게 트위터 상의 이슈를 쉽고 직관적으로 파악할 수 있게 하였다.
본 연구에서는 Hadoop과 MongoDB를 기반으로 토픽 모델링을 수행하여 빅데이터를 빠른 속도로 분석할 수 있었다. 기존의 연구 환경에서는 빅데이터를 빠르게 처리하기 어려운데, 특히 Twitter 등 SNS 상에서 데이터가 항상 실시간으로 발생하기 때문에 기존 방법론으로는 처리하기 곤란한 수준의 데이터가 축적되고 있다.
Hadoop 은 기존의 Single-Node Computing 으로는 처리할 수 없는 방대한 양의 데이터를 처리할 수 있도록 설계되었기 때문에, 빅데이터 연구와 활용에 가장 많이 사용되고 있다. 본 연구에서는 트위터 빅데이터의 전처리 과정부터 토픽 모델링 알고리즘을 통한 이슈 추출에까지 전 과정에서 사용되었다.
(2011)은 소셜미디어에서의 정보 확산에 대한 기존의 학문적 지식을 증대 시키고 실무적으로 기업이 고객과 소통하는 데 있어 소셜미디어를 어떻게 전략적으로 활용할 수 있는가에 대한 실질적인 방향을 제시했다. 본 연구에서도 소셜미디어 중 사회 변화에 가장 빠르게 반응하는 트위터 데이터를 활용하여 사회적인 이슈를 추출하는데 사용하였다.
Kim(2013)은 트위터 상에서 리트윗 행위를 하는 이유에 대해 연구하였는데, 그 결과 리트윗의 이유로 두드러지는 것은 공감과 공유를 통한 자기 만족의 가치였고, 이를 위해서 화제성과 정보성이 포함된 트윗 메시지들을 리트윗하는 경향이 많다는 것을 밝혔다. 본 연구에서도 이슈 키워드를 선정하는데 있어 리트윗 횟수를 반영하여 가중치를 두었다.
또한, 추출된 토픽 간의 유사도를 계산하여 시간에 따른 토픽의 변화를 시계열로 추적할 수 있었다. 셋째, 연구 실험을 바탕으로 이를 실제 사용 가능한 시스템으로 구현하였다. 시각화와 웹 페이지 구축을 위하여 Open Source인 Tomcat Servlet, d3.
절에서 제시한 가중치를 적용하여 계산하였다. 이 treemap에서는 10개 토픽 그룹 별로 색깔을 다르게 하여 구분했고, 각 그룹에 속하는 10개 키워드 역시 토픽 점수와 키워드 빈도수에 비례하여 map의 크기가 달라지도록 구현하였다. 이는 모두 이용자에게 키워드의 중요성을 한 눈에 파악할 수 있도록 정보 전달력을 높이기 위한 방법이다.
다음 단계로 Twitter Stop word Removal 모듈로 트위터 본문에 대한 전처리 (Pre-Processing) 과정을 수행하고, Twitter Word Count By Date 모듈로 일별 출현 단어의 빈도수를 계산한다. 이와 같은 전처리 과정을 거친 데이터에 LDA 토픽 모델링 알고리즘을 적용하여 이슈 토픽을 추출하고 RT 와 위키피디아에서 추출한 키워드와 비교하여 일치하는 키워드에 가중치를 부여하여 순위를 매긴다. 최종적으로 분석한 결과를 웹 시스템으로 구축, 시각화해서 보여준다.
이와 같이 3월 한달 간의 트위터 데이터를 대상으로 일별 토픽 모델링을 통해 추출한 이슈 키워드들을 그룹화하여 각 그룹의 주제에 가장 적합한 범주화 과정을 수행하였고, 이 결과가 유의미한지 확인해 보기 위하여 실제 뉴스 기사와 비교해 보았다. 예를 들어, [Table 3] 에서 3월 8일 북한, 전쟁 등의 이슈 키워드가 추출되어 이를 ‘사회’라는 주제로 범주화 시켰고, 해당일의 실제 뉴스 기사를 검색해본 결과 동일한 내용이라고 판단되는 기사가 있는지 확인하였다.
기본적인 전처리 과정을 거친 후, RT 된 횟수가 많으면 많을수록 해당 날짜의 이슈와 연관될 가능성이 높기 때문에 날짜 별로 RT 트윗에서 사용한 키워드를 따로 추출하여 출현 빈도 순으로 정렬 하였다. 이후 중요도를 처리하기 위하여 정리된 단어들에 RT 횟수를 기반으로 한 정규화된 가중치를 부여하였다. 또한 인명, 지명, 회사명 등의 고유명사에 가중치를 주기 위해 한국 위키피디아(http://dumps.
2. 절에서 제시한 가중치를 적용하여 계산하였다. 이 treemap에서는 10개 토픽 그룹 별로 색깔을 다르게 하여 구분했고, 각 그룹에 속하는 10개 키워드 역시 토픽 점수와 키워드 빈도수에 비례하여 map의 크기가 달라지도록 구현하였다.
마지막으로 분석 결과를 시각화 하여 웹 페이지를 통해 이용자 GUI 환경을 구축했다. 특히 Open Source 라이브러리를 활용하여, 부트스트랩으로 반응형 웹을 구현 하였고 d3.js 로 그래프를 시각화하여 직관적인 컨텐츠 배치를 통한 이용자 편의를 고려하였다.
대상 데이터
빅데이터가 이슈가 되면서 방대한 데이터를 분석하는 것뿐만 아니라 분석한 데이터를 이용자에게 알기 쉽게 보여주기 위한 시각화의 중요성도 점점 커지고 있다. 본 시스템에서는 시각화를 위한 도구로 d3.js(http://d3js.org/) 라이브러리를 사용하였다. d3.
본 연구에서는 트위터에서 생성되는 방대한 양의 텍스트 데이터를 효과적으로 실시간 처리하고, 토픽 모델링을 통한 이슈 추출과 이의 시각화 기능을 특징으로 하는 TITS 를 개발하였다. 본 연구를 위한 실험 데이터는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013 년 3월 한국어 트위터 데이터를 대상으로 한다. [Figure 1]은 전체 시스템을 도식화해서 보여주는데, 30GB 분량의 원 데이터(Raw Data)를 Tweet JSON Analyzer By Date 모듈을 사용하여 일별로 정리하고 이를 해쉬태그, 멘션을 주고 받은 이용자, rt, url, 본문 5 종류로 parsing 하여 55GB 데이터를 MongoDB(http://www.
따라서 본 연구에서는 Hadoop을 기반으로 토픽 모델링을 가능하게 한 Open Source, hadoop-lda Library 에 TF*IDF(Term Frequency*Inverse Document Frequency) 가중치를 추가하여 적용하였다. 정제를 위한 전처리 과정을 거친 각 단어의 주제 확률 분포를 계산해 일별 50개의 토픽으로 단어들을 분류하고 이중 실제 이슈와 일치하는 토픽 10개를 선정하였다.
성능/효과
그러나 Hadoop과 MongoDB는 막대한 하드웨어 비용 없이도 충분히 빅데이터를 처리할 수 있는 Framework를 제공하고 있고, 이는 데이터의 실시간 처리가 중요해지고 있는 현재 매우 의미가 크다 할 수 있다. 둘째, 문헌정보학 뿐 아니라 다양한 분야에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 이의 유용성을 확인할 수 있었다. 이슈를 단순 키워드로 표현하는 기존 방식에 비하여, 토픽 모델링 기법은 이슈를 단어 집합으로 추출하여 사건에 대해서 하나의 연결된 이야기로 이해할 수 있게 한다.
셋째, 연구 실험을 바탕으로 이를 실제 사용 가능한 시스템으로 구현하였다. 시각화와 웹 페이지 구축을 위하여 Open Source인 Tomcat Servlet, d3.js, 부트스트랩 라이브러리를 사용하였고, 이를 통해 이용자 GUI 환경을 구축하여 소셜미디어 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다. 추후 연구 과제로, 명사 추출의 정확성을 높이기 위한 NER(Named Entity Recognition) 기법 적용과 기계 학습을 통한 자동 범주화 기능에 관한 연구를 수행하고자 한다.
js 는 임의의 데이터를 문서 객체 모델(DOM)과 결합시켜 데이터 기반 문서 (Data-Driven Documents)를 작성하기 위한 목적으로 만들어져서, 데이터간의 상호작용이 용이하고 데이터의 흐름을 부드러운 애니메이션으로 처리 하여 실시간 데이터를 다루는데 유용하다. 이 라이브러리를 사용하여 복잡한 데이터를 빠르게 이해하기 위한 데이터 시각화 부분을 CSS3, HTML5, SVG 라는 웹 표준을 통해 쉽게 할 수 있었다.
이를 사용한 이유는 선행연구에서 살펴보았듯, 위키피디아 항목명과 일치한 단어는 분명 고유명사 혹은 의미를 지닌 명사일 가능성이 높기 때문이다. 이 조건을 만족하는 단어들이 다른 단어들에 비해 더 많은 출현치를 획득할 수 있도록 가중치를 높게 설정하였고, 이를 통해 RT 출현 빈도가 높고, 위키피디아에 등재된 단어가 이슈 키워드 중 높은 순위에 올라올 수 있도록 보정하였다. 다음 [Table 1]은 RT 에서 추출한 상위 10 개 단어와 그 빈도수의 일부분이다.
예를 들어, [Table 3] 에서 3월 8일 북한, 전쟁 등의 이슈 키워드가 추출되어 이를 ‘사회’라는 주제로 범주화 시켰고, 해당일의 실제 뉴스 기사를 검색해본 결과 동일한 내용이라고 판단되는 기사가 있는지 확인하였다. 이를 통해 트위터 데이터에 대한 토픽 모델링 결과가 실제 현실의 이슈를 반영한다는 것을 확인할 수 있었고, 또한 기존의 빈도수 기반 키워드 순위 나열 방식에서 벗어나 토픽 별로 유사한 단어를 그룹화하여 보여줌으로써 이용자에게 사건을 하나의 이야기로 전달하는 스토리텔링의 가능성을 보여주었다. [Table 3]에 제시한 일별 토픽과 키워드의 스토리텔링을 실제 기사에서 확인한 예는 [Figure 2], [Figure 3], [Figure 4]에서 확인할 수 있다.
(2013)은 토픽 모델링 기법을 신문 데이터에 적용하여 오피니언 마이닝을 수행하였는데, 이를 통해 토픽 모델링 기법이 트위터 데이터 이외에도 일반적인 기사 데이터 분석에 사용할 수 있음을 보였다. 이상의 연구들을 통해, 토픽 모델링 기법이 SNS 빅데이터 환경에서 토픽을 분석하고 주제어를 도출하는데 유용함을 확인할 수 있었고, 본 연구에서도 3 월 한달 간 일별로 변화하는 트위터 상 이슈를 추출함에 있어 토픽 모델링 기법을 사용하여 정확한 토픽의 변화 양상을 추적하였다.
후속연구
js, 부트스트랩 라이브러리를 사용하였고, 이를 통해 이용자 GUI 환경을 구축하여 소셜미디어 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다. 추후 연구 과제로, 명사 추출의 정확성을 높이기 위한 NER(Named Entity Recognition) 기법 적용과 기계 학습을 통한 자동 범주화 기능에 관한 연구를 수행하고자 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
토픽 모델링은 무엇인가?
토픽 모델링은 Blei et al.(2003)의 LDA(Latent Dirichlet Allocation) 알고리즘을 기반으로 한 절차적 확률 분포 모델로, 텍스트 마이닝 영역에서 사용하는 연구 방법론이다. 어떤 주제들의 집합이라고 가정된 한 문헌을 구성하는 단어들을 확률적으로 계산하여, 이 결과 값을 토픽 주제어들의 집합으로 추출하는 알고리즘이다. Ryu et al.
소셜미디어는 무엇인가?
wikipedia.org/wiki/소셜미디어)는 개방, 참여, 공유의 가치로 요약되는 웹 2.0시대의 도래에 따라 개인의 생각이나 의견, 경험, 정보 등을 서로 공유하고 타인과의 관계를 생성 또는 확장시킬 수 있는 개방화된 온라인 플랫폼을 의미한다. 소셜미디어는 양방향성을 활용하여 이용자들이 자발적으로 참여하고 정보를 공유하며 컨텐츠를 만들어 나가는 특성이 있고, 일반적으로 사람과 사람, 또는 사람과 정보를 연결하고 상호 작용할 수 있는 서비스를 제공한다.
개발한 TITS 시스템이 제공하는 기능은?
1) 토픽 모델링 결과를 일별 토픽 10개, 각 토픽당 이슈 키워드 10개로 제공.
2) 토픽 간의 유사도를 계산하여 일별 변화를 시계열 그래프로 시각화.
3) 키워드마다 계산된 토픽으로서의 중요도를 점수와 빈도수에 따른 Treemap으로 구현.
4) 마지막으로 검색 기능을 구현하여, 각 키워드 별 토픽 점수에 따른 일별 트랜드를 시계열 그래프로 시각화.
Bae, J. H., J. E. Son, and M. Song, "Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques," Journal of Intelligence and Information Systems, Vol.19, No.3(2013), 141-156.
Bae et al.(2013)은 2012 년 대선 당시의 트위터 데이터를 수집 후, 토픽 모델링 기법으로 각 후보 별 이슈를 분석하는 연구를 수행하였다.
Bae, S. J. and Y. J. Ko, "Automatic Construction of Korean Named Entity Dictionaries from Wikipedia," Proceedings of Korea Computer Congress, (2009), 78-79.
또한, 소셜미디어 데이터를 효과적으로 처리하기 위한 기법적인 측면의 연구들도 활발한데 Byeon et al.(2011)은 트위터에서 이슈 키워드를 도출하는 연구를 수행하면서 형태소 분석을 통해 기본적으로 명사만 남긴 후 그 빈도수를 기준으로 추출하였다.
Han, S. H., "Thesaurus Updating Using Collective Intelligence: Based on Wikipedia Encyclopedia," Journal of the Korean Society for Information Management, Vol.26, No.3(2009), 25-43.
Han(2009)의 연구는 위키피디아에서 추출한 단어가 시소러스를 작성하는데 사용해도 될 정도로 학술적임을 증명하였다.
Jin, S. A., G. E. Heo, Y. K. Jeong, and M. Song, "Topic-Network based Topic Shift Detection on Twitter," Journal of the Korean Society for Information Management, Vol.30, No.1(2013), 285-302.
Jin et al.(2013)은 토픽 모델링 기법을 사용하여 특정 키워드 중심의 네트워크를 연결하고 시계열에 따른 토픽 변화를 추적함으로써 토픽 모델링 기법이 빠르게 변화하는 소셜미디어 상의 토픽을 추적하는데 효과적임을 제안하였다.
Kang, B. I., M. Song, and W. S. Jho, "A Study on Opinion Mining of Newspaper Texts based on Topic Modeling," Journal of the Korean Library and Information Science Society, Vol.47, No.4(2013), 315-334.
Kang et al.(2013)은 토픽 모델링 기법을 신문 데이터에 적용하여 오피니언 마이닝을 수행하였는데, 이를 통해 토픽 모델링 기법이 트위터 데이터 이외에도 일반적인 기사 데이터 분석에 사용할 수 있음을 보였다.
Kim, H. D., "Message Attributes, Consequences, and Values in Retweet Behavior : Based on Laddering Method," The Journal of the Korea Contents Association, Vol.13, No.3(2013), 131-140.
Kim(2013)은 트위터 상에서 리트윗 행위를 하는 이유에 대해 연구하였는데, 그 결과 리트윗의 이유로 두드러지는 것은 공감과 공유를 통한 자기 만족의 가치였고, 이를 위해서 화제성과 정보성이 포함된 트윗 메시지들을 리트윗하는 경향이 많다는 것을 밝혔다.
Kim, H. j., I. S. Son, and D. W. Lee, "The Viral Effect of Online Social Network on New Products Promotion : Investigating Information Diffusion on Twitter," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 107-130.
Kim, Y. H. and Y. M. Chung, "An Experimental Study on Feature Selection Using Wikipedia for Text Categorization," Journal of the Korean Society for Information Management, Vol.29, No.2(2012), 155-171.
Kim and Chung(2012)의 연구에서는 위키피디아 데이터를 사용하여 검색어에 대한 대체어(annotation) 기능을 넣어 검색의 성능 향상을 이루었다.
Nam, Y. W., I. S. Son, and D. W. Lee, "The Impact of Message Characteristics on Online Viral Diffusion in Online Social Media Services : The Case of Twitter," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 75-94.
Ryu, W. J., J. W. Ha, Md. Hijbul Alam, and S. K. Sang, "Extracting Trends from Twitter using a Topic Modeling Technique," Proceedings of Korea Computer Congress, (2013), 191-193.
Ryu et al.(2013)의 연구에서는 토픽 모델링 기법을 사용해 트위터 트렌드를 분석한 결과 키워드 빈도수 기반의 방법에 비하여 보다 효과가 우수함을 확인하였다.
Sohn, J. S., S. W. Cho, K. L. Kwon, and I. J. Chung, "Improved Social Network Analysis Method in SNS," Journal of Intelligence and Information Systems, Vol.18, No.4(2012), 117-127.
ALL IDC research, Consumers and the Digital Universe, EMC, 2014. Available at http://www.emc.com/infographics/digital-universe-consumer-infographic.htm.
IDC, IDC, Big Data technologies and services worldwide market forecast $ 32.4 billion in 2017, IDC, 2014. Available at http://www.idckorea.com/product/Getdoc.asp?idx585&fieldPressRelease.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.