$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템
Twitter Issue Tracking System by Topic Modeling Techniques 원문보기 논문타임라인

지능정보연구 = Journal of intelligence and information systems, v.20 no.2, 2014년, pp.109 - 122  

배정환 (연세대학교 문헌정보학과 대학원) ,  한남기 (연세대학교 문헌정보학과 대학원) ,  송민 (연세대학교 문헌정보학과)

초록
AI-Helper 아이콘AI-Helper

현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

Abstract AI-Helper 아이콘AI-Helper

People are nowadays creating a tremendous amount of data on Social Network Service (SNS). In particular, the incorporation of SNS into mobile devices has resulted in massive amounts of data generation, thereby greatly influencing society. This is an unmatched phenomenon in history, and now we live i...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터 이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS 는 먼저 Hadoop 과 MongoDB 를 사용하여 빅데이터를 실시간으로 처리 및 저장하고, 둘째로 토픽 모델링을 통해 키워드 빈도수를 기반으로 하는 기존의 이슈 트래킹과 차별점을 두었다.
  • 본 연구에서는 트위터에서 생성되는 방대한 양의 텍스트 데이터를 효과적으로 실시간 처리하고, 토픽 모델링을 통한 이슈 추출과 이의 시각화 기능을 특징으로 하는 TITS 를 개발하였다. 본 연구를 위한 실험 데이터는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013 년 3월 한국어 트위터 데이터를 대상으로 한다.

가설 설정

  • Kim and Chung(2012)의 연구에서는 위키피디아 데이터를 사용하여 검색어에 대한 대체어(annotation) 기능을 넣어 검색의 성능 향상을 이루었다. 본 연구에서도 위키피디아 데이터에서 개체명 항목을 추출하여 이를 이슈 키워드에 가중치로 부여하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
토픽 모델링은 무엇인가? 토픽 모델링은 Blei et al.(2003)의 LDA(Latent Dirichlet Allocation) 알고리즘을 기반으로 한 절차적 확률 분포 모델로, 텍스트 마이닝 영역에서 사용하는 연구 방법론이다. 어떤 주제들의 집합이라고 가정된 한 문헌을 구성하는 단어들을 확률적으로 계산하여, 이 결과 값을 토픽 주제어들의 집합으로 추출하는 알고리즘이다. Ryu et al.
소셜미디어는 무엇인가? wikipedia.org/wiki/소셜미디어)는 개방, 참여, 공유의 가치로 요약되는 웹 2.0시대의 도래에 따라 개인의 생각이나 의견, 경험, 정보 등을 서로 공유하고 타인과의 관계를 생성 또는 확장시킬 수 있는 개방화된 온라인 플랫폼을 의미한다. 소셜미디어는 양방향성을 활용하여 이용자들이 자발적으로 참여하고 정보를 공유하며 컨텐츠를 만들어 나가는 특성이 있고, 일반적으로 사람과 사람, 또는 사람과 정보를 연결하고 상호 작용할 수 있는 서비스를 제공한다.
개발한 TITS 시스템이 제공하는 기능은? 1) 토픽 모델링 결과를 일별 토픽 10개, 각 토픽당 이슈 키워드 10개로 제공. 2) 토픽 간의 유사도를 계산하여 일별 변화를 시계열 그래프로 시각화. 3) 키워드마다 계산된 토픽으로서의 중요도를 점수와 빈도수에 따른 Treemap으로 구현. 4) 마지막으로 검색 기능을 구현하여, 각 키워드 별 토픽 점수에 따른 일별 트랜드를 시계열 그래프로 시각화.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. Bae, J. H., J. E. Son, and M. Song, "Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques," Journal of Intelligence and Information Systems, Vol.19, No.3(2013), 141-156. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    Bae et al.(2013)은 2012 년 대선 당시의 트위터 데이터를 수집 후, 토픽 모델링 기법으로 각 후보 별 이슈를 분석하는 연구를 수행하였다.

  2. Bae, S. J. and Y. J. Ko, "Automatic Construction of Korean Named Entity Dictionaries from Wikipedia," Proceedings of Korea Computer Congress, (2009), 78-79. 

    인용구절

    인용 구절

    위키피디아를 활용한 연구들 중에서, Bae and Ko(2009)는 한국 위키피디아 데이터에서 개체를 추출하여 한국어 개체명 사전을 구축하는 연구를 수행하였다.

  3. Blei, D., A. Ng, and M. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3(2003), 993-1022. 

    인용구절

    인용 구절

    토픽 모델링은 Blei et al.(2003)의 LDA(Latent Dirichlet Allocation) 알고리즘을 기반으로 한 절차적 확률 분포 모델로, 텍스트 마이닝 영역에서 사용하는 연구 방법론이다.

  4. Byeon, J. H., J. M. Oh, and N. M. Moon, "A Study on Keyword Discovery Based on Social Network Service," HCI, (2011), 471-474. 

    인용구절

    인용 구절

    또한, 소셜미디어 데이터를 효과적으로 처리하기 위한 기법적인 측면의 연구들도 활발한데 Byeon et al.(2011)은 트위터에서 이슈 키워드를 도출하는 연구를 수행하면서 형태소 분석을 통해 기본적으로 명사만 남긴 후 그 빈도수를 기준으로 추출하였다.

  5. Han, S. H., "Thesaurus Updating Using Collective Intelligence: Based on Wikipedia Encyclopedia," Journal of the Korean Society for Information Management, Vol.26, No.3(2009), 25-43. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    Han(2009)의 연구는 위키피디아에서 추출한 단어가 시소러스를 작성하는데 사용해도 될 정도로 학술적임을 증명하였다.

  6. Jin, S. A., G. E. Heo, Y. K. Jeong, and M. Song, "Topic-Network based Topic Shift Detection on Twitter," Journal of the Korean Society for Information Management, Vol.30, No.1(2013), 285-302. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    Jin et al.(2013)은 토픽 모델링 기법을 사용하여 특정 키워드 중심의 네트워크를 연결하고 시계열에 따른 토픽 변화를 추적함으로써 토픽 모델링 기법이 빠르게 변화하는 소셜미디어 상의 토픽을 추적하는데 효과적임을 제안하였다.

  7. Kang, B. I., M. Song, and W. S. Jho, "A Study on Opinion Mining of Newspaper Texts based on Topic Modeling," Journal of the Korean Library and Information Science Society, Vol.47, No.4(2013), 315-334. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    Kang et al.(2013)은 토픽 모델링 기법을 신문 데이터에 적용하여 오피니언 마이닝을 수행하였는데, 이를 통해 토픽 모델링 기법이 트위터 데이터 이외에도 일반적인 기사 데이터 분석에 사용할 수 있음을 보였다.

  8. Kim, H. D., "Message Attributes, Consequences, and Values in Retweet Behavior : Based on Laddering Method," The Journal of the Korea Contents Association, Vol.13, No.3(2013), 131-140. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    Kim(2013)은 트위터 상에서 리트윗 행위를 하는 이유에 대해 연구하였는데, 그 결과 리트윗의 이유로 두드러지는 것은 공감과 공유를 통한 자기 만족의 가치였고, 이를 위해서 화제성과 정보성이 포함된 트윗 메시지들을 리트윗하는 경향이 많다는 것을 밝혔다.

  9. Kim, H. j., I. S. Son, and D. W. Lee, "The Viral Effect of Online Social Network on New Products Promotion : Investigating Information Diffusion on Twitter," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 107-130. 

  10. Kim, Y. H. and Y. M. Chung, "An Experimental Study on Feature Selection Using Wikipedia for Text Categorization," Journal of the Korean Society for Information Management, Vol.29, No.2(2012), 155-171. 

    원문보기 상세보기 crossref 타임라인에서 보기
    인용구절

    인용 구절

    Kim and Chung(2012)의 연구에서는 위키피디아 데이터를 사용하여 검색어에 대한 대체어(annotation) 기능을 넣어 검색의 성능 향상을 이루었다.

  11. Nam, Y. W., I. S. Son, and D. W. Lee, "The Impact of Message Characteristics on Online Viral Diffusion in Online Social Media Services : The Case of Twitter," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 75-94. 

  12. Ryu, W. J., J. W. Ha, Md. Hijbul Alam, and S. K. Sang, "Extracting Trends from Twitter using a Topic Modeling Technique," Proceedings of Korea Computer Congress, (2013), 191-193. 

    인용구절

    인용 구절

    Ryu et al.(2013)의 연구에서는 토픽 모델링 기법을 사용해 트위터 트렌드를 분석한 결과 키워드 빈도수 기반의 방법에 비하여 보다 효과가 우수함을 확인하였다.

  13. Sohn, J. S., S. W. Cho, K. L. Kwon, and I. J. Chung, "Improved Social Network Analysis Method in SNS," Journal of Intelligence and Information Systems, Vol.18, No.4(2012), 117-127. 

  14. ALL IDC research, Consumers and the Digital Universe, EMC, 2014. Available at http://www.emc.com/infographics/digital-universe-consumer-infographic.htm. 

  15. IDC, IDC, Big Data technologies and services worldwide market forecast $ 32.4 billion in 2017, IDC, 2014. Available at http://www.idckorea.com/product/Getdoc.asp?idx585&fieldPressRelease. 

    인용구절

    인용 구절

    IDC(2014)가 최근 발간한 ‘전세계 빅데이터 기술 및 서비스 전망 보고서'에 따르면, 글로벌 빅데이터 기술 및 서비스 시장이 연평균(CAGR) 27%로 성장해 2017 년 324 억 달러 규모에 이를 것으로 전망된다.

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로