[논문]트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출

이경순

doi:10.3745/ktsde.2012.1.1.069

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출
Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.1 no.1, 2012년, pp.69 - 74

초록
AI-Helper

인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

Abstract ▼ AI-Helper

Many internet users attempt to focus on the issues which have posted on social network services in a very short time. When some social big issue or event occurred, it will affect the number of comments and retweet on that day in twitter. In this paper, we propose the method of extracting core events based on timeline analysis, sentiment feature and retweet information in twitter data. To validate our method, we have compared the methods using only the frequency of words, word frequency with sentiment analysis, using only chi-square method and using sentiment analysis with chi-square method. For justification of the proposed approach, we have evaluated accuracy of correct answers in top 10 results. The proposed method achieved 94.9% performance. The experimental results show that the proposed method is effective for extracting core events in twitter corpus.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 어느 특정 이슈에 관한 트위터 데이터에서 그 이슈에 사건이 발생 했을 경우 트윗의 개수가 크게 증가하고 감성 표현이 많다는 관찰을 통해 시간 자질과 감성 자질을 이용한 사건 추출 방법을 제안하였다. 핵심 사건을 추출 하는 방법으로는 어휘 빈도수 만을 이용한 방법, 어휘 빈도수, 리트윗 및 감성 자질을 함께 이용한 방법, 카이제곱만을 이용한 방법, 어휘 빈도수, 리트윗 및 감성 자질과 카이제곱을 함께 이용한 방법으로 비교실험을 하였다.
본 논문에서는 이슈에 대한 감정이 표현된 핵심 사건 어휘를 추출하기 위해 시간상에서 트윗 및 리트윗에 포함된 어휘 분포의 변화를 측정한다.
본 연구에서는 리트윗 행태는 일반 내용에 대한 공감이라기 보다 이슈가 되는 사건에 대한 트윗의 내용에 자신의 공감을 표현하고 전파하기 위한 것으로 보고, 리트윗이 많이된 트윗 문서에 나타난 어휘들의 중요도를 높여준다.

가설 설정

본 논문에서는 트위터 자료의 분석을 통해서 다음 3가지의 특성을 이용하였다. 1) 트윗 개수의 증가 현상이 두드러지는 것이다. 하나의 사회적 이슈에 대해 트위터 데이터를 시간별로 분석해 보면 그 이슈에 대한 어떠한 사건(event)이 일어나지 않았을 때는 트윗 개수가 어느 수준 이하의 수를 유지하다가, 그 이슈에 특정 사건이 일어났을 때, 특히 사회적인 이슈로 발전되었을 때는 사람들은 그에 대한 관심이 폭발적으로 증가하게 되고 그 결과는 트윗 개수의 급격한 증가로 나타나게 된다.

제안 방법

각 시간별로 바이그램으로 추출된 자질들을 어휘 빈도수를 계산하여 큰 값부터 순위화하였다. 빈도수를 이용하여 기본 자질들을 추출한다.
기본 자질 추출을 위해 수집된 트위터 데이터를 형태소 분석기를 이용해 형태소 분석을 한 뒤, 불용어(Stop-Words)와 불필요한 URL정보를 제거하였다. 불용어의 제거는 네이버 실시간 검색어에서 무작위로 100개의 질의어를 추출, 트위터를 통해 검색하여 각 최대 100개의 트윗을 수집하였다.
본 논문에서 사용한 감성 어휘는 윌슨 사전(Wilson lexicon)[12]에서 강한 감성 자질만을 추출하여 구글 번역기 API를 통해 한국어로 번역한 뒤, 사람이 직접 판단하여 한국어 감성 표현에 적합한 강한 긍정과 강한 부정을 나타내는 감성 자질 1192개를 구축하였다. Table 1은 감성 사전에 대한 정보를 나타낸다.
Popescu[7]는 이벤트 및 그 이벤트에 대한 설명을 추출하기 위해 감독 분류기(Supervised Classification method)와 긍정, 부정, 중립으로 구성된 감정 사전을 이용하였다. 본 논문에서는 강한 긍정 및 강한 부정으로 구성되어 있는 감성 어휘 사전 및 감성 기호 리스트를 이용하였다.
본 논문에서는 트위터 자료의 분석을 통해서 다음 3가지의 특성을 이용하였다. 1) 트윗 개수의 증가 현상이 두드러지는 것이다.
본 논문은 이러한 트위터 특성에 초점을 맞추어 핫 이슈들을 대상으로 트위터 데이터를 수집한 뒤, 이를 시간별로 분석하여 각각의 이슈에 사건이 발생함을 인식하고 보다 효과적인 자질 추출을 위해 시간별 어휘 빈도수, 감성 자질, 리트윗 개수, 그리고 시간상에서의 핵심어휘 분포 변화를 반영하기 위해 카이제곱(Chi Square)값을 사용하여 이슈에 대한 핵심 사건을 추출하였다.
비교 실험을 위해서 수집된 각 이슈의 트위터 데이터에 대해서 각 날짜별로 기본 자질들을 추출하고, 그 자질들에 대해 어휘 빈도수에 따라 각 자질들을 순위화한 것을 비교실험의 기준으로 하였다. 어휘 빈도수로 추출한 사건 어휘 후보들 중에서 상위 50개의 자질들을 선택하여 각 방법에 따라 재순위화 하였다.
성능 평가는 추출된 사건 어휘들 중에서 상위 10개 자질에 대한 정답포함율로 평가하였다. 예를 들어, 1/3은 상위 10개 자질에서 3개의 정답 자질 중에서 1개를 포함한 것을 나타낸다.
비교 실험을 위해서 수집된 각 이슈의 트위터 데이터에 대해서 각 날짜별로 기본 자질들을 추출하고, 그 자질들에 대해 어휘 빈도수에 따라 각 자질들을 순위화한 것을 비교실험의 기준으로 하였다. 어휘 빈도수로 추출한 사건 어휘 후보들 중에서 상위 50개의 자질들을 선택하여 각 방법에 따라 재순위화 하였다. 비교 실험 방법은 다음과 같다.
트윗 개수가 아주 많거나 카이제곱 계산에서 아주 높은 값을 나타낸 경우를 발생 사건으로 인식하였다. 정답은 네이버 뉴스 검색을 이용하여 사람이 직접 판별하였다.
수집된 트위터 데이터를 형태소 분석 후 어휘 빈도수를 계산하여 총 202개의 불용어 리스트를 만들었다. 정제된 자질들에 대해 하나의 트윗 내에서 거리(window size) 3이내에 있는 어휘들의 바이그램(Bigram)을 핵심 사건 어휘 후보로 추출하였다. 예를 들어, a b c d e 어휘에 대해서, ab, ac, ad, bc, bd, be 등 두 개의 어휘로 이루어진 사건어휘가 후보로 추출된다.
트위터에서 사용자들이 글을 쓰고 리트윗하는 행태를 반영한 본 논문에서의 핵심사건 추출 방법은 수식 (6)에서와 같이 날짜별로 바이그램으로 추출한 어휘의 시간상에서의 사건 어휘를 포함한 트윗 개수의 변화 정도, 리트윗 정도 및 감정 자질과의 공기 정도를 반영한다.
본 논문에서는 어느 특정 이슈에 관한 트위터 데이터에서 그 이슈에 사건이 발생 했을 경우 트윗의 개수가 크게 증가하고 감성 표현이 많다는 관찰을 통해 시간 자질과 감성 자질을 이용한 사건 추출 방법을 제안하였다. 핵심 사건을 추출 하는 방법으로는 어휘 빈도수 만을 이용한 방법, 어휘 빈도수, 리트윗 및 감성 자질을 함께 이용한 방법, 카이제곱만을 이용한 방법, 어휘 빈도수, 리트윗 및 감성 자질과 카이제곱을 함께 이용한 방법으로 비교실험을 하였다.

대상 데이터

Fig. 1은 천안함을 질의어로 하여 2010년 11월 1일부터 2011년 3월 26일까지 트위터 내에서 검색된 자료를 수집하여 시간별로 트윗 개수를 그래프화한 자료이다. 질의어에 대한 트윗 중 특정한 사건이 일어나지 않은 대부분의 날에는 트윗 개수가 일정수준 이하로 나타나는 것을 확인할 수가 있다.
기본 자질 추출을 위해 수집된 트위터 데이터를 형태소 분석기를 이용해 형태소 분석을 한 뒤, 불용어(Stop-Words)와 불필요한 URL정보를 제거하였다. 불용어의 제거는 네이버 실시간 검색어에서 무작위로 100개의 질의어를 추출, 트위터를 통해 검색하여 각 최대 100개의 트윗을 수집하였다. 수집된 트위터 데이터를 형태소 분석 후 어휘 빈도수를 계산하여 총 202개의 불용어 리스트를 만들었다.
불용어의 제거는 네이버 실시간 검색어에서 무작위로 100개의 질의어를 추출, 트위터를 통해 검색하여 각 최대 100개의 트윗을 수집하였다. 수집된 트위터 데이터를 형태소 분석 후 어휘 빈도수를 계산하여 총 202개의 불용어 리스트를 만들었다. 정제된 자질들에 대해 하나의 트윗 내에서 거리(window size) 3이내에 있는 어휘들의 바이그램(Bigram)을 핵심 사건 어휘 후보로 추출하였다.
제안방법의 유효성을 검증하기 위해 네 개의 이슈에 대해 트위터 자료를 2010년 11월 1일부터 2011년3월 26일까지Twitter API를 이용하여 수집하였다. 각 이슈에 대한 트윗 문서 개수는 Table 4와 같다.

데이터처리

만약 그 사건이 그 이전에는 발생하지 않은 새로운 사건 또는 발생한 적이 거의 없는 사건이라면 사건 어휘에 대한 Freq(w, t0) 값이 그 이전날들의 데이터보다 폭발적으로 증가됨을 알 수 있었다. 이러한 특성을 반영하기 위해 본 논문에서는 시간 t0에서 사건 어휘자질 w의 중요도를 계산하기 위해 카이제곱을 이용하여 계산하였다. Table 3은 카이제곱 값을 계산하기 위한 분할표이다.

성능/효과

시간별로 트위터 문서 개수를 분석한 결과 어떠한 이슈에 대해 특정 사건이 발생했을 때 그 날짜의 트윗 개수는 전날에 비해 급격하게 증가하는 현상을 보였다. 만약 그 사건이 그 이전에는 발생하지 않은 새로운 사건 또는 발생한 적이 거의 없는 사건이라면 사건 어휘에 대한 Freq(w, t0) 값이 그 이전날들의 데이터보다 폭발적으로 증가됨을 알 수 있었다. 이러한 특성을 반영하기 위해 본 논문에서는 시간 t0에서 사건 어휘자질 w의 중요도를 계산하기 위해 카이제곱을 이용하여 계산하였다.
0%의 성능을 나타냈다. 모든 자질을 고려한 제안 방법인 ChiOpRtScore은 94.9%로 높은 성능을 보였다. 이는 기준 성능인 Freq에 비해 21.
시간별로 트위터 문서 개수를 분석한 결과 어떠한 이슈에 대해 특정 사건이 발생했을 때 그 날짜의 트윗 개수는 전날에 비해 급격하게 증가하는 현상을 보였다. 만약 그 사건이 그 이전에는 발생하지 않은 새로운 사건 또는 발생한 적이 거의 없는 사건이라면 사건 어휘에 대한 Freq(w, t0) 값이 그 이전날들의 데이터보다 폭발적으로 증가됨을 알 수 있었다.
실험 결과 16개 사건에 대해 상위 10개에서 정답 포함률을 평가하였을 때 본 논문에서 제안한 방법이 94.9%의 성능으로 아주 우수한 성능을 보였다. 이를 통해 카이제곱을 이용한 시간 자질과 감성 자질 및 리트윗 자질이 사건 추출에 효과적인 방법임을 알 수 있다.
비교 실험 결과는 Table 6과 같다. 실험 결과에서 Freq 방법은 73.9%, OpRtScore 방법은 74.1%으로 비슷한 성능을 보였다. 이는 어떤 이슈에 대해 사건이 발생하면 사람들은 그 이슈와 함께 사건에 대해서도 언급을 하기 때문에 트윗의 개수가 증가할수록 핵심 사건 자질들의 어휘 빈도수도 증가하게 된다.
실험 결과에서 Freq로 순위화했을 때, “연평도 포격”이라는 핵심 사건이 비교적 낮은 순위에 랭크 되어있지만, 리트윗 및 감성 자질과 함께 순위화한 OpRtScore에서는 새로운 핵심 사건인 “연평도 사건”이 추가되면서 “연평도 포격”은 순위가 올라갔음을 알 수 있다.
9%의 성능으로 아주 우수한 성능을 보였다. 이를 통해 카이제곱을 이용한 시간 자질과 감성 자질 및 리트윗 자질이 사건 추출에 효과적인 방법임을 알 수 있다.
시간상에서의 어휘 변화를 반영한 ChiSquare에서는 감성 자질과 함께 사용해서 순위화한 결과와 비슷한 결과를 보여주고 있다. 제안 방법인 리트윗 및 감성 자질과 카이제곱 값을 함께 사용한 ChiOp RtScore값으로 순위화한 결과가 가장 좋게 나오는 것을 확인할 수 있다.

후속연구

향후 연구에는 트위터 데이터를 통합하여 특정 자질의 어휘 빈도수 값에 대한 의존도를 줄이고, 기본 자질을 추출할 때 핵심어구(key-phrase)을 사용하여 보다 효과적인 핵심 사건 자질들을 추출하는 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	소셜 네트워크 서비스란 무엇인가?	사람들이 자신의 의견, 생각, 경험을 서로 공유하기 위해 사용하는 블로그, 미니홈피, 메신저 등을 소셜 네트워크 서비스(Social Network Service ; SNS)라 한다. 트위터(twitter)는 블로그의 인터페이스에 미니홈피의 인적 네트워크 형성, 메신저의 신속성을 한데 모아놓은 소셜 네트워크 서비스라고 볼 수 있다[1].
	트위터란 무엇인가?	사람들이 자신의 의견, 생각, 경험을 서로 공유하기 위해 사용하는 블로그, 미니홈피, 메신저 등을 소셜 네트워크 서비스(Social Network Service ; SNS)라 한다. 트위터(twitter)는 블로그의 인터페이스에 미니홈피의 인적 네트워크 형성, 메신저의 신속성을 한데 모아놓은 소셜 네트워크 서비스라고 볼 수 있다[1]. 하나의 트윗(tweet)을 작성시 트위터는 140자 이내 단문으로 한정 지어놓아 짧은 문장 내에 자신의 의견이나 생각을 포함하도록 유도하고 있다.
	OpRtScore 방법과 Freq 방법이 비슷한 성능을 보인 이유는 무엇인가?	1%으로 비슷한 성능을 보였다. 이는 어떤 이슈에 대해 사건이 발생하면 사람들은 그 이슈와 함께 사건에 대해서도 언급을 하기 때문에 트윗의 개수가 증가할수록 핵심 사건 자질들의 어휘 빈도수도 증가하게 된다. 따라서 리트윗 및 감성 자질이 영향을 미치치 않을 정도로 어휘 빈도수 값이 커지기 때문에 단순한 어휘 빈도수로도 핵심 사건 자질들을 효과적으로 추출할 수 있었던 것이다.

참고문헌 (14)

Naver Knowledge Dictionary, "Twitter", http://terms.naver.com/
Duhwan Lee reporter, "Revolution of 140 characters is shaking the Korea, 'the power to change the world, Twitter" http://crepasnews.com
A.-M. Popescu and M. Pennacchiotti, "Detecting Controversial Events from Twitter", In Proceedings of CIKM, 2010.
H.Sayyadi, M. Hurst, and A. Maykov. "Event Detection and Tracking in Social Streams", In Proceedings of ICWSM, 2009.
E.Benson, A.Haghighi, and R.Barzilay, "Event Discovery in Social Media Feeds" In Proceedings of ACL, 2011
A.Pak, P. Paroubek, "Twitter as a Corpus for Sentiment Analysis and Opinion Mining." In Proceedings of LREC, 2010.
A.-M. Popescu, M.Pennacchiotti, Deepa Arun Paranjpe. "Extracting events and event descriptions from Twitter", In Proceedings of WWW, 2011.
Q.Zhao, P.Mitra, and B.Chen, "Temporal and information flow based event detection from social text streams", In Proceedings of WWW, 2007.
J.Lanagan and Alan F. Smeaton, "Using Twitter to Detect and Tag Important Events in Live Sports", In Proceedings of AAAI , 2011.
Z.Yang, J.Guo, K.Cai, J.Tang, J.Li, L.Zhang, and Z. Su, "Understanding retweeting behaviors in social networks" In Proceedings of CIKM, 2010.
D.Boyd, S.Golder and G.Lotan. "Tweet, Tweet, Retweet: Conversational Aspects of Retweeting on Twitter", In Proceedings of HICSS-43 IEEE, 2010.
T. Wilson, J. Wiebe, and P. Hoffmann. "Recognizing contextual polarity in phrase-level sentiment analysis", In Proceedings of HLT/EMNLP , 2005.
J. H. Park, B. H. Kim, M. J. Lee and Y. K. Kwon, "TwitNet : Cytoscape Plugin for Visualizing Relation betweens Twitter Users", In proceedings of Korean Institute of Information Scientists and Engineers (KIISE-2010), Vol.37, No.1(D), pp.316-321, June, 2010.
B. K. Sung, J. Y. Oh and J. W. Cha, "LiveTwitter: Hot Issue Search system Based on Twitter", In proceedings of HCLT2010, 2010, pp.179-182.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출
Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출 Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

이경순 (18)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출
Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper