[논문]토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법

이상연; 이건명

doi:10.5391/jkiis.2014.24.6.640

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법
A Reply Graph-based Social Mining Method with Topic Modeling 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.24 no.6, 2014년, pp.640 - 645

초록
AI-Helper

인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

Abstract ▼ AI-Helper

Many people use social network services as to communicate, to share an information and to build social relationships between others on the Internet. Twitter is such a representative service, where millions of tweets are posted a day and a huge amount of data collection has been being accumulated. Social mining that extracts the meaningful information from the massive data has been intensively studied. Typically, Twitter easily can deliver and retweet the contents using the following-follower relationships. Topic modeling in tweet data is a good tool for issue tracking in social media. To overcome the restrictions of short contents in tweets, we introduce a notion of reply graph which is constructed as a graph structure of which nodes correspond to users and of which edges correspond to existence of reply and retweet messages between the users. The LDA topic model, which is a typical method of topic modeling, is ineffective for short textual data. This paper introduces a topic modeling method that uses reply graph to reduce the number of short documents and to improve the quality of mining results. The proposed model uses the LDA model as the topic modeling framework for tweet issue tracking. Some experimental results of the proposed method are presented for a collection of Twitter data of 7 days.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 논문에서는 SNS기반 토픽 모델링을 보다 효율적으로 하기 위한 소셜 마이닝 기법을 소개하였다. 트렌드를 추출하는 방법은 이미 많이 소개되어 있지만 방대한 양의 데이터를 처리하기 위해서는 토픽 모델을 적용하기 전에 전처리 과정이 필요하다.
기존에는 트렌드를 추출하기 위한 방법으로써 토픽 모델을 이용한 트렌드 추출 기법으로 짧은 텍스트 데이터인 소셜 데이터에 비효율적인 토픽 모델링을 했었다. 이 논문에서는 댓글 그래프를 기반으로 유사 사용자간 군집을 연결요소로 추출하고 문서의 단위를 군집으로 표현하여 보다 토픽 모델링에 적합한 데이터 마이닝 기법을 제안한다.
이 논문에서는 두 군집이 병합할 때 유사 사용자를 중점으로 두기 때문에 A∩B로 병합을 하는 것을 제안한다.

제안 방법

net/)에서 영단어 목록을 이용하여 검색 후 원형과 품사 정보를 가져왔다. 가져온 데이터를 통해 원형을 추출한 후 품사 중 명사와 동사를 제외한 불용어를 제거하였다. SNS는 개인적인 글을 올리는 특성이 있기 때문에 비속어와 은어가 많이 섞여있고 기존 사전으로부터 포함되지 않은 단어와 띄어쓰기를 하지 않은 형태를 찾을 수 있었다.
각 토픽 별 높은 확률 값을 갖는 단어 10개를 추출하였고 추출한 기간의 뉴스기사로부터 해당하는 토픽이 기사에 출현하였는지에 따라 성능을 평가하였다. 기존 방법보다 정답 횟수가 좋았다는 것을 알 수 있었다.
군집을 마치고 모든 군집에 대해 두 군집간의 사용자를 비교한다. 이 과정은 두 군집 간의 사용자가 적정 기준 이상 겹치게 된다, 즉 두 군집이 유사하다면 하나의 군집으로 표현하게 된다.
트렌드를 추출하는 방법은 이미 많이 소개되어 있지만 방대한 양의 데이터를 처리하기 위해서는 토픽 모델을 적용하기 전에 전처리 과정이 필요하다. 그 방법으로 SNS의 특성에 맞도록 짧은 텍스트 기반의 데이터를 토픽 모델에 적용하기 위해 기본적인 전처리 후 댓글 그래프를 통해 유사 사용자간 커뮤니티로 군집을 하였다. 기존 토픽 모델에서는 글 하나하나가 문서가 되었지만 제안 방법에서는 군집을 이용하여 문서의 단위를 축소시켜 학습에 필요한 반복 횟수를 줄였다.
그 방법으로 SNS의 특성에 맞도록 짧은 텍스트 기반의 데이터를 토픽 모델에 적용하기 위해 기본적인 전처리 후 댓글 그래프를 통해 유사 사용자간 커뮤니티로 군집을 하였다. 기존 토픽 모델에서는 글 하나하나가 문서가 되었지만 제안 방법에서는 군집을 이용하여 문서의 단위를 축소시켜 학습에 필요한 반복 횟수를 줄였다. 그 결과 깁스 샘플링에서 속도와 메모리 측면에서 매우 좋은 결과를 얻을 수 있다는 것을 확인하였다.
깁스 샘플링은 프로그래밍 언어 Java로 직접 구현하였고 토픽 모델을 적용하기 위해 깁스 샘플링에 대한 파라미터를 α는 25, β는 0.01로 주었고 토픽의 수는 100개 반복 횟수는 100번으로 지정하였다.
데이터의 규모를 줄이기 위해서 대상을 공개 트윗으로 줄였기 때문에 하루에 약 1Gbyte 정도로 수집되었다는 것을 볼 수 있었다. 데이터의 규모가 아직 일반 컴퓨터에서 돌리기 부담스러울 정도의 크기이기 때문에 여기서 좀 더 데이터의 크기를 줄이기 위해 영어권 나라만 선택하여 보다 데이터의 크기를 줄였다.
이들 중 비속어와 은어를 직접 찾아내어 제거 하였다. 마지막으로 어간 추출을 통해 파생어에 대해 처리하였고 이 처리된 단어를 토대로 용어 집합으로 표현하였다.
성능 평가는 실행 시간, 메모리 사용, 마지막으로 정답률로 세 가지 측면에 대해 평가를 하였다. 실행시간은 깁스 샘플링에 대해서 얼마나 걸렸는지를 측정하였고, 메모리 사용은 깁스 샘플링을 돌리기 위한 메모리 사용 변화를 측정하였다.
수집한 데이터를 전처리하기 위해 3자 이하의 알파벳으로 구성된 단어를 제거하였고, 단어의 원형을 찾기 위한 방법으로 wordsmyth(http://www.wordsmyth.net/)에서 영단어 목록을 이용하여 검색 후 원형과 품사 정보를 가져왔다. 가져온 데이터를 통해 원형을 추출한 후 품사 중 명사와 동사를 제외한 불용어를 제거하였다.
성능 평가는 실행 시간, 메모리 사용, 마지막으로 정답률로 세 가지 측면에 대해 평가를 하였다. 실행시간은 깁스 샘플링에 대해서 얼마나 걸렸는지를 측정하였고, 메모리 사용은 깁스 샘플링을 돌리기 위한 메모리 사용 변화를 측정하였다. 정답률을 측정하기 위해서는 해당 기간에 나온 뉴스 기사로부터 단어가 5개 이상 출현하였을 경우를 정답으로 분류하였다.
커뮤니티를 찾는 방법에는 오버랩(overlap)을 고려하는 것과 하지 않는 방법이 있다. 여기서는 댓글의 특성을 고려하여 오버랩을 고려하는 방법을 선택하였다.
이렇게 모인 데이터의 댓글과 리트윗 수는 총 1,293,551개가 되었고 댓글과 리트윗을 같은 의미로 처리하여 댓글 그래프의 간선으로 표현하였다. 연결 요소로 커뮤니티를 얻기 위해서는 임의의 하나의 기준 노드로부터 상위 사용자를 찾아내고 상위 사용자로부터 댓글을 한 사용자를 찾아 추가하며 커뮤니티를 추출하였다. 이렇게 구성된 커뮤니티의 수는 약 5.
α는 전체적으로 토픽에 포함된 단어의 확률을 균등하게 분배하기 위해 1보다 큰 25로 지정하였다. 이 실험의 결과로 토픽들이 단어에 대한 확률로 표현되어 있기 때문에 각 토픽에 대해 높은 확률 값을 갖는 상위 10개의 단어에 대해 추출하였다.
실행시간은 깁스 샘플링에 대해서 얼마나 걸렸는지를 측정하였고, 메모리 사용은 깁스 샘플링을 돌리기 위한 메모리 사용 변화를 측정하였다. 정답률을 측정하기 위해서는 해당 기간에 나온 뉴스 기사로부터 단어가 5개 이상 출현하였을 경우를 정답으로 분류하였다.
제안 방법은 하나의 노드를 기준으로 이 글이 누구의 댓글인지를 파악하고 댓글 그래프의 가장 상위에 있는 사용자를 찾게 된다. 가장 상위에 있는 사용자는 여러 사람이 될 수 있다.
총 7일간의 데이터로부터 데이터 수집은 XML파일 형식으로 수집하였으며 기존 데이터의 리트윗 정보를 담는 부분을 추가하여 저장하였다.
토픽 모델에 적용시키기 위해 군집별 문서를 표현하고 각 문서를 용어 집합으로 표현하였다. 깁스 샘플링은 프로그래밍 언어 Java로 직접 구현하였고 토픽 모델을 적용하기 위해 깁스 샘플링에 대한 파라미터를 α는 25, β는 0.
평가를 하기 위한 대조 기법으로 불용어 제거, 비속어 및 은어 처리, 어간 추출을 한 데이터를 토대로 사용자 별 용어 집합으로 표현하는 전처리 과정만 하였다. 이 데이터 중 남은 데이터의 단어 수가 10개 미만인 트윗 데이터를 걸러 내었고 그 결과 7,086,947개의 영어권 공개 트윗 중 292,620개로 추출되었다.
6%)이 발생하였다. 한국어권은 공개 트윗의 수가 적기 때문에 제안된 기법을 사용하기 위해서 영어권을 기준으로 하였다. 영어권에서의 7일간 공개 트윗의 수는 8,906,567건이고 이 기간 동안 이용한 사용자 수는 5,018,532명이었다.

대상 데이터

데이터는 SNS 중 트위터로 선정하였고 트윗 데이터를 수집하기 위하여 Java 기반 트위터 스트림 API인 Twitter4J(http://twitter4j.org/)를 통해 전 세계의 공개 트윗을 한국 시각 기준 2014년 9월 13일 00:00 부터 2014년 9월 19일 24:00 까지 총 7일간의 데이터를 수집하였다. 수집된 데이터의 크기는 약 6.
org/)를 통해 전 세계의 공개 트윗을 한국 시각 기준 2014년 9월 13일 00:00 부터 2014년 9월 19일 24:00 까지 총 7일간의 데이터를 수집하였다. 수집된 데이터의 크기는 약 6.0Gbyte이고 이 데이터는 총 24,695,089건의 트윗이며 트윗이 제공하는 언어는 67개로 되어 있다. 공개 트윗은 하루 평균 약 353만 건이 발생하고 그 중에 영어권은 약 127만 건(약 36.

데이터처리

트위터를 수집하여 트렌드를 추출하기 위해선 크게 자연어처리와 군집화로 나눌 수 있다. 실험을 하기 위한 컴퓨터는 하나의 PC에서 성능 평가 하였다. PC환경은 IntelⓇ Core™ i7-4770 3.

이론/모형

토픽 모델(topic)은 텍스트 기반의 문서를 활용하기 위해 개발된 확률 모델이다.[6,7] 문서를 표현하기 위해 단어들에 대한 벡터 또는 용어 집합(bag-of-words)을 이용한다. 토픽 모델 중 잘 알려진 LDA(Latent Dirichlet Allocation)는 많은 문서들 안에서 잠재적으로 의미 있는 토픽을 발견하기 위한 확률적인 생성모델이다.
[9,10] 하지만 제안된 방법은 댓글 그래프를 이용한 유사 사용자간 군집으로 문서를 표현한다. 댓글 그래프로부터 군집을 얻어내기 위한 방법으로 그래프 클러스터링 방법을 사용한다. 댓글 그래프는 사용자간의 네트워크를 댓글로써 표현하였기 때문에 네트워크 내의 커뮤니티를 찾는 방법을 이용한다.
너무 작은 군집이 하나의 문서로 표현되는데 있어서 너무 비중이 크기 때문에 제거를 해야 한다. 두 군집을 병합하기 위한 유사도 측정 방법으로 두 군집간의 거리 척도로써 자카드 계수(Jaccard coefficient)를 사용한다. 자카드 계수는 두 집합 A, B에 대해 다음과 같이 계산된다.

성능/효과

기존 토픽 모델에서는 글 하나하나가 문서가 되었지만 제안 방법에서는 군집을 이용하여 문서의 단위를 축소시켜 학습에 필요한 반복 횟수를 줄였다. 그 결과 깁스 샘플링에서 속도와 메모리 측면에서 매우 좋은 결과를 얻을 수 있다는 것을 확인하였다.
각 토픽 별 높은 확률 값을 갖는 단어 10개를 추출하였고 추출한 기간의 뉴스기사로부터 해당하는 토픽이 기사에 출현하였는지에 따라 성능을 평가하였다. 기존 방법보다 정답 횟수가 좋았다는 것을 알 수 있었다. 향후 연구에서는 군집 내에서의 토픽과 전체 토픽과의 관계에 대해 실험할 예정이고 댓글 그래프로부터의 평판 분석에 대한 방법을 연구할 예정이다.
실행시간 또한 기존 기법은 4632초였고 제안기법은 1142초가 걸렸다. 마지막으로 정답률은 미세한 차이지만 기존 방법 대비 약 5% 향상된 것을 볼 수 있었다. 제안 기법에서는 댓글 그래프를 이용한 방법과 비속어, 은어에 대한 사전을 이용함으로써 이를 사용하지 않았던 방법에 비해 월등한 성능을 내었다.
이 실험 결과 (그림 5)와 같이 메모리 사용은 기존 기법은 약 18Gbyte로 상당한 메모리가 필요하지만 제안 기법은 약 8Gbyte로 절반 이하로 줄었다. 실행시간 또한 기존 기법은 4632초였고 제안기법은 1142초가 걸렸다.
깁스 샘플링은 각 토픽에 해당하는 단어의 확률을 추정하는 작업을 계속적으로 반복하게 되므로 단어의 수와 문서의 수 그리고 반복 횟수에 따라 실행시간이 크게 차이난다. 이 제안된 방법은 유효한 단어의 수와 문서의 수를 줄이는 방법으로 기존 방법에 비해 실행 속도가 빠르다.
마지막으로 정답률은 미세한 차이지만 기존 방법 대비 약 5% 향상된 것을 볼 수 있었다. 제안 기법에서는 댓글 그래프를 이용한 방법과 비속어, 은어에 대한 사전을 이용함으로써 이를 사용하지 않았던 방법에 비해 월등한 성능을 내었다.

후속연구

기존 방법보다 정답 횟수가 좋았다는 것을 알 수 있었다. 향후 연구에서는 군집 내에서의 토픽과 전체 토픽과의 관계에 대해 실험할 예정이고 댓글 그래프로부터의 평판 분석에 대한 방법을 연구할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	소셜 네트워크 서비스의 역할은 무엇인가?	소셜 네트워크 서비스(Social Network Service, SNS)는 온라인상에서 인맥을 새롭게 쌓거나, 기존 인맥과의 관계를 강화시킬 수 있는 서비스를 제공하고 개인의 관심, 취미, 사회적 위치 등 동질감이 있는 사람들 간에 커뮤니티를 만들어 준다. SNS 중 대표적인 서비스인 트위터는 트윗(tweet)과 리트윗(retweet)의 개념을 도입하여 공유하고자 하는 내용을 쉽게 전파할 수 있다.
	리트윗의 특징은 무엇인가?	SNS 중 대표적인 서비스인 트위터는 트윗(tweet)과 리트윗(retweet)의 개념을 도입하여 공유하고자 하는 내용을 쉽게 전파할 수 있다.[1] 특히 리트윗은 팔로잉-팔로워(following-follower)를 통해 특별한 조건 없이 쉽게 관계를 맺을 수 있기 때문에 공감과 공유의 전파 속도를 빠르게 한다. 이러한 이유로 트위터는 사회적 이슈의 출현과 변화를 충분히 반영을 한다.
	소셜 마이닝 기법이 사용된 예는 무엇이 있는가?	소셜 마이닝은 소비자를 분석함으로써 판매 및 홍보로 사용되고 여론변화나 사회적 흐름과 트렌드를 찾기 위해 사용되는 마이닝 기법이다.[5] 그 예로 18대 대통령선거에서는 이 기법을 이용하여 SNS를 통한 전략으로 내세워 홍보하는 역할을 하였다.

참고문헌 (11)

H. Kwak, C. Lee, H. Park, S. Moon, "What is Twitter, a social network or a news media?," Proceedings of the 19th international conference on World Wide Web, pp. 591-600, 2010.
M. Song and M. C. Kim, "RT2M: Real-Time Twitter Trend Mining System," Proceedings of the IEEE 2013 International Conference on Social Intelligence and Technology, pp. 64-71, 2013.
W. X. Zhao, J. Jiang, J. Weng, J. He, E.-P. Lim, H. Yan, and X. Li, "Comparing Twitter and Traditional Media using topic models," Proceedings of the First Workshop on Social Media Analysis, pp.338-349, 2011.
D. M. Blei, A. Y. Ng, M. I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, Vol.3, pp.993-1022, 2003.
T. L. Griffiths, M. Steyvers, "Finding scientific topics," National academy of Sciences of the United States of America, Vol.101, Suppl.1, pp.5228-5235, 2004.

상세보기
H. K. Peng, J. Zhu, D. Piao, R. Yan, "Retweet Modeling using Conditional Random Fields," Proceedings of the 11th IEEE International Conference on Data Mining Workshops, pp. 336-343, 2011.
T. Hofman, "Probabilistic Latent Semantic Analysis," Proceedings of UAI '99, 1999.
J. Weng, E. P. Lim, J. Jiang, "Twitterrank: Finding Topic-Sensitive Influential Twitterers," Proceedings of the third ACM WSDM, 2010.
L. Hong, B. D. Davison, "Empirical Study of Topic Modeling in Twitter," Proceedings of the SIGKDD Workshop on SMA, 2010.
D. M. Blei, "Introduction to Probabilistic Topic Models," Communications of the ACM, 2011.
F. LU, B. Shen, J. Lin, H. Zhang, "A Method of SNS Topic Models Extraction Based on Self-Adaptively LDA Modeling," Proceedings of 2013 Third International Conference on Intelligent System Design and Engineering Applications, IEEE Computer Society, pp.112-115, 2013.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증