[논문]소셜 빅데이터 마이닝 기반 이슈 분석보고서 자동 생성

허정; 이충희; 오효정; 윤여찬; 김현기; 조요한; 옥철영

doi:10.3745/ktsde.2014.3.12.553

소셜 빅데이터 마이닝 기반 이슈 분석보고서 자동 생성
Automatic Generation of Issue Analysis Report Based on Social Big Data Mining 원문보기 논문타임라인

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.3 no.12, 2014년, pp.553 - 564

허정 (한국전자통신연구원) , 이충희 (한국전자통신연구원) , 오효정 (한국전자통신연구원) , 윤여찬 (한국전자통신연구원) , 김현기 (한국전자통신연구원) , 조요한 , 옥철영 (울산대학교 전기공학부 IT융합전공)

초록
AI-Helper

본 논문은 지금까지의 소셜미디어 분석과 분석보고서 생성의 세 가지 문제점을 해결하기 위해서 소셜 빅데이터 마이닝에 기반한 이슈분석보고서 자동 생성 시스템을 제안한다. 세 가지 문제점은 분석의 고립성, 전문가의 주관성과 고비용에 기인한 정보의 폐쇄성이다. 시스템은 자연언어 질의분석, 이슈분석, 소셜 빅데이터 분석, 소셜 빅데이터 상관성분석과 자동 보고서 생성으로 구성된다. 생성된 보고서의 유용성을 평가하기 위해, 본 논문에서는 리커트척도를 사용하였고, 빅데이터 분석 전문가 2명이 평가하였다. 평가결과는 리커트 척도 평가에서 보고서의 품질이 비교적 유용하고 신뢰할 수 있는 것으로 평가되었다. 보고서 생성의 저비용, 소셜 빅데이터의 상관성 분석과 소셜 빅데이터 분석의 객관성 때문에, 제안된 시스템이 소셜 빅데이터 분석의 대중화를 선도할 것으로 기대된다.

Abstract ▼ AI-Helper

In this paper, we propose the system for automatic generation of issue analysis report based on social big data mining, with the purpose of resolving three problems of the previous technologies in a social media analysis and analytic report generation. Three problems are the isolation of analysis, the subjectivity of experts and the closure of information attributable to a high price. The system is comprised of the natural language query analysis, the issue analysis, the social big data analysis, the social big data correlation analysis and the automatic report generation. For the evaluation of report usefulness, we used a Likert scale and made two experts of big data analysis evaluate. The result shows that the quality of report is comparatively useful and reliable. Because of a low price of the report generation, the correlation analysis of social big data and the objectivity of social big data analysis, the proposed system will lead us to the popularization of social big data analysis.

주제어

질의응답

핵심어	질문	논문에서 추출한 답변
	소셜미디어 분석의 콘텐츠 내용분석과 네트워크 분석은 각각 무엇인가?	소셜미디어 분석은 정보추출(information extraction)에 기반한 콘텐츠 내용분석과 소셜미디어의 구조적 연관성을 분석하는 네트워크 분석으로 구분할 수 있다. 콘텐츠 내용분석은 주로 콘텐츠에 기술된 주요한 개체들(entities)의 노출(buzz)추이 및 감성분석(sentiment analysis)이 중심이고, 네트워크 분석은 트위터(twitter)나 페이스북(facebook)과 같은 소셜미디어 플랫폼에서 사용자들 간의 콘텐츠 유통 및 확산 추이 분석이 핵심기술이다[1].
	감성분석이란 무엇인가?	감성분석은 시간대별 특정 개체와 연관된 감성의 변화를 분석하는 기술이다. 감성분석은 극성(polarity)에 기반하여 긍정(positive), 부정(negative) 및 중립(neutral)으로 범주 (category)를 구분하고, 사용자의 텍스트 콘텐츠를 해당 범주로 분류하는 것이 전형적인 감성분석의 방법론이다.
	웹 1.0의 시기의 콘텐츠 소모 방식은?	웹 1.0의 시기에는 대형 미디어 매체들이 일방적으로 콘텐츠를 제공하고, 사용자들이 콘텐츠를 단순히 소비하는 형태였다. 웹 2.

참고문헌 (18)
타임라인 바로가기

Jeong Heo, Pum-Mo Ryu, Yoon-Jae Choi, Hyun-Ki Kim and Cheol-Young Ock, "An Issue Event Search System based on Big Data for Decision Supporting: Social Wisdom", Journal of KIISE: Software and Application, Vol.40, No.7, 2013.07.

인용구절

인용 구절

콘텐츠 내용분석은 주로 콘텐츠에 기술된 주요한 개체들(entities)의 노출(buzz)추이 및 감성분석(sentiment analysis)이 중심이고, 네트워크 분석은 트위터(twitter)나 페이스북(facebook)과 같은 소셜미디어 플랫폼에서 사용자들 간의 콘텐츠 유통 및 확산 추이 분석이 핵심기술이다[1].
Oskar Gross, Antoine Docucet and Hannu Toivonen, "Document Summarization Based on Word Associations", Proceedings of the 37th international ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2014.

인용구절

인용 구절

이와 같은 문제를 해결하기 위해 소셜미디어 데이터를 요약(summarization)하는 기술들이 연구되고 있다[2,3,4,5].

문서로부터 주요한 문장을 인식하고 이 문장들을 통합하여 요약 제시하는 것이 일반적인 방법이다[2,3].

[2]는 요약대상 문서 집합에서 어휘의 연관성(word association) 정도에 의존하여 문서요약을 수행하는 방법을 제시하고 있으며, [3]은 문장 유사도(sentence similarity)에 기반하여 블로그의 논평을 요약하는 2단계 문장 유사도 측정 방법을 소개하고 있다.
Hongjie Li, Lifu Huang, Qifeng Fan and Lian'en Huang, "Comments-Oriented Summarization in Blogsphere Using a Two-Stage Sentence Similarity Measure", In Web-Age Information Management. Springer International Publishing, pp.480-483, 2014.

인용구절

인용 구절

이와 같은 문제를 해결하기 위해 소셜미디어 데이터를 요약(summarization)하는 기술들이 연구되고 있다[2,3,4,5].

문서로부터 주요한 문장을 인식하고 이 문장들을 통합하여 요약 제시하는 것이 일반적인 방법이다[2,3].

[2]는 요약대상 문서 집합에서 어휘의 연관성(word association) 정도에 의존하여 문서요약을 수행하는 방법을 제시하고 있으며, [3]은 문장 유사도(sentence similarity)에 기반하여 블로그의 논평을 요약하는 2단계 문장 유사도 측정 방법을 소개하고 있다.
Dehong Gao, Wenjie Li, Xiaoyan Cai, Renxian Zhang, and You Ouyang, "Sequential Summarization: A Full View of Twitter Trending Topics", IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), Vol.22, No.2, pp.293-302, 2014.

인용구절

인용 구절

이와 같은 문제를 해결하기 위해 소셜미디어 데이터를 요약(summarization)하는 기술들이 연구되고 있다[2,3,4,5].

그러나 최근에서는 시간에 따른 주제변화 및 사건을 파악하기 위해 트윗(tweet)의 시간대별 노출 변화추이를 순차적으로 요약하는 트윗 분석기술도 연구되고 있다[4].

소셜미디어에 대한 요약기술로 시계열 상의 트렌드 토픽(trend topic) 변화를 요약하는 기술이 연구되고 있다[4].

[4]에서는 스트림(stream)과 의미(semantic) 기반의 접근법을 이용하여 트윗을 대상으로 시계열상의 토픽별로 순차적인 요약(sequential summarization)을 제공하는 기술을 제시하고 있다.
Zi Yang, Keke Cai, Jie Tang, Li Zhang, Zhong Su, and Juanzi Li, "Social Context Summarization", In Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. ACM, pp.255-264, 2011.

인용구절

인용 구절

이와 같은 문제를 해결하기 위해 소셜미디어 데이터를 요약(summarization)하는 기술들이 연구되고 있다[2,3,4,5].
Yo-Han Jo, Hyo-Jung Oh, Chung-Hee Lee, and Hyun-Ki Kim, "Fine-grained Sentiment Lexicon Construction via Semi-supervised Learning", 25th Annual Conference on HCLT, 2013.

인용구절

인용 구절

최근에는 감성을 보다 세분화된 범주(fine-grained category)로 구분하여 분류하는 연구와 이를 위한 학습데이터 구축 방법론에 대한 연구도 활발히 진행되고 있다[6,7,8,9]
Moon-Soo Chang, "Empirical Sentiment Classification Using Psychological Emotions and Social Web Data", Journal of Korean Institute of Intelligent Systems, Vol.22, No.5, pp.563-569, 2012.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

최근에는 감성을 보다 세분화된 범주(fine-grained category)로 구분하여 분류하는 연구와 이를 위한 학습데이터 구축 방법론에 대한 연구도 활발히 진행되고 있다[6,7,8,9]
Yong-Min Park, Su-Jeong Kwak, Daniel Lee, Bo-Gyum Kim, Yeo-Chan Yoon, and Jae-Sung Lee, "Construction of Korean Test Collection for Social Media Text Sentiment Analysis", Proceeding of the KIISE Fall Conference, Vol.39, No.2, pp.118-120, 2012.

인용구절

인용 구절

최근에는 감성을 보다 세분화된 범주(fine-grained category)로 구분하여 분류하는 연구와 이를 위한 학습데이터 구축 방법론에 대한 연구도 활발히 진행되고 있다[6,7,8,9]
Kong-Joo Lee, Jee-Eun Kim, and Bo-Hyun Yun, "Extracting Multiword Sentiment Expressions by Using a Domain-Specific Corpus and a Seed Lexicon," ETRI Journal, Vol.35, No.5, pp.838-848. 2013.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

최근에는 감성을 보다 세분화된 범주(fine-grained category)로 구분하여 분류하는 연구와 이를 위한 학습데이터 구축 방법론에 대한 연구도 활발히 진행되고 있다[6,7,8,9]
Pum-Mo Ryu, Hyun-Jin Kim, Hyun-Ki Kim, and Sang-Kyu Park, "Social Media Issue Detection & Monitoring based on Deep Language Analysis Techniques," Journal of Computing Science and Engineering, Vol.30, No.6, pp.47-58, 2012.

인용구절

인용 구절

노출추이 분석의 대상은 일반적으로 개체명인식기(NE recognizer)나 기정의된 사전(predefined dictionary)에 기반한 키워드(keyword)를 중심으로 분석하여 이슈개체 또는 이슈키워드로 결과를 제시하기도 하고, 관계추출(relation extraction)에 기반한 SPO²⁾ 트리플로 구성되는 이슈사건을 인식하기도 한다[10,11,12,13].
Chung-Hee Lee, Hyun-Jin Kim, Hyo-Jung Oh, Jeong Hur, Pum-Mo Ryu, and Hyun-Ki Kim, "Social WISDOM: An Issue Detection/Monitoring System", Proceedings of the Korea Information Processing Society Conference, Vol.19, No.2, 2012.

인용구절

인용 구절

노출추이 분석의 대상은 일반적으로 개체명인식기(NE recognizer)나 기정의된 사전(predefined dictionary)에 기반한 키워드(keyword)를 중심으로 분석하여 이슈개체 또는 이슈키워드로 결과를 제시하기도 하고, 관계추출(relation extraction)에 기반한 SPO²⁾ 트리플로 구성되는 이슈사건을 인식하기도 한다[10,11,12,13].
Jeong Heo, Pum-Mo Ryu, Yoon-Jae Choi, and Hyun-Ki Kim, "Event Template Extraction for the Decision Support based on Social Media", 24th Annual Conference on HCLT, 2012.

인용구절

인용 구절

노출추이 분석의 대상은 일반적으로 개체명인식기(NE recognizer)나 기정의된 사전(predefined dictionary)에 기반한 키워드(keyword)를 중심으로 분석하여 이슈개체 또는 이슈키워드로 결과를 제시하기도 하고, 관계추출(relation extraction)에 기반한 SPO²⁾ 트리플로 구성되는 이슈사건을 인식하기도 한다[10,11,12,13].
Yoonjae Choi, Pum-Mo Ryu, Hyunki Kim, and Changki Lee, "Extracting Events from Web Documents for Social Media Monitoring using Structured SVM", IEICE, Vol.E96-D, No. 6, 2013.

인용구절

인용 구절

노출추이 분석의 대상은 일반적으로 개체명인식기(NE recognizer)나 기정의된 사전(predefined dictionary)에 기반한 키워드(keyword)를 중심으로 분석하여 이슈개체 또는 이슈키워드로 결과를 제시하기도 하고, 관계추출(relation extraction)에 기반한 SPO²⁾ 트리플로 구성되는 이슈사건을 인식하기도 한다[10,11,12,13].
Min-Chul Yang, Jung-Tae Lee, and Hae-Chang Rim, "Using Link Analysis to Discover Interesting Message Spread Across Twitter", Workshop Proceedings of TextGraphs-7 on Graph-based Methods for Natural Language Processing. Association for Computational Linguistics, pp.15-19, 2012.

인용구절

인용 구절

트윗들의 확산형태를 분석하고 그래프의 유형을 분류함으로써, 해당 트윗이 로봇(robot)에 의해 생성된 스팸인지 여부를 알 수 있고, 특정 트윗의 초기 확산형태의 유형으로 향후 트윗의 확산양상을 예측을 할 수도 있다[14,15,16].
Min-Chul Yang, Jung-Tae Lee, Seung-Wook Lee, and Hae-Chang Rim, "Finding Interesting Posts in Twitter Based on Retweet Graph Analysis", Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.

인용구절

인용 구절

트윗들의 확산형태를 분석하고 그래프의 유형을 분류함으로써, 해당 트윗이 로봇(robot)에 의해 생성된 스팸인지 여부를 알 수 있고, 특정 트윗의 초기 확산형태의 유형으로 향후 트윗의 확산양상을 예측을 할 수도 있다[14,15,16].
Yong-Jin Bae, Pum-Mo Ryu, and Hyun-Ki Kim, "Predicting Popular Tweets based on Similarity Analysis from Collaborative Features", Journal of KIISE: Software and Application, Vol.40, No.7, pp.405-416, 2013.

인용구절

인용 구절

트윗들의 확산형태를 분석하고 그래프의 유형을 분류함으로써, 해당 트윗이 로봇(robot)에 의해 생성된 스팸인지 여부를 알 수 있고, 특정 트윗의 초기 확산형태의 유형으로 향후 트윗의 확산양상을 예측을 할 수도 있다[14,15,16].
Eytan Barkshy, Jake M. Hofman, Winter A. Mason, and Duncan J. Watts, "Everyone's an Influencer : Quantifying Influence on Twitter", Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011.

인용구절

인용 구절

그리고, 확산된 트윗의 내용이 어떤 주제에 해당하는지 기정의된 주제로 분류한다[17].
Kyeongtaek, Kim, " $F_n$ -Measure: An External Cluster Evaluation Measure", Journal of Society of Korea Industrial and Systems Engineering, Vol.35, No.4, pp.244-248, 2012.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

감성원인분석의 평가척도는 클러스터링에서 정확률을 이용하는 외부기준의 평가척도인 purity를 사용한다[18].

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증