[논문]키워드 기반 주제중심 분석을 이용한 비정형데이터 처리

고명숙

doi:10.3745/ktsde.2017.6.11.521

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리
Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.6 no.11, 2017년, pp.521 - 526

초록
AI-Helper

데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

Abstract ▼ AI-Helper

Data format of Big data is diverse and vast, and its generation speed is very fast, requiring new management and analysis methods, not traditional data processing methods. Textual mining techniques can be used to extract useful information from unstructured text written in human language in online documents on social networks. Identifying trends in the message of politics, economy, and culture left behind in social media is a factor in understanding what topics they are interested in. In this study, text mining was performed on online news related to a given keyword using topic - oriented analysis technique. We use Latent Dirichiet Allocation (LDA) to extract information from web documents and analyze which subjects are interested in a given keyword, and which topics are related to which core values are related.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

경향을 파악하기 위해서는 문서들의 주제를 분류해야 하는데, 본 연구에서는 이를 위하여 텍스트 속에서 주제를 자동으로 찾아주는 LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 주제를 추출하고 이로부터 사람들이 실제로 그 주제에 얼마만큼 관심을 가지고 있는지를 파악해 보고자 한다. 본 연구는 일정 기간 동안에 전체 뉴스 스크래핑을 수행하는 것이 아니라 특정 키워드를 기반으로 뉴스 스크래핑을 수행한 후 정보를 수집하고 그 결과로부터 주어진 키워드와 관련된 정책 또는 방향이 어떻게 진행 및 추진 되었는지를 파악해보고, 그 결과를 기반으로 향후 추진 방향 또는 미흡한 부분을 보완할 수 있는 기틀을 마련하는 데 연구의 목적이 있다.
경향을 파악하기 위해서는 문서들의 주제를 분류해야 하는데, 본 연구에서는 이를 위하여 텍스트 속에서 주제를 자동으로 찾아주는 LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 주제를 추출하고 이로부터 사람들이 실제로 그 주제에 얼마만큼 관심을 가지고 있는지를 파악해 보고자 한다. 본 연구는 일정 기간 동안에 전체 뉴스 스크래핑을 수행하는 것이 아니라 특정 키워드를 기반으로 뉴스 스크래핑을 수행한 후 정보를 수집하고 그 결과로부터 주어진 키워드와 관련된 정책 또는 방향이 어떻게 진행 및 추진 되었는지를 파악해보고, 그 결과를 기반으로 향후 추진 방향 또는 미흡한 부분을 보완할 수 있는 기틀을 마련하는 데 연구의 목적이 있다. 본 연구에서는 ‘정부3.
본 연구에서는 ‘정부3.0’의 효과적인 추진과 생애주기별 맞춤형 서비스 및 국민 행복 실현을 위하여 정부차원에서 빅데이터 추진 방안을 마련하는데 기반이 된 ‘정부3.0’과 관련하여 웹에 게시된 ‘정부3.0’ 관련 뉴스인 비정형 데이터에 대하여 의미있는 정보를 추출하기 위하여 웹스크래핑을 통하여 뉴스정보를 수집하고 텍스트마이닝 기법을 이용하여 데이터 셋을 얻은 후 LDA를 적용하여 정부3.0과 관련하여 사람들이 어떻게 생각하며 인식하고 있는지를 자동 생성된 주제(topic)를 기반으로 파악하고 핵심가치에 대한 내용이 얼마나 반영되었는지 분석하고자 한다.
본 연구에서는 웹뉴스를 기반으로 정부3.0에 대한 사람들의 인식과 관심도를 파악하고 핵심가치 및 추진목표 등이 얼마나 전파되었는지를 웹스크래핑을 통하여 웹에 게시된 뉴스를 수집하고, LDA 기법을 사용하여 년도별로 정부3.0에 대한 전반적인 관심도 및 흐름을 파악해 보고자 한다. 제 2장에서는 관련 연구에 대해 다루고 제 3장에서는 텍스트 데이터 처리 방법 등 연구 방법에 대해 기술한다.
본 연구에서는 특정 키워드를 기반으로 뉴스 스크래핑을 수행한 후 문서를 수집하고 추출된 정보로부터 주어진 키워드와 관련된 정책 또는 방향이 어떻게 진행 및 추진되었는 지를 파악해해보고, 그 결과를 기반으로 향후 추진 방향 또는 미흡한 부분을 보완할 수 있는 기틀을 마련하기 위해 키워드 기반 주제 중심 분석을 수행하였다. 웹스크래핑에 사용된 키워드는 ‘정부3.
본 절에서는 생성된 각 주제들이 정부3.0의 핵심가치 및 추진목표인 ‘개방, 공유, 소통, 협력, 정보공개, 공공데이터 개방, 협업, 정보공유, 맞춤형서비스, 국민중심, 정보보안’ 등 에 얼마나 부합되는지 분석해 보고, 또한 각 주제에 대하여 (단어,빈도수) 결과를 결합하여 최종 관심도 및 흐름 파악 결과도 비교 분석해 보고자 한다.
본 논문에서는 topic-modeling 방법인 LDA모델을 사용하여 인터넷 상의 여러 개의 topic들이 섞여있는 각 문서 (document)에 대하여 단어(word)들의 확률분포로 이루어진 topic들을 분류하였다. 분류된 topic만으로는 키워드의 핵심가치에 대한 분석이 어려우므로 분류된 topic들로부터 주제명을 추출함으로써 제시된 키워드와 관련된 핵심가치에 대한 사람들의 관심도를 분석해 보고자 한다. 즉 document, topic, word의 확률 분포를 이용하여 생성된 각각의 topic기 반 주제명들이 키워드인 ‘정부3.
즉 document, topic, word의 확률 분포를 이용하여 생성된 각각의 topic기 반 주제명들이 키워드인 ‘정부3.0’의 핵심가치인 ‘개방, 공유, 소통, 협력, 정보공개, 공공데이터 개방, 협업, 정보공유, 맞춤형서비스’ 등에 얼마나 부합되는지 분석해 보고, 또한 각 주제에 대하여 (단어, 빈도수) 결과를 결합하여 관심도 및 인식 변화를 비교 분석해 보고자 한다.

제안 방법

국내 포털싸이트에 게시된 뉴스기사에 대한 웹 스크래핑을 이용하여 ‘정부3.0’ 관련 키워드를 (단어, 빈도수)를 기반으로 연도별로 상위 50개씩을 추출하고 그 결과에 대하여 추출된 단어들에 대한 중요도를 직관적으로 파악할 수 있도록 상관관계 네트워크 및 태그 클라우드 기법을 적용하였다.
0에 대한 주제 중심 분석을 수행하였다. 또한, 웹뉴스 를 구성하는 단어들에 대한 출현 빈도수를 기반으로 태그 클라우드 및 상관관계도 네트워크를 통하여 핵심 단어들을 파악해 보았다. 주제 중심 모델링을 통하여 각각 10개의 단어로 이루어진 topic들을 추출하였다.
2와 같다. 모든 수집된 데이터는 웹 페이지 형식의 뉴스 기사이므로 html기호, 신문사 마크 등 불필요한 부분을 제거하여 내용 (content)만을 추출하였다. 텍스트 데이터 처리는 아래와 같은 단계를 거치며 관련 프로세스는 아래와 같다.
본 논문에서는 topic-modeling 방법인 LDA모델을 사용하여 인터넷 상의 여러 개의 topic들이 섞여있는 각 문서 (document)에 대하여 단어(word)들의 확률분포로 이루어진 topic들을 분류하였다. 분류된 topic만으로는 키워드의 핵심가치에 대한 분석이 어려우므로 분류된 topic들로부터 주제명을 추출함으로써 제시된 키워드와 관련된 핵심가치에 대한 사람들의 관심도를 분석해 보고자 한다.
웹스크래핑에 사용된 키워드는 ‘정부3.0’이며, 웹뉴스를 기반으로 정부3.0에 대한 사람들의 인식과 관심도를 파악하고 핵심가치 및 추진목표 등이 얼마나 전파되었는지를 파악해 보기 위해 웹에 게시된 뉴스를 수집하고, LDA 기법을 사용하여 년도별로 정부3.0에 대한 주제 중심 분석을 수행하였다.
0’ 키워드를 부여하고 개시되어 있는 뉴스를 수집하였다. 정부3.0 개념은 공공기관 중심으로 시작되었기 때문에 일반사람들에게 체감도와 인지도가 비교적 낮고 정부 체제가 바뀌는 시기를 거치면서 어떤 변화를 가져왔는지 살펴보고자 2개년도(2016년, 2017년)에 대한 주제 중심 분석을 수행하게 되었다. 웹스크래핑 시 21∼50개씩의 최신 뉴스를 스크래핑 하였으며, 2016년 6월∼2017년 8월까지 온라인 뉴스 기사 중 ‘정부3.
정부3.0의 핵심가치 및 추진목표인 ‘개방, 공유, 소통, 협력, 정보공개, 공공데이터 개방, 협업, 정보공유, 맞춤형서비스, 국민중심, 정보보안’ 등에 얼마나 부합되는지 분석해보기 위하여, 정부3.0 관련 뉴스를 대상으로 주제 중심 모델링을 하여 각각 10개의 단어로 이루어진 주제들을 추출하였다.
또한, 웹뉴스 를 구성하는 단어들에 대한 출현 빈도수를 기반으로 태그 클라우드 및 상관관계도 네트워크를 통하여 핵심 단어들을 파악해 보았다. 주제 중심 모델링을 통하여 각각 10개의 단어로 이루어진 topic들을 추출하였다. topic은 벡터 형식이기 때문에 topic을 구성하는 단어에 대한 교차 출현 빈도가 높은 topic들이 반드시 코사인 유사도가 비례하여 높지는 않다는 결과를 얻을 수 있었다.

대상 데이터

다음 본 연구에서 사용한 데이터는 웹 스크래핑을 통하여 네이버(http://www.naver.com) 및 다음(http://www.daum.net)과 같은 포털싸이트에 ‘정부3.0’ 키워드를 부여하고 개시되어 있는 뉴스를 수집하였다.
웹스크래핑 시 21∼50개씩의 최신 뉴스를 스크래핑 하였으며, 2016년 6월∼2017년 8월까지 온라인 뉴스 기사 중 ‘정부3.0’이 등장하는 기사 총 1,785개를 스크래핑 하였다.

성능/효과

topic을 구성하는 단어들은 주제 모델링의 수행 결과로 나온 것이며 ‘정부3.0’의 핵심가치와 관련하여 ‘소통, 맞춤형서비스, 개방, 정보공유 및 국민 중심’이라는 핵심가치와 연관된 주제명을 얻을 수 있었다.
결과를 보면 ‘정부’, ‘답변’, ‘선택’, ‘추천’, ‘질문’, ‘위원회’ 등의 단어가 중요도가 비교적 높게 나옴을 알 수 있다.
071임을 알 수 있다. 코사인 유사도 값은 0~1사 이에 분포하며 1에 가까울수록 주제가 유사하다고 볼 수 있으므로 (topic4, topic30)에 대해서는 두 topic을 구성하는 단어에 대한 교차 출현 빈도가 높지만 코사인 유사도는 낮음을 알 수 있으며 (topic80, topic91)은 두 topic을 구성하는 단어 분포가 (topic4, topic30)보다 두 topic을 구성하는 단어에 대한 교차 출현 빈도가 낮지만 코사인 유사도는 (topic4, topic30)에 비해 높았다. 즉, 단어에 대한 교차 출현 빈도가 높다고 반드시 코사인유사도가 비례하지는 않는다는 것을 알 수 있다.

후속연구

소셜네트워크 상의 데이터를 처리함에 있어서 블로그나, 트위터 등은 사람들 개개인의 생각들이 많이 담겨져 있는 반면에 뉴스 기사와 같은 웹문서의 경우는 정해진 주제에 대하여 관련 내용들이 어떤 방향으로 다루어졌는지 파악해 볼 수 있는 좋은 소스로 사용될 수 있다. 또한 주어진 키워드에 대한 목표(핵심가치 실현)가 있으므로 핵심가치에 대한 topic 구성 단어로 유도된 주제를 분석함으로써 방향 설정을 변경하거나 또는 부족한 부분을 파악하고 보강하는 등의 조치를 취할 수 있는 근거를 마련해 줌으로써 분석 결과가 목표에 더 가깝게 도달할 수 있도록 방향키 역할을 할 수 있을 것으로 판단된다. 향후 연구 방향은 키워드에 대한 긍정, 부정의 가설을 귀무가설과 대립가설의 형태로 세운 후 웹스크래핑 결과를 통하여 가설의 기각 또는 채택 과정을 통하여 주어진 특정 키워드에 대한 인식을 긍정적으로 또는 부정적으로 평가할 수 있도록 하는 실험 및 결과에 대하여 정량적으로 평가할 수 있는 방법에 대한 연구 및 적용이다.
또한 주어진 키워드에 대한 목표(핵심가치 실현)가 있으므로 핵심가치에 대한 topic 구성 단어로 유도된 주제를 분석함으로써 방향 설정을 변경하거나 또는 부족한 부분을 파악하고 보강하는 등의 조치를 취할 수 있는 근거를 마련해 줌으로써 분석 결과가 목표에 더 가깝게 도달할 수 있도록 방향키 역할을 할 수 있을 것으로 판단된다. 향후 연구 방향은 키워드에 대한 긍정, 부정의 가설을 귀무가설과 대립가설의 형태로 세운 후 웹스크래핑 결과를 통하여 가설의 기각 또는 채택 과정을 통하여 주어진 특정 키워드에 대한 인식을 긍정적으로 또는 부정적으로 평가할 수 있도록 하는 실험 및 결과에 대하여 정량적으로 평가할 수 있는 방법에 대한 연구 및 적용이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	오피니언 마이닝은 무엇인가?	오피니언 마이닝(Opinion Mining)은 특정 주제에 대한 사람들의 주관적인 의견을 통계 및 수치화하여 객관적인 정보로 바꾸는 기술로서 문서의 주제보다 사건이나 인물에 대한 사람들의 의견 뿐만 아니라 긍정, 부정 및 중립 등의 감정과 태도로 분석하기 때문에 감성 분석(Sentiment Analysis) 라고도 불린다[7].
	소셜 네트워크 상에서 비정형 데이터로부터 정보를 뽑아내고 분석하는 방법에는 무엇이 있는가?	소셜 네트워크 상에서 비정형 데이터로부터 정보를 뽑아내고 분석하는 방법은 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 자연어처리기술을 이용하여 유용한 정보를 추출하는 Text Mining, 소셜미디어의 문서에 담긴 텍스트 문장을 자연어처리 기술과 감정 분석 기술을 적용하여 사용자의 의견을 분석하는 Opinion Mining, 네트워크 연결구조와 연결 강도를 분석하여 어떤 메시지가 어떤 경로를 통해 전파되는지를 파악하는 Network Analysis 등이 있다. 또한, 키워드간 상호관계를 예측하는 Data Mining과 시각화 등의 방법으로 빅데이터를 분석할 수 있다[3].
	비정형 데이터의 생성 속도가 매우 빠르게 증가하는 이유는 무엇인가?	또한 시간이 흐르면서 데이터의 종류도 복잡해지고 다양화되고 있으며 특히, 비정형 데이터의 생성 속도가 매우 빠르게 증가하고 있는 추세이다. 이는 PC와 인터넷 같은 디지털 기기의 사용과 함께, 페이스북이나 트위터 등의 소셜 네트워크 서비스 (SNS)가 모바일 폰의 사용과 결합되면서 엄청난 시너지 효과를 내고 있기 때문이다[1]. 또한 스마트 단말 사용자들이 거의 모든 시간대에 SNS로 자신들의 ‘감정’ 데이터를 쏟아내고 있을 뿐만 아니라 스마트폰에 내장된 GPS, 가속센서, 거리센서 등도 시시각각 상황(context) 정보를 양산하는 등 모바일시대가 도래하면서 더 빠르게 진화하고 있다.

참고문헌 (14)

J. P. Woo, "Big Data Analysis will ahead," Maekyung Pub. pp.236-251, 2017.
"The Guide for Advanced Data Analytics Professional," Korea Database Agency, 2014.
T. M. Song and J. Y. Song, "Social Big Data Research Methodology with R," Hannarae Pub., ch. 1, pp.16-39, 2016.
Tag Cloud [Internet], https://ko.wikipedia.org/wiki/
K. T. Kim, J. G. Ahn, and D. H. Kim, "Big Data Weapering 1," AgePerson Pub., ch. 1, pp.4-12, 2017.
Y. D. Yun, J. H. Jo, and H. S. Lim, "A Comparative Analysis of Cognitive Change about Big Data Using Social Media Data Analysis," in KIPS Tr. Software and Data Eng., Vol.6, No.7, pp.371-378, 2017.
Opinion Mining [Internet], https://www.facebook.com/kubigdata/posts/504333396427600
B. I. Kang, M. Song, and W. S. Jho, "A Study on Opinion Mining of Newspaper Texts based on Topic Modeling," Journal of Korean Society for Library and Information Science, Vol.47, No.4, pp.315-334, 2013.
David M. Blei, Andrew Y. Ng, and Michael I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, 3(Jan.), pp.993-1022, 2003.
Taemin Cho and Jee-Hyong Lee, "Latent Keyphrase Extraction using LDA Model," Journal of Korean Institute of Intelligent Systems, Vol.25, No.2, pp.180-185, 2015.

원문보기 상세보기
R. D. Lee, J. M. Kim, and J. S. Lee, "Analysis of twitter topic using LDA," Journal of Korean Institute of Intelligent Systems, Vol.25, No.2, pp.180-185, 2015.

원문보기 상세보기
B. M. Jeong, T. H. Kim, J. Lee, and J. S. Kim, "Twitter Topic Extraction and Topic Category Decision using LDA Model," Proceedings of KISSE Winter Conference, pp.787-788, Dec., 2014.
Yohan Jo, Dongwoo Kim, Il-Chul Moon, and Haeyun Oh [Internet], http://seslab.kaist.ac.kr/xe2/?modulefile&actprocFileDownload&file_srl5591, 2009.
S. Y. Bong and K. B. Hwang, "Applying Labeled LDA to Author Keywirds Recommendation," Proceedings of KIISE Spring Conference, Vol.37, No.1(C), pp.385-389, 2010.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증