$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리
Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.6 no.11, 2017년, pp.521 - 526  

고명숙 (부천대학교 경영과)

초록
AI-Helper 아이콘AI-Helper

데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

Abstract AI-Helper 아이콘AI-Helper

Data format of Big data is diverse and vast, and its generation speed is very fast, requiring new management and analysis methods, not traditional data processing methods. Textual mining techniques can be used to extract useful information from unstructured text written in human language in online d...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 경향을 파악하기 위해서는 문서들의 주제를 분류해야 하는데, 본 연구에서는 이를 위하여 텍스트 속에서 주제를 자동으로 찾아주는 LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 주제를 추출하고 이로부터 사람들이 실제로 그 주제에 얼마만큼 관심을 가지고 있는지를 파악해 보고자 한다. 본 연구는 일정 기간 동안에 전체 뉴스 스크래핑을 수행하는 것이 아니라 특정 키워드를 기반으로 뉴스 스크래핑을 수행한 후 정보를 수집하고 그 결과로부터 주어진 키워드와 관련된 정책 또는 방향이 어떻게 진행 및 추진 되었는지를 파악해보고, 그 결과를 기반으로 향후 추진 방향 또는 미흡한 부분을 보완할 수 있는 기틀을 마련하는 데 연구의 목적이 있다.
  • 경향을 파악하기 위해서는 문서들의 주제를 분류해야 하는데, 본 연구에서는 이를 위하여 텍스트 속에서 주제를 자동으로 찾아주는 LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 주제를 추출하고 이로부터 사람들이 실제로 그 주제에 얼마만큼 관심을 가지고 있는지를 파악해 보고자 한다. 본 연구는 일정 기간 동안에 전체 뉴스 스크래핑을 수행하는 것이 아니라 특정 키워드를 기반으로 뉴스 스크래핑을 수행한 후 정보를 수집하고 그 결과로부터 주어진 키워드와 관련된 정책 또는 방향이 어떻게 진행 및 추진 되었는지를 파악해보고, 그 결과를 기반으로 향후 추진 방향 또는 미흡한 부분을 보완할 수 있는 기틀을 마련하는 데 연구의 목적이 있다. 본 연구에서는 ‘정부3.
  • 본 연구에서는 ‘정부3.0’의 효과적인 추진과 생애주기별 맞춤형 서비스 및 국민 행복 실현을 위하여 정부차원에서 빅데이터 추진 방안을 마련하는데 기반이 된 ‘정부3.0’과 관련하여 웹에 게시된 ‘정부3.0’ 관련 뉴스인 비정형 데이터에 대하여 의미있는 정보를 추출하기 위하여 웹스크래핑을 통하여 뉴스정보를 수집하고 텍스트마이닝 기법을 이용하여 데이터 셋을 얻은 후 LDA를 적용하여 정부3.0과 관련하여 사람들이 어떻게 생각하며 인식하고 있는지를 자동 생성된 주제(topic)를 기반으로 파악하고 핵심가치에 대한 내용이 얼마나 반영되었는지 분석하고자 한다.
  • 본 연구에서는 웹뉴스를 기반으로 정부3.0에 대한 사람들의 인식과 관심도를 파악하고 핵심가치 및 추진목표 등이 얼마나 전파되었는지를 웹스크래핑을 통하여 웹에 게시된 뉴스를 수집하고, LDA 기법을 사용하여 년도별로 정부3.0에 대한 전반적인 관심도 및 흐름을 파악해 보고자 한다. 제 2장에서는 관련 연구에 대해 다루고 제 3장에서는 텍스트 데이터 처리 방법 등 연구 방법에 대해 기술한다.
  • 본 연구에서는 특정 키워드를 기반으로 뉴스 스크래핑을 수행한 후 문서를 수집하고 추출된 정보로부터 주어진 키워드와 관련된 정책 또는 방향이 어떻게 진행 및 추진되었는 지를 파악해해보고, 그 결과를 기반으로 향후 추진 방향 또는 미흡한 부분을 보완할 수 있는 기틀을 마련하기 위해 키워드 기반 주제 중심 분석을 수행하였다. 웹스크래핑에 사용된 키워드는 ‘정부3.
  • 본 절에서는 생성된 각 주제들이 정부3.0의 핵심가치 및 추진목표인 ‘개방, 공유, 소통, 협력, 정보공개, 공공데이터 개방, 협업, 정보공유, 맞춤형서비스, 국민중심, 정보보안’ 등 에 얼마나 부합되는지 분석해 보고, 또한 각 주제에 대하여 (단어,빈도수) 결과를 결합하여 최종 관심도 및 흐름 파악 결과도 비교 분석해 보고자 한다.
  • 본 논문에서는 topic-modeling 방법인 LDA모델을 사용하여 인터넷 상의 여러 개의 topic들이 섞여있는 각 문서 (document)에 대하여 단어(word)들의 확률분포로 이루어진 topic들을 분류하였다. 분류된 topic만으로는 키워드의 핵심가치에 대한 분석이 어려우므로 분류된 topic들로부터 주제명을 추출함으로써 제시된 키워드와 관련된 핵심가치에 대한 사람들의 관심도를 분석해 보고자 한다. 즉 document, topic, word의 확률 분포를 이용하여 생성된 각각의 topic기 반 주제명들이 키워드인 ‘정부3.
  • 즉 document, topic, word의 확률 분포를 이용하여 생성된 각각의 topic기 반 주제명들이 키워드인 ‘정부3.0’의 핵심가치인 ‘개방, 공유, 소통, 협력, 정보공개, 공공데이터 개방, 협업, 정보공유, 맞춤형서비스’ 등에 얼마나 부합되는지 분석해 보고, 또한 각 주제에 대하여 (단어, 빈도수) 결과를 결합하여 관심도 및 인식 변화를 비교 분석해 보고자 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
오피니언 마이닝은 무엇인가? 오피니언 마이닝(Opinion Mining)은 특정 주제에 대한 사람들의 주관적인 의견을 통계 및 수치화하여 객관적인 정보로 바꾸는 기술로서 문서의 주제보다 사건이나 인물에 대한 사람들의 의견 뿐만 아니라 긍정, 부정 및 중립 등의 감정과 태도로 분석하기 때문에 감성 분석(Sentiment Analysis) 라고도 불린다[7].
소셜 네트워크 상에서 비정형 데이터로부터 정보를 뽑아내고 분석하는 방법에는 무엇이 있는가? 소셜 네트워크 상에서 비정형 데이터로부터 정보를 뽑아내고 분석하는 방법은 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 자연어처리기술을 이용하여 유용한 정보를 추출하는 Text Mining, 소셜미디어의 문서에 담긴 텍스트 문장을 자연어처리 기술과 감정 분석 기술을 적용하여 사용자의 의견을 분석하는 Opinion Mining, 네트워크 연결구조와 연결 강도를 분석하여 어떤 메시지가 어떤 경로를 통해 전파되는지를 파악하는 Network Analysis 등이 있다. 또한, 키워드간 상호관계를 예측하는 Data Mining과 시각화 등의 방법으로 빅데이터를 분석할 수 있다[3].
비정형 데이터의 생성 속도가 매우 빠르게 증가하는 이유는 무엇인가? 또한 시간이 흐르면서 데이터의 종류도 복잡해지고 다양화되고 있으며 특히, 비정형 데이터의 생성 속도가 매우 빠르게 증가하고 있는 추세이다. 이는 PC와 인터넷 같은 디지털 기기의 사용과 함께, 페이스북이나 트위터 등의 소셜 네트워크 서비스 (SNS)가 모바일 폰의 사용과 결합되면서 엄청난 시너지 효과를 내고 있기 때문이다[1]. 또한 스마트 단말 사용자들이 거의 모든 시간대에 SNS로 자신들의 ‘감정’ 데이터를 쏟아내고 있을 뿐만 아니라 스마트폰에 내장된 GPS, 가속센서, 거리센서 등도 시시각각 상황(context) 정보를 양산하는 등 모바일시대가 도래하면서 더 빠르게 진화하고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. J. P. Woo, "Big Data Analysis will ahead," Maekyung Pub. pp.236-251, 2017. 

  2. "The Guide for Advanced Data Analytics Professional," Korea Database Agency, 2014. 

  3. T. M. Song and J. Y. Song, "Social Big Data Research Methodology with R," Hannarae Pub., ch. 1, pp.16-39, 2016. 

  4. Tag Cloud [Internet], https://ko.wikipedia.org/wiki/ 

  5. K. T. Kim, J. G. Ahn, and D. H. Kim, "Big Data Weapering 1," AgePerson Pub., ch. 1, pp.4-12, 2017. 

  6. Y. D. Yun, J. H. Jo, and H. S. Lim, "A Comparative Analysis of Cognitive Change about Big Data Using Social Media Data Analysis," in KIPS Tr. Software and Data Eng., Vol.6, No.7, pp.371-378, 2017. 

  7. Opinion Mining [Internet], https://www.facebook.com/kubigdata/posts/504333396427600 

  8. B. I. Kang, M. Song, and W. S. Jho, "A Study on Opinion Mining of Newspaper Texts based on Topic Modeling," Journal of Korean Society for Library and Information Science, Vol.47, No.4, pp.315-334, 2013. 

  9. David M. Blei, Andrew Y. Ng, and Michael I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, 3(Jan.), pp.993-1022, 2003. 

  10. Taemin Cho and Jee-Hyong Lee, "Latent Keyphrase Extraction using LDA Model," Journal of Korean Institute of Intelligent Systems, Vol.25, No.2, pp.180-185, 2015. 

  11. R. D. Lee, J. M. Kim, and J. S. Lee, "Analysis of twitter topic using LDA," Journal of Korean Institute of Intelligent Systems, Vol.25, No.2, pp.180-185, 2015. 

  12. B. M. Jeong, T. H. Kim, J. Lee, and J. S. Kim, "Twitter Topic Extraction and Topic Category Decision using LDA Model," Proceedings of KISSE Winter Conference, pp.787-788, Dec., 2014. 

  13. Yohan Jo, Dongwoo Kim, Il-Chul Moon, and Haeyun Oh [Internet], http://seslab.kaist.ac.kr/xe2/?modulefile&actprocFileDownload&file_srl5591, 2009. 

  14. S. Y. Bong and K. B. Hwang, "Applying Labeled LDA to Author Keywirds Recommendation," Proceedings of KIISE Spring Conference, Vol.37, No.1(C), pp.385-389, 2010. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로