[논문]토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석

김규하; 박철용

doi:10.7465/jkdi.2015.26.1.151

초록
AI-Helper

이 논문에서는 텍스트마이닝 (text mining) 기법을 이용하여 한국데이터정보과학회지에 게재된 논문의 영어초록을 분석하였다. 먼저 다양한 방법을 통해 단어-문서 행렬 (term-document matrix)을 생성하고 이를 사회연결망 분석 (social network analysis)을 통해 시각화하였다. 또한 토픽을 추출하기 위한 방법으로 LDA (latent Dirichlet allocation)와 CTM (correlated topic model)을 사용하였다. 토픽의 수, 단어-문서 행렬의 생성방법에 따라 엔트로피 (entropy)를 통해 토픽 추출 모형들의 성능을 비교하였다.

Abstract ▼ AI-Helper

This article analyzes English abstracts of the articles published in Journal of the Korean Data & Information Science Society using text mining techniques. At first, term-document matrices are formed by various methods and then visualized by social network analysis. LDA (latent Dirichlet allocation)...

This article analyzes English abstracts of the articles published in Journal of the Korean Data & Information Science Society using text mining techniques. At first, term-document matrices are formed by various methods and then visualized by social network analysis. LDA (latent Dirichlet allocation) and CTM (correlated topic model) are also employed in order to extract topics from the abstracts. Performances of the topic models are compared via entropy for several numbers of topics and weighting methods to form term-document matrices.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

각 모형에서 추출된 단어 일부를 이용하여 단어들 간의 관계, 나아가 토픽들 간의 관계를 시각화 자료를 통해 해석할 수 있다. 또한 빈도가 높은 단어들을 추출하고 추출된 단어들과 문서들의 사회연결망을 통해 문서의 특징에 대해 분석하고자 한다.
다양한 토픽 모형들이 존재하지만 Blei 등 (2003)이 제안한 LDA (latent Dirichlet allocation)와 Blei와 Lafferty (2006)가 제안한 DTM (dynamic topic models), Blei와 Lafferty (2007)가 제안한 CTM (correlated topic models)이 지금까지도 많이 사용되고 있다. 본 논문에서는 LDA와 CTM을 실제 자료에 적용하여 비교분석하고자 한다. LDA의 경우 토픽 1에 포함된 단어들과 토픽 2에 포함된 단어들 간의 상관성을 가정하지 않는 반면, CTM의 경우 상관성이 있다는 가정을 하게 된다.

가설 설정

본 논문에서는 LDA와 CTM을 실제 자료에 적용하여 비교분석하고자 한다. LDA의 경우 토픽 1에 포함된 단어들과 토픽 2에 포함된 단어들 간의 상관성을 가정하지 않는 반면, CTM의 경우 상관성이 있다는 가정을 하게 된다. 이러한 모형의 특징은 분포에 기인한 것으로 2.

제안 방법

먼저 토픽 모형에 적용하기 전 빈도가 높은 단어들과 논문들 간의 관계를 시각화시켜 보았다.
자료 분석에는 통계프로그래밍 언어인 R을 이용하였다. 본 연구에서는 단어-문서 행렬 (term-document matrix)을 만들고 LDA와 CTM을 이용하여 토픽을 추출하기 위해 tm 및 topicmodels 패키지를 사용하였고, 두 토픽 모형의 특징을 시각화하기 위해 igraph 패키지를 이용하여 사회연결망으로 나타내었다. LDA와 CTM을 비교분석하기 위해 사용된 데이터는 2013년 한국데이터정보과학회지에 게재된 142편의 논문의 영어초록이다.
LDA와 CTM을 비교분석하기 위해 사용된 데이터는 2013년 한국데이터정보과학회지에 게재된 142편의 논문의 영어초록이다. 원 데이터를 이용하여 단어-문서 행렬을 만들고, 계산된 단어-문서 행렬을 이용하여 모형을 생성한 후에 토픽의 수에 따라 토픽 모형에서 추출된 단어에 어떤 차이가 있는지 확인하였다.
이 절에서는 2절에서 설명한 LDA와 CTM을 실제 데이터에 적용하고 그 결과를 비교분석한다. 자료 분석에는 통계프로그래밍 언어인 R을 이용하였다.
한 명이 하루에 한 문장의 정보를 업로드 한다고 가정하면 일주일이면 대략 92억 개의 문장이 생성이 된다. 이렇게 생성된 92억 개의 문장에서 중요한 정보를 가진 단어들을 추출하고 추출된 단어들과 문장들 간 관계를 파악하기 위해 비정형 데이터 분석 방법 중 하나인 토픽 모형 (topic models)을 적용할 수 있을 것이다.

대상 데이터

본 연구에서는 단어-문서 행렬 (term-document matrix)을 만들고 LDA와 CTM을 이용하여 토픽을 추출하기 위해 tm 및 topicmodels 패키지를 사용하였고, 두 토픽 모형의 특징을 시각화하기 위해 igraph 패키지를 이용하여 사회연결망으로 나타내었다. LDA와 CTM을 비교분석하기 위해 사용된 데이터는 2013년 한국데이터정보과학회지에 게재된 142편의 논문의 영어초록이다. 원 데이터를 이용하여 단어-문서 행렬을 만들고, 계산된 단어-문서 행렬을 이용하여 모형을 생성한 후에 토픽의 수에 따라 토픽 모형에서 추출된 단어에 어떤 차이가 있는지 확인하였다.

데이터처리

본 연구에서는 토픽 모형에서 널리 알려진 LDA와 CTM 방법을 이용하였다. 또한 LDA와 CTM의 이론적 특징을 이해하기 쉽도록 시각화하기 위해 사회연결망 분석을 이용하였다. 두 토픽 모형을 2013년 한국데이터정보과학회지에 게재된 논문의 영어 초록에 적용한 결과 LDA에서는 일부 논문에서 사용되는 특정한 단어들이 많이 추출된 반면, CTM에서는 여러 논문에서 공동으로 나타나는 단어들이 많이 추출되었다.

이론/모형

토픽 모형은 아직 활발히 연구 중인 비정형 데이터 분석의 한 분야이다. 본 연구에서는 토픽 모형에서 널리 알려진 LDA와 CTM 방법을 이용하였다. 또한 LDA와 CTM의 이론적 특징을 이해하기 쉽도록 시각화하기 위해 사회연결망 분석을 이용하였다.

성능/효과

글자의 크기는 연결선 수 (degree)에 의해 크기가 결정되며, 녹색은 추출된 단어의 노드 (node)이고, 붉은색은 142편의 논문의 노드를 의미한다. 논문에서 가장 많이 출현한 단어는 data (70회)이며, 다음으로 model (60회), results (59회), method (55회) 순으로 나타났다. Figure 3.
또한 LDA와 CTM의 이론적 특징을 이해하기 쉽도록 시각화하기 위해 사회연결망 분석을 이용하였다. 두 토픽 모형을 2013년 한국데이터정보과학회지에 게재된 논문의 영어 초록에 적용한 결과 LDA에서는 일부 논문에서 사용되는 특정한 단어들이 많이 추출된 반면, CTM에서는 여러 논문에서 공동으로 나타나는 단어들이 많이 추출되었다. 그러므로 사용자의 요구에 따라 두 모형을 적절히 사용할 수 있을 것이다.
그러므로 사용자의 요구에 따라 두 모형을 적절히 사용할 수 있을 것이다. 또한 사회연결망을 이용한 시각화 과정에서 특정 단어와 관계된 문서를 찾거나 수치적으로 나타낼 수 있음을 알 수 있었다. 나아가 한글 텍스트의 형태소 분석과 어근 추출에 따른 문제점이 줄어든다면, 다양한 한글 문서에 적용하여 분석 및 시각화를 할 수 있을 것이다.

후속연구

또한 사회연결망을 이용한 시각화 과정에서 특정 단어와 관계된 문서를 찾거나 수치적으로 나타낼 수 있음을 알 수 있었다. 나아가 한글 텍스트의 형태소 분석과 어근 추출에 따른 문제점이 줄어든다면, 다양한 한글 문서에 적용하여 분석 및 시각화를 할 수 있을 것이다. 또한 다년간 축적된 대용량의 데이터일 경우에도 본 연구의 결론과 동일할지는 추후 연구가 필요할 것이다.
나아가 한글 텍스트의 형태소 분석과 어근 추출에 따른 문제점이 줄어든다면, 다양한 한글 문서에 적용하여 분석 및 시각화를 할 수 있을 것이다. 또한 다년간 축적된 대용량의 데이터일 경우에도 본 연구의 결론과 동일할지는 추후 연구가 필요할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	사회연결망 서비스 어플리케이션은 어떤 어플리케이션인가?	그 중 대부분의 스마트폰 유저들은 메신저와 사회연결망 서비스 어플리케이션을 사용하고 있거나 사용한 경험이 있을 것이다. 위 어플리케이션들은 스마트폰을 이용하여 서로 문자를 주고받거나, 자신의 정보 및 상태를 글과 사진을 통하여 실시간 업로드를 할 수 있는 어플리케이션이다. 이 어플리케이션을 통해 구조와 형태가 복잡하고 정형화되지 않은 글, 사진, 영상과 같은 비정형 데이터들이 생성되고 있다.
	Blei와 Lafferty에 의하면 LDA는 무엇을 예측하고자 하는 것인가?	또한 계층적 구조로서 각 문서에서 토픽들을 구성하고 구성된 토픽에서 단어를 추출하게 된다. Blei와 Lafferty (2009)에 의하면 LDA는 관측된 각 문서의 단어들을 이용하여 은닉 변수 (hidden variables)로 표현된 잠재 토픽 구조 (latent topical structure)를 예측하고자 하는 것이다. Figure 2.
	사회연결망 서비스 어플리케이션은 어떤 데이터를 생성하고 있는가?	위 어플리케이션들은 스마트폰을 이용하여 서로 문자를 주고받거나, 자신의 정보 및 상태를 글과 사진을 통하여 실시간 업로드를 할 수 있는 어플리케이션이다. 이 어플리케이션을 통해 구조와 형태가 복잡하고 정형화되지 않은 글, 사진, 영상과 같은 비정형 데이터들이 생성되고 있다. 예를 들어 대표적 사회연결망 서비스 어플리케이션인 페이스북의 사용자는 2014년 6월 기준 약 13억 2천만 명이다.

참고문헌 (8)

Blei, D. M. and Lafferty, J. D. (2006). Dynamic topic models. Proceedings of the 23rd International Conference on Machine Learning, 113-120.
Blei, D. M. and Lafferty, J. D. (2007). A correlated topic model of science. The Annals of Applied Statistics, 1, 17-35.

상세보기
Blei, D. M. and Lafferty, J. D. (2009). Topic models. In Text Mining: Classification, Clustering, and Applications, edited by A. N. Srivastava and M. Sahami, Champman and Hall/CRC, Boca Raton, 71-94.
Blei, D. M., Ng, A. Y. and Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3, 993-1022.
Chung, H. and Han, C. (2013). Conditional bootstrap confidence intervals for classification error rate when a block of observations is missing. Journal of the Korean Data & Information Science Society, 24, 189-200.

원문보기 상세보기
Hornik, K. and Grun, B. (2011). topicmodels: An R package for fitting topic models. Journal of Statistical Software, 40, 1-30.
Huang, J. and Malisiewicz, T. (2006). Correlated topic model details, Technical Report, Carnegie Mellon University, Pittsburgh, PA.
Shim, J., Kim, Y. and Hwang, C. (2013). Generalized kernel estimating equation for panel estimation of small area unemployment rates. Journal of the Korean Data & Information Science Society, 24, 1199-1210.

원문보기 상세보기

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석
Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석 Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

박철용 (50)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석
Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper