텍스트 마이닝을 이용한 매체별 에볼라 주제 분석 - 바이오 분야 연구논문과 뉴스 텍스트 데이터를 이용하여 - Text Mining Driven Content Analysis of Ebola on News Media and Scientific Publications원문보기
에볼라 바이러스(Ebola virus disease)와 같은 전염병들은 사회적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되기도 한다. 이에 따라 국내외로 전염병과 관련된 텍스트 마이닝 연구가 활발하게 진행되고 있으나, 텍스트 마이닝 기법을 사용하여 상이한 특성을 가진 매체 간 주제를 분석한 연구는 아직까지 진행되지 않고 있다. 따라서 본 연구에서는 전염병 중 하나인 에볼라를 키워드로 하여 사회적 특성을 지닌 뉴스 기사와 바이오 분야의 전문적 특성을 지닌 연구 논문 간의 주제 분석을 진행하였다. 텍스트 분석에는 매체별 문헌 데이터로부터 다양한 토픽들을 추출하기 위해 토픽모델링 기법을 적용하였고, 매체 간의 구체적인 내용 분석을 위해 중요 개체를 선정하고 이를 중심으로 동시출현 단어 네트워크 분석을 수행하였다. 또한 각 매체별로 등장하는 주제를 시각적으로 표현하기 위해 토픽맵을 구축하였다. 분석 결과, 두 매체에서 다루는 주제의 차이점과 공통점을 발견할 수 있었으며 동시 출현 주제의 시계열 분석을 통해 매체 간 특성의 차이를 찾을 수 있었다. 본 연구를 통해 상이한 특성을 지닌 매체들의 주제와 개체들을 함께 제시하고, 매체 간의 공통점과 차이점을 보여줌으로써 매체별 정보 생산자들이 연구 및 현상 분석을 진행하는 데 있어 관점의 다양성을 제공할 수 있을 것이다.
에볼라 바이러스(Ebola virus disease)와 같은 전염병들은 사회적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되기도 한다. 이에 따라 국내외로 전염병과 관련된 텍스트 마이닝 연구가 활발하게 진행되고 있으나, 텍스트 마이닝 기법을 사용하여 상이한 특성을 가진 매체 간 주제를 분석한 연구는 아직까지 진행되지 않고 있다. 따라서 본 연구에서는 전염병 중 하나인 에볼라를 키워드로 하여 사회적 특성을 지닌 뉴스 기사와 바이오 분야의 전문적 특성을 지닌 연구 논문 간의 주제 분석을 진행하였다. 텍스트 분석에는 매체별 문헌 데이터로부터 다양한 토픽들을 추출하기 위해 토픽모델링 기법을 적용하였고, 매체 간의 구체적인 내용 분석을 위해 중요 개체를 선정하고 이를 중심으로 동시출현 단어 네트워크 분석을 수행하였다. 또한 각 매체별로 등장하는 주제를 시각적으로 표현하기 위해 토픽맵을 구축하였다. 분석 결과, 두 매체에서 다루는 주제의 차이점과 공통점을 발견할 수 있었으며 동시 출현 주제의 시계열 분석을 통해 매체 간 특성의 차이를 찾을 수 있었다. 본 연구를 통해 상이한 특성을 지닌 매체들의 주제와 개체들을 함께 제시하고, 매체 간의 공통점과 차이점을 보여줌으로써 매체별 정보 생산자들이 연구 및 현상 분석을 진행하는 데 있어 관점의 다양성을 제공할 수 있을 것이다.
Infectious diseases such as Ebola virus disease become a social issue and draw public attention to be a major topic on news or research. As a result, there have been a lot of studies on infectious diseases using text-mining techniques. However, there is no research on content analysis of two media c...
Infectious diseases such as Ebola virus disease become a social issue and draw public attention to be a major topic on news or research. As a result, there have been a lot of studies on infectious diseases using text-mining techniques. However, there is no research on content analysis of two media channels that have distinct characteristics. Accordingly, in this study, we conduct topic analysis between news (representing a social perspective) and academic research paper (representing perspectives of bio-professionals). As text-mining techniques, topic modeling is applied to extract various topics according to the materials, and the word co-occurrence map based on selected bio entities is used to compare the perspectives of the materials specifically. For network analysis, topic map is built by using Gephi. Aforementioned approaches uncovered the difference of topics between two materials and the characteristics of the two materials. In terms of the word co-occurrence map, however, most of entities are shared in both materials. These results indicate that there are differences and commonalties between social and academic materials.
Infectious diseases such as Ebola virus disease become a social issue and draw public attention to be a major topic on news or research. As a result, there have been a lot of studies on infectious diseases using text-mining techniques. However, there is no research on content analysis of two media channels that have distinct characteristics. Accordingly, in this study, we conduct topic analysis between news (representing a social perspective) and academic research paper (representing perspectives of bio-professionals). As text-mining techniques, topic modeling is applied to extract various topics according to the materials, and the word co-occurrence map based on selected bio entities is used to compare the perspectives of the materials specifically. For network analysis, topic map is built by using Gephi. Aforementioned approaches uncovered the difference of topics between two materials and the characteristics of the two materials. In terms of the word co-occurrence map, however, most of entities are shared in both materials. These results indicate that there are differences and commonalties between social and academic materials.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 에볼라와 관련하여 두 매체(학술문헌, 뉴스) 간의 주제 분석을 위해 토픽 모델링과 동시출현 네트워크 분석 기법을 수행하고 두 매체에서 나타나는 특성들을 살펴보았다. 우선 토픽모델링을 통해서는 학술문헌과 뉴스 간의 주제적 차이를 극명하게 알 수 있었다.
이때, 토픽 모델 생성반복횟수와 분석 시간은 반비례 관계에 있기 때문에 효율성과 정확성을 모두 얻기 위해서는 적당한 수의 반복횟수를 설정해 주어야 한다. 이를 위해 보통 1,000에서 2,000 사이의 값으로 설정하는 것을 권고하고 있고, 본 연구에서는 반복횟수를 1,000으로 설정하여 효율적으로 토픽모델을 생성함과 동시에 모델의 정확성도 얻고자 하였다. 토픽 모델링 수행 이후 토픽별 주제선정 과정에는 바이오 분야 주제 전문가의 조언을 참고하였다.
김은경 등(2013)은 현대사회의 전염병 전파가 갖고 있는 복잡성에 주목하여, 일일 교통량, 인구 통계, 항공 통계자료, 질병자료를 아우르는 데이터들을 사용하여 전염병 확산이 되어가는 과정을 시뮬레이션 했다. 이를 통해 전염병이 감염되는 경로를 추적하고 나아가 확산 경로와 그 정도를 예측하고자 하였다. 황교상 등(2014)은 특정 지역의 인구 주택 총 조사 자료를 사용하여 개인별 이동패턴을 고려한 전염병 확산 시뮬레이션 모델을 구현하고 그 효과를 예측하였다.
제안 방법
본 연구에서는 추가된 문헌의 자질로 연도와 달 데이터를 선정하여 토픽모델링을 수행하였다. LDA와 DMR 토픽모델링은 기본적으로 문헌집단의 주제 분포와 주제별 단어의 생성 확률에 기초한 분석이기 때문에 문헌집단이 잠재적으로 가지고 있는 주제의 개수와 그 주제를 나타내는 단어의 개수를 연구자가 임의로 설정하여 분석을 진행하게 된다. 본 연구의 경우 분석 대상이 되는 학술문헌과 뉴스 데이터가 각각 500만, 100만개 이상의 어절을 지닌 대량의 데이터이므로 그에 적합한 잠재 토픽 개수로 30개를 설정하였다.
본 연구는 <그림 1>과 같이 데이터 수집, 전처리, 분석 순서로 진행하였다. 가장 먼저 사회적 관점과 전문 분야의 관점을 가장 잘 대변할 수 있는 데이터로 각각 뉴스와 학술 논문을 선정하였다. 이 중 뉴스 데이터의 경우, Ebsco(https://www.
<그림 9> 문헌집단 내 주제 가중치의 시계열 그래프 <그림 10> ∼<그림 12>는 동시출현 빈도 상위 개체 3개(Ebolum, Virus, Cell)를 이용하여 동시출현 네트워크를 구축한 결과이다. 각 네트워크별로 기초통계분석을 수행하였으며 해당 개체와 함께 한 문장 내에 출현하는 단어가 학술문헌에만 출현하는 지, 뉴스에만 출현하는지 확인하기 위하여 단어들에 각각 bio, social 라벨을 붙여 구분하였다. 라벨이 없는 단어는 학술문헌과 뉴스에서 모두 출현한 개체로 한 매체에만 국한된 것이 아니라 두 매체에서 모두 사용되는 단어이다.
이를 위해 먼저 토픽모델링 기법을 사용하여 문헌 내에서 언급되는 토픽, 즉 주제를 찾고 주제별 가중치를 이용하여 토픽맵을 구축한 후 어떠한 주제들이 언급되는 지 전체적인 주제의 지형도를 파악하였다. 그 후 세부적으로 어떠한 개체들이 어떻게 다른 관점에서 다루어지는지 살펴보기 위하여 연구논문과 뉴스에 공통적으로 등장하는 개체들을 선정하고 개체와 한 문장에 출현한 단어들의 동시출현 관계를 이용한 동시출현 네트워크를 구축하였다. 이를 통해 거시적, 미시적 차원에서의 두 매체 간 차이와 공통점을 발견할 수 있었다.
따라서, 키워드, 주제, 데이터, 주제분야의 항목 등을 통해 해당 분야의 지식구조를 파악할 수 있다는 ‘개체(entity)’ 개념(Ding et al. 2013)을 차용하여 상위 출현빈도를 가진 개체들을 추출하고, 상위 개체 3개(ebolum, virus, cell)를 중심으로 명사, 동사, 형용사만을 추출하여 동시출현 기반 그래프를 구축하였다.
즉 DMR은 주어진 문헌에 대하여 각 문헌에 어떤 주제들이 존재하는지에 대한 확률 모형을 만든 LDA에서 분석에 사용될 변수를 추가하여 분석을 수행한다. 본 연구에서는 추가된 문헌의 자질로 연도와 달 데이터를 선정하여 토픽모델링을 수행하였다. LDA와 DMR 토픽모델링은 기본적으로 문헌집단의 주제 분포와 주제별 단어의 생성 확률에 기초한 분석이기 때문에 문헌집단이 잠재적으로 가지고 있는 주제의 개수와 그 주제를 나타내는 단어의 개수를 연구자가 임의로 설정하여 분석을 진행하게 된다.
이를 이용하여 에볼라가 각 매체에서 어떠한 관점에서 다루어지는지 그 공통점과 차이점을 거시적 측면과 미시적 측면에서 분석하였다. 이를 위해 먼저 토픽모델링 기법을 사용하여 문헌 내에서 언급되는 토픽, 즉 주제를 찾고 주제별 가중치를 이용하여 토픽맵을 구축한 후 어떠한 주제들이 언급되는 지 전체적인 주제의 지형도를 파악하였다. 그 후 세부적으로 어떠한 개체들이 어떻게 다른 관점에서 다루어지는지 살펴보기 위하여 연구논문과 뉴스에 공통적으로 등장하는 개체들을 선정하고 개체와 한 문장에 출현한 단어들의 동시출현 관계를 이용한 동시출현 네트워크를 구축하였다.
따라서 본 연구는 위의 가정을 검증하기위하여 전염병 중 하나인 에볼라를 키워드로 하여 최근 6년 동안 발행된(2010년~2015년) 바이오 분야의 연구논문과 뉴스 데이터를 수집하였다. 이를 이용하여 에볼라가 각 매체에서 어떠한 관점에서 다루어지는지 그 공통점과 차이점을 거시적 측면과 미시적 측면에서 분석하였다. 이를 위해 먼저 토픽모델링 기법을 사용하여 문헌 내에서 언급되는 토픽, 즉 주제를 찾고 주제별 가중치를 이용하여 토픽맵을 구축한 후 어떠한 주제들이 언급되는 지 전체적인 주제의 지형도를 파악하였다.
Lee 등(2015)은 전문가와 대중이 당뇨병에 대해 갖는 다른 관점을 파악하기 위하여 Pubmed가 제공하는 당뇨병 연구 문헌의 초록과 당뇨병 관련 커뮤니티의 게시글을 수집하였다. 이후, 개체들 간의 관계를 추출하고, 그래프 분석을 통해 전문가와 대중들이 당뇨병에 대해 어떠한 다른 관점을 가지고 있는지 밝혀냈다.
이를 위해 보통 1,000에서 2,000 사이의 값으로 설정하는 것을 권고하고 있고, 본 연구에서는 반복횟수를 1,000으로 설정하여 효율적으로 토픽모델을 생성함과 동시에 모델의 정확성도 얻고자 하였다. 토픽 모델링 수행 이후 토픽별 주제선정 과정에는 바이오 분야 주제 전문가의 조언을 참고하였다.
대상 데이터
또한, 국내에서 전염병에 대한 텍스트 마이닝 분야의 연구는 예측시스템 구축을 중심으로 진행되어왔다. 따라서 본 연구는 위의 가정을 검증하기위하여 전염병 중 하나인 에볼라를 키워드로 하여 최근 6년 동안 발행된(2010년~2015년) 바이오 분야의 연구논문과 뉴스 데이터를 수집하였다. 이를 이용하여 에볼라가 각 매체에서 어떠한 관점에서 다루어지는지 그 공통점과 차이점을 거시적 측면과 미시적 측면에서 분석하였다.
com/)에서 총 42,330개의 뉴스를 수집하였다. 바이오 전문 분야 데이터의 경우, PMC(http://www.ncbi.nlm.nih.gov/pmc/)에서 제공하는 학술 논문 전문 4,222개를 수집하였다. 두 데이터 모두 검색 키워드로 ‘ebola’를 사용하였다.
본 연구에서는 DMR을 사용한 토픽모델링의 변수로 날짜데이터를 선정하였다. 학술 문헌과 뉴스 데이터 모두 에볼라가 가장 유행했던 기간인 2010년 1월부터 2015년 12월까지 데이터를 대상으로 분석을 실시하였다.
LDA와 DMR 토픽모델링은 기본적으로 문헌집단의 주제 분포와 주제별 단어의 생성 확률에 기초한 분석이기 때문에 문헌집단이 잠재적으로 가지고 있는 주제의 개수와 그 주제를 나타내는 단어의 개수를 연구자가 임의로 설정하여 분석을 진행하게 된다. 본 연구의 경우 분석 대상이 되는 학술문헌과 뉴스 데이터가 각각 500만, 100만개 이상의 어절을 지닌 대량의 데이터이므로 그에 적합한 잠재 토픽 개수로 30개를 설정하였다. 이때, 토픽 모델 생성반복횟수와 분석 시간은 반비례 관계에 있기 때문에 효율성과 정확성을 모두 얻기 위해서는 적당한 수의 반복횟수를 설정해 주어야 한다.
가장 먼저 사회적 관점과 전문 분야의 관점을 가장 잘 대변할 수 있는 데이터로 각각 뉴스와 학술 논문을 선정하였다. 이 중 뉴스 데이터의 경우, Ebsco(https://www.ebscohost.com/)와 의학전문기사 사이트인 MNT(http://www.medicalnewstoday.com/)에서 총 42,330개의 뉴스를 수집하였다. 바이오 전문 분야 데이터의 경우, PMC(http://www.
본 연구에서는 DMR을 사용한 토픽모델링의 변수로 날짜데이터를 선정하였다. 학술 문헌과 뉴스 데이터 모두 에볼라가 가장 유행했던 기간인 2010년 1월부터 2015년 12월까지 데이터를 대상으로 분석을 실시하였다. <그림 9>는 두 매체에서 동시에 등장한 주제들(Bat as a host, Medicine, Public Health, Ebola Outbreak)을 대상으로 시간에 따라 문헌집단에서 해당 토픽이 가진 가중치가 어떻게 변화하는 지 그 추이를 시계열 그래프로 나타낸 것이다.
데이터처리
2009)를 사용하였다. 아울러, 각 토픽맵 간의 상세한 비교를 위하여 네트워크 별로 기초 통계분석을 수행하였으며 연결중심성 값을 기준으로 각 네트워크에서 중요한 단어들을 추출하였다. 연결중심성이란, 네트워크를 구성하고 있는 하나의 노드가 네트워크 상의 다른 노드들과 연결되는 정도를 나타내는 값으로, 그 값이 높을수록 다른 노드들과 많이 연결되어 네트워크에서 높은 영향력을 가지는 것으로 해석할 수 있다.
이론/모형
불용어 처리에는 일반적인 영어 불용어 사전을 이용하였으며 품사태깅을 거쳐 동사, 명사, 형용사, 부사에 해당하는 단어들만 분석에 포함하였다. 데이터 분석에는 토픽 모델링기법과 동시출현 네트워크 구축 기법을 적용하였다.
두 데이터 모두 검색 키워드로 ‘ebola’를 사용하였다. 데이터 수집 이후 분석을 위한 전처리를 수행하였으며 StanfodNLP(Manning et al. 2014)의 원형복원, 불용어 처리, 품사태깅 기능이 사용되었다. 불용어 처리에는 일반적인 영어 불용어 사전을 이용하였으며 품사태깅을 거쳐 동사, 명사, 형용사, 부사에 해당하는 단어들만 분석에 포함하였다.
<그림 7>과 <그림 8>은 각각 PMC와 뉴스 데이터에서 도출된 토픽 구성 단어들을 노드로, 토픽별 단어의 가중치를 엣지로 설정하여 토픽맵을 그린 것이다. 두 단어가 같은 토픽에 등장할 경우 두 단어는 연결되어 있다는 가정하에 노드들이 연결되었으며 시각화에는 Gephi(Bastian et al. 2009)를 사용하였다. 아울러, 각 토픽맵 간의 상세한 비교를 위하여 네트워크 별로 기초 통계분석을 수행하였으며 연결중심성 값을 기준으로 각 네트워크에서 중요한 단어들을 추출하였다.
본 연구에서 사용된 토픽 모델링 기법은 DMR(Dirichlet-multinomial Regression)이다. 이는 Blei 등(2013)이 제시한 토픽 모델링 기법인 LDA(Latent Dirichlet Allocation)를 기반으로 문헌-주제 분포에 근거한 log-linear prior를 사용하여 저자, 발행처, 참고문헌, 날짜와 같은 문헌의 자질들을 토픽모델링 분석에 추가한 것이다(Mimno and McCallum 2012).
성능/효과
이와 비슷한 연구로는 Househ(2015)의 연구를 들 수 있는데, 해당 연구는 에볼라에 대한 정보를 교환하는 과정에서 뉴스 미디어와 트위터가 사용되는 양상을 분석하고 그 관계를 밝혀냈다. 기술통계를 적용하여 분석한 결과, 트위터는 뉴스매체의 연장선상에서 사용되는 경향이 있으나, 그 여파가 24시간 이내인 것으로 드러났다. 전염병 외의 질병에 대한 다른 관점을 분석한 연구들 또한 진행되었다.
<표 2>는 수집된 데이터의 기술통계이다. 뉴스와 연구 논문의 형태적 특성상, 연구 논문의 수가 뉴스의 수보다 매우 적으나, 어절의 개수는 2배 이상 많은 것을 확인할 수 있다. <그림 3>은 수집 데이터의 개수가 시계열 추이에 따라 변화하는 것을 나타낸 것이다.
PMC의 경우 에볼라와 관련된 주제로 RT PCR, siRNA, DC Sign, Monoclonal Antibody와 같은 바이오 분야의 전문적인 주제가 나타나는 반면, 뉴스의 경우 Health Organization, American Politics, Sierra Leone, Military 등과 같은 사회적 주제가 많이 나타나는 것을 볼 수 있었다. 또한 토픽 모델링 결과를 이용하여 시계열 분석을 해 본 결과 기존에 알려진 것처럼 뉴스는 학술문헌보다 이슈에 민감한 양상을 갖고 있음을 알 수 있었다. 이는 에볼라와 관련된 어떠한 주제가 이슈가 되었을 때와 그러한 이슈와 관련된 학술문헌이 나오기까지의 시간이 길다는 매체의 특성에서 기인한 것으로 볼 수 있다.
69)에 비해 낮은 연결중심성을 보이고 있는데, 이는 Ebolum 동시출현 네트워크의 대부분을 구성하고 있는 뉴스 텍스트의 문장 길이가 학술 문헌을 이루고 있는 문장 길이보다 현저히 짧은 데에서 기인한 것으로 볼 수 있다. 또한, Ebolum 동시출현 네트워크와 같이 Texa, Dalla와 같은 지명을 나타내는 단어에 social 라벨이 붙어있어, 이 단어들은 뉴스에서만 사용되었다는 것을 확인할 수 있다.
마지막으로, 학술문헌에서는 ‘Cell, Protein, Gene, RNA’와 같이 바이러스가 직접적으로 작용하는 생명체 내의 개체단위가 중요한 단어들로 추출된 반면, 뉴스에서는 ‘Country, Case, Treat, Hospital’과 같이 사람을 연상시키는 단어들이 중요 단어로 추출되었다.
Seltzer 등(2015) 역시 미국 내의 에볼라 창궐기간 동안의 데이터를 분석하였는데, 사진 공유를 기반으로 하는 사회관계망 서비스(SNS)인 Instagram과 Flicker에 게시된 사진 데이터를 대상으로 코딩분석을 수행하였다. 분석 결과 같은 사진 기반 SNS라 하더라도 에볼라에 관련된 서로 다른 측면을 담은 사진들을 게시하는 것으로 나타났다. Kim 등(2015)의 경우, 에볼라가 가장 창궐한 3개월(2014년 6월~2014년 8월)에 대한 뉴스와 트위터 데이터를 수집하여, 두 매체 간 주제 분석을 통해 에볼라라는 질병이 어떻게 다르게 이야기되고 있는 지 분석하고, 감성분석을 통해 각 매체의 감성 추이를 추적하였다.
Towers 등(2015)은 기존의 전염병 예측 시스템이 검색엔진 검색 추이만을 반영한 기존의 방법에 한계가 있다는 것을 밝혀내기 위하여, 에볼라와 관련된 미국 내의 TV 뉴스 방송과 트윗, 인터넷 검색 빈도 간의 관계를 분석하였다. 분석에는 여러 통계적 모형이 활용되었으며, 분석 결과 에볼라를 주제로 한 TV 뉴스가 방송될 경우, 에볼라를 키워드로 한 인터넷 검색양과 트윗의 양이 유의미하게 증가하는 것으로 밝혀졌다. Seltzer 등(2015) 역시 미국 내의 에볼라 창궐기간 동안의 데이터를 분석하였는데, 사진 공유를 기반으로 하는 사회관계망 서비스(SNS)인 Instagram과 Flicker에 게시된 사진 데이터를 대상으로 코딩분석을 수행하였다.
우측 하단의 커뮤니티에는 다소 에볼라와 연관성이 떨어지는 단어들이 커뮤니티를 구성하고 있는데, 이는 문헌상에서 자주 등장함에도 불구하고 토픽 모델링 결과를 구성하고 있는 주제들에서 중요한 의미를 갖고 있지 않아 낮은 가중치를 가진 주제들이 토픽맵 시각화 과정에서 커뮤니티를 이룬 것으로 보인다. 이를 통해 토픽맵 구축이 기존 토픽 라벨링 과정에서는 잡아낼 수 없었던 불필요한 단어들을 탐지할 수 있는 한 방법으로 적용될 수 있다는 것을 발견할 수 있었다. <그림 8>의 뉴스 토픽맵은 417개의 노드와 9,358개의 엣지로 이루어져 있으며 1.
토픽 모델링 결과를 통해 각 매체에서 에볼라에 대해 이야기하고 있는 주제들을 확인할 수 있으며, 각 매체에서 논의되고 있는 에볼라 관련 주제들이 서로 관련을 맺고 있다는 점도 발견할 수 있다. <그림 4>는 각 매체에서 추출된 주제들 중 바이오와 사회적 분야 중 어느 분야에 치우친 주제인지 주제 전문가와 함께 판정하여 그 분포를 도식화한 것이다.
후속연구
이를 통해 상이한 매체라 생각되었던 학술 문헌과 뉴스가 미시적 차원에서는 유사한 내용을 가지고 있다는 것을 발견할 수 있었다. 다만, 이것이 전염병 분야의 매체에서만 나타나는 특성인지 명확히 밝히기 위해서는 다른 분야의 매체별 분석 결과와 비교하는 작업이 필요할 것이다.
이를 통해 거시적, 미시적 차원에서의 두 매체 간 차이와 공통점을 발견할 수 있었다. 이렇게 밝혀진 매체별 관점의 차이와 공통점은 각 매체별 정보 생산자들이 좀 더 다양한 양질의 정보를 생산하는데 도움을 줄 것이다.
이는 에볼라와 관련된 어떠한 주제가 이슈가 되었을 때와 그러한 이슈와 관련된 학술문헌이 나오기까지의 시간이 길다는 매체의 특성에서 기인한 것으로 볼 수 있다. 추후 이를 보다 정확히 밝히기 위하여 상관성 분석 등의 추가적 검증을 수행할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
연결중심성이란?
아울러, 각 토픽맵 간의 상세한 비교를 위하여 네트워크 별로 기초 통계분석을 수행하였으며 연결중심성 값을 기준으로 각 네트워크에서 중요한 단어들을 추출하였다. 연결중심성이란, 네트워크를 구성하고 있는 하나의 노드가 네트워크 상의 다른 노드들과 연결되는 정도를 나타내는 값으로, 그 값이 높을수록 다른 노드들과 많이 연결되어 네트워크에서 높은 영향력을 가지는 것으로 해석할 수 있다. <표 4>는 그래프별 기초통계분석과 연결 중심성 값으로 추출한 상위 30개의 단어들을 정리한 것이다.
토픽 모델링 라벨링 결과와 토픽맵의 장 단점은?
토픽 모델링 라벨링 결과와 토픽맵은 각 분야의 매체에서 어떤 주제가 주로 이야기되고 있는 지 거시적인 측면을 보여주지만, 구체적으로 어떤 키워드들이 어떻게 다른 관점에서 다루어지는지 알 수 없다는 한계가 있다. 따라서, 키워드, 주제, 데이터, 주제분야의 항목 등을 통해 해당 분야의 지식구조를 파악할 수 있다는 ‘개체(entity)’ 개념(Ding et al.
토픽 모델링 기법인 DMR 이란?
본 연구에서 사용된 토픽 모델링 기법은 DMR(Dirichlet-multinomial Regression)이다. 이는 Blei 등(2013)이 제시한 토픽 모델링 기법인 LDA(Latent Dirichlet Allocation)를 기반으로 문헌-주제 분포에 근거한 log-linear prior를 사용하여 저자, 발행처, 참고문헌, 날짜와 같은 문헌의 자질들을 토픽모델링 분석에 추가한 것이다(Mimno and McCallum 2012). 즉 DMR은 주어진 문헌에 대하여 각 문헌에 어떤 주제들이 존재하는지에 대한 확률 모형을 만든 LDA에서 분석에 사용될 변수를 추가하여 분석을 수행한다.
참고문헌 (16)
김은경 외. 2013. 전염병의 경로 추적 및 예측을 위한 통합 정보 시스템 구현. 인터넷정보학회논문지, 14(5): 69-76. (Kim, Eungyeong et al. 2013. "Implementation of Integrated Monitoring System for Trace and Path Prediction of Infectious Disease." Journal of Korean Society for Internet Information, 14(5): 69-76.)
최정실. 2008. 법정전염병 감염관리를 위한 정보시스템 개발 및 효과. 기본간호학회지, 15(3): 371-379. (Choi, Jeong Sil. 2008. "Development and Evaluation of a Legal Communicable Disease Electronic System for Infection Control." Journal of Korean Academy of Fundamentals of Nursing, 15(3): 371-379.)
황교상, 이태식, 이현록. 2014. 센서스 데이터를 기반으로 만든 전염병 전파 시뮬레이션 모델. 대한산업공학회지, 40(2): 163-171. (Hwang, Kyosang, Lee, Taesik and Lee, Hyunrok. 2014. "Epidemic Disease Spreading Simulation Model Based on Census Data." Journal of the Korean Institute of Industrial Engineers, 40(2): 163-171. )
Bastian, M., Heymann, S. and Jacomy, M. 2009. "Gephi: An Open Source Software for Exploring and Manipulating Networks." In Proceedings of International AAAI Conference on Weblogs and Social Media, May 17-20, 2009, San Jose, CA: 8: 361-362.
Blei, D. M., Andrew Y. N. and Michael I. J. 2003. "Latent Dirichlet Allocation." Journal of Machine Learning Research, 3: 993-1022.
Blondel, V. D. et al. 2008. "Fast Unfolding of Communities in Large Networks." Journal of Statistical Mechanics: Theory and Experiment. [online] [cited 2016. 4. 20.]
Ding, Y. et al. 2013. "Entitymetrics: Measuring the Impact of Entities." PLoS ONE, 8(8): 1-14, e71416. [online] [cited 2016. 4. 20.]
Househ, M. 2015. "Communicating Ebola through Social Media and Electronic News Media Outlets: A Cross-Sectional Study." Health informatics journal. Advance online publication. [online] [cited 2016. 4. 20.]
Kim, E. H. J. et al. 2015. "Topic-based Content and Sentiment Analysis of Ebola Virus on Twitter and in the News." Journal of Information Science. Advance online publication. [online] [cited 2016. 4. 20.]
Lee, D., Kim, W. C. and Song, M. 2015. "Finding the Differences between the Perceptions of Experts and the Public in the Field of Diabetes." In Proceedings of the 24th International Conference on World Wide Web Companion, May 18-22, 2015, Florence, Italy: 57-58.
Manning, C. D. et al. 2014. "The Stanford CoreNLP Natural Language Processing Toolkit." In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, June 22nd-27th, 2014, Baltimore, Maryland: 55-60.
Mimno, D. and McCallum, A. 2012. "Topic Models Conditioned on Arbitrary Features with Dirichlet-multinomial Regression." arXiv preprint arXiv: 1206.3278. [online] [cited 2016. 4. 20.]
Pesquita, C. et al. 2014. "The Epidemiology Ontology: An Ontology for the Semantic Annotation of Epidemiological Resources." J. Biomedical Semantics, 5(4): 1-7. [online] [cited 2016. 4. 20.]
※ AI-Helper는 부적절한 답변을 할 수 있습니다.