[논문]전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안

최호창; 김남규

doi:10.13088/jiis.2017.23.3.069

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안
Efficient Topic Modeling by Mapping Global and Local Topics 원문보기

지능정보연구 = Journal of intelligence and information systems, v.23 no.3, 2017년, pp.69 - 94

최호창 (국민대학교 비즈니스IT전문대학원) , 김남규 (국민대학교 경영대학 경영정보학부)

초록
AI-Helper

최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

Abstract ▼ AI-Helper

Recently, increase of demand for big data analysis has been driving the vigorous development of related technologies and tools. In addition, development of IT and increased penetration rate of smart devices are producing a large amount of data. According to this phenomenon, data analysis technology is rapidly becoming popular. Also, attempts to acquire insights through data analysis have been continuously increasing. It means that the big data analysis will be more important in various industries for the foreseeable future. Big data analysis is generally performed by a small number of experts and delivered to each demander of analysis. However, increase of interest about big data analysis arouses activation of computer programming education and development of many programs for data analysis. Accordingly, the entry barriers of big data analysis are gradually lowering and data analysis technology being spread out. As the result, big data analysis is expected to be performed by demanders of analysis themselves. Along with this, interest about various unstructured data is continually increasing. Especially, a lot of attention is focused on using text data. Emergence of new platforms and techniques using the web bring about mass production of text data and active attempt to analyze text data. Furthermore, result of text analysis has been utilized in various fields. Text mining is a concept that embraces various theories and techniques for text analysis. Many text mining techniques are utilized in this field for various research purposes, topic modeling is one of the most widely used and studied. Topic modeling is a technique that extracts the major issues from a lot of documents, identifies the documents that correspond to each issue and provides identified documents as a cluster. It is evaluated as a very useful technique in that reflect the semantic elements of the document. Traditional topic modeling is based on the distribution of key terms across the entire document. Thus, it is essential to analyze the entire document at once to identify topic of each document. This condition causes a long time in analysis process when topic modeling is applied to a lot of documents. In addition, it has a scalability problem that is an exponential increase in the processing time with the increase of analysis objects. This problem is particularly noticeable when the documents are distributed across multiple systems or regions. To overcome these problems, divide and conquer approach can be applied to topic modeling. It means dividing a large number of documents into sub-units and deriving topics through repetition of topic modeling to each unit. This method can be used for topic modeling on a large number of documents with limited system resources, and can improve processing speed of topic modeling. It also can significantly reduce analysis time and cost through ability to analyze documents in each location or place without combining analysis object documents. However, despite many advantages, this method has two major problems. First, the relationship between local topics derived from each unit and global topics derived from entire document is unclear. It means that in each document, local topics can be identified, but global topics cannot be identified. Second, a method for measuring the accuracy of the proposed methodology should be established. That is to say, assuming that global topic is ideal answer, the difference in a local topic on a global topic needs to be measured. By those difficulties, the study in this method is not performed sufficiently, compare with other studies dealing with topic modeling. In this paper, we propose a topic modeling approach to solve the above two problems. First of all, we divide the entire document cluster(Global set) into sub-clusters(Local set), and generate the reduced entire document cluster(RGS, Reduced global set) that consist of delegated documents extracted from each local set. We try to solve the

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

우선 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서(Delegate Documents)를 추출하여 축소된 전역 문서 집합(RGS, Reduced Global Set)을 구성한 후, 대표 문서를 통해 RGS에 대한 토픽 모델링 결과와 각 지역 토픽 모델링 결과를 대응시킴으로써 첫 번째 난제를 해결하고자 한다. 또한 이상적인 분석에서 동일 토픽으로 식별된 문서들이 분할 정복 접근법에 따른 분석을 통해 여전히 동일 토픽으로 식별되는지 여부를 파악하여 제안 방법론의 정확도를 파악하고자 한다.
050)의 문서 가중치를 갖는다. 본절의 목적은 L_A_T₁ ~ LA_T₅으로부터 RGS_T₁, RGS_T₂, RGS_T₃, RGS_T₄, RGS_T₅의 값을 예측 하는 규칙 RuleA와 L_B_T₁ ~ L_B_T₅으로부터 RGS_T1, RGS_T₂, RGS_T₃, RGS_T₄, RGS_T₅의 값을 예측하는 규칙 RuleB에 대한 도출 과정을 소개하는 것이다. 이를 위해 제안 방법론은 각 지역 토픽 모델링의 결과로 나타난 문서/토픽 행렬에서 지역 대표 문서에 해당하는 부분만을 발췌하고(⑥), 이를 RGS에 대한 토픽 모델링을 통해 도출된 문서/토픽 행렬과 비교한다.
특히 전체 문서에 대한 일괄 분석을 수행하는 것에 비해 전체를 소규모 군집으로 분할하여 군집별 분석을 수행하고, 이 결과를 취합하는 방안에 대한 모색이 이루어지고 있다. 이에 본 연구에서는 지역 군집의 일부 문서를 대표로 추출하여 축소된 전역 집합 군집을 생성하고, 대표 문서를 매개로 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방법을 통해, 궁극적으로 군집별 토픽 모델링 결과를 전역으로 취합할 수 있는 방안을 제시하였다. 또한 실제 뉴스 24,000건을 활용한 실험을 통해 제안 방법론의 실무 적용 가능성을 파악하였으며, 추가 실험을 통해 제안 방법론에 따른 분할 분석 방식이 대량의 문서에 대한 일괄 분석과 유사한 결과를 효율적으로 도출할 수 있음을 확인하였다.
추가로 본 실험에서는 대응되는 토픽간 내용의 부합 정도를 파악하기 위해, 각 토픽을 구성 하는 주요 용어의 일치 수준을 확인하였다. 구체 적으로 실제 전역 토픽 10개와 RGS 전역 토픽 10개, 총 20개 토픽에 대해 각 토픽별로 가장 높은 용어 가중치를 갖는 주요 용어 10개를 선정하여, 이들간 일치 수준을 확인하였다.

제안 방법

본 장에서는 효율적 토픽 모델링 수행을 위한 방안을 제시한다. 구체적으로 대량의 문서를 하위 군집으로 분할한 후 군집별로 지역 토픽을 도출하고, 군집별 대표 문서를 추출하여 전역 토픽을 도출한 뒤, 전역 토픽과 지역 토픽의 관계를 파악하여 각 문서에 할당하는 방안을 제시한다. 제안 방법론의 전체적인 개요는 [Figure 2]를 통해 제시하며, 분석 단계에 따른 구체적 설명은 이후 절에서 다루도록 한다.
다음으로 각 지역 군집에 포함된 문서의 일부를 무작위로 추출하여 지역 대표 문서를 선정하고, 이를 통합하여 RGS 데이터를 생성하였다. 본 실험에서는 각 지역 군집에서 문서의 1/10을 대표 문서로 추출하였으며, 그 결과 RGS는 총 2,400개의 문서로 구성되었다.
위의 과정을 통해, RGS에 참여한 지역 군집의 대표 문서들은 RGS의 전역 토픽뿐 아니라 원 소속 지역 군집의 토픽 정보도 함께 가진다. 따라서 이들이 갖는 두 가지 유형의 문서/토픽 행렬에 대한 행렬 곱 연산을 수행하여, 지역 토픽 가중치로부터 전역 토픽 가중치를 도출하기 위한 규칙을 생성하였다. 실제 실험을 통해 도출한 Local 1 토픽과 RGS 토픽간 가중치 변환 행렬은 [Table 3]과 같다.
다음으로 이행렬에서 RGS에 포함된 문서 2,400개에 대한 부분 행렬만을 추출하였다. 또한 이 행렬과 [Figure 9]의 RGS에 대한 문서/토픽 행렬 간에 대해 유사도 분석을 수행하여, 실제 전역 토픽 10개와 RGS 전역 토픽 10개 간의 코사인 유사도를 [Table 5]와 같이 행렬로 정리하였다. [Table 5]에서 각 행은 RGS의 전역 토픽을, 각 열은 실제 전역 토픽을 나타낸다.
이를 통해 24,000건의 문서에 대한 일괄 토픽 모델링을 수행하는 대신, 각 2,400건으로 구성된 소규모 문서 군집 10개에 대한 개별 토픽 모델링을 수행하고 각 군집별로 240건씩 선정된 대표 문서 2,400건에 대한 전역 토픽 모델링을 수행하여, 대규모의 일괄 토픽 모델링 없이도 전체 문서에 대한 전역 토픽 배정이 가능함을 보였다. 또한 추가 실험을 통해 대표 문서 2,400건에서 도출한 전역 토픽이 전체 문서 24,000건에서 도출한 토픽과 매우 유사함을 확인하였으며, 제안 방법론을 통해 도출한 토픽 모델링의 결과를 일괄 방식의 토픽 모델링의 결과와 비교할 수 있는 방안 또한 제시하였다.
본 절에서는 3장에서 소개한 순서에 따라 실제 뉴스를 분석한 결과를 소개한다. 먼저 전체 24,000건의 뉴스를 각 2,400건씩 10개의 지역 군집으로 분할하고, 이들 각 군집에서 10개의 토픽과 토픽별 5개의 핵심 용어를 [Figure 8]과 같이 도출하였다. 이때 각 지역 군집은 토픽 모델링의 결과로 문서/토픽 행렬을 갖게 된다.
가장 시급한 보완점으로 전역 문서 군집의 분할 기준이 체계적으로 마련될 필요가 있다. 본 연구의 실험에서는 연구자의 판단에 따라 전체 문서를 10개의 지역 군집으로 분할하였다. 하지만 제안 방법론의 실무 적용을 위해서는 분할 군집 수에 따른 분석 결과를 살펴보고, 이를 고려하여 최적 지역 군집의 개수를 설정하는 방안이 마련되어야 한다.
본 장에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 제안 방법론을 실제 뉴스 기사 24,000건의 분석에 적용한 실험 결과를 소개하였다. 이를 통해 24,000건의 문서에 대한 일괄 토픽 모델링을 수행하는 대신, 각 2,400건으로 구성된 소규모 문서 군집 10개에 대한 개별 토픽 모델링을 수행하고 각 군집별로 240건씩 선정된 대표 문서 2,400건에 대한 전역 토픽 모델링을 수행하여, 대규모의 일괄 토픽 모델링 없이도 전체 문서에 대한 전역 토픽 배정이 가능함을 보였다.
본 절에서는 제안 방법론의 성능을 RGS의 전체 문서에 대한 대표성과 전역 토픽 배정의 정확성 측면에서 분석한다.
본 절은 [Figure 2]의 ⑥ ~ ⑧에 해당하는 과정, 즉 지역 대표 문서를 활용하여 지역 토픽으로부터 전역 토픽의 성분을 도출하고, 이를 통해 각 문서 모두에 대해 전역 토픽을 할당하는 과정 을 소개한다. 이후 설명에서 “Local i”의 “Topic j”를 L_i_T_j로, RGS의 “Topic k”를 RGS_T_k로 나타 내기로 한다.
본 절에서는 실험 환경 및 데이터에 대해 간략히 소개한다. 실험의 핵심인 토픽 모델링은 SAS Enterprise Miner Workstation 14.1을 사용하여 수행하였으며, 별도의 한글 전용 형태소 분석기는 사용하지 않았다. 실험 데이터의 경우 2012년 7 월부터 2013년 6월까지의 기간 동안 국내 한 포털사이트에 게시된 뉴스를 사용하였으며, IT과학, 정치, 경제, 사회, 생활, 세계, 스포츠, 연예의총 8개의 카테고리에서 3,000건씩, 총 24,000건의 문서를 사용하였다.
우선 분석을 위해 수집된 문서 집합인 전역 군집(Global Set)을 하위 지역 군집(Local Set)으로 분할한 후, 이들을 대상으로 지역 군집별 주요 토픽을 추출한다. 다음으로 각 지역 군집에서 일부 문서를 임의로 선발하여 지역 대표 문서 (Delegate)로 지정하며, 이들을 통합하여 모든 문서의 특질을 대표할 수 있는 축소된 전역 집합을 생성한다.
우선 실제 전역 토픽의 도출을 위해 분석 대상 문서 24,000건 전체에 대한 일괄 토픽 모델링을 수행하여 10개의 토픽을 추출하고, 전체 문서에 대한 문서/토픽 행렬을 도출하였다. 다음으로 이행렬에서 RGS에 포함된 문서 2,400개에 대한 부분 행렬만을 추출하였다.
우선 전체 문서 모두에 대해 일괄 토픽 모델링을 수행하여 문서/토픽 행렬을 도출한다. 다음으로 이 행렬에서 RGS에 포함된 문서, 즉 지역 대표 문서들에 대한 부분만을 발췌하면, 각 문서는 실제 전역 토픽 수만큼의 차원을 갖는 벡터 (V_Ideal)로 표현될 수 있다.
본 연구에서는 위의 두 가지 난제를 해결하기 위한 방안을 다음과 같이 제시하고자 한다. 우선 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서(Delegate Documents)를 추출하여 축소된 전역 문서 집합(RGS, Reduced Global Set)을 구성한 후, 대표 문서를 통해 RGS에 대한 토픽 모델링 결과와 각 지역 토픽 모델링 결과를 대응시킴으로써 첫 번째 난제를 해결하고자 한다. 또한 이상적인 분석에서 동일 토픽으로 식별된 문서들이 분할 정복 접근법에 따른 분석을 통해 여전히 동일 토픽으로 식별되는지 여부를 파악하여 제안 방법론의 정확도를 파악하고자 한다.
이러한 한계를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고 각 군집별 분석을 통해 토픽을 도출하는 방안, 즉 토픽 모델링에 분할 정복 접근법을 적용하는 방안을 생각할 수 있다. 이는 대량의 문서에 대한 일괄 토픽 모델링을 수행하는 대신 분할된 소량의 문서에 대한 토픽 모델링을 반복 수행하는 방법으로, 제한된 시스템 자원으로 대량의 문서에 대한 분석을 수행할 수 있으며 분석 속도 측면에서도 효율성을 기대할 수 있다.
다음으로 본 절에서는 전역 토픽 배정의 정확성 분석 결과를 소개한다. 이를 위해 본 실험에 서는 일괄 토픽 모델링에서 동일한 토픽을 갖는 것으로 분류된 문서들이 제안 방법론에 의한 분석을 통해서도 여전히 동일한 토픽으로 분류되는지 여부를 측정하였다.
본절의 목적은 L_A_T₁ ~ LA_T₅으로부터 RGS_T₁, RGS_T₂, RGS_T₃, RGS_T₄, RGS_T₅의 값을 예측 하는 규칙 RuleA와 L_B_T₁ ~ L_B_T₅으로부터 RGS_T1, RGS_T₂, RGS_T₃, RGS_T₄, RGS_T₅의 값을 예측하는 규칙 RuleB에 대한 도출 과정을 소개하는 것이다. 이를 위해 제안 방법론은 각 지역 토픽 모델링의 결과로 나타난 문서/토픽 행렬에서 지역 대표 문서에 해당하는 부분만을 발췌하고(⑥), 이를 RGS에 대한 토픽 모델링을 통해 도출된 문서/토픽 행렬과 비교한다. 지역 토픽으로부터 전역 토픽의 성분을 도출하는 구체적인 과정은 [Figure 5]의 예를 통해 설명할 수 있다.
마지막으로 [Table 3]의 가중치 변환 행렬을 적용하여 [Table 2]에 제시된 Local 1 문서의 지역 토픽 가중치를 전역 토픽 가중치로 변환하였으며, 그 결과의 일부가 [Table 4]에 소개되어 있다. 이와 유사한 방식으로 Local 2 ~ Local 10 에 대해서도 전역 토픽 변환 규칙을 도출하였으며, 각 군집의 규칙에 따라 모든 문서에 대해 전역 토픽을 배정하였다.
본 실험에서는 각 지역 군집에서 문서의 1/10을 대표 문서로 추출하였으며, 그 결과 RGS는 총 2,400개의 문서로 구성되었다. 이후 RGS에 대한 토픽 모델링을 수행하여 10개의 주요 토픽을 추출하고, [Figure 9]과 같이 문서/토픽 행렬을 생성하였다.
다음으로 각 지역 군집에서 일부 문서를 임의로 선발하여 지역 대표 문서 (Delegate)로 지정하며, 이들을 통합하여 모든 문서의 특질을 대표할 수 있는 축소된 전역 집합을 생성한다. 이후 축소된 전역 집합으로부터 전역 토픽을 추출하고 이를 지역 대표 문서의 지역 토픽 정보와 비교함으로써, 지역 토픽으로부터 전역 토픽의 성분을 추출하는 규칙을 도출한다. 마지막으로 이 규칙을 각 문서의 지역 토픽 가중치에 적용하여 각 문서의 전역 토픽을 배정한다.
5에서 L_A_T₂의 값이 높을수록 RGS_T₁의 값이 높게 나타나는 현상을 반영하고 있다. 제안 방법론에서는 지역 대표 문서를 매개로 하여 지역 토픽 가중치를 전역 토픽 가중치로 변환하는 방법을 제안하며, 실제 변환은 행렬 곱 연산을 활용하여 수행하였다(⑦).
반대로 임계값 기준이 완화되면 정밀도는 감소하고 재현율은 증가할 것으로 예상된다. 하지만 정밀도와 재현율의 조화 평균(Harmonic Mean)으로 산출되는 F1 Measure 값은 임계값 기준의 변화에 따라 어떠한 변화 양상을 보일지 예측하기 어려우므로, 이에 대한 실험을 수행하였다. 실험 결과 [Figure 13]과 같이 정밀도와 재현율은 예상했던 방향의 변화를 보였으며, F1 Measure는 이에 비해 큰 폭의 변화를 보이지 않음을 알 수 있었다.

대상 데이터

다음으로 각 지역 군집에 포함된 문서의 일부를 무작위로 추출하여 지역 대표 문서를 선정하고, 이를 통합하여 RGS 데이터를 생성하였다. 본 실험에서는 각 지역 군집에서 문서의 1/10을 대표 문서로 추출하였으며, 그 결과 RGS는 총 2,400개의 문서로 구성되었다. 이후 RGS에 대한 토픽 모델링을 수행하여 10개의 주요 토픽을 추출하고, [Figure 9]과 같이 문서/토픽 행렬을 생성하였다.
1을 사용하여 수행하였으며, 별도의 한글 전용 형태소 분석기는 사용하지 않았다. 실험 데이터의 경우 2012년 7 월부터 2013년 6월까지의 기간 동안 국내 한 포털사이트에 게시된 뉴스를 사용하였으며, IT과학, 정치, 경제, 사회, 생활, 세계, 스포츠, 연예의총 8개의 카테고리에서 3,000건씩, 총 24,000건의 문서를 사용하였다.

데이터처리

우선 모든 문서에 대해 각 문서가 특정 RGS 토픽을 포함하는지 여부를 결정하기 위해 문서 임계값을 설정하였으며, 이를 위해 일반적으로 사용되는 기준인 문서 가중치의 “평균 + 1σ”를 적용하였다.

성능/효과

추가로 본 실험에서는 대응되는 토픽간 내용의 부합 정도를 파악하기 위해, 각 토픽을 구성 하는 주요 용어의 일치 수준을 확인하였다. 구체 적으로 실제 전역 토픽 10개와 RGS 전역 토픽 10개, 총 20개 토픽에 대해 각 토픽별로 가장 높은 용어 가중치를 갖는 주요 용어 10개를 선정하여, 이들간 일치 수준을 확인하였다. 그 결과 대응 토픽간 주요 용어의 일치 수준은 10개 중 평균 “7.
그 결과 대응 토픽간 주요 용어의 일치 수준은 10개 중 평균 “7.1개”로 비교적 높게 나타남을 확인하였다([Figure 11]).
또한 대응되는 토픽의 유사도는 평균 “0.8545”로 매우 높게 나타났으며, 이는 RGS를 통해 도출한 전역 토픽이 전체 문서에 대한 일괄 분석을 통해 도출한 실제 전역 토픽을 잘 설명하고 있음을 의미한다.
이에 본 연구에서는 지역 군집의 일부 문서를 대표로 추출하여 축소된 전역 집합 군집을 생성하고, 대표 문서를 매개로 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방법을 통해, 궁극적으로 군집별 토픽 모델링 결과를 전역으로 취합할 수 있는 방안을 제시하였다. 또한 실제 뉴스 24,000건을 활용한 실험을 통해 제안 방법론의 실무 적용 가능성을 파악하였으며, 추가 실험을 통해 제안 방법론에 따른 분할 분석 방식이 대량의 문서에 대한 일괄 분석과 유사한 결과를 효율적으로 도출할 수 있음을 확인하였다.
또한 실험에 따르면 문서 임계값 기준으로 “평균 + 1.4σ”의 값을 적용한 경우 전체 토픽의 F1 Measure 평균이 “0.6862”의 값을 가지며 가장 높게 나타나는 것으로 확인되었다.
하지만 정밀도와 재현율의 조화 평균(Harmonic Mean)으로 산출되는 F1 Measure 값은 임계값 기준의 변화에 따라 어떠한 변화 양상을 보일지 예측하기 어려우므로, 이에 대한 실험을 수행하였다. 실험 결과 [Figure 13]과 같이 정밀도와 재현율은 예상했던 방향의 변화를 보였으며, F1 Measure는 이에 비해 큰 폭의 변화를 보이지 않음을 알 수 있었다. 또한 실험에 따르면 문서 임계값 기준으로 “평균 + 1.
본 장에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 제안 방법론을 실제 뉴스 기사 24,000건의 분석에 적용한 실험 결과를 소개하였다. 이를 통해 24,000건의 문서에 대한 일괄 토픽 모델링을 수행하는 대신, 각 2,400건으로 구성된 소규모 문서 군집 10개에 대한 개별 토픽 모델링을 수행하고 각 군집별로 240건씩 선정된 대표 문서 2,400건에 대한 전역 토픽 모델링을 수행하여, 대규모의 일괄 토픽 모델링 없이도 전체 문서에 대한 전역 토픽 배정이 가능함을 보였다. 또한 추가 실험을 통해 대표 문서 2,400건에서 도출한 전역 토픽이 전체 문서 24,000건에서 도출한 토픽과 매우 유사함을 확인하였으며, 제안 방법론을 통해 도출한 토픽 모델링의 결과를 일괄 방식의 토픽 모델링의 결과와 비교할 수 있는 방안 또한 제시하였다.
한편 제안 방법론은 기본적으로 성능의 이슈를 다루고 있다는 점에서 실무적 기여를 더욱 크게 인정받을 수 있다. 즉 시스템 자원의 한계 또는 시간 측면의 비용으로 인해 대용량 문서의 일괄 토픽 모델링 수행이 어려운 경우, 제안 방법론을 통해 추가 설비의 확충 없이 이를 분할하여 소량의 문서에 대한 토픽 모델링을 여러 시스템에서 병렬 수행함으로써 대량의 문서에 대한 일괄 토픽 모델링과 유사한 결과를 얻을 수 있다. 이러한 실무적 기여는 분석 대상 문서가 지역적으로 또는 시스템적으로 여러 곳에 분산되어 있는 경우 더욱 크게 나타날 것으로 예상된다.

후속연구

하지만 제안 방법론의 실무 적용을 위해서는 분할 군집 수에 따른 분석 결과를 살펴보고, 이를 고려하여 최적 지역 군집의 개수를 설정하는 방안이 마련되어야 한다. 다음으로 본 연구에서 사용된 문서의 수보다 훨씬 방대한 양의 데이터에 대한 추가적 실험을 통해, 제안 방법론의 견고성을 다방면에서 확인할 필요가 있다. 이와 함께 각지역 군집의 주제가 유사하거나 상이할 경우 제안 방법론에 따른 분석 결과가 어떻게 도출되는지, 대표 문서의 선정 과정에 토픽 정보가 활용된다면 제안 방법론의 성능이 개선될 수 있을지 등에 대한 깊은 고찰이 필요하다.
따라서 이 분야의 연구는 다른 분야의 토픽 모델링 연구에 비해 상대적으로 더딘 발전을 보이고 있으며, 이론적 배경 및 실증적 검증에 대한 연구가 충분히 수행되지 못했다. 따라서 추후 연구에서는 전통적 토픽 모델링 및 해당 방법의 분석 시간 비교를 포함하는 이론적 배경에 대한 연구와 해당 방법에서 분할 군집 개수에 따른 소요 시간 및 결과 정확도의 변화 양상 파악 등의 실증적 검증이 추가적으로 진행되어야 한다. 이와 함께 제안 방법론에 대한 보강 또한 추가적으로 이루어져야 한다.
우선 분할 수행된 토픽 모델링의 결과를 합리적으로 통합하기 위한 새로운 방안을 제안하였다는 점에서 학술적 기여가 인정될 수 있다.또한 지역 토픽으로부터 전역 토픽의 변환 가중치를 도출하는 부분은 본 연구에서 채택한 방법 이외에도 기계학습 기반의 모형 등 다양한 모형이 적용될 수 있으므로, 이 부분에 대한 소폭 변형을 통해 분석 정확도를 향상시키는 방식으로 후속 연구가 수행될 수 있을 것이다. 이와 함께 서로 다른 환경에서 수행된 토픽 모델링의 결과를 체계적으로 비교하는 방안을 제시하였다는점 또한 본 연구의 기여로 인정받을 수 있다.
이러한 한계를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고 각 군집별 분석을 통해 토픽을 도출하는 방안, 즉 토픽 모델링에 분할 정복 접근법을 적용하는 방안을 생각할 수 있다. 이는 대량의 문서에 대한 일괄 토픽 모델링을 수행하는 대신 분할된 소량의 문서에 대한 토픽 모델링을 반복 수행하는 방법으로, 제한된 시스템 자원으로 대량의 문서에 대한 분석을 수행할 수 있으며 분석 속도 측면에서도 효율성을 기대할 수 있다. 또한 문서가 여러 지역 또는 사이트에 산재해 있는 경우, 이들을 모두 취합하여 분석을 수행할 필요 없이 각 지역 또는 사이트에서 분석을 수행하는 것이 가능하기 때문에 시간과 비용을 매우 절약할 수 있을 것이다.
하지만 최근 컴퓨터 프로그래밍 교육의 활성화와 다양한 상용 프로그램의 개발은 분석에 대한 진입장벽을 점차 낮추고 있으며, 최신 기술 동향에서는 빅데이터 분석을 시민 데이터 과학(Citizen Data Science) 및 자가 서비스 전달을 수반한 고급 분석(Advanced Analytics with Self-Service Delivery)과 같은 새로운 용어로 표현하고 있다(Gartner, 2015). 이에 따라 향후 빅데이터 분석은 전문가 중심의 수행에 머물지 않고 사용자의 자가 분석에 의한 맞춤형 분석 서비스 형태로 제공되며, 수요자의 필요에 의해 특정 분석 결과만을 선별 및 통합하는 방향으로 진화할 것으로 예상된다.
, 2012) 등이 있다. 하지만 토픽 모델링의 성능 향상을 위해 대량의 문서를 분할하여 군집별 토픽을 추출하고, 이들 군집 또는 군집별 토픽의 통합을 통해 다시 전체 문서의 토픽을 도출하는 방안을 제안한 연구는 찾아보기 어렵다.

질의응답

핵심어	질문	논문에서 추출한 답변
	토픽 모델링이란?	토픽 모델링은 각 문서를 임의의 주제들로 구성된 집합으로 간주하고, 각 문서를 구성하는 주제와 각 주제에 해당하는 용어의 중요도를 확률 적으로 제시하는 기법으로 정의할 수 있다(Kim et al., 2017; Steyvers and Griffiths, 2007).
	비정형 데이터의 분석에는 특히 어떠한 것이 급증하고 있는가?	이러한 현상과 함께 비정형 데이터의 분석 기술이 대중화됨에 따라 다양한 비정형 데이터의 수집, 분석, 그리고 활용에 대한 관심이 증가하고 있다. 특히 의사소통의 매체로 가장 널리 사용되는 텍스트 데이터에 대한 분석 시도가 급증하고 있으며, 소셜 네트워크 서비스(Social Network Service, SNS)로 대표되는 웹 플랫폼의 활성화와 바이럴 마케팅(Viral Marketing) 등 웹을 이용한 신종 기법의 등장에 따라 텍스트 데이 터의 양은 기하급수적 증가 추세를 보이고 있다.따라서 텍스트의 분석을 통해 유용한 정보를 도출하고 이를 산업 각 분야에 활용하기 위한 노력이 매우 활발하게 이루어지고 있으며, 이와 더불어 텍스트 분석을 위한 이론 및 기법을 총칭하는 텍스트 마이닝(Text Mining)에 대한 관심 역시 고조되고 있다.
	빅데이터 분석을 최신 기술 동향에서는 어떤 용어로 표현하는가?	기존의 빅데이터 분석은 대부분 전문적 지식을 갖춘 소수의 사람들에 의해 수행되어 각 수요자에게 전파되었다. 하지만 최근 컴퓨터 프로그래밍 교육의 활성화와 다양한 상용 프로그램의 개발은 분석에 대한 진입장벽을 점차 낮추고 있으며, 최신 기술 동향에서는 빅데이터 분석을 시민 데이터 과학(Citizen Data Science) 및 자가 서비스 전달을 수반한 고급 분석(Advanced Analytics with Self-Service Delivery)과 같은 새로운 용어로 표현하고 있다(Gartner, 2015). 이에 따라 향후 빅데이터 분석은 전문가 중심의 수행에 머물지 않고 사용자의 자가 분석에 의한 맞춤형 분석 서비스 형태로 제공되며, 수요자의 필요에 의해 특정 분석 결과만을 선별 및 통합하는 방향으로 진화할 것으로 예상된다.

참고문헌 (26)

AlSumait, L., D. Barbara and C. Domeniconi, "On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking," 2008 Eighth IEEE International Conference on Data Mining, (2008), 1-12.
Blei, D. M. and J. D. Lafferty, "Dynamic Topic Models," Proceedings of the 23rd International Conference on Machine Learning, (2006), 113-120.
Byun, S., D. Lee, and N. Kim, "Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria - Focus on a Hotel Information Site," Journal of Intelligence and Information Systems, Vol.22, No.3 (2016), 23-43.

원문보기 상세보기
Deerwester, S., S. T. Dumais, G. W. Furnas, T. K. Landauer and R. Harshman, "Indexing by Latent Semantic Analysis," Journal of the American Society for Information Science, Vol.41, No.6 (1990), 391-407.

상세보기
Forman, G. and B. Zhang, "Distributed Data Clustering can be Efficient and Exact," ACM SIGKDD Explorations Newsletter, Vol.2, No.2 (2000), 34-38.

상세보기
Gartner, Gartner's 2015 Hype Cycle for Emerging Technologies Identifies the Computing Innovations that Organizations Should Monitor, Gartner, 2015. Available at http://www.gartner.com/newsroom/id/3114217 (Accessed 19 June, 2017).
Han, J., J. Pei and M. Kamber, Data Mining: Concepts and Techniques, Elsevier, Amsterdam, 2011.
Hotho, A., A. Nurnberger and G. Paass, "A Brief Survey of Text Mining," Ldv Forum, Vol. 20, No. 1 (2005), 1-37.
IDC, Big Data and Business Analytics Revenues forecast to reach $150.8 Billion this Year, Led by Banking and Manufacturing Investments, IDC, 2017. Available at http://www.idc.com/getdoc.jsp?containerIdprUS42371417 (Accessed 19 June, 2017).
Kim, D. and N. Kim, "Mapping Categories of Heterogeneous Sources using Text Analytics," Journal of Intelligence and Information Systems, Vol.22, No.4 (2016), 193-215.

원문보기 상세보기
Kim, N., D. Lee, H. Choi and W. X. S. Wong, "Investigations on Techniques and Applications of Text Analytics," The Journal of The Korean Institute of Communication Sciences, Vol.42, No.2 (2017), 471-492.

원문보기 상세보기
Koll, M. B., "WEIRD: An Approach to Concept-Based Information Retrieval," ACM SIGIR Forum, Vol.13, No.4 (1979), 32-50.

상세보기
Lee, D., H. Choi and N. Kim, "A Method for Evaluating News Value based on Supply and Demand of Information using Text Analysis," Journal of Intelligence and Information Systems, Vol.22, No.4 (2016), 45-67.
Liang, Z. and P. Chen, "Delta-Density based Clustering with a Divide-and-Conquer Strategy: 3DC Clustering," Pattern Recognition Letters, Vol.73, (2016), 52-59.

상세보기
Livermore, M. A., A. Riddell and D. Rockmore, "Agenda Formation and the US Supreme Court: A Topic Model Approach," Arizona Law Review, (2016), Forthcoming.
McCallum, A., K. Nigam and L. H. Ungar, "Efficient Clustering of High-Dimensional Data Sets with Application to Reference Matching," Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, (2000), 169-178.
Mei, Q. and C. X. Zhai, "Discovering Evolutionary Theme Patterns from Text: An Exploration of Temporal Text Mining," Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining, (2005), 198-207.
Mooney, R. J. and R. Bunescu, "Mining Knowledge from Text using Information Extraction," ACM SIGKDD Explorations, Vol.7, No.1 (2006), 3-10.
Salton, G., The SMART Retrieval System-Experiments in Automatic Document Processing, Prentice-Hall, New Jersey, 1971.
Salton, G., A. Wong and C. S. Yang, "A Vector Space Model for Automatic Indexing," Communications of the ACM, Vol.18, No.11 (1975), 613-620.

상세보기
Sebastiani, F., "Classification of Text, Automatic," The Encyclopedia of Language and Linguistics, Vol.14, (2006), 457-462.
Song, Y., J. Du and L. Hou, "A Topic Detection Approach Based on Multi-Level Clustering," Proceeding of the 31st Chines Control Conference, (2012), 3834-3838.
Steyvers, M. and T. Griffiths, Probabilistic Topic Models : Handbook of Latent Semantic Analysis, Psychology Press, Oxfordshire, 2007.
Wang, J., H. Deng and J. Han, "Torpedo : Topic Periodicity Discovery from Text Data," Next-Generation Analyst III, (2015), 94990A- 94990A-10.
Wang, L., P. Chen and L. Huang, "An Efficient Clustering Algorithm for Large-Scale Topical Web Pages," Proceedings of the 18th ACM Conference on Information and Knowledge Management, (2009), 1851-1854.
Witten, I. H., Text Mining, Practical Handbook of Internet Computing, CRC Press, Florida, 2004.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증