[논문]이질성 학습을 통한 문서 분류의 정확성 향상 기법

윌리엄; 현윤진; 김남규

doi:10.13088/jiis.2018.24.3.021

[국내논문] 이질성 학습을 통한 문서 분류의 정확성 향상 기법
Improving the Accuracy of Document Classification by Learning Heterogeneity 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.3, 2018년, pp.21 - 44

초록
AI-Helper

최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

Abstract ▼ AI-Helper

In recent years, the rapid development of internet technology and the popularization of smart devices have resulted in massive amounts of text data. Those text data were produced and distributed through various media platforms such as World Wide Web, Internet news feeds, microblog, and social media. However, this enormous amount of easily obtained information is lack of organization. Therefore, this problem has raised the interest of many researchers in order to manage this huge amount of information. Further, this problem also required professionals that are capable of classifying relevant information and hence text classification is introduced. Text classification is a challenging task in modern data analysis, which it needs to assign a text document into one or more predefined categories or classes. In text classification field, there are different kinds of techniques available such as K-Nearest Neighbor, Naïve Bayes Algorithm, Support Vector Machine, Decision Tree, and Artificial Neural Network. However, while dealing with huge amount of text data, model performance and accuracy becomes a challenge. According to the type of words used in the corpus and type of features created for classification, the performance of a text classification model can be varied. Most of the attempts are been made based on proposing a new algorithm or modifying an existing algorithm. This kind of research can be said already reached their certain limitations for further improvements. In this study, aside from proposing a new algorithm or modifying the algorithm, we focus on searching a way to modify the use of data. It is widely known that classifier performance is influenced by the quality of training data upon which this classifier is built. The real world datasets in most of the time contain noise, or in other words noisy data, these can actually affect the decision made by the classifiers built from these data. In this study, we consider that the data from different domains, which is heterogeneous data might have the characteristics of noise which can be utilized in the classification process. In order to build the classifier, machine learning algorithm is performed based on the assumption that the characteristics of training data and target data are the same or very similar to each other. However, in the case of unstructured data such as text, the features are determined according to the vocabularies included in the document. If the viewpoints of the learning data and target data are different, the features may be appearing different between these two data. In this study, we attempt to improve the classification accuracy by strengthening the robustness of the document classifier through artificially injecting the noise into the process of constructing the document classifier. With data coming from various kind of sources, these data are likely formatted differently. These cause difficulties for traditional machine learning algorithms because they are not developed to recognize different type of data representation at one time and to put them together in same generalization. Therefore, in order to utilize heterogeneous data in the learning process of document classifier, we apply semi-supervised learning in our study. However, unlabeled data might have the possibility to degrade the performance of the document classifier. Therefore, we further proposed a method called Rule Selection-Based Ensemble Semi-Supervised Learning Algorithm (RSESLA) to select only the documents that contributing to the accuracy improvement of the classifier. RSESLA creates multiple views by manipulating the features using different types of classification models and different types of heterogeneous data. The most confident classification rules will be selected and applied for the final decision making. In this paper, three different types of real-world data sources were used, which are news, twitter and blogs.

Keyword

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이에 본 연구는 새로운 알고리즘을 제안하거나 기존 알고리즘을 수정하는 접근이 아닌, 분류 모델 구축에 필요한 학습데이터의 활용 방식을 개선하여 문서 분류의 정확도를 향상 시키는 방안을 제안하고자 한다.
대부분의 연구는 노이즈가 문서 분류에 미치는 부정적인 영향을 최소화 하기 위한 방안에 집중하고 있으나, 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다.
본 연구에서는 문서 분류기의 학습 과정에서 이질적 데이터소스를 추가한 이질성 학습을 위해 준지도학습(Semi-Supervised Learning)의 자기 훈련(Self-Training) 기법을 활용하고자 한다. 구체적으로는 분류 및 학습의 대상이 되는 원 데이터를 분류 데이터로 사용하고, 이질적 데이터소스로부터 발췌한 데이터를 미분류 데이터로 적용하여 자기훈련을 수행함으로써 이질성 학습을 실현하고자 한다.
따라서 본 연구에서는 이형질 학습을 위해 준지도학습을 활용하되, 위에서 소개한 준지도학 습의 한계를 극복하기 위해 규칙 선별 기반의 앙상블 준지도학습(Rule Selection-based Ensemble Semi-supervised Learning: RSESL) 알고리즘을 제안한다. 구체적으로는 (1) 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 형질을 추출하여 이질성 학습을 수행하고, (2) 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식으로 문서 분류의 성능을 향상시키고자 한다.
하지만 이러한 이질적 데이터를 활용하여 문서 분류기의 성능을 향상시키고자 하는 시도는 찾아보기 힘들다. 이에 본 연구에서는 문서 분류의 성능을 향상시키기 위해 서로 다른 특징을 갖는 이질적 데이터를 학습데이터로 사용하고자 한다. 특히, 텍스트 데이터의 경우에는 문서에 포함된 어휘들에 의해 형질이 결정되기 때문에 데이터의 관점에 따라 서로 다른 형질을 갖게 되며, 이는 의미적 이질성의 특징을 갖는다고 볼 수 있다.
특히, 자기훈련은 레이블이 없는 미분류 데이터를 점진적 학습을 통해 레이블을 부여하고 추가 학습데이터로 사용하기 때문에 분류기의 성능 저하를 초래할 수 있다. 따라서 본 연구에서는 이를 극복하기 위해 규칙 선별 기반의 앙상블 준지도학습 알고리즘을 제안하고, 이를 활용하여 이질성 학습을 수행한다.
, 1991; Jordam and Jacobs, 1994; Jordan and Xu, 1995)등이 있다. 이에 본 연구에서는 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 형질을 추출 하여 이질성 학습을 수행한 후 도출된 분류 규칙 중 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습 알고리즘을 제안한다.
본 절에서는 이질적 데이터를 활용한 규칙 선별 기반의 앙상블 준지도학습 방법론을 통해 문서 분류의 성능을 향상시키는 방안에 대해 소개 한다. 여기서 이질적 데이터란 레이블이 없는 미분류 데이터를 의미한다.
따라서 분류 규칙에 의해 대체된 레이블을 원 데이터의 실제 레이블과 비교 분석하여 레이블 정확도를 산출할 필요가 있다. 따라서 본 연구에서는 문서 분류의 성능 향상을 위한 분류 규칙을 생성하기 위해 (1) 예측값의 차이에 따른 임계값과 (2) 대체된 레이블이 정확도를 활용한 규칙 선별 알고리즘을 제안한다. 규칙 선별 알고리즘은 다음과 같이 수행된다.
본 연구는 문서 분류의 정확도를 향상시키기 위한 방안으로 규칙 선별 기반의 앙상블 준지도 학습 알고리즘을 제안하였다. 제안 방법론은 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 새로운 형질을 추출하여 이질성 학습을 수행함으로써 원 데이터에 이질성을 주입하고, 이를 활용하여 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식으로 이루어지며, 전통적 기계학습 기반 문서 분류기에 비해 예측 정확도가 1.

제안 방법

대부분의 연구는 노이즈가 문서 분류에 미치는 부정적인 영향을 최소화 하기 위한 방안에 집중하고 있으나, 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 형질을 추출하고, 이러한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고자 한다(Figure 1).
본 연구에서는 문서 분류기의 학습 과정에서 이질적 데이터소스를 추가한 이질성 학습을 위해 준지도학습(Semi-Supervised Learning)의 자기 훈련(Self-Training) 기법을 활용하고자 한다. 구체적으로는 분류 및 학습의 대상이 되는 원 데이터를 분류 데이터로 사용하고, 이질적 데이터소스로부터 발췌한 데이터를 미분류 데이터로 적용하여 자기훈련을 수행함으로써 이질성 학습을 실현하고자 한다.
따라서 본 연구에서는 이형질 학습을 위해 준지도학습을 활용하되, 위에서 소개한 준지도학 습의 한계를 극복하기 위해 규칙 선별 기반의 앙상블 준지도학습(Rule Selection-based Ensemble Semi-supervised Learning: RSESL) 알고리즘을 제안한다. 구체적으로는 (1) 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 형질을 추출하여 이질성 학습을 수행하고, (2) 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식으로 문서 분류의 성능을 향상시키고자 한다.
자기훈련은 적은 양의 레이블을 갖는 분류 데이터를 대상 데이터로 하여 학습을 수행 하고, 이를 활용하여 레이블이 없는 미분류 데이터를 예측하여 분류하게 된다. 이후 분류된 데이터의 예측값 중 가장 높은 확률값을 갖는 데이터를 학습데이터에 추가하게 되며, 일련의 과정을 반복함으로써 분류기를 구축한다. 자기훈련의 경우, 학습데이터를 추가할 때 특별한 가정을 하지는 않지만 초기 분류 데이터의 학습을 통해 미분류 데이터를 예측한 결과를 가장 정확하다고 판단하여 학습을 수행한다(Triguero et al.
여기서 이질적 데이터란 레이블이 없는 미분류 데이터를 의미한다. 제안 방법론은 다양한 이질적 데이터소스로부터 새로운 형질을 추출하고, 자기훈련 기법을 활용하여 이질성 학습을 수행한다. 이때, N개의 이질적 데이터소스를 활용 하여 이질성 학습을 수행할 경우, N개의 이질성 분류기가 구축되며, 구축된 이질성 분류기들의 결과를 결합하여 가장 높은 예측값을 갖는 분류 규칙을 선정함으로써 이질성 학습 기반의 분류 규칙을 생성하게 된다.
이때, 타겟 데이터를 A, B, C 3개의 데이터집합(뉴스 데이터)로 분리하여 사용하는 것은 문서 분류를 위한 분류 규칙을 선별 하고, 검증 과정을 거쳐 최종 선정된 분류 규칙을 테스트하여 문서 분류기의 성능을 확인하기 위함이다. 구체적으로는, Phase 2에서 타겟 데이터 A를 대상으로 기계학습 기반 분류 규칙과 이질성 학습 기반 분류 규칙을 적용하여 각각 스코어링을 수행하고, 해당 결과를 결합함으로써 가장 높은 예측값을 갖는 규칙들만을 선별하여 분류 규칙 후보군을 생성한다. 다시 말해, 분류 대상인 타겟 데이터가 갖는 형질에 따라 가장 적합한 분류 규칙들을 산출함으로써 문서 분류기 구축에 활용 가능한 분류 규칙 후보군을 생성하게 된다.
Phase 3은 Phase 2를 통해 도출된 분류 규칙 후보군 중에서 실제 문서 분류기 성능을 향상 시키는데 기여하는 분류 규칙들을 선별하는 단계이다. 타겟 데이터 B를 대상으로 하여 Phase 2 와 같은 방식으로 스코어링을 수행하고, 해당 결과를 결합한 후 Phase 2를 통해 산출된 분류 규칙 후보군을 적용하여 타겟 데이터를 정확하게 분류해낸 분류 규칙들만을 선별하여 문서 분류기 구축을 위한 최종 분류 규칙으로 선정한다. 이후 Phase 4에서 Phase 3을 통해 최종 선정된 분류 규칙의 예측 정확도를 평가함으로써 문서 분류기를 구축할 수 있다.
이후 Phase 4에서 Phase 3을 통해 최종 선정된 분류 규칙의 예측 정확도를 평가함으로써 문서 분류기를 구축할 수 있다. 즉, 타겟 데이터 C를 대상으로 Phase2, 3과 같은 방식으로 스코어링을 수행하고, 해당 결과를 결합한 후 Phase 3을 통해 최종 선정된 분류 규칙을 적용한 예측 정확도를 평가하여 문서 분류기를 구축하게 된다. 제안 방법론에 대한 보다 자세한 설명은 이어지는 3.
본 절에서는 제안 방법론의 핵심인 Module 1 의 이질성 주입을 위한 이질성 학습에 대해 소개 하며, 구체적으로는 준지도학습의 자기훈련 기법을 통해 서로 다른 이질적 데이터로부터 새로운 형질을 추출하여 학습데이터로 추가함으로써 이질성 학습을 수행하는 과정을 설명한다.
[Figure 5]에서 (a) 원 데이터인 뉴스 데이터를 학습시켜 초기 분류 규칙을 생성하여 (b) 미분류된 이질적 데이터인 블로그와 트위터 데이터에 적용함으로써 (c) 예측값에 따라 이질적 데이터에 레이블이 부여된다. 이때, (c)의 결과 중 높은 예측값을 갖는 이질적 데이터들을 선별하여 학습데이터에 추가하여 다시 학습을 시킴으로써 새로운 분류 규칙을 생성하는 방식으로 반복학습을 통해 최종 분류 규칙을 선정하여 문서 분류기를 구축한다. 이처럼 미분류된 이질적 데이터를 학습에 활용해 원 데이터에 이질성을 주입함으로써 학습데이터의 재구성을 통해 이질성 분류기를 구축할 수 있다.
이처럼 미분류된 이질적 데이터를 학습에 활용해 원 데이터에 이질성을 주입함으로써 학습데이터의 재구성을 통해 이질성 분류기를 구축할 수 있다. 이때, 이질적 데이터 원천 소스의 수에 따라 여러 개의 이질성 분류기가 생성되는데, 해당 분류기들의 예측 결과들을 결합하여 가장 높은 예측값을 갖는 분류 규칙을 선정함으로써 최종적인 이질성 학습 기반의 분류 규칙을 도출한다. 이와 더불어 기존의 기계학습 알고리즘을 통해 원 데이터를 학습시켜 기계 학습 기반 분류 규칙을 도출한다.
이때, 이질적 데이터 원천 소스의 수에 따라 여러 개의 이질성 분류기가 생성되는데, 해당 분류기들의 예측 결과들을 결합하여 가장 높은 예측값을 갖는 분류 규칙을 선정함으로써 최종적인 이질성 학습 기반의 분류 규칙을 도출한다. 이와 더불어 기존의 기계학습 알고리즘을 통해 원 데이터를 학습시켜 기계 학습 기반 분류 규칙을 도출한다.
본 절은 [Figure 3]의 Phase 2 ~ Phase 4에 해당하는 부분으로, Module 1의 산출물인 이질성 학습 기반의 분류 규칙과 기계학습 기반의 분류규칙을 활용하여 규칙 선별 기반의 앙상블 학습 알고리즘을 통한 문서 분류기 구축 과정을 소개 한다(Phase 2 ~ Phase 4). 다시 말해, 이질성 학습 기반의 분류 규칙과 기계학습 기반의 분류 규칙을 활용하여 문서 분류기 구축을 위한 분류 규칙 후보군을 선별하고, 검증을 통해 최종 분류 규칙을 선정하여 테스트함으로써 문서 분류기의 성능을 측정하는 과정을 설명한다.
또한 타겟 데이터 A, B, C는 뉴스 데이터 12,000건을 4,000건씩 랜덤 샘플링하여 사용하였다. 실험은 [Figure 3]의 전체 연구개요도와 같은 흐름으로 이루어지며, 추가로 Module 2의 반복학습을 통해 규칙 선별 과정의 유효성을 검증 하고, 전통적 기계학습 기반의 분류기와 정확도를 비교분석을 통해 본 제안 방법론의 성능을 검증하였다.
기계학습 기반 분류기의 경우, 인공신경망 알고리즘을 통해 분류 규칙을 도출하였으며, 이질성 분류기의 경우, <Figure 5>와 같은 방식으로 미분류 뉴스 데이터, 블로그, 트위터 각각의 이질적 데이터소스를 활용해 원 데이터에 이질성을 주입하기 위한 이질성 학습을 통해 총 3개의 이질성 분류기를 구축하였다.
기계학습 기반의 분류기는 학습데이터로 레이블이 있는 분류 데이터를 사용하지만 이질성 학습 분류기는 초기 학습을 위한 분류 데이터와 이질성 학습을 위한 미분류 데이터 집합을 학습데이터로 필요로 한다. 이에 따라 본 실험에서는 기계학습 분류기를 위한 데이터 집합, 미분류 뉴스 데이터 기반의 이질성 분류기를 위한 데이터 집합, 블로그 데이터 기반의 이질성 분류기를 위한 데이터집합, 트위터 데이터 기반의 이질성 분류기를 위한 데이터 집합 총 4가지 유형의 데이터 집합을 구성하여 [Figure 4]와 같은 방식으로 각각 구조화한 후, 실험을 수행하였다.
9이상인 이질적 데이터가 18,263건으로 해당 미분류 데이터 중 91% 비율로 학습데이터에 추가되었고, 동일한 임계값 조건 하에서 블로그 기반의 이질성 분류기는 16,737건(84%), 트위터 기반의 이질성 분류기는 101,100건(50%)의 데이터가 각 분류기의 학습데이터로 추가되었다. 이후, 이질적 데이터의 추가로 재구성된 학습데이터를 대상으로 이질성 학습을 수행하여 각각의 이질성 분류기를 구축하였으며, 이질성 학습 기반의 분류 규칙을 도출하기 위해 각 분류기들의 결과를 결합하여 예측값이 가장 높은 분류 규칙을 선별하였다. [Table 6]은 해당 결과의 일부를 나타내며, 이질성 분류기별 예측값과 해당 분류기들의 예측 결과들을 결합하여 가장 높은 예측값을 갖는 분류 규칙을 보여주고 있다.
1의 Module 1을 통해 도출된 기계학습 기반 분류 규칙과 이질성 학습 기반 분류 규칙을 타겟 데이터 A, B, C 각각에 적용하여 [Figure 3]의 Phase 2 ~ Phase 4와 같은 방식으로, 분류 규칙 후보군을 생성하고([Table 7] 참조), 해당 분류 규칙 후보군의 검증을 거쳐 최종 적으로 문서 분류기에 사용될 최종 규칙을 선정한 후 테스트를 통해 문서 분류기의 예측 정확도를 측정하였다. 이때, 분류 규칙 후보군을 타겟 데이터 B에 적용하여 순이득이 1보다 작은 분류 규칙 후보는 탈락시키고, 1보다 큰 분류 규칙을 최종 분류 규칙으로 선정하여 타겟 데이터 C에 적용해 테스트를 수행하여 문서 분류기의 예측 정확도를 평가하였다. 본 연구에서는 제안 방법론의 규칙 선별 과정의 타당성을 증명하기 위해 타겟 데이터 A, B, C의 순서를 변화하여 타겟 데이터 B, C, A와 C, A, B의 순으로 동일한 실험을 수행하였으며, 해당 결과를 활용하여 전통적 기계학습 기반의 문서 분류기와 성능 비교를 통해본 제안 방법론의 검증을 수행하였다.
이때, 분류 규칙 후보군을 타겟 데이터 B에 적용하여 순이득이 1보다 작은 분류 규칙 후보는 탈락시키고, 1보다 큰 분류 규칙을 최종 분류 규칙으로 선정하여 타겟 데이터 C에 적용해 테스트를 수행하여 문서 분류기의 예측 정확도를 평가하였다. 본 연구에서는 제안 방법론의 규칙 선별 과정의 타당성을 증명하기 위해 타겟 데이터 A, B, C의 순서를 변화하여 타겟 데이터 B, C, A와 C, A, B의 순으로 동일한 실험을 수행하였으며, 해당 결과를 활용하여 전통적 기계학습 기반의 문서 분류기와 성능 비교를 통해본 제안 방법론의 검증을 수행하였다.
Phase 1에 해당하는 Module 1의 이질성 주입은 본 연구의 핵심 부분으로, 분류 및 학습의 대상이 되는 원 데이터에 이질성을 인위적으로 주입시키기 위하여 이질성 학습을 수행한다.
이후 4.2.1의 Module 1을 통해 도출된 기계학습 기반 분류 규칙과 이질성 학습 기반 분류 규칙을 타겟 데이터 A, B, C 각각에 적용하여 [Figure 3]의 Phase 2 ~ Phase 4와 같은 방식으로, 분류 규칙 후보군을 생성하고([Table 7] 참조), 해당 분류 규칙 후보군의 검증을 거쳐 최종 적으로 문서 분류기에 사용될 최종 규칙을 선정한 후 테스트를 통해 문서 분류기의 예측 정확도를 측정하였다.
제안 방법론은 Module 1 이질성 주입(Phase 1) 과 Module 2 분류 규칙 선별(Phase 2~4)의 2가지 모듈로 구성된다. Phase 1에 해당하는 Module 1의 이질성 주입은 본 연구의 핵심 부분으로, 분류 및 학습의 대상이 되는 원 데이터에 이질성을 인위적으로 주입시키기 위하여 이질성 학습을 수행한다.
구체적으로는 원 데이터를 학습하여 초기 분류기를 구축하고, 이를 이질적 데이터에 적용함으로써 가장 높은 예측값을 갖는 데이터만을 학습데이터에 추가하게 된다. 이때, 활용되는 이질적 데이터의 원천 소스의 수에 따라 각각의 이질성 분류기가 생성되기 때문에 기존 앙상블 학습 이론을 적용하여 해당 분류기들의 예측 결과를 결합하여 가장 높은 예측값을 갖는 분류 규칙을 선정함으로써 이질성 학습 기반의 분류 규칙을 생성한다. 이렇게 도출된 이질성 학습 기반 분류 규칙은 원 데이터를 대상으로 하여 기존의 기계학습 알고리즘을 통해 도출된 기계학습 기반 분류 규칙과 함께 이후 Module 2에서 수행될 규칙 선별 기반 앙상블 준지도학습에 활용된다.

대상 데이터

뉴스 데이터의 경우 한국의 포털사이트 “D”사의 뉴스 기사 중 디지털, 연예, 정치, 스포츠 4개의 카테고리(레이블)를 대상으로 수집하였다.
본 연구의 실험을 위해서는 뉴스, 트위터, 블로그 3가지 유형의 데이터 소스가 필요하며, 이를 위해 2014년 6월 22일부터 7월 5일까지의 뉴스 기사 총 387,018건, 블로그 데이터 327,554건, 트위터 데이터 14,000,000건을 수집하였다. 뉴스 데이터의 경우 한국의 포털사이트 “D”사의 뉴스 기사 중 디지털, 연예, 정치, 스포츠 4개의 카테고리(레이블)를 대상으로 수집하였다.
뉴스 데이터의 경우 한국의 포털사이트 “D”사의 뉴스 기사 중 디지털, 연예, 정치, 스포츠 4개의 카테고리(레이블)를 대상으로 수집하였다. 실제 실험 에서는 카테고리 간 형평성 유지를 위해 8,250건으로 가장 적은 수의 기사를 포함하고 있는 디지털 카테고리를 기준으로, 각 카테고리별로 8,250 건의 기사를 추출하여 총 33,000건의 뉴스 기사에 대한 분석을 수행하였다. 이후, 불용어 사전을 사용해 대상 데이터의 전처리를 수행하였으며, 전처리된 뉴스 데이터를 대상으로 랜덤 샘플링을 통해 레이블이 부여된 학습데이터 1,000건, 레이블이 없는 미분류 데이터 20,000건을 추출하였고, 규칙 선별 기반의 생성 및 검증 과정을 위한 타겟 데이터로 나머지 12,000건(각 카테고리 별 3,000건)의 뉴스 데이터를 사용하였다.
실제 실험 에서는 카테고리 간 형평성 유지를 위해 8,250건으로 가장 적은 수의 기사를 포함하고 있는 디지털 카테고리를 기준으로, 각 카테고리별로 8,250 건의 기사를 추출하여 총 33,000건의 뉴스 기사에 대한 분석을 수행하였다. 이후, 불용어 사전을 사용해 대상 데이터의 전처리를 수행하였으며, 전처리된 뉴스 데이터를 대상으로 랜덤 샘플링을 통해 레이블이 부여된 학습데이터 1,000건, 레이블이 없는 미분류 데이터 20,000건을 추출하였고, 규칙 선별 기반의 생성 및 검증 과정을 위한 타겟 데이터로 나머지 12,000건(각 카테고리 별 3,000건)의 뉴스 데이터를 사용하였다. 또한 미분류 뉴스 데이터와 함께 블로그, 트위터 데이터 데이터 모두 레이블이 없는 미분류 데이터로 정의하여 실험에 사용하였다.
이후, 불용어 사전을 사용해 대상 데이터의 전처리를 수행하였으며, 전처리된 뉴스 데이터를 대상으로 랜덤 샘플링을 통해 레이블이 부여된 학습데이터 1,000건, 레이블이 없는 미분류 데이터 20,000건을 추출하였고, 규칙 선별 기반의 생성 및 검증 과정을 위한 타겟 데이터로 나머지 12,000건(각 카테고리 별 3,000건)의 뉴스 데이터를 사용하였다. 또한 미분류 뉴스 데이터와 함께 블로그, 트위터 데이터 데이터 모두 레이블이 없는 미분류 데이터로 정의하여 실험에 사용하였다.
본 제안 방법론의 적용 가능성을 알아보기 위해 4.1절에서 소개한 실제 실험 데이터를 대상으로 실험을 수행하였다. 실험을 위해 수집된 데이터를 대상으로 실험 데이터를 선정하였으며, 레이블이 부여된 뉴스 데이터 1000건을 6:4의 비율로 Train 데이터 600건, Validate 데이터 400건으로 구분하여 사용하고, 미분류 데이터로 레이블이 없는 뉴스 데이터 20,000건, 블로그 데이터 20,000건, 트위터 데이터 200,000건을 사용하였다.
1절에서 소개한 실제 실험 데이터를 대상으로 실험을 수행하였다. 실험을 위해 수집된 데이터를 대상으로 실험 데이터를 선정하였으며, 레이블이 부여된 뉴스 데이터 1000건을 6:4의 비율로 Train 데이터 600건, Validate 데이터 400건으로 구분하여 사용하고, 미분류 데이터로 레이블이 없는 뉴스 데이터 20,000건, 블로그 데이터 20,000건, 트위터 데이터 200,000건을 사용하였다. 또한 타겟 데이터 A, B, C는 뉴스 데이터 12,000건을 4,000건씩 랜덤 샘플링하여 사용하였다.
실험을 위해 수집된 데이터를 대상으로 실험 데이터를 선정하였으며, 레이블이 부여된 뉴스 데이터 1000건을 6:4의 비율로 Train 데이터 600건, Validate 데이터 400건으로 구분하여 사용하고, 미분류 데이터로 레이블이 없는 뉴스 데이터 20,000건, 블로그 데이터 20,000건, 트위터 데이터 200,000건을 사용하였다. 또한 타겟 데이터 A, B, C는 뉴스 데이터 12,000건을 4,000건씩 랜덤 샘플링하여 사용하였다. 실험은 [Figure 3]의 전체 연구개요도와 같은 흐름으로 이루어지며, 추가로 Module 2의 반복학습을 통해 규칙 선별 과정의 유효성을 검증 하고, 전통적 기계학습 기반의 분류기와 정확도를 비교분석을 통해 본 제안 방법론의 성능을 검증하였다.

이론/모형

제안 방법론의 수행에 앞서 우선적으로 선행 되어야 하는 것은 데이터의 구조화 작업이다. 텍스트 데이터의 경우, 구조화되어 있지 않은 비정형 데이터이기 때문에 데이터 분석 가능한 형태로의 변환이 필수적이며, 본 연구에서는 이를 위해 텍스트 마이닝의 대표적 기법인 토픽 모델링 (Topic Modeling)을 활용한다. 토픽 모델링은 각 문서에 포함된 용어의 빈도수에 근거하여 유사 문서를 그룹화한 뒤 각 그룹을 대표하는 주요 용어들을 추출하여 해당 그룹의 토픽 키워드 집합을 제시하는 방식으로 이루어지며(Blei et al.

성능/효과

기계학습 기반 분류기의 경우, 인공신경망 알고리즘을 통해 분류 규칙을 도출하였으며, 이질성 분류기의 경우, <Figure 5>와 같은 방식으로 미분류 뉴스 데이터, 블로그, 트위터 각각의 이질적 데이터소스를 활용해 원 데이터에 이질성을 주입하기 위한 이질성 학습을 통해 총 3개의 이질성 분류기를 구축하였다. 그 결과, 미분류 뉴스 데이터 기반의 이질성 분류기의 경우, 임계값이 0.9이상인 이질적 데이터가 18,263건으로 해당 미분류 데이터 중 91% 비율로 학습데이터에 추가되었고, 동일한 임계값 조건 하에서 블로그 기반의 이질성 분류기는 16,737건(84%), 트위터 기반의 이질성 분류기는 101,100건(50%)의 데이터가 각 분류기의 학습데이터로 추가되었다. 이후, 이질적 데이터의 추가로 재구성된 학습데이터를 대상으로 이질성 학습을 수행하여 각각의 이질성 분류기를 구축하였으며, 이질성 학습 기반의 분류 규칙을 도출하기 위해 각 분류기들의 결과를 결합하여 예측값이 가장 높은 분류 규칙을 선별하였다.
[Table 8]에서 전통적 기계학습 기반 문서 분류기와 제안 방법론을 통해 예측 및 부여된 레이블을 12,000건의 대상 데이터의 실제 레이블과 비교한 결과, 전통적 기계학습 기반 문서 분류기는 10,836건, 제안 방법론은 11,008건의 문서를 정확히 예측 분류해냄 으로써 제안 방법론이 보다 정확한 예측 분류를 통해 문서 분류기의 성능을 향상시켰음을 확인 하였다.
[Figure 6]은 전통적 기계학습 기반 문서 분류기와 제안 방법론의 예측 정확도를 각 카테고리 별로 비교 분석한 결과를 그래프로 나타낸 것으로, 연예 카테고리는 0.8%p, 스포츠 카테고리는 1.2%p, 디지털 카테고리는 2.6%p, 정치 카테고리는 1.2%p로 모든 카테고리에 대해 예측 정확도가 향상됨을 확인하였으며, 전체 카테고리 기준 으로 전통적 기계학습 기반 문서 분류기는 90.3%, 제안 방법론은 91.7%로 전통적 문서 분류기 대비 문서 분류의 예측 정확도를 1.4%p 향상시킴을 보였다.
본 연구는 문서 분류의 정확도를 향상시키기 위한 방안으로 규칙 선별 기반의 앙상블 준지도 학습 알고리즘을 제안하였다. 제안 방법론은 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 새로운 형질을 추출하여 이질성 학습을 수행함으로써 원 데이터에 이질성을 주입하고, 이를 활용하여 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식으로 이루어지며, 전통적 기계학습 기반 문서 분류기에 비해 예측 정확도가 1.4%p 증가함을 보임으로써 제안 방법론을 통해 문서 분류의 성능을 향상시킬 수 있음을 증명하였다

후속연구

또한 기존의 기계학습 기반 분류기와 이질성 분류기를 통한 분류 규칙 도출을 통해 데이터가 갖는 형질에 따라 적합한 분류 규칙을 선별적으로 적용함으로써 보다 정확한 문서 분류를 가능하게 했다는 점에서 그 기여를 인정받을 수 있다. 한편 실무적 측면에서 제안 방법론은 이질적 데이터를 활용해 기존의 동질적 분류 데이터를 활용한 분류 규칙을 보완함으로써 실시간으로 생겨나는 방대한 양의 텍스트 데이터를 효율적으로 분류하고 관리할 수 있다는 점에서 그 기여를 크게 인정받을 수 있을 것으로 기대한다.
하지만 본 연구는 향후 다음의 측면에서 보완이 필요하다. 본 연구는 1,000건의 학습데이터를 사용해 실험이 수행되었으며, 이질성 데이터를 활용한 분류 규칙의 정확도가 향상됨을 보였으나, 향상 폭이 상대적으로 작다는 한계가 있다. 따라서 향후 연구에서는 이질성 주입 과정에서 이질성 데이터의 양이 분류 규칙 정확도에 미치는 영향을 파악할 필요가 있다.
본 연구는 1,000건의 학습데이터를 사용해 실험이 수행되었으며, 이질성 데이터를 활용한 분류 규칙의 정확도가 향상됨을 보였으나, 향상 폭이 상대적으로 작다는 한계가 있다. 따라서 향후 연구에서는 이질성 주입 과정에서 이질성 데이터의 양이 분류 규칙 정확도에 미치는 영향을 파악할 필요가 있다. 또한 레이블이 없는 미분류 데이터의 유형에 따라 실험 결과가 달라질 수 있기 때문에 다른 잠재적 이질성 데이터를 활용하여 반복 실험을 수행할 필요가 있으며, 제안 방법론의 확장성을 높이기 위해 본 연구에서 수동으로 수행되었던 분석 단계들에 대한 자동화가 필요하다.
따라서 향후 연구에서는 이질성 주입 과정에서 이질성 데이터의 양이 분류 규칙 정확도에 미치는 영향을 파악할 필요가 있다. 또한 레이블이 없는 미분류 데이터의 유형에 따라 실험 결과가 달라질 수 있기 때문에 다른 잠재적 이질성 데이터를 활용하여 반복 실험을 수행할 필요가 있으며, 제안 방법론의 확장성을 높이기 위해 본 연구에서 수동으로 수행되었던 분석 단계들에 대한 자동화가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서 분류란 무엇인가?	이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃 (K-Nearest Neighbor), 나이브 베이지안 알고리즘 (Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신 경망(Artificial Neural Network) 등 다양한 기계학습 기술들이 문서 분류에 활용되고 있다.
	기계학습 알고리즘은 레이블이 없는 미분류 데이터에 대응하기 위하여 어떤 알고리즘이 각광받고 있는가?	기존의 기계학습 알고리즘은 충분한 수의 레이블을 갖고 있는 분류 데이터가 있을 때 효과 적인 방법이나, 레이블이 없는 미분류 데이터에 레이블을 부여하기 위한 전문가의 판단이 필요할 뿐만 아니라 레이블을 갖는 분류 데이터를 확보를 위해 상대적으로 많은 비용과 시간을 필요로 한다는 어려움이 있다. 반면 레이블이 없는 미분류 데이터의 경우에는 상대적으로 적은 비용과 시간을 투자하여 손쉽게 수집이 가능하기 때문에 이를 활용할 수 있는 준지도학습 알고리즘이 각광을 받고 있다. 준지도학습은 레이블을 갖는 분류 데이터 수가 충분하지 않을 경우, 레이블이 없는 미분류 데이터를 학습데이터로 사용함으로써 더 높은 정확도를 갖는 양질의 분류기를 구축한다.
	문서분류를 위한 기계학습 기술들은 어떠한 것들이 있는가?	이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃 (K-Nearest Neighbor), 나이브 베이지안 알고리즘 (Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신 경망(Artificial Neural Network) 등 다양한 기계학습 기술들이 문서 분류에 활용되고 있다.

참고문헌 (46)

Ando, R. K. and T. Zhang, "A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data," Journal of Machine Learning Research, Vol. 6 (2005), 1817-1853.
Angelova, R. and G. Weikum, "Graph-Based Text Classification: Learn from Your Neighbors," Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, (2006), 485-492.
Belkin, M., P. Niyogi, and V. Sindhwani, "Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples," Journal of Machine Learning Research, Vol. 7(2006), 2399-2434.
Bennett, K. P. and A. Demiriz, "Semi-Supervised Support Vector Machines," Advances in Neural Information Processing Systems, Vol. 11(1999), 368-374.
Blei, D.M., A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol. 3, No. Jan(2003), 993-1022.
Blum, A. and T. Mitchell, "Combining Labeled and Unlabeled Data with Co-Training," Proceedings of the eleventh annual conference on Computational learning theory, (1998), 92-100.
Breiman, L., "Bagging Predictors," Machine learning, Vol. 24, No. 2(1996), 123-140.

상세보기
Dasarathy, B. V. and B. V. Sheela, "A Composite Classifier System Design: Concepts and Methodology," Proceedings of the IEEE, Vol. 67, No. 5(1979), 708-713.

상세보기
Dietterich, T.G., "Ensemble Methods in Machine Learning," Multiple Classifier Systems, Vol. 1857(2000), 1-15.
Freund, Y. and R. E. Schapire, "Experiments with a New Boosting Algorithm," Proceedings of the Thirteenth International Conference on International Conference on Machine Learning, (1996),148-156.
Freund, Y. and R. E. Schapire, "A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting," Journal of Computer and System Sciences, Vol. 55, No. 1(1997), 119-139.

상세보기
Hansen, L. K. and P. Salamon, "Neural Network Ensembles," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 12, No. 10(1990), 993-1001.

상세보기
Hofmann, T., "Unsupervised Learning by Probabilistic Latent Semantic Analysis," Machine learning, Vol. 42, No. 1-2(2001), 177-196.
Jacobs, R. A., M. I. Jordan, S. J. Nowlan, and G. E. Hinton, "Adaptive Mixtures of Local Experts," Neural Computation, Vol. 3, No. 1(1991), 79-87.

상세보기
Joachims, T., "Transductive Inference for Text Classification using Support Vector Machines," International Conference on Machine Learning, Vol. 99(1999), 200-209.
Jordan, M. I. and L. Xu, "Convergence Results for the EM Approach to Mixtures of Experts Architectures," Neural Networks, Vol. 8, No. 9(1995), 1409-1431.

상세보기
Jordan, M. I. and R. A. Jacobs, "Hierarchical Mixtures of Experts and the EM Algorithm," Neural Computation, Vol. 6, No. 2(1994), 181-214.

상세보기
Kim, M., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol. 18, No. 2(2012), 29-45.
Kim, D., and N. Kim, "Mapping Categories of Heterogeneous Sources using Text Analytics," Journal of Intelligence and Information Systems, Vol. 22, No. 4(2016), 193-215.

원문보기 상세보기
Kim, S., H. Zhang, R. Wu, and L. Gong, "Dealing with Noise in Defect Prediction," Proceedings of the 33rd International Conference on Software Engineering, (2011), 481-490.
L'Heureux, A., K. Grolinger, H. F. ElYamany, and M. Capretz, "Machine Learning with Big Data: Challenges and Approaches," IEEE Access, Vol. 5(2017), 7776-7797.

상세보기
Li, M. and Z. H. Zhou, "SETRED: Self-Training with Editing," Pacific-Asia Conference on Knowledge Discovery and Data Mining, Vol. 3518(2005), 611-621.
Liu, W., S. Liu, Q. Gu, X. Chen, and D. Chen, "Fecs: A Cluster based Feature Selection Method for Software Fault Prediction with Noises," IEEE 39th Annual Computer Software and Applications Conference (COMPSAC), Vol. 2(2015), 276-281.
Mallapragada, P. K., R. Jin, A. K. Jain, and Y. Liu, "Semiboost: Boosting for Semi-Supervised Learning," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11(2009), 2000-2014.

상세보기
Maulik, U. and D. Chakraborty, "A Self-Trained Ensemble with Semisupervised SVM: An Application to Pixel Classification of Remote Sensing Imagery," Pattern Recognition, Vol. 44, No. 3(2011), 615-623.

상세보기
McClosky, D., E. Charniak, and M. Johnson, "Effective Self-Training for Parsing," Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, (2006), 152-159.
Min, S., "Bankruptcy Prediction using an Improved Bagging Ensemble," Journal of Intelligence and Information Systems, Vol. 20, No. 4(2014), 121-139.
Mitra, V., C. J. Wang, and S. Banerjee, "Text Classification: A Least Square Support Vector Machine Approach," Applied Soft Computing, Vol. 7, No. 3(2007), 908-914.

상세보기
Nigam, K., A. K. McCallum, S. Thrun, and T. Mitchell, "Text Classification from Labeled and Unlabeled Documents using EM," Machine Learning, Vol. 39, No. 2(2000), 103-134.
Provost, F. and T. Fawcett, Data Science for Business: What You Need to Know About Data Mining and Data-Analytic Thinking, O'Reilly Media, Inc., California, 2013.
Polikar, R., "Ensemble based Systems in Decision Making," IEEE Circuits and Systems Magazine, Vol. 6, No. 3(2006), 21-45.

상세보기
Rosenberg, C., M. Hebert, and H. Schneiderman, "Semi-Supervised Self-Training of Object Detection Models," Seventh IEEE Workshops on Application of Computer Vision, Vol. 1(2005), 29-36.
Saez, J.A., M. Galar, J. Luengo, and F. Herrera, "Tackling the Problem of Classification with Noisy Data using Multiple Classifier Systems: Analysis of the Performance and Robustness," Information Sciences, Vol. 247(2013), 1-20.

상세보기
Salton, G. and C. Buckley, "Term Weighting Approaches in Automatic Text Retrieval," Technical Report, Cornell University, 1987.
Schapire, R.E., "The Strength of Weak Learnability," Machine Learning, Vol. 5, No. 2(1990), 197-227.

상세보기
Shahshahani, B.M. and D. A. Landgrebe, "The Effect of Unlabeled Samples in Reducing the Small Sample Size Problem and Mitigating the Hughes Phenomenon," IEEE Transactions on Geoscience and Remote Sensing, Vol. 32, No. 5(1994), 1087-1095.

상세보기
Tanha, J., M. van Someren, and H. Afsarmanesh, "Disagreement-based Co-Training," 23rd IEEE International Conference on Tools with Artificial Intelligence (ICTAI), (2011), 803-810.
Tanha, J., M. van Someren, and H. Afsarmanesh, "Semi-Supervised Self-Training for Decision Tree Classifiers," International Journal of Machine Learning and Cybernetics, Vol. 8, No. 1(2017), 355-370.

상세보기
Triguero, I., J. A. Saez, J. Luengo, S. Garcia, and F. Herrera, "On the Characterization of Noise Filters for Self-Training Semi-Supervised in Nearest Neighbor Classification," Neurocomputing, Vol. 132(2014), 30-41.

상세보기
Triguero, I., S. Garcia, and F. Herrera, "Self-Labeled Techniques for Semi-Supervised Learning: Taxonomy, Software and Empirical Study," Knowledge and Information Systems, Vol. 42, No. 2(2015), 245-284.

상세보기
Wolpert, D.H., 1992. "Stacked Generalization," Neural Networks, Vol. 5, No. 2(1992), 241-259.

상세보기
Wu, X. and X. Zhu, "Mining with Noise Knowledge: Error-Aware Data Mining," IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, Vol. 38, No. 4(2008), 917-932.

상세보기
Yarowsky, D., "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods," Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics, (1995), 189-196.
Zhu, X., "Semi-Supervised Learning Literature Survey," Computer Sciences TR 1530, University of Wisconsin, 2008. Available at http://pages.cs.wisc.edu/;jerryzhu/pub/ssl_survey.pdf
Zhu, X. and A. B. Goldberg, "Introduction to Semi-Supervised Learning," Synthesis Lectures on Artificial Intelligence and Machine Learning, Vol. 3, No. 1(2009), 1-130.

상세보기
Zhu, X., J. Lafferty, and R. Rosenfeld, "Semi-Supervised Learning with Graphs," Doctoral Dissertation, Language Technologies Institute, Carnegie Mellon University, 2005.

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증