[논문]전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템

허윤아; 이동엽; 김규경; 유원희; 임희석

doi:10.15207/jkcs.2017.8.12.039

전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템
A System for Automatic Classification of Traditional Culture Texts 원문보기

한국융합학회논문지 = Journal of the Korea Convergence Society, v.8 no.12, 2017년, pp.39 - 47

허윤아 (고려대학교 컴퓨터학과) , 이동엽 (고려대학교 컴퓨터학과) , 김규경 (고려대학교 컴퓨터학과) , 유원희 (고려대학교 컴퓨터학과) , 임희석 (고려대학교 컴퓨터학과)

초록
AI-Helper

한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.

Abstract ▼ AI-Helper

The Internet have increased the number of digital web documents related to the history and traditions of Korean Culture. However, users who search for creators or materials related to traditional cultures are not able to get the information they want and the results are not enough. Document classification is required to access this effective information. In the past, document classification has been difficult to manually and manually classify documents, but it has recently been difficult to spend a lot of time and money. Therefore, this paper develops an automatic text classification model of traditional cultural contents based on the data of the Korean information culture field composed of systematic classifications of traditional cultural contents. This study applied TF-IDF model, Bag-of-Words model, and TF-IDF/Bag-of-Words combined model to extract word frequencies for 'Korea Traditional Culture' data. And we developed the automatic text classification model of traditional cultural contents using Support Vector Machine classification algorithm.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 각 텍스트 문서에서 출현하는 핵심 단어를 파악하며, 각 핵심 단어를 추출한다. 그 후 각 핵심 단어의 빈도수를 TF-IDF와 Bag-of-Words를 이용하여 계산한다.
본 연구에서는 검증용 데이터를 통해 전통문화 콘텐츠 자동 텍스트 분류 모델에 대한 성능평가를 실시하였다. 또한 단어 빈도를 추출하기 위해 사용된 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 3가지 모델에 각각 분류 알고리즘인 SVM을 적용하여 각각의 모델에 대한 성능을 비교하였다.
본 연구에서는 전통문화 콘텐츠에 대해 창작자와 연구자 또는 사용자가 쉽게 활용하기 위해 전통문화 콘텐츠에 정확한 이해를 바탕으로 만든 전통문화 콘텐츠의 체계적인 데이터가 필요하다. 따라서 한국 문화 정보원의 전통문화 콘텐츠를 관리하고 수행하고 있는 한민족정보문화마당 데이터를 본 연구에서 사용하였다.
본 연구에서는 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠를 장르·시대 등의 조건에 따라 연결하고, 인물, 사건, 문화재 등을 확장 검색할 수 있는 검색기술 중 하나인 텍스트(문서) 분류 모델을 개발한다.
이에 본 논문에서는 전통 문화 콘텐츠를 기반으로 우리나라의 역사와 전통문화를 효율적으로 관리하며 검색하도록 자동 문서 분류 시스템을 개발하였다. 자동 문서분류의 효율성을 높이기 위해 전통 문화 콘텐츠에서의 표준체계를 기반으로 정해진 범주(Category)를 구축하고, 정해진 범주를 통해 기계학습 기법을 적용하여 정확성과 효율성을 높이는 자동 문서 분류 시스템을 개발하였다.
이에 본 논문은 전통문화 콘텐츠의 체계적인 분류체계를 정립한 한민족정보문화마당 데이터를 기반으로 하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구에서 한민족정보마당의 90%는 훈련용 데이터(Training Data)로 사용하였고, 나머지 10%는 검증용 데이터(Test Data)로 사용하여 개발된 모델에 대한 객관적인 성능평가를 하였다.

제안 방법

두 번째, 한민족정보문화마당에 있는 텍스트데이터에서 단어 빈도를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 3가지 모델을 사용하였다. 네 번째, 분류 알고리즘인 SVM(Support Vector Machine)을 적용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하였다.
첫 번째, 전처리 과정에서는 분류된 데이터 모두 데이터 전통문화 콘텐츠에 적합하지 않은 노이지(Noisy) 데이터는 제거하는 과정을 수행한다. 두 번째, 전통문화 콘텐츠의 표준체계로 이루어진 분류체계 데이터를 통해 모델을 생성하기 위해 학습용 데이터 셋 (Training DataSet)과 전통문화 콘텐츠 자동 분류 모델을 평가하는데 이용하는 검증용 데이터 셋(Test Data Set)을 구분한다. 세 번째, 자동 분류 모델을 생성하기 위해 TF-IDF와 Bag-of-Words 모델을 활용하여 단어의 빈도를 파악하며, 분류 알고리즘(Classification Algorithm)인 SVM(Support Vector Machine)을 이용하여 범주(Category)별로 분류하여 모델을 학습시킴과 동시에 전통문화 콘텐츠 자동 분류 모델을 생성한다.
본 연구에서는 검증용 데이터를 통해 전통문화 콘텐츠 자동 텍스트 분류 모델에 대한 성능평가를 실시하였다. 또한 단어 빈도를 추출하기 위해 사용된 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 3가지 모델에 각각 분류 알고리즘인 SVM을 적용하여 각각의 모델에 대한 성능을 비교하였다. 비교한 결과 TF-IDF 모델만 사용하였을 때, 81.
추출된 단어를 정해진 범주와 함께 기계학습 기법인 SVM(Support Vector Machine)을 이용하여 전통 문화 콘텐츠 자동 문서 분류 모델을 구축한다[9,10,11]. 또한 본 연구에서는 TF-IDF 모델을 적용한 것과 Bag-of-Words모델을 적용한 것 그리고 TF-IDF와 Bag-of-Words 모델을 함께 적용한 것 즉 3가지 모델을 적용한 후 성능을 비교하였다. 이를 바탕으로 구축한 모델을 이용하여 새로운 문서가 들어왔을 때 가장 적합한 범주로 예측하여 사용자에게 가장 적합한 범주를 제공함으로써 검색의 효율을 높일 수 있다.
대표적으로 TF-IDF와 Bag-of-Words 모델을 적용하는 방법을 살펴본다. 또한 분류 알고리즘은 SVM을 적용한 최종 전통문화 콘텐츠 자동 텍스트 분류 모델의 정확도를 확인한다. 마지막으로 5장에서는 본 논문의 결론을 내리며, 향후 연구방향에 대해 논한다.
세 번째, 자동 분류 모델을 생성하기 위해 TF-IDF와 Bag-of-Words 모델을 활용하여 단어의 빈도를 파악하며, 분류 알고리즘(Classification Algorithm)인 SVM(Support Vector Machine)을 이용하여 범주(Category)별로 분류하여 모델을 학습시킴과 동시에 전통문화 콘텐츠 자동 분류 모델을 생성한다. 마지막으로 학습된 콘텐츠 자동 분류 모델을 검증하기 위해 검증용 데이터 셋으로 분류된 범주와 원래의 범주를 비교하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하도록 한다.
본 연구는 TF-IDF 모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words 모델 각각 SVM 알고리즘을 통해 분류하였으며 전통문화 콘텐츠 자동 텍스트 분류의 성능평가이다. 아래 [Table 3]은 검증용 데이터를 통해 실험된 결과이다.
또한 본 연구에서는 단어의 가중치를 부여하기 위해 사용된 TF-IDF, Bag-of-Words 모델이 있다. 본 연구는 다른 모델을 적용한 3가지 성능을 비교하였다. 첫 번째 TF-IDF 모델에 분류 알고리즘인 SVM 기법을 적용한 것, 두 번째 Bag-of-Words 모델을 사용하여 SVM 모델에 적용한 것, 마지막으로 TF-IDF와 Bag-of-Words를 결합(Concatenation)한 모델을 적용하여 SVM 모델을 적용한 성능 총 3가지 모델의 성능을 비교하였다.
본 연구에서 한민족정보문화마당 데이터에 맞는 전처리 과정을 거쳐 학습(Training)할 수 있도록 하였다. 전체 데이터의 90%인 약 13,500문장은 학습 데이터로 사용하였으며, 나머지 10%인 약 1,500문장은 검증 데이터로 활용하였다.
본 연구에서 훈련용 데이터 셋(Training Data)와 검증용 데이터 셋(Training Data)로 구분함으로써 전통문화 콘텐츠 자동 분류 모델에 대한 객관적인 성능 평가가 이루어진다.
자동 문서분류의 효율성을 높이기 위해 전통 문화 콘텐츠에서의 표준체계를 기반으로 정해진 범주(Category)를 구축하고, 정해진 범주를 통해 기계학습 기법을 적용하여 정확성과 효율성을 높이는 자동 문서 분류 시스템을 개발하였다. 본 연구에서는 전통 문화 콘텐츠에 대한 문서들을 수집하고, 기계학습 기법들을 적용하기 전에 기본적으로 학습할 문서 집합 내에서 단어의 빈도수를 추출하는 TF-IDF과 Bag-of-Words 모델을 이용하여 단어를 추출한다. 추출된 단어를 정해진 범주와 함께 기계학습 기법인 SVM(Support Vector Machine)을 이용하여 전통 문화 콘텐츠 자동 문서 분류 모델을 구축한다[9,10,11].
본 연구에서의 전통문화 콘텐츠 자동 텍스트 분류 모델은 SVM 알고리즘을 적용한 결과를 통해 분류 정확도를 비교 분석한다. 학습 데이터로부터 하나의 함수를 예측한 후 평가방법은 정확도(Accuracy)를 통해 검증한다.
두 번째, 전통문화 콘텐츠의 표준체계로 이루어진 분류체계 데이터를 통해 모델을 생성하기 위해 학습용 데이터 셋 (Training DataSet)과 전통문화 콘텐츠 자동 분류 모델을 평가하는데 이용하는 검증용 데이터 셋(Test Data Set)을 구분한다. 세 번째, 자동 분류 모델을 생성하기 위해 TF-IDF와 Bag-of-Words 모델을 활용하여 단어의 빈도를 파악하며, 분류 알고리즘(Classification Algorithm)인 SVM(Support Vector Machine)을 이용하여 범주(Category)별로 분류하여 모델을 학습시킴과 동시에 전통문화 콘텐츠 자동 분류 모델을 생성한다. 마지막으로 학습된 콘텐츠 자동 분류 모델을 검증하기 위해 검증용 데이터 셋으로 분류된 범주와 원래의 범주를 비교하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하도록 한다.
위의 성능평가는 15,000개의 텍스트 문서를 통해 전통문화 콘텐츠 자동 텍스트 분류 모델을 성능 평가하였다. 본 성능평가는 정확도이며, 검증 데이터 총 15,000개의 정답 범주(Category)와 전통문화 콘텐츠 자동 텍스트 분류 모델을 통해 예측된 범주를 비교한 후 일치하는 개수를 Correct라고 한다.
이에 본 논문에서는 전통 문화 콘텐츠를 기반으로 우리나라의 역사와 전통문화를 효율적으로 관리하며 검색하도록 자동 문서 분류 시스템을 개발하였다. 자동 문서분류의 효율성을 높이기 위해 전통 문화 콘텐츠에서의 표준체계를 기반으로 정해진 범주(Category)를 구축하고, 정해진 범주를 통해 기계학습 기법을 적용하여 정확성과 효율성을 높이는 자동 문서 분류 시스템을 개발하였다. 본 연구에서는 전통 문화 콘텐츠에 대한 문서들을 수집하고, 기계학습 기법들을 적용하기 전에 기본적으로 학습할 문서 집합 내에서 단어의 빈도수를 추출하는 TF-IDF과 Bag-of-Words 모델을 이용하여 단어를 추출한다.
본 연구에서는 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠를 장르·시대 등의 조건에 따라 연결하고, 인물, 사건, 문화재 등을 확장 검색할 수 있는 검색기술 중 하나인 텍스트(문서) 분류 모델을 개발한다. 즉, 사용자들의 원활한 검색을 위해 기계학습 기법을 이용하여 전통문화 콘텐츠의 분류체계를 통해 텍스트 분류 모델을 개발한다. 아래 [Fig 2]는 전통 문화 콘텐츠 자동 분류 시스템의 전체적인 흐름을 도식화한 것이다.
본 연구는 다른 모델을 적용한 3가지 성능을 비교하였다. 첫 번째 TF-IDF 모델에 분류 알고리즘인 SVM 기법을 적용한 것, 두 번째 Bag-of-Words 모델을 사용하여 SVM 모델에 적용한 것, 마지막으로 TF-IDF와 Bag-of-Words를 결합(Concatenation)한 모델을 적용하여 SVM 모델을 적용한 성능 총 3가지 모델의 성능을 비교하였다.
첫 번째, 전처리 과정에서는 분류된 데이터 모두 데이터 전통문화 콘텐츠에 적합하지 않은 노이지(Noisy) 데이터는 제거하는 과정을 수행한다. 두 번째, 전통문화 콘텐츠의 표준체계로 이루어진 분류체계 데이터를 통해 모델을 생성하기 위해 학습용 데이터 셋 (Training DataSet)과 전통문화 콘텐츠 자동 분류 모델을 평가하는데 이용하는 검증용 데이터 셋(Test Data Set)을 구분한다.

대상 데이터

본 연구에서는 전통문화 콘텐츠에 대해 창작자와 연구자 또는 사용자가 쉽게 활용하기 위해 전통문화 콘텐츠에 정확한 이해를 바탕으로 만든 전통문화 콘텐츠의 체계적인 데이터가 필요하다. 따라서 한국 문화 정보원의 전통문화 콘텐츠를 관리하고 수행하고 있는 한민족정보문화마당 데이터를 본 연구에서 사용하였다. 한민족정보문화마당 데이터는 전통 콘텐츠의 분류체계에 따른 정확한 고유번호를 갖고 있으며, 총 76개의 카테고리 중 전체 데이터는 15,000 문장의 데이터로 이루어져 있다.
본 연구는 한민족정보마당 데이터를 기반으로 전처리 과정을 거친 76개의 범주로 이루어진 데이터를 사용하였다. 이 중 전체 데이터의 90%는 텍스트 문서는 학습용 데이터 셋과 나머지 10%의 검증용 데이터 셋으로 전통문화 콘텐츠 자동 분류 모델을 생성하였다.
이에 본 논문은 전통문화 콘텐츠의 체계적인 분류체계를 정립한 한민족정보문화마당 데이터를 기반으로 하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구에서 한민족정보마당의 90%는 훈련용 데이터(Training Data)로 사용하였고, 나머지 10%는 검증용 데이터(Test Data)로 사용하여 개발된 모델에 대한 객관적인 성능평가를 하였다. 전통문화 콘텐츠 자동 텍스트 분류 모델을 생성하는 과정은 첫 번째, 한민족정보마당 데이터에 대한 전처리를 통해 노이지(Noisy)한 데이터를 제거한다.
본 연구에서는 전통문화 콘텐츠의 표준체계로 분류된 범주(Category)와 범주에 맞는 텍스트 문서가 매핑(Mapping)된 분류체계인 한민족정보문화마당 데이터를 사용하였다[16].
본 연구는 한민족정보마당 데이터를 기반으로 전처리 과정을 거친 76개의 범주로 이루어진 데이터를 사용하였다. 이 중 전체 데이터의 90%는 텍스트 문서는 학습용 데이터 셋과 나머지 10%의 검증용 데이터 셋으로 전통문화 콘텐츠 자동 분류 모델을 생성하였다.
본 연구에서 한민족정보문화마당 데이터에 맞는 전처리 과정을 거쳐 학습(Training)할 수 있도록 하였다. 전체 데이터의 90%인 약 13,500문장은 학습 데이터로 사용하였으며, 나머지 10%인 약 1,500문장은 검증 데이터로 활용하였다.

데이터처리

본 연구에서의 전통문화 콘텐츠 자동 텍스트 분류 모델은 SVM 알고리즘을 적용한 결과를 통해 분류 정확도를 비교 분석한다. 학습 데이터로부터 하나의 함수를 예측한 후 평가방법은 정확도(Accuracy)를 통해 검증한다. 정확도란 실제의 분류 정답과 얼마나 근접한지를 나타내는 기준이다.

이론/모형

본 연구에서는 각 텍스트 문서에서 출현하는 핵심 단어를 파악하며, 각 핵심 단어를 추출한다. 그 후 각 핵심 단어의 빈도수를 TF-IDF와 Bag-of-Words를 이용하여 계산한다.
전통문화 콘텐츠 자동 텍스트 분류 모델을 생성하는 과정은 첫 번째, 한민족정보마당 데이터에 대한 전처리를 통해 노이지(Noisy)한 데이터를 제거한다. 두 번째, 한민족정보문화마당에 있는 텍스트데이터에서 단어 빈도를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 3가지 모델을 사용하였다. 네 번째, 분류 알고리즘인 SVM(Support Vector Machine)을 적용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하였다.
또한 본 연구에서는 단어의 가중치를 부여하기 위해 사용된 TF-IDF, Bag-of-Words 모델이 있다. 본 연구는 다른 모델을 적용한 3가지 성능을 비교하였다.
문서(텍스트) 파일은 일련의 단어 순서대로 이루어져 있으며, 기계학습 알고리즘을 적용하기 전에 문서 파일들을 수치로 이루어진 특징 벡터로 변환해야 한다. 본 연구에서는 TF-IDF 모델과, Bag-of-Words모델을 사용하여 문서 파일에서 나오는 각 단어의 횟수를 계산하여 특징 벡터로 변환한다. 특징 벡터로 변환된 학습 문서와 미리 정해진 범주(Category)로 분류 알고리즘을 이용하여 학습 모델을 형성한다.
두 번째, 학습 데이터의 특징을 추출하여 입력 벡터(Vector)로 바꾸며 추출된 벡터는 차원(Dimensionality)을 갖게 된다. 세 번째, 차원을 갖는 벡터를 통해 분류 알고리즘인 SVM(Support Vector Machine), 나이브 베이즈 분류(Naive Bayes Classification), 신경망(Neural Network)등을 적용한다.
이와 같이 본 연구에서는 전처리 과정을 거친 한민족정보마당 데이터에서 ‘문서 제목(Title)’과 ‘내용(Content)’에 대한 텍스트 문서에 대한 단어 빈도수를 추출하기 위해 Bag-of-Words 모델을 사용하였다.
이와 같이 본 연구에서는 한민족정보마당 데이터에서 전처리 과정을 마친 문서 제목(Title)과 내용(Content)의 텍스트 문서에 대해 단어 빈도수를 추출하기 위해 TF-IDF 모델을 사용하였다.
본 연구에서는 전통 문화 콘텐츠에 대한 문서들을 수집하고, 기계학습 기법들을 적용하기 전에 기본적으로 학습할 문서 집합 내에서 단어의 빈도수를 추출하는 TF-IDF과 Bag-of-Words 모델을 이용하여 단어를 추출한다. 추출된 단어를 정해진 범주와 함께 기계학습 기법인 SVM(Support Vector Machine)을 이용하여 전통 문화 콘텐츠 자동 문서 분류 모델을 구축한다[9,10,11]. 또한 본 연구에서는 TF-IDF 모델을 적용한 것과 Bag-of-Words모델을 적용한 것 그리고 TF-IDF와 Bag-of-Words 모델을 함께 적용한 것 즉 3가지 모델을 적용한 후 성능을 비교하였다.

성능/효과

그 중 한민족정보문화마당 데이터 분류체계의 범주(Category)는 [Table 1]과 같이 대분류, 중분류, 소분류로 이루어져 있다. 대분류는 지리, 역사, 문화유산, 인물, 사회문화, 종교, 생활, 표현문화 총 8가지로 이루어져 있으며, 원래 한민족정보문화마당이 갖고 있는 소분류의 범주는 총 133개였다. 하지만 각 범주마다 적은 양의 텍스트 문서를 포함하는 범주로 인해 텍스트 분류의 성능에 영향을 줄 수 있다는 문제점이 있다.
또한 단어 빈도를 추출하기 위해 사용된 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 3가지 모델에 각각 분류 알고리즘인 SVM을 적용하여 각각의 모델에 대한 성능을 비교하였다. 비교한 결과 TF-IDF 모델만 사용하였을 때, 81.12%로 나머지 2개의 모델보다 좋은 성능을 얻을 수 있었다.
정확도는 전체 텍스트 문서의 범주 개수에 Correct 개수를 나눈 값이다. 성능 결과인 Accuracy(정확도)를 보면 TF-IDF/Bag-of-Words를 결합하여 사용한 것 보다 Bag-of-Words를 사용한 것이 조금 더 나았으며, 가장 높은 Accuracy는 81.12%로 TF-IDF 모델을 사용하였을 때이다.
또한 본 연구에서는 TF-IDF 모델을 적용한 것과 Bag-of-Words모델을 적용한 것 그리고 TF-IDF와 Bag-of-Words 모델을 함께 적용한 것 즉 3가지 모델을 적용한 후 성능을 비교하였다. 이를 바탕으로 구축한 모델을 이용하여 새로운 문서가 들어왔을 때 가장 적합한 범주로 예측하여 사용자에게 가장 적합한 범주를 제공함으로써 검색의 효율을 높일 수 있다.

후속연구

본 연구를 통해 개발된 전통문화 콘텐츠 자동 텍스트 분류 모델을 통해 전통문화 콘텐츠에 대한 정보를 이용하려는 창작자나 사용자들에게 좀 더 효과적인 정보를 얻을 수 있는 발판이 될 것으로 기대한다

질의응답

핵심어	질문	논문에서 추출한 답변
	과거의 문서분류 방법의 문제점은 무엇인가?	문서 분류(Document Classification)란 문서의 내용을 읽고 분류하고자 하는 작업자가 미리 정해진 범주(Category)로 분류하며, 각 문서들을 가장 적합한 범주로 분류되어 집단화하는 작업을 의미한다[5]. 과거에는 문서분류를 작업자에 의해 수작업으로 이루어졌기 때문에 시간이 오래 걸리고, 비용도 많이 들었으며, 또한 방대한 자료를 일일이 사람이 분류해야 하는 문제점이 있었다. 이러한 문제점은 자동 분류 시스템을 이용하거나 보조시스템을 활용하면서 문서 분류 작업의 효율성을 증진시킨다.
	문서 분류란 무엇인가?	이러한 문제점을 해결하고자 웹 문서에 따라 알맞은 범주에 맞게 분류하는 문서 분류 도구가 집중되고 있다[1]. 문서 분류(Document Classification)란 문서의 내용을 읽고 분류하고자 하는 작업자가 미리 정해진 범주(Category)로 분류하며, 각 문서들을 가장 적합한 범주로 분류되어 집단화하는 작업을 의미한다[5]. 과거에는 문서분류를 작업자에 의해 수작업으로 이루어졌기 때문에 시간이 오래 걸리고, 비용도 많이 들었으며, 또한 방대한 자료를 일일이 사람이 분류해야 하는 문제점이 있었다.
	자동 문서 분류 기법의 장점은 무엇인가?	일반적으로 문서 분류에 적용되는 기계학습 방법으로는 SVM(Support Vector Machine), 인공신경망(Neural Network), 나이브 베이즈(Naive Bayes), k-최단 인접 기법(K-nearest Neighbor), 의사 결정 트리(Decision Tree)등이 있다[8]. 이를 통해 자동 문서 분류는 보다 정확하고 빠르게 분류하며 방대한 문서에서도 효율적으로 분류를 수행한다[9].

참고문헌 (21)

J. U. Kim, H. J. Kim, S. G. Lee, "An Active Learning-based Method for Composing Train Document Set in Bayesian Text Classification Systems ," Journal of KISS : Software and Applications, Vol. 29, No 11-12, pp. 996-978, 2002.
J. H. Park, J. S. Kim, "A Text Classification System for Hierarchical Categories," Korean Institute on Information Scientists Engineers, Vol. 27, No. 2, pp.128-130, 2000.
J. H. Lee, S. H. Cheon, S. H. Kim, "Efficient Document Classification for Web Document Collection," Korean Institute on Information Scientists Engineers, Vol. 33, No. 2, pp. 397-401, 2006.
K. H. Park, "The development of culture contents appling record heritage," Korea Institute for National Unification, Vol. 12. pp.313-341, 2008.
S. H. Kim, J. E. Eom, "A Study on the Document's Automatic Classification Using Machine Learning," Journal of Information Science Theory and Practice, vol.39, no.4 pp.47-66, 2008.
J. H. Roh, H. J. Kim, J. Y. Chang, "A WordNet-based Feature Engineering Method for Text Classification," Society for e-business studies, Vol.2012, No.4, pp.96-102, 2012
S. S. Lee, J. M. Choi, C. Gun, B. S. Lee, "Empirical Analysis & Comparisons of Web Document Classification Methods," Korean Institute on Information Scientists Engineers, Vol.29, No.2, pp.154-156, 2002.
D. H. Park, W. S. Choi, H. J. Kim, S. L. Lee, "Web Document Classification System Using the Text Analysis and Decision Tree Model," Korean Institute on Information Scientists Engineers, Vol.38, No.2, pp.248-251, 2011.
J. S. Hong, N. G. Kim, S. W. Lee, "A Methodology for Automatic Multi - Categorization of Single - Categorized Documents," Journal of Intelligence and Information System Society, Vol.20, No.3, 2014
J. H. Her, S. J. Ko, T. Y. Kim, J. H. Choi, Jung-Hyun Lee, "An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier," Korean Institute on Information Scientists Engineers, Vol.26, No.2, pp.154-156, 1999.
K. G. Cho, J. H. Kim, "Automatic Text Categorization on Hierarchical Category Structure by using ICF(Inverted Category Frequency) Weighting," Korean Institute on Information Scientists Engineers, Vol.24, No.1, pp.507-510, 1997
Thorsten Joachims, "Transductive Inference for Text Classification using Support Vector Machines," ICML '99 Proceedings of the Sixteenth International Conference on Machine Learning, pp.200-209, 1999.
Simon Tong, Daphne Koller, "Support Vector Machine Active Learning with Applications to Text Classification," Journal of Machine Learning Research, Vol.2, pp.45-66, 2002
M. Sahami, S. Dumais, D. Heckerman, E. Horvitz, "A Bayesian approach to filtering junk e-mail," AAAI'98 Workshop on Learning for Text Categorization.,1998.
P. J. Kim, "A Study on automatic assignment of descriptors using machine learning," Journal of the Korean Society for Information Management, Vol.23 No.1, pp.279-299, 2006.

원문보기 상세보기
Y. D. Yun, Y. W. Yang, H. S. Ji, H. S. Lim, "Development of Smart Senior Classification Model based on Activity Profile Using Machine Learning Method," Journal of the Korea Convergence Society, Vol.8, No.1, pp.25-34, 2017.
Li Fei-Fei, Rob Fergues, Antonio Torralba, "Recognizing and Learning Object Categories," ICCV, 2005.
G. Csurka, C. Dance, L.X. Fan, J. Willamowski, and C. Bray. "Visual categorization with bags of keypoints," ECCV, 2004.
Lazebnik, S., Schmid, C., Ponce, J., "Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories," CVPR, 2006.
C. H. Lampert, M. M. Blaschko, and T. Hofmann, "Beyond Sliding Windows: Object Localization by Efficient Subwindow Search," CVPR, 2008.
Niculescu-Mizil, A., Caruana, R., "Predicting good probabilities with supervised learning", In Proceedings of the 22nd international conference on Machine learning(ACM), pp. 625-632. 2005

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증