자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업이다. 자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반으로서, 보통 수작업에 의해 범주가 할당된 대량의 학습 문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다는 것이다. 즉, 학습 문서 생성을 위해 문서를 수집하는 것은 쉬우나, 수집된 문서에 범주를 할당하는 것은 매우 어렵고 시간이 많이 소요되는 작업이라는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서, 준지도 학습 기반의 자동 문서 범주화 기법을 제안한다. 제안된 기법은 범주가 할당되지 않은 말뭉치와 각 범주의 핵심어만을 사용한다. 각 범주의 핵심어로부터 문맥간의 유사도 측정 기법을 이용한 부스트래핑(bootstrapping) 기법을 통하여 범주가 할당된 학습 문서를 자동으로 생성하고, 이를 이용하여 학습하고 문서 범주화 작업을 수행한다. 제안된 기법은 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 영역에서 유용하게 사용될 수 있을 것이다.
자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업이다. 자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반으로서, 보통 수작업에 의해 범주가 할당된 대량의 학습 문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다는 것이다. 즉, 학습 문서 생성을 위해 문서를 수집하는 것은 쉬우나, 수집된 문서에 범주를 할당하는 것은 매우 어렵고 시간이 많이 소요되는 작업이라는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서, 준지도 학습 기반의 자동 문서 범주화 기법을 제안한다. 제안된 기법은 범주가 할당되지 않은 말뭉치와 각 범주의 핵심어만을 사용한다. 각 범주의 핵심어로부터 문맥간의 유사도 측정 기법을 이용한 부스트래핑(bootstrapping) 기법을 통하여 범주가 할당된 학습 문서를 자동으로 생성하고, 이를 이용하여 학습하고 문서 범주화 작업을 수행한다. 제안된 기법은 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 영역에서 유용하게 사용될 수 있을 것이다.
The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. Wh...
The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. While it is easy to collect the unlabeled documents, it is not so easy to manually categorize them for creating training documents. In this paper, we propose a new text categorization method based on semi-supervised learning. The proposed method uses only unlabeled documents and keywords of each category, and it automatically constructs training data from them. Then a text classifier learns with them and classifies text documents. The proposed method shows a similar degree of performance, compared with the traditional supervised teaming methods. Therefore, this method can be used in the areas where low-cost text categorization is needed. It can also be used for creating labeled training documents.
The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. While it is easy to collect the unlabeled documents, it is not so easy to manually categorize them for creating training documents. In this paper, we propose a new text categorization method based on semi-supervised learning. The proposed method uses only unlabeled documents and keywords of each category, and it automatically constructs training data from them. Then a text classifier learns with them and classifies text documents. The proposed method shows a similar degree of performance, compared with the traditional supervised teaming methods. Therefore, this method can be used in the areas where low-cost text categorization is needed. It can also be used for creating labeled training documents.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 기존의 지도 학습 기반의 문서 범주화 기법과는 달리 수작업에 의한 대량의 학습 문서 생성작업 없이, 각 범주의 핵심어의 입력만으로 문서를 자동으로 분류해내는 준지도 학습 기반의 새로운 기법을 제안한다. 그리고, 지도 학습 기반의 문서 범주화 기법과의 실험 결과를 살펴보면, 제안된 방법은 지도 기반의 문서 범주화 시스템과 근소한 성능 차이를 보이고 있다.
이들을 추출하기 위해서 전처리 과정에서 추출되어진 각 문맥의 내용어 중에 각 범주의 핵심어를 직접 포함하고 있는 문맥을 추출하는데, 이때 두 가지 이상의 범주에 해당하는 내용어를 가진 문맥은 대표 문맥의 중의성을 해결하기 위하여 제외시킨다. 본 논문에서는 이렇게 추출되어진 대표 문맥들을 각 범주의 특성을 가장 잘 나타내는 문맥으로 고려한다. 그러나, 살제로는 어떤 범주의 핵심어를 포함하고 있는 문맥이라 할지라도 그 범주의 특성올 잘 나타내지 못하는 문맥들이 있다.
본 논문에서는 학습 문서를 생성하기 위한 작업 없이 각 범주의 핵심어(keyword)의 입력만으로, 범주가 할당되지 않은 학습 문서를 사용하는 준지도 학습(semi- supervised learning) 기반으로 한 새로운 문서 범주화 기법을 제안한다. 제안된 기법은 핵심어로부터 범주가 할당된 학습문서를 부스트래핑(bootstrapping) 기법을 사용하여 자동으로 생성한다.
본 연구에서는 [13]의 연구에서 발생한 핵심어 추출의 어려움과 문장 단위의 부스트래핑의 한계를 극복하고자 했다.
본 절에서는 선택된 핵심어와 문맥 간 유사도 측정기법을 사용하여 단순 베이지안 문서 분류기를 학습하기 위한 학습 문맥 집합을 생성하는 부스트래핑 기법을 기술한다. 먼저, 핵심어를 사용하여 각 범주의 핵심어를 직접 포함하고 있는 문맥을 그 범주의 특성을 가장 잘 내포하고 있는 문맥으로 고려하고, 전처리 단계에서 생성되어진 수집된 문맥의 내용어 중에 미리 정의된 핵심어를 직접 포함하고 있는 문맥을 각 범주의 대표 문맥으로 추출한다.
제안 방법
3.2절의 (4)에서 식 (10)의 미 분류 문맥의 범주 할당의 임계값을 상위 1。%, 상위 15%, 상위 20%, 상위 25%, 상위 30%로 나누고 각각 실험하여 성능을 비교하였다. 실험은 뉴스 그룹 문서 집합의 학습 문서 집합에서, 다시 20%를 검증집합(validation set)으로 추출하여 평가하였다.
② 기존의 정보 검색 분야에서는 일반적으로 역문헌 빈도(IDF : Inverse Document Frequency)를 사용하나 제안된 기법에서는 문맥 단위로 프로세스(pro- cess)가 진행됨에 따라 문서 출현 빈도를 계산할 수 없으며, U6]에서 범주 간의 분리도가 높은 단어에 높은 가중치를 주는 역범주 빈도를 정의하고 효율성을 입증하였으므로, 제안된 기법에서는 역범주 빈도를 사용한다. 离를 포함하는 범주의 개수는 CE이고 총 범주의 개수를 M이라고 할 때 역범주 빈도는 다음 식과 같다.
카이제곱 통계량에서 용어(f)와 범주B)와의 공기 문맥 혹은 문서 빈도는 표 2와 같이 나타낸다. 기존의 카이제곱 통계량 기법에서는 공기 문서 빈도를 사용하나, 본 논문에서 제안되는 기법에서 학습 문맥을 사용하는 1차 문서 분류기 학습에서는 문서 단위가 존재하지 않으므로 공기 문맥 빈도를 사용한다.
본 논문에서는 공정한 평가를 위하여 각 범주의 주제어를 선정할 때 각 범주의 제목을 그대로 이용하였다. 다만, Reuters 문서 집합의 경우에 몇 개의 범주에 줄임말로 표현된 것이 존재하기 때문에 Reuters 문서 집합의 ReadMe 파일에 기술되어 있는 범주 설명을 참조하여 주제어를 선정하였다.
따라서 제안된 기법의 성능을 좀 더 분석하기 위해서, 지도학습기반의 분류기가 제안된 기법의 성능을 내고자 했을때 어느 정도의 범주가 할당된 학습 문서가 필요한지를 실험으로 추정하여 보았다. 그림 5에서 보는 바와 같이 학습 문서의 수를 10개로 시작하여 7, 193개까지 단계적으로 늘려가며 성능을 비교해 봤을 때 제안된 기법이 얻은 88.
본 논문에서는 결정되어진 품사 중에 명사와 동사만을 추출하여 내용어로 사용하였다. 또한 불용어를 제거하기 위해 불용어 사전(stopword list)을 정의하고 내용어 추출 시 불용어에 해당하는 용어들을 제거하였다. 문맥이란 특정 단어나 혹은, 구문을 둘러싸고 있는 문서의 일부분으로써, 어떤 단어나 구문의 문맥은 그들의 의미를 결정해주는데 유용하게 사용될 수 있다.
이러한 부스트래핑 기법의 출발점이 핵심어이기 때문에, 의미의 단위를 문서에서 문맥(context) 단위로 낮추어 고려한다. 먼저, 수집된 문서를 문맥 단위로 나눈 후에 사용자에 의해 입력된 각 범주의 핵심어와 문맥 간 유사도 측정(similarity mea sure) 기법을 사용하여 각 문맥들의 범주화를 수행한다. 여기서 범주별로 모아진 문맥들을 학습 데이타로 이용하여 1차적으로 문서 분류기를 학습할 수 있고, 학습된 문서 분류기를 이용하여 문서들을 분류함으로써 문서들에 자동으로 범주를 할당한다.
먼저, 핵심어를 사용하여 각 범주의 핵심어를 직접 포함하고 있는 문맥을 그 범주의 특성을 가장 잘 내포하고 있는 문맥으로 고려하고, 전처리 단계에서 생성되어진 수집된 문맥의 내용어 중에 미리 정의된 핵심어를 직접 포함하고 있는 문맥을 각 범주의 대표 문맥으로 추출한다.
본 논문에서 제안하는 시스템은 그림 1과 같이 크게 전처리 과정, 학습문맥 집합 생성 과정, 그리고, 문서분류기 학습 및, 학습된 문서분류기를 통해 분류된 범주가 할당된 학습 문서 집합을 생성하는 과정으로 나누어진다. 제안된 방법은 각 범주별 학습 문맥 집합을 생성하고, 이를 통해 학습하여 문서 범주화를 위한 범주가 할당돤 학습 문서를 자동으로 생성한다.
측정한다[17, 18]. 본 논문에서는 [1 기에서 어휘 의미 중의 성 해소 분야(Word Sense Disambiguation) 적용되어 좋은 성능을 보인 문맥 간 유사도 측정 기법을 개량하여 사용한다. 사용된 문맥 간 유사도 측정 기법에서는 단어와 문맥은 상호 보충적인 역할을 수행한다.
CSM(context similarity matrix)은 행에 미 분류 문맥들이 위치하고 열에는 각 범주의 대표 문맥들을 위치함으로써 이들 문맥간의 유사도 값을 나타내게 된다. 본 논문에서는 각 범주의 대표 문맥과의 유사도 측정을 위한 입력 문맥(미 분류 문맥)의 수를 수행 속도, 메모리 할당 둥을 고려하여 200 개로 제한하며, 대표 문맥의 수도 331절에서 계산된 대표 문맥의 순위별로 상위 200개로 제한하여 각 범주마다 WSM과 CSM을 생성한다. 이들 단어간, 문맥간 유사도를 측정하기 위해서는 먼저 WSM^ 단위 행렬 (identity matrix)로 초기화한다.
문맥이란 특정 단어나 혹은, 구문을 둘러싸고 있는 문서의 일부분으로써, 어떤 단어나 구문의 문맥은 그들의 의미를 결정해주는데 유용하게 사용될 수 있다. 본 논문에서는 각 범주의 핵심어로부터 부스트래핑 작업이 시작되기 때문에, 기존의 문서 범주화의 의미 단위인 문서 단위 보다는 문맥단위를 부스트래핑의 기본 단위로 사용하고 있다. 본 논문에서는 인접한 60개의 내용어를 슬라이딩 윈도우(sliding window) 기법 [15]으로 추출하고 이를 하나의 문맥으로 사용한다.
이러한 과정을 통해 10 개의 후보 핵심어를 사용자에게 제시하고 사용자는 이 중에서 유용한 핵심어만을 추출하여, 각 범주의 핵심어를 추출하게 된다, 다음 표 1은 Reuters 문서 집합에서의 범주별 핵심어이다. 본 논문에서는 공정한 평가를 위하여 각 범주의 주제어를 선정할 때 각 범주의 제목을 그대로 이용하였다. 다만, Reuters 문서 집합의 경우에 몇 개의 범주에 줄임말로 표현된 것이 존재하기 때문에 Reuters 문서 집합의 ReadMe 파일에 기술되어 있는 범주 설명을 참조하여 주제어를 선정하였다.
것이 가장 효과적임을 보이고 있다. 본 논문에서는 이를 바탕으로 비교적 구현이 쉽고 고빈도 단어에 친화적인 카이제곱 통계량을 사용하여 자질을 추출한다. 카이제곱 통계량에서 용어(f)와 범주B)와의 공기 문맥 혹은 문서 빈도는 표 2와 같이 나타낸다.
본 논문에서는 제안된 기법을 정확히 평가하기 위하여 기존의 지도 학습 기반의 문서 범주화 시스템을 구현하고 같은 자질 추출 기법(寸 泅血姦)과 같은 단순 베이지안 문서 분류기(Naive Bayes Classifier)# 사용하여 실험하고 성능을 비교하였다.
2절의 (4)에서 식 (10)의 미 분류 문맥의 범주 할당의 임계값을 상위 1。%, 상위 15%, 상위 20%, 상위 25%, 상위 30%로 나누고 각각 실험하여 성능을 비교하였다. 실험은 뉴스 그룹 문서 집합의 학습 문서 집합에서, 다시 20%를 검증집합(validation set)으로 추출하여 평가하였다.
제안한다. 제안된 기법은 핵심어로부터 범주가 할당된 학습문서를 부스트래핑(bootstrapping) 기법을 사용하여 자동으로 생성한다. 이러한 부스트래핑 기법의 출발점이 핵심어이기 때문에, 의미의 단위를 문서에서 문맥(context) 단위로 낮추어 고려한다.
제안된 방법은 각 범주별 학습 문맥 집합을 생성하고, 이를 통해 학습하여 문서 범주화를 위한 범주가 할당돤 학습 문서를 자동으로 생성한다.
제안된 방법의 학습 문서는 지도 학습 ^^(super vised learning based) 의 문서 범주화를 위해 생성된, 범주가 할당된 학습 문서 집합을 범주가 할당되지 않은 것으로 가정하여 사용한다 이들을 범주 구분 없이 사용하여 학습 문맥 집합을 추출하고, 본 기법을 통해 각 문서에 범주를 할당하고, 그들을 학습하여 범주화를 수행한다.
하지만, Reuters 문서 집합은 한 문서가 여러 개의 범주에 할당 될 수 있기 때문에 각 범주별로 이잔 분류기(binary classifierX 만들어서 각 범주별로 정확율과 재현율이 같아지는 지점에서의 값인 손익 분기점 (break-even point)로 평가하였다[23].
특히, 사용자가 잘 알지 못하는 영역에서 핵심어를 추출한다는 것은 매우 어려운 일임에 틀림없다. 핵심어를 손쉽게 추출하기 위하여 각 범주의 주제어 (subject word)오) 공기 정보(co-occurrence informa- tion)를 사용하여 후보 핵심어를 자동으로 추출하여 제시하고, 사용자는 이들 중에 유용한 단어들만을 선택하여 핵심어로서 사용한다. 서론에서의 정의에 따르면 문서 범주화는 미리 정의된 범주 정보를 바탕으로 하는 작업이기 때문에, 각 범주의 주제어를 선택하는 것은 그리 어렵지 않은 일이다.
대상 데이터
두 번째 문서 집합은 Reuters 21578으로써 총 12, 902 개의 신문기사와 90개의 범주로 구성되어 있다[21, 23丄 본 논문에서는 문서를 가장 많이 보유하고 있는 10개의 범주를 대상으로 실험한다. 학습 문서와 테스트 문서의 구분을 위해서는 'ModApte' 분류 기준을 따랐으며, 불용어 사전은 사용하였으나 스테밍은 사용하지 않았다.
이러한 내용어를 추출하기 위해서는 먼저 형태소 분석기를 사용하여, 각 형태소 별로 나누고 품사를 결정한다. 본 논문에서는 결정되어진 품사 중에 명사와 동사만을 추출하여 내용어로 사용하였다. 또한 불용어를 제거하기 위해 불용어 사전(stopword list)을 정의하고 내용어 추출 시 불용어에 해당하는 용어들을 제거하였다.
이들의 분포를 정규분포(normal distribution)로 보고, 각 미 분류 문맥의 범주별 유사도 값이 일정 임계값(상위 %) 안에 해당하는 문맥에만 범주를 할당한다. 여기서 임계 값의 수치는 실험값으로서 결정되며 그 결과는 또한 431절에서 실험하고 평가하였다. 본 논문에서 사용된 임계 값은 범주별 유사도의 값이 정규 분포를 따르므로 다음과 같은 식으로 계산된다.
첫 번째 문서 집합은 뉴스 그룹(UseNet discussion group) 의 문서들을 모아 놓은 테스트 문서 집합(Newsgroups) [10, 2事으로써, 20개의 범주에 총 20, 000개의 문서들로 구성되어 있다, 하지만, 본 논문에서는 이들 범주를 모두 다 사용하지 않고 16개의 범주(16, 00。개 문서) 만을 사용한다. 제외된 4개의 범주 중 3개의 범주는 범주의 내용이 기타에 해당하는 범주이고, 다른 하나의 범주는 'hardware'라는 주제어가 중복되어서 제외하였다.
이론/모형
뉴스 그룹 문서 집합의 평가 방법으로는 정보 검색 분야에서 일반적으로 사용되는 정확율(precision)과 재현율(recall)을 사용하였으며, 정확율과 재현율을 하나의 값으로 표현해주기 위해서 다음 식 (17)과 같이 Fi- measure를 사용하였다.
제외된 4개의 범주 중 3개의 범주는 범주의 내용이 기타에 해당하는 범주이고, 다른 하나의 범주는 'hardware'라는 주제어가 중복되어서 제외하였다. 뉴스그룹 문서 집합은 학습 문서와 테스트 문서의 구분이 없으므로, 공정한 평가를 위해서 five-fold cross vali dation 기법으로 평가하였다. 즉, 전체의 20%를 테스트문서로 하고 나머지를 학습문서로 사용하여, 총 다섯 개의 학습 문서와 테스트 문서의 집합을 만들어 각각 실험하고, 실험 결과의 평균값으로 성능을 평가하는 기법이다.
모든 범주의 성능을 통합하여 평가하기 위한 기법으로는 문서 범주화 기법의 성능 평가에 주로 사용되는 마이 크로평균(micro-averaging) 기법을 사용한다[23].
본 논문에서 사용한 것과 같이 범주가 할당된 학습문서를 사용하지 않고 의미의 개념을 확장시키는 부스트 래핑 기법은 어휘 의미 중의성 해소(word sense disambiguation) 기법 등에서 사용되었다. Yarowsky는 적은 수의 종자 단어(seed word)와 의미 집합을 사용하여 부스트래핑을 함으로써 단어 중의성을 해소하는 알고리즘을 제시하였다[14].
본 논문에서 사용한 문서 분류기는 베이지안 확률 모델을 사용한다21이. 베이지안 확률 모델은 주어진 입력문서의 각 범주에 할당될 확률을 구하기 위해서 문장에 속해 있는 용어들과 범주와의 결합 확률값(joint prob- ability)을 入卜용하는 방법이다.
제안된 기법은 수집된 문서로부터 대량의 학습 문서를 생성하기 위한 좋은 기초자료를 제공할 수 있으며, 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 응용 영역에 유용하게 사용될 수 있을 것이다. 본 논문에서 사용한 자질 추출의 방법은 카이 제곱 통계량[9]을 사용하였으며 문서 분류기로는 단순 베이지안 문서 분류기(Naive Bayes text classifier)를 사용하였다.
본 논문에서는 각 범주의 핵심어로부터 부스트래핑 작업이 시작되기 때문에, 기존의 문서 범주화의 의미 단위인 문서 단위 보다는 문맥단위를 부스트래핑의 기본 단위로 사용하고 있다. 본 논문에서는 인접한 60개의 내용어를 슬라이딩 윈도우(sliding window) 기법 [15]으로 추출하고 이를 하나의 문맥으로 사용한다.
대상으로 실험한다. 학습 문서와 테스트 문서의 구분을 위해서는 'ModApte' 분류 기준을 따랐으며, 불용어 사전은 사용하였으나 스테밍은 사용하지 않았다.
성능/효과
그리고, 지도 학습 기반의 문서 범주화 기법과의 실험 결과를 살펴보면, 제안된 방법은 지도 기반의 문서 범주화 시스템과 근소한 성능 차이를 보이고 있다. 온라인상으로 얻을 수 있는 텍스트 문서의 양이 많아짐에 따라 학습 문서 생성을 위해 문서를 수집하는 것은 점점 쉬워지고 있으나, 각 영역에 맞는 대량의 학습문서를 생성하는 것은 대단히 어려운 작업이다.
두 개의 문서 집합에서 제안된 기법을 사용한 문서분류기는 범주가 할당된 학습 문서 없이, 각 범주의 핵심어들만을 사용해서 80%가 넘는 높은 성능을 보이고있으며 지도 학습 기반의 분류기와도 적은 성능 차이를 보이고 있다. 특히, Reuters 문서 집합에서는 2.
본 논문에서는 제안된 기법을 사용했을 때 얻을 수 있는 가장 큰 장점은 범주의 할당 작업을 수행하지 않고도 문서 범주화 작업을 할 수 있다는 점이다. 따라서 제안된 기법의 성능을 좀 더 분석하기 위해서, 지도학습기반의 분류기가 제안된 기법의 성능을 내고자 했을때 어느 정도의 범주가 할당된 학습 문서가 필요한지를 실험으로 추정하여 보았다.
94%라는 거의 근접한 성능을 보이고 있다. 이 결과는 본 논문에서 제안된 기법을 사용한다면 대량의 학습 문서를 생성하는 작업 없이, 적은 시간과 적은 인력을 들이고도 충분히 문서 범주화를 수행할 수 있음을 보이고 있다.
보이고 있다. 제안된 기법은 83.46%의 성능을 보이고 있고, 지도 학습 기반의 성능은 91.2%를 보임으로써 7.74%의 성능 차이를 보이고 있다
제안된 기법은 88.7%의 성능을 보이는 반면, 지도학습 기반의 성능은 91.64%를 보이고 있다. 따라서, Reuters 문서 집합에서는 2.
7%를 얻기 위해서는 약 4, 000개의 학습 문서가 필요했다. 즉, 4, 000개의 학습 문서를 범주화 작업을 수작업으로 수행하지 않고도 비슷한 성능을 얻을 수 있다는 결론을 얻을 수 있었다. 그러므로, 제안된 기법을 사용하면 범주화 작업의 학습 문서 획득의 어려움을 완화할 수 있을 것이다.
후속연구
즉, 4, 000개의 학습 문서를 범주화 작업을 수작업으로 수행하지 않고도 비슷한 성능을 얻을 수 있다는 결론을 얻을 수 있었다. 그러므로, 제안된 기법을 사용하면 범주화 작업의 학습 문서 획득의 어려움을 완화할 수 있을 것이다.
제안된 기법을 사용한다면 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 응용 영역에 유용하게 사용될 수 있을 것이다. 또한, 높은 성능을 요구하는 문서 분류 작업에서는 제안된 기법을 통해 손쉽게 범주가 할당된 학습 문서를 생성할 수 있을 것이다.
경우가 있었다. 이를 해결하기 위해 의미 중의성을 해결하기 위한 시스템을 개발하고 활용한다면 좀 더 좋은 성능을 보일 수 있을 것이다 또한, 핵심어로부터의 부스트래핑 방법의 개선이 필요할 것으로 생각된다.
이 과정을 통하여 핵심어로 부터 지도 학습을 위한 범주가 할당된 문서들을 학습문서로서 최종적으로 생성하게 되고, 이들을 이용하여 지도 학습 방식으로 문서 분류기를 학습하여 최종적인 문서 분류기를 획득하게 된다. 제안된 기법은 수집된 문서로부터 대량의 학습 문서를 생성하기 위한 좋은 기초자료를 제공할 수 있으며, 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 응용 영역에 유용하게 사용될 수 있을 것이다. 본 논문에서 사용한 자질 추출의 방법은 카이 제곱 통계량[9]을 사용하였으며 문서 분류기로는 단순 베이지안 문서 분류기(Naive Bayes text classifier)를 사용하였다.
온라인상으로 얻을 수 있는 텍스트 문서의 양이 많아짐에 따라 학습 문서 생성을 위해 문서를 수집하는 것은 점점 쉬워지고 있으나, 각 영역에 맞는 대량의 학습문서를 생성하는 것은 대단히 어려운 작업이다. 제안된 기법을 사용한다면 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 응용 영역에 유용하게 사용될 수 있을 것이다. 또한, 높은 성능을 요구하는 문서 분류 작업에서는 제안된 기법을 통해 손쉽게 범주가 할당된 학습 문서를 생성할 수 있을 것이다.
향후 과제로는, 먼저 범주별 핵심어를 사용하여 대표 문맥을 추출하는 과정에서 내용어의 의미 중의성 (word sense ambiguity)문제가 발생하여 잘못된 대표 문맥이 추출되는 경우가 있었다. 이를 해결하기 위해 의미 중의성을 해결하기 위한 시스템을 개발하고 활용한다면 좀 더 좋은 성능을 보일 수 있을 것이다 또한, 핵심어로부터의 부스트래핑 방법의 개선이 필요할 것으로 생각된다.
참고문헌 (23)
D. D. Lewis. "Naive (bayes) at forty: The independence assumption in information retrieval," European Conference on Machine Learning, 1998
A. McCallum and K. Nigram, "A comparison of Event Models for Naive Bayes Text Classification," AAAI '98 workshop on Learning for Text Categorization, 1998
D. D. Lewis and M. Ringuette, "A comparison of Two Learning Algorithms for Text categorization," Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994
C. Cortes and V. Vapnik. "Support vector networks," Machine Learning, 20:273-297, 1995
T. Joachims. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features," European Conference on Machine Learning (ECML), 1998
Y. Yang. "Expert netword: Effective and efficient learning from human decisions in text categorizatin and retrieval," 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'94), pp. 13-22, 1994
D. D. Lewis, R. E. Schapire, J. P. Callan and R. Papka, "Training Algorithms for Linear Text Classifiers," Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR'96), pp. 289-297, 1996
E. Wiener, J. O. Pedersen, and A. S. Weigend. "A neural network approach to topic spotting," Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95), 1995
Y. Yang and J. O. Pederson, "A Comparative study on feature selection in text categorization," Proceedings of the 14th International Conference on Machine Learning, 1997
K. Nigam, A. McCallum, S. Thrun, T. Mitchell, "Learning to Classify Text from Labeled and Unlabeled Documents," Proceedings of 15th National Conference on Artificial Intelligence (AAAI-98), 1998
C. Languillon, Partially Supervised Text Categorization: Combining Labeled and Unlabeled Documents Using an EM-like Scheme, Proceedings of the 11th Conference on Machine Learning, (ECML 2000), Vol.1810, LNCS, Springer Verlag, pp. 229- 237, 2000
A. McCallum, K. Nigam, J. Rennie, and K. Seymore, Automatic the Construction of Internet Portals with Machine Learning, Information Retrieval, Vol.3, No.2, pp. 127-163, 2000
D. Yarowsky, "Unsupervised word sense disambiguation rivaling supervised methods," Proceeding of the 33rd Annual Meeting of the Association for Computational Linguistics, pp. 189-196
Y. Maarek, D. Berry, and G. Kaiser, "An Information Retrieval Approach for Automatically Construction Software Libraires," IEEE Transaction On Software Engineering, Vol.17, No,8, pp. 800- 813, August 1991
S. Park, H. Kim, Y. Ko, and J. Seo, "Implementation of an efficient requirements analysis supporting system using similarity measure techniques," Information and Software Technology, Elseviser, Vol.42, No.6, pp. 429-438, 15 April, 2000
김상범, 윤보현, 백대호, 한경수, 임해창, "문서 범주화를 위한 선형 분류기와 kNN의 결합 모델", 한국 인지 과학회 춘계 학술대회 논문집, pp. 255-231, 1999
M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, and S. Slattery, "Learning to Extract Symbolic Knowledge from the World Wide Web," Proceedings of the International Workshop on AAAI'98, 1998
오효정, 임정묵, 이만호, 맹성현, "점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델", 한글 및 한국어 정보처리 학술 대회 논문집, pp. 89-96. 1999
Y. Ko, J. Park, and J. Seo, "Automatic Text Categorization using the Importance of Sentences," Proceedings of the 19th International Conference on Computational Lin- guistics (COLING'2002), pp. 474-480, 2002
Y. Yang, "An Evaluation of statistical approaches to text categorization," Information Retrieval Journal, May, 1999
※ AI-Helper는 부적절한 답변을 할 수 있습니다.