Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류 Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm원문보기
기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.
기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.
The previous Bayesian document categorization method has problems that it requires a lot of time and effort in word clustering and it hardly reflects the semantic information between words. In this paper, we propose a weighted Bayesian document categorizing method based on association word knowledge...
The previous Bayesian document categorization method has problems that it requires a lot of time and effort in word clustering and it hardly reflects the semantic information between words. In this paper, we propose a weighted Bayesian document categorizing method based on association word knowledge base acquired by mining technique. The proposed method constructs weighted association word knowledge base using documents in training set. Then, classifier using Bayesian probability categorizes documents based on the constructed association word knowledge base. In order to evaluate performance of the proposed method, we compare our experimental results with those of weighted Bayesian document categorizing method using vocabulary dictionary by mutual information, weighted Bayesian document categorizing method, and simple Bayesian document categorizing method. The experimental result shows that weighted Bayesian categorizing method using association word knowledge base has improved performance 0.87% and 2.77% and 5.09% over weighted Bayesian categorizing method using vocabulary dictionary by mutual information and weighted Bayesian method and simple Bayesian method, respectively.
The previous Bayesian document categorization method has problems that it requires a lot of time and effort in word clustering and it hardly reflects the semantic information between words. In this paper, we propose a weighted Bayesian document categorizing method based on association word knowledge base acquired by mining technique. The proposed method constructs weighted association word knowledge base using documents in training set. Then, classifier using Bayesian probability categorizes documents based on the constructed association word knowledge base. In order to evaluate performance of the proposed method, we compare our experimental results with those of weighted Bayesian document categorizing method using vocabulary dictionary by mutual information, weighted Bayesian document categorizing method, and simple Bayesian document categorizing method. The experimental result shows that weighted Bayesian categorizing method using association word knowledge base has improved performance 0.87% and 2.77% and 5.09% over weighted Bayesian categorizing method using vocabulary dictionary by mutual information and weighted Bayesian method and simple Bayesian method, respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 Apriori 알고리즘에 의한 연관 단어 지식 베이스의 카테고리를 기반으로 문서를 분류하는 가중치가 부여된 베이지안 문서 분류 방법을 제안한다. 기존의 단순 Naive Bayes[13]를 사용한 분류는 문서에 출현한 모든 단어에 대해서 추정치를 계산하고 이를 바탕으로 분류를 수행하였기 때문에 문서의 특징을 정확히 반영하기 어렵고, 많은 잡음들의 영향으로 문서를 오분류하게 된다.
본 논문에서는 기존의 베이지안 문서 분류 방법의 단점을 해결하기 위증H, Apriori 알고리즘에 의한 연관 단어 지식 베이스를 기반으로 하는 가중치가 부여된 베이지안 문서 분류 방법을 제안하였다.
가설 설정
2절에서 설명한 방법으로 연관 단어를 마이닝한다. 마이닝 된 연관 단어는 다른 문서에 나타난 연관 단어에 관계없이 독립적이라고 가정한다. 이러한 가정에서 지식 베이스의 c/asss에 있는 k번째 연관 단어 (wki&Wk? &…&Wk(akT> = >Wkak)로 가중치를 부여하기 위해서 식(3)을 이용한다.
제안 방법
두 번째 형태는 문서 내의 단어의 발생과 비발생 뿐만 아니라 해당 단어의 출현 빈도까지 고려하는 방법으로 일반적으로 다항 모델(multinomial Model) 이라 부른다. McCallume 위의 두 가지 연구를 토대로 웹문서, 유즈넷 기사, Reuters newwire기사를 포함하는 다섯 개의 문서 집합에 대해 두 가지 분류 방법을 적용하여 분류 효율을 비교하였다. 그 결과, 다항 모델이 다중 이형 베르룰리 모델에 비해 평균 27%의 에러가 감소됨을 보였다.
본 논문에서 제안한 베이지안 문서 분류 방법은 문서를 분류하기 위해 먼저 연관 단어 지식 베이스를 구축한다. 다음으로, 이러한 지식 베이스의 연관 단어를 대상으로 Naive Bayes 학습을 함으로써 가중치를 부여한다. 마지막으로, Naive Bayes 분류자는 가중치가 부여된 연관 단어 지식 베이스의 클래스의 하나로 문서를 분류한다.
Apriori 알고리즘은 각 클래스의 100개의 문서를 대상으로 신뢰도를 85로, 지지도를 0으로 지정함으로써 연관 단어를 마이닝할 수 있다. 마이닝 결과, Apriori 알고리즘은 총 250개의 연관 단어를 마이닝하였다. Naive Bayes 알고리즘은 이러한 결과를 식 (3)에 대입함으로써 연관 단어 지식 베이스의 연관 단어에 가중치를 추가한다.
본 논문에서 제안한 베이지안 문서 분류 방법은 문서를 분류하기 위해 먼저 연관 단어 지식 베이스를 구축한다. 다음으로, 이러한 지식 베이스의 연관 단어를 대상으로 Naive Bayes 학습을 함으로써 가중치를 부여한다.
본 논문에서는 c/ass〃丿에 있는 k번째 연관 단어 (Wkl&WK&"&Wk(akT> =>Wkak)의 가중치 는 P((WkI&Wk2&WkSkT, =>Wkak)lc/aSS 〃丿)로, cldSS/D 에서의 (Wkl&Wk2&WkWkak) 출현 확률로 표현한다.
둘째는 실험 문서를 연관 단어의 집합으로 표현함으로써 단어 의미 중의성이라는 문제를 해결한 점이다. 본 논문에서는 제안된 분류 방법의 성능을 평가하기 위해, 기존의 단순 베이지안 분류 방법, 가 중치가 부여된 베이지안 분류 방법, 상호 정보 계산 에 의한 단어 사전을 이용한 가중치가 부여된 베이지 안 문서 분류 방법과 비교하였다. 그 결과, 본 논문에서 제안된 방법이 상호 정보 계산에 의한 단어 사전을 이용하는 가중치가 부여된 베이지안 분류 방법보 다는 0.
본 논문에서는 제안된 연관 단어 지식 베이스를 기반으로 하는 가중치가 부여된 베이지안 문서 분류 방법(WBayesian-AWKB)의 성능을 평가하기 위해, 기존의 단순 베이지안 확률을 사용한 방법 (Bayesian), 까중치가 부여된 베이지안 분류 방법 (WBaye- sian), 상호 정보 계산에 의해 구축한 단어 사전을 기반으로 하는 베이지안 문서 분류 방법(WBayesian- VD)과 비교하였다. 이를 평가하기 위한 훈련 문서는 KTset95에 있는 1600개의 문서로 구성하고, 실험 문 서는 웹문서 수집기에 의해 컴퓨터 분야의 URL로부터 수집된 800개의 웹문서와 KTset95에 있는 800개의 문서를 병합하여 구성한다.
본 논문에서는 텍스트로 이루어진 문서를 표현하기 위해 형태소 분석을 통한 명사 추출 과정을 전처리 과정으로 사용한다. 전처리 과정을 통하여 추출된 명사들을 대상으로 연관 단어를 마이닝함으로써 각 문서를 연관 단어들의 집합, 즉 연관 단어 벡터 모델로 나타낸다.
본 실험에서는 6의 값을 1.0로 설정하여 분류 결과를 분석하였으며, 또한 B 의 값을 0.5에서 1.4로 변화시키면서 F-measure의 결과 차이를 살펴보았다. 표 7은 정확도와 재현율을 식 (5)에 대입하여 분석한 결과를 나타낸다.
연관 단어 지식 베이스를 구축하기 위한 전처리 과정으로서 훈련 문서 중 각 클래스별로 첫 번째부터 100개까지의 문서를 대상으로 형태소 분석을 한다. 그 결과, 표 1과 같은 형태의 명사를 추출할 수 있다.
본 논문에서는 텍스트로 이루어진 문서를 표현하기 위해 형태소 분석을 통한 명사 추출 과정을 전처리 과정으로 사용한다. 전처리 과정을 통하여 추출된 명사들을 대상으로 연관 단어를 마이닝함으로써 각 문서를 연관 단어들의 집합, 즉 연관 단어 벡터 모델로 나타낸다.
또한 추출된 단어의 수가 작을 경우 상호 정보를 이용한 단어 군집으로 특징에 사용될 단어의 수를 증가시킨다. 제안된 방법은 기존의 Naive Bayes에 의한 분류보다는 정확도를 높였으나 특징으로 추출된 단어가 단어 간의 의미 관계를 반영하지 못하므로 단어의 의미 중의성 문제를 해결하지 못하였다. 이를 해결하기 위해, 본 논문에서 제안한 특징 추출 방법은 마이닝 기법이다[16].
본 논문에서 제안한 방법은 두 가지의 장점을 갖는다. 첫째는 Naive Bayes 분류자가 정확한 분류를 가능하도록 연관 단어 지식 베이스를 구축했다는 것이다. 둘째는 실험 문서를 연관 단어의 집합으로 표현함으로써 단어 의미 중의성이라는 문제를 해결한 점이다.
대상 데이터
이를 평가하기 위한 훈련 문서는 KTset95에 있는 1600개의 문서로 구성하고, 실험 문 서는 웹문서 수집기에 의해 컴퓨터 분야의 URL로부터 수집된 800개의 웹문서와 KTset95에 있는 800개의 문서를 병합하여 구성한다. URLe 알타비스타, 야후 등의 기존의 정보 검색 엔진이 분류한 카테고리를 기준으로 선택한다. 또한 KTset95으로부터 선택할 실험 문서는 클래스별로 분류된 학습 문서에 있는 문서를 선택한다.
학습 단계에서는 Apriori 알고리즘에 의해 구축된 연관 단어 지식 베이스의 연관 단어에 가중치를 부여한다. 가중치를 부여하기 위해서 우선 가중치를 부여하기 위한 훈련 문서를 수집한다. 구성된 훈련 문서로부터 3.
본 논문에서는 제안된 연관 단어 지식 베이스를 기반으로 하는 가중치가 부여된 베이지안 문서 분류 방법(WBayesian-AWKB)의 성능을 평가하기 위해, 기존의 단순 베이지안 확률을 사용한 방법 (Bayesian), 까중치가 부여된 베이지안 분류 방법 (WBaye- sian), 상호 정보 계산에 의해 구축한 단어 사전을 기반으로 하는 베이지안 문서 분류 방법(WBayesian- VD)과 비교하였다. 이를 평가하기 위한 훈련 문서는 KTset95에 있는 1600개의 문서로 구성하고, 실험 문 서는 웹문서 수집기에 의해 컴퓨터 분야의 URL로부터 수집된 800개의 웹문서와 KTset95에 있는 800개의 문서를 병합하여 구성한다. URLe 알타비스타, 야후 등의 기존의 정보 검색 엔진이 분류한 카테고리를 기준으로 선택한다.
훈련 문서는 한국어 정보 검색 시스템의 성능평가용 데이터 집합인 KTset95 문서 4, 414개 중 1600개의 문서로, 실험 문서는 웹문서 수집기에 의해 컴퓨터 분야의 URL로부터 수집한 800개의 웹문서와 KTset95 문서 중 800개의 문서를 병합하여 구성한다. 훈련 문서의 클래스는 수작업으로 전산학 각 연구 분야의 8개 클래스로 분류하였다.
데이터처리
마지막으로, Naive Bayes 분류자는 가중치가 부여된 연관 단어 지식 베이스의 클래스의 하나로 문서를 분류한다. 이러한 방법으로 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이용한 가중치가 부여된 베 이지안 문서 분류 방법, 가중치가 부여된 베 이 지안 분류 방법 , 기존의 단순 베이지안 분류 방법과 비교하였다.
이론/모형
그림 2는 100개의 문서를 대상으로 신뢰도를 다양하게 변화시켰을 때, 마이닝되는 연관 단어에 대한 정확도와 재현율을 나타낸다. 마이닝 된 결과에 대해 재현율과 정확도를 평가하는 기준은 영 어 단어 에 대한 시소러스인 WordNet을 사용하여 평가하였다. 단어들을 의미에 따라 영어 단어로 번역하여 WordNet 으로 서로 비교하였을 때, 다른 단어들과 의미가 유사하지 않은 단어들로 연관 단어가 구성되었을 경우 오류로 처리했다.
그림 3은 100개의 문서를 대상으로 지지도를 다양하게 변경시킴에 따른 정확도와 재현율의 변화를 나타낸다. 마이닝된 결과에 대해 재현율과 정확도를 평가하는 기준은 신뢰도와 같이 영어 단어에 대한 시소러스인 WordNet을 사용하여 평가하였다.
본 논문에서는 학습 문서들로부터 사전 확률값을 계산하기 위해 단어의 발생 여부를 사용하는 방법이 아닌 단어의 출현 빈도를 고려하는 ^^-(multinomial) 베이지안 학습법을 사용한다[13].
분류의 측정은 식 (5)의 F-measure 측정식을 이용한다. 식 (5)에서 P는 정확도, 日은 재현율을 의미하며, 이 경우 F-measure의 값이 클수록 분류가 우수함을 의미한다.
제안된 방법은 기존의 Naive Bayes에 의한 분류보다는 정확도를 높였으나 특징으로 추출된 단어가 단어 간의 의미 관계를 반영하지 못하므로 단어의 의미 중의성 문제를 해결하지 못하였다. 이를 해결하기 위해, 본 논문에서 제안한 특징 추출 방법은 마이닝 기법이다[16]. 마이닝 기법은 단어 간의 의미 관계가 고려되도록 문서로부터 연관 단어를 추출한다.
텍스트 문서의 분류를 위한 대부분의 연구[7, 11]는 Naive Bayes 분류자라고 불리는 변형된 베이지안 분류법을 사용하였다. Joachims[4]은 베이지안 분류자를 사용하여 유즈넷 뉴스 기사 분류를 시도하여, 그 결과로 89%의 분류 정확도를 얻을 수 있음을 보였다.
성능/효과
문서에서 추출된 명사를 Apriroi 알고리즘에 적용하여 연관 단어 쌍을 구성하기 위해서는 신뢰도와 지지도를 결정해야 한다. 2.2절에서 기술한 바와 같이 신뢰도와 지지도를 어떻게 지정하는 가에 따라 마이닝되는 연관 규칙의 수와 내용에서는 많은 차이를 보인다. 따라서, 연관 단어 지식 베이스를 구축하기에 적합한 신뢰도와 지지도를 지정해야만 지식 베이스에 포함될 연관 단어가 적합하게 마이닝된다.
McCallume 위의 두 가지 연구를 토대로 웹문서, 유즈넷 기사, Reuters newwire기사를 포함하는 다섯 개의 문서 집합에 대해 두 가지 분류 방법을 적용하여 분류 효율을 비교하였다. 그 결과, 다항 모델이 다중 이형 베르룰리 모델에 비해 평균 27%의 에러가 감소됨을 보였다.
본 논문에서는 제안된 분류 방법의 성능을 평가하기 위해, 기존의 단순 베이지안 분류 방법, 가 중치가 부여된 베이지안 분류 방법, 상호 정보 계산 에 의한 단어 사전을 이용한 가중치가 부여된 베이지 안 문서 분류 방법과 비교하였다. 그 결과, 본 논문에서 제안된 방법이 상호 정보 계산에 의한 단어 사전을 이용하는 가중치가 부여된 베이지안 분류 방법보 다는 0.87%, 가중치가 부여된 베이지안 분류 방법보 다는 2.77%, 단순 베이지안 방법보다는 5.09% 높은 성능 차이를 보였다.
WBayesian-AWKB 방법뿐 아니라 WBayesian-VD 방법과 WBa- yesian방법도 8 값이 변할지라도 F-measure의 값은 일정한 값을 유지하므로 재현율과 정확도의 면에서 비슷한 성능을 나타낸다. 그러나 Bayesian방법은 정확도보다는 재현율에서 더 높은 성능을 나타낸다 평균적으로, MBayesian-AW氏B방법은 WBayesian- VD방법보다 0.87%, WBayesian방법보다는 2.77%, Bayesian방법보다는 5.09% 높은 성능 차이를 보였다.
그 결과는 표 2와 같은 형태로 나타난다. 이러한 자료로 구성된 연관 단어 지식 베이스는 평균 신뢰도 95.3과 평균 지지도 20.1를 나타내며, 총 231개의 연관 단어를 저장한다.
전체적으로 가중치를 부여한 연관 단어 지식 베이스나 상호 정보 계산에 의한 단어 사전을 사용한 분류 방법이 가중치만 부여한 방법이나 단순 베이지안 분류 방법보다는 성능이 우수함을 알 수 있다. 특히, 연관 단어 지식 베이스를 기반으로 하는 가중치가 부여된 베이지안 분류 방법은 가장 성능이 우수함을 나타냈다.
전체적으로 가중치를 부여한 연관 단어 지식 베이스나 상호 정보 계산에 의한 단어 사전을 사용한 분류 방법이 가중치만 부여한 방법이나 단순 베이지안 분류 방법보다는 성능이 우수함을 알 수 있다. 특히, 연관 단어 지식 베이스를 기반으로 하는 가중치가 부여된 베이지안 분류 방법은 가장 성능이 우수함을 나타냈다.
후속연구
향후, 문서의 특징을 단순 명사가 아닌 복합 명사로 추출하여 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법에 적용한다면 문서 분류의 성능이 보다 높아질 것이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.