[논문]웹 문서 클러스터링에서의 자질 필터링 방법

박흠; 권혁철

doi:10.3745/kipstb.2006.13b.4.489

웹 문서 클러스터링에서의 자질 필터링 방법
Feature Filtering Methods for Web Documents Clustering 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.13B no.4 = no.107, 2006년, pp.489 - 498

초록
AI-Helper

색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.

Abstract ▼ AI-Helper

Clustering results differ according to the datasets and the performance worsens even while using web documents which are manually processed by an indexer, because although representative clusters for a feature can be obtained by statistical feature selection methods, irrelevant features(i.e., non-obvious features and those appearing in general documents) are not eliminated. Those irrelevant features should be eliminated for improving clustering performance. Therefore, this paper proposes three feature-filtering algorithms which consider feature values per document set, together with distribution, frequency, and weights of features per document set: (l) features filtering algorithm in a document (FFID), (2) features filtering algorithm in a document matrix (FFIM), and (3) a hybrid method combining both FFID and FFIM (HFF). We have tested the clustering performance by feature selection using term frequency and expand co link information, and by feature filtering using the above methods FFID, FFIM, HFF methods. According to the results of our experiments, HFF had the best performance, whereas FFIM performed better than FFID.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

그 이 유는 대부분의 웹 문서는 문서 내 대표하는 자질 외 클러스 터링에 불필요한 단어들을 포함하고 있기 때문이다. 그래서 기존 자질선택방법으로는 제거하지 못한 불필요한 자질들을 자질들의 문서군별 출현여부와 문헌빈도 등의 분포와 정도 를 기준치로 정해 필터링 해 보았다.
또 단어 자질 뿐만 아니라 웹 문서간 동시-링크 정보도 문서간 관련성이 아주 높기 때문에 자질로서 확장할 수 있다[16]. 그래서 자 질이 부족한 문서에는 하이퍼링크 정보를 이용해 자질을 확 장하였다. 또 일부 데이터셋에는 실험을 위해 동시-링크 정 보를 결합하여 확장하였다.
따라서 본 논문에서는 클러스터링 전단계인 자질선택 단 계에서 기존 자질선택방법에 의한 실험과 문서간 동시-링크 정보를 추가한 자질확장으로 클러스터링 실험을 했다. 그리 고 위 방법으로 제거하지 못한 문서 내 불필요한 자질들을 제거하기 위해 기존 자질선택 방법으로 추출된 자질과 자질 값을 이용호8, (1)단위 문서 내 자질 필터링 알고리즘(FFID)과(2)전체 데이터셋 내 자질 필터링 알고리즘(FFIM), (3)HFF 등을 이용해 클러스터링 실험을 했다.
같은 방법으로 데이터셋 내 모든 문서의 대표 문서군을 정할 수 있다. 그리고 각 문서는 대표 문서군에 속한 자질 만 남기고 다른 자질을 제거한 문서들을 문서*자질 매트릭스 파일로 만들어 클러스터링 한다. 또 MI, IG, OR 에 의해 추출된 자질과 자질값에 대해서도 같은 방법으로 자질을 필 터링 하여 클러스터링 실험을 한다.
그리고 실험을 위해 웹 문서 내 하이퍼링크 정보와 동시 -링크 정보를 이용했다. 하이퍼링크 정보는 문서간에 연결 시켜 주므로 한 단계 정도는 자질로 확장시킬 수 있다.
먼저 자질의 단어빈도를 이용한 클러스터링 결과와 기존 자질선택방법으로 추출한 자질과 자질값을 이용한 클러스터 링 결과를 비교하고, 또 문서간 동시-링크 정보를 자질로 확장한 클러스터링 실험 결과를 비교하겠다. 그리고 이 결 과와 본 논문에서 제시한 3가지 방법(FFID, FFIM, HFF)에 의한 클러스터 링 결과를 비교하겠다.
성능을 비교했다[15]. 그리고 추출된 자질을 Filtering 과 Wrapper 기법을 이용해 자질을 축소하고 여분의 자질을 제거해 줌으로써 클러스터링 성능을 향상시켰고[9], Filter기 법과 Wrapper 기법의 장점을 이용한 Tow-phase 자질선택 방법으로 부적절한 자질을 제거하는 방법을 개선했다[6]. 그 리고 대량의 데이터베이스에 대한 실험에서 Filter가 Wrapper 보다 처리 속도가 빠른 반면 이산 분류에 문제가 있는데, 이런 이산과 연속 분류에 대한 문제점을 correlation-based 자질 선택 방법으로 해결하는 연구가 있었다[8].
단어빈도로 구성된 문서*단어 매트릭스를 기존 자질선택 알고리즘 X2, Mutual Information(MI), Information Gain(IG), Odd Ratio(OR) 등을 이용해 자질과 문서군별 자질값을 추 출하였다. 자질 선택 알고리즘 수식은 다음과 같다[3, 7],
따라서 본 논문에서는 클러스터링 전단계인 자질선택 단 계에서 기존 자질선택방법에 의한 실험과 문서간 동시-링크 정보를 추가한 자질확장으로 클러스터링 실험을 했다. 그리 고 위 방법으로 제거하지 못한 문서 내 불필요한 자질들을 제거하기 위해 기존 자질선택 방법으로 추출된 자질과 자질 값을 이용호8, (1)단위 문서 내 자질 필터링 알고리즘(FFID)과(2)전체 데이터셋 내 자질 필터링 알고리즘(FFIM), (3)HFF 등을 이용해 클러스터링 실험을 했다.
그리고 각 문서는 대표 문서군에 속한 자질 만 남기고 다른 자질을 제거한 문서들을 문서*자질 매트릭스 파일로 만들어 클러스터링 한다. 또 MI, IG, OR 에 의해 추출된 자질과 자질값에 대해서도 같은 방법으로 자질을 필 터링 하여 클러스터링 실험을 한다.
클러스터링 성능 평가는 Entropy와 Purity] 사용했다[11]. 먼저 단어빈도 매트릭스 파일의 클러스터링 결과 Org(tf)와 기존 자질선택 방법(X: MI, IG, OR)에 의한 클러스터링 결 과 0电区2), Org(MI), Org(IG), Org(OR), 동시-링크 정보를 이용한 클러스터링 결과 CL0, 단위 문서 내 자질 필터링 방법으로 만든 매트릭스 파일의 클러스터링 결과 Max(X2), MaxCMI), Max(IG), Max(OR))를 비교하겠다.
본 논문에서는 웹문서의 특성상 기존의 자질선택 방법으 로는 제거하지 못한 불용어들을 제거하고 대표 자질은 더욱 두드러지게 하기 위한 자질 필터링 방법으로, (1)단위 문서 내 자질 필터 링 알고리즘 (FFID : feature filtering algorithm in a document)과 (2)전체 데이터셋 내 자질 필터링 알고리즘 (FFIM: feature filtering algorithm in a document matrix) 5가지, 또 (3)FFID와 FFIM을 결합한 방법 (HFF:a hybrid method combining both FFID and FFIM) 5가지를 제시한다. 먼저 자질의 단어빈도를 이용한 클러스터링 결과와 기존 자질선택방법으로 추출한 자질과 자질값을 이용한 클러스터 링 결과를 비교하고, 또 문서간 동시-링크 정보를 자질로 확장한 클러스터링 실험 결과를 비교하겠다. 그리고 이 결 과와 본 논문에서 제시한 3가지 방법(FFID, FFIM, HFF)에 의한 클러스터 링 결과를 비교하겠다.
본 논문에서는 웹문서의 특성상 기존의 자질선택 방법으 로는 제거하지 못한 불용어들을 제거하고 대표 자질은 더욱 두드러지게 하기 위한 자질 필터링 방법으로, (1)단위 문서 내 자질 필터 링 알고리즘 (FFID : feature filtering algorithm in a document)과 (2)전체 데이터셋 내 자질 필터링 알고리즘 (FFIM: feature filtering algorithm in a document matrix) 5가지, 또 (3)FFID와 FFIM을 결합한 방법 (HFF:a hybrid method combining both FFID and FFIM) 5가지를 제시한다. 먼저 자질의 단어빈도를 이용한 클러스터링 결과와 기존 자질선택방법으로 추출한 자질과 자질값을 이용한 클러스터 링 결과를 비교하고, 또 문서간 동시-링크 정보를 자질로 확장한 클러스터링 실험 결과를 비교하겠다.
실험에 사용된 데이터셋과 실험 도구에 대해 간략하게 설 명하고, 실험방법에 따른 클러스터링 결과를 비교 분석하겠다.
이렇게 선택된 자질로만 구성된 매트릭스 파일로 클러스 터링 한다. 이 실험을 F3(X2), F3(MI), F3(IG), F3(OR) 등이라 하고, 3.3단위 문서 내 자질 필터링 방법을 사용하여 만든 매트릭스 파일을 다시 이 방법을 이용해 자질을 필터링 한 실험을 F3(Max(X2)), F3(Max(MI)), F3((Max(IG)), F3(Max(OR)) 등으로 부르겠다.
이렇게 선택된 자질로만 구성된 매트릭스 파일을 클러스 터링 한다. 이 실험을 F5(X2), F5(MD, F5(IG), F5(OR) 등이라 하고, 3.3단위 문서 내 자질 필터링 방법을 사용하여 만든 매트릭스 파일을 다시 이 방법을 이용해 자질을 필터링 한 실험을 F5(Max(X2)), F5(Max(MD), F5((Max(IG)), F5(Max(OR)) 등으로 부르겠다.
이번 웹 문서 자질선택과 클러스터링 실험을 위해 색인전 문가에 의해 수작업으로 분류하여 디렉토리 서비스를 하고 있는 국내 포털 사이트 3곳의 웹 문서를 수집하여 자질 선 택과 선택된 자질로 클러스터링 해 보았다.

대상 데이터

2개의 문서가 동시에 링크 한 문서 수를 구해 문서*문서매트릭스를 만들었다. 동시-링크 문서 수는 Alltheweb(http: //www.alltheweb.co.kr)의“AdvancedSearch” 옵션에서 검색 식 "LINK: url_A AND LINK: url_B”를 사용했다[5].
실험 데이터는 포탈사이트Yahoo, Naver, Empas의 디렉 토리 서비스 중 자연과학 분류 중 '물리학', 생물학', '지구과학', '화학', '수학', 천문학' 등 6개 분야에서 추출했다. 이 데이터 들은 색인 전문가에 의해 수작업으로 분류된 문서들이다.

이론/모형

웹사이트로부터 문서 수집은 부산대학교 한국어정보처리 연구실에서 개발한 로봇을 이용했고, 수집된 문서에서 색인 어를 추출하는 프로그램 역시 부산대학교 한국어정보처리연 구실에서 개발한 문서색인시스템을 사용했다. 그리고 클러 스터링 실험과 평가는 미국 미네소타대학교에서 개발한 clustering toolkit Cluto2.1 을 사용했다[12].
그 리고 대량의 데이터베이스에 대한 실험에서 Filter가 Wrapper 보다 처리 속도가 빠른 반면 이산 분류에 문제가 있는데, 이런 이산과 연속 분류에 대한 문제점을 correlation-based 자질 선택 방법으로 해결하는 연구가 있었다[8]. 또 자질 선 택에 사용된 데이터셋에 따라 성능이 달라지는 문제점을 보 완해, 문서 내 자질의 문서군에 따라 문서의 대표 문서군을 정해 주어 클러스터링 이전에 문서의 특징을 미리 정해 자 질을 축소하는 Max Feature Selection 기법을 사용하여 클 러스터링 성능을 향상시켰다[7]. 또 문서 내 대표자질을 선정하는 방법으로 자질값투표 기법을 사용한 연구도 있었다[1], 웹 문서의 링크를 확장해 문서를 문서의 자질로 포함시키거나, 웹 문서간 동시-링크 빈도를 계산해 문서의 자질을확장해 단어 자질로만 사용했을 때와 클러스터링 성능을 비 교하였다[7, 16], 자질 선택 방법에 의해 얻은 자질을 SVM (support vector machine)기법으로 training시켜 성능을 비교 하는 연구도 있었다[14].
웹사이트로부터 문서 수집은 부산대학교 한국어정보처리 연구실에서 개발한 로봇을 이용했고, 수집된 문서에서 색인 어를 추출하는 프로그램 역시 부산대학교 한국어정보처리연 구실에서 개발한 문서색인시스템을 사용했다. 그리고 클러 스터링 실험과 평가는 미국 미네소타대학교에서 개발한 clustering toolkit Cluto2.
클러스터링 성능 평가는 Entropy와 Purity] 사용했다[11]. 먼저 단어빈도 매트릭스 파일의 클러스터링 결과 Org(tf)와 기존 자질선택 방법(X: MI, IG, OR)에 의한 클러스터링 결 과 0电区2), Org(MI), Org(IG), Org(OR), 동시-링크 정보를 이용한 클러스터링 결과 CL0, 단위 문서 내 자질 필터링 방법으로 만든 매트릭스 파일의 클러스터링 결과 Max(X2), MaxCMI), Max(IG), Max(OR))를 비교하겠다.
클러스터링은 k-means clustering 방법을 사용하였고, 클 러스터링 수는 12개로 했다. 그리고 criterion function은 다 음 2개의 식을 사용했다.

성능/효과

2) 자질의 전체 문헌빈도가 높으며, 특정 문서군에서도 문헌빈도가 높다
3) 자질 선택 방법에 의해 나온 자질값이 너무 낮거나 잘 두드러지지 않는다.
4) 자질 선택 방법에 의해 나온 자질값이 서로 관계없는 문서군에서도 높다.
그 결과 단어빈도에 의한 웹 문서 클러스터링 결과에 비 해 통계적 방법에 의해 추출한 자질로 클러스터링 한 결과 가 더 나쁘거나, 자질선택에 사용된 데이터셋에 따라 성능 에 많은 차이가 나타났다.
그 결과 단위 문서 내 자질 필터링 방법(FFID)도 좋은 성능을 보였고, 또 전체 데이터셋 내 자질 필터링 방법 (FFIM)을 사용했을 때 더 좋은 성능을 보였다. 그리고 이 두 가지를 결합한 자질 필터링 방법(HFF)을 사용했을 때 가장 좋은 성능을 보였다.
웹 문서 클러스터링에서 기존의 자질선택방법을 사용하면 데이터셋에 따라 성능에 차이를 보인다. 그래서 본 논문에 서 제시한 자질 필터링 방법을 사용했을 때 좋은 성능을 보 였다. 하지만 자질 필터링 방법은 자질을 제거하는 방법이 므로 문서 내 단어 수가 적을 경우 클러스터링 성능을 좋지 않는 영향을 미친다.
그 결과 단위 문서 내 자질 필터링 방법(FFID)도 좋은 성능을 보였고, 또 전체 데이터셋 내 자질 필터링 방법 (FFIM)을 사용했을 때 더 좋은 성능을 보였다. 그리고 이 두 가지를 결합한 자질 필터링 방법(HFF)을 사용했을 때 가장 좋은 성능을 보였다.
그리고 전체 데이터셋 내 자질 필터링 방법으로 실험한 결과 5가지 F10, F20, F30, F40, F50 은 실험에 사용한 자질선택방법 X2, MI, IG, OR 을 이용한 결과를 평균하여 나타냈고, 또 단위 문서 내 자질 필터링 방법과 전체 데이 터셋 내 자질 필터링 방법을 결합한 실험 결과 역시 평균값 으로 Fl(Max), F2(Max), F3(Max), F4(Max), F5(Max)를 비교하였다.
기존 자질선택 방법에 의한 실험결과 평균값Org()와 단위 문서 내 자질 필터링 방법에 의한 실험 결과 평균값Max(), 그리고 데이터셋 내 자질 필터링 방법 5가지 실험 결과 평 균값 F10, F2(), F3(), F40, F50, 단위 문서 내 자질 필터링 방법과 5가지 필터링 방법을 혼합한 실험 결과 평균값을 Fl(Max), F2(Max), F3(Max), F4(Max), F5(Max)라 하자. 각 클러스터 링 결과를 보면 다음과 같다.
그리고 Fl(Max), F2(Max), F3(Max), F5(Max) 에서 아주 좋은 결과를 보였다. 따라서 데이터셋 C를 자질선택에 사용했을 경우는 자질 필터링 방법 F2+Max 기법을 혼합한 F2(Max)과 F2+F3+Max 기법을 혼합한 F5(Max)가 가장 성 능이 우수했다.
실험에 사용되는 데이터셋은 색인 전문가에 의해 수작업 으로 잘 분류된 문서들이지만 각 데이터셋을 단어빈도 클러 스터링으로 실험한 결과, 데이터셋 A는 클러스터링 결과가 아주 좋지 않았고, 데이터셋 B는 대체로 양호, 데이터셋 C는 가장 양호하였다. 각 데이터셋을 이용한 단어빈도 클러스터 링 결과는[표 5]와 같다.
즉 단어빈도를 이용한 자질선택방법에서는 본 논문에서 제시한 자질 필터링 방법을 사용하면 기존 자질선택방법에 의한 클러스터링 성능보다 아주 좋은 결과를 얻을 수 있다 는 증명한 것이다.
특히 단어빈도를 이용한 클러스터링 결과 성능이 나쁜 데 이터셋 A로 추출한 자질을 다른 두 데이터셋에 적용해 클 러스터 링 한 결과(그림 10) 아주 좋은 성능을 보였다.

참고문헌 (16)

이재윤, '자질값투표 기법과 문서측 자질 선정을 이용한 고속문서 분류기',12회 정보관리학회지 pp.71-78, 2005
정영미, 이재윤,'지식 분류의 자동화를 위한 클러스트링 모형연구',정보관리학회지 ,Vol.18권,No.2, pp.203-230, 2001
고영증, 서정연, '문서 관리를 위한 자동 문서 범주화에 대한 이론 및 기법', 정보관리 연구논문지, Vol.33, No.2, pp.16-32, June, 2002
국민상, 정영미, '자질선정에 따른 Naive Bayesian 분류기의 상능 비교', 7회 정보관리학회 제7회 학술대회 논문집, pp.33- 36, 2000
이원희, 이교운, 박흠, 김영기, 권혁철, '웹 문서의 단어정보와 링크정보 결합을 이용한 클러스트링 기법',15회 한국정보과학회지, pp.101-107, 2003
H.Yaun, S.S.Tseng, W.Gangshan, and Z.Fuyan. 'A two-phase feature selection method using both filter and wrapper', In IEEE International conference on Systems, Man, and Cybernetics, Vol. 2, pp.132-136, 1999
Heum Park, 'A Feature Selection for Korean Web Document Clustering', The 30th Annual Conference of IEEE Industrial Electronics Society, 2004
Hall, M. 'Correlation-based feature selection of discrete and numeric class machine learning', In Proceedings of the International Conference on Machine Learning, pp.359-366, San Francisco, CA. Morgan Kaufmann Publishers, 2000
A.Y. Ng, 'On feature selection: learning with exponentially many irrelevant features as training examples'. In Proc. 15th Intl. Conf. on Machine Learning, pp.404-412, 1998
Zhao, Ying and Karypis, George, 'Criterion functions for document clustering - experiment and analysis', Technical Report TR #01-40, Department of Computer Science, University of Minnesota, 2001
Zhao, Ying and Karypis, George, 'Evaluation of hierarchical clustering algorithms for document datasets', Technical Report TR #02-22, Department of Computer Science, University of Minnesota, 2002
Karypis, George, 'CLUTO: A Clustering Toolkit', Technical Report TR #02-017, Department of Computer Science, University of Minnesota, 2002
Zhi-Hong Deng, Shi-Wei Tang, Dong-Qing Yang, Ming Zhang, Xiao-Bin Wu and Meng Yang, 'Two Odds-Radio-Based Text Classification Algorithms', Proceedings of Web Information Systems Engineering(Workshops) pp.223-231, 2002
Brank, J., Grobelnik, M., Mili'c-Frayling, N. & Mladenic, D., 'Interaction of feature selection methods and linear classification models', Proceedings of the ICML-02 Workshop on Text Learning, Sydney, AU, 2002
Y. Yang and J. P. Pedersen, 'A comparative study on feature selection in text categorization', In Proceedings of the International Conference on Machine Learning, pp.412-420, 1997
Kyo-Woon Lee, Young-Gi Kim, Hyuk-Chul Kwon, 'Clustering of Web Documents with the Use of Term Frequency and Co-link in Hypertext', Proceedings of the International Conference on APIS2003, 2003

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증