$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

웹 문서 클러스터링에서의 자질 필터링 방법
Feature Filtering Methods for Web Documents Clustering 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.13B no.4 = no.107, 2006년, pp.489 - 498  

박흠 (유비텍(주)) ,  권혁철 (부산대학교 전자전기정보컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Clustering results differ according to the datasets and the performance worsens even while using web documents which are manually processed by an indexer, because although representative clusters for a feature can be obtained by statistical feature selection methods, irrelevant features(i.e., non-ob...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 그 이 유는 대부분의 웹 문서는 문서 내 대표하는 자질 외 클러스 터링에 불필요한 단어들을 포함하고 있기 때문이다. 그래서 기존 자질선택방법으로는 제거하지 못한 불필요한 자질들을 자질들의 문서군별 출현여부와 문헌빈도 등의 분포와 정도 를 기준치로 정해 필터링 해 보았다.
  • 또 단어 자질 뿐만 아니라 웹 문서간 동시-링크 정보도 문서간 관련성이 아주 높기 때문에 자질로서 확장할 수 있다[16]. 그래서 자 질이 부족한 문서에는 하이퍼링크 정보를 이용해 자질을 확 장하였다. 또 일부 데이터셋에는 실험을 위해 동시-링크 정 보를 결합하여 확장하였다.
  • 따라서 본 논문에서는 클러스터링 전단계인 자질선택 단 계에서 기존 자질선택방법에 의한 실험과 문서간 동시-링크 정보를 추가한 자질확장으로 클러스터링 실험을 했다. 그리 고 위 방법으로 제거하지 못한 문서 내 불필요한 자질들을 제거하기 위해 기존 자질선택 방법으로 추출된 자질과 자질 값을 이용호8, (1)단위 문서 내 자질 필터링 알고리즘(FFID)과(2)전체 데이터셋 내 자질 필터링 알고리즘(FFIM), (3)HFF 등을 이용해 클러스터링 실험을 했다.
  • 같은 방법으로 데이터셋 내 모든 문서의 대표 문서군을 정할 수 있다. 그리고 각 문서는 대표 문서군에 속한 자질 만 남기고 다른 자질을 제거한 문서들을 문서*자질 매트릭스 파일로 만들어 클러스터링 한다. 또 MI, IG, OR 에 의해 추출된 자질과 자질값에 대해서도 같은 방법으로 자질을 필 터링 하여 클러스터링 실험을 한다.
  • 그리고 실험을 위해 웹 문서 내 하이퍼링크 정보와 동시 -링크 정보를 이용했다. 하이퍼링크 정보는 문서간에 연결 시켜 주므로 한 단계 정도는 자질로 확장시킬 수 있다.
  • 먼저 자질의 단어빈도를 이용한 클러스터링 결과와 기존 자질선택방법으로 추출한 자질과 자질값을 이용한 클러스터 링 결과를 비교하고, 또 문서간 동시-링크 정보를 자질로 확장한 클러스터링 실험 결과를 비교하겠다. 그리고 이 결 과와 본 논문에서 제시한 3가지 방법(FFID, FFIM, HFF)에 의한 클러스터 링 결과를 비교하겠다.
  • 성능을 비교했다[15]. 그리고 추출된 자질을 Filtering 과 Wrapper 기법을 이용해 자질을 축소하고 여분의 자질을 제거해 줌으로써 클러스터링 성능을 향상시켰고[9], Filter기 법과 Wrapper 기법의 장점을 이용한 Tow-phase 자질선택 방법으로 부적절한 자질을 제거하는 방법을 개선했다[6]. 그 리고 대량의 데이터베이스에 대한 실험에서 Filter가 Wrapper 보다 처리 속도가 빠른 반면 이산 분류에 문제가 있는데, 이런 이산과 연속 분류에 대한 문제점을 correlation-based 자질 선택 방법으로 해결하는 연구가 있었다[8].
  • 단어빈도로 구성된 문서*단어 매트릭스를 기존 자질선택 알고리즘 X2, Mutual Information(MI), Information Gain(IG), Odd Ratio(OR) 등을 이용해 자질과 문서군별 자질값을 추 출하였다. 자질 선택 알고리즘 수식은 다음과 같다[3, 7],
  • 따라서 본 논문에서는 클러스터링 전단계인 자질선택 단 계에서 기존 자질선택방법에 의한 실험과 문서간 동시-링크 정보를 추가한 자질확장으로 클러스터링 실험을 했다. 그리 고 위 방법으로 제거하지 못한 문서 내 불필요한 자질들을 제거하기 위해 기존 자질선택 방법으로 추출된 자질과 자질 값을 이용호8, (1)단위 문서 내 자질 필터링 알고리즘(FFID)과(2)전체 데이터셋 내 자질 필터링 알고리즘(FFIM), (3)HFF 등을 이용해 클러스터링 실험을 했다.
  • 그리고 각 문서는 대표 문서군에 속한 자질 만 남기고 다른 자질을 제거한 문서들을 문서*자질 매트릭스 파일로 만들어 클러스터링 한다. 또 MI, IG, OR 에 의해 추출된 자질과 자질값에 대해서도 같은 방법으로 자질을 필 터링 하여 클러스터링 실험을 한다.
  • 클러스터링 성능 평가는 Entropy와 Purity] 사용했다[11]. 먼저 단어빈도 매트릭스 파일의 클러스터링 결과 Org(tf)와 기존 자질선택 방법(X: MI, IG, OR)에 의한 클러스터링 결 과 0电区2), Org(MI), Org(IG), Org(OR), 동시-링크 정보를 이용한 클러스터링 결과 CL0, 단위 문서 내 자질 필터링 방법으로 만든 매트릭스 파일의 클러스터링 결과 Max(X2), MaxCMI), Max(IG), Max(OR))를 비교하겠다.
  • 본 논문에서는 웹문서의 특성상 기존의 자질선택 방법으 로는 제거하지 못한 불용어들을 제거하고 대표 자질은 더욱 두드러지게 하기 위한 자질 필터링 방법으로, (1)단위 문서 내 자질 필터 링 알고리즘 (FFID : feature filtering algorithm in a document)과 (2)전체 데이터셋 내 자질 필터링 알고리즘 (FFIM: feature filtering algorithm in a document matrix) 5가지, 또 (3)FFID와 FFIM을 결합한 방법 (HFF:a hybrid method combining both FFID and FFIM) 5가지를 제시한다. 먼저 자질의 단어빈도를 이용한 클러스터링 결과와 기존 자질선택방법으로 추출한 자질과 자질값을 이용한 클러스터 링 결과를 비교하고, 또 문서간 동시-링크 정보를 자질로 확장한 클러스터링 실험 결과를 비교하겠다. 그리고 이 결 과와 본 논문에서 제시한 3가지 방법(FFID, FFIM, HFF)에 의한 클러스터 링 결과를 비교하겠다.
  • 본 논문에서는 웹문서의 특성상 기존의 자질선택 방법으 로는 제거하지 못한 불용어들을 제거하고 대표 자질은 더욱 두드러지게 하기 위한 자질 필터링 방법으로, (1)단위 문서 내 자질 필터 링 알고리즘 (FFID : feature filtering algorithm in a document)과 (2)전체 데이터셋 내 자질 필터링 알고리즘 (FFIM: feature filtering algorithm in a document matrix) 5가지, 또 (3)FFID와 FFIM을 결합한 방법 (HFF:a hybrid method combining both FFID and FFIM) 5가지를 제시한다. 먼저 자질의 단어빈도를 이용한 클러스터링 결과와 기존 자질선택방법으로 추출한 자질과 자질값을 이용한 클러스터 링 결과를 비교하고, 또 문서간 동시-링크 정보를 자질로 확장한 클러스터링 실험 결과를 비교하겠다.
  • 실험에 사용된 데이터셋과 실험 도구에 대해 간략하게 설 명하고, 실험방법에 따른 클러스터링 결과를 비교 분석하겠다.
  • 이렇게 선택된 자질로만 구성된 매트릭스 파일로 클러스 터링 한다. 이 실험을 F3(X2), F3(MI), F3(IG), F3(OR) 등이라 하고, 3.3단위 문서 내 자질 필터링 방법을 사용하여 만든 매트릭스 파일을 다시 이 방법을 이용해 자질을 필터링 한 실험을 F3(Max(X2)), F3(Max(MI)), F3((Max(IG)), F3(Max(OR)) 등으로 부르겠다.
  • 이렇게 선택된 자질로만 구성된 매트릭스 파일을 클러스 터링 한다. 이 실험을 F5(X2), F5(MD, F5(IG), F5(OR) 등이라 하고, 3.3단위 문서 내 자질 필터링 방법을 사용하여 만든 매트릭스 파일을 다시 이 방법을 이용해 자질을 필터링 한 실험을 F5(Max(X2)), F5(Max(MD), F5((Max(IG)), F5(Max(OR)) 등으로 부르겠다.
  • 이번 웹 문서 자질선택과 클러스터링 실험을 위해 색인전 문가에 의해 수작업으로 분류하여 디렉토리 서비스를 하고 있는 국내 포털 사이트 3곳의 웹 문서를 수집하여 자질 선 택과 선택된 자질로 클러스터링 해 보았다.

대상 데이터

  • 2개의 문서가 동시에 링크 한 문서 수를 구해 문서*문서매트릭스를 만들었다. 동시-링크 문서 수는 Alltheweb(http: //www.alltheweb.co.kr)의“AdvancedSearch” 옵션에서 검색 식 "LINK: url_A AND LINK: url_B”를 사용했다[5].
  • 실험 데이터는 포탈사이트Yahoo, Naver, Empas의 디렉 토리 서비스 중 자연과학 분류 중 '물리학', 생물학', '지구과학', '화학', '수학', 천문학' 등 6개 분야에서 추출했다. 이 데이터 들은 색인 전문가에 의해 수작업으로 분류된 문서들이다.

이론/모형

  • 웹사이트로부터 문서 수집은 부산대학교 한국어정보처리 연구실에서 개발한 로봇을 이용했고, 수집된 문서에서 색인 어를 추출하는 프로그램 역시 부산대학교 한국어정보처리연 구실에서 개발한 문서색인시스템을 사용했다. 그리고 클러 스터링 실험과 평가는 미국 미네소타대학교에서 개발한 clustering toolkit Cluto2.1 을 사용했다[12].
  • 그 리고 대량의 데이터베이스에 대한 실험에서 Filter가 Wrapper 보다 처리 속도가 빠른 반면 이산 분류에 문제가 있는데, 이런 이산과 연속 분류에 대한 문제점을 correlation-based 자질 선택 방법으로 해결하는 연구가 있었다[8]. 또 자질 선 택에 사용된 데이터셋에 따라 성능이 달라지는 문제점을 보 완해, 문서 내 자질의 문서군에 따라 문서의 대표 문서군을 정해 주어 클러스터링 이전에 문서의 특징을 미리 정해 자 질을 축소하는 Max Feature Selection 기법을 사용하여 클 러스터링 성능을 향상시켰다[7]. 또 문서 내 대표자질을 선정하는 방법으로 자질값투표 기법을 사용한 연구도 있었다[1], 웹 문서의 링크를 확장해 문서를 문서의 자질로 포함시키거나, 웹 문서간 동시-링크 빈도를 계산해 문서의 자질을확장해 단어 자질로만 사용했을 때와 클러스터링 성능을 비 교하였다[7, 16], 자질 선택 방법에 의해 얻은 자질을 SVM (support vector machine)기법으로 training시켜 성능을 비교 하는 연구도 있었다[14].
  • 웹사이트로부터 문서 수집은 부산대학교 한국어정보처리 연구실에서 개발한 로봇을 이용했고, 수집된 문서에서 색인 어를 추출하는 프로그램 역시 부산대학교 한국어정보처리연 구실에서 개발한 문서색인시스템을 사용했다. 그리고 클러 스터링 실험과 평가는 미국 미네소타대학교에서 개발한 clustering toolkit Cluto2.
  • 클러스터링 성능 평가는 Entropy와 Purity] 사용했다[11]. 먼저 단어빈도 매트릭스 파일의 클러스터링 결과 Org(tf)와 기존 자질선택 방법(X: MI, IG, OR)에 의한 클러스터링 결 과 0电区2), Org(MI), Org(IG), Org(OR), 동시-링크 정보를 이용한 클러스터링 결과 CL0, 단위 문서 내 자질 필터링 방법으로 만든 매트릭스 파일의 클러스터링 결과 Max(X2), MaxCMI), Max(IG), Max(OR))를 비교하겠다.
  • 클러스터링은 k-means clustering 방법을 사용하였고, 클 러스터링 수는 12개로 했다. 그리고 criterion function은 다 음 2개의 식을 사용했다.
본문요약 정보가 도움이 되었나요?

참고문헌 (16)

  1. 이재윤, '자질값투표 기법과 문서측 자질 선정을 이용한 고속문서 분류기',12회 정보관리학회지 pp.71-78, 2005 

  2. 정영미, 이재윤,'지식 분류의 자동화를 위한 클러스트링 모형연구',정보관리학회지 ,Vol.18권,No.2, pp.203-230, 2001 

  3. 고영증, 서정연, '문서 관리를 위한 자동 문서 범주화에 대한 이론 및 기법', 정보관리 연구논문지, Vol.33, No.2, pp.16-32, June, 2002 

  4. 국민상, 정영미, '자질선정에 따른 Naive Bayesian 분류기의 상능 비교', 7회 정보관리학회 제7회 학술대회 논문집, pp.33- 36, 2000 

  5. 이원희, 이교운, 박흠, 김영기, 권혁철, '웹 문서의 단어정보와 링크정보 결합을 이용한 클러스트링 기법',15회 한국정보과학회지, pp.101-107, 2003 

  6. H.Yaun, S.S.Tseng, W.Gangshan, and Z.Fuyan. 'A two-phase feature selection method using both filter and wrapper', In IEEE International conference on Systems, Man, and Cybernetics, Vol. 2, pp.132-136, 1999 

  7. Heum Park, 'A Feature Selection for Korean Web Document Clustering', The 30th Annual Conference of IEEE Industrial Electronics Society, 2004 

  8. Hall, M. 'Correlation-based feature selection of discrete and numeric class machine learning', In Proceedings of the International Conference on Machine Learning, pp.359-366, San Francisco, CA. Morgan Kaufmann Publishers, 2000 

  9. A.Y. Ng, 'On feature selection: learning with exponentially many irrelevant features as training examples'. In Proc. 15th Intl. Conf. on Machine Learning, pp.404-412, 1998 

  10. Zhao, Ying and Karypis, George, 'Criterion functions for document clustering - experiment and analysis', Technical Report TR #01-40, Department of Computer Science, University of Minnesota, 2001 

  11. Zhao, Ying and Karypis, George, 'Evaluation of hierarchical clustering algorithms for document datasets', Technical Report TR #02-22, Department of Computer Science, University of Minnesota, 2002 

  12. Karypis, George, 'CLUTO: A Clustering Toolkit', Technical Report TR #02-017, Department of Computer Science, University of Minnesota, 2002 

  13. Zhi-Hong Deng, Shi-Wei Tang, Dong-Qing Yang, Ming Zhang, Xiao-Bin Wu and Meng Yang, 'Two Odds-Radio-Based Text Classification Algorithms', Proceedings of Web Information Systems Engineering(Workshops) pp.223-231, 2002 

  14. Brank, J., Grobelnik, M., Mili'c-Frayling, N. & Mladenic, D., 'Interaction of feature selection methods and linear classification models', Proceedings of the ICML-02 Workshop on Text Learning, Sydney, AU, 2002 

  15. Y. Yang and J. P. Pedersen, 'A comparative study on feature selection in text categorization', In Proceedings of the International Conference on Machine Learning, pp.412-420, 1997 

  16. Kyo-Woon Lee, Young-Gi Kim, Hyuk-Chul Kwon, 'Clustering of Web Documents with the Use of Term Frequency and Co-link in Hypertext', Proceedings of the International Conference on APIS2003, 2003 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로