$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

웹 문서 클러스터링에서의 자질 필터링 방법

Feature Filtering Methods for Web Documents Clustering

초록

색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.

Abstract

Clustering results differ according to the datasets and the performance worsens even while using web documents which are manually processed by an indexer, because although representative clusters for a feature can be obtained by statistical feature selection methods, irrelevant features(i.e., non-obvious features and those appearing in general documents) are not eliminated. Those irrelevant features should be eliminated for improving clustering performance. Therefore, this paper proposes three feature-filtering algorithms which consider feature values per document set, together with distribution, frequency, and weights of features per document set: (l) features filtering algorithm in a document (FFID), (2) features filtering algorithm in a document matrix (FFIM), and (3) a hybrid method combining both FFID and FFIM (HFF). We have tested the clustering performance by feature selection using term frequency and expand co link information, and by feature filtering using the above methods FFID, FFIM, HFF methods. According to the results of our experiments, HFF had the best performance, whereas FFIM performed better than FFID.

저자의 다른 논문

참고문헌 (16)

  1. 이재윤, '자질값투표 기법과 문서측 자질 선정을 이용한 고속문서 분류기',12회 정보관리학회지 pp.71-78, 2005 
  2. 정영미, 이재윤,'지식 분류의 자동화를 위한 클러스트링 모형연구',정보관리학회지 ,Vol.18권,No.2, pp.203-230, 2001 
  3. 고영증, 서정연, '문서 관리를 위한 자동 문서 범주화에 대한 이론 및 기법', 정보관리 연구논문지, Vol.33, No.2, pp.16-32, June, 2002 
  4. 국민상, 정영미, '자질선정에 따른 Naive Bayesian 분류기의 상능 비교', 7회 정보관리학회 제7회 학술대회 논문집, pp.33- 36, 2000 
  5. 이원희, 이교운, 박흠, 김영기, 권혁철, '웹 문서의 단어정보와 링크정보 결합을 이용한 클러스트링 기법',15회 한국정보과학회지, pp.101-107, 2003 
  6. H.Yaun, S.S.Tseng, W.Gangshan, and Z.Fuyan. 'A two-phase feature selection method using both filter and wrapper', In IEEE International conference on Systems, Man, and Cybernetics, Vol. 2, pp.132-136, 1999 
  7. Heum Park, 'A Feature Selection for Korean Web Document Clustering', The 30th Annual Conference of IEEE Industrial Electronics Society, 2004 
  8. Hall, M. 'Correlation-based feature selection of discrete and numeric class machine learning', In Proceedings of the International Conference on Machine Learning, pp.359-366, San Francisco, CA. Morgan Kaufmann Publishers, 2000 
  9. A.Y. Ng, 'On feature selection: learning with exponentially many irrelevant features as training examples'. In Proc. 15th Intl. Conf. on Machine Learning, pp.404-412, 1998 
  10. Zhao, Ying and Karypis, George, 'Criterion functions for document clustering - experiment and analysis', Technical Report TR #01-40, Department of Computer Science, University of Minnesota, 2001 
  11. Zhao, Ying and Karypis, George, 'Evaluation of hierarchical clustering algorithms for document datasets', Technical Report TR #02-22, Department of Computer Science, University of Minnesota, 2002 
  12. Karypis, George, 'CLUTO: A Clustering Toolkit', Technical Report TR #02-017, Department of Computer Science, University of Minnesota, 2002 
  13. Zhi-Hong Deng, Shi-Wei Tang, Dong-Qing Yang, Ming Zhang, Xiao-Bin Wu and Meng Yang, 'Two Odds-Radio-Based Text Classification Algorithms', Proceedings of Web Information Systems Engineering(Workshops) pp.223-231, 2002 
  14. Brank, J., Grobelnik, M., Mili'c-Frayling, N. & Mladenic, D., 'Interaction of feature selection methods and linear classification models', Proceedings of the ICML-02 Workshop on Text Learning, Sydney, AU, 2002 
  15. Y. Yang and J. P. Pedersen, 'A comparative study on feature selection in text categorization', In Proceedings of the International Conference on Machine Learning, pp.412-420, 1997 
  16. Kyo-Woon Lee, Young-Gi Kim, Hyuk-Chul Kwon, 'Clustering of Web Documents with the Use of Term Frequency and Co-link in Hypertext', Proceedings of the International Conference on APIS2003, 2003 

이 논문을 인용한 문헌 (0)

  1. 이 논문을 인용한 문헌 없음

원문보기

원문 PDF 다운로드

  • ScienceON :

원문 URL 링크

원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다. (원문복사서비스 안내 바로 가기)

상세조회 0건 원문조회 0건

DOI 인용 스타일