$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

엔트로피 가중치 및 SVD를 이용한 군집 특징 선택
Cluster Feature Selection using Entropy Weighting and SVD 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.29 no.4, 2002년, pp.248 - 257  

이영석 (숭실대학교 컴퓨터학과) ,  이수원 (숭실대학교 컴퓨터학부)

초록
AI-Helper 아이콘AI-Helper

군집화는 객체들의 특성을 분석하여 유사한 성질을 갖고 있는 객체들을 동일한 집단으로 분류하는 방법이다. 전자 상거래 자료처럼 차원 수가 많고 누락 값이 많은 자료의 경우 입력 자료의 차원축약, 잡음제거를 목적으로 SVD를 사용하여 군집화를 수행하는 것이 효과적이지만, SVD를 통해 변환된 자료는 원래의 속성 정보를 상실하기 때문에 군집 결과분석에서 원본 속성의 가치 해석이 어렵다. 따라서 본 연구는 군집화 수행 후 엔트로피 가중치 및 SVD를 이용하여 군집의 중요한 속성을 발견하기 위한 군집 특징 선택 기법 ENTROPY-SVD를 제안한다. ENTROPY-SVD는 자료의 속성들과 유사객체 군과의 묵시적인 은닉 구조를 활용하기 위하여 SVD를 이용하고 유사객체 군에 포함된 응집도가 높은 속성들을 발견하기 위하여 엔트로피 가중치를 사용한다. 또한 ENTROPY-SVD를 적용한 모델 기반의 협력적 여과기법의 추천 시스템 CFS-CF를 제안하고 그 효용성 및 효과를 평가한다.

Abstract AI-Helper 아이콘AI-Helper

Clustering is a method for grouping objects with similar properties into a same cluster. SVD(Singular Value Decomposition) is known as an efficient preprocessing method for clustering because of dimension reduction and noise elimination for a high dimensional and sparse data set like E-Commerce data...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그러나 자료를 재구성하는 방법은 원본 속성 자료를 축약하는 특성이 있어 결과분석 단계에서 원본 자료와 군집화 결과의 객체 소속 정보를 바탕으로 군집을 형성하는 기준 속성들을 재분석해야한다. 연구는 군집 결과의 분석 및 응용을 위한 중간 단계의 자동화 과정으로 SVD와 같은 기법을 사용하는 군집화의 후처리 결과를 재분석하여 군집을 형성하는데 기준이 된 대표 속성 집합을 발견하고 군집 내에서의 속성의 가치와 중요도를 가중치로 설정하는 기법의 연구이다.
  • 본 연구는 군집화 알고리즘의 후처리 작업으로 군집 결과를 분석하여 군집의 대표속성을 추출하는 방법이다. 사용되는 군집화 알고리즘은 K-Means로서, K-Means 알고리즘은 각 자료와 각 군집 중심과의 거리를 고려한 유사도 측정에 기초한 목적함수의 최적화 방식을 사용한다.
  • 군집 대표 속성들의 가중치를 부여하는 기법을 군집 특징 선택이라 한다. 본 연구에서는 군집 속성들의 가중치 재설정을 위하여 속성의 엔트로피 가중치 (Entropy Weighting) 및 SVD 를 이용한 군집 특징 선택 알고리즘 ENTROPY-SVD를 구현하고, 이 선택 기법에 의해 발견된 대표 속성들의 효용성을 평가하기 위한 방안으로 군집 대표 속성 집합을 사용하는 추천시스템 CFS-CF 를 구현한다.
  • 본 연구에서는 유사한 성질을 가지는 군집의 속성 (Attribute)들 중에서 군집을 대표하는 속성들의 집합을 군집의 특징(Feature)으로 보고 특징을 구성하는 속성들의 중요도(Importance) 및 가치 (Value)를 위한 속성가중치(Attribute Weighting)* 설정한다. 군집 대표 속성들의 가중치를 부여하는 기법을 군집 특징 선택이라 한다.
  • 본 연구에서는 후처리 단계에서의 ENTROPY-SVD 군집 특징선택 방법의 평가를 위해서 군집 대표 속성 집합을 사용한 소속 군집 판정 정확도 측정과 모델 기반 협력적 여과 기법의 CFS-CF 추천 시스템을 통하여 평가하였다. 소속 군집 판정 정확도 측정은 군집의 대표속성 집합에 가중치를 높게 주었을 경우 군집화의 군집중심점과 같은 역할을 할 수 있음을 보이는 내용이며 CFS-CF와 같은 추천 시스템에서는 상품을 속성으로 인식하는 자료에서 선택된 군집의 대표 속성이 가치가 있음을 증명하는 내용이다.

가설 설정

  • 과정3 : 형성된 군집 내 객체들올 대상으로 개념적으로 유사한 혹은 근접한 속성을 발견한다 (Attribute Similarity).
  • 개수를 말한다. 이 기법의 기본 가정은 빈도수가 낮은 속성은 정보가치가 떨어지며 전체 수행 성능에 큰 영향을 미치지 않는다고 보는데 있다. DF 임계치 방법은 주로 문서 분류 혹은 군집화 방법에서 사용되어 DF가 낮은 단어를 제거하여 입력 자료의 차원을 축소하는데 사용된다.
본문요약 정보가 도움이 되었나요?

참고문헌 (16)

  1. Yang, Y., Pedersen, J.O., A Comparative Study on Feature Selection in Text Categorization, Proc.of the 14th International Conference on Machine Learning ICML97, pp. 412-420, 1997 

  2. Jachims, T., A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization, Proc. of the 14th International Conference on Machine Learning ICML97, pp. 143-151, 1997 

  3. Lewis, D. D., Feature selection and feature extraction for text categorization, Proceedings of Speech and Natural Language Workshop, pp. 212-217, 1992 

  4. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., Indexing by latent semantic analysis, Journal of the American Society for Information Science, 41(6), pp. 391-407, 1990 

  5. Berry, M. W., Dumais, S. T., and O'Brien G. W., Using linear algebra for intelligent information retrieval, SIAM Review, 37(4), pp. 573-595, 1995 

  6. Kolda, T. G. and O'Leary, D. P., A semidiscrete matrix decomposition for latent semantic indexing in information retrieval, ACM Trans. Inf. Syst., 16, pp. 322-346, 1998 

  7. M.W. Berry, Z. Drmac, E.R. Jessup, Matrices, vector spaces, and information retrieval, SIAM Rev., 41(2), pp. 335-362, 1999 

  8. Landauer, T. K., Foltz, P. W., and Laham, D., An introduction to Latent Semantic Analysis, In Discourse Processes 25, pp. 259-284, 1998 

  9. Sarwar, B. M., Karypis, G., Konstan, J. A., and Riedl J., Application of Dimensionality Reduction in Recommender System-A Case Study, In ACM WebKDD 2000 Web Mining for E-Commerce Workshop, 2000 

  10. Sudipto Guha, Rajeev Rastogi, and Kyuseok Shim., ROCK : a robust clustering algorithm for categorical attributes, In Information Systems, 25(5), pp.345-366, 2000 

  11. Strehl, A., Ghosh and J., Mooney, R., Impact of similarity measures on web-page clustering, In Proc. AAAI Workshop on AI for Web Search, pp. 58-64, 2000 

  12. M. Devaney and A. Ram., Efficient feature selection in conceptual clustering, In Machine Learning: Proceedings of the Fourteenth International Conference, pp. 92-97, Nashville, TN, 1997 

  13. Paul Resnick ,Neophytos Iacovou, Mitesh Suchak, Peter Bergstrom and John Riedl, GroupLens: an open architecture for collaborative filtering of netnews, Proceedings of the conference on Computer supported cooperative work, pp. 22-26, October 1994 

  14. Sarwar, B. M., Karypis, G., Konstan, J. A., Riedl, J., Item-based Collaborative Filtering Recommender Algorithms, In WWW10 Conference, pp. 285-295, May 2001 

  15. D. Billsus and M. J. Pazzani, Learning collaborative information filters, In Proceedings of the Fifteenth International Conference on Machine Learning, pp. 46-54, July 1998 

  16. Sonny HS Chee, RecTree: A Linear Collaborative Filtering Algorithm, M.S thesis, Computing Science, Simon Fraser University, 2000 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로