최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국해양정보통신학회논문지 = The journal of the Korea Institute of Maritime Information & Communication Sciences, v.13 no.12, 2009년, pp.2603 - 2608
김철원 (호남대학교 컴퓨터공학과) , 박선 (전북대학교 BK21-전북 전자정보고급인력양성사업단)
Document clustering is an important method for document analysis and is used in many different information retrieval applications. This paper proposes a new document clustering model using the clustering method based NMF(non-negative matrix factorization) and refinement of documents in cluster by us...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
문서의범주화는 무엇으로 분류할 수 있는가? | 현재의 정보검색 분야에서는 사용자의 요구사항을 만족시키기 위하여 다양한 정보를 효율적으로 처리할 수있는 문서의 범주화에 대한 연구를 많이 진행하고 있다.문서의범주화는 대량의 문서들을 각각의 문서의 특성 및 주제에 맞게 분류하는 것 으로 사전에 학습이 필요한 지도학습방법인 문서분류와 학습이 필요 없는 비지도 학습 방법의문서군집으로 구분할 수 있다[1]. | |
문서군집은 자료를 분석하는 중요한 기술 이지만 근본적인 문제는? | 문서군집은 자료를 분석하는 중요한 기술로 자료의 조직화, 웹검 색결과의 브라우징, 다중문서 요약 등 다양한 정보검색 응용분야에 활용되는 중요한 방법이다[1, 2]. 그러나 문서군집 방법의 근본적인 문제는 자료 집합의 분포나 내부구조, 사용자가 원하는 군집 형태 등이 군집결과에 중요한 영향을 미친다는 것이다[3]. | |
문서군집이란? | 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다. |
S. Chakrabarti, 'mining the web: Discovering Knowledge from Hypertext Data', Morgan Kaufmann Publishers, 2003
Y. Huang, T. M. Mitchell, 'Text Clustering with Extended User Feedback', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 413-420, 2006
X. Ji, W. Xu, S. Zhu, 'Document Clustering with Prior Knowledge', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 405-412, 2006
D. D. Lee, H. S. Seung, 'Learning the parts of objects by non-negative matrix factorization', Nature, vol.401, 788-791, 1999
D. D. Lee, H. S. Seung, 'Algorithms for non-negative matrix factorization', In Advances in Neural Information Processing Systems, vol.13, 556-562, 2001
W. Xu, X. Liu, Y. Gon, 'Document Clustering Based On Non-negative Matrix Factorization', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 267-274, 2003
주길홍, 이원석, '효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서클러스터링', 컴퓨터교육학회 논문지 11권 3호, 2008.5
B. Y. Ricardo, R. N. Berthier, 'Moden Information Retrieval', ACMPress, 1999
S. Basu, A.Banerjee, R. Mooney, 'Semi-supervised Clustering by Seeding', Proceeding of International Conference on Machine Learning (ICML), 19-26, 2002
H. J. Zeng, Q. C. He, Z. Chen, W. Y. Ma, J. Ma, 'Learning to Cluster Web Search Results', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 210-217, 2004
The 20 newsgroups data set. http://people.csail.mit. edu/jrennie/20Newsgroups/, 2007
J. Han, M. Kamber, 'Second Edition Data Mining Concepts and Techniques', Morgan Kaufman, 2006
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.