[논문]비음수 행렬 분해와 군집의 응집도를 이용한 문서군집

김철원; 박선

doi:10.6109/jkiice.2009.13.12.2603

초록
AI-Helper

문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다. 제안된 방법은 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있고, 문장들 간의 유사도에 기반 한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여서 재 할당함으로써 군집의 효율을 향상시킬 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

Abstract ▼ AI-Helper

Document clustering is an important method for document analysis and is used in many different information retrieval applications. This paper proposes a new document clustering model using the clustering method based NMF(non-negative matrix factorization) and refinement of documents in cluster by us...

Document clustering is an important method for document analysis and is used in many different information retrieval applications. This paper proposes a new document clustering model using the clustering method based NMF(non-negative matrix factorization) and refinement of documents in cluster by using coherence of cluster. The proposed method can improve the quality of document clustering because the re-assigned documents in cluster by using coherence of cluster based similarity between documents, the semantic feature matrix and the semantic variable matrix, which is used in document clustering, can represent an inherent structure of document set more well. The experimental results demonstrate appling the proposed method to document clustering methods achieves better performance than documents clustering methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 비음수 행렬 분해와 군집내의 응집도를 이용하여 문서를 군집하는 새로운방법을 제안하였다. 제안방법은 비음수 행렬 분해의 의미 특징과 의미변수를 사용하여 문서의 내부구조를 군집에 반영함으로써 군집의 정확도를 향상시켰다.
본 논문은 비음수 행렬 분해와 군집의 응집도를 이용하여 문서를 군집하는 새로운 문서군집 방법을 제안한다. 비음수 행렬 분해는(NMF, non-negative matrix factorization) Lee와 Seung이 제안한 방법으로 인간이 객체를 인식할 때 객체의 부분정보의 조합으로 인식하는것에 착안하여, 객체정보를 기초특징(base feature)과 부호특징(encoding feature)로 나누어 부분정보(part-base)로 표현한다.

제안 방법

본 논문의 실험은 서로 다른 세 가지 군집방법의 NMI를 군집의 개수를 2에서 8까지 증가하면서 비교 하였다. 그림1는 K-Means 문서군집방법, NMF 문서군집방법, 제안방법 간의 비교 결과 이다.
SpeClustering모델을 Huang외 저자[2]의 논문에서 제안하였다. 이들의 방법은 군집의 이름과 관련이 없는 일반적인 특질로부터 군집에 필요한 문서의 특질을 분류하고,제안 모델에 다양한 유형의 사용자 피드백을 적용하여 매개변수(parameters)를 조정할 수 있는 방법을 제공하였다.
Zeng외 저자[10]의 논문에서는 비지도 학습방법인 웹 검색 결과의 군집을 지도학습방법으로 변환하는 방법을 제안하였다. 이들의 방법은주어진 질의와 검색 결과의 순위 리스트로부터 여러 개의 속성을 계산하고, 이 속성과 학습 자료를 이용하여 회귀 모델학습에 적용하여 검색 결과에 대한 성능을 향상시켰다.
본 논문은 비음수 행렬 분해와 군집내의 응집도를 이용하여 문서를 군집하는 새로운방법을 제안하였다. 제안방법은 비음수 행렬 분해의 의미 특징과 의미변수를 사용하여 문서의 내부구조를 군집에 반영함으로써 군집의 정확도를 향상시켰다. 또한 군집내의 응집도를 이용하여 각각의 군집을 정제함으로써 군집의 효율을 향상시켰다.
제안방법은 전처리 단계, 비음수 행렬 분해를 이용한 문서군집단계, 군집의 응집도를이용한 문서 군집의 정제단계로 구성된다. 본 논문에서는 군집방법으로 Xu[6]의 비음수 행렬 분해를 이용한 군집방법을 이용한다.

대상 데이터

제안방법에 대한 문서군집 실험은 문서군집의 표준성능평가 자료인20 Newsgroups문서자료[11] 중 일부를 무작위로 추출하여 실험하였다. 20 Newsgroups 평가자료는뉴스 그룹이 20개가 있으며, 20개의 뉴스 그룹에는 총 20000 개의 문서를 포함하고 있다. 뉴스그룹은 컴퓨터 그래픽, 운영체제 윈도우, 컴퓨터 하드웨어, 종교, 의학, 정치 등 20개의 다양한 주제로 구성되어 있으며, 각 주제에 포함된 기사의 수는 같다.
제안방법에 대한 문서군집 실험은 문서군집의 표준성능평가 자료인20 Newsgroups문서자료[11] 중 일부를 무작위로 추출하여 실험하였다. 20 Newsgroups 평가자료는뉴스 그룹이 20개가 있으며, 20개의 뉴스 그룹에는 총 20000 개의 문서를 포함하고 있다.

이론/모형

본 논문에서는 군집내의 문서를 재 군집하기 위하여 군집의 응집도[7]를 이용한다. 특정 군집의 응집도 c(C_n)는 군집 c(C_n)에 포함된 문서간의 유사도를 기반으로 식(6)과같이 계산한다.
제안방법은 전처리 단계, 비음수 행렬 분해를 이용한 문서군집단계, 군집의 응집도를이용한 문서 군집의 정제단계로 구성된다. 본 논문에서는 군집방법으로 Xu[6]의 비음수 행렬 분해를 이용한 군집방법을 이용한다.
본 논문의 성능평가는 문서군집의 표준 평가척도 중 하나인 식(9)의 NMI(normalize mutual information)를 사용한다[2, 3]. NMI의 상호정보이득은 두 개의 문서군집 C와 C’가 주어질 때 이들 간의 상호정보 MI(C,C’)로 다음 식(8)과 같이 정의된다.

성능/효과

첫째, 의미특징과 의미변수를 사용하여 군집의 내부구조와 의미특징의 분포를 쉽게 파악함으로써 문서군집의 정확도를 높일 수 있다. 둘째, 유사도에 기반한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여 재 할 당 함으로써 군집의 효율을 향상시킨다.
제안방법은 비음수 행렬 분해의 의미 특징과 의미변수를 사용하여 문서의 내부구조를 군집에 반영함으로써 군집의 정확도를 향상시켰다. 또한 군집내의 응집도를 이용하여 각각의 군집을 정제함으로써 군집의 효율을 향상시켰다. 실험 결과 제안 방법이 군집내의 응집도를 이용하여 정제하지 않은 방법에 비해서 더 좋은 성능을 나타냄을 알 수 있다.
또한 군집내의 응집도를 이용하여 각각의 군집을 정제함으로써 군집의 효율을 향상시켰다. 실험 결과 제안 방법이 군집내의 응집도를 이용하여 정제하지 않은 방법에 비해서 더 좋은 성능을 나타냄을 알 수 있다.
그러나 제안방법인 RefineNMF 방법의 경우 군집의 개수가 증가하더라도 편차가 미비한 것을 알 수있다. 이것은 제안방법이 군집 이후 군집의 응집도를 이용하여 군집간의 정재 작업을 기반으로 재 군집함으로써 NMI를 높인 것을 알 수 있다. 그림2는 그림1의 결과에 대한 세 방법 간의 평균NMI를 나타낸다.
제안된 방법은 다음과 같은 장점을 갖는다. 첫째, 의미특징과 의미변수를 사용하여 군집의 내부구조와 의미특징의 분포를 쉽게 파악함으로써 문서군집의 정확도를 높일 수 있다. 둘째, 유사도에 기반한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여 재 할 당 함으로써 군집의 효율을 향상시킨다.

후속연구

앞으로 제안 방법의 성능 향상을 위하여 군집의 응집도 계산을 위한 다양한 유사도와군집방법에 적용할 수 있는용어 가중치 재계산 방법에 대하여 연구가 진행 되어야 할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서의범주화는 무엇으로 분류할 수 있는가?	현재의 정보검색 분야에서는 사용자의 요구사항을 만족시키기 위하여 다양한 정보를 효율적으로 처리할 수있는 문서의 범주화에 대한 연구를 많이 진행하고 있다.문서의범주화는 대량의 문서들을 각각의 문서의 특성 및 주제에 맞게 분류하는 것 으로 사전에 학습이 필요한 지도학습방법인 문서분류와 학습이 필요 없는 비지도 학습 방법의문서군집으로 구분할 수 있다[1].
	문서군집은 자료를 분석하는 중요한 기술 이지만 근본적인 문제는?	문서군집은 자료를 분석하는 중요한 기술로 자료의 조직화, 웹검 색결과의 브라우징, 다중문서 요약 등 다양한 정보검색 응용분야에 활용되는 중요한 방법이다[1, 2]. 그러나 문서군집 방법의 근본적인 문제는 자료 집합의 분포나 내부구조, 사용자가 원하는 군집 형태 등이 군집결과에 중요한 영향을 미친다는 것이다[3].
	문서군집이란?	문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다.

참고문헌 (12)

S. Chakrabarti, 'mining the web: Discovering Knowledge from Hypertext Data', Morgan Kaufmann Publishers, 2003
Y. Huang, T. M. Mitchell, 'Text Clustering with Extended User Feedback', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 413-420, 2006
X. Ji, W. Xu, S. Zhu, 'Document Clustering with Prior Knowledge', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 405-412, 2006
D. D. Lee, H. S. Seung, 'Learning the parts of objects by non-negative matrix factorization', Nature, vol.401, 788-791, 1999

상세보기
D. D. Lee, H. S. Seung, 'Algorithms for non-negative matrix factorization', In Advances in Neural Information Processing Systems, vol.13, 556-562, 2001
W. Xu, X. Liu, Y. Gon, 'Document Clustering Based On Non-negative Matrix Factorization', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 267-274, 2003
주길홍, 이원석, '효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서클러스터링', 컴퓨터교육학회 논문지 11권 3호, 2008.5
B. Y. Ricardo, R. N. Berthier, 'Moden Information Retrieval', ACMPress, 1999
S. Basu, A.Banerjee, R. Mooney, 'Semi-supervised Clustering by Seeding', Proceeding of International Conference on Machine Learning (ICML), 19-26, 2002
H. J. Zeng, Q. C. He, Z. Chen, W. Y. Ma, J. Ma, 'Learning to Cluster Web Search Results', Proceeding of Special Interest Group on Information Retrieval (SIGIR), 210-217, 2004
The 20 newsgroups data set. http://people.csail.mit. edu/jrennie/20Newsgroups/, 2007
J. Han, M. Kamber, 'Second Edition Data Mining Concepts and Techniques', Morgan Kaufman, 2006

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 비음수 행렬 분해와 군집의 응집도를 이용한 문서군집
Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 비음수 행렬 분해와 군집의 응집도를 이용한 문서군집 Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

김철원 (39)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 비음수 행렬 분해와 군집의 응집도를 이용한 문서군집
Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper