[논문]다목적 유전자 알고리즘을 이용한문서 클러스터링

이정송; 박순철

doi:10.9723/jksiis.2012.17.2.057

다목적 유전자 알고리즘을 이용한문서 클러스터링
The Document Clustering using Multi-Objective Genetic Algorithms 원문보기

한국산업정보학회논문지 = Journal of the Korea Industrial Information Systems Research, v.17 no.2, 2012년, pp.57 - 64

초록
AI-Helper

본 논문에서는 텍스트 마이닝 분야에서 중요한 부분을 차지하고 있는 문서 클러스터링을 위하여 다목적 유전자 알고리즘을 제안한다. 문서 클러스터링에 있어 중요한 요소 중 하나는 유사한 문서를 그룹화 하는 클러스터링 알고리즘이다. 지금까지 문서 클러스터링에는 k-means 클러스터링, 유전자 알고리즘 등을 사용한 연구가 많이 진행되고 있다. 하지만 k-means 클러스터링은 초기 클러스터 중심에 따라 성능 차이가 크며 유전자 알고리즘은 목적함수에 따라 지역 최적해에 쉽게 빠지는 단점을 갖고 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 다목적 유전자 알고리즘을 문서 클러스터링에 적용해 보고, 기존의 알고리즘과 정확성을 비교 및 분석한다. 성능 시험을 통해 k-means 클러스터링(약 20%)과 기존의 유전자 알고리즘(약 17%)을 비교할 때 본 논문에서 제안한 다목적 유전자 알고리즘의 성능이 월등하게 향상됨을 보인다.

Abstract ▼ AI-Helper

In this paper, the multi-objective genetic algorithm is proposed for the document clustering which is important in the text mining field. The most important function in the document clustering algorithm is to group the similar documents in a corpus. So far, the k-means clustering and genetic algorithms are much in progress in this field. However, the k-means clustering depends too much on the initial centroid, the genetic algorithm has the disadvantage of coming off in the local optimal value easily according to the fitness function. In this paper, the multi-objective genetic algorithm is applied to the document clustering in order to complement these disadvantages while its accuracy is analyzed and compared to the existing algorithms. In our experimental results, the multi-objective genetic algorithm introduced in this paper shows the accuracy improvement which is superior to the k-means clustering(about 20 %) and the general genetic algorithm (about 17 %) for the document clustering.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

목적 함수는 현재 세대가 얼마나 해에 근접한지를 판단 할 수 있는 기준으로서 유전자 알고리즘의 전체 성능을 좌우한다.
본 논문에서는 다양한 목적 함수를 사용하는 다목적 유전자 알고리즘이 하나의 목적 함수에 의해 지역 최적해에 수렴 할 때 또 다른 목적 함수가 이를 방지할 수 있기 때문에 이를 문서 클러스터링에 적용해보고 실험적으로 증명하고자 한다.
본 논문에서는 현재까지 문서 클러스터링 연구에 있어 다목적 유전자 알고리즘을 적용한 사례가 알려지지 않는 가운데 처음으로 다목적 유전자 알고리즘을 문서 클러스터링에 적용해 보았다. 적용한 결과 k-means 클러스터링과 유전자 알고리즘이 갖는 단점을 개선하여 성능이 향상됨을 알 수 있었다.

제안 방법

2) 유전자 인코딩 방식에 따라 문서 벡터와 매핑하여 적합도를 평가한다. 평가 후 파레토 최적해를 생성하고 NSGA-Ⅱ기법을 사용하여 염색체를 선택한다.
적합도 평가에서는 일차적으로 염색체에 대하여 문서 클러스터 행렬이 구성된다. 구성된 후 K 개의 문서 클러스터 행렬에 목적 함수를 적용하여 생성된 문서 클러스터가 최적인지 평가하게 된다.
다음에는 NSGA-Ⅱ기법을 사용하여 과 같이 같은 순위에 있는 비지배해들을 하나의 파레토 프론트에 위치시키고 밀집도를 비교하여 토너먼트 선택 연산을 수행한다.
본 논문의 구성은 2장에서는 다목적 최적화 문제 및 다목적 유전자 알고리즘에 대하여 설명하고, 3장에서는 제안하는 다목적 유전자 알고리즘을 이용한 문서 클러스터링 방법에 대하여 논의한다. 마지막으로 문서 클러스터링에 있어 세 가지 알고리즘(k-means 클러스터링, 유전자 알고리즘, 다목적 유전 알고리즘)을 비교 및 분석하였다.
목적 함수 공간에서 두 개의 목적 함수 평가값이 최대일 때를 가정하면 와 같이 최대화 방향의 비지배해들을 선정하여 파레토 최적해를 생성한다.
문서 클러스터링을 위하여 본 논문에서 적용한 다목적 유전자 알고리즘인 NSGA-Ⅱ의 시간 복잡도는 O(MN²)이며 M은 목적 함수의 개수, N은 개체수를 나타낸다. 이와 같이 클러스터링 인덱스를 목적 함수로 사용하는 다목적 유전자 알고리즘을 이용한 문서 클러스터링은 높은 계산 시간을 필요로 하므로 본 논문에서는 클러스터링 인덱스 중에 가장 간단한 CH(Calinski and Harabasz)[14]와 DB(Davis and Bouldin)[15]인덱스를 사용하였다.
본 논문에서 제안하는 다목적 유전자 알고리즘을 이용한 문서 클러스터링에서는 염색체의 적합도를 평가하기 위해 문서 클러스터 행렬을 구성하는 단계가 필요하다.
본 논문에서 제안하는 다목적 유전자 알고리즘을 이용한 문서 클러스터링은 문서 벡터를 구성하는 단계, 다목적 유전자 알고리즘을 이용하여 문서를 클러스터링하는 단계로 나누어지며 과 같다.
본 논문에서 진화 연산은 아래와 같이 선택 연산은 토너먼트 선택, 교배 연산은 다점 교배 연산, 돌연변이 연산은 확률적 돌연변이 연산을 사용하였다[16].
본 논문에서는 k-means 클러스터링과 유전자 알고리즘, 그리고 다목적 유전자 알고리즘 사용하였을 때의 클러스터링 성능을 비교 및 분석하였다. 유전자 알고리즘과 다목적 유전자 알고리즘은 300개의 동일한 개체수와 세대수가 1,000이거나 성능 향상 없이 20번의 세대가 진행될 때 알고리즘이 종료되도록 설정하였다.
본 논문에서는 k-means 클러스터링을 포함한 단일의 목적 함수를 갖는 유전자 알고리즘 그리고 다수의 목적 함수를 갖는 다목적 유전자 알고리즘을 문서 클러스터링에 적용하여 비교해 보았다. 유전자 알고리즘에서는 목적 함수로 사용된 클러스터링 인덱스에 따라 성능의 차이가 보였다.
본 논문에서는 과 같이 초기 설정되는 클러스터의 수 1∼K 범위의 정수로 유전자를 인코딩하였다.
평가 후 파레토 최적해를 생성하고 NSGA-Ⅱ기법을 사용하여 염색체를 선택한다. 선택된 염색체들에 진화연산을 적용하여 자식 개체군을 생성한다.
본 논문에서는 k-means 클러스터링과 유전자 알고리즘, 그리고 다목적 유전자 알고리즘 사용하였을 때의 클러스터링 성능을 비교 및 분석하였다. 유전자 알고리즘과 다목적 유전자 알고리즘은 300개의 동일한 개체수와 세대수가 1,000이거나 성능 향상 없이 20번의 세대가 진행될 때 알고리즘이 종료되도록 설정하였다.

대상 데이터

클러스터링 알고리즘의 성능을 비교하기 위해 데이터 셋은 한국일보-20000/한국일보-40075 문서 범주화 실험문서 집합을 사용하였다. 총 3개의 테스트 셋을 만들어 각각 4개의 주제를 선정하였으며 <표 1>과 같다.

이론/모형

본 논문에서 사용한 목적 함수는 클러스터링 결과를 평가하기 위해 사용되는 클러스터링 인덱스(Clustering Validity Index)를 사용하였다. 클러스터링 인덱스는 클러스터링 결과의 유효성을 평가하기 위해 사용되는 평가기준이며 최적의 클러스터가 생성되었을 경우 값은 최소값 또는 최대값을 가지게 된다.
본 논문에서는 여러 가지 문서 특징 추출 방법 중에서도 Okapi's 계산법[13]을 사용하여 문서의 용어들의 가중치를 계산하였다.
)이며 M은 목적 함수의 개수, N은 개체수를 나타낸다. 이와 같이 클러스터링 인덱스를 목적 함수로 사용하는 다목적 유전자 알고리즘을 이용한 문서 클러스터링은 높은 계산 시간을 필요로 하므로 본 논문에서는 클러스터링 인덱스 중에 가장 간단한 CH(Calinski and Harabasz)[14]와 DB(Davis and Bouldin)[15]인덱스를 사용하였다.
2) 유전자 인코딩 방식에 따라 문서 벡터와 매핑하여 적합도를 평가한다. 평가 후 파레토 최적해를 생성하고 NSGA-Ⅱ기법을 사용하여 염색체를 선택한다. 선택된 염색체들에 진화연산을 적용하여 자식 개체군을 생성한다.

성능/효과

유전자 알고리즘에서는 목적 함수로 사용된 클러스터링 인덱스에 따라 성능의 차이가 보였다. 다목적 유전자 알고리즘은 k-means 클러스터링, 유전자 알고리즘 보다 약 20%이상의 성능 향상을 보였다. 특히, 코사인 유사도를 사용한 DB 인덱스와 CH 인덱스를 목적 함수로 사용하였을 때가 다른 알고리즘에 비해서 우수한 클러스터링 결과를 보였다.
모든 테스트 셋에 대해 유전자 알고리즘이 k-means 클러스터링보다 성능이 우수하였고 특히, CH 인덱스를 적용하였을 때 약 10%의 가장 높은 성능 향상을 보였다. 또한, 다목적 유전자 알고리즘은 k-means 클러스터링과 유전자 알고리즘보다 성능이 우수하였으며, k-means 클러스터링보다 약 20%, 유전자 알고리즘보다 약 15%의 성능 향상을 보였다.
모든 테스트 셋에 대해 유전자 알고리즘이 k-means 클러스터링보다 성능이 우수하였고 특히, CH 인덱스를 적용하였을 때 약 10%의 가장 높은 성능 향상을 보였다. 또한, 다목적 유전자 알고리즘은 k-means 클러스터링과 유전자 알고리즘보다 성능이 우수하였으며, k-means 클러스터링보다 약 20%, 유전자 알고리즘보다 약 15%의 성능 향상을 보였다.
본 논문에서는 현재까지 문서 클러스터링 연구에 있어 다목적 유전자 알고리즘을 적용한 사례가 알려지지 않는 가운데 처음으로 다목적 유전자 알고리즘을 문서 클러스터링에 적용해 보았다. 적용한 결과 k-means 클러스터링과 유전자 알고리즘이 갖는 단점을 개선하여 성능이 향상됨을 알 수 있었다.
전체적으로 다른 클러스터링 알고리즘보다 다목적 유전자 알고리즘을 이용한 문서 클러스터링이 월등한 성능을 보였으며, DB 인덱스에서 코사인 유사도와 CH 인덱스를 목적 함수로 적용하였을 때가 가장 우수한 성능을 보였다.
다목적 유전자 알고리즘은 k-means 클러스터링, 유전자 알고리즘 보다 약 20%이상의 성능 향상을 보였다. 특히, 코사인 유사도를 사용한 DB 인덱스와 CH 인덱스를 목적 함수로 사용하였을 때가 다른 알고리즘에 비해서 우수한 클러스터링 결과를 보였다.

후속연구

향후 이와 관련된 연구를 통하여 본 논문에서 소개된 클러스터링 인덱스 이외의 다양한 인덱스를 파악하고 이를 목적 함수에 적용하며 성능을 향상시킬 계획이다. 또한, 클러스터링 인덱스들 사이의 관계성을 파악함으로써 클러스터링 성능에 영향력이 큰 요소를 찾을 수 있을 것이다.
문서 클러스터링에 있어 다목적 유전자 알고리즘을 적용한 사례가 아직까지 찾아지지 않고 있다. 향후 이와 관련된 연구를 통하여 본 논문에서 소개된 클러스터링 인덱스 이외의 다양한 인덱스를 파악하고 이를 목적 함수에 적용하며 성능을 향상시킬 계획이다. 또한, 클러스터링 인덱스들 사이의 관계성을 파악함으로써 클러스터링 성능에 영향력이 큰 요소를 찾을 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	클러스터링이란?	클러스터링이란 대량의 데이터들을 의미 있는 그룹으로 분류하는 것을 의미한다. 클러스터링에서 문서 클러스터링은 정보 검색 분야에 중요한 부분을 차지하고 있다.
	가장 일반적인 문서 클러스터링 알고리즘에는 무엇이 있나?	문서 클러스터링은 사용자가 원하는 정보를 포함하고 있는 문서를 탐색하는데 소비되는 시간을 절약하며 검색 효율성을 높일 수가 있다[2]. 가장 일반적인 문서 클러스터링 알고리즘에는 k-means 클러스터링[3]과 유전자 알고리즘(Genetic Al gorithm)[4] 등이 있다.
	k-means 클러스터링의 단점은?	k-means 클러스터링은 클러스터링 문제를 해결하는 가장 간단한 알고리즘 중 하나로 구현의 용이성과 우수한 시간 효율성으로 문서 클러스터링에 많이 적용되고 있다. 하지만 초기 클러스터 중심에 따라 성능차가 커진다는 문제점을 가지고 있다.

참고문헌 (17)

W. B. Croft, D. Metzler and T. Strohman, Search Engines Information Retrieval in Practice, Addison Wesley, 2009.
정영미, 정보 검색 연구, 구미무역, 2005.
J. B. MacQueen, "Some Methods for classification and Analysis of Multivariate Observation", Proc. 5th Berkeley Symp, vol. 1, pp. 281-297, 1967.
W. Song and S.C Park, "Genetic algorithm for text clustering based on latent semantic indexing", Computers & Mathematics with Applications, vol. 57, pp.1901-1907, 2009.

상세보기
최임천, 쏭웨이, 박순철, "개체 구조에 따른 유전자 알고리즘 기반의 문서 클러스터링 성능 비교", 한국산업정보학회논문지, 제16권, 3호, pp. 47-56, 2011.

원문보기 상세보기
김대희, 박상호, "분류시스템의 분류 규칙 발견을 위한 유전자 알고리즘", 한국산업정보학회논문지, 제9권, 4호, pp. 16-25, 2004.

원문보기 상세보기
차성민, 권기호, "다중 개체군 유전자 알고리즘의 새로운 이주 방식", 정보과학회논문지, 제28권, 1호, pp. 26-30, 2001.

원문보기 상세보기
A. Osyczka, Multicriteria Optimization for Engineering Design, New York Academic Press, 1985.
Censor. Y, "Pareto Optimality in Multiobjective Problems", Applied Mathematics & Optimization, vol. 4, pp. 41-59, 1977.

상세보기
김갑환, 조정복, 고창성, 네트워크 모델과 다목적 GA, 한산, 2010.
K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan, "A Fast Elitist Multiobjective Genetic algorithm: NSGA-II", IEEE Transaction on Evolutionary Computation, vol. 6, no. 2, pp. 182-197, 2002.

상세보기
박순규, 이수복, 이원철, "다목적 최적화를 위한 Goal-Pareto 기반의 NSGA-II 알고리즘", 한국통신학회논문지, 제32권, 11호, pp. 1079-1085, 2007.
최임천, 최경웅, 박순철, "An Automatic Semantic Term-Network Constriction System", Computer Science and its Applications, pp. 48-51, 2009
T. Calinski, and J. Harabasz, "A Dendrite Method for Cluster Analysis", Communications in Statistics, vol. 3, no. 1, 1974.
D. L. Davies and D. W. Bouldin, "A Cluster Separation measure", IEEE transactions on Pattern analysis and Machine Intelligene, vol. 1, no. 2, 1979.
문병로, 쉽게 배우는 유전 알고리즘-진화적 접근법, 한빛미디어, 2008.
D. Fragoudis, D. Meretakis, and S. Likothanassi, "Best terms: an efficient feature-selection algorithm for text categorization", Knowledge and Information, vol. 8, pp. 16-33, 2005.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증