$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법
Document Clustering Technique by K-means Algorithm and PCA 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.18 no.3, 2014년, pp.625 - 630  

김우생 (Department of Computer Software, Kwangwoon University) ,  김수영 (Department of Computer Engineering, Handong Global University)

초록
AI-Helper 아이콘AI-Helper

컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되기 때문에, 이들을 효과적으로 검색하고 처리하는 방법의 연구가 필요하다. 문서 군집은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 대용량의 문서들을 자동으로 분류하고 검색하고 처리하는데 효율과 정확성을 증대시킨다. 본 논문은 특징 벡터 공간 상의 벡터들로 표현되는 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 초기 시드점들을 선정함으로써 군집의 효율을 높이는 방법을 제안한다. 실험 결과를 통하여 제안하는 기법이 기존의 K 평균 알고리즘보다 좋은 결과를 얻을 수 있음을 보였다.

Abstract AI-Helper 아이콘AI-Helper

The amount of information is increasing rapidly with the development of the internet and the computer. Since these enormous information is managed by the document forms, it is necessary to search and process them efficiently. The document clustering technique which clusters the related documents thr...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 주성분 분석(PCA: Principal Component Analysis)은 다차원적인 변수들을 축소 하는 차원의 단순화와 더불어 일반적으로 서로 상관되어 있는 반응 변수들 간의 복잡한 구조를 분석하는데 주로 이용된다[2,3]. 따라서 본 논문은 특징 벡터 공간 상의 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 적절한 시드점을 구하는 방법을 제안한다. 실험 결과를 통하여 제안하는 방법이 기존 K 평균 기법보다 더 좋은 결과를 얻음을보였다.
  • 기존의 K 평균 알고리즘은 무작위로 시드점을 선택하기 때문에, 잘못된 시드점을 선택하는 경우 성능이 좋지 않았다. 따라서 본 연구에서는 주성분 분석을 적용하여 적절한 시드 점을 찾아 효율적으로 군집화하는 방법을 제안하였다. 실험을 통해 무작위 K 평균 알고리즘보다 주성분 분석으로 적절한 시드점을 통한 K 평균 알고리즘이 더 좋은 군집화 성능을 얻음을 보였다.
  • 문서들에 대한 군집화는 유사한 문서들의 그룹을 만들어 특정한 카테고리 안에서 검색과 처리를 용이하게 하고, 체계적인 문서 관리와 문서 저장을 위해서도 효율적이다. 또한 군집화 된 데이터들은 데이터들 간에 일종의 경향 또는 규칙성을 보이고 심지어 주목할 가치가 있는 관련 지식을 보여 주기까지 한다.
  • 예를 들어, 표 1의 경우 A2, B1, C2 문서를 3개의 시드점으로 선택하면 무작위 시드점으로 K 평균 알고리즘을 수행하는 것보다 좋은 결과를 얻을 수 있다. 본 연구에서는 주성분 분석을 통해 이러한 적절한 시드점을 구하는 방법을 제안한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
군집 방법은 크게 무엇으로 나눌 수 있는가? 군집 방법은 크게 확률 모형에 기초한 방법과 확률 모형을 가정하지 않은 방법으로 나눌 수 있다[1,2]. 확률모형에 기초한 방법론 중에서 대표적인 방법은 가우스 혼합모형이며, 확률 모형을 가정하지 않은 방법론중 대표적인 방법은 계층 군집법과 K 평균 군집법이다.
K 평균 군집법의 장단점은 무엇인가? 확률모형에 기초한 방법론 중에서 대표적인 방법은 가우스 혼합모형이며, 확률 모형을 가정하지 않은 방법론중 대표적인 방법은 계층 군집법과 K 평균 군집법이다. K 평균 군집법은 계층적 군집법에 비하여 계산량이 적고 대용량 데이터를 빠르게 처리할 수 있는 장점이 있 으나, 군집의 수를 사전에 알아야 하며 무작위로 초기 시드점을 선택하는 문제점이 있다.
본 논문에서 기존의 K평균 알고리즘의 어떤 문제점 때문에 주성분 분석을 적용하여 적절한 시드 점을 찾아 효율적으로 군집화하는 방법이 제안되었는가? 단어들을 포함하는 문서는 특징 벡터 공간 상의 벡터로 표현할 수 있기에 K 평균 알고리즘을 사용하여 문서들을 군집화할 수 있다. 기존의 K 평균 알고리즘은 무작위로 시드점을 선택하기 때문에, 잘못된 시드점을 선택하는 경우 성능이 좋지 않았다. 따라서 본 연구에서는 주성분 분석을 적용하여 적절한 시드 점을 찾아 효율적으로 군집화하는 방법을 제안하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. C. Park, Y. Kim, J. Kim, J. Song, and H. Choi, Data Mining using R, Kyowoosa, 2011. 

  2. H. Park, and K. Lee, Pattern Recognition and Machine Learning from Basic to Application, Leehan Pub., 2011. 

  3. L. Oh, Pattern Recognition, Kyobo Book Centre, 2010. 

  4. S. Park, D. An, "Document Clustering Method using PCA and Fuzzy Association," Journal of Korea Information Processing Society B, 2010. 

  5. C. Lee, M. Kim, K. Lee, G. Lee, H. Park, "Document Thematic words Extraction using Principal Component Analysis," Journal of the Korea Society of Computer and Information B, 2002. 

  6. C. Lee, M. Kim, J. Paik, H. Park, "Text Summarization using PCA and SVD," Journal of Korea Information Processing Society B, 2003. 

  7. S. Park, J. Lee, "Topic-basied Multi-document Summarization Using Non-negative Matrix Factorization and K-means," Journal of the Korea Society of Computer and Information B, 2008. 

  8. S. Park, D. U. An, B. R. Char, and C. W. Kim, "Document Clustering with Cluster Refinement and Non-negative Matrix Factorization," In Proceeding of ICONIP'09, 2009. 

  9. S. Osinski and D. Weiss, "Conceptua Clustering using lingo algorithm: Evaluation on open directory project data," in Proc. IIPWM04, 2004. 

  10. The Porter Stemming Algorithm. Available: http://tartarus.org/-martin/PorterStemmer/ 

  11. B. Lee, Information Retrieval, Green Pub. 2012. 

  12. http://qwone.com/-jason/20Newsgroups/ 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로