$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

초록
AI-Helper 아이콘AI-Helper

클러스터링은 주어진 데이터 집합을 균일한 특성을 가지는 몇 개의 그룹으로 묶는 대표적인 비교사 학습 방법 중 하나로 지금까지 다양한 형태의 알고리듬이 개발되어 다양한 응용 분야에서 사용되어 왔다. 이 중 fuzzy c-means (FCM)는 분할 기반의 클러스터링 기법에 속하는 알고리듬으로 1970년대에 정립된 이후 지금까지 사용되고 있는 대표적인 클러스터링 알고리듬 중의 하나이다. 하지만 FCM에는 여러 가지 문제점이 있으며 이를 해결하기 위해 지금까지도 다양한 FCM의 변형이 제안되고 있다. 이 논문에서는 먼저 FCM의 문제점을 살펴보고 이를 해결하기 위해 제안된 방법들을 통해 연구 방향을 제시하고자 한다. FCM의 문제점을 해결하고자 하는 대부분의 FCM 변형은 주어진 문제 영역의 지식을 활용하고 있다. 하지만 이 논문에서는 문제 영역을 한정하지 않고 모든 문제에 적용할 수 있는 일반적인 방안을 제시하는데 초점을 둔다. 제시하는 방안은 앞으로 더 많은 연구가 필요하지만 클러스터링을 연구하고자 하는 이들에게 최근의 연구 동향과 더불어 출발점을 제시할 수 있을 것으로 기대한다.

Abstract AI-Helper 아이콘AI-Helper

Clustering is one of the well-known unsupervised learning methods, in which a data set is grouped into some number of homogeneous clusters. There are numerous clustering algorithms available and they have been used in various applications. Fuzzy c-means (FCM), the most well-known partitional cluster...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 하지만 많은 FCM의 변형이 존재한다는 사실은 FCM이 모든 문제에 적합한 것은 아니라는 반증이 될 수 있다. 따라서 이 논문에서는 FCM이 가지는 문제점들을 살펴보고 이를 해결할 수 있는 방법을 살펴봄으로써 향후 연구 방향을 제시한다. 기존의 많은 방법들이 문제 영역의 지식들을 활용하는 전용 방법들인데 반해 이 논문에서는 모든 문제에 적용이 가능한 범용 방법들에 중점을 둔다.
  • 클러스터링은 주어진 데이터를 균일한 부분집합으로 나누는 비교사 학습법 중 하나로 특히 FCM은 1970년대 정립된 이후 지금까지도 널리 사용되는 대표적인 클러스터링 알고리듬 중 하나이다. 하지만 FCM은 여러 가지 해결되지 못한 문제들이 있으며 이 논문에서는 이들 문제점들을 살펴보고 이를 해결할 수 있는 연구 방향을 살펴 보았다. 비록 제시된 방법들이 기존 방법들에 비해 항상 나은 성능을 보이지는 않으며 향후 더 많은 연구가 필요한 방법들이지만 이들 사이에는 한 가지 공통점을 발견할 수 있다.

가설 설정

  • 가우시안 혼합 모델로 데이터를 한정하는 경우 K의 결정은 EM (expectation maximization)[10]의 변형을 통해서도 가능하다. EM에 분할-병합을 도입하여 가우시안 컴포넌트의 개수를 결정하는 다양한 알고리듬이 제시되어 있으며[11][12], 여기에 가설 검증을 결합함으로써 휴리스틱을 배제한 엄밀한 알고리듬을 얻을 수 있을 것이다.
  • 유클리드 거리를 사용하면서 잡음 민감성을 줄일 수 있는 방법으로는 노이즈 클러스터링(noise clustering)[13]과 regularization[14]이 있다. 노이즈 클러스터링은 가상의 노이즈 클러스터를 도입하고 이 클러스터에 소속되는 정도를 잡음의 정도로 가정함으로써 잡음의 영향을 줄인다. 하지만 모든 데이터 포인트에서 동일한 거리에 존재하는 노이즈 클러스터의 가정은 종종 원하지 않는 결과를 가져오므로 다양한 변형이 제안되었음에도 최근 관련 연구는 드문 실정이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
계층적 클러스터링에는 어떠한 방법이 있는가? 이 중 대표적인 클러스터링 기법으로는 계층적 클러스터링 (hierarchical clustering)과 분할 기반 클러스터링 (partitional clustering)이 있다. 계층적 클러스터링은 클러스터의 계층 구조를 구성하는 방식으로 하나의 클러스터에서 시작해서 연속적으로 클러스터를 나누어 가는 하향식 (top-down) 방법과 하나의 데이터 포인트로 구성되는 N개의 클러스터에서 시작해서 클러스터를 뭉쳐 가는 상향식 (bottom-up) 방법이 있다. 이에 비해 분할 기반 클러스터링은 K개의 원형(prototype)을 설정하고 가장 가까운 원형에 데이터 포인트를 할당하는 과정을 반복함으로써 K개 원형을 찾아내는 방식이다.
분할 기반 클러스터링 기법 중 K-means이 hard clustering이라고도 불리는 이유는? 분할 기반 클러스터링 기법은 일반적으로 K-means[2]를그 시초로 생각한다. K-means는 주어진 K개 원형에 데이터 포인트가 속하는지의 여부를 속하거나 (1로 표현) 속하지 않는 (0으로 표현) 이산적인 값으로 나타내므로 hard clustering이라고도 불린다. 이러한 소속 여부 표시 방법은 클러스터들이 중첩되어 나타나거나 잡음이 첨가된 경우에는 대처하기 어려우므로 소속 정도를 연속적인 소속도 값으로 나타내는 fuzzy c-means(FCM)가 제안되었다.
분할 기반 클러스터링이란? 계층적 클러스터링은 클러스터의 계층 구조를 구성하는 방식으로 하나의 클러스터에서 시작해서 연속적으로 클러스터를 나누어 가는 하향식 (top-down) 방법과 하나의 데이터 포인트로 구성되는 N개의 클러스터에서 시작해서 클러스터를 뭉쳐 가는 상향식 (bottom-up) 방법이 있다. 이에 비해 분할 기반 클러스터링은 K개의 원형(prototype)을 설정하고 가장 가까운 원형에 데이터 포인트를 할당하는 과정을 반복함으로써 K개 원형을 찾아내는 방식이다. 계층적 클러스터링이 클러스터의 분할 또는 병합 과정에서 국부적인 정보만을 활용하는 단점이 있다면 분할 기반 클러스터링은 반복 최적화 알고리듬의 사용으로 연산량의 요구가 큰 단점이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (40)

  1. R. Xu and D. Wunsch, Clustering, Wiley-IEEE Press, 2008. 

  2. J. B. MacQueen, "Some methods for classification and analysis of multivariate observations," Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, pp. 281-297, 1967. 

  3. L. A. Zadeh, "Fuzzy sets," Information and Control vol. 8, no. 3, pp. 338-353, 1965. 

  4. E. H. Ruspini, "A new approach to clustering," Information and Control, vol. 16, pp. 22-32, 1969. 

  5. J. C. Dunn, "A fuzzy relative of the ISODATA process and its use in detecting compact well separated clusters," Journal of Cybernetics, pp. 32-57, 1974 

  6. J. C. Bezdek, Pattern Recognition with Fuzzy Objective Function Algorithms, Springer, 1981. 

  7. H. Frigui and R. Krishnapuram, "Clustering by competitive agglomeration," Pattern Recognition, vol. 30, no. 7, pp. 1109-1119, 1997. 

  8. Gyeongyong Heo, Young Woon Woo, "Extensions of X-means with Efficient Learning the Number of Clusters ," Journal of the KIMICS, Vol. 12, No. 4, pp. 772-780, 2008 

  9. G. Heo and P. Gader, "Learning the Number of Gaussian Components Using Hypothesis Test," Proceedings of the 2009 International Joint Conference on Neural Networks, pp. 1206-1212, 2009. 

  10. A. P. Dempster, N. M. Laird, and D. B. Rubin, "Maximum Likelihood from Incomplete Data via the EM Algorithm," Journal of the Royal Statistical Society, Series B, vol. 39, no. 1, pp. 1-38, 1977. 

  11. Z. Zhang, C. Chen, J. Sun, and K. L. Chan, "EM algorithms for Gaussian mixtures with split-and-merge operation," Pattern Recognition, vol. 36, no. 9, pp. 1973-1983, 2003. 

  12. Y. Li and L. Li, "A Novel Split and Merge EM Algorithm for Gaussian Mixture Model," Proceedings of the 5th International Conference on Natural Computation, pp. 479-483, 2009. 

  13. R. N. Dave, "Characterization and detection of noise in clustering," Pattern Recognition Letters, vol. 12, no. 11, pp. 657-664, 1991. 

  14. Y. Namkoong, G. Heo, and Y. W. Woo, "An Extension of Possibilistic Fuzzy C-Means with Regularization," Proceedings of the 2010 IEEE International Conference on Fuzzy Systems, pp. 696-701, 2010. 

  15. A. Tikhonov, "On solving incorrectly posed problems and method of regularization," Dokl. Acad. Nauk USSR, vol. 151, pp. 501-504, 1963. 

  16. G. Heo, P. Gader, and H. Frigui, "RKF-PCA: Robust Kernel Fuzzy PCA," Neural Networks, vol. 22, no. 5-6, pp. 642-650, 2009. 

  17. C. F. Lin and S. D. Wang, "Fuzzy support vector machines," IEEE Transactions on Neural Networks, vol. 13, no. 2, pp. 464-471, 2002. 

  18. P. J. Huber and E. M. Ronchetti, Robust Statistics, 2nd edition, Wiley, 2009. 

  19. R. Krishnapuram and J. M. Keller, "A Possibilistic Approach to Clustering," IEEE Transactions on Fuzzy Systems vol. 1, no. 2, pp. 98-110, 1993. 

  20. N. R. Pal, K. Pal, J. M. Keller and J. C. Bezdek, "A Possibilistic Fuzzy c-Means Clustering Algorithm," IEEE Transactions on Fuzzy Systems vol. 13, no. 4, pp. 517-530, 2005. 

  21. Gyeongyong Heo, Sewoon Choe, Young Woon Woo, " Improvement of the PFCM(Possibilistic Fuzzy C-Means) Clustering Method," Journal of the KIMICS, Vol. 13, No. 1, pp. 177-185, 2009. 

  22. B. Feil and J. Abonyi, "Geodesic Distance Based Fuzzy Clustering," Advances in Soft Computing, vol. 39/2007, pp. 50-59, 2007. 

  23. F. Fouss, A. Pirotte, J. M. Renders, and M. Saerens, "Random-walk computation of similarities between nodes of a graph with application to collaborative recommendation," IEEE Transactions on Knowledge and Data Engineering, vol. 19, no. 3, pp. 355-369, 2007. 

  24. B. Scholkopf and A. J. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press, Cambridge, MA, 2001. 

  25. M. Girolami, "Mercer kernel-based clustering in feature space," IEEE Transactions on Neural Networks, vol. 13, no. 3, pp. 780-784, 2002. 

  26. M. Filippone, F. Camastra, F. Masulli, and S. Rovetta, "A survey of kernel and spectral methods for clustering," Pattern Recognition, vol. 41, no. 1, pp. 176- 190, 2008. 

  27. J. Shi and J. Malik, "Normalized cuts and image segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 2, no. 8, pp. 888-905, 2000. 

  28. U. von Luxburg, "A tutorial on spectral clustering," Statistics and Computing, vol. 17, no. 4, pp. 395-416, 2007. 

  29. Gyeongyong Heo, Kwang-Baek Kim, Young Woon Woo, "Magnifying Block Diagonal Structure for Spectral Clustering ," Journal of Korea Multimedia Society, Vol. 11, No. 9, pp. 1302-1309, 2008 

  30. I. S. Dhillon, Y. Guan, and B. Kulis, "A unified view of kernel k-means, spectral clustering and graph cuts," Department of Computer Science, University of Texas, Tech. Rep. TR-04-25, 2005. 

  31. M. Garey, D. Johnson, and H. Witsenhausen, "The complexity of the generalized Lloyd-Max problem," IEEE Transactions on Information Theory, vol. 28, no. 2, pp. 255-256, 1982. 

  32. J. He, M. Lan, C. L. Tan, S. Y. Sung, and H. B. Low, "Initialization of cluster refinement algorithms: A review and comparative study," Proceedings of the 2004 IEEE International Joint Conference on Neural Networks, pp. 297-302, 2004. 

  33. A. Likas, N. Vlassis, and J. J. Verbeek, "The global k-means clustering algorithm," Pattern Recognition, vol. 36, pp. 451-461, 2003. 

  34. G. Heo and P. Gader, "An Extension of Global Fuzzy C-means Using Kernel Methods," Proceedings of the 2010 IEEE International Conference on Fuzzy Systems, pp. 690-695, 2010. 

  35. X. L. Xie and G. Beni, "A validity measure for fuzzy clustering," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 13, no. 8, pp. 841-847, 1991. 

  36. M. Meila, "Comparing clusterings - an information based distance," Journal of Multivariate Analysis, vol. 98, no. 5, pp. 873-895, 2007. 

  37. D. Pascual, F. Pla, and J. S. Sanchez, "Cluster validation using information stability measures," Pattern Recognition Letters, vol. 31, pp. 454-461, 2010. 

  38. Q. Deng, Y. Luo, and J. Ge, "Dual threshold based unsupervised face image clustering," Proceedings of the 2nd International Conference on Industrial Mechatronics and Automation, pp. 436-439, 2010. 

  39. D. Jiang, C. Tang, A. Zhang, "Cluster analysis for gene expression data: a survey," IEEE Transactions on Knowledge and Data Engineering, vol. 16, no. 11, pp. 1370-1386, 2004. 

  40. L. J. P. van der Maaten, E. O. Postma, and H. J. van den Herik, "Dimensionality Reduction: A Comparative Review," Tilburg University, Technical Report, TiCC-TR 2009-005, 2009. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로