고차원 데이터에서 클러스터를 찾아내는 문제는 그 중요성으로 인해 데이터 마이닝 분야에서 잘 알려져 있다. 클러스터 분석은 패턴 인식, 데이터 분석, 시장 분석 등의 여러 응용 분야에 광범위하게 사용되어지고 있다. 최근에 이 문제를 풀 수 있는 투영된 클러스터링이라는 새로운 방법론이 제기되었다. 이것은 먼저 각 후보 클러스터의 부분차원들을 선택하고 이를 근거로 한 거리 함수에 따라 가장 가까운 클러스터에 점이 배정된다. 우리는 고차원 데이터를 부분차원 클러스터링하는 새로운 알고리즘을 제안한다. 알고리즘의 주요한 세 부분은, $\circled1$적절한 개수의 점들을 갖는 여러 개의 후보 클러스터로 입력 점들을 분할하고, $\circled2$다음 단계에서 유용하지 않은 클러스터들을 제외하고, 그리고 $\circled3$선택된 클러스터들은 밀접도 함수를 사용하여 미리 정해진 개수의 클러스터들로 병합한다. 다른 클러스터링 알고리즘과 비교하여 제안된 알고리즘의 좋은 성능을 보여주기 위하여 많은 실험을 수행하였다.
고차원 데이터에서 클러스터를 찾아내는 문제는 그 중요성으로 인해 데이터 마이닝 분야에서 잘 알려져 있다. 클러스터 분석은 패턴 인식, 데이터 분석, 시장 분석 등의 여러 응용 분야에 광범위하게 사용되어지고 있다. 최근에 이 문제를 풀 수 있는 투영된 클러스터링이라는 새로운 방법론이 제기되었다. 이것은 먼저 각 후보 클러스터의 부분차원들을 선택하고 이를 근거로 한 거리 함수에 따라 가장 가까운 클러스터에 점이 배정된다. 우리는 고차원 데이터를 부분차원 클러스터링하는 새로운 알고리즘을 제안한다. 알고리즘의 주요한 세 부분은, $\circled1$적절한 개수의 점들을 갖는 여러 개의 후보 클러스터로 입력 점들을 분할하고, $\circled2$다음 단계에서 유용하지 않은 클러스터들을 제외하고, 그리고 $\circled3$선택된 클러스터들은 밀접도 함수를 사용하여 미리 정해진 개수의 클러스터들로 병합한다. 다른 클러스터링 알고리즘과 비교하여 제안된 알고리즘의 좋은 성능을 보여주기 위하여 많은 실험을 수행하였다.
The problem of finding clusters in high dimensional data is well known in the field of data mining for its importance, because cluster analysis has been widely used in numerous applications, including pattern recognition, data analysis, and market analysis. Recently, a new framework, projected clust...
The problem of finding clusters in high dimensional data is well known in the field of data mining for its importance, because cluster analysis has been widely used in numerous applications, including pattern recognition, data analysis, and market analysis. Recently, a new framework, projected clustering, to solve the problem was suggested, which first select subdimensions of each candidate cluster and then each input point is assigned to the nearest cluster according to a distance function based on the chosen subdimensions of the clusters. We propose a new algorithm for subdimensional clustering of high dimensional data, each of the three major steps of which partitions the input points into several candidate clutters with proper numbers of points, filters the clusters that can not be useful in the next steps, and then merges the remaining clusters into the predefined number of clusters using a closeness function, respectively. The result of extensive experiments shows that the proposed algorithm exhibits better performance than the other existent clustering algorithms.
The problem of finding clusters in high dimensional data is well known in the field of data mining for its importance, because cluster analysis has been widely used in numerous applications, including pattern recognition, data analysis, and market analysis. Recently, a new framework, projected clustering, to solve the problem was suggested, which first select subdimensions of each candidate cluster and then each input point is assigned to the nearest cluster according to a distance function based on the chosen subdimensions of the clusters. We propose a new algorithm for subdimensional clustering of high dimensional data, each of the three major steps of which partitions the input points into several candidate clutters with proper numbers of points, filters the clusters that can not be useful in the next steps, and then merges the remaining clusters into the predefined number of clusters using a closeness function, respectively. The result of extensive experiments shows that the proposed algorithm exhibits better performance than the other existent clustering algorithms.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나, 알고리즘 PROCLUS도 무작위로 선택되는 초기 medoidfdiscrete median or representative)들의 위치에 따라서 클러스터링 결과가 많이 달라질 수 있다. 그래서 내부반복 과정에서 클러스터링이 제대로 되지 않았다고 판단되는 소수의 점들을 포함하는 클러스터들의 대표값인 medoid 를 무작위로 교체하여 앞에서 설명한 취약점을 보완하려고 하며, Greedy 함수에서도 medoid의 후보들을 가능하면 이웃하지 않은 점들로 유지하려고 하였다. 그럼에도 불구하고, 알고리즘 PROCLUS는 초기 medoid 집합에 너무 종속적으로 영향을 받는 클러스터링 결과를 만들어내고 있다.
본 논문에서는 고차원 데이터를 저차원인 부분 차원으로 줄여서 데이터를 클러스터링하는 방법을 연구하였다. 데이터를 각 클러스터에 배정할 때, 전체 d차원으로 거리를 계산하는 것이 아니라 각 클러스터에 따라 다르게 선택된 부분 차원들만 고려된 거리를 계산하여 가까운 클러스터에 데이터를 배정하게 된다.
제안된 알고리즘 SUBCLUS(SUB dimensional CLUStering)는 분할 방식을 사용하는 알고리즘으로 비슷한 부류에 속하는 알고리즘인 PROCLUSI1]와 비교하여 특성들을 검토하였다. 본문에서는 부분차원을 찾아내어 클러스터링하는 알고리즘들의 특징과 문제점을 분석하여 효과적으로 고차원 데이터를 클러스터링하는 방안을 모색하였다. 클러스터링 알고리즘들의 결과 분석을 위해 입력클러스터와 출력 클러스터 사이의 관계를 나타내는 혼돈 행렬 (confusion matrix)을 기반으로 하는 우세 비율(dominant ratio)을 사용하여 클러스터링의 정확도를 측정하였다.
이 논문에서는 고차원 데이터를 클러스터링하는 알고리즘을 제안하였다. 제안된 알고리즘 SU用CLUS는 먼저 사용자가 원하는 개수의 클러스터들보다 몇 배 많은 클러스터들로 분할하고, 분할된 클러스터들의 점의 분포에 따라 표준 편차를 구하여 각 클러스터의 점들을 밀집하게 분포시키는 부분차원들을 선택하였다.
제안 방법
이 절과 다음 절에서 이러한 변수의 값을 설정하는 실험 결과에 대해 설명한다. 먼저 클러스터 여과 함수 FilterClusters의 지역 변수인 삭제 부분 비율 와 표준 편차 비율。, 城를 조정하였을 때 클러스터링의 결과에 어떠한 영향을 미치는지를 조사하여 값을 정하도록 하고, 다음 절에서 초기 분할하는 과정에서의 클러스터들의 개수인 %를 결정하는 변수 4에 대해서 실험을 수행한다. 이 절에서는 SUBCLUS의 변수를 k=&, 原; = 4, A = 16으로 두고, 초기 단계인 함수 Partition에서 THRESH- OLD의 값은 3으로 두어 실험결과를 얻었다.
SS를 사용한다. LS와 SS를 사용하여 각 클러스터의 점들이 각 차원에서 분포된 정도를 나타내는 표준 편차를 계산하여, 이 값을 기준으로 각 차원의 부분차원을 결정한다. (그림 5)는 이 함수를 설명하고 있다.
본 논문에서도 제안된 알고리즘의 성능을 평가하기 위해서 몇 개의 제한된 알고리즘을 실제 구현하여 그 성능을 측정하였다. PR0CLUSE1] 알고리즘을 구현하였고, 고유 벡터 (eigen vector)를 이용한 알고리즘인 ORCLUS(2)는 한 클러스터에서 일정한 개수의 부분차원들을 요구하고 있기에 비교 평가를 하지 않았다. 그리고, 대용량의 데이터를 클러스터링 하는 알고리즘인 CLARANSI13]와 널리 알려진 K-Means 알고리즘[기을 구현하여 SUBCLUS와 결과를 비교하였다.
다음과 같은 정확도와 성능을 측정하고자 하였다. ①입력 클러스터와 출력 클러스터에서 제대로 짝을 맞추는 정도의 정확도를 측정하였다. ②클러스터 여 과 함수에서 사용자가지 정하는 /部。와 %*의 값에 따라 클러스터링의 결과가 변하는 것을 분석하였다.
②클러스터 여 과 함수에서 사용자가지 정하는 /部。와 %*의 값에 따라 클러스터링의 결과가 변하는 것을 분석하였다. ③초기 분할 단계에서 클러스터의 개수에 따른 수행 성능을 분석하였다. ④앞의 분석을 기초로 하여 사용자가 정하는 변수 값을 결정한 후에, 알려진 다른 클러스터링 알고리즘들과 비교하였다.
③초기 분할 단계에서 클러스터의 개수에 따른 수행 성능을 분석하였다. ④앞의 분석을 기초로 하여 사용자가 정하는 변수 값을 결정한 후에, 알려진 다른 클러스터링 알고리즘들과 비교하였다. 그리고, 입력 데이터베이스 크기에 따른 실행 시간을 측정하여 알고리즘 SUBCLUS의실행 시간이 입력 데이터 개수에 선형적으로 비례한다는 것을 보여주었다.
이 단계는 두 개의 함수 호출로 이루어진다. 먼저 두 번째 단계에서 k개의 클러스터들을 병합한 결과를 넘겨받으면, 부분차원 찾기 함수에서 각 클러스터에 속한 점들의 분포를 나타내는 각 차원에서의 표준 편차를 계산하여 각 클러스터의 부분차원을 구한다. 그리고 두 번째 함수에서는 각 클러스터의 중심점과 부분차원에 따라 점들을 가까운 클러스터에 배정하게 된다.
PROCLUS는 medoid를 중심으로 가장 가까운 클러스터에 점을 배정하고, SUBCLUS는 중심점 (s’)을 기준으로 가장 가까운 클러스터에 점을 배정하는 차이점이 있다. 모든 점들을 가장 가까운 클러스터에 배정한 후에, Merge 함수에서 필요한 각 클러스터의 선형 합, 제곱 합, 그리고 중심점을 다시 계산한다.
제안된 알고리즘과 성능을 비교하기 위하여 기존의 알고리즘을 모두 비교하기란 쉽지 않다. 본 논문에서도 제안된 알고리즘의 성능을 평가하기 위해서 몇 개의 제한된 알고리즘을 실제 구현하여 그 성능을 측정하였다. PR0CLUSE1] 알고리즘을 구현하였고, 고유 벡터 (eigen vector)를 이용한 알고리즘인 ORCLUS(2)는 한 클러스터에서 일정한 개수의 부분차원들을 요구하고 있기에 비교 평가를 하지 않았다.
실험 데이터를 생성하기 위해서 I工I에서 제시된 방법으로 데이터를 만들었다.<표 1>은 입력 데이터의 하나의 예로 입력 클러스터와 각 클러스터의 부분차원과 소속된 점들의 개수를 보여주고 있다.
운영체제는 Windows XP Professional0]al, 사용된 언어는 MS Visual C++이다. 실험은 제안된 알고리즘인 SUBCLUS의 타당성과 자체 성능 평가에 주안점을 두었다. 다음과 같은 정확도와 성능을 측정하고자 하였다.
입력으로는 n개의 d 차원을 가진 점 (point)들이고, 사용자가 지정하는 변수는 원하는 클러스터들의 개수 k와 한 클러스터 당 평균적으로 투영된 차원들의 개수 A”이다. 이 알고리즘은 클러스터링의 방법론인 분할 방식과 계층 방식을 차례로 적용한 것으로, 먼저 점들을 여러 개의 클러스터들로 나눈 후에, 이들을 원하는 개수의 클러스터들로 병합하도록 하였다. (그림 2) 에구체적인 알고리즘이 설명되어 있다.
이 함수 각각이 전체 알고리즘에서 수행하는 시간 복잡도를 먼저 계산하고, 그 이후에 전체 알고리즘의 시간 복잡도를 분석한다. 함수 Partition의 시간 복잡도는 그림 4)에서 설명한 것과 같이 0(、, 사%, id、)로 나타낼 수 있고, 여기서 ne 입력 점들의 개수이고 如)는 초기 단계에서 분할하고자 하는 전체 클러스터의 개수이다.
이 함수로 인하여 전체 클러스터링 알고리즘의 수행 시간이 너무 늦어진다면 문제가 될 수 있다. 이를 해결하는 방안으로 일정한 회수 동안만 재할당과 중심점 찾기를 수행하도록 하여 입력 점들이 분할되는 효과를 보게 하여 제안된 알고리즘의 전체 실행 시간에 미치는 영향이 적어지도록 한다. (그림 4)에서 THRESHOLD의 값을 지정하여 일정한 회수의 loop을 수행하도록 하였고, 이 값은 대략 한자리 숫자에서 정하도록 한다.
데이터를 각 클러스터에 배정할 때, 전체 d차원으로 거리를 계산하는 것이 아니라 각 클러스터에 따라 다르게 선택된 부분 차원들만 고려된 거리를 계산하여 가까운 클러스터에 데이터를 배정하게 된다. 제안된 알고리즘 SUBCLUS(SUB dimensional CLUStering)는 분할 방식을 사용하는 알고리즘으로 비슷한 부류에 속하는 알고리즘인 PROCLUSI1]와 비교하여 특성들을 검토하였다. 본문에서는 부분차원을 찾아내어 클러스터링하는 알고리즘들의 특징과 문제점을 분석하여 효과적으로 고차원 데이터를 클러스터링하는 방안을 모색하였다.
제안하였다. 제안된 알고리즘 SU用CLUS는 먼저 사용자가 원하는 개수의 클러스터들보다 몇 배 많은 클러스터들로 분할하고, 분할된 클러스터들의 점의 분포에 따라 표준 편차를 구하여 각 클러스터의 점들을 밀집하게 분포시키는 부분차원들을 선택하였다. 각 클러스터의 부분 차원에 근거한 거리 함수를 계산하여 입력 점을 가장 가까운 클러스터에 배정하고, 그런 후에 작은 개수의 점들이 배정되었거나 선택된 부분차원들의 표준 편차가 상대적으로 큰 클러스터는 제외하였다.
제안된 알고리즘의 이름은 SUBCLUS라고 지었고, 고차원 데이터를 부분차원(SUBdimension)으로 투영하여 클러스터링 (CLUSteiing)하는 방법이다. 입력으로는 n개의 d 차원을 가진 점 (point)들이고, 사용자가 지정하는 변수는 원하는 클러스터들의 개수 k와 한 클러스터 당 평균적으로 투영된 차원들의 개수 A”이다.
본문에서는 부분차원을 찾아내어 클러스터링하는 알고리즘들의 특징과 문제점을 분석하여 효과적으로 고차원 데이터를 클러스터링하는 방안을 모색하였다. 클러스터링 알고리즘들의 결과 분석을 위해 입력클러스터와 출력 클러스터 사이의 관계를 나타내는 혼돈 행렬 (confusion matrix)을 기반으로 하는 우세 비율(dominant ratio)을 사용하여 클러스터링의 정확도를 측정하였다. 이러한 실험을 통해 제안된 알고리즘 SUBCLUS가 K-Means[7, 8], CLARANSC13], PROCLUS[1] 등의 알고리즘들에 비해 클러스터링의 결과가 우수함을 결과로 보여준다.
대상 데이터
실험은 1.8GHz Pentium4 CPU, 1GB 주메모리, 그리고 32GB SCSI Hard Disk를 가진 PC에서 이루어졌다. 운영체제는 Windows XP Professional0]al, 사용된 언어는 MS Visual C++이다.
데이터처리
PR0CLUSE1] 알고리즘을 구현하였고, 고유 벡터 (eigen vector)를 이용한 알고리즘인 ORCLUS(2)는 한 클러스터에서 일정한 개수의 부분차원들을 요구하고 있기에 비교 평가를 하지 않았다. 그리고, 대용량의 데이터를 클러스터링 하는 알고리즘인 CLARANSI13]와 널리 알려진 K-Means 알고리즘[기을 구현하여 SUBCLUS와 결과를 비교하였다.
실험 데이터를 생성하여 제안된 알고리즘의 성능을 측정하였다. 실험은 1.
이 그림은 클러스터 여과 함수의 두 지역 변수의 값을 미리 결정하기 위한 실험 결과이다. 표준편차 비율은 1.0에서 8.0까지 변화시키고 삭제 부분 비율은 0.2, 0.1, 0.05, 0.025로 변화시켰을 때 알고리즘 SUBCLUS 의 클러스터링 결과에 대한 우세 비율을 얻었다. 이 그림에서 알 수 있는 것은 SUBCLUS의 클러스터링 결과가 두 변수에 상당히 민감한 것을 보여주고 있다.
이론/모형
CHAMELEONHO]에서는 그래프 이론을 적용하여 근접성에 근거하여 점들을 분할한다. 여기서는 클러스터링의 분할 방식 중의 하나인 K-Means 알고리즘을 이용하고 있다. 클러스터 C, 의 중심점 (centroid)을계산하는 방법은 &= S 力c/t이다.
이런 일련의 과정이 원하는 개수의 클러스터들이 남을 때까지 반복된다. 클러스터 링 알고리즘의 성능은 입력 클러스터와 출력 클러스터의 사이의 점의 분포를 표시하는 혼돈 행렬(confusion matrix)을 사용하여 우세 비율(dominant ratio)로 계산하였다. 실험 데이터에서는 SUBCLUS가 기존의 알고리즘인 K-Means, CLARANS, 그리고 PROCLUS에 비해 실행 시간이나 우세 비율에서 성능이 좋음을 보여주었다.
클러스터링의 정확도를 평가하기 위하여 혼돈 행렬(confusion matrix)을 사용하였다[1, 2].<표 1>의 입력 데이터에 대한 PROCLUSE1] 알고리즘의 결과는<표 2>의 혼돈행렬로 표시하였다.
성능/효과
④앞의 분석을 기초로 하여 사용자가 정하는 변수 값을 결정한 후에, 알려진 다른 클러스터링 알고리즘들과 비교하였다. 그리고, 입력 데이터베이스 크기에 따른 실행 시간을 측정하여 알고리즘 SUBCLUS의실행 시간이 입력 데이터 개수에 선형적으로 비례한다는 것을 보여주었다.
클러스터 링 알고리즘의 성능은 입력 클러스터와 출력 클러스터의 사이의 점의 분포를 표시하는 혼돈 행렬(confusion matrix)을 사용하여 우세 비율(dominant ratio)로 계산하였다. 실험 데이터에서는 SUBCLUS가 기존의 알고리즘인 K-Means, CLARANS, 그리고 PROCLUS에 비해 실행 시간이나 우세 비율에서 성능이 좋음을 보여주었다. 다음과 같은 사항이 이루어지면 고차원 데이터를 효과적으로 클러스터링하는 보다 좋은 알고리즘이 되리라 여겨진다.
<표 5>는 (그림 10)의 실행 시간을 측정할 때 클러스터링 결과의 우세 비율을 보여주고 있다.<표 3> 에서의 결과에서 예측할 수 있듯이, 4를 8로 두면 실행 시간은 거의 절반으로 줄어드는 대신 우세 비율이 조금 떨어지지만 PROCLUS의 클러스터링 결과보다는 우수하다는 것을 보여주고 있다.
앞의 K-Means 방법에 비해 소규모의 클러스터들이 균일하게 퍼져있지 않을 수도 있어서 다음 단계의 클러스터링에 나쁜 영향을 미치게 된다. 이 분할 단계에서의 결과는 知개의 클러스터들이 균일하게 퍼져 있도록 하고, 그리고 각 클러스터에 속한 점들의 개수도 같아지도록 하는 것이 효과적이다. 분할 함수로 사용하는 K-Means 알고리즘의 시간 복잡도는 CKmknM인 것은 (그림 4)에서 repeat- loop이 m번 수행하는 것을 의미하고, 이것은 점들의 재할당과 중심점을 구하는 단계를 m번 수행하는 것이다.
클러스터링 알고리즘들의 결과 분석을 위해 입력클러스터와 출력 클러스터 사이의 관계를 나타내는 혼돈 행렬 (confusion matrix)을 기반으로 하는 우세 비율(dominant ratio)을 사용하여 클러스터링의 정확도를 측정하였다. 이러한 실험을 통해 제안된 알고리즘 SUBCLUS가 K-Means[7, 8], CLARANSC13], PROCLUS[1] 등의 알고리즘들에 비해 클러스터링의 결과가 우수함을 결과로 보여준다.
PRO- CLUS는 고차원 데이터를 클러스터링하는 과정에서 각 클러스터에 관련된 부분차원을 선택하여 클러스터링하는 알고리즘으로 CLARANS와 K-Means에 비해 좋은 클러스터링 결과를 얻고 있다. 제안된 SUBCLUS는 PROCLUS에 비해서 우세 비율이 높고 실행 시간이 더 작음을 이 표에서 알 수 있다. 두 알고리즘의 실험 결과 비교는 다음 절에서 상세히 설명한다.
후속연구
다음과 같은 사항이 이루어지면 고차원 데이터를 효과적으로 클러스터링하는 보다 좋은 알고리즘이 되리라 여겨진다. 알고리즘 SUBCLUS의 초기 단계인 분할 과정에서 각 클러스터들이 일정한 개수의 점들을 가지게 하는 분할 함수, 각 클러스터에서 데이터의 분포가 밀집된 부분 차원을 선택하는 과정, 그리고, 두 클러스터 사이의 밀접한 정도를 계산하는 함수를 개선하는 연구가 필요하다. 또한 알고리즘들의 성능 평가에서 실제 데이터를 기반으로 한 실험 결과가 요구된다.
참고문헌 (17)
C. C. Aggarwal, C. Procopiuc, J. L. Wolf, P. S. Yu and J. S. Park, 'Fast Algorithms for Projected Clustering,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, PP.61-72, 1999
C. C. Aggarwal and P. S. Yu, 'Finding generalized projected clusters in high dimensional spaces,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.70-81, 2000
C. C. Aggarwal and P. S. Yu, 'Finding generalized projected clusters in high dimensional spaces,' IEEE TKDE, Vol.14, No.2, pp.210-225, 2002
R. Agrawal, J. Gehrke, D. Gunopulos, P. Raghavan, 'Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.94-105, 1998
M. Ankerst, M. M. Breunig, H.-P. Kriegel and J. Sander, 'OPTICS : Ordering Points to Identify the Clustering Structure,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.49-60, 1999
M. Ester, H. P. Kriegel, J. Sander and X. Xu, 'A density based algorithm for discovering clusters in large databases,' In Proceedings of 1996 International Conference on Knowledge Discovery and Data Mining(KDD'96), pp.226-231, 1996
S. Guha, R. Rastogi and K. Shim, 'CURE: An Efficient Clustering Algorithm for Large Databases,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.73-84, 1998
J. Han and M. Kamber, Data Mining : Concepts and Techniques, Morgan Kaufmann Publishers, San Francisco, CA, 2001
A. Hinneburg and D. Keim, 'Optimal Grid-Clustering : Towards Breaking the Curse of Dimensionality in High-Dimensional Clustering,' In Proceedings of the 25th VLDB Conference, pp.506-517, 1999
A. K. Jain, M. N. Murty and P. J. Flynn, 'Data Clustering : A Review,' ACM Computing Surveys, Vol.31, No.3, pp.264-323, 1999
R. Kohavi and D. Sommerfield, 'Feature Subset Selection Using the Wrapper Method : Overfitting and Dynamic Search Space Topology,' In Proceedings of the First International Conference on Knowledge Discovery and Data Mining, 1995
H. Liu and H. Motoda, Feature Extraction, Construction and Selection : A Data Mining Perspective, Kluwer Academic Publishers, Boston, 1998
R. Ng and J. Han, 'Efficient and Effective Clustering Methods for Spatial Data Mining,' In Proceedings of the 20th VLDB Conference, pp.144-155, 1994
R. Ng and J. Han, 'Efficient and Effective Clustering Methods for Spatial Data Mining,' IEEE TKDE Vol.14, No.5, pp.1003-1016, 2002
C. M. Procopiuc, M. Jones, P. K. Agarwal and T. M. Murali, 'A Monte Carlo Algorithm for Fast Projective Clustering,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.418-427, 2002
T. Zhang, R. Ramakrishnan and M. Linvy, 'BIRCH : An Efficient Data Clustering Method for Large Databases,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.103-114, 1996
※ AI-Helper는 부적절한 답변을 할 수 있습니다.