[논문]고차원 데이터를 부분차원 클러스터링하는 효과적인 알고리즘

박종수; 김도형

doi:10.3745/kipstd.2003.10d.3.417

문제 정의

그러나, 알고리즘 PROCLUS도 무작위로 선택되는 초기 medoidfdiscrete median or representative)들의 위치에 따라서 클러스터링 결과가 많이 달라질 수 있다. 그래서 내부반복 과정에서 클러스터링이 제대로 되지 않았다고 판단되는 소수의 점들을 포함하는 클러스터들의 대표값인 medoid 를 무작위로 교체하여 앞에서 설명한 취약점을 보완하려고 하며, Greedy 함수에서도 medoid의 후보들을 가능하면 이웃하지 않은 점들로 유지하려고 하였다. 그럼에도 불구하고, 알고리즘 PROCLUS는 초기 medoid 집합에 너무 종속적으로 영향을 받는 클러스터링 결과를 만들어내고 있다.
본 논문에서는 고차원 데이터를 저차원인 부분 차원으로 줄여서 데이터를 클러스터링하는 방법을 연구하였다. 데이터를 각 클러스터에 배정할 때, 전체 d차원으로 거리를 계산하는 것이 아니라 각 클러스터에 따라 다르게 선택된 부분 차원들만 고려된 거리를 계산하여 가까운 클러스터에 데이터를 배정하게 된다.
제안된 알고리즘 SUBCLUS(SUB dimensional CLUStering)는 분할 방식을 사용하는 알고리즘으로 비슷한 부류에 속하는 알고리즘인 PROCLUSI1]와 비교하여 특성들을 검토하였다. 본문에서는 부분차원을 찾아내어 클러스터링하는 알고리즘들의 특징과 문제점을 분석하여 효과적으로 고차원 데이터를 클러스터링하는 방안을 모색하였다. 클러스터링 알고리즘들의 결과 분석을 위해 입력클러스터와 출력 클러스터 사이의 관계를 나타내는 혼돈 행렬 (confusion matrix)을 기반으로 하는 우세 비율(dominant ratio)을 사용하여 클러스터링의 정확도를 측정하였다.
이 논문에서는 고차원 데이터를 클러스터링하는 알고리즘을 제안하였다. 제안된 알고리즘 SU用CLUS는 먼저 사용자가 원하는 개수의 클러스터들보다 몇 배 많은 클러스터들로 분할하고, 분할된 클러스터들의 점의 분포에 따라 표준 편차를 구하여 각 클러스터의 점들을 밀집하게 분포시키는 부분차원들을 선택하였다.

제안 방법

이 절과 다음 절에서 이러한 변수의 값을 설정하는 실험 결과에 대해 설명한다. 먼저 클러스터 여과 함수 FilterClusters의 지역 변수인 삭제 부분 비율 와 표준 편차 비율。, 城를 조정하였을 때 클러스터링의 결과에 어떠한 영향을 미치는지를 조사하여 값을 정하도록 하고, 다음 절에서 초기 분할하는 과정에서의 클러스터들의 개수인 %를 결정하는 변수 4에 대해서 실험을 수행한다. 이 절에서는 SUBCLUS의 변수를 k=&, 原; = 4, A = 16으로 두고, 초기 단계인 함수 Partition에서 THRESH- OLD의 값은 3으로 두어 실험결과를 얻었다.
SS를 사용한다. LS와 SS를 사용하여 각 클러스터의 점들이 각 차원에서 분포된 정도를 나타내는 표준 편차를 계산하여, 이 값을 기준으로 각 차원의 부분차원을 결정한다. (그림 5)는 이 함수를 설명하고 있다.
본 논문에서도 제안된 알고리즘의 성능을 평가하기 위해서 몇 개의 제한된 알고리즘을 실제 구현하여 그 성능을 측정하였다. PR0CLUSE1] 알고리즘을 구현하였고, 고유 벡터 (eigen vector)를 이용한 알고리즘인 ORCLUS(2)는 한 클러스터에서 일정한 개수의 부분차원들을 요구하고 있기에 비교 평가를 하지 않았다. 그리고, 대용량의 데이터를 클러스터링 하는 알고리즘인 CLARANSI13]와 널리 알려진 K-Means 알고리즘[기을 구현하여 SUBCLUS와 결과를 비교하였다.
다음과 같은 정확도와 성능을 측정하고자 하였다. ①입력 클러스터와 출력 클러스터에서 제대로 짝을 맞추는 정도의 정확도를 측정하였다. ②클러스터 여 과 함수에서 사용자가지 정하는 /部。와 %*의 값에 따라 클러스터링의 결과가 변하는 것을 분석하였다.
②클러스터 여 과 함수에서 사용자가지 정하는 /部。와 %*의 값에 따라 클러스터링의 결과가 변하는 것을 분석하였다. ③초기 분할 단계에서 클러스터의 개수에 따른 수행 성능을 분석하였다. ④앞의 분석을 기초로 하여 사용자가 정하는 변수 값을 결정한 후에, 알려진 다른 클러스터링 알고리즘들과 비교하였다.
③초기 분할 단계에서 클러스터의 개수에 따른 수행 성능을 분석하였다. ④앞의 분석을 기초로 하여 사용자가 정하는 변수 값을 결정한 후에, 알려진 다른 클러스터링 알고리즘들과 비교하였다. 그리고, 입력 데이터베이스 크기에 따른 실행 시간을 측정하여 알고리즘 SUBCLUS의실행 시간이 입력 데이터 개수에 선형적으로 비례한다는 것을 보여주었다.
이 단계는 두 개의 함수 호출로 이루어진다. 먼저 두 번째 단계에서 k개의 클러스터들을 병합한 결과를 넘겨받으면, 부분차원 찾기 함수에서 각 클러스터에 속한 점들의 분포를 나타내는 각 차원에서의 표준 편차를 계산하여 각 클러스터의 부분차원을 구한다. 그리고 두 번째 함수에서는 각 클러스터의 중심점과 부분차원에 따라 점들을 가까운 클러스터에 배정하게 된다.
PROCLUS는 medoid를 중심으로 가장 가까운 클러스터에 점을 배정하고, SUBCLUS는 중심점 (s’)을 기준으로 가장 가까운 클러스터에 점을 배정하는 차이점이 있다. 모든 점들을 가장 가까운 클러스터에 배정한 후에, Merge 함수에서 필요한 각 클러스터의 선형 합, 제곱 합, 그리고 중심점을 다시 계산한다.
제안된 알고리즘과 성능을 비교하기 위하여 기존의 알고리즘을 모두 비교하기란 쉽지 않다. 본 논문에서도 제안된 알고리즘의 성능을 평가하기 위해서 몇 개의 제한된 알고리즘을 실제 구현하여 그 성능을 측정하였다. PR0CLUSE1] 알고리즘을 구현하였고, 고유 벡터 (eigen vector)를 이용한 알고리즘인 ORCLUS(2)는 한 클러스터에서 일정한 개수의 부분차원들을 요구하고 있기에 비교 평가를 하지 않았다.
실험 데이터를 생성하기 위해서 I工I에서 제시된 방법으로 데이터를 만들었다.<표 1>은 입력 데이터의 하나의 예로 입력 클러스터와 각 클러스터의 부분차원과 소속된 점들의 개수를 보여주고 있다.
운영체제는 Windows XP Professional0]al, 사용된 언어는 MS Visual C++이다. 실험은 제안된 알고리즘인 SUBCLUS의 타당성과 자체 성능 평가에 주안점을 두었다. 다음과 같은 정확도와 성능을 측정하고자 하였다.
입력으로는 n개의 d 차원을 가진 점 (point)들이고, 사용자가 지정하는 변수는 원하는 클러스터들의 개수 k와 한 클러스터 당 평균적으로 투영된 차원들의 개수 A”이다. 이 알고리즘은 클러스터링의 방법론인 분할 방식과 계층 방식을 차례로 적용한 것으로, 먼저 점들을 여러 개의 클러스터들로 나눈 후에, 이들을 원하는 개수의 클러스터들로 병합하도록 하였다. (그림 2) 에구체적인 알고리즘이 설명되어 있다.
이 함수 각각이 전체 알고리즘에서 수행하는 시간 복잡도를 먼저 계산하고, 그 이후에 전체 알고리즘의 시간 복잡도를 분석한다. 함수 Partition의 시간 복잡도는 그림 4)에서 설명한 것과 같이 0(、, 사%, id、)로 나타낼 수 있고, 여기서 ne 입력 점들의 개수이고 如)는 초기 단계에서 분할하고자 하는 전체 클러스터의 개수이다.
이 함수로 인하여 전체 클러스터링 알고리즘의 수행 시간이 너무 늦어진다면 문제가 될 수 있다. 이를 해결하는 방안으로 일정한 회수 동안만 재할당과 중심점 찾기를 수행하도록 하여 입력 점들이 분할되는 효과를 보게 하여 제안된 알고리즘의 전체 실행 시간에 미치는 영향이 적어지도록 한다. (그림 4)에서 THRESHOLD의 값을 지정하여 일정한 회수의 loop을 수행하도록 하였고, 이 값은 대략 한자리 숫자에서 정하도록 한다.
데이터를 각 클러스터에 배정할 때, 전체 d차원으로 거리를 계산하는 것이 아니라 각 클러스터에 따라 다르게 선택된 부분 차원들만 고려된 거리를 계산하여 가까운 클러스터에 데이터를 배정하게 된다. 제안된 알고리즘 SUBCLUS(SUB dimensional CLUStering)는 분할 방식을 사용하는 알고리즘으로 비슷한 부류에 속하는 알고리즘인 PROCLUSI1]와 비교하여 특성들을 검토하였다. 본문에서는 부분차원을 찾아내어 클러스터링하는 알고리즘들의 특징과 문제점을 분석하여 효과적으로 고차원 데이터를 클러스터링하는 방안을 모색하였다.
제안하였다. 제안된 알고리즘 SU用CLUS는 먼저 사용자가 원하는 개수의 클러스터들보다 몇 배 많은 클러스터들로 분할하고, 분할된 클러스터들의 점의 분포에 따라 표준 편차를 구하여 각 클러스터의 점들을 밀집하게 분포시키는 부분차원들을 선택하였다. 각 클러스터의 부분 차원에 근거한 거리 함수를 계산하여 입력 점을 가장 가까운 클러스터에 배정하고, 그런 후에 작은 개수의 점들이 배정되었거나 선택된 부분차원들의 표준 편차가 상대적으로 큰 클러스터는 제외하였다.
제안된 알고리즘의 이름은 SUBCLUS라고 지었고, 고차원 데이터를 부분차원(SUBdimension)으로 투영하여 클러스터링 (CLUSteiing)하는 방법이다. 입력으로는 n개의 d 차원을 가진 점 (point)들이고, 사용자가 지정하는 변수는 원하는 클러스터들의 개수 k와 한 클러스터 당 평균적으로 투영된 차원들의 개수 A”이다.
본문에서는 부분차원을 찾아내어 클러스터링하는 알고리즘들의 특징과 문제점을 분석하여 효과적으로 고차원 데이터를 클러스터링하는 방안을 모색하였다. 클러스터링 알고리즘들의 결과 분석을 위해 입력클러스터와 출력 클러스터 사이의 관계를 나타내는 혼돈 행렬 (confusion matrix)을 기반으로 하는 우세 비율(dominant ratio)을 사용하여 클러스터링의 정확도를 측정하였다. 이러한 실험을 통해 제안된 알고리즘 SUBCLUS가 K-Means[7, 8], CLARANSC₁₃], PROCLUS[1] 등의 알고리즘들에 비해 클러스터링의 결과가 우수함을 결과로 보여준다.

대상 데이터

실험은 1.8GHz Pentium4 CPU, 1GB 주메모리, 그리고 32GB SCSI Hard Disk를 가진 PC에서 이루어졌다. 운영체제는 Windows XP Professional0]al, 사용된 언어는 MS Visual C++이다.

데이터처리

PR0CLUSE1] 알고리즘을 구현하였고, 고유 벡터 (eigen vector)를 이용한 알고리즘인 ORCLUS(2)는 한 클러스터에서 일정한 개수의 부분차원들을 요구하고 있기에 비교 평가를 하지 않았다. 그리고, 대용량의 데이터를 클러스터링 하는 알고리즘인 CLARANSI13]와 널리 알려진 K-Means 알고리즘[기을 구현하여 SUBCLUS와 결과를 비교하였다.
실험 데이터를 생성하여 제안된 알고리즘의 성능을 측정하였다. 실험은 1.
이 그림은 클러스터 여과 함수의 두 지역 변수의 값을 미리 결정하기 위한 실험 결과이다. 표준편차 비율은 1.0에서 8.0까지 변화시키고 삭제 부분 비율은 0.2, 0.1, 0.05, 0.025로 변화시켰을 때 알고리즘 SUBCLUS 의 클러스터링 결과에 대한 우세 비율을 얻었다. 이 그림에서 알 수 있는 것은 SUBCLUS의 클러스터링 결과가 두 변수에 상당히 민감한 것을 보여주고 있다.

이론/모형

CHAMELEONHO]에서는 그래프 이론을 적용하여 근접성에 근거하여 점들을 분할한다. 여기서는 클러스터링의 분할 방식 중의 하나인 K-Means 알고리즘을 이용하고 있다. 클러스터 C, 의 중심점 (centroid)을계산하는 방법은 &= S 力c/t이다.
이런 일련의 과정이 원하는 개수의 클러스터들이 남을 때까지 반복된다. 클러스터 링 알고리즘의 성능은 입력 클러스터와 출력 클러스터의 사이의 점의 분포를 표시하는 혼돈 행렬(confusion matrix)을 사용하여 우세 비율(dominant ratio)로 계산하였다. 실험 데이터에서는 SUBCLUS가 기존의 알고리즘인 K-Means, CLARANS, 그리고 PROCLUS에 비해 실행 시간이나 우세 비율에서 성능이 좋음을 보여주었다.
클러스터링의 정확도를 평가하기 위하여 혼돈 행렬(confusion matrix)을 사용하였다[1, 2].<표 1>의 입력 데이터에 대한 PROCLUSE1] 알고리즘의 결과는<표 2>의 혼돈행렬로 표시하였다.

성능/효과

④앞의 분석을 기초로 하여 사용자가 정하는 변수 값을 결정한 후에, 알려진 다른 클러스터링 알고리즘들과 비교하였다. 그리고, 입력 데이터베이스 크기에 따른 실행 시간을 측정하여 알고리즘 SUBCLUS의실행 시간이 입력 데이터 개수에 선형적으로 비례한다는 것을 보여주었다.
클러스터 링 알고리즘의 성능은 입력 클러스터와 출력 클러스터의 사이의 점의 분포를 표시하는 혼돈 행렬(confusion matrix)을 사용하여 우세 비율(dominant ratio)로 계산하였다. 실험 데이터에서는 SUBCLUS가 기존의 알고리즘인 K-Means, CLARANS, 그리고 PROCLUS에 비해 실행 시간이나 우세 비율에서 성능이 좋음을 보여주었다. 다음과 같은 사항이 이루어지면 고차원 데이터를 효과적으로 클러스터링하는 보다 좋은 알고리즘이 되리라 여겨진다.
<표 5>는 (그림 10)의 실행 시간을 측정할 때 클러스터링 결과의 우세 비율을 보여주고 있다.<표 3> 에서의 결과에서 예측할 수 있듯이, 4를 8로 두면 실행 시간은 거의 절반으로 줄어드는 대신 우세 비율이 조금 떨어지지만 PROCLUS의 클러스터링 결과보다는 우수하다는 것을 보여주고 있다.
앞의 K-Means 방법에 비해 소규모의 클러스터들이 균일하게 퍼져있지 않을 수도 있어서 다음 단계의 클러스터링에 나쁜 영향을 미치게 된다. 이 분할 단계에서의 결과는 知개의 클러스터들이 균일하게 퍼져 있도록 하고, 그리고 각 클러스터에 속한 점들의 개수도 같아지도록 하는 것이 효과적이다. 분할 함수로 사용하는 K-Means 알고리즘의 시간 복잡도는 CKmknM인 것은 (그림 4)에서 repeat- loop이 m번 수행하는 것을 의미하고, 이것은 점들의 재할당과 중심점을 구하는 단계를 m번 수행하는 것이다.
클러스터링 알고리즘들의 결과 분석을 위해 입력클러스터와 출력 클러스터 사이의 관계를 나타내는 혼돈 행렬 (confusion matrix)을 기반으로 하는 우세 비율(dominant ratio)을 사용하여 클러스터링의 정확도를 측정하였다. 이러한 실험을 통해 제안된 알고리즘 SUBCLUS가 K-Means[7, 8], CLARANSC₁₃], PROCLUS[1] 등의 알고리즘들에 비해 클러스터링의 결과가 우수함을 결과로 보여준다.
PRO- CLUS는 고차원 데이터를 클러스터링하는 과정에서 각 클러스터에 관련된 부분차원을 선택하여 클러스터링하는 알고리즘으로 CLARANS와 K-Means에 비해 좋은 클러스터링 결과를 얻고 있다. 제안된 SUBCLUS는 PROCLUS에 비해서 우세 비율이 높고 실행 시간이 더 작음을 이 표에서 알 수 있다. 두 알고리즘의 실험 결과 비교는 다음 절에서 상세히 설명한다.

후속연구

다음과 같은 사항이 이루어지면 고차원 데이터를 효과적으로 클러스터링하는 보다 좋은 알고리즘이 되리라 여겨진다. 알고리즘 SUBCLUS의 초기 단계인 분할 과정에서 각 클러스터들이 일정한 개수의 점들을 가지게 하는 분할 함수, 각 클러스터에서 데이터의 분포가 밀집된 부분 차원을 선택하는 과정, 그리고, 두 클러스터 사이의 밀접한 정도를 계산하는 함수를 개선하는 연구가 필요하다. 또한 알고리즘들의 성능 평가에서 실제 데이터를 기반으로 한 실험 결과가 요구된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

고차원 데이터를 부분차원 클러스터링하는 효과적인 알고리즘
An Effective Algorithm for Subdimensional Clustering of High Dimensional Data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

고차원 데이터를 부분차원 클러스터링하는 효과적인 알고리즘 An Effective Algorithm for Subdimensional Clustering of High Dimensional Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

박종수 (24)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

고차원 데이터를 부분차원 클러스터링하는 효과적인 알고리즘
An Effective Algorithm for Subdimensional Clustering of High Dimensional Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper