[논문]연관 태그의 군집화를 위한 클러스터링 기법 비교 연구

한승희

doi:10.4275/kslis.2009.43.3.399

연관 태그의 군집화를 위한 클러스터링 기법 비교 연구
A Comparative Study on Clustering Methods for Grouping Related Tags 원문보기

한국문헌정보학회지 = Journal of the Korean Society for Library and Information Science, v.43 no.3, 2009년, pp.399 - 416

초록
AI-Helper

본 연구에서는 태그 공간에서 정보의 효율적 탐색을 위해 이용자에게 제공될 수 있는 연관 태그 클러스터의 생성을 위해 다양한 유사계수와 클러스터링 기법을 적용한 후 그 결과를 평가하고 비교 분석함으로써 연관 태그의 클러스터링에 가장 적합한 클러스터링 알고리즘을 확인하고자 하였다. Delicious에서 임의의 태그 10개를 대상으로 각각 300개의 문서에서 추출한 연관 태그를 대상으로 태그쌍 간의 연관성을 측정한 후 계층적 기법과 비계층적 기법을 적용하여 생성된 클러스터를 대상으로 클러스터 적합도를 측정한 결과, 일반적으로 용어 클러스터링에서 널리 활용되는 것으로 알려진 워드 기법이 코사인 유사계수와 결합했을 때 거의 모든 실험 대상에 대해 유사한 경향을 보이면서 가장 우수한 성능을 나타내는 것으로 나타났다. 연관 태그 클러스터는 정보관리 측면에서 유사한 합목적성을 갖는 태그끼리 군집을 이루면서 용어의 중의성을 해소함으로써 태그 공간에서의 이용자의 정보 탐색에 유용하게 활용될 것이다.

Abstract ▼ AI-Helper

In this study, clustering methods with related tags were discussed for improving search and exploration in the tag space. The experiments were performed on 10 Delicious tags and the strongly-related tags extracted by each 300 documents, and hierarchical and non-hierarchical clustering methods were carried out based on the tag co-occurrences. To evaluate the experimental results, cluster relevance was measured. Results showed that Ward's method with cosine coefficient, which shows good performance to term clustering, was best performed with consistent clustering tendency. Furthermore, it was analyzed that cluster membership among related tags is based on users' tagging purposes or interest and can disambiguate word sense. Therefore, tag clusters would be helpful for improving search and exploration in the tag space.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러므로 이 연구에서는 앞에서 언급한 가정을 근거로 이 실험에서는 주제적으로 연관성 있는 태그들을 군집화하는 클러스터링 기법의 효과를 측정하기 위해서 다양한 조건에서 생성된 클러스터링 결과를 대상으로 연구자가 직접 클러스터 적합도를 측정하였으며, 그 공식은 다음과 같다(한승희 2004).
본 연구에서는 태그 공간에서의 효율적인 정보 탐색을 위해 연관 태그를 이용자에게 효과적으로 제공하기 위한 방법중 클러스터링 기법을 제안하고, 연관 태그의 클러스터 생성에 가장 적합한 기법을 확인하기 위해 다양한 클러스터링 기법을 적용한 후, 그 결과를 평가하여 비교·분석하고자 하였다.
이 연구에서는, 태그 공간에서의 효율적인 정보 탐색을 위해 연관 태그를 이용자에게 효과적으로 제공하기 위한 방법 중 클러스터링 기법을 제안하고, 연관 태그의 클러스터 생성에 가장 적합한 기법을 확인하기 위해 다양한 클러스터링 기법을 적용한 후, 그 결과를 평가하여 비교·분석하고자 한다.
태그 검색이 갖고 있는 문제점을 해결하기 위해 일부의 서비스에서 연관 태그(related tags)를 이용자에게 제공함으로써 태그 공간에서의 탐색의 효율성을 높이고자 하였다. 예를 들어, Delicious에서는 <그림 1>과 같이 특정 태그와 연관이 있는 태그들을 이용자에게 제공함으로써 이용자가 연관된 개념에 대해서도 정보를 탐색할 수 있도록 돕고 있다.

제안 방법

각 실험집단 별 생성된 클러스터의 수는 휴리스틱을 이용하여 결정하였고, 그 결과 태그 별로 4~7개의 연관 태그 클러스터를 생성하였다. <표 2>에서 보는 바와 같이 생성된 클러스터 수의 평균은 6.
그러나 본 연구에서는 태그 공간의 효율적 탐색을 위해 연관 태그 클러스터의 형성에 어떠한 클러스터링 기법이 가장 효율적인가를 확인하기 위해 여러 클러스터링 기법을 비교하였으며, 이를 위해,와 같이 (1) 태그 수집, (2) 연관 태그 추출을 위한 태그 전처리, (3) 태그쌍 간 연관성 측정, (4)태그 클러스터링의 네 단계의 과정을 거쳐 실험 결과를 획득하였다.
또한 한 클러스터에 두 개 이상의 주제가 함께 나타날 경우에는 더 많은 용어를 포함하는 주제를 클러스터의 대표 주제로 삼고 이를 기준으로 적합도를 평가하였다. 또한 한 개의 태그가 한 클러스터를 형성하고 있는 경우에는 적합하지 않은 것으로 평가하였다.
클러스터에 포함된 태그들이 서로 주제적으로 연관성이 없는 경우에는 임의의 한 개 태그만 클러스터의 대표 주제에 적합하다고 간주하였다. 또한 한 클러스터에 두 개 이상의 주제가 함께 나타날 경우에는 더 많은 용어를 포함하는 주제를 클러스터의 대표 주제로 삼고 이를 기준으로 적합도를 평가하였다. 또한 한 개의 태그가 한 클러스터를 형성하고 있는 경우에는 적합하지 않은 것으로 평가하였다.
수집된 태그 데이터 중 선정된 10개의 태그와 밀접하게 연관되어 있는 태그만을 추출하여 실험하기 위해 동시출현빈도가 10 이상인 태그만을 추출하였다. 동시출현빈도가 10 이상인 태그만 추출한 이유는 연관 태그를 수집하고 태그의 빈도분포에 대한 통계적 분석을 하는 과정에서 거의 모든 사례에서 빈도 10 근처에서 급격하게 빈도분포가 낮아지는 패턴을 보였기 때문이다.
앞 절에서 언급한대로 다양한 조건의 클러스터를 생성한 후 어떠한 조건에서 연관 태그의 클러스터링이 가장 효과적으로 이루어지는지를 확인하기 위해 클러스터링 결과를 평가하였다. 클러스터링 결과의 평가는 기존의 혹은 사전에 작성된 분류정보와 클러스터링 결과와의 일치 정도를 측정함으로써 그 성능을 판정하는 것이 일반적이다.
이를 대상으로 태그쌍 간의 동시출현정보에 기반하여 유사성을 측정하기 위해 태그×문서 행렬을 작성한 후 클러스터링을 수행하였다.
또한, Simpson(2008)은 웹 기반 사회적 북마킹 서비스인 Delicious와 인트라넷 기반 사내 북마킹 서비스를 대상으로 태그를 클러스터링하고 시각화하는 연구를 수행하였다. 클러스터링 결과 특정 클러스터에 너무 많은 태그가 포함되는 결과를 나타냈는데, 이를 해결하기 위한 방안으로 사전에 덜 중요한 태그를 제외하는 클러스터링 자질 축소를 제안하였다.
태그 클러스터링에 관한 초기의 연구는 Begelman, Keller, Smadja의 연구(2006)로, 이들은 Delicious에서 RSS를 이용하여 태그를 수집하고 그래프 이론에 기반한 스펙트럴 클러스터링(spectral clustering) 알고리즘을 이용하여 연관 태그를 클러스터링하였다. 특히 이 연구에서는 특정 태그와 의미적으로 강하게 연관된 태그를 식별하기 위해 빈도 분포가 급격하게 낮아지는 지점을 동시출현빈도의 절단점으로 결정하는 방법을 사용하였다. Shepitsen et al.

대상 데이터

먼저, 본 실험을 위해 소셜 북마킹 서비스인 Delicious에서 임의의 태그 10개를 선정하여 2009년 7월 6일부터 8일까지 RSS를 통해 각 태그 당 최신 문서를 각각 300개씩 수집한 후각 문서별로 태그 데이터를 수집하였다. 태그 데이터 별로 동일한 300개의 문서를 수집하는 데에는 상대적인 시간차가 있었다.

이론/모형

실험의 마지막 단계인 태그 클러스터링 기법의 단계에서는 계층적 알고리즘과 비계층적 알고리즘을 적용하였다. 계층적 알고리즘으로는 완전연결 기법, 단일연결 기법, 집단간 평균연결 기법, 집단내 평균연결 기법, 워드 기법을 적용하였고, 비계층적 알고리즘으로는 k-means 기법을 적용하였다.
본 실험에서는 정보검색 실험에서 일반적으로 널리 쓰이고 있는 코사인 유사계수(cosine coefficient)와 함께 동시인용 분석 및 동시출현 단어빈도 분석에 기초한 지식구조 분석 연구에서 많이 사용하고 있는 피어슨 상관계수(Pearson correlation coefficient)를 이용하였다. 태그 x와 태그 y에 대해 x_i는 문서 i에 출현한 용어 x의 가중치이며, y_i는 문서 i에 출현한 용어 y의 가중치일 때, 코사인 유사계수 cos(x,y)와 피어슨 상관계수 r(x,y)의 공식은 다음과 같다(Sneath and Sokal 1973).
실험의 마지막 단계인 태그 클러스터링 기법의 단계에서는 계층적 알고리즘과 비계층적 알고리즘을 적용하였다. 계층적 알고리즘으로는 완전연결 기법, 단일연결 기법, 집단간 평균연결 기법, 집단내 평균연결 기법, 워드 기법을 적용하였고, 비계층적 알고리즘으로는 k-means 기법을 적용하였다.

성능/효과

각 태그 별로 최종적으로 추출된 연관 태그 수는 와 같이, 평균 22.7개로, 가장 많은 연관 태그가 추출된 태그는 ‘web2.0’이고, 가장 적은 연관 태그가 추출된 태그는 ‘food’로 나타났다.
먼저 유사계수가 클러스터링 결과에 어떠한 영향을 미쳤는가를 살펴보면, <그림 5>와 같이 워드 기법을 제외한 나머지 기법에서는 피어슨 상관계수가 코사인 유사계수에 비해 우수한 성능을 나타냈다. 그러나 유사계수의 차이가 클러스터링의 결과에 절대적인 영향을 미치지는 않는 것으로 나타났다. 워드 기법에서만 피어슨 상관계수가 좋지 않은 결과를 보인 것은 수학적 원리에서 찾아볼 수 있다.
클러스터링 기법의 측면에서 실험 결과를 살펴보면, <그림 6>에서와 같이 단일연결 기법을 제외한 계층적 기법이 비계층적 기법인 k-means 기법에 비해 우수한 성능을 보인 것으로 나타났다. 또한 계층적 기법 중 가장 우수한 성능을 보인 기법은 워드 기법으로 확인되었다. 이 기법은 클러스터를 모두 비슷한 크기로 생성하는 경향이 있기 때문에 용어 클러스터링에 일반적으로 활용되고 있는데, 이 기법이 태그 클러스터링 결과에서도 가장 우수한 성능을 보였다는 것은 기존의 용어 클러스터링 방법을 태그 클러스터링에 적용하는 것이 가능하다는 것으로 해석될 수 있다.
클러스터링 기법별로는 단일연결 기법을 제외하고는 모든 계층적 기법이 비계층적 기법인 k-means 기법에 비해 좋은 성능을 나타냈다. 또한 유사 계수별 특성으로는 워드기법에서만 코사인 유사계수가 나은 성능을 보였으며, 나머지 기법에서는 피어슨 상관계수가 우수한 성능을 보인 것으로 나타났다.
태그 클러스터는 일반적으로 이용자가 정보를 관리하기 위한 목적으로 부여한 태그를 군집화한 것이기 때문에, 그 결과 역시 합목적성이 있는 태그끼리 같은 군집에 속하는 경우가 많았다. 또한 일부의 클러스터링 결과에서 보여주는 바와 같이, 태그 클러스터링이 용어의 중의성을 어느 정도 해소할 수 있는 것으로 나타났다. 이러한 결과를 통해, 연관 태그 클러스터는 태그의 어휘적 관계를 반영하면서 동시에 이용자의 정보탐색 목적에 맞게 활용됨으로써 태그 공간의 효율적 탐색에 긍정적인 영향을 미칠 수 있을 것으로 예측된다.
이러한 데이터는, 사람들이 태깅할 때 한 문서 당 평균적으로 약 4개의 태그를 부여한다는 것으로 해석할 수 있다. 또한 전체 태그 중에서 중복해서 사용된 태그를 제외한 나머지 고유하게 출현한 태그의 수는 평균적으로 468.5개로, 실험집단 중 약 65%의 태그가 중복되어 나타난 것임을 알 수 있다.
또한, 가장 성능이 좋지 않은 것으로 나타난 기법은 단일연결 기법으로 나타났다. 이 기법은 두 클러스터를 한 클러스터로 묶는 과정에서 클러스터를 구성하는 모든 객체쌍 간의 유사도가 가장 크거나 거리가 가장 가깝도록 하는 방식으로 클러스터를 생성하기 때문에 객체 간의 응집력이 약한 형태로 길게 늘어진 클러스터를 생성하는 경향이 있다고 알려져 있는데(Jardine and Sibson 1968), 실험 결과, 특정 클러스터에 많은 태그가 집중되어 나타나거나한 태그가 하나의 클러스터를 형성하는 등 태그 클러스터링에 적합하지 않은 것으로 확인되었다.
먼저 유사계수가 클러스터링 결과에 어떠한 영향을 미쳤는가를 살펴보면, 와 같이 워드 기법을 제외한 나머지 기법에서는 피어슨 상관계수가 코사인 유사계수에 비해 우수한 성능을 나타냈다.
문헌 클러스터링에 적합한 것으로 알려진 완전연결 기법은 그 성능이 워드 기법 다음으로 우수한 것으로 나타났으나, 에서 보는 바와 같이, 실험집단 별로 성능에 편차가 있어 클러스터링 결과를 일관적으로 해석하기 어려운 것으로 나타났다.
비계층적 기법인 k-means 기법의 경우 계층적 기법 중 단일연결 기법을 제외한 나머지 기법보다 낮은 성능을 보였다. 단일연결 기법과 마찬가지로 일부의 실험집단에서 특정 클러스터에 많은 태그가 집중되거나 한 태그가 하나의 클러스터를 형성하는 경향을 보였다.
실험 결과, 일반적으로 용어 클러스터링에서 성능이 우수한 것으로 알려진 워드 기법이 코사인 유사계수와 결합했을 때 모든 실험집단에서 유사한 경향을 나타내면서 태그 클러스터링에서도 가장 우수한 결과를 나타냈다. 클러스터링 기법별로는 단일연결 기법을 제외하고는 모든 계층적 기법이 비계층적 기법인 k-means 기법에 비해 좋은 성능을 나타냈다.
7개였다. 연관 태그의 수가 클수록 생성된 클러스터의 수가 크고, 연관 태그의 수가 적을수록 생성된 클러스터의 수도 적어지는 것을 확인할 수 있다.
워드 기법과 집단간 평균연결 기법은 에서 보는 바와 같이 그 성능이 거의 실험집단에서 비슷한 경향을 보여, 이 두 기법이 태그 클러스터링에 일관적인 결과를 보여주는 것을 확인할 수 있었다.
클러스터링 결과의 정확성을 확인하기 위해 다양한 조건에서의 클러스터 적합도를 평가한 결과는 <표 3>과 같다. 유사계수와 클러스터링 기법의 다양한 조합 중 코사인 유사계수와 워드 기법을 사용한 클러스터링 결과가 평균적으로 가장 좋은 성능을 보인 것으로 나타났다.
또한 계층적 기법 중 가장 우수한 성능을 보인 기법은 워드 기법으로 확인되었다. 이 기법은 클러스터를 모두 비슷한 크기로 생성하는 경향이 있기 때문에 용어 클러스터링에 일반적으로 활용되고 있는데, 이 기법이 태그 클러스터링 결과에서도 가장 우수한 성능을 보였다는 것은 기존의 용어 클러스터링 방법을 태그 클러스터링에 적용하는 것이 가능하다는 것으로 해석될 수 있다.
Candan, Caro, and Sapiro(2008)는 태그 클라우드를 대상으로 이들 간의 맥락 관계를 압축표현하면서 계층화하기 위해 잠재의미색인(latent semantic indexing)에 기반한 방법을 제안하였다. 이 기법을 통해 태그 클라우드를 구성하는 태그들 간의 숨어있는 의미 관계를 표현할 수 있게 되어 보다 효율적으로 태그 공간을 탐색할 수 있음을 확인하였다. 또한 Schrammel, Leitner, and Tscheligi(2009)는 태그 클라우드가 표현되는 방법에 따라 태그 공간의 탐색 성능이 달라질 것이라는 가정 하에, 태그 클라우드를 표현하는 방법을 네 가지, 즉 알파벳순, 무작위순, 폭소노미 기반, 언어학 기반으로 표현한 후 이용자가 특정 태그 및 그 태그와의 연관 태그를 찾아내는 데 있어 어떠한 방법이 가장 효과적인가를 비교·분석하였다.
단일연결 기법과 마찬가지로 일부의 실험집단에서 특정 클러스터에 많은 태그가 집중되거나 한 태그가 하나의 클러스터를 형성하는 경향을 보였다. 이러한 결과를 통해 k-means 기법이 용어 클러스터링에 적합한 기법이 아니라는 것을 확인할 수 있었다. 그러나 k-means 기법의 가장 큰 장점이라고 할 수 있는 간단한 계산복잡도는 대용량의 웹 데이터를 처리할 때 장점으로 작용할 수 있을 것으로 본다.
이용자의 태깅이 개인적인 정보관리의 목적에서 활용되는 것이 일반적이기 때문에, 실험 결과에서도 특정 개념에 대해 유사한 합목적성을 갖는 태그끼리 군집을 이루는 방식으로 클러스터가 생성된 것을 확인할 수 있었다. 그렇기 때문에 연관 태그의 클러스터를 통해 연관 개념과 더불어 이용자의 정보이용행태와 선호 관점 및 흥미분야 등을 확인할 수 있다.
주지하다시피, ‘library’는 ‘도서관’과 ‘프로그래밍’ 관련 개념을 가지고 있는데, 클러스터링 결과를 보면, 군집 1, 2, 3은 도서관과 관련된 태그들이 군집화되고, 군집 4, 5, 6, 7은 프로그래밍과 관련된 태그들이 군집화되어 있는 것을 확인할 수 있다.
실험 결과, 일반적으로 용어 클러스터링에서 성능이 우수한 것으로 알려진 워드 기법이 코사인 유사계수와 결합했을 때 모든 실험집단에서 유사한 경향을 나타내면서 태그 클러스터링에서도 가장 우수한 결과를 나타냈다. 클러스터링 기법별로는 단일연결 기법을 제외하고는 모든 계층적 기법이 비계층적 기법인 k-means 기법에 비해 좋은 성능을 나타냈다. 또한 유사 계수별 특성으로는 워드기법에서만 코사인 유사계수가 나은 성능을 보였으며, 나머지 기법에서는 피어슨 상관계수가 우수한 성능을 보인 것으로 나타났다.
클러스터링 기법의 측면에서 실험 결과를 살펴보면, 에서와 같이 단일연결 기법을 제외한 계층적 기법이 비계층적 기법인 k-means 기법에 비해 우수한 성능을 보인 것으로 나타났다.

후속연구

클러스터링 결과의 평가는 기존의 혹은 사전에 작성된 분류정보와 클러스터링 결과와의 일치 정도를 측정함으로써 그 성능을 판정하는 것이 일반적이다. 그러나 본 연구에서 사용한 실험집단인 태그 데이터의 경우에는 사전에 작성된 분류정보가 없기 때문에 새로운 유형의 평가방법이 요구된다.
분포 유사도는 두 객체의 확률 분포 사이의 차이를 측정하여 거리나 유사성을 판단하는 것으로, 이미 용어 클러스터링에서는 코사인 계수 대신 이를 이용하여 좋은 성과를 얻은 연구 결과가 발표된 바가 있다(Dagan and Lee 1999; Lee 1999; Weeds 2003). 또한 객체의 중복분류를 허용하는 퍼지 클러스터링 기법을 적용하여 클러스터링으로 보다 정교하게 용어의 중의성 문제를 해결하는 방안에 대해서도 연구가 필요하다.
태그 데이터를 구조화하기 위해서는 다양하게 수평적으로 존재하는 태그를 유사한 것끼리 묶어주는 방법을 이용할 수 있다. 유사한 개념을 표현하는 태그끼리 군집화하여 이용자에게 제공한다면, 태그 공간의 다양성으로 인한 언어의 중의성 문제가 어느 정도 해소되어 탐색의 효율성 저하를 막을 수 있고, 유사한 개념으로의 탐색 확장도 보다 편리하게 이루어질 수 있어 이용자로 하여금 보다 효율적인 태그 공간의 탐색을 가능하게 할 것이다.
이 연구의 일반화를 위해 더 많은 실험집단을 대상으로 실험해 볼 필요가 있다. 일반적으로 태그쌍 간의 가중치는 바이너리의 형태로 나타나기 때문에 바이너리 형태의 가중치에 주로 사용되는 자카드 계수(Jaccard's coefficient)나다이스 계수(Dice coefficient) 등과 같은 이진 유사계수를 적용하여 태그쌍 간의 연관성을 측정해볼 필요가 있다.
또한 일부의 클러스터링 결과에서 보여주는 바와 같이, 태그 클러스터링이 용어의 중의성을 어느 정도 해소할 수 있는 것으로 나타났다. 이러한 결과를 통해, 연관 태그 클러스터는 태그의 어휘적 관계를 반영하면서 동시에 이용자의 정보탐색 목적에 맞게 활용됨으로써 태그 공간의 효율적 탐색에 긍정적인 영향을 미칠 수 있을 것으로 예측된다.
용어 클러스터링을 통해 해결하고자 하는 용어 불일치 문제는 다수 이용자 간의 태그 표현의 불일치 또는 다양성이라는 형태로 태깅 시스템에서도 발견되며, 이러한 문제점의 해소는 현재의 태그 기반 정보 검색 환경에서 해결해야 할 문제와 유사하다. 이러한 관점에서 볼 때, 클러스터 분석을 태그 공간에 적용한다면, 비구조화된 태그 데이터를 대상으로 유사한 태그끼리 군집화할 수 있으므로 이용자로 하여금 효율적인 태그 공간의 탐험이 가능하도록 유도할 수 있을 것이다.
예를 들면, <그림 3>의 ‘photography’의 클러스터링 결과에서 군집 2는 사진작가의 블로그를, 군집 3은 디지털 카메라와 관련된 정보를, 군집 6은 포토샵 활용을 위한 튜토리얼 관련 정보를 북마킹하기 위한 태그들이 한 군집으로 표현된 것을 확인할 수 있다. 이러한 클러스터링 결과가 이용자에게 태그 공간 탐색의 보조수단으로 제공된다면, 이를 통해 이용자는 같은 정보 공간에 있는 다른 이용자들의 선호관점이나 흥미 분야를 참조하여 정보를 탐색할 수 있고, 자신의 정보 탐색의 목적에 맞게 원하는 태그를 추가하거나 개념을 확장하여 정보를 탐색할 수 있으며, 더 나아가 태그 검색의 장점이라 할 수 있는 우연한 발견을 더욱 활성화할 수 있게 될 것이다.
태그 클러스터링에 적합한 클러스터링 알고리즘의 확인을 통해 태그를 활용한 검색 및 탐색, 연관 태그의 추천, 자동 태깅, 개인화 서비스 등 태그 공간의 효율적 탐색을 지원하는 방안을 개발하는 연구들이 더욱 활발하게 진행될 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	대표적인 이용자 참여형 웹 2.0에는 무엇이 있는가?	0 환경으로 진화하면서 이용자의 참여와 협력이 웹의 진화와 생성에 가장 중요한 역할을 하고 있는데, 이러한 이용자 참여형 웹 2.0의 형태 중 가장 대표적인 것이 바로 태그 메커니즘에 의한 협력적 태깅(collaborative tagging)이라고 할 수 있다. Flickr(http://flickr.
	계층적 기법에는 무엇이 있는가?	계층적 기법은 객체가 처리되는 순서에 영향을 받지 않기 때문에 비계층적 기법과는 달리 클러스터링 결과가 안정적인 반면 비계층적 클러스터링 기법에 비해 처리시간이 길고 계산복잡도가 높다(Tombros 2002). 계층적 기법에 속하는 것으로는 완전연결 기법(complete linkage method), 단일연결 기법(single linkage method), 집단평균 기법(group average linkage method), 워드 기법(Ward's method) 등이 있다(Voorhees 1985).
	클러스터링 기법 중 비계층적 기법의 단점은 무엇인가?	비계층적 기법은 미리 정해진 k개의 센트로이드를 중심으로 센트로이드와 객체와의 거리를 최소화할 때까지 n개의 객체를 k개의 상호배타적인 클러스터로 나누는 방식으로, 시간과 비용을 최소화할 수 있고 계산복잡도가 낮다는 장점을 가지고 있다. 그러나 클러스터링 결과가 k개의 센트로이드 선택에 따라 많은 영향을 받는다는 단점이 있다. 비계층적 기법에 속하는 알고리즘으로는 k-means 기법, 싱글패스(single pass) 기법 등이 있다(Willet 1988).

참고문헌 (33)

박병재, 우종우. 2008. 연관 태그의 군집 알고리즘의 설계 및 구현. "한국IT서비스학회지", 7(4):199-208.
유사라. 1999. "정보학연구와 분석방법론". 서울: 나남출판.
이순규, 김정훈, 이지형. 2008. 트랙백을 이용한 연관태그 클러스터링. "한국지능시스템학회 추계학술대회 학술발표논문집", 18(2): 125-128.
이시화, 이만형, 황대훈. Web2.0 환경에서의 효율적인 이미지 검색을 위한 태그 클러스터링 시스템의 설계 및 구현. "멀티미디어학회 논문지", 11(8): 169-178.
이재윤. 2007. 분포 유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구. "정보관리학회지",24(4): 267-283.

원문보기 상세보기
이재윤, 정도헌. 2008. 폭소노미 태그 사용 패턴 분석 통제어휘 및 비통제어휘와의 비교. "제15회 한국정보관리학회 학술대회 논문집", 21-26.
이정미. 2007. 폭소노미의 개념적 접근과 웹 정보 서비스에의 적용. "한국비블리아학회지", 18(2):141-159.
정영미. 2005. "정보검색연구". 서울: 구미무역(주)출판부.
정충영, 최이규. 2009. "SPSSWIN을 이용한 통계분석". 제5판. 서울: 무역경영사.
한승희. 2004. "클러스터링 기법을 이용한 개별문서의 지식구조 자동 생성에 관한 연구". 박사학위논문, 연세대학교 대학원 문헌정보학과.
Begelman, Grigory, Keller, Phillip, and Smadja, Frank. 2006. Automated tag clustering: Improving search and exploration in the tag space. [online]. [cited 2009.7.13]. .
Candan, K. Selcuk, Caroz, Di, Luigi, and Sapino, Luisa, Maria. 2008. “Creating tag hierarchies for effective navigation in social media." In Proceeding of the 2008 ACM Workshop on Search in Social Media, 75-82.
Dagan, Ido, Lee, Lillian, and Pereira, Fernando. 1999. “Similarity-based models of cooccurrence probabilities." Machine Learning, 34(1-3): 43-69.
Delicious. [online]. .
Ding, Y., Chowdhury, G. G., and Foo, S. 2001. “Bibliometric cartography of information retrieval research by using co-word analysis." Information Processing and Management, 37: 817-842.

상세보기
Fichter, Darlene 2006. “Intranet applications for tagging and folksonomies." Online, 30(3): 43-45.

상세보기
Hammond, Tony, Hannay, Timo, Lund, Ben, and Scott, Joanna. 2005. “Social bookmarking tools(I)." D-Lib Magazine, 11(4). [online]. [cited 2009.8.7]. .
Jardine, N., and Sibson, R. 1968. “The construction of hierarchic and non-hierarchic classifications." The Computer Journal, 11(2): 177-184.

상세보기
Lee, Lillan. 1999. “Measures of distributional similarity." In Proceedings of 37th Annual Meeting of the Association for Computational Linguistics, 25-32.
Mathes, Adam. 2004. Folksonomies ？ Cooperative Classification and Communication Through Shared Metadata. [online]. [cited 2008.7.31]. .
Milligan, G. W., Soon, S. C., and Sokol, L. M. 1983. “The effect of cluster size, dimensionality and the number of clusters on recovery of true cluster structure." IEEE Transactions on Patterns Analysis and Machine Intelligence, 5(1): 40-47.

상세보기
Schrammel, Johann, Leitner, Michael, and Tscheligi, Manfred. 2009. “Semantically structured tag clouds: An empirical evaluation of clustered presentation approaches." In Proceedings of the 27th international conference on Human factors in computing systems, 2037-2040.
Shepitsen, Andriy, Janathan, Gemmell, Bamshad, Mobasher, and Robin, Burke. 2008. “Personalized recommendation in social tagging systems using hierarchical clustering." In Proceedings of the 2008 ACM conference on Recommender systems, 259-266.
Simpson, Edwin. 2008. Clustering Tags in Enterprise and Web Folksonomies. [online]. [cited 2009.7.13]. .
Sneath, P. H. A., and Sokal, R. R. 1973. Numerical Taxonomy. SF: Freeman.
Strehl, Alexander, Joydeep, Ghosh, and Raymond, Mooney. 2000. “Impact of similarity measures on web-page clustering." In Proceedings of the 17th National Conference on Artificial Intelligence: Workshop of Artificial Intelligence for Web Search(AAAI 2000), 58-64.
Tombros, Anastasios. 2002. The Effects of Query-based Hierarchical Clustering of Documents for Information Retrieval. Ph.D. diss., Department of Computer Science, Cornell University.
Voorhees, Ellen M. 1985. “The cluster hypothesis revisited." In Proceedings of the 8th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 188-196.
Ward, Joe H. 1963. “Hierarchical grouping to optimize an objective function." Journal of the American Statistical Association, 58: 236-244.

상세보기
Weeds, J. E. 2003. Measures and Applications of Lexical Distributional Similarity. Ph. D. diss., University of Sussex.
Willet, Peter. 1988. “Recent trends in hierarchic document clustering: a critical review." Information Processing and Management, 24(5): 577-597.

상세보기
Xu, Rui, and Wunsch II, Donald C. 2009. Clustering. NJ: IEEE Press.
Yi, Kwan. 2009. “Mining semantically similar tags from delicious." Journal of the Korean Society for Information Science, 26(2): 127-147.

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증