본 논문에서는 블로그 공간에 존재하는 블로거와 포스트들을 클러스터링하고자 한다. 먼저 블로그 공간의 블로거와 포스트들을 각각 하나의 타입으로, 블로거와 포스트 사이의 액션을 링크로 사상한다. 다음으로, 블로그 공간의 클러스터링을 위하여 블로그 환경에 가장 적합하고 효율적인 링크 기반 클러스터링 방법인 LinkClus를 선택한다. 정확한 클러스터링을 위하여 두 가지 방법을 제시한다. 첫 번째는 클러스터의 대상을 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더로 한다. 두 번째는 노이즈의 발생 가능성을 높이는 링크가 아주 적은 블로거와 포스트를 클러스터링 과정에서 제외시킨다. 실험을 통하여 제안하는 방안을 이용한 클러스터링 결과가 내용적으로도 유사한지 검증한다.
본 논문에서는 블로그 공간에 존재하는 블로거와 포스트들을 클러스터링하고자 한다. 먼저 블로그 공간의 블로거와 포스트들을 각각 하나의 타입으로, 블로거와 포스트 사이의 액션을 링크로 사상한다. 다음으로, 블로그 공간의 클러스터링을 위하여 블로그 환경에 가장 적합하고 효율적인 링크 기반 클러스터링 방법인 LinkClus를 선택한다. 정확한 클러스터링을 위하여 두 가지 방법을 제시한다. 첫 번째는 클러스터의 대상을 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더로 한다. 두 번째는 노이즈의 발생 가능성을 높이는 링크가 아주 적은 블로거와 포스트를 클러스터링 과정에서 제외시킨다. 실험을 통하여 제안하는 방안을 이용한 클러스터링 결과가 내용적으로도 유사한지 검증한다.
This paper addresses clustering of blogs and posts in blogosphere. First, we model blogosphere as a social network where blogs and posts correspond to nodes and interactions on posts by blogs corresponds to links. Next, for clustering in blogosphere, we employ LinkClus, a link based algorithm that f...
This paper addresses clustering of blogs and posts in blogosphere. First, we model blogosphere as a social network where blogs and posts correspond to nodes and interactions on posts by blogs corresponds to links. Next, for clustering in blogosphere, we employ LinkClus, a link based algorithm that finds clusters of nodes in a network effectively and efficiently. For more accurate clustering, we propose two refinements: (1) change of granularity from blogs to folders, and (2) removal of blogs and posts being highly likely to incur noises. Finally, we verify the effectiveness of the proposed approach by showing how the posts and blogs in the same cluster are similar to one another in terms of their contents.
This paper addresses clustering of blogs and posts in blogosphere. First, we model blogosphere as a social network where blogs and posts correspond to nodes and interactions on posts by blogs corresponds to links. Next, for clustering in blogosphere, we employ LinkClus, a link based algorithm that finds clusters of nodes in a network effectively and efficiently. For more accurate clustering, we propose two refinements: (1) change of granularity from blogs to folders, and (2) removal of blogs and posts being highly likely to incur noises. Finally, we verify the effectiveness of the proposed approach by showing how the posts and blogs in the same cluster are similar to one another in terms of their contents.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 유사한 블로거들이 공통으로 액션을 취한 포스트들이기 때문에 내용적으로도 유사할 것임을 기대한다. 따라서 본 논문에서는 실험을 통하여 LinkClus로 클러스터링된 포스트들의 주제가 얼마나 동일한지 알아보고자 한다.
블로거와 포스트들을 클러스터링하기 위하여 기존의 링크 기반 클러스터링 방법 중에서 Lin亦Chis가 블로그 공간에 가장 적합하다는 것을 보였다. 또한 LinkClus를 블로그 공간에 적용하는 방안을 논의했다. LinkClus는 서로 다른 타입의 객체를 객체와 객체사이에 존재하는 링크를 통하여 클러스터링한다.
이는 해결하고자 하는 문제를 링크 기반 클러스터링 문제로 변환할 수 있다는 것을 의미한다. 본 논문에서는 링크 기반 클러스터링 방법을 이용하여 블로그 공간을 클러스터링하고자 한다.
또한 액션을 기반으로 클러스터링한 포스트들은 유사한 블로거들이 공통으로 관심을 가지기 때문에 동일한 주제의 내용을 담고 있을 것으로 기대한다. 본 논문에서는 블로거와 포스트 사이의 액션을 이용하여 블로그 공간을 클러스링하고자 한다.
본 논문에서는 블로그 공간에서의 링크 기반 클러스터링 방법에 대해 연구하였다. 블로거와 포스트들을 클러스터링하기 위하여 기존의 링크 기반 클러스터링 방법 중에서 Lin亦Chis가 블로그 공간에 가장 적합하다는 것을 보였다.
또한 정확도 측면에서도 LinkClus가 모든 객체들 간의 유사도를 계산하기 때문에 ReCoM보다 더 정확한 결과를 보인다. 본 논문에서는 정확도가 높고 성능이 가장 우수하며 블로그 공간의 구조에 가장 적합한 LinkClus 를 선택하여 블로그 공간의 블로거들과 포스트들을 클러스터링하고자 한다.
분류해놓은 폴더가 존재한다. 본 논문에서는 정확한 클러스터링을 위하여 블로거-포스트 관계가 아닌 폴더-포스트 관계를 이용하고자 한다. 그림 5은 하나의 블로거를 여러 개의 폴더로 세분화한 예이다.
가설 설정
그러나 이러한 경우는 두 블로거의 링크가 적기 때문에 높게 계산된 유사도를 신뢰할 수가 없다. 따라서 본 논문에서는 링크가 k 이하인 블로거와 포스트를 노이즈로 간주하여 클러스터링 과정에서 제외시킨다. 본 논문에서는 링크가 1이 하인 블로거와 포스트를 노이즈로 간주한다.
제안 방법
그림 2에서 Go-Citation의 경우 블로거 B1과 B2의 유사도를 계산할 때 두 블로거가 공통적으로 가리키는 객체의 수를 이용하여 계산한다. Bibliographic Couplinge Bl과 B2의 유사도를 계산할 때 두 저자를공통적으로 가리키는 객체의 수를 이용하여 계산한다. 두 방법은 객체들이 직접적으로 가리키는 객체들만을 이용하여 유사도를 계산하기 때문에 정확한 유사도를 계산하기 어렵다⑹.
ReCoMe 같은 타입 객체들 간의 링크와 서로 다른 타입 객체들 간의 링크를 동시에 이용하여 클러스터링한다. ReCoMe 같은 타입 객체들 간의 링크를 이용하여 클러스터링을 한 다음 다른 타입 객체들 간의 링크를 이용하여 클러스터링의 정확도를 향상시킨다.
Co-Citation 과 Bibliographic Coupling; 두 객체의 유사도를 두 객체가 직접적으로 연결되어 있는 객체들을 이용하여 계산한다〔4~5]. simRank는 두 객체의 유사도를 두 객체가 가리키는 모든 가능한 객체 쌍들의 유사도의 평균을 이용하여 재귀적으로 계산한다⑹ ReCoMe 같은 타입 객체들 간의 링크와 서로 다른 타입 객체들 간의 링크를 동시에 이용하여 객체들을 클러스터링한다図 LinkClus는 SimRank의 개념을 그대로 이용하여 유사도를 계산한다 그러나 객체 쌍들의 유사도를 계층구조를 이용하여 계산하기 때문에 SimRank보다 성능 측면에서 더 우수하다(3) 본 논문에서는 블로그 공간에 가장 적합하다고 판단된 LinkClus를 이용하여 블로그 공간을 클러스터링하고자 한다.
이용하여 계산한다回. 그러나 LinkClus는 모든 객체 간의 유사도를 계산하는 SimRank의 방법을 개선하기 위하여 계층적으로 객체간의 유사도를 표현한 SimTree 구조를 제안했다.
이는 노드들이 간접적으로 가리키는 노드들 간의 유사도는 반영이 되지 않은 상태이다. 따라서 LinkClus는 간접적으로 가리키는 노드들 간의 유사도를 반영하기 위해 각 SimTee내에 있는 노드들 간의 유사도를 다른 타입의 SimTree내에 있는 노드들 간의 유사도를 참조하여 갱신한다. 이렇게 갱신된 유사도를 이용하여 SimTree내의 노드들은 더 유사한 부모노드에 포함되도록 위치를 이동한다.
만약 두 포스트들의 태그가 일치한다면 두 포스트들의 주제가 동일하다는 것을 의미한다. 따라서 본 논문에서는 같은 클러스터에 있는 포스트들의 주제가 얼마나 동일한지를 측정하기 위해서 태그를 이용한다. 다음의 식이 태그를 이용한 클러스터링의 정확도를 나타낸다.
따라서 블로그 공간에 Lii山Chis를 적용하기 위해서 블로거와 포스트를 각각 하나의 타입으로 사상했고 블로거와 포스트 사이의 액션을 링크로 사상했다. 또한 정확한 클러스터링를 위하여 두 가지 방법을 제시했다. 첫 번째 방법은 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더 이용하는 방법이고, 두 번째 방법은 노이즈인 적은 링크를 가진 블로거와 포스트를 제거하는 방법이다.
SimTree는 계층구조로 되어 있기 때문에 어떤 레벨에 있는 노드를 클러스터로 간주할 것인가에 따라서 클러스터의 수를 결정할 수 있다. 본 논문에서는 레벨 1 노드들을 하나의 클러스터로 사용한다.
본 논문에서는 블로그 공간을 이분 그래프로 표현한다. 서로 다른 타입의 블로거들과 포스트들을 서로 다른 노드들의 집합으로 표현하고 블로거와 포스트 사이의 액션을 링크로 표현한다.
본 논문에서는 블로그 공간을 클러스터링하기 위해 블로그 공간을 이분 그래프(bipartite graph)로 모델링한다. 모델링한 이분 그래프는 LinkClus의 클러스터링 환경으로 쉽게 사상할 수 있다.
본 논문에서는 제안하는 방법으로 블로그 공간을 클러스터링한 결과의 정확도를 판정한다. 제안한 방법을 모두 적용하였을 때 클러스터링의 정확도는 90.
블로그 공간에 적용한 LinkClus는 액션을 기반으로 블로거들과 포스트들을 클러스터링하였다. 따라서 같은 포스트 클러스터에 속한 포스트들의 내용이 동일하지 않을 수 있다.
첫 번째 방법은 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더 이용하는 방법이고, 두 번째 방법은 노이즈인 적은 링크를 가진 블로거와 포스트를 제거하는 방법이다. 제안한 방안으로 블로그 공간의 포스트들을 클러스터링한 결과가 내용상으로도 주제가 일치하는지 실험을 통하여 검증했다.
또한 정확한 클러스터링를 위하여 두 가지 방법을 제시했다. 첫 번째 방법은 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더 이용하는 방법이고, 두 번째 방법은 노이즈인 적은 링크를 가진 블로거와 포스트를 제거하는 방법이다. 제안한 방안으로 블로그 공간의 포스트들을 클러스터링한 결과가 내용상으로도 주제가 일치하는지 실험을 통하여 검증했다.
대상 데이터
처리한 데이터를 사용하였다. 데이터의 크기는 폴더 240, 000개, 포스트 150, 000개, 링크 800, 000개의 데이터를 사용하였으며 링크가 1인 객체들은 모두 제거하고 남은 데이터들을 대상으로 클러스터링 하였다.
LinkClus는 서로 다른 타입의 객체를 객체와 객체사이에 존재하는 링크를 통하여 클러스터링한다. 따라서 블로그 공간에 Lii山Chis를 적용하기 위해서 블로거와 포스트를 각각 하나의 타입으로 사상했고 블로거와 포스트 사이의 액션을 링크로 사상했다. 또한 정확한 클러스터링를 위하여 두 가지 방법을 제시했다.
실험을 위해 국내 블로그 서비스 중 하나인 네이버 블로그에서 2006년 4월부터 수개월간 수집하여 익명으로 처리한 데이터를 사용하였다. 데이터의 크기는 폴더 240, 000개, 포스트 150, 000개, 링크 800, 000개의 데이터를 사용하였으며 링크가 1인 객체들은 모두 제거하고 남은 데이터들을 대상으로 클러스터링 하였다.
데이터처리
LinkClus® 등이 있다. Co-Citation 과 Bibliographic Coupling; 두 객체의 유사도를 두 객체가 직접적으로 연결되어 있는 객체들을 이용하여 계산한다〔4~5]. simRank는 두 객체의 유사도를 두 객체가 가리키는 모든 가능한 객체 쌍들의 유사도의 평균을 이용하여 재귀적으로 계산한다⑹ ReCoMe 같은 타입 객체들 간의 링크와 서로 다른 타입 객체들 간의 링크를 동시에 이용하여 객체들을 클러스터링한다図 LinkClus는 SimRank의 개념을 그대로 이용하여 유사도를 계산한다 그러나 객체 쌍들의 유사도를 계층구조를 이용하여 계산하기 때문에 SimRank보다 성능 측면에서 더 우수하다(3) 본 논문에서는 블로그 공간에 가장 적합하다고 판단된 LinkClus를 이용하여 블로그 공간을 클러스터링하고자 한다.
성능/효과
또한 임의로 선택한 태그가 일치하지 않는 300개의 포스트쌍 중에서도 83%가 실제 내용이 일치했다. 따라서 실제 클러스터링의 정확도는 측정된 결과보다 더 높을 것으로 판단된다. 따라서 블로그 공간의 포스트들을 액션을 기반으로 클러스터링한 결과가 내용적으로도 유사함을 확인할 수 있다.
클러스터링한 결과의 정확도를 나타낸다. 본 논문에서 제안한 모든 방법을 이용하여 클러스터링한 결과의 정확도는 90.7%이다.
방법에 대해 연구하였다. 블로거와 포스트들을 클러스터링하기 위하여 기존의 링크 기반 클러스터링 방법 중에서 Lin亦Chis가 블로그 공간에 가장 적합하다는 것을 보였다. 또한 LinkClus를 블로그 공간에 적용하는 방안을 논의했다.
표현할 수 있다. 이는 본 논문에서 하고자 하는 액션을 이용한 클러스터링이 링크 기반 클러스터링으로 해결될 수 있다는 것을 의미한다. 링크 기반 클러스터링이란 객체들 간에 존재하는 링크 정보만을 가지고 객체들을 클러스터링하는 방법이다(3)
결과의 정확도를 판정한다. 제안한 방법을 모두 적용하였을 때 클러스터링의 정확도는 90.7%로 높게 측정되었다.
후속연구
이렇게 액션을 기반으로 클러스터링한 블로거들은 유사한 행동 패턴을 보였기 때문에 공통된 주제에 관심을 가질 것으로 기대한다. 또한 액션을 기반으로 클러스터링한 포스트들은 유사한 블로거들이 공통으로 관심을 가지기 때문에 동일한 주제의 내용을 담고 있을 것으로 기대한다. 본 논문에서는 블로거와 포스트 사이의 액션을 이용하여 블로그 공간을 클러스링하고자 한다.
참고문헌 (17)
J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006
S. Gardner, Buzz Marketing With Blogs for Dummies, John Wiley & Sons Inc, 2005
X. Yin, J. Han, and P. Yu, 'LinkClus: Efficient Clustering via Heterogeneous Semantic Links,' In Proc. Int'l. Conf. on Very Large Data Bases, pp. 427-438, 2006
H. Small, 'Co-citation in the Scientific Literature: A new Measure of the Relationship between Two Documents,' Journal of the American Society for Information Science, Vol. 24, No. 4, pp. 265-269, 1973
G. Jeh and J. Widom, 'SimRank: A Measure of Structural-Context Similarity,' In Proc. Int'l. Conf. on Special Interest Group on Knowledge Discovery and Data, pp. 538-543, 2002
J. Wang et al., 'ReCoM: Reinforcement Clustering of Multi-type Interrelated Data Objects,' In Proc. Int'l. Conf. on Special Interest Group on Information Retrieval, pp. 274-281, 2003
S. Herring et al., Conversations in the Blogosphere: An Analysis 'From the Bottom Up,' In Proc. of the 38th Annual Hawaii Int'l. Conf. on System Scicences, pp. 107b, 2005
Y. Lin, 'Blog Community Discovery and Evolution based on Mutual Awareness Expansion,' In Proc. Int'l. Conf. on Web Intelligence, pp. 48-56, 2007
K. Fujimura, T. Inoue, and M. Sugisaki, 'The Eigenrumor Algorithm for Ranking Blogs,' In Proc. Int'l. Conf. on World Wide Web, 2005
D. Gruhl et al., 'Information Diffusion Through Blogspace' In Proc. Int'l. Conf. on World Wide Web, pp. 491-501, 2004
A. Chin and M. Chignell, 'A Social Hypertext Model for Finding Community in Blogs', In Proc. Int'l. Conf. on Hypertext and Hypermedia, pp. 11-22, 2006
J. Wang and J. Han, 'CLOSET+: Searching for the Best Strategies for Mining Frequent Closed Itemsets,' In Proc. Int'l. Conf. on Special Interest Group on Knowledge Discovery and Data, pp. 236-245, 2003
N. Pasquier et al., 'Discovering Frequent Closed Itemsets for Association Rules,' In Proc. Int'l. Conf. on Database Theory, pp. 398-416, 1999
※ AI-Helper는 부적절한 답변을 할 수 있습니다.