[논문]블로그 공간에서의 링크 기반 클러스터링 방안

송석순; 윤석호; 김상욱

문제 정의

그러나 유사한 블로거들이 공통으로 액션을 취한 포스트들이기 때문에 내용적으로도 유사할 것임을 기대한다. 따라서 본 논문에서는 실험을 통하여 LinkClus로 클러스터링된 포스트들의 주제가 얼마나 동일한지 알아보고자 한다.
블로거와 포스트들을 클러스터링하기 위하여 기존의 링크 기반 클러스터링 방법 중에서 Lin亦Chis가 블로그 공간에 가장 적합하다는 것을 보였다. 또한 LinkClus를 블로그 공간에 적용하는 방안을 논의했다. LinkClus는 서로 다른 타입의 객체를 객체와 객체사이에 존재하는 링크를 통하여 클러스터링한다.
이는 해결하고자 하는 문제를 링크 기반 클러스터링 문제로 변환할 수 있다는 것을 의미한다. 본 논문에서는 링크 기반 클러스터링 방법을 이용하여 블로그 공간을 클러스터링하고자 한다.
또한 액션을 기반으로 클러스터링한 포스트들은 유사한 블로거들이 공통으로 관심을 가지기 때문에 동일한 주제의 내용을 담고 있을 것으로 기대한다. 본 논문에서는 블로거와 포스트 사이의 액션을 이용하여 블로그 공간을 클러스링하고자 한다.
본 논문에서는 블로그 공간에서의 링크 기반 클러스터링 방법에 대해 연구하였다. 블로거와 포스트들을 클러스터링하기 위하여 기존의 링크 기반 클러스터링 방법 중에서 Lin亦Chis가 블로그 공간에 가장 적합하다는 것을 보였다.
또한 정확도 측면에서도 LinkClus가 모든 객체들 간의 유사도를 계산하기 때문에 ReCoM보다 더 정확한 결과를 보인다. 본 논문에서는 정확도가 높고 성능이 가장 우수하며 블로그 공간의 구조에 가장 적합한 LinkClus 를 선택하여 블로그 공간의 블로거들과 포스트들을 클러스터링하고자 한다.
분류해놓은 폴더가 존재한다. 본 논문에서는 정확한 클러스터링을 위하여 블로거-포스트 관계가 아닌 폴더-포스트 관계를 이용하고자 한다. 그림 5은 하나의 블로거를 여러 개의 폴더로 세분화한 예이다.

가설 설정

그러나 이러한 경우는 두 블로거의 링크가 적기 때문에 높게 계산된 유사도를 신뢰할 수가 없다. 따라서 본 논문에서는 링크가 k 이하인 블로거와 포스트를 노이즈로 간주하여 클러스터링 과정에서 제외시킨다. 본 논문에서는 링크가 1이 하인 블로거와 포스트를 노이즈로 간주한다.

제안 방법

그림 2에서 Go-Citation의 경우 블로거 B1과 B2의 유사도를 계산할 때 두 블로거가 공통적으로 가리키는 객체의 수를 이용하여 계산한다. Bibliographic Couplinge Bl과 B2의 유사도를 계산할 때 두 저자를공통적으로 가리키는 객체의 수를 이용하여 계산한다. 두 방법은 객체들이 직접적으로 가리키는 객체들만을 이용하여 유사도를 계산하기 때문에 정확한 유사도를 계산하기 어렵다⑹.
ReCoMe 같은 타입 객체들 간의 링크와 서로 다른 타입 객체들 간의 링크를 동시에 이용하여 클러스터링한다. ReCoMe 같은 타입 객체들 간의 링크를 이용하여 클러스터링을 한 다음 다른 타입 객체들 간의 링크를 이용하여 클러스터링의 정확도를 향상시킨다.
Co-Citation 과 Bibliographic Coupling; 두 객체의 유사도를 두 객체가 직접적으로 연결되어 있는 객체들을 이용하여 계산한다〔4~5]. simRank는 두 객체의 유사도를 두 객체가 가리키는 모든 가능한 객체 쌍들의 유사도의 평균을 이용하여 재귀적으로 계산한다⑹ ReCoMe 같은 타입 객체들 간의 링크와 서로 다른 타입 객체들 간의 링크를 동시에 이용하여 객체들을 클러스터링한다図 LinkClus는 SimRank의 개념을 그대로 이용하여 유사도를 계산한다 그러나 객체 쌍들의 유사도를 계층구조를 이용하여 계산하기 때문에 SimRank보다 성능 측면에서 더 우수하다(3) 본 논문에서는 블로그 공간에 가장 적합하다고 판단된 LinkClus를 이용하여 블로그 공간을 클러스터링하고자 한다.
이용하여 계산한다回. 그러나 LinkClus는 모든 객체 간의 유사도를 계산하는 SimRank의 방법을 개선하기 위하여 계층적으로 객체간의 유사도를 표현한 SimTree 구조를 제안했다.
이는 노드들이 간접적으로 가리키는 노드들 간의 유사도는 반영이 되지 않은 상태이다. 따라서 LinkClus는 간접적으로 가리키는 노드들 간의 유사도를 반영하기 위해 각 SimTee내에 있는 노드들 간의 유사도를 다른 타입의 SimTree내에 있는 노드들 간의 유사도를 참조하여 갱신한다. 이렇게 갱신된 유사도를 이용하여 SimTree내의 노드들은 더 유사한 부모노드에 포함되도록 위치를 이동한다.
만약 두 포스트들의 태그가 일치한다면 두 포스트들의 주제가 동일하다는 것을 의미한다. 따라서 본 논문에서는 같은 클러스터에 있는 포스트들의 주제가 얼마나 동일한지를 측정하기 위해서 태그를 이용한다. 다음의 식이 태그를 이용한 클러스터링의 정확도를 나타낸다.
따라서 블로그 공간에 Lii山Chis를 적용하기 위해서 블로거와 포스트를 각각 하나의 타입으로 사상했고 블로거와 포스트 사이의 액션을 링크로 사상했다. 또한 정확한 클러스터링를 위하여 두 가지 방법을 제시했다. 첫 번째 방법은 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더 이용하는 방법이고, 두 번째 방법은 노이즈인 적은 링크를 가진 블로거와 포스트를 제거하는 방법이다.
SimTree는 계층구조로 되어 있기 때문에 어떤 레벨에 있는 노드를 클러스터로 간주할 것인가에 따라서 클러스터의 수를 결정할 수 있다. 본 논문에서는 레벨 1 노드들을 하나의 클러스터로 사용한다.
본 논문에서는 블로그 공간을 이분 그래프로 표현한다. 서로 다른 타입의 블로거들과 포스트들을 서로 다른 노드들의 집합으로 표현하고 블로거와 포스트 사이의 액션을 링크로 표현한다.
본 논문에서는 블로그 공간을 클러스터링하기 위해 블로그 공간을 이분 그래프(bipartite graph)로 모델링한다. 모델링한 이분 그래프는 LinkClus의 클러스터링 환경으로 쉽게 사상할 수 있다.
본 논문에서는 제안하는 방법으로 블로그 공간을 클러스터링한 결과의 정확도를 판정한다. 제안한 방법을 모두 적용하였을 때 클러스터링의 정확도는 90.
블로그 공간에 적용한 LinkClus는 액션을 기반으로 블로거들과 포스트들을 클러스터링하였다. 따라서 같은 포스트 클러스터에 속한 포스트들의 내용이 동일하지 않을 수 있다.
첫 번째 방법은 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더 이용하는 방법이고, 두 번째 방법은 노이즈인 적은 링크를 가진 블로거와 포스트를 제거하는 방법이다. 제안한 방안으로 블로그 공간의 포스트들을 클러스터링한 결과가 내용상으로도 주제가 일치하는지 실험을 통하여 검증했다.
또한 정확한 클러스터링를 위하여 두 가지 방법을 제시했다. 첫 번째 방법은 여러 주제에 관심을 가지는 블로거 대신 하나의 주제만을 나타내는 폴더 이용하는 방법이고, 두 번째 방법은 노이즈인 적은 링크를 가진 블로거와 포스트를 제거하는 방법이다. 제안한 방안으로 블로그 공간의 포스트들을 클러스터링한 결과가 내용상으로도 주제가 일치하는지 실험을 통하여 검증했다.

대상 데이터

처리한 데이터를 사용하였다. 데이터의 크기는 폴더 240, 000개, 포스트 150, 000개, 링크 800, 000개의 데이터를 사용하였으며 링크가 1인 객체들은 모두 제거하고 남은 데이터들을 대상으로 클러스터링 하였다.
LinkClus는 서로 다른 타입의 객체를 객체와 객체사이에 존재하는 링크를 통하여 클러스터링한다. 따라서 블로그 공간에 Lii山Chis를 적용하기 위해서 블로거와 포스트를 각각 하나의 타입으로 사상했고 블로거와 포스트 사이의 액션을 링크로 사상했다. 또한 정확한 클러스터링를 위하여 두 가지 방법을 제시했다.
실험을 위해 국내 블로그 서비스 중 하나인 네이버 블로그에서 2006년 4월부터 수개월간 수집하여 익명으로 처리한 데이터를 사용하였다. 데이터의 크기는 폴더 240, 000개, 포스트 150, 000개, 링크 800, 000개의 데이터를 사용하였으며 링크가 1인 객체들은 모두 제거하고 남은 데이터들을 대상으로 클러스터링 하였다.

데이터처리

LinkClus® 등이 있다. Co-Citation 과 Bibliographic Coupling; 두 객체의 유사도를 두 객체가 직접적으로 연결되어 있는 객체들을 이용하여 계산한다〔4~5]. simRank는 두 객체의 유사도를 두 객체가 가리키는 모든 가능한 객체 쌍들의 유사도의 평균을 이용하여 재귀적으로 계산한다⑹ ReCoMe 같은 타입 객체들 간의 링크와 서로 다른 타입 객체들 간의 링크를 동시에 이용하여 객체들을 클러스터링한다図 LinkClus는 SimRank의 개념을 그대로 이용하여 유사도를 계산한다 그러나 객체 쌍들의 유사도를 계층구조를 이용하여 계산하기 때문에 SimRank보다 성능 측면에서 더 우수하다(3) 본 논문에서는 블로그 공간에 가장 적합하다고 판단된 LinkClus를 이용하여 블로그 공간을 클러스터링하고자 한다.

성능/효과

또한 임의로 선택한 태그가 일치하지 않는 300개의 포스트쌍 중에서도 83%가 실제 내용이 일치했다. 따라서 실제 클러스터링의 정확도는 측정된 결과보다 더 높을 것으로 판단된다. 따라서 블로그 공간의 포스트들을 액션을 기반으로 클러스터링한 결과가 내용적으로도 유사함을 확인할 수 있다.
클러스터링한 결과의 정확도를 나타낸다. 본 논문에서 제안한 모든 방법을 이용하여 클러스터링한 결과의 정확도는 90.7%이다.
방법에 대해 연구하였다. 블로거와 포스트들을 클러스터링하기 위하여 기존의 링크 기반 클러스터링 방법 중에서 Lin亦Chis가 블로그 공간에 가장 적합하다는 것을 보였다. 또한 LinkClus를 블로그 공간에 적용하는 방안을 논의했다.
표현할 수 있다. 이는 본 논문에서 하고자 하는 액션을 이용한 클러스터링이 링크 기반 클러스터링으로 해결될 수 있다는 것을 의미한다. 링크 기반 클러스터링이란 객체들 간에 존재하는 링크 정보만을 가지고 객체들을 클러스터링하는 방법이다(3)
결과의 정확도를 판정한다. 제안한 방법을 모두 적용하였을 때 클러스터링의 정확도는 90.7%로 높게 측정되었다.

후속연구

이렇게 액션을 기반으로 클러스터링한 블로거들은 유사한 행동 패턴을 보였기 때문에 공통된 주제에 관심을 가질 것으로 기대한다. 또한 액션을 기반으로 클러스터링한 포스트들은 유사한 블로거들이 공통으로 관심을 가지기 때문에 동일한 주제의 내용을 담고 있을 것으로 기대한다. 본 논문에서는 블로거와 포스트 사이의 액션을 이용하여 블로그 공간을 클러스링하고자 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

블로그 공간에서의 링크 기반 클러스터링 방안
Link-Based Clustering in Blogosphere 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

블로그 공간에서의 링크 기반 클러스터링 방안 Link-Based Clustering in Blogosphere 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

참고문헌 (17)

이 논문을 인용한 문헌

저자의 다른 논문 :

윤석호 (4) 김상욱 (106)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

블로그 공간에서의 링크 기반 클러스터링 방안
Link-Based Clustering in Blogosphere 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper