최근, 인터넷의 발달로 인해 온라인 사회연결망이 증가하고 있으며 이 중 블로그 서비스가 대표적이다. 본 논문에서는 블로그 연결망을 분석하기 위한 방법론을 제시하며, 대용량의 연결망 데이터를 안정적으로 분산 처리할 수 있는 방안을 제시한다. 우선, 각 연결망 데이터의 시간 경과에 따른 행위 가중치의 값을 보정하여, 최근의 행위가 과거의 행위보다 높은 연결강도를 가질 수 있도록 한다. 둘째로, 명시적으로 연결행위를 가지지 않은 블로그의 경우 블로그의 성격을 대표할 수 있는 키워드간의 유사도를 추출하여, 묵시적으로 연결망 내에 흡수하도록한다. 따라서 이전의 방법론과는 달리 더 많은 블로그 노드 간의 연결을 분석할 수 있다. 본 논문이 제시한 블로그 연결망 분석 시스템의 설계로 기존에 제시되었던 방법론보다 약 40% 더 많은 블로그 간 연결망을 추출 할 수 있음을 보였으며, 시간의 흐름에 따른 연결강도의 변화에 대한 타당성을 입증하였다.
최근, 인터넷의 발달로 인해 온라인 사회연결망이 증가하고 있으며 이 중 블로그 서비스가 대표적이다. 본 논문에서는 블로그 연결망을 분석하기 위한 방법론을 제시하며, 대용량의 연결망 데이터를 안정적으로 분산 처리할 수 있는 방안을 제시한다. 우선, 각 연결망 데이터의 시간 경과에 따른 행위 가중치의 값을 보정하여, 최근의 행위가 과거의 행위보다 높은 연결강도를 가질 수 있도록 한다. 둘째로, 명시적으로 연결행위를 가지지 않은 블로그의 경우 블로그의 성격을 대표할 수 있는 키워드간의 유사도를 추출하여, 묵시적으로 연결망 내에 흡수하도록한다. 따라서 이전의 방법론과는 달리 더 많은 블로그 노드 간의 연결을 분석할 수 있다. 본 논문이 제시한 블로그 연결망 분석 시스템의 설계로 기존에 제시되었던 방법론보다 약 40% 더 많은 블로그 간 연결망을 추출 할 수 있음을 보였으며, 시간의 흐름에 따른 연결강도의 변화에 대한 타당성을 입증하였다.
Recently, on-line social network has been increasing according to development of internet. The most representative service is blog. A Blog is a type of personal web site, usually maintained by an individual with regular entries of commentary. These blogs are related to each other, and it is called B...
Recently, on-line social network has been increasing according to development of internet. The most representative service is blog. A Blog is a type of personal web site, usually maintained by an individual with regular entries of commentary. These blogs are related to each other, and it is called Blog Network in this paper. In a blog network, posts in a blog can be diffused to other blogs. Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on network analysis have no consideration for the passage of time and these approaches can only measure network activity for a node by the number of direct connections that a given node has. As one solution, this paper suggests the new method of measuring the blog network activity using logistic curve model and Cosine-similarity in key words by the Map/Reduce programming model.
Recently, on-line social network has been increasing according to development of internet. The most representative service is blog. A Blog is a type of personal web site, usually maintained by an individual with regular entries of commentary. These blogs are related to each other, and it is called Blog Network in this paper. In a blog network, posts in a blog can be diffused to other blogs. Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on network analysis have no consideration for the passage of time and these approaches can only measure network activity for a node by the number of direct connections that a given node has. As one solution, this paper suggests the new method of measuring the blog network activity using logistic curve model and Cosine-similarity in key words by the Map/Reduce programming model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
' 본 논문에서는 구글(Google) 이 발표한 Map/Reduce 프로그래밍 모델을 이용하여 대용량 분산처리 방식을 제안하고자 하며, 또한 대용량 기초 데이터의 왜곡 현상을 해결흐)기 위해 시간가중치를 부여하여 블로그 간 연결망 데이터마이닝의 새로운 모델을 제시하고자 한다
제안 방법
Map의 Input으로는 [USER.TRANSACTION] 테이블의 일련번호(Row Key)가 KeyS, 실제 ROW 정보가 Value로 들어오도록 설계하며, 입력된 데이터를 주체, 피 주체로 이분화 한 뒤 다시 Output의 Key로 분석 주체 블로그 UID를 Value로 주체, 피 주체 구분 플래그, 행위동사, 분석 대상 블로그 UID, ROW 정보를 넘기도록 한다.
담당한다. 또한, 블로그 문서로 판단되는 경우 해당 블로그의 Home URI, 게시물 제목, 게시물 내용, 키워드(태그)와 같은 문서의 메타정보를 추출하고 블로그 간 서로 명시적으로 연결되어 있는 행위를 파싱하여 연결망 기초 분석 데이터로 등록한다
마지막 테이블은 사용자간 키워드 유사도 추출을 최종적으로 수행한 결과 값을 저장하는 테이블로서, 사용자별로 키워드 간 연관성이 1회 이상 있는 모든 사용 자간의 키워드 유사도를 Map/Reduce 프로그래밍을 통한 분산처리를 이용하여 도출 한 뒤 저장한다.
본 논문에서는 Map/Reduce를 이용하여 블로그 연결망을 분석하는 시스템의 설계에 대하여 논의 하였다 제안하는 연결망 분석 시스템은 기존의 Neighbor 분석방식과 달리, 행위시간의 지남에 따른 보정 수식을 적용하여, 연결망 성향정도의 변화추이 분석이 가능하도록 하였으며, 또한 Centrality 분석 방식과는 다르게 실질적인 연결행위가 없더라도, 컨텐츠의 유사도를 이용하여 각 블로그 사용자간 묵시적인 연결망을 포함한 분석이 가능하였다. 마지막으로 대용량의 연결망 기초자료 데이터를 Big-Tabie에 저장하고 Google의 Map/Reduce 프로그래밍 모델을 이용하여 효율적으로 분산처리 분석이 가능함을 입증하였다
본 논문은 이와 같은 문제를 해결하기 위해 명시적인 연결행위가 없더라도, 블로그 연결망에 암묵적으로 흡수되게 할 수 있도록, 유사도 검사를 사용하였다. 즉, 블로그 내에 있는 모든 게시물은 블로그의 성격을 나타낼 수 있는 대표적인 속성으로 볼 수 있으며, 이러한 속성은 게시물 태그(키워드)에 가장 강하게 나타나며, 각 블로그 간의 태그 유사도를 계산함으로써, 서로 간의 관계 정도를 분석할 수 있다.
블로그 연결망을 분석하기 위해서 본 논문은 행단위로 자료를 저장하는 RDMS가 아닌 로우 키를 기반으로 복수개의 컬럼 키와 값을 유동적으로 가질 수 있는컬럼 기반 분산데이터 베이스 시스템인 HBase를 사용하도록 한다
연결정보 저장을 담당하는 스키마는 주체자의 UID, 피 주체자의 UID, 행위코드, 행위시간 정보를 가질 수 있도록 설계하였으며, 행위시간정보의 경우 로지스틱성장곡선 모델을 이용하여, 시간이 지남에 따른 가중치 조절 대상 데이터로 활용되어 분석한다.
(1) 웹 정보 수집기(Web Crawler): 인터넷에 산재되어 있는 웹문서를 수집하는 역할을 담당한다. 운용자 가지정한 첫 엔트리 포인트 웹페이지에서부터 수집을 시작하여, 해당 페이지에 포함된 모든 링크를 순회하면서 다른 웹 웹문서를 수집한다. 수집방식은 깊이 우선 방식으로 최대 깊이가 100 이상일 경우에는 무시하도록 구성한다.
대상 데이터
Map/Reduce 분산처리 시스템은 하드웨어 사양이 모두 동일한 1대의 Master Node와 3대의 Slave Node 로 구성하였으며, 분석시스템 간 네트워크 대역폭은 IGbps로 설정하여 실험하였다 실험은 이글루스 (Egloos), 티스토리(Tistay) 블로그 포털 하에 운영되는 약 1000개의 개인 블로그를 수집대상으로 하였으며, 약 10일 동안 수집된 총 25, tXX)건의 게시물과 114, 000건의 블로그 간 연결정보를 연결망 분석 시스템의 분석기초 데이터로 설정하였다
이론/모형
따라서 오래전에 일어난 연결 행위가 계속적으로 누적되었을 경우 이 점수의 합이 최근에 일어난 연결 행위의 점수의 합보다 높아짐으로써, 결국 최근 연결망분석에 대해서는 왜곡현상이 일어날 수 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 각 행위에 대해서 로지스틱 성장곡선Sgistic Curve) 을 적용하여, 최근의 행위가 과거의 행위보다 높은 점수를 가지도록 하는 방법을 사용한다. 가중치가 특정 임계치 시간까지는 완만하게 감소하다가, 또 어느 정도의 시간 임계치에 다다르게 되면 급속하게 71중치가 감소되게 함으로써, 시간의 흐름에 따른 가중치 보정을 할 수 있다.
성능/효과
32 .로 유지되는 반면, 본 논문에서 제시한 분석방식의 경우 노드 A의 연결강도는 처음에 28, 60일이 지났을 때에는 6의 연결강도를 가지고 노드 B의 연결강도는 처음에 28, 60일이 지났을 때에는 19로 시간에 따라 떨어짐을 알 수 있다.
가능하였다. 마지막으로 대용량의 연결망 기초자료 데이터를 Big-Tabie에 저장하고 Google의 Map/Reduce 프로그래밍 모델을 이용하여 효율적으로 분산처리 분석이 가능함을 입증하였다
위의 환경에서 실험한 결과, 기존의 Neighbor 분석방식이나 Centrality 분석 방식인 경우 452개(45%)의 노드가 구성되었으나, 본 논문에서 제시한 키워드 유사도가 반영된 연결망 분석 방법에서는 954개(95%)의 노드가 분석노드로 검출되었다. 이는 제안 방식이 명시적으로 연결된 노드간의 관계가 없더라도 블로그 속성을 대표할 수 있는 키워드를 기반으로 묵시적인 연결망을 구성함으로서 기존의 분석방법론보다 더 많은 노드 간의 관계를 추출할 수 있음을 의미한다.
분석노드로 검출되었다. 이는 제안 방식이 명시적으로 연결된 노드간의 관계가 없더라도 블로그 속성을 대표할 수 있는 키워드를 기반으로 묵시적인 연결망을 구성함으로서 기존의 분석방법론보다 더 많은 노드 간의 관계를 추출할 수 있음을 의미한다.
참고문헌 (9)
S. Wasserman and K. Faust, "Social Network Analysis: Methods and Applications", Cambridge University Press, 1994
L. Adamic, O. Buyukkokten, and E. Adar, "A Social Network Caught in the Web" Frist Monday, Vol.8, No.6, pp. 1-22, 2003
X. Song et al., "Mining in Social Networks Information Flow Modeling based on Diffusion Rate for Prediction and Ranking", Proc. Int'l. Conf. on World Wide Web, pp. 191-200, 2007
J. Iribarren and E. Moro, "Information Diffusion Epidemics in Social Networks", Arxiv, 2007
(주) 다음 커뮤니케이션, http://www.tistory.com
(주) SK Communications, http://www.egloos.com
A. Chin and M. Chignell, "A Social Hypertext Model for Finding Community in Blogs", Proc. Int'l. Conf. on Hypertext and Hypermedia, pp. 11-22, 2006
J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", 6th Symposium on Operating System Design and Implementation, Google Inc., 2004
※ AI-Helper는 부적절한 답변을 할 수 있습니다.