블로그 월드에서의 정보의 파급에 대한 기존의 연구들은 블로그들 간에 명시적 관계를 설정하고, 정보가 파급되는 요인으로서 이 관계를 통해서 발생하는 입소문 효과만을 고려하였다. 그러나 본 연구자들의 선행 연구 결과에 따르면 블로그 월드에서 실제 발생하는 정보의 파급 현상들의 약 85%는 비명시적 관계를 통해서 발생한 것이다. 따라서 본 논문에서는 명시적 관계, 비명시적 관계를 통한 정보의 파급을 함께 고려하여 이들 관계를 통한 정보의 파급 현상을 효과적으로 분석할 수 있는 새로운 정보 파급 모델을 제안한다. 또한, 실제 블로그 연결망에서 제안하는 기법과 기존의 기법을 이용하여 정보의 파급 분석의 수행 성능을 비교함으로써 제안하는 기법의 우수성을 검증한다.
블로그 월드에서의 정보의 파급에 대한 기존의 연구들은 블로그들 간에 명시적 관계를 설정하고, 정보가 파급되는 요인으로서 이 관계를 통해서 발생하는 입소문 효과만을 고려하였다. 그러나 본 연구자들의 선행 연구 결과에 따르면 블로그 월드에서 실제 발생하는 정보의 파급 현상들의 약 85%는 비명시적 관계를 통해서 발생한 것이다. 따라서 본 논문에서는 명시적 관계, 비명시적 관계를 통한 정보의 파급을 함께 고려하여 이들 관계를 통한 정보의 파급 현상을 효과적으로 분석할 수 있는 새로운 정보 파급 모델을 제안한다. 또한, 실제 블로그 연결망에서 제안하는 기법과 기존의 기법을 이용하여 정보의 파급 분석의 수행 성능을 비교함으로써 제안하는 기법의 우수성을 검증한다.
Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on information diffusion in blog networks establish explicit relationship betwee...
Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on information diffusion in blog networks establish explicit relationship between blogs, and analyze only the word-of-mouth effect through such explicit relationships. However, we observed that more than 85% of all information diffusion in a blog world occurs through non-explicit relationships. In this paper, we propose a new model that considers both explicit and non-explicit relationships between blogs in order to explain all information diffusion phenomena in a blog world. We verify the superiority of our proposed models through extensive experiments of information diffusions at a real blog net-work.
Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on information diffusion in blog networks establish explicit relationship between blogs, and analyze only the word-of-mouth effect through such explicit relationships. However, we observed that more than 85% of all information diffusion in a blog world occurs through non-explicit relationships. In this paper, we propose a new model that considers both explicit and non-explicit relationships between blogs in order to explain all information diffusion phenomena in a blog world. We verify the superiority of our proposed models through extensive experiments of information diffusions at a real blog net-work.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
분석 성능이 떨어지게 된다. 따라서 본 논문에서는 슈퍼노드에 존재하는 각 게시글들의 다양한 파급력을 고려하여 정보 파급의 분석 성능을 향상시킨 확장정보 파급 모델을 제안하였다.
그러나 이러한 현상은 블로그 월드내에서 발생하는 정보파급의 대부분을 차지하고 있다. 따라서 본 논문에서는 이러한 현상을 모델링할 수 있는 새로운 정보 파급 모델을 제안한다. 이를 위하여 기존의 정보 파급 모델인 독립 전파 모델(indpendent cascade model)[5]을 기반으로 하여, 새로운 요소들을 추가한 모델을 제안한다.
본 논문에서는 기본 정보 파급 모델의 이러한 문제점을 극복한 확장 정보 파급 모델을 제안한다. 본 연구에서는 Dsn에 존재하는 게시글들 중에서 동일한 사용자가작성한 게시글들은 서로 유사한 파급력을 갖는다는 가정한다.
본 논문에서는 명시적 관계, 비명시적 관계를 통한 정보의 파급을 함께 고려하여 이들 관계를 통한 정보의 파급 현상을 분석할 수 있는 기본 정보 파급 모델을 제안하였다. 기본 정보 파급 모델은 기존의 정보 파급 모델에 블로그 서비스 업체의 메인 페이지를 모델링한 슈퍼노드와 방송에지, 등록에지를 추가한 것이다.
본 절에서는 기본 정보 파급 모델의 성능을 개선하기위한 방안에 대하여 논의하고 이를 반영한 확장 정보파급 모델을 제안한다.
본 절에서는 명시적 관계와 비명시적 관계를 통한 정보의 파급을 분석할 수 있는 기본 정보 파급 모델을 제안한다.
가설 설정
극복한 확장 정보 파급 모델을 제안한다. 본 연구에서는 Dsn에 존재하는 게시글들 중에서 동일한 사용자가작성한 게시글들은 서로 유사한 파급력을 갖는다는 가정한다. 식 (4)는 U가 작성하여 Dsn 에 포함된 게시글들이 U에게 파급될 확률 PiSN*을 계산하는 방법을 나타낸 것이다.
제안 방법
2) 슈퍼노드에 존재하는 게시글들의 작성자에 대한 동화확률 보정계수를 계산하고, 이 값을 반영하여 슈퍼노드에 존재하는 게시글들의 동화확률을 부여한다. 3) 블로그 연결망을 대상으로 독립 전파 모델을 수행하여 정보의 파급을 분석한다.
기본 정보 파급 모델에서는 슈퍼노드에 의해서 특정사 용자가 동화될 확률을 계산할 때, Dsn에 존재하는 게시글들의 파급력의 차이를 고려하지 않고, Dsn의 게시글들이 파급되는 방송에지 BEi에 단 하나의 동화확률 Psn>만을 부여하였다. 이로 인해 파급력이 큰 게시글과 파급력이 작은 게시글이 파급 시에 동일한 동화확률을 갖게 됨으로써 정보 파급의 분석 정확도가 떨어지게 된다.
또한, 제안하는 모델의 정확도를 높이기 위한 방안에 대하여 논의하고, 이를 반영한 확장 모델을 제안한다. 끝으로, 실험을 통하여 제안하는 기법의 정확도를 검증한다.
또한, 기본 정보 파급 모델에서 비명시적 관계를 통한정보의 파급 현상을 설명하기 위해서 기존의 명시적 관계만을 고려한 파급 모델에 슈퍼노드, 방송 에지, 등록에지 등의 새로운 개념을 추가하였다. 여기서, 슈퍼노드는 블로그 서비스 제공 업체의 메인 웹페이지를 모델링한 것으로서, 블로그 연결망 내의 블로그들과 마찬가지로 정보들을 게시하고 있는 공간이다.
기본 정보 파급 모델은 기존의 정보 파급 모델에 블로그 서비스 업체의 메인 페이지를 모델링한 슈퍼노드와 방송에지, 등록에지를 추가한 것이다. 또한, 기본 파급 모델을 통해서 생성한 블로그 연결망의 각 관계들에 실질적인 동화확률을 부여하는 방안을 제안하였다.
여기서 새로운 요소들이란, 블로그 서비스의 메인 웹페이지에 게시글을 노출시키는공간, 이 공간과 각 사용자들 간의 관계를 의미한다. 또한, 제안하는 모델의 정확도를 높이기 위한 방안에 대하여 논의하고, 이를 반영한 확장 모델을 제안한다. 끝으로, 실험을 통하여 제안하는 기법의 정확도를 검증한다.
본 논문에서는 두 종류의 실험을 수행하였다. 실험 1 에서는 BID와 Previous의 성능을 비교하였고, 실험 2에서는 EID와 Previous의 성능을 비교하였다.
본 연구에서 성능 평가의 대상으로 선정한 정보 파급모델은 블로그들 간의 명시적 관계만을 고려한 기존의 모델을 이용한 기법(Previous), 본 논문에서 제안하는 기본 정보 파급 모델을 이용한 기법(BID), 기본 정보파급 모델의 성능을 개선한 확장 정보 파급 모델을 이용한 기법 (EID) 등 세가지이다.
본 논문에서는 두 종류의 실험을 수행하였다. 실험 1 에서는 BID와 Previous의 성능을 비교하였고, 실험 2에서는 EID와 Previous의 성능을 비교하였다.
실험 1에서 BID와 Previous의 성능을 비교하기 위하여 BID의 Previous에 대한 오차 개선율을 분석하였다. 그림 4는 실험 1의 결과를 보인 것이다.
실험 2에서는 EID와 Previous의 성능을 비교하기 위하여 EID의 Previous에 대한 오차 개선율을 분석하였다. 그림 5는 실험 2의 결과를 보인 것이다.
따라서 본 논문에서는 이러한 현상을 모델링할 수 있는 새로운 정보 파급 모델을 제안한다. 이를 위하여 기존의 정보 파급 모델인 독립 전파 모델(indpendent cascade model)[5]을 기반으로 하여, 새로운 요소들을 추가한 모델을 제안한다. 여기서 새로운 요소들이란, 블로그 서비스의 메인 웹페이지에 게시글을 노출시키는공간, 이 공간과 각 사용자들 간의 관계를 의미한다.
대상 데이터
본 논문에서는 실험을 위해 국내에서 가장 큰 블로그월드 중 하나인 네이버 블로그[4]에서 2006년 7월부터수개월간 수집하여 익명으로 처리한 데이터를 사용하였으며, 블로그 간의 명시적 관계로서 블로그 서비스를 시작한 시점부터 생성된 이웃 관계를 사용하였다. 블로그서비스 업체의 메인 페이지에는 24시간을 주기로 15개의 게시글들이 관리자에 의해 수집되어 사용자들에게노출되었고, 분석기간 중에는 총 1, 200여개의 게시글들이 수집되어 사용자들에게 노출되었다.
데이터처리
오차값은 블로그연결망 내의 특정 사용자로부터 실제로 정보가 파급된결과와, 지정한 정보 파급 모델을 이용하여 정보의 파급을 시뮬레이션한 결과와의 차이를 계산한 것이다. 또한, 오차 개선율은 두 개의 정보 파급 모델을 이용하여 각각 특정 사용자로부터 정보의 파급을 시뮬레이션 한 결과의 오차값을 비교한 것이다.
이론/모형
기본 정보 파급 모델에서는 명시적 관계를 통한 정보의 파급 현상을 설명하기 위해서 기존의 정보 파급 모델을 이용한다. 기존의 정보 파급 모델에서는 블로그들 간에 명시적 관계를 설정하고, 동화확률로써 적절한 값을부여하여 블로그들과 명시적 관계들을 이용하여 블로그연결망을 생성하였다.
DHi와 Simulation (M, U)은 시간의 흐름에 따라 U에 의해 직간접적으로 동화된 사용자의 수를 누적하여 기록한 것으로서 시계열 데이터의 특성을 갖는다. 따라서 본 논문에는 DHi와 Simulation(M, U, )의 차이를 측정하기 위해서 시계열 데이터 간의 유용한 거리함수인 DTWH3]를 사용하였다.
본 연구에서는 위의 세가지 기법의 성능을 비교하기위하여 성능 평가의 척도로서 오차값 Error와 오차 개선율 ImprovedErrorRatio를 사용한다. 오차값은 블로그연결망 내의 특정 사용자로부터 실제로 정보가 파급된결과와, 지정한 정보 파급 모델을 이용하여 정보의 파급을 시뮬레이션한 결과와의 차이를 계산한 것이다.
성능/효과
그림 1은 이러한 파급 경향을 보인 것으로서 X축은 시간, y축은 정보의 파급력을 누적한 값을 나타낸다’ 여기서 정보의 파급력이란 해당 게시글에 의해 직간접적으로 동화된 사용자의 수를 의미한다. 시간이 지남에 따라 비명시적 관계를 통해서 발생한 정보의 파급력이 명시적 관계를 통한정보의 파급력에 비하여 300배 이상 폭발적으로 증가함을 알 수 있다
점들은 슈퍼노드에 존재하는 게시글들을 나타내고, X축은 해당 게시글의 파급력, y축은 각 게시글의 파급 시뮬레이션을 수행한 결과, BID의 Previous에 대한 오차 개선율을 나타낸다. 실험 결과, BID의 Previous대한 오차 개선율의평균값은 1.65로 나타났다. 이것은 BID가 Previous에비하여 오차를 65%가량 더 발생한다는 것을 의미한다.
실험 1에서와 마찬가지로 점들은 슈퍼노드에 존재하는 게시글들을 나타내고, X축은 해당 게시글의 파급력, y축은 각 게시글의 파급 시뮬레이션을 수행한 결과, EID의 Previous 에 대한 오차 개선율을 나타낸다. 실험 결과, EID의 Pre- vious에 대한 오차 개선율의 평균값은 0.23으로 나타났다. 이것은 EID가 Previous에 비하여 오차를 77%가량 적게 발생한다는 것을 의미한다.
비하여 우수한 성능을 보임을 검증하였다. 실험 결과, 확장 정보 파급 모델은 게시글들의 파급력이 다양한 환경에서 기존의 정보 파급 모델에 비하여 오차를 77% 가량 적게 발생하는 것으로 나타났다.
실험을 통하여 제안하는 기법이 기존의 정보 파급 모델에 비하여 우수한 성능을 보임을 검증하였다. 실험 결과, 확장 정보 파급 모델은 게시글들의 파급력이 다양한 환경에서 기존의 정보 파급 모델에 비하여 오차를 77% 가량 적게 발생하는 것으로 나타났다.
참고문헌 (13)
(주)SK커뮤니케이션, http://www.cyworld.com
(주)엠파스, http://blog.empas.com
(주)아이세이브존, http://www.isavezone.com
(주)NHN, 블로그홈, blog.naver.com
J. Goldenberg, B. Libai, and E. Muller, "Talk of the Network: A Complex Systems Look at the Underlying Process of Word-of -Mouth," Marketing Letters, Vol.12, No.3, pp. 211-223, 2001
J. Brown and P. Reinegen, "Social Ties and Word-of-Mouth Referral Behavior," In Proc. Journal of Consumer Research, JCR, Vol.1, No.3, pp. 350-362, 1987
권용석, 김상욱, 박선주, "블로그 월드에서 정보 파급 분석", 한국정보처리 춘계학술 발표대회 Vol. 15, No.1, pp. 223-226, 2008
D. Kempe, J. Kleinberg, and E. Tardos, “Maxi-mizing the Spread of Influence through a Social Network,” In Proc. ACM Int'l. Conf. on Know-ledge Discovery and Data Mining, ACM SIGKDD, pp 137-l46, 2003
M. Granovetter, “Threshold Models of Collective Behavior,” In Proc. American Journal of Sociology, Vol.83, No.6, pp. 1420-1443, 1978
D. Gruhi et al., “Information Diffusion Through Blogspace,” In Proc. Int'l. Conf. on World Wide Web, WWW, pp. 491-501, 2004
A. Java et al., “Modeling the Spread of Influence on the Blogosphere,” In Proc. Int’l. Conf. on World Wide Web, WWW, 2006
C. Ratanamahatana and E. Keogh, “Making Time-series Classification more Accurate using Learned Constraints,” In Proc. Int’l. Conf. on Society for Industrial and Applied Mathematics, SIAM, pp. 11-22, 2004
※ AI-Helper는 부적절한 답변을 할 수 있습니다.