[논문]블로그 월드에서 비명시적 관계를 고려한 정보 파급 모델

권용석; 김상욱; 박선주; 임승환; 이재범

블로그 월드에서 비명시적 관계를 고려한 정보 파급 모델
An Information Diffusion Model Considering Non-explicit Relationships in the Blog World 원문보기

정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, v.15 no.5, 2009년, pp.360 - 364

권용석 (한양대학교 전자컴퓨터통신공학과) , 김상욱 (한양대학교 전자컴퓨터통신공학과) , 박선주 (연세대학교 경영대학) , 임승환 (한양대학교 전자컴퓨터통신공학과) , 이재범 ((주) NHN)

초록
AI-Helper

블로그 월드에서의 정보의 파급에 대한 기존의 연구들은 블로그들 간에 명시적 관계를 설정하고, 정보가 파급되는 요인으로서 이 관계를 통해서 발생하는 입소문 효과만을 고려하였다. 그러나 본 연구자들의 선행 연구 결과에 따르면 블로그 월드에서 실제 발생하는 정보의 파급 현상들의 약 85%는 비명시적 관계를 통해서 발생한 것이다. 따라서 본 논문에서는 명시적 관계, 비명시적 관계를 통한 정보의 파급을 함께 고려하여 이들 관계를 통한 정보의 파급 현상을 효과적으로 분석할 수 있는 새로운 정보 파급 모델을 제안한다. 또한, 실제 블로그 연결망에서 제안하는 기법과 기존의 기법을 이용하여 정보의 파급 분석의 수행 성능을 비교함으로써 제안하는 기법의 우수성을 검증한다.

Abstract ▼ AI-Helper

Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on information diffusion in blog networks establish explicit relationship between blogs, and analyze only the word-of-mouth effect through such explicit relationships. However, we observed that more than 85% of all information diffusion in a blog world occurs through non-explicit relationships. In this paper, we propose a new model that considers both explicit and non-explicit relationships between blogs in order to explain all information diffusion phenomena in a blog world. We verify the superiority of our proposed models through extensive experiments of information diffusions at a real blog net-work.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

분석 성능이 떨어지게 된다. 따라서 본 논문에서는 슈퍼노드에 존재하는 각 게시글들의 다양한 파급력을 고려하여 정보 파급의 분석 성능을 향상시킨 확장정보 파급 모델을 제안하였다.
그러나 이러한 현상은 블로그 월드내에서 발생하는 정보파급의 대부분을 차지하고 있다. 따라서 본 논문에서는 이러한 현상을 모델링할 수 있는 새로운 정보 파급 모델을 제안한다. 이를 위하여 기존의 정보 파급 모델인 독립 전파 모델(indpendent cascade model)[5]을 기반으로 하여, 새로운 요소들을 추가한 모델을 제안한다.
본 논문에서는 기본 정보 파급 모델의 이러한 문제점을 극복한 확장 정보 파급 모델을 제안한다. 본 연구에서는 Dsn에 존재하는 게시글들 중에서 동일한 사용자가작성한 게시글들은 서로 유사한 파급력을 갖는다는 가정한다.
본 논문에서는 명시적 관계, 비명시적 관계를 통한 정보의 파급을 함께 고려하여 이들 관계를 통한 정보의 파급 현상을 분석할 수 있는 기본 정보 파급 모델을 제안하였다. 기본 정보 파급 모델은 기존의 정보 파급 모델에 블로그 서비스 업체의 메인 페이지를 모델링한 슈퍼노드와 방송에지, 등록에지를 추가한 것이다.
본 절에서는 기본 정보 파급 모델의 성능을 개선하기위한 방안에 대하여 논의하고 이를 반영한 확장 정보파급 모델을 제안한다.
본 절에서는 명시적 관계와 비명시적 관계를 통한 정보의 파급을 분석할 수 있는 기본 정보 파급 모델을 제안한다.

가설 설정

극복한 확장 정보 파급 모델을 제안한다. 본 연구에서는 Dsn에 존재하는 게시글들 중에서 동일한 사용자가작성한 게시글들은 서로 유사한 파급력을 갖는다는 가정한다. 식 (4)는 U가 작성하여 Dsn 에 포함된 게시글들이 U에게 파급될 확률 PiSN*을 계산하는 방법을 나타낸 것이다.

제안 방법

2) 슈퍼노드에 존재하는 게시글들의 작성자에 대한 동화확률 보정계수를 계산하고, 이 값을 반영하여 슈퍼노드에 존재하는 게시글들의 동화확률을 부여한다. 3) 블로그 연결망을 대상으로 독립 전파 모델을 수행하여 정보의 파급을 분석한다.
기본 정보 파급 모델에서는 슈퍼노드에 의해서 특정사 용자가 동화될 확률을 계산할 때, Dsn에 존재하는 게시글들의 파급력의 차이를 고려하지 않고, Dsn의 게시글들이 파급되는 방송에지 BEi에 단 하나의 동화확률 Psn>만을 부여하였다. 이로 인해 파급력이 큰 게시글과 파급력이 작은 게시글이 파급 시에 동일한 동화확률을 갖게 됨으로써 정보 파급의 분석 정확도가 떨어지게 된다.
또한, 제안하는 모델의 정확도를 높이기 위한 방안에 대하여 논의하고, 이를 반영한 확장 모델을 제안한다. 끝으로, 실험을 통하여 제안하는 기법의 정확도를 검증한다.
또한, 기본 정보 파급 모델에서 비명시적 관계를 통한정보의 파급 현상을 설명하기 위해서 기존의 명시적 관계만을 고려한 파급 모델에 슈퍼노드, 방송 에지, 등록에지 등의 새로운 개념을 추가하였다. 여기서, 슈퍼노드는 블로그 서비스 제공 업체의 메인 웹페이지를 모델링한 것으로서, 블로그 연결망 내의 블로그들과 마찬가지로 정보들을 게시하고 있는 공간이다.
기본 정보 파급 모델은 기존의 정보 파급 모델에 블로그 서비스 업체의 메인 페이지를 모델링한 슈퍼노드와 방송에지, 등록에지를 추가한 것이다. 또한, 기본 파급 모델을 통해서 생성한 블로그 연결망의 각 관계들에 실질적인 동화확률을 부여하는 방안을 제안하였다.
여기서 새로운 요소들이란, 블로그 서비스의 메인 웹페이지에 게시글을 노출시키는공간, 이 공간과 각 사용자들 간의 관계를 의미한다. 또한, 제안하는 모델의 정확도를 높이기 위한 방안에 대하여 논의하고, 이를 반영한 확장 모델을 제안한다. 끝으로, 실험을 통하여 제안하는 기법의 정확도를 검증한다.
본 논문에서는 두 종류의 실험을 수행하였다. 실험 1 에서는 BID와 Previous의 성능을 비교하였고, 실험 2에서는 EID와 Previous의 성능을 비교하였다.
본 연구에서 성능 평가의 대상으로 선정한 정보 파급모델은 블로그들 간의 명시적 관계만을 고려한 기존의 모델을 이용한 기법(Previous), 본 논문에서 제안하는 기본 정보 파급 모델을 이용한 기법(BID), 기본 정보파급 모델의 성능을 개선한 확장 정보 파급 모델을 이용한 기법 (EID) 등 세가지이다.
본 논문에서는 두 종류의 실험을 수행하였다. 실험 1 에서는 BID와 Previous의 성능을 비교하였고, 실험 2에서는 EID와 Previous의 성능을 비교하였다.
실험 1에서 BID와 Previous의 성능을 비교하기 위하여 BID의 Previous에 대한 오차 개선율을 분석하였다. 그림 4는 실험 1의 결과를 보인 것이다.
실험 2에서는 EID와 Previous의 성능을 비교하기 위하여 EID의 Previous에 대한 오차 개선율을 분석하였다. 그림 5는 실험 2의 결과를 보인 것이다.
따라서 본 논문에서는 이러한 현상을 모델링할 수 있는 새로운 정보 파급 모델을 제안한다. 이를 위하여 기존의 정보 파급 모델인 독립 전파 모델(indpendent cascade model)[5]을 기반으로 하여, 새로운 요소들을 추가한 모델을 제안한다. 여기서 새로운 요소들이란, 블로그 서비스의 메인 웹페이지에 게시글을 노출시키는공간, 이 공간과 각 사용자들 간의 관계를 의미한다.

대상 데이터

본 논문에서는 실험을 위해 국내에서 가장 큰 블로그월드 중 하나인 네이버 블로그[4]에서 2006년 7월부터수개월간 수집하여 익명으로 처리한 데이터를 사용하였으며, 블로그 간의 명시적 관계로서 블로그 서비스를 시작한 시점부터 생성된 이웃 관계를 사용하였다. 블로그서비스 업체의 메인 페이지에는 24시간을 주기로 15개의 게시글들이 관리자에 의해 수집되어 사용자들에게노출되었고, 분석기간 중에는 총 1, 200여개의 게시글들이 수집되어 사용자들에게 노출되었다.

데이터처리

오차값은 블로그연결망 내의 특정 사용자로부터 실제로 정보가 파급된결과와, 지정한 정보 파급 모델을 이용하여 정보의 파급을 시뮬레이션한 결과와의 차이를 계산한 것이다. 또한, 오차 개선율은 두 개의 정보 파급 모델을 이용하여 각각 특정 사용자로부터 정보의 파급을 시뮬레이션 한 결과의 오차값을 비교한 것이다.

이론/모형

기본 정보 파급 모델에서는 명시적 관계를 통한 정보의 파급 현상을 설명하기 위해서 기존의 정보 파급 모델을 이용한다. 기존의 정보 파급 모델에서는 블로그들 간에 명시적 관계를 설정하고, 동화확률로써 적절한 값을부여하여 블로그들과 명시적 관계들을 이용하여 블로그연결망을 생성하였다.
DHi와 Simulation (M, U)은 시간의 흐름에 따라 U에 의해 직간접적으로 동화된 사용자의 수를 누적하여 기록한 것으로서 시계열 데이터의 특성을 갖는다. 따라서 본 논문에는 DHi와 Simulation(M, U, )의 차이를 측정하기 위해서 시계열 데이터 간의 유용한 거리함수인 DTWH₃]를 사용하였다.
본 연구에서는 위의 세가지 기법의 성능을 비교하기위하여 성능 평가의 척도로서 오차값 Error와 오차 개선율 ImprovedErrorRatio를 사용한다. 오차값은 블로그연결망 내의 특정 사용자로부터 실제로 정보가 파급된결과와, 지정한 정보 파급 모델을 이용하여 정보의 파급을 시뮬레이션한 결과와의 차이를 계산한 것이다.

성능/효과

그림 1은 이러한 파급 경향을 보인 것으로서 X축은 시간, y축은 정보의 파급력을 누적한 값을 나타낸다’ 여기서 정보의 파급력이란 해당 게시글에 의해 직간접적으로 동화된 사용자의 수를 의미한다. 시간이 지남에 따라 비명시적 관계를 통해서 발생한 정보의 파급력이 명시적 관계를 통한정보의 파급력에 비하여 300배 이상 폭발적으로 증가함을 알 수 있다
점들은 슈퍼노드에 존재하는 게시글들을 나타내고, X축은 해당 게시글의 파급력, y축은 각 게시글의 파급 시뮬레이션을 수행한 결과, BID의 Previous에 대한 오차 개선율을 나타낸다. 실험 결과, BID의 Previous대한 오차 개선율의평균값은 1.65로 나타났다. 이것은 BID가 Previous에비하여 오차를 65%가량 더 발생한다는 것을 의미한다.
실험 1에서와 마찬가지로 점들은 슈퍼노드에 존재하는 게시글들을 나타내고, X축은 해당 게시글의 파급력, y축은 각 게시글의 파급 시뮬레이션을 수행한 결과, EID의 Previous 에 대한 오차 개선율을 나타낸다. 실험 결과, EID의 Pre- vious에 대한 오차 개선율의 평균값은 0.23으로 나타났다. 이것은 EID가 Previous에 비하여 오차를 77%가량 적게 발생한다는 것을 의미한다.
비하여 우수한 성능을 보임을 검증하였다. 실험 결과, 확장 정보 파급 모델은 게시글들의 파급력이 다양한 환경에서 기존의 정보 파급 모델에 비하여 오차를 77% 가량 적게 발생하는 것으로 나타났다.
실험을 통하여 제안하는 기법이 기존의 정보 파급 모델에 비하여 우수한 성능을 보임을 검증하였다. 실험 결과, 확장 정보 파급 모델은 게시글들의 파급력이 다양한 환경에서 기존의 정보 파급 모델에 비하여 오차를 77% 가량 적게 발생하는 것으로 나타났다.

참고문헌 (13)

(주)SK커뮤니케이션, http://www.cyworld.com
(주)엠파스, http://blog.empas.com
(주)아이세이브존, http://www.isavezone.com
(주)NHN, 블로그홈, blog.naver.com
J. Goldenberg, B. Libai, and E. Muller, "Talk of the Network: A Complex Systems Look at the Underlying Process of Word-of -Mouth," Marketing Letters, Vol.12, No.3, pp. 211-223, 2001

상세보기
(주)위고넷 이브랜딩 전략연구소, 커뮤니티를 승부하는 브랜드 전략, 이디자인, 2004
J. Brown and P. Reinegen, "Social Ties and Word-of-Mouth Referral Behavior," In Proc. Journal of Consumer Research, JCR, Vol.1, No.3, pp. 350-362, 1987

상세보기
권용석, 김상욱, 박선주, "블로그 월드에서 정보 파급 분석", 한국정보처리 춘계학술 발표대회 Vol. 15, No.1, pp. 223-226, 2008
D. Kempe, J. Kleinberg, and E. Tardos, “Maxi-mizing the Spread of Influence through a Social Network,” In Proc. ACM Int'l. Conf. on Know-ledge Discovery and Data Mining, ACM SIGKDD, pp 137-l46, 2003
M. Granovetter, “Threshold Models of Collective Behavior,” In Proc. American Journal of Sociology, Vol.83, No.6, pp. 1420-1443, 1978

상세보기
D. Gruhi et al., “Information Diffusion Through Blogspace,” In Proc. Int'l. Conf. on World Wide Web, WWW, pp. 491-501, 2004
A. Java et al., “Modeling the Spread of Influence on the Blogosphere,” In Proc. Int’l. Conf. on World Wide Web, WWW, 2006
C. Ratanamahatana and E. Keogh, “Making Time-series Classification more Accurate using Learned Constraints,” In Proc. Int’l. Conf. on Society for Industrial and Applied Mathematics, SIAM, pp. 11-22, 2004

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증