블로그(blog)는 사용자가 글을 작성하여 게시할 수 있는 일종의 개인 웹사이트이며, 블로그는 다른 블로그와 관계를 맺을 수 있다 본 논문에서는 블로그와 블로그 간의 관계들로 이루어진 연결망을 블로그 연결망(blog network)이라고 정의한다. 블로그 연결망은 그 내부에 게시된 글의 목적에 따라 정보 중시 성향과 친분 중시 성향을 가질 수 있다. 블로그 연결망이 가지고 있는 각 성향의 정도는 블로그 연결망의 비즈니스 정책 결정에 중요한 요소로서 사용된다. 본 논문에서는 주어진 블로그 연결망과 두 성향의 정도를 판정하는 방안에 관하여 논의한다. 먼저, 데이타 마이닝 기법의 하나인 분류(classification)를 이용하여 블로그 연결망의 기본 단위인 관계 성향의 정도를 판정하고, 그 결과를 이용하여 주어진 연결망의 전체 성향의 정도를 판정한다. 또한, 블로그 연결망의 규모에 따라 성향의 정도가 좌우되는 문제를 해결하기 위한 기법을 제안한다. 본 논문에서는 제안하는 방안의 우수성을 검증하기 위하여 실제 블로그 데이타를 이용한 다양한 실험을 수행한다. 실험 결과에 의하면, 판정된 관계 성향의 정도는 두 성향에 대하여 모두 약 93%의 높은 정확도를 보였다. 또한, 실제 블로그 연결망의 각 성향의 정도를 판정함으로써 제안하는 방안이 정보 중시 성향과 친분 중시 성향의 연결망을 올바르게 판정할 수 있는 지를 보였다.
블로그(blog)는 사용자가 글을 작성하여 게시할 수 있는 일종의 개인 웹사이트이며, 블로그는 다른 블로그와 관계를 맺을 수 있다 본 논문에서는 블로그와 블로그 간의 관계들로 이루어진 연결망을 블로그 연결망(blog network)이라고 정의한다. 블로그 연결망은 그 내부에 게시된 글의 목적에 따라 정보 중시 성향과 친분 중시 성향을 가질 수 있다. 블로그 연결망이 가지고 있는 각 성향의 정도는 블로그 연결망의 비즈니스 정책 결정에 중요한 요소로서 사용된다. 본 논문에서는 주어진 블로그 연결망과 두 성향의 정도를 판정하는 방안에 관하여 논의한다. 먼저, 데이타 마이닝 기법의 하나인 분류(classification)를 이용하여 블로그 연결망의 기본 단위인 관계 성향의 정도를 판정하고, 그 결과를 이용하여 주어진 연결망의 전체 성향의 정도를 판정한다. 또한, 블로그 연결망의 규모에 따라 성향의 정도가 좌우되는 문제를 해결하기 위한 기법을 제안한다. 본 논문에서는 제안하는 방안의 우수성을 검증하기 위하여 실제 블로그 데이타를 이용한 다양한 실험을 수행한다. 실험 결과에 의하면, 판정된 관계 성향의 정도는 두 성향에 대하여 모두 약 93%의 높은 정확도를 보였다. 또한, 실제 블로그 연결망의 각 성향의 정도를 판정함으로써 제안하는 방안이 정보 중시 성향과 친분 중시 성향의 연결망을 올바르게 판정할 수 있는 지를 보였다.
A blog is a personal website where its owner publishes his/her articles for others. A blog can have relationships with other blogs. In this paper, we define a network that is composed of blogs connected together with such relationships as a blog network. Blog networks can have two different propensi...
A blog is a personal website where its owner publishes his/her articles for others. A blog can have relationships with other blogs. In this paper, we define a network that is composed of blogs connected together with such relationships as a blog network. Blog networks can have two different propensities characterized by the articles published in the blogs: information-valued propensity and friendship-valued propensity. The degree of each propensity of a blog network plays an important role in deciding business policies for blog networks. In this paper, we address the problem of determining the degrees of two propensities of a given blog network. First, we determine the degree of the propensity of every relationship, a basic unit of a blog network, by using classification that is one of data mining functionalities. Then, by utilizing the result thus obtained, we compute the degrees of two propensities of the whole blog network. Also, we propose a method to solve the problem that the degree of propensities depends on the size of blog networks. To verify the superiority of the proposed approach, we perform extensive experiments using a huge volume of real-world blog data. The results show that our approach provides high accuracy of around 93% in determining the degrees of both propensities of relationships between arbitrary two blogs. We also verify the applicability of the proposed approach by showing that if determines the degrees of the information-valued and friendship-valued propensities correctly in real-world blog networks.
A blog is a personal website where its owner publishes his/her articles for others. A blog can have relationships with other blogs. In this paper, we define a network that is composed of blogs connected together with such relationships as a blog network. Blog networks can have two different propensities characterized by the articles published in the blogs: information-valued propensity and friendship-valued propensity. The degree of each propensity of a blog network plays an important role in deciding business policies for blog networks. In this paper, we address the problem of determining the degrees of two propensities of a given blog network. First, we determine the degree of the propensity of every relationship, a basic unit of a blog network, by using classification that is one of data mining functionalities. Then, by utilizing the result thus obtained, we compute the degrees of two propensities of the whole blog network. Also, we propose a method to solve the problem that the degree of propensities depends on the size of blog networks. To verify the superiority of the proposed approach, we perform extensive experiments using a huge volume of real-world blog data. The results show that our approach provides high accuracy of around 93% in determining the degrees of both propensities of relationships between arbitrary two blogs. We also verify the applicability of the proposed approach by showing that if determines the degrees of the information-valued and friendship-valued propensities correctly in real-world blog networks.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
있다. 따라서 본 논문에서는 블로그 연결망을 성향 판정 할 수 있는 새로운 방안을 제시하고자 한다.
이러한 연구들은 모두 사회연결망을 대상으로 이질적인 특징을 가지는 구성원 집단을 구분한다는 점에서 공통점이 있으나, 본 논문에서 해결하고자 하는 성향 판정에 적용하기에는 부적합하다. 따라서 본 논문에서는 블로그 연결망의 성향 정도를 판정할 수 있는 다음과 같은 새로운 방안을 제안한다.
그러나 이런 단순한 방식은 블로그 연결망의 규모에 따라서 성향 정도가 좌우되는 문제를 유발시킨다. 따라서 본 논문에서는 이러한 문제를 해결하기 위하여 연결망의 규모를 결정하는 블로그 수와 관계의 수를 이용하여 평균 성향의 정도를 구하는 기법을 제시하였다.
따라서 본 논문에서는 한 쪽 성향이 강하다고 추측되는 각각의 블로그 연결망과 무작위로 선택된 블로그 연결망에 대해서 성향을 판정하고, 그 결과를 상호비교함으로써 본 논문에서 제안하는 방안의 적용 가능성을 보이고자 한다.
그러나 성향의 정도에 대해서 각 사용자마다 주관적으로 판단하므로 객관적으로 성향 정도를 판정할 수 있는 기준이 필요하다. 따라서 본 설문 조사에서는 각 관계에 직접적으로 관여하는 두 블로그 사용자에게 각 성향이 강하다고 판단되는 글의 종류를 제시하고, 제시된 글을 사용자와 직접적으로 관계가 있는 다른 블로그에서 얼마나 자주 보았는지 질의한다. 그 후에 설문 조사 결과를 계량화함으로써 각 관계의 실제 성향 정도를 판정한다.
이것은 본 논문에서 판정하고자 하는 각 성향과 정도에 대응되는 개념으로 볼 수 있다. 따라서 이 연구에서 필요로 하는 다양한 형태의 관계와 그 관계의 정도를 본 논문에서 제시하는 방안을 이용하여 제공할 수 있다.
만약 블로그 연결망의 성향 판정을 단순히 관계 성향 점수의 합만으로 할 경우 블로그 연결망 A가 블로그 연결망 B 보다 성향의 정도가 낮은 것으로 판정된다. 따라서, 본 논문에서는 이와 같이 블로그 연결망의 규모에 따라서 연결망의 성향 정도가 좌우되는 문제를 해결하기 위해서 연결망의 규모를 결정하는 블로그의 수와 관계의 수로 연결망 성향 정도의 평균값을 계산하는 두 가지 기법을 제시한다.
그러나 이런 단순한 방식은 블로그 연결망의 규모에 따라서 성향의 정도가 좌우되는 문제를 유발시킨다. 본 논문에서는 이러한 문제를 해결하기 위하여 연결망의 규모를 결정하는 블로그 수와 관계의 수를 이용하여 평균 성향의 정도를 구하는 기법을 제시한다. 본 논문에서는 제시한 성향 판정 방안의 정확도와 적용 가능성을 검증한다.
블로그 연결망을 효과적으로 활성화하기 위해서는 블로그 연결망의 성향 정도를 판정하는 것이 매우 중요하다. 본 논문에서는 임의의 블로그 연결망의 성향을 판정할 수 있는 방안에 관하여 논의하였다.
어떤 블로그 연결망에서는 사용자들이 주식, 여행 등과 관련된 정보성 글을 작성하고 수집한다. 본 논문에서는 정보의 전파와 수집을 목적으로 글을 주고받는 성향을 정보 중시 성향이라고 정의한다. 반면, 어떤 블로그 연결망에서는 사용자들이 안부, 소식 등과 같은 사용 자간의 관계를 유지하고 발전시키기 위한 글을 작성한다.
본 논문에서는 이러한 문제를 해결하기 위하여 연결망의 규모를 결정하는 블로그 수와 관계의 수를 이용하여 평균 성향의 정도를 구하는 기법을 제시한다. 본 논문에서는 제시한 성향 판정 방안의 정확도와 적용 가능성을 검증한다. 먼저, 블로그들 간의 관계에 대한 성향 판정의 정확도를 검증한다.
본 논문에서는'두 블로그 간 관계 성향을 판정하기 위해서 설문 조사를 실시한다. 사용자는 자신이 직접적으로 관여하는 관계에 대한 성향 정도에 대해서 알 수 있다.
본 연구에서는 주어진 블로그 연결망의 성향 정도를 판정하는 방안에 대하여 논의하였다. 향후 과제로서 제안된 성향 판정 방안을 기반으로 전체 블로그 연결망에서 특정 성향이 강한 부분 블로그 연결망을 추출하는 방안에 대해서 연구하고자 한다.
설문 조사를 통해서 얻고자 하는 결과가 관계 성향 정도이므로 본 연구에서의 클래스 레이블은 각 관계의 성향 정도이다. 본 절에서는 설문 조사를 통해서 얻은 결과를 이용해서 클래스 레이블을 결정하는 절차에 대해서 논의한다.
클러스터란 유사한 특징의 구성원들로 이루어진 집단을 의미한다[23]. 이 연구는 클러스터와 클러스터 사이에는 약한 연결만이 존재한다는 사회연결망의 특징을 이용해서 클러스터를 파악한다[5]. 클러스터는 블로그 연결망에서 하나의 성향이 강한 부분 블로그 연결망과 대응되는 개념이다.
가설 설정
정보 중시 성향이 강한 연결망과 무작위로 추출한 블로그 연결망 그리고 친분 중시 성향이 강한 연결망과 무작위로 추출한 블로그 연결망의 성향 판정 점수를 비교하여 제안된 블로그 연결망의 성향판정 기법의 적용 가능성을 검증한다. 실험에서는 친분 중시 성향이 강한 연결망을 친분 중시 연결망, 정보 중시. 성향이 강한 연결망을 정보 중시 연결망, 무작위로 블로그를 추출한 블로그 연결망을 무작위 연결 망이라고 한다
참고문헌 [21]에서는 다양한 관계가 존재하는 사회연결망과 임의의 그룹이 주어졌을 때, 임의의 그룹을 형성하는데 관여하는 관계들을 도출하고, 도출된 각 관계가 해당 그룹을 형성하는데 얼마나 관여했는지 파악하는 기법을 제시하였다. 이 연구에서는 사회연결망 내 구성원 간에는 다양한 형태의 관계와 그 관계의 정도가 존재한다고 가정한다. 이것은 본 논문에서 판정하고자 하는 각 성향과 정도에 대응되는 개념으로 볼 수 있다.
제안 방법
판정 문제로 분할하였다. 관계 성향 판정은 직접 관계에 참여하는 두 블로그 사용자에게 설문을 통하여 그 정도를 판정하고, 그 결과를 데이타 마이닝의 분류 기법을 이용하여 자동화하였다. 분류 기법을 통해서 판정된 관계 성향 정도를 이용하여 전체 블로그 연결망의 성향 정도를 판정하였다.
따라서 본 설문 조사에서는 각 관계에 직접적으로 관여하는 두 블로그 사용자에게 각 성향이 강하다고 판단되는 글의 종류를 제시하고, 제시된 글을 사용자와 직접적으로 관계가 있는 다른 블로그에서 얼마나 자주 보았는지 질의한다. 그 후에 설문 조사 결과를 계량화함으로써 각 관계의 실제 성향 정도를 판정한다. 설문은 정보 중시 성향에 대해서 물어보는 문항들과 친분 중시 성향에 대해서 물어보는 문항들로 구성된다.
클러스터는 블로그 연결망에서 하나의 성향이 강한 부분 블로그 연결망과 대응되는 개념이다. 그러나 이 논문에서 제시한 기법은 사회연결망의 위상 구조적 특성만을 가지고 클러스터를 찾아내는 방식을 사용한다. 블로그 연결망의 성향은 내부에 게재된 글에 의해 나타나므로 위상 구조적 특성만으로 블로그 연결망의 성향을 판정하는 것은 좋은 해결 방안이 될 수 없다.
그러나 하나의 관계에 대해서 두 명의 블로그 사용자에게 설문 조사를 실시하였으므로 그 관계 맺고 있는두 명의 설문 결과를 합하고 평균을 내어서 관계 성향점수를 산출한다. 또한 분류 모델을 만들기 위해서 산출된 성향 점수를 클래스 레이블로 변환한다.
첫째는 의사결정트리에 의해 얻어진 성향 정도와 설문지를 통해서 얻은 실제 성향 정도 간에 일치 여부인 적중률을 측정한다. 둘째, 의사결정트리에 의해 얻어진 성향 정도와 설문지를 통해서 얻은 실제 성향 정도간의 오차를 예측단계와 실제단계의 차이로 측정한다. 적중률 외에도 오차를 측정하는 이유는 성향 정도를 상, 중, 하로 나타낼 때 예측이 맞지 않는 경우에도 한 단계 다른 경우와 두 단계 다른 경우는 구분되어야 하기 때문이다.
블로그 사용자는 자신이 연결망 내에서 직접 주고받는 글에 대해서만 글의 목적을 파악 할 수 있으나, 연결망 내의 자신과 직접 관련되지 않는 글들에 대해서는 목적을 파악할 수 없다. 따라서 본 논문에서는 먼저 블로그 연결망의 기본 단위인 하나의 관계의 성향을 그 관계에 참여하는 두 블로그 사용자들에게 판정하게 하고, 이런 방식으로 판정된 관계들의 성향을 이용해서 전체 블로그 연결망의 성향을 판정하는 방식을 제안한다.
그러나 블로그 연결망에는 관계에 대한 데이타는 없고 블로그들에 대한데이타만 존재한다. 따라서 본 연구에서는 하나의 관계에 속한 두 블로그의 데이타를 이용해서 관계에 대한 속성을 생성한다. 생성된 전체 관계 속성의 수는 30개다.
두 블로그들 간 관계의 성향 정도는 해당 블로그 사용자들이 스스로 판정할 수 있다. 따라서 블로그 사용자에게 자신이 직접적으로 참여하는 관계에 대해서 설문을 통하여 성향 정도를 질의하고, 그 결과를 이용해서 블로그 연결망이 가지고 있는 전체 성향 정도를 판정한다. 그러나 블로그 연결망에 대한 성향 판정이 요구 될 때마다 매번 블로그 사용자에게 성향의 정도에 관하여 질의 할 수는 없다.
최종 정확도는 각 단계마다 측정된 정확도의 평균이다. 또한, 연결망 성향 판정에 대한 실험을 위하여 실제 블로그 세계에서 각 성향이 강하다고 판단되는 블로그 연결망들을 추출하였다.
제안하는 방안은 약 91% 에서 94%까지의 높은 정확도를 보였다. 또한, 특정 성향이 강한 블로그 연결망과 무작위로 추출한 블로그 연결망이 가지는 성향 정도를 서로 비교함으로써 제안된 성향판정 방안의 적용 가능성을 검증한다. 그 결과, 특정 성향이 강한 블로그 연결망이 무작위로 추출된 블로그 연결망보다 특정 성향의 정도가 높은 것으로 나타났다.
먼저, 블로그 연결망의 기본 단위인 블로그들 간의 관계에 대해서 성향의 정도를 판정하고, 그 결과를 이용해서 블로그 연결망이 가지고 있는 성향의 정도를 판정한다. 두 블로그들 간 관계의 성향 정도는 해당 블로그 사용자들이 스스로 판정할 수 있다.
본 논문에서는 제시한 성향 판정 방안의 정확도와 적용 가능성을 검증한다. 먼저, 블로그들 간의 관계에 대한 성향 판정의 정확도를 검증한다. 제안하는 방안은 약 91% 에서 94%까지의 높은 정확도를 보였다.
이 공식은 성향에 따른 문항들에 대하여 사용자가 선택한 보기의 점수(Wi)를 합한 값이 총 성향 점수가 됨을 보여준다. 본 논문에서 실시한 설문 조사에서는 각 성향에 대한 문항이 3개씩 존재했으므로 3개의 문항에 대한 점수의 합으로 각 관계의 성향 정도를 판정할 수 있다. 예를 들어, 어떤 블로그 사용자가 친분 중시 성향에 대한 세 문항에 대해서 모두 "하루에 한번 이상” 이라고 답하고, 정보 증시 성향에 대한 세 문항에 대해서 모두 "한 달에 한번 이상”이라고 답한 경우, 친분 성향점수는 90(3×30)점이 되고 정보 중시 성향 점수는15(3x5)점이 된다.
본 절에서는 제4.2절에서 제시한 기법으로 구한 관계들의 성향 정도를 이용하여 주어진 연결망의 전체 성향 정도를 판정하는 기법에 대하여 언급한다.
관계 성향 판정은 직접 관계에 참여하는 두 블로그 사용자에게 설문을 통하여 그 정도를 판정하고, 그 결과를 데이타 마이닝의 분류 기법을 이용하여 자동화하였다. 분류 기법을 통해서 판정된 관계 성향 정도를 이용하여 전체 블로그 연결망의 성향 정도를 판정하였다.
블로그 연결망의 성향 판정 방안은 주어진 연결망 전체의 성향 판정 문제를 연결망이 가지고 있는 관계 성향 판정 문제로 분할하였다. 관계 성향 판정은 직접 관계에 참여하는 두 블로그 사용자에게 설문을 통하여 그 정도를 판정하고, 그 결과를 데이타 마이닝의 분류 기법을 이용하여 자동화하였다.
있는 35,000 관계를 무작위로 선택했다. 설문 조사는 블로그에서 직접 이루어졌다. 설문 조사에 대해서 실제 블로그 데이타의 유사성을 비교하는 전처리 과정을 수행했다.
설문 조사는 블로그에서 직접 이루어졌다. 설문 조사에 대해서 실제 블로그 데이타의 유사성을 비교하는 전처리 과정을 수행했다. 그 결과 유효한 관계의 수는 1408개였다.
그 후에 설문 조사 결과를 계량화함으로써 각 관계의 실제 성향 정도를 판정한다. 설문은 정보 중시 성향에 대해서 물어보는 문항들과 친분 중시 성향에 대해서 물어보는 문항들로 구성된다. 정보 중시 성향에 대한 문항과 친분 중시 성향에 대한 문항은 각각 세 개씩이다.
의사결정트리는 C5.0 알고리즘을 이용하였으며 입 력데이타로 선물의 수, 스크랩 수, 덧글의 수, 방명록에 남긴 글의 수, 블로그 생성일의 차이 등 총 30개의 관계속성을 사용하였다. 의사결정트리에 대한 검증은 전체관계 정보들을 10개의 집합으로 나누고, 그 중에 9개를 학습 데이타로 1개를 테스트 데이타로 사용하여 각 단계마다 학습 데이타와 테스트 데이타를 바꾸어 10번에 걸쳐 정확도를 측정한다.
0 알고리즘을 이용하였으며 입 력데이타로 선물의 수, 스크랩 수, 덧글의 수, 방명록에 남긴 글의 수, 블로그 생성일의 차이 등 총 30개의 관계속성을 사용하였다. 의사결정트리에 대한 검증은 전체관계 정보들을 10개의 집합으로 나누고, 그 중에 9개를 학습 데이타로 1개를 테스트 데이타로 사용하여 각 단계마다 학습 데이타와 테스트 데이타를 바꾸어 10번에 걸쳐 정확도를 측정한다. 최종 정확도는 각 단계마다 측정된 정확도의 평균이다.
이 연구는 인용이라는 관계를 통해서 형성된 사회연결망을 분석하여 저자들을 분류하고 있다. 블로그 연결망의 성향 판정 문제는 블로그 연결망의 성향 정도를 판정하는 문제이므로 일종의 분류 문제로 해석되어 질 수 있다는 점에서 이 문제와 유사한 부분이 있다.
각 화살표는 관계를 맺은 방향을 의미하며 화살표가 한쪽으로 되어 있는 것은 이웃을 의미하고, 양쪽으로 되어 있는 것은 상호 이웃을 의미한다. 정보 중시 성향이 강한 연결망과 무작위로 추출한 블로그 연결망 그리고 친분 중시 성향이 강한 연결망과 무작위로 추출한 블로그 연결망의 성향 판정 점수를 비교하여 제안된 블로그 연결망의 성향판정 기법의 적용 가능성을 검증한다. 실험에서는 친분 중시 성향이 강한 연결망을 친분 중시 연결망, 정보 중시.
제4장에서는 본 논문에서 제안하는 블로그 연결망의 성향 판정 방안에 대하여 상세히 설명한다. 제5장에서 다양한 실험을 통해서 본 논문에서 제안하는 방안에 대한정확도를 검증한다. 마지막으로, 제6장에서는 본 논문에 대한 결론을 내리며, 향후 연구 방향을 제시한다.
본 논문에서는 두 블로그 간 관계의 성향 판정을 위하여 데이타 마이닝의 분류 기법을 사용한다[23]. 즉, 블로그 사용자들에 의해서 실제 성향 정도가 제시된 관계 집합을 학습 데이타로 이용하여 학습을 수행하고, 학습된 결과를 이용하여 새로 주어진 블로그 연결망의 성향을 자동적으로 판정하는 방식을 채택한다.
관계 성향 판정에 대한 정확도는 다음과 같이 두 가지 방식으로 측정한다. 첫째는 의사결정트리에 의해 얻어진 성향 정도와 설문지를 통해서 얻은 실제 성향 정도 간에 일치 여부인 적중률을 측정한다. 둘째, 의사결정트리에 의해 얻어진 성향 정도와 설문지를 통해서 얻은 실제 성향 정도간의 오차를 예측단계와 실제단계의 차이로 측정한다.
대상 데이터
본 실험에서 사용한 데이타는 2006년에 수개월간 수집된 블로그 데이타를 이용하였으며, 데이타 수집 기간 동안 자신 또는 타인의 블로그에 한 번도 방문하지 않은 블로그 사용자는 실험에서 제외하였다.
설문 조사의 대상자는 블로그 연결망 내에 존재하는 모든 관계들 중에서 조사 기간 중에 글을 주고받은 적이 있는 35,000 관계를 무작위로 선택했다. 설문 조사는 블로그에서 직접 이루어졌다.
선택된 블로그와 관계를 맺고 있는 블로그들 중에서 선택된 블로그가 가지고 있는 글을 스크랩한 적이 있는 블로그들을 추출한다. 추출된 블로그들 중에서 다른 블로그에 방문한 수가 많은 순으로 100개의 블로그들을 선택한다. 친분 중시 성향이 강한 연결망은 다른 블로그들과 상호 관계를 많이 맺고 있는 블로그를 선택한다.
선택한 이 블로그를 중심으로 상호관계를 맺고 있는 블로그들을 추출한다. 추출된 블로그들 중에서 방문수가 많은 순으로 100개의 블로그들을 선택한다. 무작위 연결망은 무작위로 선택한 블로그를 중심으로 이 블로그와 관계를 맺고 있는 100개의 블로그들을 추출한다.
이론/모형
본 논문에서는 두 블로그 간 관계의 성향 판정을 위하여 데이타 마이닝의 분류 기법을 사용한다[23]. 즉, 블로그 사용자들에 의해서 실제 성향 정도가 제시된 관계 집합을 학습 데이타로 이용하여 학습을 수행하고, 학습된 결과를 이용하여 새로 주어진 블로그 연결망의 성향을 자동적으로 판정하는 방식을 채택한다.
본 논문에서는 분류 모델을 만들기 위해서 가장 보편적인 방법인 의사결정트리(decision trees)를 사용한다. 이외에도 신경망, 베이시안 분류, 지네틱 알고리즘 등과 같은 다른 분류 기법을 이용하는 것도 가능하다.
그러나 블로그 연결망에 대한 성향 판정이 요구 될 때마다 매번 블로그 사용자에게 성향의 정도에 관하여 질의 할 수는 없다. 본 논문에서는 성향 판정을 자동화하기 위해서 데이타 마이닝의 분류 기법 (classification) [23]을 이용한다.
성능/효과
친분 중시 연결망은 두 가지 평균 기법으로 얻어진 성향 정도가 무작위 연결망과 비교하여 모두 높게 나타났다. 값의 차이는 블로그 수를 통한 평균의 경우 1.19이고, 관계의 수를 통한 평균의 경우 0.27로서 친분 중시 연결망이 무작위 연결망보다 각 평균 기법에서 37%와 20% 높은 값을 가지는 것을 의미한다. 따라서 친분 중시 성향에 대해서 블로그'수를 통한 평균과 관계 수를 통한 평균 방안 모두 사용 가능하다.
따라서 본 논문에서는 한 쪽 성향이 강하다고 추측되는 각각의 블로그 연결망과 무작위로 선택된 블로그 연결망에 대해서 성향을 판정하고, 그 결과를 상호 비교함으로써 본 논문에서 제안하는 방안의 적용 가능성을 보였다. 그 결과, 주어진 연결망의 성향 판정 결과는 친분 중시 연결망이 무작위 연결망보다 관계의 수를 통한 평균 기법에서 0.27(20%) 높았고 블로그 수를 통한 평균 기법에서 1.19(37%) 높았다. 정보 중시 연결망은 무작위 연결망보다 관계의 수를 통한 평균 기법은 0.
또한, 특정 성향이 강한 블로그 연결망과 무작위로 추출한 블로그 연결망이 가지는 성향 정도를 서로 비교함으로써 제안된 성향판정 방안의 적용 가능성을 검증한다. 그 결과, 특정 성향이 강한 블로그 연결망이 무작위로 추출된 블로그 연결망보다 특정 성향의 정도가 높은 것으로 나타났다.
단계의 수가 늘어남에 따라 적중률이 약간 감소하는데 이는, 단계의 수가 늘어남에 따라 관계가 가질 수 있는 클래스레이블의 종류가 많아지기 때문이다. 그러나 제안한 기법은 큰 영향 없이 높은 정확도를 보인다. 따라서 본 논문에서 제안하는 방안의 정확도가 높다는 것이 입증된다.
첫째로 사용자가 자신의 블로그에 할 수 있는 행동들로는 자신의 게시글을 보는 것, 자신의 블로그에 게시글을 작성하는 것, 자신의 블로그에 타인의 게시글에 대해서 링크를 만들거나 자신의 블로그로 타인의 게시글을 복사해서 가져오는 스크랩이 있다. 둘째, 사용자가 타인의 블로그에 할 수 있는 행동들로는 타인의 게시글을 보는 것, 타인의 게시글에 대해서 의견을 쓰는 덧글이 있다. 블로그 사용자는 관심이 있는 타인의 블로그와 자신의 블로그 사이에 관계를 맺을 수 있다.
그러나 제안한 기법은 큰 영향 없이 높은 정확도를 보인다. 따라서 본 논문에서 제안하는 방안의 정확도가 높다는 것이 입증된다.
주어진 연결망의 전체성향 판정은 실제 성향 정도를 파악할 수 없으므로 직접적으로 정확도를 측정하기 어렵다. 따라서 본 논문에서는 한 쪽 성향이 강하다고 추측되는 각각의 블로그 연결망과 무작위로 선택된 블로그 연결망에 대해서 성향을 판정하고, 그 결과를 상호 비교함으로써 본 논문에서 제안하는 방안의 적용 가능성을 보였다. 그 결과, 주어진 연결망의 성향 판정 결과는 친분 중시 연결망이 무작위 연결망보다 관계의 수를 통한 평균 기법에서 0.
본 논문에서 제안한 방안은 관계 성향 판정에 대해서두 성향 모두 적중률은 약 91-94%이며 오차는 0.07- 0.23으로 높은 정확도를 보였다. 주어진 연결망의 전체성향 판정은 실제 성향 정도를 파악할 수 없으므로 직접적으로 정확도를 측정하기 어렵다.
단계의 수가 증가함에 따라 오차도 조금씩 증가하는데 이는 단계수가 3일 때는 최대오차가 2이나 단계 수가 9일 때는 최대오차가 8이기 때문이다. 본 실험을 통해서 제안한 방안의 오차가 적다는 것을 알 수 있다.
69(27%) 낮았다. 연결망을 성향 판정함에 있어서 친분 중시 성향 판정에 대해서는 블로그 수를 통한 평균과 관계 수를 통한 평균 기법 모두 사용 가능하며, 정보 중시 성향 판정에 대해서는 관계 수를 통한 평균 방안만이 사용 가능함을 보였다.
나타낸다. 정보 중시 연결망은 관계 수를 통한 평균 성향 점수가 무작위 연결망과 비교하여 0.29(21%) 높게 나타났다. 그러나 블로그 수를 통한 평균 성향 점수는 무작위 연결망보다 오히려 0.
19(37%) 높았다. 정보 중시 연결망은 무작위 연결망보다 관계의 수를 통한 평균 기법은 0.29(21%) 높았으나, 블로그 수를 통한 평균 기법은 0.69(27%) 낮았다. 연결망을 성향 판정함에 있어서 친분 중시 성향 판정에 대해서는 블로그 수를 통한 평균과 관계 수를 통한 평균 기법 모두 사용 가능하며, 정보 중시 성향 판정에 대해서는 관계 수를 통한 평균 방안만이 사용 가능함을 보였다.
먼저, 블로그들 간의 관계에 대한 성향 판정의 정확도를 검증한다. 제안하는 방안은 약 91% 에서 94%까지의 높은 정확도를 보였다. 또한, 특정 성향이 강한 블로그 연결망과 무작위로 추출한 블로그 연결망이 가지는 성향 정도를 서로 비교함으로써 제안된 성향판정 방안의 적용 가능성을 검증한다.
블로그를 통해서 사용자가 할 수 있는 행동은 크게 자신의 블로그에 할 수 있는 행동과 타인의 블로그에 할 수 있는 행동으로 구분할 수 있다. 첫째로 사용자가 자신의 블로그에 할 수 있는 행동들로는 자신의 게시글을 보는 것, 자신의 블로그에 게시글을 작성하는 것, 자신의 블로그에 타인의 게시글에 대해서 링크를 만들거나 자신의 블로그로 타인의 게시글을 복사해서 가져오는 스크랩이 있다. 둘째, 사용자가 타인의 블로그에 할 수 있는 행동들로는 타인의 게시글을 보는 것, 타인의 게시글에 대해서 의견을 쓰는 덧글이 있다.
나타낸다. 친분 중시 연결망은 두 가지 평균 기법으로 얻어진 성향 정도가 무작위 연결망과 비교하여 모두 높게 나타났다. 값의 차이는 블로그 수를 통한 평균의 경우 1.
단계 수 9는 성향 정도를 아홉 단계로 나눈 경우이다. 표에서 볼 수 있듯이 친분 중시 성향과 정보 중시 성향 모두 단계 수와 상관없이 약 93%의 높은 적중률을 보인다. 단계의 수가 늘어남에 따라 적중률이 약간 감소하는데 이는, 단계의 수가 늘어남에 따라 관계가 가질 수 있는 클래스레이블의 종류가 많아지기 때문이다.
후속연구
따라서, 비즈니스의 대상이 되는 블로그 연결망의 두 성향 정도를 파악할 수 있다면, 블로그 연결망에 효과적이고 적절한 비즈니스 기법을 적용할 수 있을 것이다. 이와 연관된 기존 연구로는 사회연결망의 위상 구조적 특성을 이용해서 유사한 특징의 구성원들로 이루어진 집단을 찾는 연구[20], 사회연결망에서 임의의 사용자 그룹이 주어졌을 때 그 그룹을 형성하는데 관여하는 관계들과 그 관여 정도를 파악하는 연구[21], 그리고 뉴스 그룹을 사용하는 사람들을 특정한 의견에 대하여 찬성하는 사람들과 반대하는 사람들로 분류하는 연구[22] 등이 있었다.
Gie G의 부분 연결망을 나타낸다. 주어진 부분 연결망 Gi에 대한 성향 판정을 통하여 부분 연결망 (上의 정보 중시 성향 정도와 친분 중시 성향 정도를 파악할 수 있으며, 이 결과를 다양한 비즈니스 정책 결정에 활용할 수 있다.
방안에 대하여 논의하였다. 향후 과제로서 제안된 성향 판정 방안을 기반으로 전체 블로그 연결망에서 특정 성향이 강한 부분 블로그 연결망을 추출하는 방안에 대해서 연구하고자 한다.
참고문헌 (24)
S. Wasserman and K. Faust, Social Network Analysis : Methods and Applications, Cambridge University Press, 1994
S. Redner, “How Popular Is Your Paper?,” European Physics Journal B, Vol.4, No.2, pp. 131-134, 1998
D. Watts, Small Worlds : The Dynamics of Net-works Between Order and Randomness, Princeton, New Jersey: Princeton University Press, 1999
L. Adamic, O. Buyukkokten, and E. Adar, “A Social Network Caught in the Web,” First Monday, Vol.8, No.6, pp 1-22, 2003
R. Kumar, J. Novak, and A Tomkins, “Structure and Evolution of Online Social Networks,” In Proc. Int'l Conf. on Knowledge Discovery and Data, pp. 611-617, 2006
(주)SK Communications, http://www.cyworld.com
(주)엠파스, http://blog.empas.com
(주)아이세이브존, http://www.isavezone.com
(주)NHN, http://blog.naver.com
A. Chin and M. Chignell, “A Social Hypertext Model for Finding Community in Blogs,” In Proc. Int'l. Conf. on Hypertext and Hypermedia, pp. 11-22, 2006
S. Gardner, Buzz Marketing With Blogs For Dummies, John Wiley & Sons Inc, 2005
R. Scoble and S. Israel, Naked Conversations, John Wiley & Sons Inc, 2006
J. Wright, Blog Marketing, McGraw-Hill, 2005
M. Girvan and M. Newman, "Community Stru-cture in Social and Biological Networks," In Proc. National Acadamic Science, Vol.99, No.12, pp. 7821-7826, 2002
D. Cai et al., “Mining Hidden Community in Heterogeneous Social Networks,” In Proc. Int'l Workshop on Link Discovery: Issues, Approaches and Applications, pp. 58-65, 2005
R. Agrawal et al., “Mining Newsgroups Using Networks Arising From Social Behavior,” In Proc. Int'l Conf. on World Wide Web, pp. 529-535, 2003
J. Han and M. Kamber, Data Mining: Concepts and Techniques, Academic Press, 2001
※ AI-Helper는 부적절한 답변을 할 수 있습니다.