[논문]코사인 유사도 기반의 인터넷 댓글 상 이상 행위 분석 방법

김민재; 이상진

doi:10.13089/jkiisc.2014.24.2.335

초록
AI-Helper

인터넷의 발달로 대중의 여론에 영향을 주는 인터넷 매체의 신뢰성이 중요해지는 반면 최근의 익명성을 이용한 리뷰 조작 등의 사례는 대중들에게 막연한 의구심을 들게 한다. 본 연구에서는 이러한 사이버 여론 조작과 관련된 현상이 인터넷 게시판 등 웹사이트에도 존재하는지 여부를 수치적으로 살펴보기 위하여 댓글의 요소를 분석하고 내용을 코사인 유사도를 이용하여 비교하였다. 분석 결과 첫째, 댓글 내용의 유사성은 댓글 순위에 의한 게시글의 랭킹과 상관관계가 있었으며 분석 대상 2개 웹사이트에 대해서는 14.1%와 2.6%가 유사한 댓글로 구성되어 있었다. 둘째, 사이버 여론 조작에 일반적으로 이용되는 기법인 과다한 중복 게시 행위와 실제로는 동일인이지만 여러 명으로 위장한 것으로 추정되는 사용자를 파악 할 수 있었다.

Abstract ▼ AI-Helper

It is more important to ensure the credibility of internet media which influence the public opinion. However, there are vague suspicions in public from the examples of manipulation of online reviews with anonymity. In this study, we explore the possibility of manipulating public opinion in online we...

It is more important to ensure the credibility of internet media which influence the public opinion. However, there are vague suspicions in public from the examples of manipulation of online reviews with anonymity. In this study, we explore the possibility of manipulating public opinion in online web sites. We investigate the characteristics of comments posted by users on web sites and compare each comments by using the cosine similarity function. Our result shows followings. First, we found a correlation between the similarities of comments and the article ranks in the web sites. Second, it is possible to identify abnormal user activities indicating excessive multiple posting, double posting and astroturf activities.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 사이버 여론 조작으로 의심되는 행위가 존재하는지 여부를 파악하고자 하였으며 코사인 유사도를 이용하여 분석하는 방법을 제안하였다. 포털 사이트 내 정치, 경제, 사회, 연예 등의 구분을 고려하지 않았고 게시하는 이용자의 내용적인 의미는 분류하지 않았으므로 향후 다양한 데이터 마이닝 기법을 추가로 적용하면 더욱 상세한 분석이 가능할 것이다.
본 연구에서는 이러한 사이버 여론 조작과 관련된 이상 행위가 존재하는지 여부를 살펴보고자 하며 게시자ID 등의 요소를 분석하고 댓글의 유사성을 코사인 유사도를 이용하여 비교함으로써 조작을 의심하게 하는 패턴을 파악하고자 한다.
본 연구에서는 주요 포털사이트의 댓글을 분석함으로써 사이버 여론 조작의 가능성이 존재하는지 살펴보고자 하며 전체적인 흐름은 Fig.1.과 같다.
분석의 목적은 댓글의 유사성이 인터넷 이용자들에게 직접 노출되는 정보인 댓글 순위 등의 지표에 영향을 주는지 여부를 판단하고, 일반적으로 사이버 여론조작에 이용되는 기법인 유사글 중복 게시 행위와 애스트로터퍼(astroturfer)로 불리는 실제로는 동일인이지만 여러 명으로 위장하는 사례가 존재하는지 파악하는 것이며 분석 방법은 Table 2.와 같다.

제안 방법

각 게시글에 달린 댓글들에 대하여 임의로 두 개씩의 댓글을 추출한 후 유사도를 측정하였다. 단, 다음과 같은 경우 측정에서 제외하였는데, 댓글의 길이가 너무 짧은 경우, 예를 들어 “공감합니다”, “나도 찬성”과 같은 문장과 동일한 문장이 발견되었다고 하여 유사 댓글로 판단하기 어렵기 때문이다.
댓글의 서로 같거나 다름을 구분하기 위해서 댓글을 하나의 개체로 취급하고 유사도(similarity)를 적용하였다. 유사도는 거리(distance)와 서로 반대되는 개념으로서 거리 척도로는 유클리드 거리, 민코브스키 거리가 널리 쓰이며, 유사도 척도로는 피어슨 상 관계수, 코사인 계수와 정보 검색 분야에서 흔히 사용되는 내적 계수 등이 있다[13].
둘째, 이러한 순위와 관계가 있는 유사한 댓글을 게시하는 사용자들에게 어떠한 이상 행위가 존재하는지 분석하였다. 중복글 게시자는 게시 건수 기준으로 상위자 일부에게 집중되어 있음을 알 수 있었으며 익명성을 이용하여 실체를 위장한 것으로 추정되는 여러 개의 ID로 서로 다른 게시물에 유사한 댓글을 다는 사용자 ID가 발견되었다.
일반적으로 정보검색 분야에서는 문서 간 유사도 측정 시 검색 효율을 높이기 위하여 검색어와 사전에 생성된 문서의 색인 간 유사도를 측정하는 방법을 취하고 있다. 본 연구에서는 베스트 게시물 내 댓글 간 유사도를 측정하므로 비교 대상이 유한하고 효율성 보다는 정확성을 기하고자 하였으므로 색인을 이용하지 않았다.
5 ~ 1 사이에서 선정이 필요하며 서로 유사한 댓글들로만 구성된 그룹의 경향을 분석하기 위해서는 최대한 1에 가깝게 설정하여야 한다. 실험에서는 0.7 ~0.9 사이에서 임의 설정 후 댓글 순위에 대해 유사 댓글 그룹과 그렇지 않은 그룹 간에 차이가 존재하는지를 검정하였다.
유사글 게시 행위가 웹사이트 내 게시물의 순위에 영향을 주는지 여부와 중복 및 과다 게시 등 이상 행위가 존재하는지 여부를 판단하기 위해 포털사이트의 게시글과 댓글을 분석하였다.

대상 데이터

데이터는 다음 아고라와 네이버 뉴스의 베스트 게시글에 노출된 고유한 지표인 댓글 순위 등을 수집하였다. 기간은 해당 웹사이트에 대하여 2013년 6월 20일, 7월 20일, 8월 20일자를 임의 선정하였다. 게시글은 다음 아고라의 경우 베스트글 중 댓글이 많은 상위 20 위 내의 게시글을 대상으로 하였고, 네이버 뉴스의 경우 댓글이 많은 상위 20위 내 게시글 중 게시글 목록에 노출된 댓글수와 실제 댓글수가 크게 차이가 나는 게시글을 제외하고 수집하였다.
데이터는 다음 아고라와 네이버 뉴스의 베스트 게시글에 노출된 고유한 지표인 댓글 순위 등을 수집하였다. 기간은 해당 웹사이트에 대하여 2013년 6월 20일, 7월 20일, 8월 20일자를 임의 선정하였다.
2. 및 Fig.3.와 같이 2개 포털사이트의 베스트 게시글과 해당 게시글에 달린 댓글을 대상으로 수집하였으며 데이터 획득을 위한 URL은 Table 4.와 같으며 게시글과 댓글의 상세속성을 Table 5.와 같이 정의하였다.
포털사이트별 총 60개의 베스트 게시글에 대해 16,129건의 다음 아고라 댓글과 123,282건의 네이버 뉴스 댓글이 수집되었다. 베스트 글의 순위에 따라 해당 게시물에 달린 댓글의 수는 상이하며 하나의 게시글에 다음 아고라의 경우 최소 34개, 최대 3,817개의 댓글이 존재하며 네이버 뉴스의 경우 최소 344개, 최대 7,215개의 댓글이 존재하였다.

데이터처리

“비모수 검정 방법은 모집단의 분포함수에 대하여 모수형의 가정을 하지 않는 즉, 2개 이상의 분포함수를 포함하는 분포함수의 집합에서 성립하는 통계적 방법”[17]으로서 윌콕슨 부호순위 검정, 만-위트니 검정, 크루스칼-왈리스 검정 등이 있고 본 실험에서는 중앙값을 이용하는 만-위트니 검정을 통계 패키지 SPSS를 이용하여 분석하였다.
두 집단 간의 차이를 검정하는 통계적 방법에는 널리 사용되는 t-테스트가 존재하나 본 실험에서는 샘플로 이용되는 유사 댓글 비율과 댓글 순위가 정규 분포를 따르지 않았으므로 비모수 검정 방법을 이용하였다. “비모수 검정 방법은 모집단의 분포함수에 대하여 모수형의 가정을 하지 않는 즉, 2개 이상의 분포함수를 포함하는 분포함수의 집합에서 성립하는 통계적 방법”[17]으로서 윌콕슨 부호순위 검정, 만-위트니 검정, 크루스칼-왈리스 검정 등이 있고 본 실험에서는 중앙값을 이용하는 만-위트니 검정을 통계 패키지 SPSS를 이용하여 분석하였다.
한 개의 게시자 ID로 중복된 댓글을 과다하게 게시하거나 여러 개의 익명 ID를 이용하여 유사한 댓글을 게시하는 이용자의 존재 여부를 파악하기 위하여 패턴 분석을 실시하였다. 분석은 다음 아고라에 대해서만 수행하였는데 이유는 네이버 뉴스의 경우 댓글 게시자의 ID가 마스킹 처리되어 있어 게시자를 구분하는데 제한이 있었기 때문이다.

이론/모형

문서 간 유사성을 비교하기 위한 방법으로서 계산의 복잡성이 낮은 코사인 유사도를 채택한 연구 사례가 있고[14], 이 유사도는 문서 검색에 많이 이용되며 단어의 출현 빈도가 특징이 되므로[15] 본 연구에서는 두 개의 댓글 간의 유사도 측정을 위해 코사인 유사도 측정 방법을 사용하였다.

성능/효과

각각의 베스트 게시글 내에서 유사한 내용으로 중복된 댓글을 과다하게 게시한 이용자가 존재하였고 하루에 최대 174건의 유사한 댓글을 게시한 ID가 존재하였으며 Fig.11.과 같이 게시 건수 기준으로 상위게시자들에게 과다 게시 행위가 집중됨을 알 수 있었다.
결과로부터 다음 아고라 사이트는 게시물의 댓글 순위가 높을수록 유사한 댓글이 어느 정도 많은 보통의 상관관계가 있으며 네이버 뉴스 사이트는 순위와 유사 댓글 비율 사이에 상관관계는 있으나 그 정도가 약함을 알 수 있다.
서로 다른 게시자 ID로 유사한 내용의 댓글을 게시한 사례를 확인한 결과 하나의 ID를 여러 개의 익명 ID로 위장한 애스트로터퍼의 형태를 보이는 게시자가 발견되었다.
첫째, 상관 분석을 통하여 인터넷 이용자들에게 가장 먼저 노출되는 정보인 댓글 순위에 의해 최상위에 랭크된 게시물 일수록 유사한 댓글로 이루어졌음을 알 수 있었다. 사이트에 따라 상관 계수의 크기는 상이하였으나 유사한 댓글을 게시하는 행위는 순위에 어느 정도 영향을 미치는 것으로 판단할 수 있다.

후속연구

사이버 상의 익명성을 이용하며 직접적으로 드러나지 않는 이러한 행위는 인터넷 이용자의 의견 공유, 정보 획득에 영향을 주게 되므로 인터넷의 신뢰성을 저하시킨다. 대응 방안으로서 과다한 현상이 발견되었을 때 익명성을 보완하고 건전한 이용자들이 이러한 현상을 인지할 수 있도록 효과적으로 알리는 방안이 강구되어야할 것이다.
이러한 여론의 유통과 관련된 사이버 미디어에 대한 역기능 방지 대책은 기존의 웹 스팸을 방지하는 필터링 기법처럼 즉시 차단 방법과는 달리 가용성도 고려하여야 하므로 사후 대책으로서 이상 행위가 어느 정도 존재하는지 우선 파악이 필요할 것이다.
본 연구에서는 사이버 여론 조작으로 의심되는 행위가 존재하는지 여부를 파악하고자 하였으며 코사인 유사도를 이용하여 분석하는 방법을 제안하였다. 포털 사이트 내 정치, 경제, 사회, 연예 등의 구분을 고려하지 않았고 게시하는 이용자의 내용적인 의미는 분류하지 않았으므로 향후 다양한 데이터 마이닝 기법을 추가로 적용하면 더욱 상세한 분석이 가능할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	여론이란?	일반적으로 여론은 사회 구성원들의 공통된 의견으로서 정치적, 문화적, 경제적 영향력을 가진다. 사이버 공간 상의 토론 게시판 또는 댓글을 이용한 인터넷 매체의 이용은 중요한 정보유통 채널이며 토론에 참여 하는 참여자는 물론 참관자에게도 잠재적으로 영향을 미쳐서 이들이 가질 수 있는 의견과 태도에 영향을 준다[1].
	댓글 간 유사도를 측정할때 측정에서 제외되는 경우는 무엇인가?	각 게시글에 달린 댓글들에 대하여 임의로 두 개씩의 댓글을 추출한 후 유사도를 측정하였다. 단, 다음과 같은 경우 측정에서 제외하였는데, 댓글의 길이가 너무 짧은 경우, 예를 들어 “공감합니다”, “나도 찬성”과 같은 문장과 동일한 문장이 발견되었다고 하여 유사 댓글로 판단하기 어렵기 때문이다. 또한, 두 댓글 간의 일치하는 단어의 수가 적은 경우는 너무 짧은 길이의 댓글이거나 길이는 충분하지만 코사인 유사도의 분자 값인 내적의 결과가 작아서 서로 상이한 결과가 예상되므로 측정에서 제외하였다.
	여론 조작은 어떻게 발전해왔는가?	여론 조작은 전통적으로 매스미디어를 이용하여 대중의 심리 또는 의견 형성에 직간접적으로 영향을 주는 기법으로 동원되었으며 최근에는 개인의 금전적 이윤을 위한 웹사이트 리뷰 조작부터 대규모 조직에 의해 고용된 정치, 사회적 목적의 사이버 여론 조작까지 다양한 현상으로 나타난다.

참고문헌 (19)

Dong-Gi Jo, Young-Suk Oh and Hee-Kyung Cho, "Formation of public opinion and Collective Behavior in Cyberspace," Research Report 01-24, Korea Information Society Development Institute, Dec. 2001.
Eun-Ju Lee and Yoon Jae Jang, "Effects of Others' Comments on Internet News Sites on Perceptions of Reality, " Korean Journal of Journalism & Communication Studies 53(4), pp.51-71, Aug. 2009.
Ho-Young Lee, En-Hee Jung, Mun-Ki Seo, Chang-Ho Lee, "The Study on the Corresponding Expansion of the Social Impact of Internet Portal Site, " Report 08-05, Korea Information Society Development Institute, Dec. 2008.
Neander, Joachim, and Randal Marlin, "Media and Propaganda: The Northcliffe Press and the Corpse Factory Story of World War I.," Global Media Journal - Canadian Edition, vol.3, no.2, pp.67-82, 2010.
Yonhap News, "China, Human Sea Tactics to Improve the Online Reputation," http://www.yonhapnews.co.kr/economy/2010/03/29/0303000000AKR2010032 9051100009.HTML, Mar.2010.
http://kielsgkm.files.wordpress.com/2009/07/blogs-the-corporation6.pdf
Douceur, John R. "The sybil attack," Peer-to-peer Systems, Springer Berlin Heidelberg, pp.251-260, 2002.
Korea Internet & Security Agency, "NetFocus - Social Media Infodemics Issue," Internet & Security Issue, Aug.2010.
Qiang Cao, "Aiding the detection of fake accounts in large scale social online services," Proc. of NSDI, 2012.
Entman, R.M., "Framing: Toward clarification of a fractured paradigm," Journal of communication, vol.43, no.4, pp.51-58, 1993.

상세보기
Jacob Ratkiewicz, "Detecting and Tracking the Spread of Astroturf Memes in Microblog Streams," arXiv preprint arXiv:1011.3768, 2010.
Jindal, Nitin, and Bing Liu, "Opinion Spam and Analysis," Proceedings of the international conference on Web search and web data mining. ACM, 2008.
Young-Mi Jung, Information Retrieval Study, Yonsei University Press, p.170, 2012.
Young-Bin Kwon, Seoung-Do Lee, Hyun Yang and Yo-Han Joo, "The Analysis of the Conferences for the Computer Network Using the Miner and the Cosine Similarity based upon Keywords," Korea Society of IT Services Journal, 11(1), pp.223-238, Mar.2012.

원문보기 상세보기
Il-Seok Oh, Pattern Recognition, Kyobo Book Center, p.330, 2012.
Rada Mihalcea, "Text Similarity in NLP and its Applications," http://www.cse.unt.edu/-rada/CSCE5290/Lectures/TextSimilarity.ppt, pp.10-11, 2011.
Dong-Gil An, "Comparison of Statistical Packages about the Nonparametric Test," Master's Thesis., Kyungsung University, 1990.
Galit Shmueli, Data Mining for Business Intelligence, 2nd Ed., E&B PLUS, pp.35-36, 2012.
Matthew A. Russell(Translated by Kim Sang-Jung), Mining the Social Web, B.J Public, pp.244-246, 2012.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 코사인 유사도 기반의 인터넷 댓글 상 이상 행위 분석 방법
Measures of Abnormal User Activities in Online Comments Based on Cosine Similarity 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 코사인 유사도 기반의 인터넷 댓글 상 이상 행위 분석 방법 Measures of Abnormal User Activities in Online Comments Based on Cosine Similarity 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

이상진 (213)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 코사인 유사도 기반의 인터넷 댓글 상 이상 행위 분석 방법
Measures of Abnormal User Activities in Online Comments Based on Cosine Similarity 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper