[논문]자동화기반의 가짜 뉴스 탐지를 위한 연구 분석

좌희정; 오동석; 임희석

doi:10.15207/jkcs.2019.10.7.015

자동화기반의 가짜 뉴스 탐지를 위한 연구 분석
Research Analysis in Automatic Fake News Detection 원문보기

한국융합학회논문지 = Journal of the Korea Convergence Society, v.10 no.7, 2019년, pp.15 - 21

좌희정 (고려대학교 컴퓨터학과) , 오동석 (고려대학교 Human-inspired 복합지능 연구센터) , 임희석 (고려대학교 컴퓨터학과)

초록
AI-Helper

가짜 정보를 탐지하기 위한 연구는 2016년 미국 대통령 선거 이후 본격적으로 시작되었다. 정확한 출처를 알 수 없는 정보들이 뉴스 형식으로 생산되고, 이는 자극적이고 흥미로운 소재에 많은 관심을 보이는 대중의 특성에 따라 빠른 속도로 확산되고 있다. 또한, 소셜 네트워크 서비스 등 정보를 전달하기 쉬운 플랫폼의 대중화는 이러한 현상을 더욱 악화시킨다. Poynter는 IFCN(International Fact Checking Network)를 만들어 숙련된 전문가들이 사실 여부를 판단할 수 있는 가이드라인을 제시하고, 팩트 체크 기관을 위한 강령을 제공하고 있다. 하지만 이러한 접근 방법은 하나의 기사에 대한 진위 여부를 검증하기 위해 다수의 전문가 인력이 투입되어야 하므로 시간 및 금전적 비용이 크다. 따라서 지속적으로 증가하는 가짜 뉴스에 효율적으로 대응할 수 있는 자동화된 가짜 뉴스 탐지 기술에 대한 연구가 주목받고 있다. 본 논문에서는 최근 딥러닝 기술의 접목으로 인해 빠르게 발전하고 있는 가짜 뉴스 탐지 시스템과 연구들을 정리 및 분석한다. 또한, 많은 연구가 필요한 본 분야에 연구자들이 쉽게 접근할 수 있도록 다양한 형태로 주어지는 학습 말뭉치 및 챌린지들도 정리한다.

Abstract ▼ AI-Helper

Research in detecting fake information gained a lot of interest after the US presidential election in 2016. Information from unknown sources are produced in the shape of news, and its rapid spread is fueled by the interest of public drawn to stimulating and interesting issues. In addition, the wide use of mass communication platforms such as social network services makes this phenomenon worse. Poynter Institute created the International Fact Checking Network (IFCN) to provide guidelines for judging the facts of skilled professionals and releasing "Code of Ethics" for fact check agencies. However, this type of approach is costly because of the large number of experts required to test authenticity of each article. Therefore, research in automated fake news detection technology that can efficiently identify it is gaining more attention. In this paper, we investigate fake news detection systems and researches that are rapidly developing, mainly thanks to recent advances in deep learning technology. In addition, we also organize shared tasks and training corpus that are released in various forms, so that researchers can easily participate in this field, which deserves a lot of research effort.

주제어

표/그림 (7)

그림 Fig. 1. Reuters Institute Digital News Report 2018
그림 Fig. 2. Fake Information
그림 Fig. 3. Fake news Paper Type
그림 Fig. 4. Fake news Paper Dataset
그림 Fig. 5. Fakenews Paper Language
그림 Fig. 6. Fake news Paper Method
표 Table 1. Summary of works

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 가짜 뉴스 탐지에 관련한 연구동향을 조사하였다. 먼저 가짜 뉴스를 탐지하는 기준과 사례를 살펴봤고, 가짜 뉴스 탐지를 위해 어떤 연구들이 이뤄지고 있는지, 실제 탐지 기능이 어떻게 사용되고 있는지 확인했다.
지금까지 가짜 뉴스 탐지 시스템의 필요성에 대해 알아보았다. 이 논문에서는 가짜 뉴스 탐지 시스템에 대한 연구가 어떻게, 어떤 방향으로 이뤄지고 있는지 연구동향을 정리하고, 실제로 가짜 뉴스를 판별하기 위해 서비스되고 있는 사례들을 소개한다. 마지막으로 결론에서는 한계점과 더 나은 가짜 뉴스 탐지를 위한 제안을 한다.
지금까지 가짜 뉴스 탐지 시스템의 필요성에 대해 알아보았다. 이 논문에서는 가짜 뉴스 탐지 시스템에 대한 연구가 어떻게, 어떤 방향으로 이뤄지고 있는지 연구동향을 정리하고, 실제로 가짜 뉴스를 판별하기 위해 서비스되고 있는 사례들을 소개한다.

제안 방법

가짜 뉴스 기사 제목 A와 가짜인지 아닌지 알 수 없는 뉴스 기사 제목 B를 비교하여 분류한다. B가 A와 같으면AGREED로 분류되어 가짜 뉴스가 되고, 같지 않으면DISAGREED로 가짜 뉴스가 아니며, 관계가 없으면 UNRELATED로 라벨링된다.
Poynter에서 운영하고 있는 팩트 체크 사이트이다. 뉴스기사를 True, Mostly True, Half True, MostlyFalse, False, Pants On Fire(새빨간 거짓말) 6단계로 나눠 라벨링한다. 라벨링 기준은 1) 기사의 내용이 사실인가? 2) 다른곳에서 기사를 접할 방법이 있는가? 해당 기사의 해석이 개방적인가? 3) 기사내용에 대한 증거가 있는가? 그 증거가 사실인가? 4) 과거에 비슷한 기사내용을 어떻게 다루었는가? 해당 기사의 내용에 대해 판단할 수 있는 규정이 있는가? 이다.
위 내용과 같이 가짜 뉴스 탐지 데이터의 경우, 뉴스기사 형태로만 연구가 이뤄지는 것이 아니라 다양한 형태의 데이터가 사용되고 있다. 또한 데이터 분석 뿐만 아니라 가짜 뉴스 생산자의 유형과 데이터가 확산되는 양이나 시간을 함께 적용하여 가짜 뉴스를 탐지한다. 2016년 미국 대통령 선거가 이뤄지면서 가짜 뉴스에 대한 연구가 많은 관심을 받게 되었다.
본 논문에서는 가짜 뉴스 탐지에 관련한 연구동향을 조사하였다. 먼저 가짜 뉴스를 탐지하는 기준과 사례를 살펴봤고, 가짜 뉴스 탐지를 위해 어떤 연구들이 이뤄지고 있는지, 실제 탐지 기능이 어떻게 사용되고 있는지 확인했다. 향후 연구 계획으로는 2017 Fake NewsChallenge(chapter 5.

대상 데이터

Fig. 5와 같이 대부분의 데이터셋이 영어이지만 50편의 논문(without survey paper 3편) 중 중국어 3편, 한국어 3편 불가리아어 1편이 데이터셋을 활용하였다.
뉴스 기사 데이터로 Fake News Articles, buzzFeed, PolitiFact 등을 수집하였고, 데이터간의 균형을 맞추기 위해 3360개의 가짜 데이터와 3360개의 진짜 데이터를 사용한다[6].
뉴스 기사 외에도 소셜 네트워크 서비스의 트위터와 Reddit 데이터셋을 활용한다. 최근의 가장 인기있는 주제 9개를 선정하였고, 트레인 데이터 5217개, 개발 데이터 1485개, 테스트 데이터 1825개로 총 8529개이다[7].
서베이 논문 3편을 제외한 50편 중에서 뉴스 기사 데이터를 사용한 논문은 24편이고, SNS(Social Network Service) 데이터를 사용한 논문은 19편이다. 뉴스 기사와 SNS 데이터를 함께 사용한 논문은 5편이다
소셜미디어 포스팅 글이 클릭베이트인지 아닌지를 분류하는 과제이다. 데이터는 트위터의 트윗을 사용했으며 트레이닝 게시물 2495개, 레이블이 지정되지 않은 게시물 80012개, 검증 게시물 19538개가 주어졌다[15]. 1등팀 albacore의 Mean Squared Error (MSE)값은0.
딥러닝 기반 25편, 머신러닝 기반 17편 그리고 룰베이스와 딥러닝&머신러닝을 함께 적용한 논문 각각 2편씩이었다.
4와 같이 뉴스 기사를 많이 사용한다. 서베이 논문 3편을 제외한 50편 중에서 뉴스 기사 데이터를 사용한 논문은 24편이고, SNS(Social Network Service) 데이터를 사용한 논문은 19편이다. 뉴스 기사와 SNS 데이터를 함께 사용한 논문은 5편이다
조선일보의 팩트 체크 시스템으로 2017 대선 후보들의 기사와 발언, 루머에 대한 검증을 하는데 사용되었다. 사실, 일부만 사실, 사실 아님, 말 바꿈, 판정보류로 라벨링되어 기사를 나눴다.
뉴스 기사 외에도 소셜 네트워크 서비스의 트위터와 Reddit 데이터셋을 활용한다. 최근의 가장 인기있는 주제 9개를 선정하였고, 트레인 데이터 5217개, 개발 데이터 1485개, 테스트 데이터 1825개로 총 8529개이다[7].
임무1은 제목과 본문 내용의 적합성을 판별하고 임무2는 본문 중 맥락에 관계 없는 내용을 검출한다. 트레이닝 데이터는 제공되지않았으며 실제 한국어 뉴스 기사를 사용하였다.
B가 A와 같으면AGREED로 분류되어 가짜 뉴스가 되고, 같지 않으면DISAGREED로 가짜 뉴스가 아니며, 관계가 없으면 UNRELATED로 라벨링된다. 트레이닝 데이터셋 320,767개와 테스팅 데이터셋 80,126개가 사용되었다[16]. 1등 팀의 private score는 88.

성능/효과

에디터들이 인터넷에 있는 많은 종류의 루머에 대해서 조사하여 True, Mixture, False, Mostly True, Outdated, Misattributed, Mostly False, Miscaptioned, Scam, unproven, Legend, Correct Attribution 12개 중 하나로 결과를 낸다.
조사 결과를 정리해 보면 한국의 언론은 자유가 어느정도 보장되지만 언론에 대한 신뢰도는 낮은 나라로 분류되었다. 한국사람은 새로운 모바일 매체에 빠르게 적응하고 있고, 대부분의 뉴스를 온라인을 통해 얻는다.

후속연구

한국어 소셜네트워크서비스 데이터가 마련된다면 가짜뉴스 확산의 외부적인 요인을 관찰 할 수 있을 것이다. 그 결과 한국문화가 반영되어 있음을 확인 할 수 있을 것이고, 가짜 뉴스 확산의 흐름을 파악할 수 있을 것이다.
가짜 뉴스 판별을 위한 영어 데이터는 기존에 많은 연구자들이 수집을 하였지만 한국어로 된 데이터는 부족하다. 한국어 소셜네트워크서비스 데이터가 마련된다면 가짜뉴스 확산의 외부적인 요인을 관찰 할 수 있을 것이다. 그 결과 한국문화가 반영되어 있음을 확인 할 수 있을 것이고, 가짜 뉴스 확산의 흐름을 파악할 수 있을 것이다.
먼저 가짜 뉴스를 탐지하는 기준과 사례를 살펴봤고, 가짜 뉴스 탐지를 위해 어떤 연구들이 이뤄지고 있는지, 실제 탐지 기능이 어떻게 사용되고 있는지 확인했다. 향후 연구 계획으로는 2017 Fake NewsChallenge(chapter 5.1)에서 오픈한 데이터셋 FNC-1으로 구문정보를 활용하여 문장을 정확하게 이해하고 표현하는 모델을 제안할 예정이다. 이를 위해서는 단어 임베딩이 중요하며, 가짜 뉴스에 적합한 언어적 구조를 활용하여 가짜와 진짜를 판별하기 위한 적합한 문장 표현방법을 찾아야 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	가짜 정보 형태는 무엇이 있는가?	Fig. 2와 같이 가짜 정보는 동영상, 사운드, 이미지, 텍스트의 형태로 나타날 수 있고, 가짜 텍스트는 가짜 뉴스,소셜네트워크서비스, 연설문, 문서 등의 형태로 데이터가사용되고 있다.
	국경 없는 기자회가 2018년에 발표한 지수의 이름과 그 특징은 무엇인가?	국제 언론자유 감시단체인 국경 없는 기자회(RSF:Reporters Sans Frontieres)[1]가 2018년 발표한언론 자유 지수(Press Freedom Index)를 보면 한국은조사 대상국 180개 국가 중 43위로 5개 그룹 중 두 번째그룹인 Fairly good(yellow)에 속했다. 언론자유 지수는 87개 질문 문항과 자체 수집하고 있는 각국의 언론사와언론인에 대한 학대 및 폭력 관련 데이터를 종합해 도출한 것이다.
	가짜 뉴스란?	가짜 뉴스는 정치·경제 이익을 위해 의도적으로 언론보도의 형식을 하고 유포된 거짓 정보이다. 가짜 뉴스의범위가 정확하게 구분되어 있지 않아서 단어가 광범위하게 사용되고 있지만 가짜 뉴스를 판별하기 위해 뉴스를가짜 뉴스와 가짜 뉴스가 아닌 것으로 구분할 수 있다는점에서 뉴스를 다루는 언론 매체와 많은 관련이 있다고볼 수 있다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증