[논문]텍스트 마이닝과 기계 학습을 이용한 국내 가짜뉴스 예측

윤태욱; 안현철

doi:10.21219/jitam.2018.25.1.019

Abstract ▼ AI-Helper

Fake news is defined as the news articles that are intentionally and verifiably false, and could mislead readers. Spread of fake news may provoke anxiety, chaos, fear, or irrational decisions of the public. Thus, detecting fake news and preventing its spread has become very important issue in our so...

Fake news is defined as the news articles that are intentionally and verifiably false, and could mislead readers. Spread of fake news may provoke anxiety, chaos, fear, or irrational decisions of the public. Thus, detecting fake news and preventing its spread has become very important issue in our society. However, due to the huge amount of fake news produced every day, it is almost impossible to identify it by a human. Under this context, researchers have tried to develop automated fake news detection method using Artificial Intelligence techniques over the past years. But, unfortunately, there have been no prior studies proposed an automated fake news detection method for Korean news. In this study, we aim to detect Korean fake news using text mining and machine learning techniques. Our proposed method consists of two steps. In the first step, the news contents to be analyzed is convert to quantified values using various text mining techniques (Topic Modeling, TF-IDF, and so on). After that, in step 2, classifiers are trained using the values produced in step 1. As the classifiers, machine learning techniques such as multiple discriminant analysis, case based reasoning, artificial neural networks, and support vector machine can be applied. To validate the effectiveness of the proposed method, we collected 200 Korean news from Seoul National University's FactCheck (http://factcheck.snu.ac.kr). which provides with detailed analysis reports from about 20 media outlets and links to source documents for each case. Using this dataset, we will identify which text features are important as well as which classifiers are effective in detecting Korean fake news.

주제어

AI 본문요약
AI-Helper

문제 정의

본 연구에서는 제안 방법론을 수집한 데이터에 적용하여 그 효과를 확인하고, 이를 통해 활용되는 데이터의 정보 중 어떤 정보가 가짜뉴스를 예측하는데 더 큰 의미가 있는지 고찰해 보고자 하였다.
이러한 배경에서 본 연구는 자동화된 국내 가짜뉴스 예측 모형의 구축을 목표로 하여, 인공지능(Artificial Intelligence) 기법을 이용한 가짜뉴스 탐지 방법론을 제안한다. 본 연구의 제안방법론은 텍스트 마이닝의 종류 중 하나인 토픽모델링(Topic Modeling) 기반의 가짜뉴스 다분류(multiclass classification) 예측에 기계 학습 기법을 적용하도록 설계되어 있다.

가설 설정

마지막으로 모형 간 성과의 차이가 통계적으로 유의한 지를 검증하기 위해, 이표본 비율검정(two sample test for proportions)을 수행하였다. 본 연구에서 적용된 이표본 비율검정의 귀무가설 H0는 p_A = p_B대립가설 Ha는 p_A > p_B(p_A : 모형 A의 검증용 데이터셋에 대한 평균 예측정확도 비율)이다. 아래 [Table 8]는 이러한 이표본 비율검정의 결과를 나타내고 있다.

제안 방법

SNUFN_dataset의 판정은 크게 6가지의 클래스로 나뉘는데, 본 연구에서는 편의상 판단유보와 사실 반 거짓 반은 중립, 대체로 거짓과 거짓은 거짓, 대체로 사실과 사실은 사실로 표기하여 3가지의 클래스로 묶고, 랜덤샘플링(random sampling)을 통해 각 클래스에 대해 50개의 데이터를 추출한다. 이러한 작업을 하는 이유는 6가지 판정의 빈도가 불균형하고, 판단유보와 사실이 거짓에 비해 상대적으로 너무 부족하기 때문이다.
첫 번째 방법은 모든 데이터를 일일이 변환하여 전체를 활용하였다. 두 번째 방법으로는 각각 임의로 설정한 기준에 따라 통합하여 적용하였는데, 관련인은 제 19대 대선주자, 기타, 관련인 없음으로 나누었으며, 관련인직업은 정치인, 기타로 나누었으며, 소속정당은 진보, 보수, 중립으로 나누었으며, 언론사는 TV방송사, 신문사, 언론사 없음으로 나누었으며, TCHC는 판단유보, 거짓, 사실로 나누어 활용하였다. 특히, 주제는 이미 서울대학교 FactCheck에서 기준을 정하여 나누어둔 데이터이기 때문에 오로지 첫 번째 방법으로만 활용하였다.
이렇게 하여 데이터 수집 및 전처리 작업이 끝나고 나면, 2단계는 텍스트 마이닝 단계이다. 이 단계에서는 전처리된 SNUFN_dataset 중에 짧은 문장에 대하여 토픽모델링을 수행하여 다음의[Figure 2]에 예시된 것과 같은 문서-토픽 가중치 행렬(Document-Topic Weight Matrix)을 도출하여 짧은 문장을 정량화된 특징값들로 변환한다. 문서-토픽 가중치는 일반적으로 TF-IDF를 이용하여 산출되며, 본 연구의 제안 방법론 또한 TF-IDF에 기반한 문서-토픽 가중치들을 사용한다[Jeon and Ahn, 2015].

대상 데이터

COM과 유사한 온라인 사이트로 서울대학교 FactCheck가 있는데, 이는 22개의 언론사와 대학이 협업하여 언론사들이 검증한 공적 관심사를 국민들에게 알리기 위해 서울대학교 언론정보연구소에서 비정치적,비영리적으로 운영하는 정보서비스이다. SNUFN_dataset은 서울대학교 FactCheck에 게시되어 있는 2017년 3월 29일부터 9월 18일까지의 국내 가짜뉴스 데이터를 대상으로 하고 있다. 구체적으로 전문가들에 의해 직접 레이블 되어 있는 200개의 짧은 문장과 함께, 해당 뉴스의 주제, 관련인, 관련인 직업, 소속정당, TCHC, 언론사 등이 메타 데이터로 추가되었다.
제안 방법론의 검증을 위한 실험 데이터로는 SUNFN_dataset을 적용하였다. SUNFN_dataset은 본 연구를 위해 자체적으로 수집, 정리한 데이터셋으로서, LIAR_dataset을 벤치마킹하여 제작되었다.

데이터처리

마지막으로 모형 간 성과의 차이가 통계적으로 유의한 지를 검증하기 위해, 이표본 비율검정(two sample test for proportions)을 수행하였다. 본 연구에서 적용된 이표본 비율검정의 귀무가설 H0는 p_A = p_B대립가설 Ha는 p_A > p_B(p_A : 모형 A의 검증용 데이터셋에 대한 평균 예측정확도 비율)이다.
최종적으로 선택된 분류 모델이 가짜뉴스 예측에 가장 적합한 대안인지를 정밀하게 검증하기 위해, Two-sample test for proportions를 통해 모델 간 성능의 차이가 통계적으로 유의한 수준인지 확인한다[Noh and Ahn, 2017].

이론/모형

이 단계에서는 전처리된 SNUFN_dataset 중에 짧은 문장에 대하여 토픽모델링을 수행하여 다음의[Figure 2]에 예시된 것과 같은 문서-토픽 가중치 행렬(Document-Topic Weight Matrix)을 도출하여 짧은 문장을 정량화된 특징값들로 변환한다. 문서-토픽 가중치는 일반적으로 TF-IDF를 이용하여 산출되며, 본 연구의 제안 방법론 또한 TF-IDF에 기반한 문서-토픽 가중치들을 사용한다[Jeon and Ahn, 2015].

성능/효과

아래에는 기계 학습별 실험 결과가 [Table 2]에 제시되어 있다. [Table 2]의 결과를 살펴보게 되면, 검증용 데이터셋에 대하여 SVM을 적용한 경우의 예측 정확도가 51.11%로 가장 낮은 예측 정확도를 보이는 CBR을 적용한 경우의 예측 정확도인 44.40% 보다 약 7% 더 우수한 예측 정확도를 산출하며 다음으로 우수한 예측 정확도를 보이는 MDA를 적용한 경우의 예측 정확도인 48.90% 보다 약 2% 더 우수한 예측정확도를 산출하게 됨을 알 수 있다.
본 연구에서는 텍스트 마이닝을 활용해 짧은 문장을 정량화된 텍스트의 특징값들로 변환하여 기계학습에 적용하는 새로운 방법론을 제안하였다. 수집된 데이터를 활용하여 제안 모형의 성능을 검증한 결과, 토픽을 10개 추출하고 언론사 메타데이터를 활용하여 SVM 기법에 적용하는 모형이 다른 모형들과 비교해, 가장 우수한 결과를 보이며 통계적으로도 유의한 성과 차이를 확인할 수 있었다. 구체적으로 본 연구가 갖는 시사점을 고찰해 보면 다음과 같다.
거짓 양성(false positive) 발생빈도 역시 SVM은 MDA와 함께 6건으로 나타나, 다른 기법 대비 가장 낮은 것으로 나타났다. 이상의 결과를 종합해 보면, SVM은 예측 정확도 뿐 아니라 오탐지에 따른 비용 측면에서도 타 기법을 압도하는 우수한 성능을 나타냈다고 할 수 있다.

후속연구

첫째, 국내 가짜뉴스에 대한 자동화된 예측 모형을 구축하고 분석하기 위해, 데이터 확보의 어려움에 따라 직접 데이터를 수집하였음에도 불구하고 데이터의 양이 충분하지 않으며 불균형한 분포를 보이고 있다. 따라서, 본 연구의 제안 모형이 보다 일반화된 성능 향상을 가져오는지 확인하기 위해서는 보다 많은 데이터를 확보하여 방대한 양의 데이터를 통한 실험이 이루어질 필요가 있다.
끝으로 현재 제안된 연구 모형에서 명확하게 드러난 본 연구의 한계점을 개선하기 위해 다소 연구자 임의의 설정이 개입될 지더라도, 판단유보와 같은 중립적 데이터를 거짓이나 진실로 변환하는 방식을 적용하거나 혹은 서울대학교 FactCheck 이외에서도 추가 데이터를 수집해 볼 수 있다. 또한, 데이터 부족이나 불균형을 효과적으로 개선 할 수 있다고 알려진 데이터 샘플링(Data sampling) 기법이나 판정이 내려지지 않은 기사를 추가하여 활용하는 비지도학습(semi-supervised learning)과 같은 다양한 기법을 적용해 보고, 그 성능을 확인해 보는 연구가 의미 있는 후속연구의 주제가 될 것으로 예상된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	가짜뉴스가 어떤 것의 발달에 의해 사회 문제로 대두되었는가?	가짜뉴스는 2010년대 이후로 인터넷이 발달하고 사회관계망 서비스가 급속도로 발달함에 따라 언론사가 아닌 개인들이 사실이 아닌 내용을 진짜 뉴스처럼 퍼뜨리는 사태가 많이 일어나면서 사회 문제로 대두되었는데, 2016년 미국의 대통령 선거를 기점으로 크게 확산되었다[Hong and Jung, 2017]. 가짜뉴스의 확산은 현실 세계에 심각한 피해를 가져 올 수 있다.
	가짜뉴스 탐지 방법론은 무엇으로 구성되어 있는가?	가짜뉴스에 대한 대응방안 중 하나로써 가짜뉴스 탐지 방법론의 중요성은 커지고 있다. 가짜뉴스를 탐지하는 기법은 비기술적 접근 기법, 기술적 접근 기법, 하이브리드 분석 기법으로 크게 3가지로 나뉜다[Institute for Information and communications Technology Promotion, 2017]. 비기술적 접근 기법으로는 전문가 기반 기법, 집단지성 기반 기법 등이 있으며 기술적 접근 기법으로는 인공지능 기반 기법, 시맨틱 기반 기법, 이상 확산 패턴 탐지 기법 등이 있다.
	뉴스란 무엇인가?	뉴스는 매스미디어(Mass Media) 매체를 통해 대중에게 아직 알려지지 않은 새로운 소식과 관련한 정보를 제공하는 언론 시장의 가장 중요한 매개체 중 하나이다. 대중들은 다양한 뉴스 가운데 관심 있는 것들만 주목하여 취사 선택하는데, 수동적 입장에 있는 대중으로서는 주체적 입장에 있는 매스미디어의 뉴스 보도 내용을 대부분 진실된 정보로 수용 할 수 밖에 없게 된다.

참고문헌 (15)

Ahn, H., "Optimization of Multiclass Support Vector Machine using Genetic Algorithm : Application to the Prediction of Corporate Credit Rating", Information Systems Review, Vol. 16, No. 3, 2014, pp. 161-177.
Bajaj, S., "The Pope Has a New Baby! : Fake News Detection Using Deep Learning", Technical Report, Stanford Univ, 2017.
Conroy, N. J., Rubin, V. L., and Chen, Y., "Automatic Deception Detection : Method for Finding Fake News", Proceedings of the Association for Information Science and Technology, 2015.
Han, G. and Yoon, C., "A Study on the Regulation of The Fake News", Science, Technology and Law, Vol. 8, No. 1, 2017, pp. 59-90.
Hong, S. Y. and Jung, E. C., "Fake News and Journalism's Credibility Crisis-Phenomena and Alternatives-", Crisisonomy, Vol. 13, No. 8, 2017, pp. 43-60.
Hwang, Y. and Kwon, O., "A Study on the Conceptualization and Regulation Measures on Fake News : Focused on self-regulation of internet service providers", Journal of Media Law, Ethics and Policy Research, Vol. 16, No. 1, 2017, pp. 53-101.
Hyundai Research Institute, "Economic Cost Estimation and Implications of Fake News", Weekly Economic Review, Vol. 736, Available at http://hri.co.kr/board/reportView.asp?numIdx27886&firstDepth1&secondDepth1(Accessed on March 25, 2018).
Institute for Information & communications Technology Promotion, "Fake News Detection Technique Trends and Implications", Weekly ICT Trends, No. 1816, 2017, pp. 12-23.
Institute for Korean Democracy, "Fake News and Democracy", Issue & Review on Democracy, No. 14, 2017.
Jeon, B. and Ahn, H., "A Collaborative Filtering System Combined with Users' Review Mining : Application to the Recommendation of Smartphone Apps", Journal of Intelligence and Information Systems, Vol. 21, No. 2, 2015, pp. 1-18.
Jin, Z., Cao, J., Zhang, Y., and Luo, J., "News Verification by Exploiting Conflicting Social Viewpoints in Microblogs", Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, 2016.
Kwon, S., Cha, M., and Jung, K., "Rumor detection over varying time windows", PloS one, Vol. 12, No. 1, 2017, e0168344.

상세보기
Noh, H. and Ahn, H., "A study on the recommendation algorithm based on trust/distrust relationship network analysis", Journal of Information Technology Applications & Management, Vol. 24, No. 1, 2017, pp. 1-17.
Salas, Z. M. d. P., Paredes, V. M. A., Rodriguez, G. M. A., Valencia, G. R., and Alor, H. G., "Automatic detection of satire in Twitter : A psycholinguistic-based approach", Knowledge-Based System, Vol. 128, 2017, pp. 20-33.

상세보기
Wang, W. Y., "Liar, Liar Pants on Fire : A New Benchmark Dataset for Fake News Detection", Technical Report, Dept. of Computer Science, Univ of California, 2017.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

텍스트 마이닝과 기계 학습을 이용한 국내 가짜뉴스 예측
Fake News Detection for Korean News Using Text Mining and Machine Learning Techniques 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

텍스트 마이닝과 기계 학습을 이용한 국내 가짜뉴스 예측 Fake News Detection for Korean News Using Text Mining and Machine Learning Techniques 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

안현철 (68)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

텍스트 마이닝과 기계 학습을 이용한 국내 가짜뉴스 예측
Fake News Detection for Korean News Using Text Mining and Machine Learning Techniques 원문보기

AI 본문요약
AI-Helper