[논문]품사별 출현 빈도를 활용한 코로나19 관련 한국어 가짜뉴스 탐지

김지혁; 안현철

doi:10.13088/jiis.2023.29.2.267

품사별 출현 빈도를 활용한 코로나19 관련 한국어 가짜뉴스 탐지
COVID-19-related Korean Fake News Detection Using Occurrence Frequencies of Parts of Speech 원문보기

지능정보연구 = Journal of intelligence and information systems, v.29 no.2, 2023년, pp.267 - 283

김지혁 (국민대학교 비즈니스IT전문대학원) , 안현철 (국민대학교 비즈니스IT전문대학원)

초록
AI-Helper

2019년 12월부터 현재까지 지속되고 있는 코로나19 팬데믹으로 인해 대중들은 감염병 대응을 위한 정보를 필요로 하게 되었다. 하지만 소셜미디어에서 유포되는 코로나19 관련 가짜뉴스로 인해 대중들의 건강이 심각하게 위협받고 있다. 특히 코로나19와 관련된 가짜뉴스가 유사한 내용으로 대량 유포될 경우 사실인지 거짓인지 진위를 가리기 위한 검증에 소요되는 시간이 길어지게 되어 우리 사회의 전반에 심각한 위협이 될 수 있다. 이에 학계에서는 신속하게 코로나19 관련 가짜뉴스를 탐지할 수 있는 지능형 모델에 대한 연구를 활발하게 수행해 오고 있으나, 대부분의 기존 연구에 사용된 데이터는 영문으로 구성되어 있어 한국어 가짜뉴스 탐지에 대한 연구는 매우 드문 실정이다. 이에 본 연구에서는 소셜 미디어 상에서 유포되는 한국어로 작성된 코로나19 관련 가짜뉴스 데이터를 직접 수집하고, 이를 기반으로 한 지능형 가짜뉴스 탐지 모델을 제안한다. 본 연구의 제안모델은 언어학적 특성 중 하나인 품사별 빈도 정보를 추가적으로 활용하여, 기존 연구에서 주로 사용되어 온 문서 임베딩 기법인 Doc2Vec 기반 가짜뉴스 탐지 모델의 예측 성능을 제고하고자 하였다. 실증분석 결과, 제안 모델이 비교 모델에 비해 Recall 및 F1 점수가 높아져 코로나19 관련 한국어 가짜뉴스를 보다 정확하게 판별함을 확인하였다.

Abstract ▼ AI-Helper

The COVID-19 pandemic, which began in December 2019 and continues to this day, has left the public needing information to help them cope with the pandemic. However, COVID-19-related fake news on social media seriously threatens the public's health. In particular, if fake news related to COVID-19 is massively spread with similar content, the time required for verification to determine whether it is genuine or fake will be prolonged, posing a severe threat to our society. In response, academics have been actively researching intelligent models that can quickly detect COVID-19-related fake news. Still, the data used in most of the existing studies are in English, and studies on Korean fake news detection are scarce. In this study, we collect data on COVID-19-related fake news written in Korean that is spread on social media and propose an intelligent fake news detection model using it. The proposed model utilizes the frequency information of parts of speech, one of the linguistic characteristics, to improve the prediction performance of the fake news detection model based on Doc2Vec, a document embedding technique mainly used in prior studies. The empirical analysis shows that the proposed model can more accurately identify Korean COVID-19-related fake news by increasing the recall and F1 score compared to the comparison model.

주제어

표/그림 (10)

그림 <그림 1> PV-DM 방법
그림 <그림 2> PV-DBOW 방법
그림 <그림 3> 제안 모델의 구조
표 <표 1> 트윗별 품사 빈도 정보 추출 예
그림 <그림 4> 진짜뉴스 워드 클라우드
그림 <그림 5> 가짜뉴스 워드 클라우드
표 <표 2> 벡터화된 텍스트만으로 가짜뉴스를 탐지한 결과: 비교모델 결과
표 <표 3> 품사별 등장 빈도 정보를 추가로 활용해 가짜뉴스를 탐지한 결과: 제안모델 결과
표 <표 4> 제안모델과 비교모델 간 성과 차이
그림 <그림 6> Logistic Regression으로 도출된 각 품사별 중요도

참고문헌 (35)

국립재난안전연구원. (2020). Future Safety Issue？제2의 팬데믹 인포데믹으로 인한 혼돈의 시대,？from https://www.ndmi.go.kr/home/sub.do?menukey6031&modeview&no1316137 (2020/10/12)
길호현. (2018). 텍스트마이닝을 위한 한국어 불용어 목록 연구. 우리말글, 78, 1-25.
김수연, 안석호, 김동현, 이의종, 서영덕. (2022,？June). 형태소 분석기의 품사별 정확성 분석.？In Proceedings of KIIT Conference (pp. 378-381).
민희. (2022). 가짜 뉴스 확산, 그 이후: 보수와 진보의？가짜 뉴스 노출과 제도 신뢰의 편향. 정치정보연구, 25(3), 151-180.
박수선. (2023, January 30). 예산 대폭 깎인 팩트체크넷, 결국 문 닫는다, PD저널, Available？at http://www.pdjournal.com/news/articleView.html?idxno74609(Accessed 2023. 4. 19)
손승혜, 이귀옥, 홍주현, 최지향, 정은정. (2018).？트위터는 어떻게 가짜 뉴스를 유통시키는가?:？ 과 의 트위터？유통 패턴과 유력자, 빈출단어 분석. 사이버？커뮤니케이션학보, 35(4), 203-251.
송찬우, 안현철. (2022). Tag2vec 기반의 지능형 불법도박 사이트 탐지 모형 개발. 지능정보연구,？28(4), 211-227.
신성윤, 신광성, 이현창. (2020). 적은 데이터 세트를？기반으로 한 동물 이미지의 향상된 딥 러닝.？한국컴퓨터정보학회 학술발표논문집, 28(1),？247-248.
심재승, 이재준, 정이태, 안현철. (2020). 워드 임베딩을 활용한 한국어 가짜 뉴스 탐지 모델에 관한？연구. 한국컴퓨터정보학회 학술발표논문집,？28(2), 199-202.
심홍진, 황유선. (2010). 마이크로블로깅 (microblogging) 이용동기에 관한 연구: 트위터(twitter) 를 중심으로. 한국방송학보, 24(2),？192-234.
안형준. (2020). SNS 의 이벤트와 텍스트의 언어심리학적 특성 간의 관계. 한국정보기술학회논문지, 18(5), 91-100.
원혜진, 이현영, 강승식. (2020). 대규모 텍스트？분석을 위한 한국어 형태소 분석기의 실행 성능 비교. 한국정보과학회 학술발표논문집,？401-403.
이장근, 김해연, 장적, 김용환. (2022). 가짜 뉴스？영향력 인식의 효과에 관한 연구: 매체별 가짜뉴스 제 3 자 인식이 가짜 뉴스 규제 및 미디어？교육 필요성에 미치는 영향. 한국콘텐츠학회논문지, 22(12), 316-326.
이종구. (2020, March 22). 방역한다며 메탄올 뿌린 뒤 중독 증세...'정보 전염병' 피해, YTN,？Available at https://www.ytn.co.kr/_ln/0103_202003222000523006_018 (Accessed 2023. 4. 19)
이지민, 이지선, 우지영. (2022). 코로나 19 가짜뉴스와 진짜 뉴스 판별 시스템. 한국컴퓨터？정보학회 학술발표논문집, 30(1), 411-412.
정세민, 이세영, 안유나, 김보경. (2021, November).？품사에 따른 영화 리뷰 감성분석 연구. In？Proceedings of KIIT Conference, 651-654.
정예림, 김지희, 유형선. (2020). Word2Vec 을 활용한 제품군별 시장규모 추정 방법에 관한？연구. 지능정보연구, 26(1), 1-21.
정이태, 안현철. (2022). 그래프 임베딩을 활용한？코로나 19 가짜 뉴스 탐지 연구-사회적 참여 네트워크의 이용 여부에 따른 탐지 성능비교. 지능정보연구, 28(1), 197-216.
한국언론진흥재단_뉴스빅데이터_메타데이터_가짜뉴스, Retrieved from https://www.data.go.kr/data/15086437/fileData.do (Accessed 2023. 4. 19)
한국언론진흥재단_뉴스빅데이터_메타데이터_코로나, Retrieved from https://www.data.go.kr/data/15069309/fileData.do (Accessed 2023. 4. 19)
한소은, 강윤석, 고윤용, 안지원, 김유심, 오성수,？박희진, 김상욱. (2022). CoAID+: 소셜 컨텍스트？기반 가짜 뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터. 정보처리학회논문지. 소프트웨어 및 데이터 공학, 11(4), 149-156.
한지원, 김영욱. (2023). 댓글의 방향과 강도가？코로나 19 관련 가짜 뉴스 수용에 미치는？영향: 체계적 정보처리의 매개효과 및 동조 성향의 조절효과 중심 분석. 한국언론학보,？67(1), 230-271.
현윤진, 김남규. (2018). 뉴스와 소셜 데이터를？활용한 텍스트 기반 가짜 뉴스 탐지 방법론.？한국전자거래학회지, 23(4), 19-39.
Open-Korean-Text(OKT), Retrieved from https://github.com/open-korean-text/open-korean-text？(Accessed 2023. 4. 19)
Bondielli, A., & Marcelloni, F. (2019). A survey on？fake news and rumour detection techniques.？Information Sciences, 497, 38-55.

상세보기
Bovet, A., & Makse, H. A. (2019). Influence of？fake news in Twitter during the 2016 US？presidential election. Nature Communications,？10(1), 7.

상세보기
Cui, L., & Lee, D. (2020). Coaid: Covid-19？healthcare misinformation dataset. arXiv preprint？arXiv:2006.00885.
Lazer, D. M., Baum, M. A., Benkler, Y., Berinsky,？A. J., Greenhill, K. M., Menczer, F., ... &？Zittrain, J. L. (2018). The science of fake？news. Science, 359(6380), 1094-1096.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013).？Efficient estimation of word representations in？vector space. arXiv preprint arXiv:1301.3781.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G.,？& Dean, J. (2013, December). Distributed？representations of words and phrases and？their compositionality. In Proceedings of the？26th International Conference on Neural？Information Processing Systems-Volume 2？(pp. 3111-3119).
Ngada, O., & Haskins, B. (2020, December). Fake？news detection using content-based features and？machine learning. In 2020 IEEE Asia-Pacific？Conference on Computer Science and Data？Engineering (CSDE) (pp. 1-6). IEEE.
Patwa, P., Sharma, S., Pykl, S., Guptha, V., Kumari,？G., Akhtar, M. S., ... & Chakraborty, T. (2021).？Fighting an infodemic: Covid-19 fake news？dataset. In Combating Online Hostile Posts in？Regional Languages during Emergency Situation:？First International Workshop, CONSTRAINT？2021, Collocated with AAAI 2021, Virtual？Event, February 8, 2021, Revised Selected？Papers 1 (pp. 21-29). Springer International？Publishing.
Shu, K., Sliva, A., Wang, S., Tang, J., & Liu, H.？(2017). Fake news detection on social media:？A data mining perspective. ACM SIGKDD？Explorations Newsletter, 19(1), 22-36.
Tandoc Jr, E. C., Lim, Z. W., & Ling, R. (2018).？Defining "fake news" A typology of scholarly？definitions. Digital Journalism, 6(2), 137-153.
Vosoughi, S., Roy, D., & Aral, S. (2018). The？spread of true and false news online. Science,？359(6380), 1146-1151.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증