옥스퍼드 사전은 2016년 올해의 단어로 Post-Truth (탈 진실)을 선정했다. 가짜 뉴스는 진실을 위협하는 대표적 현상으로 뉴스 형식을 빌려 권위를 가장한 허위를 유포한다. 학교에서 배운 지식으로 사회 문제의 해결방안을 고민해보고자 이 연구를 시작하게 되었다. 이 연구에서 가장 고민이 되었던 부분은 ‘무엇’이 참이고 거짓인가라는 ‘기준’이었다. 따라서, 서울대 팩트체크 센터에서 분류해놓은 정치 기사 자료들만을 대상으로 분석하였다. 통계적 방법으로는 Multinomial ...
옥스퍼드 사전은 2016년 올해의 단어로 Post-Truth (탈 진실)을 선정했다. 가짜 뉴스는 진실을 위협하는 대표적 현상으로 뉴스 형식을 빌려 권위를 가장한 허위를 유포한다. 학교에서 배운 지식으로 사회 문제의 해결방안을 고민해보고자 이 연구를 시작하게 되었다. 이 연구에서 가장 고민이 되었던 부분은 ‘무엇’이 참이고 거짓인가라는 ‘기준’이었다. 따라서, 서울대 팩트체크 센터에서 분류해놓은 정치 기사 자료들만을 대상으로 분석하였다. 통계적 방법으로는 Multinomial Naive Bayes(MNB), L2-regularized Logistic Regression, Linear Support Vector Machine(SVM) 등을 사용하였다. 분석 과정은 자연어 처리, 문서 특성 추출, 초기 모델 구축, 모델 성능 향상 및 최종 모델 선택 순서이다. 자연어 처리로 명사 11326개가 추출되었고, 문서 특성 추출은 TFM(Term Frequency Matrix)과 TF-IDF(Term Frequency Inverse Document Matrix)로 하여 초기 모델을 구축했다. 다음으로 18가지 변수 선택(변수 제거) 방법과, 매개변수 조절을 통해 모델 성능을 향상시켰다. 모델 성능은 Accuracy 와 AUC(Area under the curve) 모두 교차 타당성 검증(10-fold cross validation)을 실시했으며, 최종 모형은 MNB로 Accuracy가 0.730, AUC가 0.767로 도출되었다. 분류기 성능 향상을 위한 추후 연구 과제로는 먼저 문서 특성 추출 방법 및 분류기의 다양화 이다. 다음은 모델에 신문사, 신문기자, 정당, 정치인 별로 다양하게 가중치를 적용시켜 보는 것이다.
옥스퍼드 사전은 2016년 올해의 단어로 Post-Truth (탈 진실)을 선정했다. 가짜 뉴스는 진실을 위협하는 대표적 현상으로 뉴스 형식을 빌려 권위를 가장한 허위를 유포한다. 학교에서 배운 지식으로 사회 문제의 해결방안을 고민해보고자 이 연구를 시작하게 되었다. 이 연구에서 가장 고민이 되었던 부분은 ‘무엇’이 참이고 거짓인가라는 ‘기준’이었다. 따라서, 서울대 팩트체크 센터에서 분류해놓은 정치 기사 자료들만을 대상으로 분석하였다. 통계적 방법으로는 Multinomial Naive Bayes(MNB), L2-regularized Logistic Regression, Linear Support Vector Machine(SVM) 등을 사용하였다. 분석 과정은 자연어 처리, 문서 특성 추출, 초기 모델 구축, 모델 성능 향상 및 최종 모델 선택 순서이다. 자연어 처리로 명사 11326개가 추출되었고, 문서 특성 추출은 TFM(Term Frequency Matrix)과 TF-IDF(Term Frequency Inverse Document Matrix)로 하여 초기 모델을 구축했다. 다음으로 18가지 변수 선택(변수 제거) 방법과, 매개변수 조절을 통해 모델 성능을 향상시켰다. 모델 성능은 Accuracy 와 AUC(Area under the curve) 모두 교차 타당성 검증(10-fold cross validation)을 실시했으며, 최종 모형은 MNB로 Accuracy가 0.730, AUC가 0.767로 도출되었다. 분류기 성능 향상을 위한 추후 연구 과제로는 먼저 문서 특성 추출 방법 및 분류기의 다양화 이다. 다음은 모델에 신문사, 신문기자, 정당, 정치인 별로 다양하게 가중치를 적용시켜 보는 것이다.
The Oxford Dictionary selected Post-Truth as the word of the year in 2016. Fake news is a representative phenomenon that threatens the truth. This study intends to explore the statistical solution for sorting fake news. Clear criteria is crucial to distinguish truth and false. Therefore, this study ...
The Oxford Dictionary selected Post-Truth as the word of the year in 2016. Fake news is a representative phenomenon that threatens the truth. This study intends to explore the statistical solution for sorting fake news. Clear criteria is crucial to distinguish truth and false. Therefore, this study analyzed the political articles classified by the Fact Check Center of Seoul National University. Author used Multinomial Naive Bayes (MNB), L2-regularized logistic regression, and Linear Support Vector Machine (SVM) as statistical methods. First, author analyzed natural language processing,document feature extraction, initial model construction, model performance improvement, and final model selection. 11,326 nouns were extracted by natural language processing, and document characteristics were drawn by using TFM (Term Frequency Matrix) and TF-IDF (Term Frequency Inverse Document Matrix). Second, author tried to improve the model performance by using 18 variables selection methods (removing variables) and controlling the parameters. The performance of the model was verified by 10-fold cross validation for both Accuracy and Area under the curve (AUC). The final selection model was MNB with an accuracy of 0.730 and an AUC of 0.767. (The further studies of improving classifier performance are to diversify document characteristic extraction method and classifier. The next is to apply various weights to the model for newspaper, newspaper reporter, political party, and politician, and so on.)
The Oxford Dictionary selected Post-Truth as the word of the year in 2016. Fake news is a representative phenomenon that threatens the truth. This study intends to explore the statistical solution for sorting fake news. Clear criteria is crucial to distinguish truth and false. Therefore, this study analyzed the political articles classified by the Fact Check Center of Seoul National University. Author used Multinomial Naive Bayes (MNB), L2-regularized logistic regression, and Linear Support Vector Machine (SVM) as statistical methods. First, author analyzed natural language processing,document feature extraction, initial model construction, model performance improvement, and final model selection. 11,326 nouns were extracted by natural language processing, and document characteristics were drawn by using TFM (Term Frequency Matrix) and TF-IDF (Term Frequency Inverse Document Matrix). Second, author tried to improve the model performance by using 18 variables selection methods (removing variables) and controlling the parameters. The performance of the model was verified by 10-fold cross validation for both Accuracy and Area under the curve (AUC). The final selection model was MNB with an accuracy of 0.730 and an AUC of 0.767. (The further studies of improving classifier performance are to diversify document characteristic extraction method and classifier. The next is to apply various weights to the model for newspaper, newspaper reporter, political party, and politician, and so on.)
주제어
#가짜 뉴스 가짜 뉴스 분류기 텍스트마이닝 머신러닝 나이브 베이즈 MNB LR SVM Fake News Fake News Classifier
학위논문 정보
저자
이충열
학위수여기관
경북대학교 대학원
학위구분
국내석사
학과
통계학과
지도교수
김영민
발행연도
2018
총페이지
iv, 50 p.
키워드
가짜 뉴스 가짜 뉴스 분류기 텍스트마이닝 머신러닝 나이브 베이즈 MNB LR SVM Fake News Fake News Classifier
※ AI-Helper는 부적절한 답변을 할 수 있습니다.