[논문]형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류

조단비; 이현영; 박지훈; 강승식

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류
Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM 원문보기

조단비 (국민대학교 컴퓨터공학과) , 이현영 (국민대학교 컴퓨터공학과) , 박지훈 (다하미 커뮤니케이션즈) , 강승식 (국민대학교 컴퓨터공학과)

딥러닝 기술을 이용한 정치적 성향의 편향성 분류를 위하여 신문 뉴스 기사를 수집하고, 머신러닝을 위한 학습 데이터를 구축하였다. 학습 데이터의 구축은 보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향을 이진 분류 데이터로 구축하였다. 뉴스 기사의 수집 방법으로 최근 이슈들 중에서 정치적 성향과 밀접하게 관련이 있는 키워드 15개를 선정하고 이에 관한 뉴스 기사들을 수집하였다. 그 결과로 11,584개의 학습 및 실험용 데이터를 구축하였으며, 정치적 편향성 분류를 위한 머신러닝 모델을 설계하였다. 머신러닝 기법으로 학습 및 실험을 위해 형태소 단위의 임베딩을 이용하여 문장 및 문서 임베딩으로 확장하였으며, SVM(Support Vector Machine)을 이용하여 정치적 편향성 분류 실험을 수행한 결과로 75%의 정확도를 달성하였다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 점에서 한국어는 어절보다 형태소 단위 토큰이 다양한 언어적 의미를 표현할 수 있다.[5] 본 논문에서는 정치적 성향의 편향성을 분류 실험에서 형태소 단위 토큰화를 이용한 한국어 임베딩 방법론을 제안한다.
은 대표적인 분류 모델이다. 이는 분류 모델의 입력 데이터를 기저 벡터라고 할 때, 각 정치적 성향의 기저 벡터들과 분류 경계면 간의 거리, 즉 마진을 최대화하고자 한다.[10] 분류 경계면의 직선 판별 함수는 f(x) = w^Tx - w₀과 같다.

제안 방법

은 어절 단위 토큰을 사용하여 중심단어 벡터로부터 주변 단어를 예측하는 방식으로, 연속적인 벡터 공간에 각각의 독립적인 단어들을 벡터로 표현하다.[3] 이처럼 단어들마다 독립적인 벡터를 할당하기 때문에 어절 내부의 형태학적 정보를 포함하지 못하므로 어절을 구성하는 형태소 단위 토큰을 입력 벡터로 구성하는 형태소 임베딩을 제안한다.
뉴스 기사의 본문 내용을 형태소 분석기를 통해 형태소 단위로 토큰화하고, 벡터 크기를 각각 100, 200, 300, 400, 500으로 생성한 후에 100, 200, 300의 반복 횟수로 학습하여 토큰 벡터를 구성하였다. 문서를 구성하고 있는 토큰들의 벡터를 평균값으로 문서 벡터를 구성하고 이를 SVM 분류 모델을 통해 실험하였으며 정확도는 표 3과 같다.
정치적 성향의 편향성을 분류하기 위해 정치적 성향을 나타내는 키워드를 기반으로 뉴스 기사를 크롤링하여 데이터를 수집하였다. 보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향과 밀접한 관련이 있는 키워드를 선정하고, 각 키워드를 통해 검색되는 기사를 추출하여 구축하였다. 키워드는 인물, 사건, 주요 단어를 기준으로 추출하였으며, 총 15개의 키워드를 기준으로 하여 11,584개의 기사를 수집하였다.
수집한 데이터에서 특수 기호, 기자 이름, 날짜 등의 텍스트를 제거하고 구두점으로 끝나는 문장들로만 뉴스 기사의 본문을 구성하도록 정제하여 데이터를 구축하였다. 구축한 데이터의 보수 및 진보 성향 기사의 문장 수와 어절 수는 표 1과 같다.
한국어의 교착어 특성을 고려하여 어절을 형태소 단위의 토큰열로 분할하여 각 형태소 분석기 별 성능 비교 실험을 진행하였다. 정치적 성향의 편향성을 분류하기 위해 정치 키워드를 기반으로 검색된 뉴스 기사를 수집하여 데이터를 구축하였으며, 구축한 데이터를 활용하여 형태소 단위 토큰화를 진행하였다. 형태소 토큰을 사용한 머신러닝 기법으로 SVM 모델을 사용하였으며, 형태소 분석기 별 정확도에 따른 성능을 비교하였다.
한국어의 교착어 특성을 고려하여 어절을 형태소 단위의 토큰열로 분할하여 각 형태소 분석기 별 성능 비교 실험을 진행하였다. 정치적 성향의 편향성을 분류하기 위해 정치 키워드를 기반으로 검색된 뉴스 기사를 수집하여 데이터를 구축하였으며, 구축한 데이터를 활용하여 형태소 단위 토큰화를 진행하였다.
보수 성향과 진보 성향의 데이터 크기는 이진 분류를 위해 동일한 크기로 사용하여 데이터의 균형을 맞추었다. 형태소 분석기를 이용한 토크나이저 별 중복을 제거한 토큰의 수는 표 2와 같으며, 학습 데이터와 훈련 데이터는 8:2의 비율로 분할하여 모델을 학습하고 자동 분류 정확도를 평가하였다.

대상 데이터

정치적 성향의 편향성을 분류하기 위해 정치적 성향을 나타내는 키워드를 기반으로 뉴스 기사를 크롤링하여 데이터를 수집하였다. 보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향과 밀접한 관련이 있는 키워드를 선정하고, 각 키워드를 통해 검색되는 기사를 추출하여 구축하였다.
키워드는 인물, 사건, 주요 단어를 기준으로 추출하였으며, 총 15개의 키워드를 기준으로 하여 11,584개의 기사를 수집하였다. 정치적 편향성 관련된 키워드는 나무 위키⁴⁾에서 선정하였으며, 선정한 키워드 15개는 다음과 같다.
보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향과 밀접한 관련이 있는 키워드를 선정하고, 각 키워드를 통해 검색되는 기사를 추출하여 구축하였다. 키워드는 인물, 사건, 주요 단어를 기준으로 추출하였으며, 총 15개의 키워드를 기준으로 하여 11,584개의 기사를 수집하였다. 정치적 편향성 관련된 키워드는 나무 위키⁴⁾에서 선정하였으며, 선정한 키워드 15개는 다음과 같다.

데이터처리

뉴스 기사의 본문 내용을 형태소 분석기를 통해 형태소 단위로 토큰화하고, 벡터 크기를 각각 100, 200, 300, 400, 500으로 생성한 후에 100, 200, 300의 반복 횟수로 학습하여 토큰 벡터를 구성하였다. 문서를 구성하고 있는 토큰들의 벡터를 평균값으로 문서 벡터를 구성하고 이를 SVM 분류 모델을 통해 실험하였으며 정확도는 표 3과 같다.
정치적 성향의 편향성을 분류하기 위해 정치 키워드를 기반으로 검색된 뉴스 기사를 수집하여 데이터를 구축하였으며, 구축한 데이터를 활용하여 형태소 단위 토큰화를 진행하였다. 형태소 토큰을 사용한 머신러닝 기법으로 SVM 모델을 사용하였으며, 형태소 분석기 별 정확도에 따른 성능을 비교하였다. SVM 모델을 사용한 정치적 편향성의 자동 분류 실험에서 Okt의 형태소 분석기를 사용했을 때 가장 높은 성능을 나타냈다.

이론/모형

이 판별함수를 통해 계산되는 값을 score라고 할 때, 보수 성향에 속하는 기저 벡터의 score는 0보다 큰 값이고, 진보 성향에 속하는 기저 벡터의 score는 0보다 작은 값이 된다. SVM의 분류 모델을 최적화하기 위한 손실함수는 hinge loss를 사용하였으며, (3)과 같이 계산된다. SVM은 이러한 손실 값을 최소화하도록 모델을 학습한다.

성능/효과

형태소 토큰을 사용한 머신러닝 기법으로 SVM 모델을 사용하였으며, 형태소 분석기 별 정확도에 따른 성능을 비교하였다. SVM 모델을 사용한 정치적 편향성의 자동 분류 실험에서 Okt의 형태소 분석기를 사용했을 때 가장 높은 성능을 나타냈다.
SVM을 사용한 자동 분류 결과, 표 4와 같이 벡터 크기 400, 반복 횟수 200으로 Okt 형태소 분석기를 사용하였을 때 정확도 75.7%로 가장 높은 성능을 보였다. 또한, 정치적 편향성의 자동 분류 실험 결과로 전반적으로 Okt와 Komoran은 비슷한 성능을 보였으며, Hannanum의 성능이 가장 낮게 나타났다.
7%로 가장 높은 성능을 보였다. 또한, 정치적 편향성의 자동 분류 실험 결과로 전반적으로 Okt와 Komoran은 비슷한 성능을 보였으며, Hannanum의 성능이 가장 낮게 나타났다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류
Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류 Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류
Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper