[논문]부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석

조단비; 이현영; 정원섭; 강승식

doi:10.3745/ktsde.2021.10.1.1

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석
Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.10 no.1, 2021년, pp.1 - 8

조단비 (국민대학교 컴퓨터공학과) , 이현영 (국민대학교 컴퓨터공학과) , 정원섭 (경남대학교 자유전공학부) , 강승식 (국민대학교 소프트웨어학부)

초록
AI-Helper

뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

Abstract ▼ AI-Helper

In the political field of news articles, there are polarized and biased characteristics such as conservative and liberal, which is called political bias. We constructed keyword-based dataset to classify bias of news articles. Most embedding researches represent a sentence with sequence of morphemes. In our work, we expect that the number of unknown tokens will be reduced if the sentences are constituted by subwords that are segmented by the language model. We propose a document embedding model with subword tokenization and apply this model to SVM and feedforward neural network structure to classify the political bias. As a result of comparing the performance of the document embedding model with morphological analysis, the document embedding model with subwords showed the highest accuracy at 78.22%. It was confirmed that the number of unknown tokens was reduced by subword tokenization. Using the best performance embedding model in our bias classification task, we extract the keywords based on politicians. The bias of keywords was verified by the average similarity with the vector of politicians from each political tendency.

주제어

표/그림 (7)

그림 Fig. 1. Skip-gram Model with Subwords
표 Table 1. List of Keywords for the Political Article Dataset
표 Table 2. The Number of Articles, Sentences, Words from Dataset
표 Table 3. The Number of Unknown Tokens by Tokenizer per Dataset
표 Table 4. SVM Accuracy for Dataset
표 Table 5. Feedforward Neural Network Accuracy for Dataset
표 Table 6. Political Tendency Keywords using Person Keyword Analysis Method(Conservative, Liberal, Neutral)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

하지만 학습 데이터에 출현한 단어(또는 어절)을 이용한 벡터 표현 기법인 워드 임 베딩은 학습 말뭉치에 출현하지 않은 미등록어 토큰으로 인한 OOV (Out Of Vocabulary) 문제가 발생한다. 본 논문에서는 미등록어를 감소시키고 OOV 문제를 완화시키기 위해 부분 단어 토큰화 기법을 이용하였다. 부분 단어 토큰화 기법을 이용하여 정치적 편향성 문제에 접근하였으며 뉴스 기사로부터 보수와 진보의 문서를 분류하기 위한 문서 임베딩 모델을 (3.
문제가 제기된다. 이러한 정치적 편향성 문제에 접근하기 위해 본 논문에서는 키워드 기반으로 검색되는 기사를 수집하여 학습 데이터를 구축하였다. 미등록어 토큰의 수를 감소시키기 위한 형태소 임베딩의 특성을 고려하여 부분 단어 토큰화 기법이 미등록어 토큰의 수를 감소시키는 데에 효과적일 것이라 예상하였다.
예상하였다. 이에 따라 본 논문에서는 부분 단어 토큰화 기법을 이용하여 문서를 구성하고 이를 평균하여 벡터를 구성하는 문서 임베딩 모델을 제안한다. 정치적 편향성 분류실험에서 뉴스 기사의 본문 텍스트를 하나의 문서로 취급하여 문서 임베딩을 진행하였으며 제안한 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델과 형태소 토큰화 기법을 이용한 문서 임베딩 모델을 비교 실험하였다.

제안 방법

이를 통일하기 위해 물결 기호 (∼, ∽, ~, ∼, ~)를 ~로, 따옴표 기호 (", “, ”, “, ˝, “)를 ”, 그리고 중간 기호점(ㆍ, ·)를 · 로 대체하였다.
11, 584개의 문서로 이루어진 PBK_10k와 50, 864개의 문서로 이루어진 PBK_50k 각각에 대하여 정치적 편향성 분류실험을 진행하였다. 부분 단어 토큰화 기법을 이용하여 문서임 베딩을 구성하기 위한 vocab size는 100k와 150k로 지정하여 실험을 진행하였다.
Sheng(2019)은 성별 편향성 문제를 생성 실험에 적용하였다. GPT-2와 BERT 등의 언어 모델을 비교 분석하여 성별에 따라 생성되는 단어들의 긍정과 부정, 중립을 분석하였다[9].
PBK_50k 데이터에서 가장 높은 성능을 보인 SP_150k 임베딩 모델을 이용하여 정치적 편향성 어휘를 추출하였다. 정치인 키워드를 기반으로 정치적 어휘를 추출하고 평균 유사도를 통해 보수와 진보, 중립의 성향에 속하는 편향성 어휘를 확장하였다.
이에 따라 본 논문에서는 뉴스 기사의 정치적 성향을 분류하는 실험에서 가장 높은 성능의 임베딩 모델을 이용하여 정치인과의 벡터 유사도를 통해 정치적 어휘를 추출하였다. 각 성향에 속하는 정치인들과의 벡터 유사도에 따라 추출된 어휘를 평균 유사도를 통해 검증하였으며 보수와 진보, 중립의 편향성 어휘를 분석하였다. 보수와 진보 성향에 속하는 정치인 각 10명을 선별하여 총 20명의 인물과 유사한 어휘를 추출하였으며 정치적 성향에 속하는 정치인 20명은 다음과 같다.
200, 300에 대하여 비교 실험하였다. 각각의 파라미터에 따라 학습된 벡터로 문서 임베딩을 구성하고 SVM⁶⁾과 전 방향 뉴럴 네트워크 구조에 적용하여 분류 실험을 진행하였다. 전방향 뉴럴 네트워크 구조의 경우, 학습률 0.
동일한 사건에 대하여 각 언론사가 취급하는 뉴스 기사를 수집하였으며 주요 키워드와 객체, 글의 주체 등을 추출하였다. 구축한 데이터를 이용하여 각각의 뉴스 기사에 속하는 정보 편향성과 어휘 편향성 정보를 분석하였다[4].
Fan (2019)은 뉴스 기사 데이터를 이용하여 편향성 문제를 다루기 위한 데이터를 구축하였다. 동일한 사건에 대하여 각 언론사가 취급하는 뉴스 기사를 수집하였으며 주요 키워드와 객체, 글의 주체 등을 추출하였다. 구축한 데이터를 이용하여 각각의 뉴스 기사에 속하는 정보 편향성과 어휘 편향성 정보를 분석하였다[4].
05보다 클 경우 진보 성향의 편향성 어휘로 검증된다. 두 정치적 성향의 평균 유사도의 차이가 0.05 이하인 경우, 두 정치적 성향에서 유사도가 높으며 통용되는 어휘일 것으로 추론하여 이는 편향성 어휘가 아닌 중립 성향의 어휘로 검증하였다.
1)에서 제안하였다. 또한, 문서 분류에서 사용된 임 베딩 모델을 이용하여 (3.2)와 같이 정치적 성향에 편향된 어휘를 추출하였으며 편향성 어휘들의 특성을 분석하였다.
정치적 편향성 어휘를 추출하였다. 또한, 형태소 분석기 중 가장 좋은 성능을 보인 PBK_50k 데이터의 Okt 임 베딩 벡터를 통해 편향성 어휘를 추출하여 각 성향으로 편향된 어휘들의 특성을 비교하였다. 이때 Okt를 이용한 문서 임 베딩은 233, 329개의 형태소 단어 집합으로 벡터를 구성하였다.
문서 내의 토큰 벡터는 Fig. 1과 같이 Skip-gram 을 확장한 모델로 설계하였다. Skip-grame 중심 단어의 벡터를 이용하여 주변 단어들의 벡터를 예측하는 대표적인 word2vec 모델이다[8].
문서 임베딩을 위한 파라미터로 window size 5, min count 1, negative sampling 5의 Skip-gram 모델을 이용하였으며 벡터 크기 100, 200, 300, 400, 500과 iteration 100, 200, 300에 대하여 비교 실험하였다. 각각의 파라미터에 따라 학습된 벡터로 문서 임베딩을 구성하고 SVM⁶⁾과 전 방향 뉴럴 네트워크 구조에 적용하여 분류 실험을 진행하였다.
문서를 단어(또는 어절)이 아닌 연속된 부분 단어 토 큰 열로 구성하였으며 각 부분 단어 토큰들의 입력으로 토큰 벡터를 구성하였다. 문서 내의 토큰 벡터는 Fig.
SP_150k의 경우, 146개의 어휘가 추출되었으며 Okt는 174개의 어휘가 추출되었다. 벡터 유사도를 통해 추출된 어휘는 보수와 진보의 각 정치적 인물 10명과의 평균 유사도 값을 갖게 되며 보수 평균 유사도와 진보 평균 유사도의 차이를 통해 해당 어휘가 실제 각 성향에 속하는 어휘와 유사한지 검증하였다.
편향성 어휘는 각 성향에 속하는 정치인들의 이름과 평균 유사도를 이용하여 추출하였다. 벡터의 평균 유사도를 통해 추출된 어휘를 보수와 진보, 중립의 정치적 성향에 따라 구분하여 편향성 어휘의 특성을 분석하였다.
보수 집합에 속하는 인물 _, 진보 집합에 속하는 인물  에 대하여 각 인물과 벡터값이 가장 유사한 10개의 어휘를 코사인 유사도(cosine similarity)를 이용하여 추출하였다. 보수와 진보 성향의 정치인 벡터와 유사도를 통해 추출된 어휘에서 중복을 제거한 어휘 리스트 ___을 구성하였다.
추출하였다. 보수와 진보 성향의 정치인 벡터와 유사도를 통해 추출된 어휘에서 중복을 제거한 어휘 리스트 ___을 구성하였다. 어휘 리스트에 속하는 어휘들의 정치적 성향을 검증하기 위해 Equation (3)과 같이 리스트 내 어휘를 보수와 진보에 속하는 각 10명 인물과의 유사도 평균을 비교하였다.
보수와 진보에 따른 정치적 편향성을 분류하기 위한 학습데이터를 구축하였다. 데이터는 키워드³⁾를 기반으로 검색된 기사의 [기사 제목, 본문, url, 기사 업로드 날짜]의 정보를 수집하였다.
하지만 띄어쓰기를 포함하기 위해 대체되는 ‘_’ 는 기계번역이나 생성을 위한 연구에서 토큰화된 데이터를 복원하기 위해 사용되는 방식이다[17]. 본 논문에서는 문서분류 실험을 위해 SentencePiece 토큰화 기법을 사용하는 것이기 때문에 공백 문자를 대체한 ‘_’를 벡터 학습 시 다시 공백 문자로 변경하였다. 예를 들어, “나는 학교에 갔다.
제한할 수 있다. 본 논문에서는 문장 단위의 부분 단어 분할 알고리즘인 SentencePiece 토큰화 기법을 문서 수준으로 확장하여 문서를 부분 단어 토큰열로 구성하였다.
이용한 임베딩 연구에서 많이 사용되고 있다. 본 논문에서는 부분 단어 토큰이 형태소 토큰보다 미등록어 수를 감소시킬 것이라 예상하였으며 Table 3과 같이 토큰화 기법에 따른 미등록어 수를 분석하였다. 정치적 편향성 분류 실험을 위해 구축한 PBK_10k와 PBK_50k 모두 형태소 토큰화 기법보다 부분단어 토큰화 기법을 이용한 경우 미등록어 수가 적게 나타났다.
진행하였다. 부분 단어 토큰화 기법을 이용하여 문서임 베딩을 구성하기 위한 vocab size는 100k와 150k로 지정하여 실험을 진행하였다. 각 데이터의 벡터 크기 별 SVM 정확도는 Table 4와 같다.
본 논문에서는 미등록어를 감소시키고 OOV 문제를 완화시키기 위해 부분 단어 토큰화 기법을 이용하였다. 부분 단어 토큰화 기법을 이용하여 정치적 편향성 문제에 접근하였으며 뉴스 기사로부터 보수와 진보의 문서를 분류하기 위한 문서 임베딩 모델을 (3.1)에서 제안하였다. 또한, 문서 분류에서 사용된 임 베딩 모델을 이용하여 (3.
실험을 진행하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 설계하고 SVM(Support Vector Machine) 과 전방향 뉴럴 네트워크 구조(feedforward neural network) 를 이용하여 뉴스 기사의 정치적 성향을 분류하였다. 정치적 편향성은 동일한 사건에 대하여 특정 인물을 옹호하거나 공격하는 방식과 같이 문맥 정보를 통해 간접적으로 드러난다.
분할된 학습 데이터를 이용하여 SentencePiece 토큰화 모델을 학습하였으며 학습된 모델을 이용하여 문서를 연속된 부분단어 토큰열로 분할하였다. 연속된 부분 단어 토큰열로 구성된 문서 임베딩을 이용하여 정치적 편향성 분류 실험을 진행하였다.
연속된 부분 단어 토큰열로 구성된 문서 임베딩을 이용하여 정치적 편향성 분류 실험을 진행하였다. 비교 실험을 위해 교착어인 한국어의 특성을 고려한 형태소 토큰화⁵⁾ 기법으로 문서 임베딩을 구성한 모델을 Baseline으로 하여 정치적 편향성 분류 실험을 진행하였다.
보수와 진보 성향의 정치인 벡터와 유사도를 통해 추출된 어휘에서 중복을 제거한 어휘 리스트 ___을 구성하였다. 어휘 리스트에 속하는 어휘들의 정치적 성향을 검증하기 위해 Equation (3)과 같이 리스트 내 어휘를 보수와 진보에 속하는 각 10명 인물과의 유사도 평균을 비교하였다.
분할된 학습 데이터를 이용하여 SentencePiece 토큰화 모델을 학습하였으며 학습된 모델을 이용하여 문서를 연속된 부분단어 토큰열로 분할하였다. 연속된 부분 단어 토큰열로 구성된 문서 임베딩을 이용하여 정치적 편향성 분류 실험을 진행하였다. 비교 실험을 위해 교착어인 한국어의 특성을 고려한 형태소 토큰화⁵⁾ 기법으로 문서 임베딩을 구성한 모델을 Baseline으로 하여 정치적 편향성 분류 실험을 진행하였다.
본 논문에서는 문서분류 실험을 위해 SentencePiece 토큰화 기법을 사용하는 것이기 때문에 공백 문자를 대체한 ‘_’를 벡터 학습 시 다시 공백 문자로 변경하였다. 예를 들어, “나는 학교에 갔다.”의문장을 SentencePiece 토큰화 기법을 이용하여 분할할 경우 [_나는, _학교, 에, _갔다.]와 같이 생성될 수 있지만, 본 논문에서는 ‘_’를 다시 공백 문자로 대체하여 [나는, 학교, 에, 갔다.]의 형태로 벡터를 학습하였다.
을 생성한다. 이때 문장 를 표현하는 부분 단어 토큰열은 Equation (1)과 같이 부분 단어 토 큰 열 ____의 문장 생성 확률 _을 최대화하는 토 큰 열 로 선택하여 문장을 구성하였다.
주변 문맥을 고려하여 각 단어 간 벡터를 학습하기 때문에 벡터 공간에서의 단어는 유사한 위치의 단어들끼리 유사한 의미를 갖는 특성을 나타낸다. 이러한 Skip-gram 모델을 확장하여 부분 단어 토큰 단위의 좌우 문맥 정보를 학습하도록 하였다.
정치적 편향성은 동일한 사건에 대하여 특정 인물을 옹호하거나 공격하는 방식과 같이 문맥 정보를 통해 간접적으로 드러난다. 이러한 특성을 고려하여 분류 실험에서 가장 높은 성능의 임 베딩 모델을 이용하여 각 성향에 따라 편향된 어휘를 분석하였다. 편향성 어휘는 각 성향에 속하는 정치인들의 이름과 평균 유사도를 이용하여 추출하였다.
자연어처리 시스템에서 정치적 편향성 문제는 어휘 편향성 문제를 포함하며 이를 분석하기 위해 정치적 편향성 데이터로부터 나타나는 어휘 편향성을 분석하였다. 이를 위해 정치적 편향성 분류 실험에서 가장 좋은 성능을 보인임베딩 모델을 이용하여 정치적 성향에 따라 나타나는 어휘를 추출하여 분석하였다. PBK_50k 데이터에 대하여 벡터학습 iteration 300, 벡터 크기 500으로 조정된 SP_150k 모델의 성능이 78.
뉴스 기사의 경우, 정치인을 중점으로 사건이 기술되며 동일한 사건에 대하여 각 성향에 따른 정치인들의 의견을 서술하기도 한다. 이에 따라 본 논문에서는 뉴스 기사의 정치적 성향을 분류하는 실험에서 가장 높은 성능의 임베딩 모델을 이용하여 정치인과의 벡터 유사도를 통해 정치적 어휘를 추출하였다. 각 성향에 속하는 정치인들과의 벡터 유사도에 따라 추출된 어휘를 평균 유사도를 통해 검증하였으며 보수와 진보, 중립의 편향성 어휘를 분석하였다.
동일한 주제에 대하여 다양한 관점의 작성자들이 정보를 작성하기 때문에 편향된 정보를 중립화시키는 작업이 필수적이다. 이에 따라 위키피디아는 편향된 정보를 수정하는 중립화 검증 절차를 거치며 이를 위한 정책 지침으로 NPOV(Neutral Point Of View)를 제시하였다. NPOV의 예시는 다음과 같다1).
임베딩 기법을 이용하여 정치적 어휘를 추출하고 추출된 어휘의 정치적 특성을 검증하여 편향성 어휘를 확장하였다. 인물 키워드 기반의 정치적 어휘 분석으로 정치인들의 성향을 검증하였으며 정치적 성향에 따라 검증된 편향성 어휘를 분석하였다.
진보 성향의 편향성 어휘 결과, ‘박원순’, ‘유시민’ 등의 정치인 성향을 검증하였으며 이외에도 ‘노무현재단’, ‘더불어민주당’, ‘이해찬’, ‘박영선’ 등 진보성향의 특성을 보이는 편향성 어휘를 확인하였다. 임베딩 기법을 이용하여 정치적 어휘를 추출하고 추출된 어휘의 정치적 특성을 검증하여 편향성 어휘를 확장하였다. 인물 키워드 기반의 정치적 어휘 분석으로 정치인들의 성향을 검증하였으며 정치적 성향에 따라 검증된 편향성 어휘를 분석하였다.
다루었다. 자연어처리 시스템에서 정치적 편향성 문제는 어휘 편향성 문제를 포함하며 이를 분석하기 위해 정치적 편향성 데이터로부터 나타나는 어휘 편향성을 분석하였다. 이를 위해 정치적 편향성 분류 실험에서 가장 좋은 성능을 보인임베딩 모델을 이용하여 정치적 성향에 따라 나타나는 어휘를 추출하여 분석하였다.
각각의 파라미터에 따라 학습된 벡터로 문서 임베딩을 구성하고 SVM⁶⁾과 전 방향 뉴럴 네트워크 구조에 적용하여 분류 실험을 진행하였다. 전방향 뉴럴 네트워크 구조의 경우, 학습률 0.001의 SGD(Stochastic Gradient Descent)로 설계하였으며 활성 함수(activation function)는 softmax, batch size 64, epoch 2000으로 파라미터를 설계하였다. 전체 데이터를 8:2의 비율로 분할한 학습 데이터와 평가 데이터 중 학습 데이터를 8:2로 재분할하여 학습 모델을 검증하였다.
001의 SGD(Stochastic Gradient Descent)로 설계하였으며 활성 함수(activation function)는 softmax, batch size 64, epoch 2000으로 파라미터를 설계하였다. 전체 데이터를 8:2의 비율로 분할한 학습 데이터와 평가 데이터 중 학습 데이터를 8:2로 재분할하여 학습 모델을 검증하였다.
추출하였다. 정치인 키워드를 기반으로 정치적 어휘를 추출하고 평균 유사도를 통해 보수와 진보, 중립의 성향에 속하는 편향성 어휘를 확장하였다. 확장된 어휘 분석 결과, 성향에 따라 검증된 편향성 어휘가 해당 정치적 성향의 특성을 나타내는 것을 확인하였으며 형태소 분석기를 이용한 임베딩 모델보다 부분단어를 이용한 임베딩 모델로 검증한 어휘가 편향적 특성을 잘 나타내는 것을 확인하였다.
정치적 편향성 문서 분류 실험을 통해 정치적 편향성 문제를 다루었다. 자연어처리 시스템에서 정치적 편향성 문제는 어휘 편향성 문제를 포함하며 이를 분석하기 위해 정치적 편향성 데이터로부터 나타나는 어휘 편향성을 분석하였다.
정치적 편향성 문제에 접근하기 위해 학습 데이터를 구축하였으며 뉴스 기사에서 나타나는 보수와 진보의 각 성향을 분류하는 실험을 진행하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 설계하고 SVM(Support Vector Machine) 과 전방향 뉴럴 네트워크 구조(feedforward neural network) 를 이용하여 뉴스 기사의 정치적 성향을 분류하였다.
추출된 특정 어휘 _와 각 정치적 인물 10명과의 벡터 유사도를 평균한 보수의 평균 유사도를 _, 진보의 평균 유사도를 _라고 할 때, 두 평균 유사도를 임계치(threshold)를 기준으로 비교하여 특정 어휘 _의 정치적 성향을 검증하고자 한다. 예를 들어 ‘새누리당’의 보수 평균 유사도 _는 0.
특수기호와 날짜, 괄호와 같이 기호로 작성된 정보를 처리하고 이를 문장 단위로 구분하기 위해 문장 끝 기호로 마침표 (.)와 물음표(?), 느낌표(!)를 사용하였다. 인용문 내의 문장 끝 기호의 출현은 이를 구분하지 않고 인용문을 포함한 문장으로 구분하였다.
이러한 특성을 고려하여 분류 실험에서 가장 높은 성능의 임 베딩 모델을 이용하여 각 성향에 따라 편향된 어휘를 분석하였다. 편향성 어휘는 각 성향에 속하는 정치인들의 이름과 평균 유사도를 이용하여 추출하였다. 벡터의 평균 유사도를 통해 추출된 어휘를 보수와 진보, 중립의 정치적 성향에 따라 구분하여 편향성 어휘의 특성을 분석하였다.
편향성 어휘를 추출하기 위해 정치적 편향성 문서 분류에서 학습했던 문서 임베딩 모델의 벡터를 이용하여 특정 인물과 가장 높은 유사도를 나타내는 10개의 어휘를 추출하였다. 보수와 진보 성향에 속하는 정치인 총 20명과의 유사도로 추출된 200 개의 어휘에서 중복을 제거하여 어휘 리스트를 구성하였다.

대상 데이터

구축하였다. 데이터는 키워드³⁾를 기반으로 검색된 기사의 [기사 제목, 본문, url, 기사 업로드 날짜]의 정보를 수집하였다. 정치적 성향이 드러나는 대표적인 언론사 6개(보수 언론사 3개, 진보 언론사 3개)에서 기사를 추출하였으며 데이터는 15개의 키워드로 추출한 PBK⁴⁾_10k과 54개의 키워드를 추가하여 총 69개의 키워드로 추출한 PBK_50k로 구축하였다.
인용문 내의 문장 끝 기호의 출현은 이를 구분하지 않고 인용문을 포함한 문장으로 구분하였다. 보수와 진보 각각의 정치적 성향에 대하여 균등한 데이터의 크기로 구성하였으며 학습 데이터와 평가 데이터를 각각 8:2로 분할하여 사용하였다. 데이터의 기사와 문장 및 어절 수는 Table 2와 같이 확인하였다.
보수와 진보 성향에 속하는 정치인 총 20명과의 유사도로 추출된 200 개의 어휘에서 중복을 제거하여 어휘 리스트를 구성하였다. SP_150k의 경우, 146개의 어휘가 추출되었으며 Okt는 174개의 어휘가 추출되었다.
PBK_10k는 11, 584개의 기사, PBK_50k는 50, 864개의 기사로 구성되었으며 각각의 검색 키워드는 Table 1과 같다. 인물(person), 사건(event), 주요어(main term)의 카테고리에서 해당 키워드를 6개의 언론사에서 검색하였을 때 검색되는 뉴스 기사들을 수집하였다.
데이터는 키워드³⁾를 기반으로 검색된 기사의 [기사 제목, 본문, url, 기사 업로드 날짜]의 정보를 수집하였다. 정치적 성향이 드러나는 대표적인 언론사 6개(보수 언론사 3개, 진보 언론사 3개)에서 기사를 추출하였으며 데이터는 15개의 키워드로 추출한 PBK⁴⁾_10k과 54개의 키워드를 추가하여 총 69개의 키워드로 추출한 PBK_50k로 구축하였다. PBK_10k는 11, 584개의 기사, PBK_50k는 50, 864개의 기사로 구성되었으며 각각의 검색 키워드는 Table 1과 같다.

데이터처리

미등록어 토큰의 수를 감소시키기 위한 형태소 임베딩의 특성을 고려하여 부분 단어 토큰화 기법이 미등록어 토큰의 수를 감소시키는 데에 효과적일 것이라 예상하였다. 이를 실험하기 위해 구축한 데이터에 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 적용하여 정치적 편향성 분류 실험을 진행하였으며 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험하였다. 실험 결과, PBK_50k 데이터에서 vocab size 150k의 SentencePiece 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델의 정확도가 78.
이에 따라 본 논문에서는 부분 단어 토큰화 기법을 이용하여 문서를 구성하고 이를 평균하여 벡터를 구성하는 문서 임베딩 모델을 제안한다. 정치적 편향성 분류실험에서 뉴스 기사의 본문 텍스트를 하나의 문서로 취급하여 문서 임베딩을 진행하였으며 제안한 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델과 형태소 토큰화 기법을 이용한 문서 임베딩 모델을 비교 실험하였다.

이론/모형

정치적 편향성 분류를 위한 부분 단어 토큰화 기법으로 SentencePiece를 사용하였으며 구축 데이터를 8:2의 비율로 분할하여 학습 데이터와 평가 데이터를 구성하였다. 분할된 학습 데이터를 이용하여 SentencePiece 토큰화 모델을 학습하였으며 학습된 모델을 이용하여 문서를 연속된 부분단어 토큰열로 분할하였다.

성능/효과

Table 4는 각 토큰화 기법을 이용한 문서 임베딩 모델을 SVM에 적용하여 정치적 편향성 분류실험을 진행한 결과이며 벡터 크기에 따라 가장 성능이 좋은 벡터 학습 iteration의 정확도를 나타낸다. PBK_10k에서는 SP_100k7)의 정확도가 76.87%, PBK_50k에서는 SP_150k 의 정확도가 78.22%로 가장 높은 성능을 보였다. 각 데이터에 대하여 SVM을 적용하여 분류 실험한 결과, 형태소 토큰화 기법을 이용한 문서 임베딩 모델보다 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델의 성능이 높게 나타났다.
이를 위해 정치적 편향성 분류 실험에서 가장 좋은 성능을 보인임베딩 모델을 이용하여 정치적 성향에 따라 나타나는 어휘를 추출하여 분석하였다. PBK_50k 데이터에 대하여 벡터학습 iteration 300, 벡터 크기 500으로 조정된 SP_150k 모델의 성능이 78.22%로 가장 좋은 성능을 보였으며 해당 부분 단어 집합의 벡터를 이용하여 어휘를 추출하였다.
SP_150k를 이용한 편향성 어휘 추출 결과, 보수 성향에서 ‘박근혜’, ‘김기춘’, ‘이회창’ 등과 같이 보수의 정치적 성향으로 지칭했던 정치인들의 성향이 보수에 속하는 것을 검증하였다. 이외에도 ‘박정희’, ‘최순실’, ‘노태우’, ‘새누리당’ 등 보수적 성향의 편향성 어휘가 추출되었다.
22%로 가장 높은 성능을 보였다. 각 데이터에 대하여 SVM을 적용하여 분류 실험한 결과, 형태소 토큰화 기법을 이용한 문서 임베딩 모델보다 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델의 성능이 높게 나타났다.
Table 6의 편향성 어휘 예시는 평균 유사도의 차이가 큰 순으로 정렬된 상위 20개의 어휘이다. 각 성향으로 검증된 편향성 어휘의 특성을 확인한 결과, 보수 성향의 Okt 벡터 모델은 ‘사주였던’, ‘3.2’ 등 보수 성향과 관련 없는 편향성 어휘가 함께 추출된 반면, SP_150k 벡터 모델은 ‘박정희’, ‘최순실’ 등 보수 성향을 나타내는 편향성 어휘가 추출된 것을 확인하였다.
각 토큰화 기법을 이용한 문서 임베딩 모델에 전방향 뉴럴 네트워크 구조를 적용한 결과, PBK_10k에서는 SP_100k의 정확도가 72.59%, PBK_50k에서는 SP_150k의 정확도가 74.93% 로 가장 높은 정확도를 보였다. 전방향 뉴럴 네트워크 구조를 적용한 실험 결과는 SVM을 적용한 실험결과와 동일하게 형태소 토큰화 기법을 이용한 문서 임베딩 모델보다 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델의 성능이 좋게 나타났다.
미등록어에 대처하는 부분 단어 토큰화 기법의 효과를 입증하기 위해 미등록어 수를 확인하였으며 형태소 토큰화 기법보다 부분 단어 토큰화 기법을 통해 미등록어 수가 월등히감소되는 것을 확인하였다. 이를 통해 부분 단어 토큰화 기법을 이용하여 미등록어 수를 감소시킬 수 있으며 OOV 문제를완화시키는 방법으로 효율적임을 입증하였다.
이를 실험하기 위해 구축한 데이터에 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 적용하여 정치적 편향성 분류 실험을 진행하였으며 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험하였다. 실험 결과, PBK_50k 데이터에서 vocab size 150k의 SentencePiece 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델의 정확도가 78.22% 로 가장 높은 성능을 보였다.
것을 확인하였다. 이를 통해 부분 단어 토큰화 기법을 이용하여 미등록어 수를 감소시킬 수 있으며 OOV 문제를완화시키는 방법으로 효율적임을 입증하였다.
많은 임베딩 연구에서 단어를 형태소로 분할함으로써 미등록어 토큰 수를 감소시켜 OOV 문제를 완화시키고 좋은 성능을 보인 것으로 알려져 있다[18, 19]. 이에 따라 본 논문에서는 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하였으며 정치적 편향성 분류 실험을 통해 부분 단어 토큰화 기법이 미등록어 토큰 수를 감소시키고 OOV 문제를 완화시켜 높은 정확도를 보인 것을 입증하였다.
93% 로 가장 높은 정확도를 보였다. 전방향 뉴럴 네트워크 구조를 적용한 실험 결과는 SVM을 적용한 실험결과와 동일하게 형태소 토큰화 기법을 이용한 문서 임베딩 모델보다 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델의 성능이 좋게 나타났다. 이는 Table 3과 같이 형태소 토큰화보다 부분 단어 토큰화의 미등록어 수가 적은 것을 통해 성능을 추론할 수 있다.
본 논문에서는 부분 단어 토큰이 형태소 토큰보다 미등록어 수를 감소시킬 것이라 예상하였으며 Table 3과 같이 토큰화 기법에 따른 미등록어 수를 분석하였다. 정치적 편향성 분류 실험을 위해 구축한 PBK_10k와 PBK_50k 모두 형태소 토큰화 기법보다 부분단어 토큰화 기법을 이용한 경우 미등록어 수가 적게 나타났다.
이외에도 ‘박정희’, ‘최순실’, ‘노태우’, ‘새누리당’ 등 보수적 성향의 편향성 어휘가 추출되었다. 진보 성향의 편향성 어휘 결과, ‘박원순’, ‘유시민’ 등의 정치인 성향을 검증하였으며 이외에도 ‘노무현재단’, ‘더불어민주당’, ‘이해찬’, ‘박영선’ 등 진보성향의 특성을 보이는 편향성 어휘를 확인하였다. 임베딩 기법을 이용하여 정치적 어휘를 추출하고 추출된 어휘의 정치적 특성을 검증하여 편향성 어휘를 확장하였다.
정치인 키워드를 기반으로 정치적 어휘를 추출하고 평균 유사도를 통해 보수와 진보, 중립의 성향에 속하는 편향성 어휘를 확장하였다. 확장된 어휘 분석 결과, 성향에 따라 검증된 편향성 어휘가 해당 정치적 성향의 특성을 나타내는 것을 확인하였으며 형태소 분석기를 이용한 임베딩 모델보다 부분단어를 이용한 임베딩 모델로 검증한 어휘가 편향적 특성을 잘 나타내는 것을 확인하였다.

참고문헌 (19)

S. Greene and P. Resnik, "More than words: Syntactic packaging and implicit sentiment," in Proceedings of the Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, pp.503-511, 2009.
M. Recasens, C. Danescu-Niculescu-Mizil, and D. Jurafsky, "Linguistic models for analyzing and detecting biased language," in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Vol.1, pp.1650-1659, 2013.
C. Hube and B. Fetahu, "Detecting biased statements in wikipedia," in Companion Proceedings of the Web Conference 2018, Lyon, pp.1779-1786, 2018.
L. Fan, M. White, E. Sharma, R. Su, P. Choubey, R. Huang, and L. Wang, "In plain sight: media bias through the lens of factual reporting," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong Kong, pp.6343-6349, 2019.
N. Mehrabi, F. Morstatter, N. Saxena, K. Lerman, and A. Galstyan, "A survey on bias and fairness in machine learning," in arXiv preprint arXiv:1908:09635, 2019.
T. Bolukbasi, K. Chang, J. Zou, V. Saligrama, and A. Kalai, "Man is to computer programmer as woman is to homemaker? debiasing word embeddings," in Proceedings of the Advances in Neural Information Processing Systems, Red Hook, pp.4349-4357, 2016.
S. Bordia and S. Bowman, "Identifying and reducing gender bias in word-level language models," in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, Minneapolis, pp.7-15, 2019.
J. Font and M. Costa-Jussa, "Equalizing gender biases in neural machine translation with word embeddings techniques," in Proceedings of the 1st ACL Workshop on Gender Bias in Natural Language Processing, Florence, pp.147-154, 2019.
E. Sheng, K. Chang, P. Natarajan, and N. Peng, "The woman worked as a babysitter: On biases in language generation," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong Kong, pp.3407-3412, 2019.
T. Mikolov, I. Sutskever, K. Chen, G. Corrado and J. Dean, "Distributed representations of words and phrases and their compositionality," in Proceedings of the Advances in Neural Information Processing Systems, Nevada, pp.3111-3119, 2013.
T. Mikolov, K. Chen, G. Corrado and J. Dean, "Efficient estimation of word representations in vector space," in Proceedings of the 1st International Conference on Learning Representations, 2013.
J. Pennington, R. Socher and C. Manning, "Glove: Global vectors for word representation," in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, pp.1532-1543, 2014.
J. Botha and P. Blunsom, "Compositional morphology for word representations and language modelling," in Proceedings of the International Conference on Machine Learning, Beijing, Vol.32, pp.1899-1907, 2014.
R. Cotterell and H. Schutze, "Morphological word embeddings," in Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics, Denver, pp.1287-1292, 2015.
J. Wieting, M. Bansal, K. Gimpel, and K. Livescu, "Towards universal paraphrastic sentence embeddings," in Proceedings of the 4th International Conference on Learning Representations, 2016.
T. Kudo, "Subword regularization: Improving neural network translation models with multiple subword candidates," in Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Melbourne, Vol.1, pp.66-75, 2018.
M. Domingo, M. Garcia-Marinez, A. Helle, F. Casacuberta, and M. Herranz, "How much does tokenization affect neural machine translation?," in arXiv preprint arXiv:1812.08621, 2018.
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching word vectors with subword information," in Transactions of the Association for Computational Linguistics, Vol.5, pp.135-146, 2017.

상세보기
D. Cho, H. Lee, and S. Kang, "Sentiment analysis for informal text by using sentencepiece tokenizer and subword embedding," in Proceedings of the Korea Computer Congress 2020, Online, pp.395-397, 2020.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증