[논문]국방 기사 자동 분석 시스템 구축 방안 연구

김현중; 김우주

doi:10.9766/kimst.2018.21.1.086

국방 기사 자동 분석 시스템 구축 방안 연구
A Study on Automatic Analysis System of National Defense Articles 원문보기

Since media articles, which have a great influence on public opinion, are transmitted to the public through various media, it is very difficult to analyze them manually. There are many discussions on methods that can collect, process, and analyze documents in the academia, but this is mostly done in the areas related to politics and stocks, and national-defense articles are poorly researched. In this study, we will explain how to build an automatic analysis system of national defense articles that can collect information on defense articles automatically, and can process information quickly by using topic modeling with LDA, emotional analysis, and extraction-based text summarization.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구에서는 국방 관련 기사를 자동으로 수집하여 주제를 분류하고 본문을 요약하며, 기본적인 감성 분석까지 가능한 국방 기사 자동 분석 시스템 구축 방안에 대해 제안하려고 한다.

제안 방법

’17년 전반기 국방 관련 기사 중 사드, 장관 후보자 관련 기사 등 4,264건에서 자주 사용된 2음절 이상의 명사, 동사, 형용사 각 3,000단어를 추출하여 ‘강력하다, 좋다, 최고’ 등 긍정적 단어와 ‘심각하다, 위험하다, 위협’ 등 부정적 단어를 구분하여 사전을 구축하였다(긍정 498단어, 부정 634단어).
LDA 적용시 문서 토픽 분포 정도인 변수 α(설정 : 0.25)와 토픽 내 키워드 분포 정도인 β(설정 : 0.002), 샘플링 정도인 iteration(설정 : 3,000)은 연구자가 직접 설정해준 값으로 실시하였으며, 토픽과 토픽당 키워드는 실험 결과 각 10개가 가장 가독성이 좋다고 판단하여 고정 값으로 설정하였다.
score(i), hit(pi), hit(ni)는 각각 i번째 기사의 감성 점수, 긍정 단어 출현 수, 부정 단어 출현 수이고, 기사의 긍ㆍ부정 점수는 긍ㆍ부정 단어가 출현한 전체 수에서 긍정 단어가 차지하는 비율로 계산하였으며, 분모가 0이 되는 것을 방지하기 위해 초기 값으로 hit(pi) 와 hit(ni) 모두 1을 설정하였다. 40점 미만은 부정, 40 점 이상 60점 미만은 중립, 60점 이상은 긍정으로 분류하였으며 결과는 Table 2 및 Table 3과 같다.
먼저 각 문장 단어별 TF-IDF 점수를 합산하여 문장의 중요 정도를 계산 후 코사인 유사도를 측정하여 각 문장간 유사도를 확인 한다. 계산된 코사인 유사도 값에 임계(Threshold)를 설정하여 각 문장을 노드로 표현한 그래프를 만들고 총 노드 수와 인접 노드 수, 연결된 차수(Degree)를 Google 검색 엔진에서 페이지의 상대적 우선 순위 결 정에 사용되는 PageRank로 계산하여 중요 문장을 최종 추출한다[16].
국방 관련 기사들이 어떠한 주제와 핵심 키워드들로 구성되어 있는지 분석하기 위해 전처리한 기사 제목만을 이용하여 LDA를 실시한다. Python gensim 라이브러리를 사용하였다^[19].
국방 기사 자동 분석 시스템을 구축하기 위해 먼저 뉴스가 어떻게 현상을 바라보고 표현하는지를 이해하는 뉴스 프레이밍 기법을 설명하고, 이후 기사를 처리, 분석하기 위한 텍스트 마이닝 분야를 소개하고 추가적으로 기사 주제 분포 파악을 위한 토픽 모델링, 긍ㆍ부정 판단을 위한 감성 분석 기법, 사용자가 기사 내용을 빠르게 파악하기 위한 다중 문서 요약 등에 대해 언급한다.
기사의 감성이 긍정인지 부정인지를 구분하기 위한 절차로 ’17년 전반기 국방 관련 기사 중 사드 배치, 국방 장관 후보자 내정 관련 기사 등 4,264건에서 자주 언급된 명사, 동사, 형용사 3,000 단어를 긍ㆍ부정으로 분류한 감성사전을 이용하였다.
LexRank 알고리즘은 중심성이 높은 문장들을 추출 하는 방식으로 문서를 요약한다. 먼저 각 문장 단어별 TF-IDF 점수를 합산하여 문장의 중요 정도를 계산 후 코사인 유사도를 측정하여 각 문장간 유사도를 확인 한다. 계산된 코사인 유사도 값에 임계(Threshold)를 설정하여 각 문장을 노드로 표현한 그래프를 만들고 총 노드 수와 인접 노드 수, 연결된 차수(Degree)를 Google 검색 엔진에서 페이지의 상대적 우선 순위 결 정에 사용되는 PageRank로 계산하여 중요 문장을 최종 추출한다[16].
문서에서 불필요한 단어를 처리해주기 위한 절차로 분석에 필요한 데이터를 얻기 위해 중요하며, 본 연구에서는 분석 효율을 향상시키기 위해 명사, 동사, 형용사 품사만을 활용하였다. 도구는 Python KoNLPy 라이브러리를 사용하였다^[18].
본 논문에서 제안하는 국방 기사 자동 분석 시스템 은 인터넷 상의 국방 관련 기사를 자동으로 수집, 기사의 제목을 이용하여 토픽 모델링을 실시하여 기사 들을 대표하는 주제들을 파악하고, 본문을 요약 및 감성 분석을 통해 사용자가 빠르게 정보를 판단할 수 있도록 지원하는 체계이다. 전체적인 시스템 프로세스 는 Fig.
본 시스템에서 사용하는 문서요약은 추출 기반 (Extraction-based) 알고리즘으로 실제 기사에서 사용한 문장 중 가장 중심 점수가 높은 문장을 선택하기 때문에 어색하지 않고 문장 구조가 완전한 요약문을 제공한다.
본 연구에서는 군 관련 이슈에 긍ㆍ부정적인 기사였다고 판단할 수 있는 학습 데이터를 충분히 구비하지 못해 기계학습 방식을 적용하기에 제한되었고, 주식, 영화 리뷰 등 기존 감성 분석 연구와 도메인이 달라 해당 감성사전을 적용하기 어려운 점을 고려, 4,264건의 국방 기사에서 자주 언급된 명사, 동사, 형용사 각 3,000단어에서 긍ㆍ부정 감정을 나타내는 어휘를 선별하여 새로 감성사전을 구축하였다.
시스템 사용자가 관심 있는 기사의 내용을 빠르게 이해하는 것을 지원하기 위해 기사 본문 내용을 요약하며, Python lexrankr 라이브러리를 사용하였다.
웹크롤링 기술을 이용하여 인터넷에 있는 국방 관련 기사의 제목과 본문을 자동으로 수집해주며, 키워드별, 요일별로 구분하여 수집 가능하도록 구현하였다. Python에 있는 BeautifulSoup, Request 라이브러리를 사용하였다.

대상 데이터

6. 30.까지 기사 39,403건을 요일별로 수집하였으며 그 중 본문이 중복되는 포토기사를 제외한 32,465 건을 데이터로 설정하였다.
웹크롤링 기술을 이용하여 인터넷에 있는 국방 관련 기사의 제목과 본문을 자동으로 수집해주며, 키워드별, 요일별로 구분하여 수집 가능하도록 구현하였다. Python에 있는 BeautifulSoup, Request 라이브러리를 사용하였다.

이론/모형

국방 관련 기사들이 어떠한 주제와 핵심 키워드들로 구성되어 있는지 분석하기 위해 전처리한 기사 제목만을 이용하여 LDA를 실시한다. Python gensim 라이브러리를 사용하였다^[19].
문서에서 불필요한 단어를 처리해주기 위한 절차로 분석에 필요한 데이터를 얻기 위해 중요하며, 본 연구에서는 분석 효율을 향상시키기 위해 명사, 동사, 형용사 품사만을 활용하였다. 도구는 Python KoNLPy 라이브러리를 사용하였다^[18].

성능/효과

본 시스템 구축시 군이 가질 수 있는 이점은 ① 온 라인상에 게시된 수많은 군 관련 기사들을 확인하고 주제 분류 및 요약하며, 1차원적인 감성 분석까지 수행 가능하고, ② 사용자에게 근실시간으로 군에 대한 언론 보도 내용을 제공하여 빠른 결심을 보좌하며, ③ 기사 수집에서 분석까지 자동화하여 적은 인력으로도 높은 효율을 얻을 수 있다.
본 연구를 통해서 우리는 국방 관련 기사를 자동으로 수집하여 분석할 수 있는 시스템 구축이 가능함을 확인하였다.
본 연구의 의의는 ① 텍스트 마이닝의 도메인으로 국방 관련 기사를 사용함으로써 연구 영역을 확장하였고, ② 국방 기사에 적합한 감성사전을 구축하여 기본적인 감성 분석이 가능함을 확인하였으며, ③ 외국 기사가 아닌 국내 기사에 중점을 두어 활용성을 높였다.
토픽 모델링과 감성 분석을 위해 기사 32,465건을 KoNLPy라이브러리를 이용하여 처리한 결과 제목은 423,997개, 본문은 14,454,103개의 토큰으로 구성되어 있었으며, 그 중 2음절 이상의 명사와 동사, 형용사를 제외한 다른 품사를 제거하여 제목은 197,171개(46 %), 본문은 6,070,955개(42 %)의 토큰으로 축소되었다.

후속연구

데이터 분석 결과를 바탕으로 사용자의 수요에 맞는 분석 보고서를 제공하는 절차로 시스템에 의해 자동으로 작성되는 것을 지향하나 향후 연구에서 구현할 예정이다.
향후 기계학습을 통한 감성 분석을 할 수 있는 추가적인 연구가 필요할 것으로 판단된다. 마지막으로 ROUGE[20] 점수(Recall-Oriented Understudy for Gisting Evaluation Score) 기반의 본문 요약의 정확도 측정을 위한 추가적인 검증용 데이터 확보가 필요하다.
하지만 본 연구의 한계점도 분명히 존재한다. 먼저, 본 연구는 네이버에서 제공하는 인터넷 뉴스를 기반으로 수집하였기 때문에 트위터 등 SNS에 게시되는 기사까지 수집ㆍ분석 가능한 시스템 구축에 대해서는 추가적인 연구가 필요하다. 또한, 감성 분석의 경우 어휘 빈도수 기반의 기본적인 분석으로 정확한 기사 논조 분석이 어려워 사람을 통한 재분류 작업이 필요하다.
또한, 감성 분석의 경우 어휘 빈도수 기반의 기본적인 분석으로 정확한 기사 논조 분석이 어려워 사람을 통한 재분류 작업이 필요하다. 향후 기계학습을 통한 감성 분석을 할 수 있는 추가적인 연구가 필요할 것으로 판단된다. 마지막으로 ROUGE[20] 점수(Recall-Oriented Understudy for Gisting Evaluation Score) 기반의 본문 요약의 정확도 측정을 위한 추가적인 검증용 데이터 확보가 필요하다.

핵심어

질문

논문에서 추출한 답변

LexRank 알고리즘의 문장 추출 과정은 어떻게 되는가?

LexRank 알고리즘은 중심성이 높은 문장들을 추출 하는 방식으로 문서를 요약한다. 먼저 각 문장 단어별 TF-IDF 점수를 합산하여 문장의 중요 정도를 계산 후 코사인 유사도를 측정하여 각 문장간 유사도를 확인 한다. 계산된 코사인 유사도 값에 임계(Threshold)를 설정하여 각 문장을 노드로 표현한 그래프를 만들고 총 노드 수와 인접 노드 수, 연결된 차수(Degree)를 Google 검색 엔진에서 페이지의 상대적 우선 순위 결 정에 사용되는 PageRank로 계산하여 중요 문장을 최종 추출한다[16].

텍스트마이닝이란?

텍스트마이닝은 다양한 문서들 사이에서 유의미한 정보를 추출하고 패턴을 파악하는 방법으로 문서 내 이벤트 등 특정한 정보 추출(Information Extraction)부터 사용자의 관심사항에 따라 해당 내용의 문서를 지속 제공해주는 토픽 추적(Topic Tracking), 주어진 문서들을 지정된 그룹에 할당해주는 분류(Classification), 유사 문서들끼리 그룹화 해주는 군집(Clustering), 긴 내용의 문서에서 핵심 내용을 추출ㆍ정리하여 제공하 는 요약(Summarization) 등이 있다[8].

LDA의 특징은?

토픽 모델링은 문서들 사이에서 구성된 키워드간의 관계를 통해 문서의 주제를 찾아내는 기법이다. LDA는 토픽 모델링 알고리즘 중 하나로 각 문서는 여러 토픽들로 구성되어 있고 서로 다른 확률로 분포되어 있다는 가정 하에 결합확률분포와 조건부분포를 계산하여 토픽 별로 관련 키워드를 추출한다[9].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

국방 기사 자동 분석 시스템 구축 방안 연구
A Study on Automatic Analysis System of National Defense Articles 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

국방 기사 자동 분석 시스템 구축 방안 연구 A Study on Automatic Analysis System of National Defense Articles 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

김우주 (46)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

국방 기사 자동 분석 시스템 구축 방안 연구
A Study on Automatic Analysis System of National Defense Articles 원문보기

AI 본문요약
AI-Helper