[논문]언어 분석 자질을 활용한 인공신경망 기반의 단일 문서 추출 요약

이경호; 이공주

doi:10.3745/ktsde.2019.8.8.343

언어 분석 자질을 활용한 인공신경망 기반의 단일 문서 추출 요약
Single Document Extractive Summarization Based on Deep Neural Networks Using Linguistic Analysis Features 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.8 no.8, 2019년, pp.343 - 348

이경호 (충남대학교 전자전파정보통신공학과) , 이공주 (충남대학교 전파정보통신공학과)

초록
AI-Helper

최근의 문서요약 시스템은 인공신경망을 이용한 End-to-End 방식이 주류를 이루고 있다. 이러한 시스템은 인간의 자질 추출 과정이 필요 없으며 데이터 중심의 접근 방법을 채택한다. 그러나 기존의 관련 연구들은 품사 정보, 개체명 정보, 단어의 빈도 정보와 같은 언어 분석 자질이 중요 문장을 선택하여 요약을 작성하는데 유용함을 보여왔다. 본 연구에서는 기존의 언어 분석 자질을 활용하여 인공신경망을 기반으로 한 단일 문서의 추출 요약 시스템을 제안한다. 언어 분석 자질의 유용성을 보이기 위해 자질을 사용하는 모델과 사용하지 않는 모델을 비교하였다. 실험 결과 자질을 사용하는 모델이 그렇지 않은 모델에 비해 약 0.5점의 Rouge-2 F1점수 향상을 보였다.

Abstract ▼ AI-Helper

In recent years, extractive summarization systems based on end-to-end deep learning models have become popular. These systems do not require human-crafted features and adopt data-driven approaches. However, previous related studies have shown that linguistic analysis features such as part-of-speeches, named entities and word's frequencies are useful for extracting important sentences from a document to generate a summary. In this paper, we propose an extractive summarization system based on deep neural networks using conventional linguistic analysis features. In order to prove the usefulness of the linguistic analysis features, we compare the models with and without those features. The experimental results show that the model with the linguistic analysis features improves the Rouge-2 F1 score by 0.5 points compared to the model without those features.

주제어

표/그림 (6)

그림 Fig. 1. Architecture of SumaRuNNer
표 Table 1. Linguistic Analysis Features
표 Table 2. Number Documents IN CNN/Dailymail
표 Table 3. Results of Full-Length f1
그림 Fig. 2. Test of Validation
표 Table 4. Example of Summary

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그렇기 때문에 생성 요약에 비해 상대적으로 적은 노력으로 높은 수준의 요약을 생성할 수 있다. 본 연구는 단일 문서에 대한 추출 요약을 다룬다.
본 연구에서 제안하는 언어 분석 자질을 기존의 추출 요약 모델에 적용하여 그 유용성을 살펴보고자 한다. 기존 모델로는 SummaRuNNer[2]을 사용하였다.
간단한 언어 분석을 통하면 문서 내에서 단어의 역할이나 문장 내부에서 단어 사이의 구조적 관계, 문서 내에서 단어의 발생 빈도 등 단어의 언어 분석 자질을 추출할 수 있다. 본 연구에서는 언어 분석 자질을 최신의 인공신경망 방식과 결합하여 문서 요약에 적용하는 방안을 제안한다. 구체적으로 는 단어의 품사정보, 개체명 정보, stop word 여부와 단어 빈도 정보를 기존의 단어 표층정보와 함께 결합하여 문장과 문서를 표현하고 이를 기반으로 추출 요약을 수행할 수 있는 인공신경망 모델을 제안한다.
또한 문장 선택 확률을 해석할 수 있도록 설계하였다. 본 연구에서는 이 연구에서 제안한 SummaRuNNer모델을 기반으로 언어 분석 정보의 효과를 실험하였다.
본 연구에서는 이러한 기존의 언어 분석 자질을 최신의 End-to-End 방식의 인공신경망에 함께 결합하여 단일 문서 추출 요약 시스템을 구축해 보고자 한다.
본 연구에서도 이와 유사한 언어 분석 정보 목록과 개념을 사용하였다. 본 연구에서는 이러한 정보들이 전통적으로 추출 문서요약에 적용되어온 점에 기반하여 추출 문서요약에서 이러한 정보들의 효과가 더 극대화될 것으로 보고 이를 추출 문서요약에 적용해 보고자 한다.
본 연구에서는 인공신경망 기반 추출 문서요약 모델과 언어 분석 자질을 결합하고 그 효과를 검증해보았다. 이를 위해 추출 문서요약에서 효과가 있을 언어 분석 자질 목록을 정하고 이를 기존의 인공신경망 기반 추출 문서요약 모델인 SummaRuNNer에 적용해 보았다.

제안 방법

2는 validation데이터에 대한 언어 분석 자질 조합별 실험 결과이다. 각 자질 조합의 모델 학습 중 일정 주기마다 validation데이터를 이용해 모델을 평가하였다. 그래프를 통해 모든 언어 분석 자질을 조합한 경우가 가장 좋은 결과를 나타냄을 알 수 있다.
본 연구에서는 언어 분석 자질을 최신의 인공신경망 방식과 결합하여 문서 요약에 적용하는 방안을 제안한다. 구체적으로 는 단어의 품사정보, 개체명 정보, stop word 여부와 단어 빈도 정보를 기존의 단어 표층정보와 함께 결합하여 문장과 문서를 표현하고 이를 기반으로 추출 요약을 수행할 수 있는 인공신경망 모델을 제안한다. 또한 이러한 언어 분석 자질이 문서요약에 유용함을 보이기 위해 기존의 인공신경망 모델과 언어 분석 자질을 결합한 모델의 추출 요약 성능을 비교하고 이를 통해 모델의 유효성을 입증하였다.
[2] 의 연구에서는 이 말뭉치에서 외부의 다른 지식 없이 문서와 사람이 작성한 요약만으로 레이블 할당 방안에 대해 제안하였다. 또한 문장 선택 확률을 해석할 수 있도록 설계하였다. 본 연구에서는 이 연구에서 제안한 SummaRuNNer모델을 기반으로 언어 분석 정보의 효과를 실험하였다.
이는 기본 모델로 사용한 SummaRuNNer가 가지는 한계에서 비롯한 것으로 보인다. 또한 언어 분석 자질도 가장 기본적인 전방향 인공신경망을 이용하여 결합하였다. 이는 본 연구의 목적이 언어 분석 자질의 효과를 검증하는 것이므로, 기초적인 모델을 이용하여 그 효과를 검증하였다.
구체적으로 는 단어의 품사정보, 개체명 정보, stop word 여부와 단어 빈도 정보를 기존의 단어 표층정보와 함께 결합하여 문장과 문서를 표현하고 이를 기반으로 추출 요약을 수행할 수 있는 인공신경망 모델을 제안한다. 또한 이러한 언어 분석 자질이 문서요약에 유용함을 보이기 위해 기존의 인공신경망 모델과 언어 분석 자질을 결합한 모델의 추출 요약 성능을 비교하고 이를 통해 모델의 유효성을 입증하였다.
또한 문장 품사열의 패턴은 문장 안에서 주요 키워드를 식별하는데 도움을 줄 수 있다[17]. 문장의 품사열 패턴을 자질로 사용함으로써 모델이 이러한 정보를 학습에 직접 반영할 수 있도록 하였다.
본 연구에서는 3.2에서 설명한 언어 분석 자질을 벡터화하여 기존의 단어 자질과 함께 결합하고 이를 인공신경망 문서 요약 모델의 입력으로 사용하였다. 이러한 언어 분석 자질을 이용한 단어 표현은 Equation (6)과 같다.
이들 연구는 ‘누가’, ‘무엇을’, ‘누구에게’, ‘언제’ 등의 개체명(named entity, NE) 정보를 중심으로 요약을 생성하였다. 본 연구에서는 어떤 단어가 개체명인지를 알 수 있도록 단어의 개체명 여부를 자질로 사용하였다. 이를 통해 문서 전체에 얼마나 많은 개체명이 있는지, 어떤 문장이 중요한 개체명을 가지고 있는지 등을 모델에 직접 반영할 수 있다.
이 연구에서는 sequence-to-sequence를 이용한 생성 문서요약에 이를 활용하였다. 이 연구에서 문서의 주요 키워드를 모델이 인식할 수 있도록 POS, TF, IDF, Named Entity와 같은 언어 분석 정보를 단어를 표현하기 위해 함께 사용하였다. 본 연구에서도 이와 유사한 언어 분석 정보 목록과 개념을 사용하였다.
또한 언어 분석 자질도 가장 기본적인 전방향 인공신경망을 이용하여 결합하였다. 이는 본 연구의 목적이 언어 분석 자질의 효과를 검증하는 것이므로, 기초적인 모델을 이용하여 그 효과를 검증하였다. 향후 더 나은 모델과의 결합이나 새로운 추출 요약 모델을 연구해 나갈 계획이다.
하지만 이러한 흐름 이전에도 문서요약에 대한 연구들은 진행되어 왔다[5, 6]. 이들 연구에서는 단어의 표층정보 뿐만 아니라 품사 정보, 문서 군집에서의 단어빈도수와 역문서빈도, 문장 안에서의 의존구문관계 등 언어 분석을 통한 다양한 자질을 추출하고 이들을 조합하여 문서 요약을 수행하였다. 이러한 자질들은 전처리에 대한 비용이 필요하고 이때 발생하는 오류가 다음 단계로 전파되는 위험이 있지만, 이러한 단점에도 불구하고 기존의 데이터와 연구에서 의미 있는 결과를 내어 왔다.
[2]에서 제안한 신문기사와 요약문을 이용한 레이블링 방법을 이용하여 각 문장에 대한 레이블을 할당하였다. 이러한 레이블과 모델 출력의 Binary Cross Entropy를 손실함수로 사용하여 모델의 파라미터를 학습하였다.
본 연구에서도 단어의 임베딩 벡터를 기본 자질로 사용하였다. 이와 함께, 단어의 중요도나 문장 내부의 패턴 등을 모델에 좀더 직접적으로 반영할 수 있도록 추가적인 언어 분석 자질을 Surface 자질과 함께 사용하였다.
본 연구에서는 [20]에서 제공한 스크립트를 이용하여 신문기사를 수집하고 함께 제공된 데이터 를 이용해 토큰화(tokenization)와 개체명 인식(named entity recognition)을 수행하였다. 추가적으로, Stanford CoreNLP[21] 와 원문을 이용하여 추가적인 문장 분리와 형태소 분석을 수행하였다. 이 데이터에 대한 수치 정보는 Table 2와 같다.

대상 데이터

GRU 레이어들의 hidden 크기는 128차원으로 설정하였다. 4개의 GPU에서 각 각 32개의 batch 크기를 이용하여 학습하였다. 파라미터 업데이트 알고리즘으로 Adam[22]알고리즘을 사용하고 Learning rate 0.
익명화 데이터는 문서에서 나타난 개체명을 "@entity#"으로 대체 한 데이터이다. 본 연구에서는 [2]의 연구와 동일하게 익명화된 버전의 데이터를 사용하였다. 본 연구에서는 [20]에서 제공한 스크립트를 이용하여 신문기사를 수집하고 함께 제공된 데이터 를 이용해 토큰화(tokenization)와 개체명 인식(named entity recognition)을 수행하였다.
언어 분석 자질의 효과를 검증하기 위하여 기존의 추출 문서 요약 모델인 [2]의 SummaRuNNer 모델을 기반으로 비교 실험을 수행하였다. 이 실험에서 사용한 데이터는CNN/DailyMail 말뭉치이다. 이 말뭉치는 [20]의 연구에서 passage-based 질의 응답을 위해 개발한 데이터로, [1, 12]의 연구에서 문서요약에 사용한 이래로 문서요약 연구에 널리 사용되고 있는 말뭉치이다.
각 문장을 선택 확률에 따라 정렬하고 높은 순서대로 실험 조건에 맞춰 선택하여 요약을 생성한다. 학습 중 일정 주기로 validation 데이터를 이용하여 모델을 평가하고 그 중 가장 좋은 성능을 나타낸 모델을 비교실험에 사용하였다.
이 데이터에 대한 수치 정보는 Table 2와 같다. 학습데이터(Training)의 문서는 평균 약 40문장, 767단어로 구성되어 있고 약 4개의 요약문을 가지고 있다.

데이터처리

언어 분석 자질의 효과를 검증하기 위하여 기존의 추출 문서 요약 모델인 [2]의 SummaRuNNer 모델을 기반으로 비교 실험을 수행하였다. 이 실험에서 사용한 데이터는CNN/DailyMail 말뭉치이다.

이론/모형

추출 문서요약을 위해서는 각 문장을 요약에 포함시켜야 할지 아닌지를 나타내는 정답 레이블이 필요하다. [2]에서 제안한 신문기사와 요약문을 이용한 레이블링 방법을 이용하여 각 문장에 대한 레이블을 할당하였다. 이러한 레이블과 모델 출력의 Binary Cross Entropy를 손실함수로 사용하여 모델의 파라미터를 학습하였다.
본 연구에서 제안하는 언어 분석 자질을 기존의 추출 요약 모델에 적용하여 그 유용성을 살펴보고자 한다. 기존 모델로는 SummaRuNNer[2]을 사용하였다. 이 모델은 RNN 2계층으로 구성된 신경망 모델로 기존의 여러 연구들에서 성능 비교 대상으로 사용되어 온 추출 요약 모델이다.
본 연구에서 사용한 단어 정보는 word2vec 알고리즘[15]을 이용하여 128차원의 벡터로 표현하였고 학습은 CNN/ DailyMail 말뭉치의 학습데이터를 사용하였다. 언어 분석 자질은 Table 1의 category열과 같이 숫자 범주로 표현된다.
본 연구에서는 [2]의 연구와 동일하게 익명화된 버전의 데이터를 사용하였다. 본 연구에서는 [20]에서 제공한 스크립트를 이용하여 신문기사를 수집하고 함께 제공된 데이터 를 이용해 토큰화(tokenization)와 개체명 인식(named entity recognition)을 수행하였다. 추가적으로, Stanford CoreNLP[21] 와 원문을 이용하여 추가적인 문장 분리와 형태소 분석을 수행하였다.
언어 분석 정보를 단어와 함께 자질로 사용했던 [1]의 연구가 있었다. 이 연구에서는 sequence-to-sequence를 이용한 생성 문서요약에 이를 활용하였다. 이 연구에서 문서의 주요 키워드를 모델이 인식할 수 있도록 POS, TF, IDF, Named Entity와 같은 언어 분석 정보를 단어를 표현하기 위해 함께 사용하였다.
본 연구에서는 인공신경망 기반 추출 문서요약 모델과 언어 분석 자질을 결합하고 그 효과를 검증해보았다. 이를 위해 추출 문서요약에서 효과가 있을 언어 분석 자질 목록을 정하고 이를 기존의 인공신경망 기반 추출 문서요약 모델인 SummaRuNNer에 적용해 보았다. 그 결과, 단어만 사용한 경우보다 언어 분석 자질을 함께 결합하여 사용하는 것이 더 높은 성능을 보였다.
파라미터 업데이트 알고리즘으로 Adam[22]알고리즘을 사용하고 Learning rate 0.001로 학습을 시작하였다.

성능/효과

이를 위해 추출 문서요약에서 효과가 있을 언어 분석 자질 목록을 정하고 이를 기존의 인공신경망 기반 추출 문서요약 모델인 SummaRuNNer에 적용해 보았다. 그 결과, 단어만 사용한 경우보다 언어 분석 자질을 함께 결합하여 사용하는 것이 더 높은 성능을 보였다. 이를 통해 본 연구에서 제안한 언어 분석 자질이 추출 문서요약에 유용한 것을 보였다.
모든 경우, 단어만 사용한 것보다는 언어 분석 자질을 함께 사용한 것이 대체로 더 높은 결과를 보이고 있다. 이를 종합하면 본 연구에서 제안한 언어 분석 자질이 추출 문서요약에서 효과가 있음을 알 수 있다.
그 결과, 단어만 사용한 경우보다 언어 분석 자질을 함께 결합하여 사용하는 것이 더 높은 성능을 보였다. 이를 통해 본 연구에서 제안한 언어 분석 자질이 추출 문서요약에 유용한 것을 보였다.

후속연구

이는 본 연구의 목적이 언어 분석 자질의 효과를 검증하는 것이므로, 기초적인 모델을 이용하여 그 효과를 검증하였다. 향후 더 나은 모델과의 결합이나 새로운 추출 요약 모델을 연구해 나갈 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서요약(Text Summarization)이란?	문서요약(Text Summarization)은 주어진 문서의 주요 내용을 담은 짧고 간결한 글을 생성하는 것이다. 정보매체의 다양화로 개인이 소화해야 하는 정보의 양이 증가하고, 이를 돕기 위한 문서요약 기술도 계속 발달 되어왔다.
	요약을 만드는 방법은 크게 어떻게 나뉘는가?	요약을 만드는 방법은 크게 생성 요약(Abstractive Sum- marization)과 추출 요약(Extractive Summarization)으로 나눌 수 있다. 생성 요약은 문서의 핵심 내용을 담은 새로운 문장을 생성하여 요약을 만드는 방법이다[1].
	최근 자연언어처리는 어떤 방법으로 학습하고 있나?	최근 자연언어처리 연구의 큰 흐름은 인공신경망을 이용한 End-to-End 방식의 학습이다. 이는 자질들의 복잡한 조 합을 사람이 고안하고 이를 이용하여 문제를 해결하던 기존의 연구 방법과 달리, 문제 해결에 적합한 인공신경망의 입력과 출력을 설계하고 대량의 학습데이터를 입력으로 사용하여 모델을 학습시키는 방법이다[3]. 이러한 흐름은 추출 문서요약에도 적용되고 있다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증