[논문]신문기사와 소셜 미디어를 활용한 한국어 문서요약 데이터 구축

이경호; 박요한; 이공주

doi:10.3745/ktsde.2020.9.8.251

[국내논문] 신문기사와 소셜 미디어를 활용한 한국어 문서요약 데이터 구축
Building a Korean Text Summarization Dataset Using News Articles of Social Media 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.8, 2020년, pp.251 - 258

이경호 (드라마앤컴퍼니) , 박요한 (충남대학교 전파정보통신공학과) , 이공주 (충남대학교 전파정보통신공학과)

초록
AI-Helper

문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다. 그렇기 때문에 온라인으로 쉽게 수집 가능하며 문서의 품질이 우수한 인터넷 신문기사가 문서 요약 연구에 많이 활용되어 왔다. 본 연구에서는 언론사가 소셜 미디어에 게시한 설명글과 제목, 부제를 본문의 요약으로 사용하여 한국어 문서 요약 데이터를 구성하는 것을 제안한다. 약 425,000개의 신문기사와 그 요약데이터를 구축할 수 있었다. 구성한 데이터의 유용성을 보이기 위해 추출 요약 시스템을 구현하였다. 본 연구에서 구축한 데이터로 학습한 교사 학습 모델과 비교사 학습 모델의 성능을 비교하였다. 실험 결과 제안한 데이터로 학습한 모델이 비교사 학습 알고리즘에 비해 더 높은 ROUGE 점수를 보였다.

Abstract ▼ AI-Helper

A training dataset for text summarization consists of pairs of a document and its summary. As conventional approaches to building text summarization dataset are human labor intensive, it is not easy to construct large datasets for text summarization. A collection of news articles is one of the most popular resources for text summarization because it is easily accessible, large-scale and high-quality text. From social media news services, we can collect not only headlines and subheads of news articles but also summary descriptions that human editors write about the news articles. Approximately 425,000 pairs of news articles and their summaries are collected from social media. We implemented an automatic extractive summarizer and trained it on the dataset. The performance of the summarizer is compared with unsupervised models. The summarizer achieved better results than unsupervised models in terms of ROUGE score.

주제어

표/그림 (11)

그림 Fig. 1. Example of Description¹⁾
그림 Fig. 2A. Example of CNN Story Highlights²⁾
그림 Fig. 2B. Example of Subhead³⁾
표 Table 1. Examples of Preprocessing Description
표 Table 2. Example of Summaries and Bodies
표 Table 3. Number Documents IN Korean Document Summary Data
표 Table 4. Korean News Article Information
표 Table 5. Summary Characteristics
그림 Fig. 3. ROUGE-1 F1-score between Summaries
표 Table 6. Examples of Summary Data
표 Table 7. Experimental Results

AI 본문요약
AI-Helper

문제 정의

본 연구에서는 한국어 자동 문서 요약 개발을 위한 한국어 문서 요약 데이터 구축 방안에 대해 제안하였다. 한국어 신문기사에 대한 소셜 미디어 상의 설명글을 제목, 부제와 함께 수집하여 약 424,000개 문서로 구성된 한국어 문서 요약 데이터를 구축하였다.

제안 방법

본 연구에서도 이들과 유사한 형식의 데이터를 수집하고 한국어 문서 요약 연구에 활용하였다. 본 연구에서는 한국어 문서와 그 문서의 요약 쌍을 대량으로 수집하기 위하여 한국어로 작성된 인터넷 신문기사의 소셜미디어에 등록된 기사에 대한 설명글과 제목, 부제를 수집하여 요약으로 활용하였다.

대상 데이터

이들로부터 일정 수준의 기사와 요약을 수집하기 위해 언론사를 선별하였다. 언론사의 주요 기사 유형, 소셜 미디어 기사 제공 여부, 데이터 수집의 난이도 등을 고려하여 총 25개 한국어 언론사를 선정하여 이들이 등록한 데이터를 수집하였다.²⁾³⁾
앞서 설명한 과정을 통해 총 424,937개의 기사를 수집하였다. 수집된 데이터의 10%를 평가 데이터로 남겨두고 남은 데이터를 9:1의 비율로 학습과 검증 데이터로 나누었다⁵⁾.

데이터처리

SummaRuNNer 모델과 BERT+SummaRuNNer모델 학습을 위한 배치 사이즈는 각각 32와 4이고 이를 학습률(learning rate) 0.01의 ADAM 알고리즘으로 학습하였다. 학습 과정에서 일정 주기로 모델 파라미터를 저장하였고 검증 데이터를 이용한 실험에서 가장 좋은 성능을 나타낸 모델 파라미터를 평가에 사용하였다.
정답 요약으로 모델을 학습한 뒤 학습된 모델이 생성한 추출요약과 {제목, 부제, 설명글}과의 ROUGE-score를 계산하여 평가를 진행하였다. 데이터의 유용성을 평가하기 위해 비교사(unsupervised learning) 모델과도 비교하였다.

이론/모형

정답 요약으로 모델을 학습한 뒤 학습된 모델이 생성한 추출요약과 {제목, 부제, 설명글}과의 ROUGE-score를 계산하여 평가를 진행하였다. 데이터의 유용성을 평가하기 위해 비교사(unsupervised learning) 모델과도 비교하였다. 실험 모델은 다음과 같다.
SummaRuNNer : 추출 기반의 문서 요약을 위해 기존의 영어권 문서 요약 연구에서 활용되었던 SummaRuNNer[17]을 한국어 문서 요약 모델로 활용하였다. 영어의 경우 단어 단위의 입력을 사용하였다.

성능/효과

Table 7은 실험 결과이다. 이 결과에서 비교사 학습 알고리즘의 TEXT RANK 알고리즘과 LEAD-3의 ROUGE-2 F1점수는 각각 9.53과 6.75의 점수로 본 연구에서 제안하는 데이터로 학습한 SummaRuNNer의 10.91보다 낮은 점수를 나타내었다. 이를 통해 본 연구에서 제안하는 데이터가 자동 문서 요약 모델의 학습에 유용하다는 것을 알 수 있다.
이를 통해 본 연구에서 제안하는 데이터가 자동 문서 요약 모델의 학습에 유용하다는 것을 알 수 있다. 또한 BERT+SummaRuNNer모델이 BERT를 사용하지 않은 모델보다 약간의 성능 향상을 보였다.

후속연구

또한 이들 데이터가 교사 학습 방식의 자동 문서 요약 모델에 유효함을 실험을 통해 증명하였다. 본 연구의 이러한 결과가 향후 한국어 문서 요약 연구의 기초로 활용될 수 있기를 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서 요약을 위한 학습 데이터는 무엇으로 구성되는가?	문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다.
	대량의 문서 요약 데이터의 필요성이 커지고 있는 이유는 무엇인가?	딥러닝 기반의 문서 요약 연구가 일반화되면서 대량의 문서 요약 데이터의 필요성이 커지고 있다. 영어권 연구에서는 언어모델이나 정보검색에서 활용하던 Gigaword 코퍼스[2], 질의응답 연구용으로 개발된 CNN/DailyMail 코퍼스[10] 등 기존의 다른 분야에서 사용하던 대량의 코퍼스를 문서 요약 데이터로 활용하였다.
	CNN/DailyMail 코퍼스의 스토리 하이라이트는 무엇으로 구성되는가?	2A). 스토리 하이라이트는 기사의 개요를 담은 3~4줄의 문장으로 구성된다[16]. 작성자에 따라 기사본문의 문장을 발췌하거나 약간의 변화, 또는 완전 새로운 문장으로 구성하는 경우가 있어 문서 요약 연구에서 다양하게 활용되고 있다.

참고문헌 (20)

P. Over, H. Dang, and D. Harman, “DUC in context,” Information Processing & Management, Vol. 43, No. 6, pp. 1506-1520, 2007.

상세보기
C. Napoles, M. Gormley, and B. Van Durme, "Annotated gigaword," in Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction, Association for Computational Linguistics, 2012.
J. G. Carbonell and J. Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries," in SIGIR, 1998.
J. Cheng and M. Lapata, "Neural summarization by extracting sentences and words," arXiv preprint arXiv: 1603.07252, 2016.
M. Grusky, M. Naaman, and Y. Artzi, "Newsroom: A dataset of 1.3 million summaries with diverse extractive strategies," arXiv preprint arXiv:1804.11283, 2018.
E. Sandhaus, "The new york times annotated corpus. Linguistic Data Consortium," Philadelphia, Vol. 6, No. 12, p.e26752, 2008.
T. Kodaira and M. Komachi, "The Rule of Three: Abstractive Text Summarization in Three Bullet Points," arXiv preprint arXiv:1809.10867, 2018.
B. Hu, Q. Chen, and F. Zhu, "Lcsts: A large scale chinese short text summarization dataset," arXiv preprint arXiv: 1506.05865, 2015.
M. Straka, N. Mediankin, T. Kocmi, Z. Zabokrtsky, V. Hudecek, and J. Hajic "SumeCzech: Large Czech News-Based Summarization Dataset," in Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). 2018.
K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom "Teaching machines to read and comprehend," in Advances in Neural Information Processing Systems., 2015.
Su-Jin Baek, “Multi-Document Summarization Method Based on Semantic Relationship using VAE,” Journal of Digital Convergence, Vol. 15, No. 12, pp. 341-347, 2017.
Kyoung-Ho Choi and Chang-Ki Lee, “End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding,” Journal of KIISE, Vol. 44, No. 5, pp. 503-509, 2017.

원문보기 상세보기
Tae-Hyeong Kim, Ahyoung Kim, Yunseok Noh, Seong-Bae Park, and Seyoung Park "Generation of News Article Dataset Using LEAD for Neural Summarization Model," Korea Software Congress 2017, pp. 688-690, 2017.
M. Grusky, M. Naaman and Y. Artzi, "Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long Papers). 2018.
Yeo-Hoon Jeong, “A Study on the Types of Newspaper Headlines and their Realizations,” The Sociolinguistic Journal of Korea, Vol. 14, No. 1, pp. 85-113, 2006.
K. Woodsend and M. Lapata, "Automatic generation of story highlights," in Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 2010.
R. Nallapati, F. Zhai and B. Zhou, "Summarunner: A recurrent neural network based sequence model for extractive summarization of documents," in Thirty-First AAAI Conference on Artificial Intelligence, 2017.
F. Barrios, F. Lopez, L. Argerich and R. Wachenchauzer "Variations of the similarity function of textrank for automated summarization," arXiv preprint arXiv:1602.03606, 2016.
Gensim [Internet], https://github.com/summ anlp/gensim.
G. H. Lee and K. J. Lee, “Single Document Extractive Summarization Based on Deep Neural Networks Using Linguistic Analysis Features,” KIPS Transactions on Software and Data Engineering, Vol. 8, No. 8, pp. 343-348, 2019.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증