

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 신문기사와 소셜 미디어를 활용한 한국어 문서요약 데이터 구축
Building a Korean Text Summarization Dataset Using News Articles of Social Media 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.8, 2020년, pp.251 - 258  

이경호 (드라마앤컴퍼니) ,  박요한 (충남대학교 전파정보통신공학과) ,  이공주 (충남대학교 전파정보통신공학과)

AI-Helper 아이콘AI-Helper

문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다. 그렇기 때문에 온라인으로 쉽게 수집 가능하며 문서의 품질이 우수한 인터넷 신문기사가 문서 요약 연구에 많이 활용되어 왔다. 본 연구에서는 언론사가 소셜 미디어에 게시한 설명글과 제목, 부제를 본문의 요약으로 사용하여 한국어 문서 요약 데이터를 구성하는 것을 제안한다. 약 425,000개의 신문기사와 그 요약데이터를 구축할 수 있었다. 구성한 데이터의 유용성을 보이기 위해 추출 요약 시스템을 구현하였다. 본 연구에서 구축한 데이터로 학습한 교사 학습 모델과 비교사 학습 모델의 성능을 비교하였다. 실험 결과 제안한 데이터로 학습한 모델이 비교사 학습 알고리즘에 비해 더 높은 ROUGE 점수를 보였다.

Abstract AI-Helper 아이콘AI-Helper

A training dataset for text summarization consists of pairs of a document and its summary. As conventional approaches to building text summarization dataset are human labor intensive, it is not easy to construct large datasets for text summarization. A collection of news articles is one of the most ...


표/그림 (11)

AI 본문요약
AI-Helper 아이콘 AI-Helper

문제 정의

  • 본 연구에서는 한국어 자동 문서 요약 개발을 위한 한국어 문서 요약 데이터 구축 방안에 대해 제안하였다. 한국어 신문기사에 대한 소셜 미디어 상의 설명글을 제목, 부제와 함께 수집하여 약 424,000개 문서로 구성된 한국어 문서 요약 데이터를 구축하였다.
본문요약 정보가 도움이 되었나요?


핵심어 질문 논문에서 추출한 답변
문서 요약을 위한 학습 데이터는 무엇으로 구성되는가? 문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다.
대량의 문서 요약 데이터의 필요성이 커지고 있는 이유는 무엇인가? 딥러닝 기반의 문서 요약 연구가 일반화되면서 대량의 문서 요약 데이터의 필요성이 커지고 있다. 영어권 연구에서는 언어모델이나 정보검색에서 활용하던 Gigaword 코퍼스[2], 질의응답 연구용으로 개발된 CNN/DailyMail 코퍼스[10] 등 기존의 다른 분야에서 사용하던 대량의 코퍼스를 문서 요약 데이터로 활용하였다.
CNN/DailyMail 코퍼스의 스토리 하이라이트는 무엇으로 구성되는가? 2A). 스토리 하이라이트는 기사의 개요를 담은 3~4줄의 문장으로 구성된다[16]. 작성자에 따라 기사본문의 문장을 발췌하거나 약간의 변화, 또는 완전 새로운 문장으로 구성하는 경우가 있어 문서 요약 연구에서 다양하게 활용되고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (20)

  1. P. Over, H. Dang, and D. Harman, “DUC in context,” Information Processing & Management, Vol. 43, No. 6, pp. 1506-1520, 2007. 

  2. C. Napoles, M. Gormley, and B. Van Durme, "Annotated gigaword," in Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction, Association for Computational Linguistics, 2012. 

  3. J. G. Carbonell and J. Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries," in SIGIR, 1998. 

  4. J. Cheng and M. Lapata, "Neural summarization by extracting sentences and words," arXiv preprint arXiv: 1603.07252, 2016. 

  5. M. Grusky, M. Naaman, and Y. Artzi, "Newsroom: A dataset of 1.3 million summaries with diverse extractive strategies," arXiv preprint arXiv:1804.11283, 2018. 

  6. E. Sandhaus, "The new york times annotated corpus. Linguistic Data Consortium," Philadelphia, Vol. 6, No. 12, p.e26752, 2008. 

  7. T. Kodaira and M. Komachi, "The Rule of Three: Abstractive Text Summarization in Three Bullet Points," arXiv preprint arXiv:1809.10867, 2018. 

  8. B. Hu, Q. Chen, and F. Zhu, "Lcsts: A large scale chinese short text summarization dataset," arXiv preprint arXiv: 1506.05865, 2015. 

  9. M. Straka, N. Mediankin, T. Kocmi, Z. Zabokrtsky, V. Hudecek, and J. Hajic "SumeCzech: Large Czech News-Based Summarization Dataset," in Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). 2018. 

  10. K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom "Teaching machines to read and comprehend," in Advances in Neural Information Processing Systems., 2015. 

  11. Su-Jin Baek, “Multi-Document Summarization Method Based on Semantic Relationship using VAE,” Journal of Digital Convergence, Vol. 15, No. 12, pp. 341-347, 2017. 

  12. Kyoung-Ho Choi and Chang-Ki Lee, “End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding,” Journal of KIISE, Vol. 44, No. 5, pp. 503-509, 2017. 

  13. Tae-Hyeong Kim, Ahyoung Kim, Yunseok Noh, Seong-Bae Park, and Seyoung Park "Generation of News Article Dataset Using LEAD for Neural Summarization Model," Korea Software Congress 2017, pp. 688-690, 2017. 

  14. M. Grusky, M. Naaman and Y. Artzi, "Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long Papers). 2018. 

  15. Yeo-Hoon Jeong, “A Study on the Types of Newspaper Headlines and their Realizations,” The Sociolinguistic Journal of Korea, Vol. 14, No. 1, pp. 85-113, 2006. 

  16. K. Woodsend and M. Lapata, "Automatic generation of story highlights," in Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 2010. 

  17. R. Nallapati, F. Zhai and B. Zhou, "Summarunner: A recurrent neural network based sequence model for extractive summarization of documents," in Thirty-First AAAI Conference on Artificial Intelligence, 2017. 

  18. F. Barrios, F. Lopez, L. Argerich and R. Wachenchauzer "Variations of the similarity function of textrank for automated summarization," arXiv preprint arXiv:1602.03606, 2016. 

  19. Gensim [Internet], https://github.com/summ anlp/gensim. 

  20. G. H. Lee and K. J. Lee, “Single Document Extractive Summarization Based on Deep Neural Networks Using Linguistic Analysis Features,” KIPS Transactions on Software and Data Engineering, Vol. 8, No. 8, pp. 343-348, 2019. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트
