최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.9 no.8, 2020년, pp.251 - 258
이경호 (드라마앤컴퍼니) , 박요한 (충남대학교 전파정보통신공학과) , 이공주 (충남대학교 전파정보통신공학과)
A training dataset for text summarization consists of pairs of a document and its summary. As conventional approaches to building text summarization dataset are human labor intensive, it is not easy to construct large datasets for text summarization. A collection of news articles is one of the most ...
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
문서 요약을 위한 학습 데이터는 무엇으로 구성되는가? | 문서 요약을 위한 학습 데이터는 문서와 그 요약으로 구성된다. 기존의 문서 요약 데이터는 사람이 수동으로 요약을 작성하였기 때문에 대량의 데이터 확보가 어려웠다. | |
대량의 문서 요약 데이터의 필요성이 커지고 있는 이유는 무엇인가? | 딥러닝 기반의 문서 요약 연구가 일반화되면서 대량의 문서 요약 데이터의 필요성이 커지고 있다. 영어권 연구에서는 언어모델이나 정보검색에서 활용하던 Gigaword 코퍼스[2], 질의응답 연구용으로 개발된 CNN/DailyMail 코퍼스[10] 등 기존의 다른 분야에서 사용하던 대량의 코퍼스를 문서 요약 데이터로 활용하였다. | |
CNN/DailyMail 코퍼스의 스토리 하이라이트는 무엇으로 구성되는가? | 2A). 스토리 하이라이트는 기사의 개요를 담은 3~4줄의 문장으로 구성된다[16]. 작성자에 따라 기사본문의 문장을 발췌하거나 약간의 변화, 또는 완전 새로운 문장으로 구성하는 경우가 있어 문서 요약 연구에서 다양하게 활용되고 있다. |
P. Over, H. Dang, and D. Harman, “DUC in context,” Information Processing & Management, Vol. 43, No. 6, pp. 1506-1520, 2007.
C. Napoles, M. Gormley, and B. Van Durme, "Annotated gigaword," in Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction, Association for Computational Linguistics, 2012.
J. G. Carbonell and J. Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries," in SIGIR, 1998.
J. Cheng and M. Lapata, "Neural summarization by extracting sentences and words," arXiv preprint arXiv: 1603.07252, 2016.
M. Grusky, M. Naaman, and Y. Artzi, "Newsroom: A dataset of 1.3 million summaries with diverse extractive strategies," arXiv preprint arXiv:1804.11283, 2018.
E. Sandhaus, "The new york times annotated corpus. Linguistic Data Consortium," Philadelphia, Vol. 6, No. 12, p.e26752, 2008.
T. Kodaira and M. Komachi, "The Rule of Three: Abstractive Text Summarization in Three Bullet Points," arXiv preprint arXiv:1809.10867, 2018.
B. Hu, Q. Chen, and F. Zhu, "Lcsts: A large scale chinese short text summarization dataset," arXiv preprint arXiv: 1506.05865, 2015.
M. Straka, N. Mediankin, T. Kocmi, Z. Zabokrtsky, V. Hudecek, and J. Hajic "SumeCzech: Large Czech News-Based Summarization Dataset," in Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018). 2018.
K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom "Teaching machines to read and comprehend," in Advances in Neural Information Processing Systems., 2015.
Su-Jin Baek, “Multi-Document Summarization Method Based on Semantic Relationship using VAE,” Journal of Digital Convergence, Vol. 15, No. 12, pp. 341-347, 2017.
Tae-Hyeong Kim, Ahyoung Kim, Yunseok Noh, Seong-Bae Park, and Seyoung Park "Generation of News Article Dataset Using LEAD for Neural Summarization Model," Korea Software Congress 2017, pp. 688-690, 2017.
M. Grusky, M. Naaman and Y. Artzi, "Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long Papers). 2018.
Yeo-Hoon Jeong, “A Study on the Types of Newspaper Headlines and their Realizations,” The Sociolinguistic Journal of Korea, Vol. 14, No. 1, pp. 85-113, 2006.
K. Woodsend and M. Lapata, "Automatic generation of story highlights," in Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 2010.
R. Nallapati, F. Zhai and B. Zhou, "Summarunner: A recurrent neural network based sequence model for extractive summarization of documents," in Thirty-First AAAI Conference on Artificial Intelligence, 2017.
F. Barrios, F. Lopez, L. Argerich and R. Wachenchauzer "Variations of the similarity function of textrank for automated summarization," arXiv preprint arXiv:1602.03606, 2016.
Gensim [Internet], https://github.com/summ anlp/gensim.
G. H. Lee and K. J. Lee, “Single Document Extractive Summarization Based on Deep Neural Networks Using Linguistic Analysis Features,” KIPS Transactions on Software and Data Engineering, Vol. 8, No. 8, pp. 343-348, 2019.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.