$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법
Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.2, 2018년, pp.125 - 148  

고은정 (국민대학교 비즈니스IT전문대학원) ,  김남규 (국민대학교 경영대학 경영정보학부)

초록
AI-Helper 아이콘AI-Helper

다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.

Abstract AI-Helper 아이콘AI-Helper

Recently, as the demand for big data analysis increases, cases of analyzing unstructured data and using the results are also increasing. Among the various types of unstructured data, text is used as a means of communicating information in almost all fields. In addition, many analysts are interested ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 전술한 바와 같이 유사도의 임계 값이 높아질수록 완전성은 낮아지고 간결성은 높아지게 된다. 따라서 본 연구에서는 완전성과 간결성을 동시에 고려하여 요약문의 품질을 향상시키기 위해, 두 가지 척도를 통합한 F-Score를 사용하여 유사도 임계값의 최적 지점을 찾고자 한다. F-Score는 다음과 같이 조화 평균에 의해 계산된다.
  • 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의하여 이를 평가에 활용하고자 한다. 또한 이 두 가지 척도의 조화 평균(Harmonic Mean)으로 F-Score를 측정하여, 간결성과 완전성 측면의 두 가지 측면에서 최적의 요약을 수행할 수 있는 균형점을 찾고자 한다.
  • 본 부절에서는 3.2에서 소개된 과정에 따라 실제 TripAdvisor의 리뷰 데이터로부터 요약문을 생성하는 과정 및 결과를 소개한다. 우선 각 호텔 별로 리뷰를 통합한 뒤 이를 다시 문장 단위로 분리하였다.
  • 하지만 본 연구는 향후 다음의 측면에서 보완이 필요하다. 본 연구는 제안 방법론에 따라 요약문의 품질을 평가하기 위해, 본 연구에서 자체적으로 구현한 방식에 따라 문서 요약을 수행하고 그 결과에 대한 품질 평가를 수행하였다. 향후 이미 알려진 다양한 문서 요약 기법에 따라 요약을 수행한 뒤, 이들 요약문의 품질 평가에 본 방법론을 적용함으로써 방법론의 견고성을 높일 필요가 있다.
  • 본 연구의 학술 및 실무적 기여는 다음과 같다. 우선 학술적 측면에서 본 연구의 가장 큰 기여는 요약의 본질에 기반하여 요약문의 품질을 평가하기 위해 완전성과 간결성을 새롭게 정의하고, 이를 산출할 수 있는 방법을 제안하였다는 점이다. 또한 상충 관계(Trade off)에 있는 완전성과 간결성을 F-Score로 통합하여, 문장 유사도의 임계값을 변화시켜가며 최적의 요약을 수행할 수 있는 방안을 제시하였다는 점도 제안 방법론의 큰 특징 중 하나이다.
  • 이러한 관점에서 본 연구는 요약 문서의 자동품질 측정에 대한 기존 연구의 한계를 극복하기 위해, 요약의 본질에 기반한 자동 품질 평가 방안을 제안하고자 한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의하여 이를 평가에 활용하고자 한다.
  • 이처럼 문서 요약의 중요성과 활용성이 증가함에 따라, 요약 기술 자체뿐 아니라 요약된 내용의 품질을 측정하는 기술에 대한 관심이 급증하고 있다. 이에 본 연구에서는 내용중복의 최소화 및 내용 누락의 최소화의 두 가지 관점에서 요약문의 품질을 측정할 수 있는 평가방법론을 새롭게 제안하였다. 또한 제안 방법론의 실제 적용 가능성을 평가하기 위해 TripAdvisor의 호텔 리뷰로부터 29,671개의 문장을 추출하여 각 호텔 별로 리뷰를 요약하고, 요약된 리뷰에 대해 제안 방법론에 따라 품질 평가를 수행한 실험 결과를 소개하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
LSA 기법의 장점은 무엇인가? 특히 LSA 기반 기법은 완전하게 자동화된 수학적, 통계적 기법으로, SVD(Singular Value Decomposition)를 통해 전체 문서의 차원을 축소하고 단어의 맥락에 따라 의미를 추출하고 표현하는 방법이다. LSA 기법은 WordNet과 같은 어휘 자원을 사용하지 않고도, 전체 문서의 내용을 축약하여 문서의 중요 주제를 식별할 수 있다는 장점을 갖는다.
추출 접근법은 무엇인가? 문서를 자동으로 요약하는 접근법은 크게 추출(Extraction)과 생성(Abstraction)으로 구분된다. 추출 접근법은 문서 내에서 구, 절, 문장 등 특정 문서 요소의 중요도를 파악하여, 해당 요소를 그대로 발췌하여 사용하는 방법이다. 한편 생성은 원 문서에서 단어 혹은 문장을 발췌한 뒤, 자연어 처리 기법을 통해 원 문서의 요소를 조합하여 새로운 문장을 구성하는 과정이 반드시 포함된다는 특징을 갖는다.
수동 요약 방식의 한계점은 무엇인가? 기준 문서는 크게 두 가지 방식으로 제공되는데, 가장 일반적인 방식은 사람이 수작업으로 이상적인 요약문을 작성하는 수동 요약(Manual Summarization) 방식이다. 이 방식은 요약문 작성 과정에서 사람의 개입을 필요로 하기 때문에 요약문 작성에 막대한 시간과 비용이 소요될 뿐 아니라, 요약자의 주관에 따라 평가 결과가 상이하게 나타날 수 있다는 한계를 갖는다. 따라서 이러한 한계를 극복하기 위해 사람의 개입 없이 요약 문서의 품질을 측정하기 위한 시도가 이루어지고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. Blei, D. M., A. Y. Ng and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, (2003), 993-1022. 

  2. Daume III, H. and D. Marcu., "Bayesian Query-Focused Summarization," Proceeding of the International Conference on Computation Linguistics and the annual meeting of the Association for Computational Linguistics, (2006), 305-312. 

  3. Deerwester, S., S. T. Dumais, G. W. Furnas, T. K. Landauer and R. Harshman, "Indexing by Latent Semantic Analysis," Journal of the American Society for Information Science, Vol.41, No.6(1990), 391-407. 

  4. Gong, Y. and X. Liu, "Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis," Proceeding of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, (2001), 19-25. 

  5. Gupta, S., A. Nenkova and D. Jurafsky, "Measuring Importance and Query Relevance in Topic-Focused Multi-Document Summarization," Proceeding of the Annual Meeting of the Association for Computational Linguistics, (2007), 193-196. 

  6. Haghighi, A., and L. Vanderwende, "Exploring Content Models for Multi-Document Summarization," Proceeding of Human Language Technologies: The 2009 Annual Conference of the North American Chpter of the Association for Computational Linguistcs, (2009), 362-370. 

  7. Kim, N., D. Lee, H. Choi and W. X. S. Wong, "Investigations on Techniques and Applications of Text Analytics," The Journal of Korean Institute of Communications and Information Sciences, Vol.42, No.2(2017), 471-492. 

  8. Lin, C. Y. and E. Hovy, "Automatic Evaluation of Summaries Using n-Gram Co-Occurrence Statistics," Proceeding of HLT-NAACL, (2003), 71-78. 

  9. Lin, C. Y., "Rouge: A Package for Automatic Evaluation of Summaries," Proceeding of the Workshop on Text Summarization Branches Out, (2004), 74-81. 

  10. Litvak, M. and M. Last, "Graph-based keyword extraction for single-document summarization," Proceedings of the workshop on Multi-source Multilingual Information Extraction and Summarization. Association for Computational Linguistics, (2008). 

  11. Luhn, H. P., "The Automatic Creation of Literature Abstracts," IBM Journal of Research Development, Vol.2, No.2(1958), 159-165. 

  12. Mani, I., "Automatic Summarization," John Benjamins Publishing Company, (2001), 114-125. 

  13. Mihalcea, R. and P. Tarau, "TextRank - Bringing Order Into Texts," Proceeding of the Conference on Empirical Methods in Natural Language, (2004), 8-15. 

  14. Mihalcea, R. and P. Tarau, "An Algorithm for Language Independent Single and Multiple Document Summarization," Proceeding of the International Joint Conference on Natural Language, (2005), 19-24. 

  15. Nenkova, A. and R. Passonneau, "Evaluating Content Selection in Summarization: The Pyramid Method," Proceedings of HLT-NAACL, (2004), 145-152. 

  16. Radev, D., H. Jing and M. Budzikowska, "Centroid-Based Summarization of Multiple Documents," Information Processing & Management, Vol.40, (2004), 919-938. 

  17. Ouyan, Y., W. Li and Q. Lu, "An Integrated Multi-Document Summarization Approach based on Word Hierarchical Representation," Proceedings of the ACL-IJCNLP Conference Short Papers, (2009), 113-116. 

  18. Steinberger, J. and K. Jezek, "Text Summarization and Singular Value Decomposition," Lecture Notes for Computer Science, Vol. 2457, (2004), 245-254. 

  19. Wan, X., "Timed TextRank: Adding the Temporal Dimension to Multi-Document Summarization," Proceeding of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, (2007), 867-868. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로