다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.
다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.
Recently, as the demand for big data analysis increases, cases of analyzing unstructured data and using the results are also increasing. Among the various types of unstructured data, text is used as a means of communicating information in almost all fields. In addition, many analysts are interested ...
Recently, as the demand for big data analysis increases, cases of analyzing unstructured data and using the results are also increasing. Among the various types of unstructured data, text is used as a means of communicating information in almost all fields. In addition, many analysts are interested in the amount of data is very large and relatively easy to collect compared to other unstructured and structured data. Among the various text analysis applications, document classification which classifies documents into predetermined categories, topic modeling which extracts major topics from a large number of documents, sentimental analysis or opinion mining that identifies emotions or opinions contained in texts, and Text Summarization which summarize the main contents from one document or several documents have been actively studied. Especially, the text summarization technique is actively applied in the business through the news summary service, the privacy policy summary service, ect. In addition, much research has been done in academia in accordance with the extraction approach which provides the main elements of the document selectively and the abstraction approach which extracts the elements of the document and composes new sentences by combining them. However, the technique of evaluating the quality of automatically summarized documents has not made much progress compared to the technique of automatic text summarization. Most of existing studies dealing with the quality evaluation of summarization were carried out manual summarization of document, using them as reference documents, and measuring the similarity between the automatic summary and reference document. Specifically, automatic summarization is performed through various techniques from full text, and comparison with reference document, which is an ideal summary document, is performed for measuring the quality of automatic summarization. Reference documents are provided in two major ways, the most common way is manual summarization, in which a person creates an ideal summary by hand. Since this method requires human intervention in the process of preparing the summary, it takes a lot of time and cost to write the summary, and there is a limitation that the evaluation result may be different depending on the subject of the summarizer. Therefore, in order to overcome these limitations, attempts have been made to measure the quality of summary documents without human intervention. On the other hand, as a representative attempt to overcome these limitations, a method has been recently devised to reduce the size of the full text and to measure the similarity of the reduced full text and the automatic summary. In this method, the more frequent term in the full text appears in the summary, the better the quality of the summary. However, since summarization essentially means minimizing a lot of content while minimizing content omissions, it is unreasonable to say that a "good summary" based on only frequency always means a "good summary" in its essential meaning. In order to overcome the limitations of this previous study of summarization evaluation, this study proposes an automatic quality evaluation for text summarization method based on the essential meaning of summarization. Specifically, the concept of succinctness is defined as an element indicating how few duplicated contents among the sentences of the summary, and completeness is defined as an element that indicating how few of the contents are not included in the summary. In this paper, we propose a method for automatic quality evaluation of text summarization based on the concepts of succinctness and completeness. In order to evaluate the practical applicability of the proposed methodology, 29,671 sentences were extracted from TripAdvisor 's hotel reviews, summarized the reviews by each hotel and presented the results of the experiments conducted on evaluation of the quality of summaries in accordance to the prop
Recently, as the demand for big data analysis increases, cases of analyzing unstructured data and using the results are also increasing. Among the various types of unstructured data, text is used as a means of communicating information in almost all fields. In addition, many analysts are interested in the amount of data is very large and relatively easy to collect compared to other unstructured and structured data. Among the various text analysis applications, document classification which classifies documents into predetermined categories, topic modeling which extracts major topics from a large number of documents, sentimental analysis or opinion mining that identifies emotions or opinions contained in texts, and Text Summarization which summarize the main contents from one document or several documents have been actively studied. Especially, the text summarization technique is actively applied in the business through the news summary service, the privacy policy summary service, ect. In addition, much research has been done in academia in accordance with the extraction approach which provides the main elements of the document selectively and the abstraction approach which extracts the elements of the document and composes new sentences by combining them. However, the technique of evaluating the quality of automatically summarized documents has not made much progress compared to the technique of automatic text summarization. Most of existing studies dealing with the quality evaluation of summarization were carried out manual summarization of document, using them as reference documents, and measuring the similarity between the automatic summary and reference document. Specifically, automatic summarization is performed through various techniques from full text, and comparison with reference document, which is an ideal summary document, is performed for measuring the quality of automatic summarization. Reference documents are provided in two major ways, the most common way is manual summarization, in which a person creates an ideal summary by hand. Since this method requires human intervention in the process of preparing the summary, it takes a lot of time and cost to write the summary, and there is a limitation that the evaluation result may be different depending on the subject of the summarizer. Therefore, in order to overcome these limitations, attempts have been made to measure the quality of summary documents without human intervention. On the other hand, as a representative attempt to overcome these limitations, a method has been recently devised to reduce the size of the full text and to measure the similarity of the reduced full text and the automatic summary. In this method, the more frequent term in the full text appears in the summary, the better the quality of the summary. However, since summarization essentially means minimizing a lot of content while minimizing content omissions, it is unreasonable to say that a "good summary" based on only frequency always means a "good summary" in its essential meaning. In order to overcome the limitations of this previous study of summarization evaluation, this study proposes an automatic quality evaluation for text summarization method based on the essential meaning of summarization. Specifically, the concept of succinctness is defined as an element indicating how few duplicated contents among the sentences of the summary, and completeness is defined as an element that indicating how few of the contents are not included in the summary. In this paper, we propose a method for automatic quality evaluation of text summarization based on the concepts of succinctness and completeness. In order to evaluate the practical applicability of the proposed methodology, 29,671 sentences were extracted from TripAdvisor 's hotel reviews, summarized the reviews by each hotel and presented the results of the experiments conducted on evaluation of the quality of summaries in accordance to the prop
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
전술한 바와 같이 유사도의 임계 값이 높아질수록 완전성은 낮아지고 간결성은 높아지게 된다. 따라서 본 연구에서는 완전성과 간결성을 동시에 고려하여 요약문의 품질을 향상시키기 위해, 두 가지 척도를 통합한 F-Score를 사용하여 유사도 임계값의 최적 지점을 찾고자 한다. F-Score는 다음과 같이 조화 평균에 의해 계산된다.
구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의하여 이를 평가에 활용하고자 한다. 또한 이 두 가지 척도의 조화 평균(Harmonic Mean)으로 F-Score를 측정하여, 간결성과 완전성 측면의 두 가지 측면에서 최적의 요약을 수행할 수 있는 균형점을 찾고자 한다.
본 부절에서는 3.2에서 소개된 과정에 따라 실제 TripAdvisor의 리뷰 데이터로부터 요약문을 생성하는 과정 및 결과를 소개한다. 우선 각 호텔 별로 리뷰를 통합한 뒤 이를 다시 문장 단위로 분리하였다.
하지만 본 연구는 향후 다음의 측면에서 보완이 필요하다. 본 연구는 제안 방법론에 따라 요약문의 품질을 평가하기 위해, 본 연구에서 자체적으로 구현한 방식에 따라 문서 요약을 수행하고 그 결과에 대한 품질 평가를 수행하였다. 향후 이미 알려진 다양한 문서 요약 기법에 따라 요약을 수행한 뒤, 이들 요약문의 품질 평가에 본 방법론을 적용함으로써 방법론의 견고성을 높일 필요가 있다.
본 연구의 학술 및 실무적 기여는 다음과 같다. 우선 학술적 측면에서 본 연구의 가장 큰 기여는 요약의 본질에 기반하여 요약문의 품질을 평가하기 위해 완전성과 간결성을 새롭게 정의하고, 이를 산출할 수 있는 방법을 제안하였다는 점이다. 또한 상충 관계(Trade off)에 있는 완전성과 간결성을 F-Score로 통합하여, 문장 유사도의 임계값을 변화시켜가며 최적의 요약을 수행할 수 있는 방안을 제시하였다는 점도 제안 방법론의 큰 특징 중 하나이다.
이러한 관점에서 본 연구는 요약 문서의 자동품질 측정에 대한 기존 연구의 한계를 극복하기 위해, 요약의 본질에 기반한 자동 품질 평가 방안을 제안하고자 한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의하여 이를 평가에 활용하고자 한다.
이처럼 문서 요약의 중요성과 활용성이 증가함에 따라, 요약 기술 자체뿐 아니라 요약된 내용의 품질을 측정하는 기술에 대한 관심이 급증하고 있다. 이에 본 연구에서는 내용중복의 최소화 및 내용 누락의 최소화의 두 가지 관점에서 요약문의 품질을 측정할 수 있는 평가방법론을 새롭게 제안하였다. 또한 제안 방법론의 실제 적용 가능성을 평가하기 위해 TripAdvisor의 호텔 리뷰로부터 29,671개의 문장을 추출하여 각 호텔 별로 리뷰를 요약하고, 요약된 리뷰에 대해 제안 방법론에 따라 품질 평가를 수행한 실험 결과를 소개하였다.
제안 방법
내용 평가는 동시 선택(Co-selection) 방법과 내용 기반(Content-based) 방법으로 다시 세분화 되는데, 동시 선택은 Manual Summary와 자동요약문의 문장이 얼마나 일치하는지를 확인하여 품질을 확인하는 방법이다. 구체적으로 사람이 작성한 이상적인 요약문과 기계가 자동으로 작성한 요약문을 비교하여, 두 문서 간 서로 완벽하게 일치하는 문장의 수를 집계하는 방식을 통해 상대적 유용성(Relative Utility) 등을 평가한다(Radev et al., 2004). 이러한 방식은 요약문이 기준 문서와 완벽하게 동일한 문장을 많이 포함할수록 요약문의 품질이 높게 평가받지만, 형태가 다소 다르지만 내용이 매우 유사한 문장은 아무리 요약문에 많이 포함되더라도 품질 평가에 전혀 기여하지 못한다는 점에서 한계를 갖는다.
이러한 관점에서 본 연구는 요약 문서의 자동품질 측정에 대한 기존 연구의 한계를 극복하기 위해, 요약의 본질에 기반한 자동 품질 평가 방안을 제안하고자 한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의하여 이를 평가에 활용하고자 한다. 또한 이 두 가지 척도의 조화 평균(Harmonic Mean)으로 F-Score를 측정하여, 간결성과 완전성 측면의 두 가지 측면에서 최적의 요약을 수행할 수 있는 균형점을 찾고자 한다.
문장 간 유사도를 계산하기 위해 우선 각 문장은 수치로 변환되어야 하며, 본 연구에서는 이를 위해 문장의 구조화에 널리 사용되고 있는 Sentence2Vec 기법을 적용한다. 구체적으로는 Sentence2Vec을 사용하여 각 문장을 100차원 벡터로 변형한 뒤, 각 벡터 간 코사인 유사도(Cosine Similarity)를 산출하여 이를 문장 간 유사도로 사용한다. 유사도는 -1부터 1까지의 값을 가지며, 두 문장이 유사할수록 1에 가깝고 유사하지 않을수록 -1에 가깝게 나타난다.
다음으로 SS에 대한 토픽 모델링을 하여 미리 정해진 개수의 토픽을 추출한다(2). 다음으로 각 토픽을 구성하는 문서 중 가장 높은 문서/토픽 가중치를 갖는 문장을 식별하고, 이들을 추출하여 조합함으로써 요약문을 구성한다(3). 이와 더불어 문장 단위로 구성된 원본 데이터에 대해 Sentence2Vec 알고리즘을 적용하여 각 문장 간유사도를 도출한다(4).
다음으로 토픽 모델링 결과 중 하나인 문서/토픽 행렬을 사용하여 토픽 별 가중치가 가장 높은 문장을 추출하고, 해당 문장으로 요약문을 구성한 결과의 일부를 [Figure 9]에 제시하였다. 각토픽 마다 하나의 문장을 추출하였기 때문에, 토픽 수의 변화에 따라 요약문의 문장 수는 5, 10,15, 20, 100, 320개로 다르게 나타난다.
즉 요약문과 전문의 유사도를 품질의 척도로 사용하는데, 요약문과 전문의 길이 및 수록 어휘 수가 크게 상이하여 직접적인 비교를 수행하기에는 어려움이 있다. 따라서 원문에 대한 차원 축소를 수행한 뒤, 축약된 원문과 요약문의 벡터 계산을 통해 주요 토픽 유사도(Main Topic Similarity)와 용어 의미 유사도(Term Significance Similarity)를 산출한다. 하지만 이러한 방식은 기본적으로 어휘의 빈도수에 기반한 비교를 수행하기 때문에, 전술한 바와 같이 단순히 빈도수에 기반한 “좋은 요약”이 항상 본질적 의미에서의 “좋은 요약”을 의미한다고 볼 수는 점에서 한계를 갖는다.
우선 각 호텔 별로 리뷰를 통합한 뒤 이를 다시 문장 단위로 분리하였다. 또한 각 호텔 별로 토픽 모델링을 실시하였으며, 토픽의 개수가 요약문의 품질에 미치는 영향을 확인하기 위해 토픽의 수를 5,10, 15, 20, 100, 그리고 320개로 변경해 가며 실험을 수행하였다. 즉 3개의 호텔에 대해 각 호텔별로 6번, 총 18번의 토픽 모델링을 실시하였으며, 이렇게 도출된 토픽의 결과 중 일부가[Figure 8]에 나타나있다.
본 연구에서 요약문의 완전성은 요약문에 포함된 문장들이 전문의 내용을 얼마나 포함하는지, 그리고 요약문의 간결성은 요약문에 포함된 문장들 간 얼마나 중복이 없는지를 나타내는 개념으로 정의된다. 또한 요약문의 품질 평가를 위해 자동으로 생성된 요약문이 필요하므로 본 장에서는 토픽 모델링에기반을 두어 요약문을 생성하는 과정을 소개하고, 이렇게 생성된 요약문의 품질을 제안 방법론에 따라 평가하는 과정을 간단한 예를 통해 설명한다. [Figure 3]에서 좌측의 Summarization 부분은 요약문 생성 과정을, 우측의 Evaluation 부분은 본 연구의 핵심인 요약문의 품질을 평가하는 과정을 나타낸다.
이에 본 연구에서는 내용중복의 최소화 및 내용 누락의 최소화의 두 가지 관점에서 요약문의 품질을 측정할 수 있는 평가방법론을 새롭게 제안하였다. 또한 제안 방법론의 실제 적용 가능성을 평가하기 위해 TripAdvisor의 호텔 리뷰로부터 29,671개의 문장을 추출하여 각 호텔 별로 리뷰를 요약하고, 요약된 리뷰에 대해 제안 방법론에 따라 품질 평가를 수행한 실험 결과를 소개하였다.
본 절은 [Figure 3]의 좌측에 나타난 (1) ~ (3) 에 해당하는 과정, 즉 원본 문서를 문장 단위로 분리하고 이에 대한 토픽 모델링을 진행하여, 각 토픽 별로 추출된 대표 문서를 조합하여 요약문을 구성하는 과정을 소개한다. 문서 요약에는 LSA 기반의 토픽 모델링을 활용하였으며, 대상 원문으로는 숙박 업체에 대한 리뷰를 사용하였다. [Figure 4]는 리뷰 4건을 15개의 문장으로 분리한 예를 보이고 있으며, 이 단계 이후로는 분석의 최소 단위로 문장을 사용한다.
본 장에서는 완전성과 간결성을 정의하고, 이 두 가지 관점에 근거하여 요약문의 품질을측정하기 위한 방안을 제시한다. 본 연구에서 요약문의 완전성은 요약문에 포함된 문장들이 전문의 내용을 얼마나 포함하는지, 그리고 요약문의 간결성은 요약문에 포함된 문장들 간 얼마나 중복이 없는지를 나타내는 개념으로 정의된다.
본 장에서는 제안 방법론에 따라 리뷰 요약문의 품질을 측정하고, 토픽의 수와 유사도 임계값의 최적 조합을 탐색하여 가장 좋은 품질을 갖는 요약문을 생성하는 과정을 실험을 통해 소개하였다.
본 절은 [Figure 3]의 좌측에 나타난 (1) ~ (3) 에 해당하는 과정, 즉 원본 문서를 문장 단위로 분리하고 이에 대한 토픽 모델링을 진행하여, 각 토픽 별로 추출된 대표 문서를 조합하여 요약문을 구성하는 과정을 소개한다. 문서 요약에는 LSA 기반의 토픽 모델링을 활용하였으며, 대상 원문으로는 숙박 업체에 대한 리뷰를 사용하였다.
본 장에서는 제안 방법론에 따른 요약문의 품질 측정 과정을 간단한 예를 통해 소개하였으며, 실제 데이터에 대해 본 방법론을 적용한 실험 결과는 다음 장에서 소개한다. 실제 실험에서는 토픽 수를 변화시켜가며 서로 다른 문장 수를 갖는 요약문을 다수 생성한 후, 각 요약문의 품질을 평가하여 요약문의 길이에 따른 요약 품질의 변화 양상도 함께 분석한다.
TextRank(Mihalcea and Tarau, 2004; Mihalcea andTarau, 2005)는 그래프 기반 접근법의 가장 대표적인 기법으로, 각 문장을 하나의 노드(Node)로 간주하고, 문장 간 유사도에 따라 간선에 가중치를 부여하여 그래프를 구성한다. 이렇게 구성된 그래프에 대한 분석을 통해 PageRank 알고리즘으로 각 노드들의 중요도를 산출하고, 중요도가 높은 상위 N개의 노드를 선정하여 해당 문장들로 요약문을 구성한다.
또한 각 호텔 별로 토픽 모델링을 실시하였으며, 토픽의 개수가 요약문의 품질에 미치는 영향을 확인하기 위해 토픽의 수를 5,10, 15, 20, 100, 그리고 320개로 변경해 가며 실험을 수행하였다. 즉 3개의 호텔에 대해 각 호텔별로 6번, 총 18번의 토픽 모델링을 실시하였으며, 이렇게 도출된 토픽의 결과 중 일부가[Figure 8]에 나타나있다.
3절에 소개된 과정에 따라,앞에서 도출한 리뷰 요약문의 품질을 측정한 결과를 제시한다. 첫 단계로 Sentence2Vec을 활용하여 각 문장을 벡터화하고, 이들 벡터 간 코사인 유사도를 계산하여 각 문장 간 유사도를 행렬로 도출하였다(Table 3).
대상 데이터
3을 통해 수행하였다. 분석을 위해 TripAdvisor 사이트에서 세 개의 호텔을 선정하고, 이들 호텔에 대해 2010년 2월부터 2016년 8월 사이에 작성된 리뷰를 수집하여 요약의 대상이 되는 원문으로 사용하였다. 사용된 원문은 총 3,020건의 리뷰에 대한 문장 29,671개로 구성되어 있다.
분석을 위해 TripAdvisor 사이트에서 세 개의 호텔을 선정하고, 이들 호텔에 대해 2010년 2월부터 2016년 8월 사이에 작성된 리뷰를 수집하여 요약의 대상이 되는 원문으로 사용하였다. 사용된 원문은 총 3,020건의 리뷰에 대한 문장 29,671개로 구성되어 있다.
데이터처리
다음으로 SS의 전체 문장 각각에 대해 특정 임계값 이상의 유사도를 갖는 문장이 요약문에 얼마나 포함되었는지를 측정하여 완전성을 산출하고(5), 요약문의 전체 문장 각각에 대해 특정 임계값 이상의 유사도를 갖는 문장이 요약문에 얼마나 포함되지 않았는지를 측정하여 간결성을 산출한다(6). 마지막으로 완전성과 간결성의 조화 평균으로 F-Score를 산출하여, 대상 요약문의 품질 평가 결과를 도출한다(7). 본 장의 이후 절에서는 제안 방법론의 주요 과정을 가상 예를 통해 자세히 설명하고, 다음 장인 4장에서는 제안 방법론을 실제 데이터에 적용한 실험 결과를 소개한다.
본 절에서는 제안 방법론의 적용 실험을 위한 환경 및 데이터에 대해 간략하게 소개한다. 문서 집합으로부터 주요 토픽을 추출하기 위한 토픽모델링은 SAS Enterprise Miner Workstation 14.1을 통해 수행하였으며, 리뷰의 문장 단위 분리 및 Sentence2Vec은 Python 3.6.3을 통해 수행하였다. 분석을 위해 TripAdvisor 사이트에서 세 개의 호텔을 선정하고, 이들 호텔에 대해 2010년 2월부터 2016년 8월 사이에 작성된 리뷰를 수집하여 요약의 대상이 되는 원문으로 사용하였다.
이론/모형
전체 과정은 SS에 속한 각 문장 간 유사도를 계산하여 유사도 행렬을 도출하고, 이를 활용하여 완전성, 간결성, 그리고 F-Score를 산출하는 과정으로 요약된다. 문장 간 유사도를 계산하기 위해 우선 각 문장은 수치로 변환되어야 하며, 본 연구에서는 이를 위해 문장의 구조화에 널리 사용되고 있는 Sentence2Vec 기법을 적용한다. 구체적으로는 Sentence2Vec을 사용하여 각 문장을 100차원 벡터로 변형한 뒤, 각 벡터 간 코사인 유사도(Cosine Similarity)를 산출하여 이를 문장 간 유사도로 사용한다.
다음으로 각 토픽을 구성하는 문서 중 가장 높은 문서/토픽 가중치를 갖는 문장을 식별하고, 이들을 추출하여 조합함으로써 요약문을 구성한다(3). 이와 더불어 문장 단위로 구성된 원본 데이터에 대해 Sentence2Vec 알고리즘을 적용하여 각 문장 간유사도를 도출한다(4). 다음으로 SS의 전체 문장 각각에 대해 특정 임계값 이상의 유사도를 갖는 문장이 요약문에 얼마나 포함되었는지를 측정하여 완전성을 산출하고(5), 요약문의 전체 문장 각각에 대해 특정 임계값 이상의 유사도를 갖는 문장이 요약문에 얼마나 포함되지 않았는지를 측정하여 간결성을 산출한다(6).
성능/효과
한편 F-Score의 경우 일정 수준까지는 토픽 수의증가에 따라 함께 증가하지만, 특정 지점 이후에는 오히려 감소하는 추세를 보였다. 또한 F-Score가 최대가 되는 토픽의 수는 유사도의 임계값에 따라 서로 다르게 나타나며, 임계값이 높을수록 토픽의 수가 많을 때 F-Score가 최댓값을 가짐을 알 수 있었다. 예를 들어 임계값이 0.
[Figure 13]은 Hotel A, Hotel B, 그리고 HotelC의 리뷰 요약문에 대해 토픽 수와 유사도 임계 값의 최적 조합을 찾기 위한 실험 결과를 비교하여 보이고 있다. 세 가지 경우 모두 최적 토픽의 수는 5 ~ 10개 사이에서 나타났으며, 유사도의 임계값은 0.35 ~ 0.4의 구간에서 F-Score가 높게 나타나는 현상을 보였다. 구체적으로 HotelA, Hotel B, 그리고 Hotel C는 각각 (토픽 수, 유사도의 임계값)이 (10, 0.
이상의 결과를 종합하면 토픽의 수와 유사도의 임계값은 문장의 유사성 여부를 판가름하는데 영향을 미치기 때문에, 요약문을 평가하는 세 가지 척도가 두 가지 조건의 영향을 동시에 받음을 알 수 있다. 따라서 완전성과 간결성의 통합지표인 F-Score 관점에서 최고의 품질을 갖는 요약문을 구성하기 위해선, 토픽의 수와 유사도의 임계값을 동시에 변화시키면서 최적 조합(Optimal Combination)을 탐색할 필요가 있다.
한편 F-Score가 최대로 나타나는 유사도의 임계값은 토픽 수의 증가에 따라 점차 증가함을 알 수 있다. 즉 토픽 수가 5개일 때는 F-Score의 최댓값이 임계값 0.35에서 나타났지만, 토픽 수가 20, 100, 320개일 때는 F-Score의 최댓값이 각각 임계값 0.55,0.6, 0.7에서 나타났다. 토픽 수에 따른 세 가지 척도의 변화 패턴은 [Figure 12]에서 보다 명확하게 파악할 수 있다.
후속연구
향후 이미 알려진 다양한 문서 요약 기법에 따라 요약을 수행한 뒤, 이들 요약문의 품질 평가에 본 방법론을 적용함으로써 방법론의 견고성을 높일 필요가 있다. 또한 본 연구에서 정의한 완전성과 간결성 척도는 개념 자체로는 요약의 본질을 충실히 반영하고 있지만, 완전성과 간결성의 측정 산식은 향후 다양한 관점에서 더욱 정교화 될 필요가 있다. 마지막으로 제안 방법론에 의한 요약문의 품질 평가와 사람이 작성한 수동요약에 기반을 둔 품질 평가와의 비교를 통해, 제안 방법론의 우수성과 신뢰도를 높일 필요가 있다.
이와 더불어 실무적 측면에서는 제안 방법론을 통해 자동 요약문의 품질 평가를 사람의 개입 없이 자동으로 수행함으로써, 자동 요약을 제공하는 다양한 요약 서비스에서 객관적이고 효율적인 요약문 품질 관리가 가능해질 것으로 기대한다. 또한 제안 방법론은 자동 요약의 기법에 상관없이 요약문의 품질 측정이 가능하기 때문에 실제 다양한 요약 서비스의 품질을 측정할 때 활용도가 매우 높을 것으로 예상된다.
또한 본 연구에서 정의한 완전성과 간결성 척도는 개념 자체로는 요약의 본질을 충실히 반영하고 있지만, 완전성과 간결성의 측정 산식은 향후 다양한 관점에서 더욱 정교화 될 필요가 있다. 마지막으로 제안 방법론에 의한 요약문의 품질 평가와 사람이 작성한 수동요약에 기반을 둔 품질 평가와의 비교를 통해, 제안 방법론의 우수성과 신뢰도를 높일 필요가 있다.
이와 더불어 실무적 측면에서는 제안 방법론을 통해 자동 요약문의 품질 평가를 사람의 개입 없이 자동으로 수행함으로써, 자동 요약을 제공하는 다양한 요약 서비스에서 객관적이고 효율적인 요약문 품질 관리가 가능해질 것으로 기대한다. 또한 제안 방법론은 자동 요약의 기법에 상관없이 요약문의 품질 측정이 가능하기 때문에 실제 다양한 요약 서비스의 품질을 측정할 때 활용도가 매우 높을 것으로 예상된다.
특히 ROUGE는 전문가가 직접 요약한 문서와 자동으로 요약된 시스템 문서를 비교하여 평가하는 방법으로, 정확률(Precision)과 재현률(Recall)을 산출한 뒤 최종적으로 F-Score 결과를 측정하는 방식으로 수행된다. 하지만 이상의 기존 방법들은 모두 Manual Summary 작성 과정에서 사람의 개입을 필요로 하기 때문에, 기준 문서 작성에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 점에서 한계를 갖는다.
본 연구는 제안 방법론에 따라 요약문의 품질을 평가하기 위해, 본 연구에서 자체적으로 구현한 방식에 따라 문서 요약을 수행하고 그 결과에 대한 품질 평가를 수행하였다. 향후 이미 알려진 다양한 문서 요약 기법에 따라 요약을 수행한 뒤, 이들 요약문의 품질 평가에 본 방법론을 적용함으로써 방법론의 견고성을 높일 필요가 있다. 또한 본 연구에서 정의한 완전성과 간결성 척도는 개념 자체로는 요약의 본질을 충실히 반영하고 있지만, 완전성과 간결성의 측정 산식은 향후 다양한 관점에서 더욱 정교화 될 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
LSA 기법의 장점은 무엇인가?
특히 LSA 기반 기법은 완전하게 자동화된 수학적, 통계적 기법으로, SVD(Singular Value Decomposition)를 통해 전체 문서의 차원을 축소하고 단어의 맥락에 따라 의미를 추출하고 표현하는 방법이다. LSA 기법은 WordNet과 같은 어휘 자원을 사용하지 않고도, 전체 문서의 내용을 축약하여 문서의 중요 주제를 식별할 수 있다는 장점을 갖는다.
추출 접근법은 무엇인가?
문서를 자동으로 요약하는 접근법은 크게 추출(Extraction)과 생성(Abstraction)으로 구분된다. 추출 접근법은 문서 내에서 구, 절, 문장 등 특정 문서 요소의 중요도를 파악하여, 해당 요소를 그대로 발췌하여 사용하는 방법이다. 한편 생성은 원 문서에서 단어 혹은 문장을 발췌한 뒤, 자연어 처리 기법을 통해 원 문서의 요소를 조합하여 새로운 문장을 구성하는 과정이 반드시 포함된다는 특징을 갖는다.
수동 요약 방식의 한계점은 무엇인가?
기준 문서는 크게 두 가지 방식으로 제공되는데, 가장 일반적인 방식은 사람이 수작업으로 이상적인 요약문을 작성하는 수동 요약(Manual Summarization) 방식이다. 이 방식은 요약문 작성 과정에서 사람의 개입을 필요로 하기 때문에 요약문 작성에 막대한 시간과 비용이 소요될 뿐 아니라, 요약자의 주관에 따라 평가 결과가 상이하게 나타날 수 있다는 한계를 갖는다. 따라서 이러한 한계를 극복하기 위해 사람의 개입 없이 요약 문서의 품질을 측정하기 위한 시도가 이루어지고 있다.
참고문헌 (19)
Blei, D. M., A. Y. Ng and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, (2003), 993-1022.
Daume III, H. and D. Marcu., "Bayesian Query-Focused Summarization," Proceeding of the International Conference on Computation Linguistics and the annual meeting of the Association for Computational Linguistics, (2006), 305-312.
Deerwester, S., S. T. Dumais, G. W. Furnas, T. K. Landauer and R. Harshman, "Indexing by Latent Semantic Analysis," Journal of the American Society for Information Science, Vol.41, No.6(1990), 391-407.
Gong, Y. and X. Liu, "Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis," Proceeding of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, (2001), 19-25.
Gupta, S., A. Nenkova and D. Jurafsky, "Measuring Importance and Query Relevance in Topic-Focused Multi-Document Summarization," Proceeding of the Annual Meeting of the Association for Computational Linguistics, (2007), 193-196.
Haghighi, A., and L. Vanderwende, "Exploring Content Models for Multi-Document Summarization," Proceeding of Human Language Technologies: The 2009 Annual Conference of the North American Chpter of the Association for Computational Linguistcs, (2009), 362-370.
Kim, N., D. Lee, H. Choi and W. X. S. Wong, "Investigations on Techniques and Applications of Text Analytics," The Journal of Korean Institute of Communications and Information Sciences, Vol.42, No.2(2017), 471-492.
Lin, C. Y. and E. Hovy, "Automatic Evaluation of Summaries Using n-Gram Co-Occurrence Statistics," Proceeding of HLT-NAACL, (2003), 71-78.
Lin, C. Y., "Rouge: A Package for Automatic Evaluation of Summaries," Proceeding of the Workshop on Text Summarization Branches Out, (2004), 74-81.
Litvak, M. and M. Last, "Graph-based keyword extraction for single-document summarization," Proceedings of the workshop on Multi-source Multilingual Information Extraction and Summarization. Association for Computational Linguistics, (2008).
Luhn, H. P., "The Automatic Creation of Literature Abstracts," IBM Journal of Research Development, Vol.2, No.2(1958), 159-165.
Mani, I., "Automatic Summarization," John Benjamins Publishing Company, (2001), 114-125.
Mihalcea, R. and P. Tarau, "TextRank - Bringing Order Into Texts," Proceeding of the Conference on Empirical Methods in Natural Language, (2004), 8-15.
Mihalcea, R. and P. Tarau, "An Algorithm for Language Independent Single and Multiple Document Summarization," Proceeding of the International Joint Conference on Natural Language, (2005), 19-24.
Nenkova, A. and R. Passonneau, "Evaluating Content Selection in Summarization: The Pyramid Method," Proceedings of HLT-NAACL, (2004), 145-152.
Radev, D., H. Jing and M. Budzikowska, "Centroid-Based Summarization of Multiple Documents," Information Processing & Management, Vol.40, (2004), 919-938.
Ouyan, Y., W. Li and Q. Lu, "An Integrated Multi-Document Summarization Approach based on Word Hierarchical Representation," Proceedings of the ACL-IJCNLP Conference Short Papers, (2009), 113-116.
Steinberger, J. and K. Jezek, "Text Summarization and Singular Value Decomposition," Lecture Notes for Computer Science, Vol. 2457, (2004), 245-254.
Wan, X., "Timed TextRank: Adding the Temporal Dimension to Multi-Document Summarization," Proceeding of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, (2007), 867-868.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.