본 논문에서는 그래프기반 문장랭킹 방식인 문장 상호 추천과 문장의 주관, 객관 성향을 이용하는 문장 성향 분석을 혼합한 새로운 요약문 추출 방법에 대해서 기술한다. 문장 상호 추천에서는 문장을 단어벡터로 변환한 후에 LSA를 이용하여 문장과 문장 사이의 유사도 점수를 계산하였다. 이렇게 얻어진 유사도와 각 단어의 희귀도(Rarity Score)를 기반으로 문장과 문장 사이의 연결 강도를 정의하여, 그래프 기반 문장 랭킹 방식을 적용 하였다. 한편, 문장성향 분석에서는 주관, 객관 성향을 결정하기 위해서 기존의 Golden Standard 단어 성향 분류를 기반으로 워드넷을 확장하여 데이터베이스를 구축하였다. 이를 통해 각 단어들의 성향을 판단하고 단어들의 평균 성향을 문장의 전체 성향에 반영하여, 주관적 성향을 띄는 문장들을 선택하였다. 최종적으로 문장 상호 추천 결과와 문장 성향 분석 결과를 혼합하여 주어진 문서로부터 요약문을 추출하였다. 요약문 추출 기능의 객관적인 성능 평가를 위하여 추출된 요약문 토대로 한 분류게임을 실시하였고, 그 결과를 MS-Word에 포함된 문서 요약 기능과 비교함으로써, 제안한 모델의 효과성을 확인하였다.
본 논문에서는 그래프기반 문장랭킹 방식인 문장 상호 추천과 문장의 주관, 객관 성향을 이용하는 문장 성향 분석을 혼합한 새로운 요약문 추출 방법에 대해서 기술한다. 문장 상호 추천에서는 문장을 단어벡터로 변환한 후에 LSA를 이용하여 문장과 문장 사이의 유사도 점수를 계산하였다. 이렇게 얻어진 유사도와 각 단어의 희귀도(Rarity Score)를 기반으로 문장과 문장 사이의 연결 강도를 정의하여, 그래프 기반 문장 랭킹 방식을 적용 하였다. 한편, 문장성향 분석에서는 주관, 객관 성향을 결정하기 위해서 기존의 Golden Standard 단어 성향 분류를 기반으로 워드넷을 확장하여 데이터베이스를 구축하였다. 이를 통해 각 단어들의 성향을 판단하고 단어들의 평균 성향을 문장의 전체 성향에 반영하여, 주관적 성향을 띄는 문장들을 선택하였다. 최종적으로 문장 상호 추천 결과와 문장 성향 분석 결과를 혼합하여 주어진 문서로부터 요약문을 추출하였다. 요약문 추출 기능의 객관적인 성능 평가를 위하여 추출된 요약문 토대로 한 분류게임을 실시하였고, 그 결과를 MS-Word에 포함된 문서 요약 기능과 비교함으로써, 제안한 모델의 효과성을 확인하였다.
In this paper, we describe a new summarizing method based on a graph-based and a sense-based analysis. In the graph-based analysis, we convert sentences in a document into word vectors and calculate the similarity between each sentence using LSA. We reflect this similarity of sentences and the rarit...
In this paper, we describe a new summarizing method based on a graph-based and a sense-based analysis. In the graph-based analysis, we convert sentences in a document into word vectors and calculate the similarity between each sentence using LSA. We reflect this similarity of sentences and the rarity scores of words in sentences to define weights of edges in the graph. Meanwhile, in the sense-based analysis, in order to determine the sense of words, subjectivity or objectivity, we built a database which is extended from the golden standards using Wordnet. We calculate the subjectivity of sentences from the sense of words, and select more subjective sentences. Lastly, we combine the results of these two methods. We evaluate the performance of the proposed method using classification games, which are usually used to measure the performances of summarization methods. We compare our method with the MS-Word auto-summarization, and verify the effectiveness of ours.
In this paper, we describe a new summarizing method based on a graph-based and a sense-based analysis. In the graph-based analysis, we convert sentences in a document into word vectors and calculate the similarity between each sentence using LSA. We reflect this similarity of sentences and the rarity scores of words in sentences to define weights of edges in the graph. Meanwhile, in the sense-based analysis, in order to determine the sense of words, subjectivity or objectivity, we built a database which is extended from the golden standards using Wordnet. We calculate the subjectivity of sentences from the sense of words, and select more subjective sentences. Lastly, we combine the results of these two methods. We evaluate the performance of the proposed method using classification games, which are usually used to measure the performances of summarization methods. We compare our method with the MS-Word auto-summarization, and verify the effectiveness of ours.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 그래프 기반 분석과 문장성향 기반 분석 방법론의 혼합한 새로운 문서 요약 방법을 제안하였다. 제안한 방법론의 분류 게임을 통하여 검증한 결과 기존상용프로그램인 MS Word 2007의 자동 문서 요약 기능 보다 나은 성능을 보임을 확인할 수 있었다.
본 논문에서는 문장을 구성하는 단어들의 중요도를 등장빈도수와 희귀도에 의해 정의하는 방법과 선형대수학적 해법인 LSA를 통해 의미, 개념적 공기성을 문장간 그래프 연결 가중치에 반영하는 새로운 상호 추천 방식(Mutual Recommendation)을 제안하고, 여기에 문장의 주관성향 또는 객관성향을 파악하는 방식을 혼합한 새로운 주제문 추출 모델을 제안하고자 한다.
여기서 IDF 값을 구하기 위해서는 비교대상이 되는 전체 문서집합이 존재하여야 하기 때문에, 독립된 문서를 대상으로는 이 방법을 사용할 수 없다. 본 연구에서는 IDF 값을 대체할 수 있는 RS(Rarity Score) 값을 새롭게 제안하였다.
본 절에서는 문장 내 개별 단어들의 주관·객관 성향 수치의 평균을 문장의 주관·객관 성향 수치로 보고, 그 수치를 이용하여 문장의 중요도를 결정하는 방법을 설명한다.
본 절에서는 앞서 소개한 그래프 기반 랭킹 방식 (Graph-based Ranking)의 새로운 방법으로, LSA-유사도를 사용해 문장-문장 간 유사도를 정의하고, 단어 희귀도를 그래프 가중치에 반영하여 검출 정확성을 높일 수 있는 문장 상호 추천(Mutual Recommendation) 방법에 대해서 기술한다.
가설 설정
본 연구에서는 “문서의 주제문은 작가의 주관적인 생각이다”라는 사전적 정의를 토대로 주관적 성향이 강한 문장일수록 주제문일 확률이 높을 것이라는 가정을 하였다.
본 절에서는 문장 내 개별 단어들의 주관·객관 성향 수치의 평균을 문장의 주관·객관 성향 수치로 보고, 그 수치를 이용하여 문장의 중요도를 결정하는 방법을 설명한다. 이는 3장에서 소개된 문장 상호 추천과는 별개로 적용할 수 있으며 본 연구에서는 두 가지 방법을 적절한 비중으로 혼합할 것이다.
제안 방법
단어의 주관성을 판단하기 위해서 Katja Markert의 성향 분석 연구 중 언어학자들에 의해서 단어의 주관∙객관 성향이 확정된 Golden Standard (성향 확정 표준)[6] 단어 세트를 워드넷 상에서 확장 수집하므로써 데이터베이스화 하였다. 워드넷 확장은 기준 단어로부터재귀적으로 상위어, 동의어로 연결된 단어들을 수집 하였다.
본 연구에서는 문서 내에서 통계적으로 보았을 때 비교적 많이 등장한 단어가 무엇인지 TF-RS 값을 통하여 알아내고, 단어의 중요도를 결정하였다. 각 단어의 중요도는 3.
본 연구에서는 문장 상호 추천 방식과 문장 성향 분석 방법을 적절한 가중치 비율로 계산하여 각 문장의 점수를 산출 및 랭킹하여, 상위 랭킹의 문장을 중요문장으로 선택하였다.
본 연구에서는 본래의 LSA에서 문서단위로 사용되던 단어벡터를 단어들로 이루어진 문장들의 벡터로 구성하고, LSA를 사용하여 각 문장들 간의 코사인유사도를 구하였다. 이는 단어의 매칭만으로만 유사도를 측정 하던 방법과 비교했을 때 더 의미적인 유사도를 구할수 있다는 장점이 있다.
본 연구에서는 위와 같은 그래프 기반 랭킹 방법을 사용하되, 연결 가중치 정의 방법을 변형하여 유사도의 측정방법을 개선하였고 유사도 이외의 요소들도 함께 고려할 수 있도록 하였다.
분류게임으로부터 문장 상호 추천 모듈과 문장 성향 분석 결과의 적절한 배합을 찾기 위하여 (문장 상호 추천 결과 : 문장 성향 분석 결과)의 반영 가중치를 (1.0:0.0), (0.3:0.7), (0.5:0.5), (0.7:0.3), (0.0:1.0) 과 같이 변화시켜가며 실험하였다. 예를 들어, (0.
실험 방식으로는 분류게임을 시도하였다. 분류게임이란, 1998년 5월 미국정부 TIPSTER Text Program (Phase3)에서 처음 시행한 대규모 요약기능 평가 시스템[7]으로서, 내용을 바탕으로 미리 카테고리가 분류된 문서들을 컴퓨터가 요약하면, 그 요약문을 사람이 읽고 원문의 카테고리를 분류한다.
대상 데이터
본 연구에서는 5장에서 소개할 문장 성향 분석 방법에서 성향이 확정된 단어세트인 Golden Standard 단어로부터 임의의 단어의 성향을 판별하기 위한 데이터베이스를 확장 구축하는데 사용되었다.
본 연구에서는 TOFEL에서 52개, 수능에서 18개, 신문기사에서 31개, 총 101개의 문서를 추출하여 실험에 사용하였고, 한 문서는 정치, 경제 등 총 15가지의 카테고리 중 두 개의 카테고리에 포함되도록 분류하였다. 요약문은 각 경우의 문장순위 1위부터 3위까지 세개의 문장을 단순 연결하여 생성하였고, 원문이 20문장이하로 짧은 경우에는 전체 문장 수의 15%이하로 요약 문을 추출하였다.
데이터처리
각 단어 별로 존재하지 않는 단어에 대해서는 중립적인 단어로 판단하여 점수를 주고, 존재하는 단어에 대해서는 데이터베이스에 저장된 SS(Sense Score) 값으로 점수를 주었다. 문장의 성향은 문장 내 개별 단어들의 Sense Score 값의 평균을 내어 산출하였다.
5점으로 수렴한다는 것을 의미한다. 워드넷 확장 시 중복으로 확장된 단어에 대해서는 SS(Sense Score)값의 평균을 내어 SS(Sense Score)의 값을 구하였다.
제안하는 방법의 성능 비교를 위하여 MS Word 2007의 요약 결과와 비교하였다.
성능/효과
MS Word와의 비교에서도 (0.0:1.0) 경우를 제외한네 가지의 경우에서 더 좋은 정확도와 일관된 성능을 보였다.
워드넷을 확장한 데이터베이스는 다음과 같은 두 가지 특징을 반영하여 구축하였다. 구축결과 본래의 Golden Standard (성향 확정 표준) 단어에서 확장된 단어 일수록 중립적인 단어가 되는 경향을 보였다. 그림 4는 확장 방법을 의미한다.
제안한 방법론의 분류 게임을 통하여 검증한 결과 기존상용프로그램인 MS Word 2007의 자동 문서 요약 기능 보다 나은 성능을 보임을 확인할 수 있었다. 분류 게임의 실험 결과를 보았을 때, 그래프 기반 분석 뿐 만 아니라 의미적 성향 분석을 혼합하여 분석하였을 때, 요약 성능이 향상 되었다. 이는 글을 파악할때, 문장 상호 추천과 문장 성향 분석을 혼합한 방식이 문서 주제문 추출 및 요약에 유용함을 보여준다.
실험 결과, 표 1과 같이 문장 상호 추천의 비율이 문장 성향 분석 비율보다 높은 경우의 성능이 대체로 좋았으며, 혼합비율 (0.7:0.3)의 성능이 혼합비율 (1.0:0.0) 보다 높은 것으로 볼 때, 문장 성향 분석을 포함 안하는 것 보다는 어느 정도 포함하는 것이 성능향상에 도움이 됨을 알 수 있다. 이는 글을 파악할 때, 단어들의 성향을 고려하는 것이 타당하다는 것을 의미한다.
본 논문에서는 그래프 기반 분석과 문장성향 기반 분석 방법론의 혼합한 새로운 문서 요약 방법을 제안하였다. 제안한 방법론의 분류 게임을 통하여 검증한 결과 기존상용프로그램인 MS Word 2007의 자동 문서 요약 기능 보다 나은 성능을 보임을 확인할 수 있었다. 분류 게임의 실험 결과를 보았을 때, 그래프 기반 분석 뿐 만 아니라 의미적 성향 분석을 혼합하여 분석하였을 때, 요약 성능이 향상 되었다.
이는 글을 파악할 때, 단어들의 성향을 고려하는 것이 타당하다는 것을 의미한다. 하지만, 문장 성향 분석만을 요약에 이용한 혼합 비율 (0.0:1.0)의 실험결과에서, 가장 낮은 수준의 성능을 보인 것으로 보아 문장 성향 분석 방법만으로는 좋은 성능을 기대하기 힘들다는 것을 알 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
TF-IDF 가중치를 독립된 문서 대상으로는 사용할 수 없는 이유는 무엇인가?
여기서 IDF 값을 구하기 위해서는 비교대상이 되는 전체 문서집합이 존재하여야 하기 때문에, 독립된 문서를 대상으로는 이 방법을 사용할 수 없다. 본 연구에서는 IDF 값을 대체할 수 있는 RS(Rarity Score) 값을 새롭게 제안하였다.
TF-IDF란 무엇인가?
TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색 분야에서 단어의 중요도를 판단할 때 많이 사용되는 가중치로써, 문서 내 해당단어의 빈도수(TF)와 전체 문서집합에서 해당 단어를 포함한 문서의 수의 역수(IDF)를 곱한 값이다.
컴퓨터공학적인 정보 검색 기술이 꾸준히 요구되는 이유는 무엇인가?
신문, 책, 논문 등을 컴퓨터나 스마트기기를 이용하여 디지털 문서의 형태로 읽는 일은 현대 사회인이 지식을 얻기 위한 필수적인 활동이 되어가고 있다. 인터넷과 같은 가상공간에서의 디지털 정보량은 매우 빠른 속도로 증가하고 있기 때문에, 방대한 양의 정보 속에서 사용자가 원하는 정보만을 제공할 수 있는 컴퓨터공학적인 정보 검색 기술이 꾸준히 요구되고 있으며, 그러한 기술 중에는 문서를 요약하거나 중요한 내용만 추출하는 기술도 포함된다.
참고문헌 (7)
R. Mihalcea, "Graph-based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization," In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 2004.
Jade Goldsteiny, Summarizing Text Documents: Sentence Selection and Evaluation Metrics, Language Technologies Institute Carnegie Mellon University, 1999.
Scott Deerwester, "Indexing by Latent Semantic Analysis," Journal of the American Society for Information Science, 1990.
G. A. Miller, "WordNet: An online lexical database," Int. J . Lexicograph, 1990.
Word frequency list based on Project Gutenberg available at : http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists, 2012.
F. Su, K. Markert, From Words to Senses: A case Study of Subjectivity Recognition, School of Computing University of Leeds, 2008.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.