최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.
최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.
Due to the rapid advancement and distribution of smart devices of late, document data on the Internet is on the sharp increase. The increment of information on the Web including a massive amount of documents makes it increasingly difficult for users to understand corresponding data. In order to effi...
Due to the rapid advancement and distribution of smart devices of late, document data on the Internet is on the sharp increase. The increment of information on the Web including a massive amount of documents makes it increasingly difficult for users to understand corresponding data. In order to efficiently summarize documents in the field of automated summary programs, various researches are under way. This study uses TextRank algorithm to efficiently summarize documents. TextRank algorithm expresses sentences or keywords in the form of a graph and understands the importance of sentences by using its vertices and edges to understand semantic relations between vocabulary and sentence. It extracts high-ranking keywords and based on keywords, it extracts important sentences. To extract important sentences, the algorithm first groups vocabulary. Grouping vocabulary is done using a scale of specific weight. The program sorts out sentences with higher scores on the weight scale, and based on selected sentences, it extracts important sentences to summarize the document. This study proved that this process confirmed an improved performance than summary methods shown in previous researches and that the algorithm can more efficiently summarize documents.
Due to the rapid advancement and distribution of smart devices of late, document data on the Internet is on the sharp increase. The increment of information on the Web including a massive amount of documents makes it increasingly difficult for users to understand corresponding data. In order to efficiently summarize documents in the field of automated summary programs, various researches are under way. This study uses TextRank algorithm to efficiently summarize documents. TextRank algorithm expresses sentences or keywords in the form of a graph and understands the importance of sentences by using its vertices and edges to understand semantic relations between vocabulary and sentence. It extracts high-ranking keywords and based on keywords, it extracts important sentences. To extract important sentences, the algorithm first groups vocabulary. Grouping vocabulary is done using a scale of specific weight. The program sorts out sentences with higher scores on the weight scale, and based on selected sentences, it extracts important sentences to summarize the document. This study proved that this process confirmed an improved performance than summary methods shown in previous researches and that the algorithm can more efficiently summarize documents.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 추출 요약 기법을 기반으로 자동 문서요약을 하기 위한 문서요약 시스템을 제안하고자 한다.
본 논문에서는 효율적으로 문서 요약을 하기 위해 문서에 존재하는 대표 키워드를 추출하며, 추출된 대표 키워드를 상위 키워드와 하위 키워드로 나누는 방법을 제안하였다. 이 방법은 문서에 존재하는 문장과 키워드 간의 연관단어를 파악하여 기존에 연구되었던 문서 요약 방법보다 문서에 존재하는 핵심 주제를 추출하기 위해 제안한 방법이다.
제안 방법
이 방법은 문서에 존재하는 문장과 키워드 간의 연관단어를 파악하여 기존에 연구되었던 문서 요약 방법보다 문서에 존재하는 핵심 주제를 추출하기 위해 제안한 방법이다. 대표 키워드를 이용하여 문서를 요약하기 위해 전처리 과정을 이용하였으며, 전처리 과정을 통해 추출된 일반 키워드를 텍스트 랭크 알고리즘을 이용하여 대표 키워드를 추출하였다. 추출된 대표 키워드를 상위 키워드로 지정하였으며, 상위 키워드 이외의 키워드는 하위 키워드로 지정하였다.
또한 0.2점을 기준으로 비교 실험 한 이유는 0.1점씩 실험을 진행 하였을 때 해당 실험에 대한 결과가 미비하게 나올 수 있기 때문에 0.2점씩 기준으로 정하여 실험을 진행 하였으며, 또한 0.1점씩 실험을 진행 하더라도 같은 결과가 나왔으며, 0.2점을 기준으로 하였을 때, 해당 실험에 대한 차이가 명확하고 자세한 결과가 나왔기 때문에 0.2점씩 차이를 두어 실험을 진행 하였다.
문서 내에 존재하는 단어들에 포함된 숨겨진 주제들 별로 클러스터들을 만들고 클러스터 된 단어와 문장과 관계를 유사도 측정을 수행하여 문장에 점수를 부여하는 기법을 제안하였다[8].
문서요약을 하는 중요 문장을 추출하기 위해 단어와 문장사이의 연관성을 고려하여 각 문장 별 가중치 점수 값을 구하여 문서의 요약 방법을 제안한다.
본 논문에서 제시하고 있는 방법 중 텍스트랭크 알고리즘의 대표 키워드의 추가 점수를 부여하지 않고 어휘 체인의 각 문장별 가중치 점수만을 추가적으로 점수만을 올린 방법과 본 논문의 텍스트 랭크 알고리즘의 대표 키워드 추가 점수를 주는 방법의 효율성 평가를 하였으며, 먼저 각 문장별 가중치 점수만을 올리는 방법은 각각 0.2, 0.4.
본 논문에서는 문서에 존재하는 키워드를 상위 키워드와 하위 키워드로 추출하여 추출된 키워드를 기반으로 문서를 요약하게 된다.
본 절에서는 문서요약 시스템의 효율성 검증을 위해 강한 문장 가중치 점수를 이용한 결과 분석과 문서요약 시스템의 성능 검증을 위해 베이스 라인 실험을 진행한다.
이 기법은 문서의 주제에 대한 클러스터들을 만들고, 링크분석(Link-Anaysis)기법인 HITS(Hypertext Induced Random Walk) 기법을 통한 문장들과 문서의 주제 클러스터들 간의 연관성을 분석하여 문장에 점수를 부여하는 기법을 제안하였다.
이를 기반으로 본 실험에서는 텍스트랭크 알고리즘을 추가하지 않고 가중치 점수 0.2점만을 추가한 방법과 본 논문에서 제시하는 문서요약 방법을 비교 실험을 진행 해보았다.
텍스트 랭크를 통해 추출된 대표 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출을 위해 본 논문에서는 어휘 체인을 이용한다. 어휘 체인은 텍스트에서 문법적인 장치를 제외한 어휘적 의미만을 이용하여 해당 텍스트를 분석하고 각 의미적 연관성이 있는 단어들끼리 그룹화 하는 시스템이다.
추출된 상위 키워드와 하위 키워드를 이용하여 문서 요약을 하기 위해 단어 그룹화라는 방법을 이용하였으며, 단어 그룹화를 통해 중요 문장을 추출하는 방법을 제안하였다.
키워드 추출을 위해 본 연구에서는 텍스트 랭크 알고리즘을 이용하여 해당 문장에 존재하는 문서의 문장을 간선그래프를 이용해 모델링 한 후, 각 키워드의 높은 점수의 키워드를 상위 키워드로 선정되며, 선정된 상위 키워드와 하위 키워드를 기반으로 중요 문장 추출 과정을 거친 후 문서를 요약하게 된다.
텍스트 랭크를 측정하기 위해 먼저 키워드를 추출하는 단계에서 토큰화, 불용어 제거, 어간추출, 품사 추출, 키워드 추출 단계를 거치며, 추출된 키워드를 기반으로 본 논문에서 제시하는 텍스트 랭크 측정 방법을 통해 대표 키워드를 측정하여 상위 키워드와 하위키워드로 나누어지게 된다.
대상 데이터
본 논문에서 제시하는 전처리 과정은 토큰화, 불용어 제거, 어간 추출, 품사 판별을 거쳐 키워드를 추출하게 되며, 키워드 추출을 위한 실험 데이터 셋은 TAC(Text Analysis Conference)에서 제공해주는 데이터 셋 TAC 2015와 TAC 2016을 이용한다.
데이터처리
0.6점만을 올린 방법 중에서 가장 좋은 결과 나온 점수를 기반으로 본 논문에서 제시하고 있는 실험 방법과 비교하여 결과 분석을 하였다.
그림 3과 그림 4는 강한 문장 가중치 점수만을 추가적으로 점수를 주어 나타난 결과 이며 ROUGE-N의 uni-gram, bi-gram, tri-gram, four-gram을 기준으로 평가를 하였다. 평가 결과로 미루어 볼 때 각 문장별 가중치 점수 선정 시 가중치 점수 0.
두 번째 결과 분석은 기존에 연구 되었던 문서 요약 연구인 추출요약 기법 기반의 다중 문서 요약 시스템과 비교 평가 실험을 진행 하였다[16].
본 실험의 텍스트 랭크 알고리즘 기반의 상위 키워드 추가 점수 성능 검증을 위해 TAC에서 제공하는 TAC 2015와 TAC 2016의 문서 중 400문서를 이용하여 비교 평가를 진행 하였으며, 그림 5는 전체적인 ROUGE의 F-Score평균을 기반으로 나타난 결과이다.
이론/모형
어휘 체인은 텍스트에서 문법적인 장치를 제외한 어휘적 의미만을 이용하여 해당 텍스트를 분석하고 각 의미적 연관성이 있는 단어들끼리 그룹화 하는 시스템이다. 본 논문에서 제안한 어휘 체인을 이용하기 위해 워드넷 계층 구조를 이용하였다. 어휘 체인의 단어 그룹화를 하기 위해 워드넷이 제공하는 개념간의 계층 관계는 두 단어의 의미가 서로 얼마나 밀접한가를 측정하는데 매우 중요한 척도로 사용될 수 있다.
실험의 평가는 ROUGE(Recall-Oriented Understudy of Gisting Evaluation)평가 시스템을 이용하였다[14]. ROUGE 평가 시스템은 전문가가 직접 요약한 문서와 자동으로 요약된 시스템 문서를 비교 평가 하는 방법으로 본 논문에서는 ROUGE의 시스템 중 ROUGE-N을 이용하여 논문의 실험을 평가 하였다.
성능/효과
100문서를 기준으로 하였을 때, F-Score값이 베이스 라인 시스템보다 0.92723값이 도출되어 좋은 결과가 나왔다.
85889의 값이 나왔다. 그림 6 에서 보는 바와 같이 기존의 연구 되었던 문서요약 방법보다 본 논문에서 제안하는 문서요약 시스템을 사용했을 때와 비교해 성능 차이가 있다는 것을 확인 할 수 있었다.
본 연구에서는 0점을 부여하지 않고, 상위 키워드와 하위 키워드로 나누어진 키워드를 단어와 문장 간의 가중치 점수를 줄수 있었으며, 단어 그룹화에 상위 키워드가 존재할 경우 가중치 점수의 추가적인 점수를 부여하여 중요 문장 추출의 정확도를 올려 기존에 연구 하였던 문서 요약 방법보다 핵심적인 주제를 추출하여 요약할 수 있었다. 향후 연구로는 보다 다양한 연관단어를 파악할 수 있는 키워드 태그 클러스터를 구축하여 문장과 단어 사이의 관계에 대해서 정확도를 높이기 위한 문서 요약 방법을 제안하고자 한다.
첫 번째 결과 분석은 강한 문장 가중치 점수를 이용한 결과 분석이다.
평가 결과로 미루어 볼 때 각 문장별 가중치 점수 선정 시 가중치 점수 0.2점을 추가한 방법이 Bi-gram을 기준으로 하였을 때 재현율과 F-Score의 측면에서 가장 좋은 성능을 나타내었으며, unigram과 tri-gram, four-gram을 기준으로 한 방법역시 각각 재현율, 정확률, F-Score의 값이 효율성이 좋은 결과로 나타낸 것을 알 수 있었으며, 강한 문장 가중치 점수 0.2점만을 이용한 결과가 좋은 성능을 나타나는 것을 확인 할 수 있었다.
표 2의 가중치 점수 평균 결과에서 [‘problems’, ‘difficulty’]는 어휘 체인이 되어 해당 문장에 존재 할 경우 1.0점의 가중치 점수를 받으며, ‘problems’과 ‘difficulty’는 상위 키워드에 속하므로 추가 점수 1.0점을 받아 2.0점의 가중치 점수를 받게 된다.
후속연구
또한 사용자가 원하는 문서의 정보를 얻기 위해 많은 웹서비스에서 문서의 검색서비스를 찾을 수 있도록 되있지만, 일일이 문서를 읽고 스스로 정보를 확인하는 작업이 필요하다. 문서의 내용을 정확하게 표현하는 문서 내용의 형태를 취할 수 있다면, 사용자가 원하는 문서의 정보를 찾는 데 큰 도움이 될 것이다. 문서 요약이란 한 문서에서 핵심적인 내용을 추려 사용자에게 중요한 내용을 알려주는 것을 목표로 한다.
본 연구에서는 0점을 부여하지 않고, 상위 키워드와 하위 키워드로 나누어진 키워드를 단어와 문장 간의 가중치 점수를 줄수 있었으며, 단어 그룹화에 상위 키워드가 존재할 경우 가중치 점수의 추가적인 점수를 부여하여 중요 문장 추출의 정확도를 올려 기존에 연구 하였던 문서 요약 방법보다 핵심적인 주제를 추출하여 요약할 수 있었다. 향후 연구로는 보다 다양한 연관단어를 파악할 수 있는 키워드 태그 클러스터를 구축하여 문장과 단어 사이의 관계에 대해서 정확도를 높이기 위한 문서 요약 방법을 제안하고자 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
생성 요약 기법이란 무엇인가?
생성 요약 기법은 문서 내 존재하는 중요 키워드와 문장을 파악하여 자연어 처리 기법을 이용한 문장조합기법, 재구축기법등을 이용하여 문서요약을 하는 연구이다. 또한 생성요약 기법은 문서에 존재하는 단어의 위치, 문장의 위치 같이 대상 문서에서 형태적으로 나타나는 정보를 이용하여 문서요약을 진행한다.
추출 요약 기법의 한계점은 무엇인가?
추출 요약 기법은 현재 다양한 연구를 통해 문장이 가지는 단어의 빈도수 및 가중치를 통해 문장과 단어 간의 관계를 분석하여 중요 문장을 추출하는 방식으로 이루어지고 있다. 하지만 자동으로 분석된 문장의 가중치가 기존 문서의 의미전달이 제대로 이루어지지 않는 경우 올바른 문장 요약이 이루어지지 않는다. 상대적으로 기존 생성 요약 기법보다는 구현이 쉽다는 장점 때문에 현대 추출 요약 기법을 이용한 문서 요약은 활발히 진행되고 있으며, 추출 요약 기법을 이용한 연구 중 PLSA(Probavilistic Latent Semantic Analysis) 알고리즘을 이용한 문서 요약 기법이 있다.
문서요약의 기본 목적은 무엇인가?
문서를 요약하기 위해서는 문서의 특징을 반영한 방법이 필요하다. 문서요약의 기본 목적은 원문을 읽지 않고서도 원문의 주제를 파악할 수 있도록 문서의 핵심 주제를 간략하게 압축 정리하는 것에 있다. 문서요약은 원문의 주제를 서술적으로 표현해야 하므로 복잡한 언어처리와 주제 분석 같은 고차원적인 문서 분석 기술을 필요로 한다.
참고문헌 (16)
Ohm Sornil, Kornnika Gree-ut, "An Automatic T ext Summarization Approach using Content-Base d and Graph-Based Characteristics", In Proceedi ngs of IEEE Conference on Cybernetics and Inte lligent Systems, pp. 1-6, 2006.
이창범, 김민수, 이기호, 이귀상, 박혁로, "주성분 분석을 이용한 문서 주제어 추출", 정보과학회논문지 : 소프트웨어 및 응용, pp. 747-754, 2002.
D.D. Lewis, S.K. Jones, "Natural language proces sing for information retrieval," Communications o f the ACM, Vol. 39, No.1, pp. 92-101, 1996.
E.D. Liddy, S.H. Myaeng, "DR-LINK's: linguistic-comceptual approach to document and detection, " The First Text REtreival Conference, pp. 113-129, 1993,
Mihalcea, Rada, Paul Tarau. "TextRank: Bringing order into texts." Association for Computational Linguistics, 2004.
J. Kupiec, J. Pedersen, and F. Chen, "A Trainabl e Document Summarizer." Proceedings of 18th A CM-SIGIR Conference, pp.68-73, 1995.
Chanback Jeong, Taehwan Kim, Hochul Jeon, Joongmin Choi Department of Computer Science & Engineering Hangyang University, A News Recommendation System based on Document Clustering Using WordNet, 2008.
I. Mani, Automatic Summarization, John Benjami ns Publishing Company, pp.114-125, 2001.
Henning, Leonhard, "Topic-based Multi-Documen t Summarization with Probabilistic Latent Seman tic Analysis", Proceedings of the International Co nference RANLP'09, 2009
Xiaojun Wan, Jianwu Yang, "Multi-Document S ummarization Using Cluster-based Link Analysis ",Proceedings of the International Conference(SIG IR'08), 2008.
K.S. Thakkar, R. V. Dharaskar, and M. B. Ch andak, "Graph-based algorithms for text summar ization",In 2010 3rd International Conference on Emerging Trends in Engineering and Technology, pp. 516-519, 2010.
조형락, 김성진, 이동호. "의미기반 텍스트 랭크 알고리즘을 이용한 다중문서 요약. 한국정보과학회 2015년도 동계학술발표회 논문집: 756-758 2015.
S. Harabagiu, L. Finley "Topic Themes for Mult i Document Summarization," In proceeding of A CM SIGIR, pp. 202-209, 2005.
C.Y.Lin, E.H.Hovy, "Automatic evaluation of su mmaries using n-gram co-occurrence statistics", In Proceedings of Human Language Technology Conference (HLT-NAACL 2003), Edmonton, Can ada, May, 2004.
P. McNamee, J. Mayfield, "Character N-Gram T okenization for European Language Text Retriev al",Information Retrieval, Vol 7, No. 1-2, pp. 73-97, 2004.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.