[논문]단어 분별도에 기반한 뉴스 검색 문서 요약

이상건; 이혜민; 김기령; 서덕호; 이현아

단어 분별도에 기반한 뉴스 검색 문서 요약
Search Resulted News Summarization using Word Discriminability 원문보기

한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회, 2014 Oct. 07, 2014년, pp.175 - 178

이상건 (금오공과대학교 컴퓨터소프트웨어공학과) , 이혜민 (금오공과대학교 컴퓨터소프트웨어공학과) , 김기령 (금오공과대학교 컴퓨터소프트웨어공학과) , 서덕호 (금오공과대학교 컴퓨터소프트웨어공학과) , 이현아 (금오공과대학교 컴퓨터소프트웨어공학과)

초록
AI-Helper

다양한 언론사로부터 기사를 제공받아 서비스하는 인터넷 포털의 뉴스에서는 수많은 중복 기사가 실시간으로 등록된다. 이로 인하여 인터넷 포털에서 관심 있는 주제의 기사를 검색하여 찾아보려는 경우 검색키워드를 포함한 기사의 수가 지나치게 많아 원하는 정보를 적절하게 얻기 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위해서 검색 기사 중 유사한 문서를 군집화하고 군집에 대한 다중문서요약을 사용자에게 제시하여 검색된 기사를 효율적으로 활용할 수 있는 방법을 제시한다. 다중문서 요약에서는 뉴스 기사에 적합한 단어 가중치인 분별도(discriminability)를 제안하여 사용하여 군집화된 기사로부터 유사 문장을 군집한다. 시스템에서는 군집된 기사의 대표 문장 군집에서 대표 문장, 즉 키워드에 대한 주제별 기사의 요약문을 결과로 제시하여, 효율적인 뉴스 검색을 지원한다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 뉴스에 대한 키워드 검색 결과 문서의 특성을 고려하여 문서 군집화와 문장 군집화를 수행한 뒤 대표 문장을 선정하여 뉴스 검색 결과를 효율적으로 사용하기 위한 방법을 제안하였다. 시스템에서는 동일한 주제에 대하여 수집된 최신 뉴스 기사 집합들은 이미 유사한 단어들을 갖고 있으므로 tf-idf를 활용하는 방법이 적절하지 않다.
문장 군집화에서는 여러 문장에서 자주 사용되는 단어보다 특정 문장에서 집중적으로 사용하는 단어의 가중치가 높게 측정되어야 한다. 본 논문에서는 이러한 단어 가중치를 얻기 위해 단어 분별도(discriminability)를 제안하여 사용한다. 단어 분별도는 조건부 확률에 기반하여 계산한다.
본 논문에서는 이러한 문제를 해결하기 위해서 키워드에 의해 검색된 뉴스 기사에 대한 다중문서요약을 제안한다. 기존 다중문서 요약에서는 동일 주제의 문장에서 요약을 생성하는 것[4][5]을 문제로 한다.
예를 들어 단어 w₃은 다른 군집에는 등장하지 않는 단어이므로 {S₈, S₉, S₁₀}만의 차별성을 나타낸다고 볼 수 있다. 본 논문에서는 조건부 확률에 기반한 분별도를 이용하여 군집에서의 단어 차별성을 측정한다. 단어 w에 대한 단어 w_i의 조건부 확률 P(w_i|w)는 아래 식(1)을 이용해서 구할 수 있다.
시스템에서는 동일한 주제에 대하여 수집된 최신 뉴스 기사 집합들은 이미 유사한 단어들을 갖고 있으므로 tf-idf를 활용하는 방법이 적절하지 않다. 이를 고려하여 본 논문에서는 조건부 확률에 기반한 분별도로 단어의 가중치를 표현하여, 코사인 유사도를 활용한 유사 문장 군집화를 하는 방법을 제시하였다. 실험 결과 특정 문장에만 등장하는 차별성이 있는 단어들에 의해 문장들이 군집화되는 결과를 얻을 수 있었다.

제안 방법

코사인 유사도에서 각 문서의 벡터를 구하기 위한 단어 가중치는 문서에서 발생한 단어의 빈도 tf에 단어의 idf값을 곱하여 얻는다. 각 문서의 단어 점수를 이용하여 벡터를 구성하고, 각 문서의 벡터들을 이용하여 코사인 유사도 값을 구하여 유사한 주제의 뉴스 문서 군집을 구성한다. 군집화에서는 비교적 간단한 알고리즘을 적용한다.
예를 들어 CO_w1은 {S₂, S₈, S₁₀}이 된다. 단어 w에 대해 구한 각 공기 단어의 조건부 확률을 모두 더하고, 집합 CO_w의 크기 |CO_w|로 나누어 평균 분별도를 구한다. 예에서 단어 w₁과 단어 w₃의 가중치를 계산하면 단어 w₁의 가중치로 0.
문서군을 생성하는 방법은 코사인 유사도를 이용한다. 문서 분류를 위한 문서 특성은 제목과 본문에서 사용되는 명사를 이용하여 구성한다. 형태소 분석기를 이용하여 문서 내의 단어를 추출한 뒤, 각 단어의 빈도를 얻는다.
뉴스 검색 문서에 대한 요약은 수집된 문서에 대한 문서 군집, 문장 군집, 요약문 추출으로 처리된다. 본 논문에서는 뉴스 기사의 특성을 고려한 비교적 간단한 군집화 방식을 적용한 뒤, 분별도를 이용하여 문장 군집을 수행한다. 아래에서 각 단계에 대해 설명한다.
군집화된 기사에 대한 문장 군집의 결과로 여러 개의 군집을 얻을 수 있는데, 각 군집의 크기가 클수록 즉 군집에 포함된 문장이 많을수록 여러 기사에서 자주 발생하는 중요 문장으로 볼 수 있다. 시스템에서는 문장 군집의 크기의 내림차순으로 정렬하고, 상위 문장 군집의 대표 문장을 요약 정보로 제시한다. 군집의 대표 문장을 추출하기 위해서는 가장 많은 명사를 갖는 문장이 가장 많은 정보를 담고 있는 문장이라 판단하여 문장 군집의 대표 문장으로 선택한다.
단어 분별도는 조건부 확률에 기반하여 계산한다. 시스템에서는 분별도를 이용하여 문장 군집을 수행한 뒤 군집 크기로 정렬하여 대표 문장을 추출하여 사용자에게 제시한다.
얻어진 분별도를 단어 가중치로 사용하여 문장에 대한 단어 벡터를 구하고, 코사인 유사도를 이용하여 문장 유사도를 계산한다. 얻어진 유사도 값을 이용하여 문서 군집화와 동일한 방식을 적용하여 군집화를 수행한다.
얻어진 분별도를 단어 가중치로 사용하여 문장에 대한 단어 벡터를 구하고, 코사인 유사도를 이용하여 문장 유사도를 계산한다. 얻어진 유사도 값을 이용하여 문서 군집화와 동일한 방식을 적용하여 군집화를 수행한다. 문장 군집화에서도 실험에서 얻은 평균적인 성능을 보이는 임계치 0.
기존 다중문서 요약에서는 동일 주제의 문장에서 요약을 생성하는 것[4][5]을 문제로 한다. 이와는 다르게 제안하는 시스템에서는 키워드로 검색된 뉴스를 대상으로 하고 있으므로, 시스템에서는 첫 단계로 검색된 뉴스를 수집하고, 다음 단계에서 유사한 뉴스 기사들의 군집화 과정을 수행한다. 군집화된 기사에 대한 다중문서 요약을 수행하여 유사한 기사들의 대표 문장 즉 요약을 제시하면, 중복된 기사에 의한 문제점을 해결할 수 있을 뿐만 아니라 시간의 흐름에 따른 뉴스의 흐름도 쉽게 파악할 수 있다.
군집화에서는 비교적 간단한 알고리즘을 적용한다. 최신기사 우선으로 기사 검색 결과를 얻고, 입력된 기사 순서대로 기사의 유사도를 계산하여 군집화를 수행한다. 기사는 기사에 포함되어 있는 단어들로 벡터를 구성하고, 군집은 군집에 포함되어 있는 단어들로 벡터를 구성한다.
문서 분류를 위한 문서 특성은 제목과 본문에서 사용되는 명사를 이용하여 구성한다. 형태소 분석기를 이용하여 문서 내의 단어를 추출한 뒤, 각 단어의 빈도를 얻는다. 코사인 유사도에서 각 문서의 벡터를 구하기 위한 단어 가중치는 문서에서 발생한 단어의 빈도 tf에 단어의 idf값을 곱하여 얻는다.

대상 데이터

시스템은 문서 수집과 군집, 문장 군집과 요약문 추출로 구성된다. 문서 수집에서는 다양한 언론사의 뉴스를 제공하는 네이버 뉴스 검색 API를 통해 최신 기사를 수집한다. 다음에서는 문서 군집에서 요약문 추출까지의 단계에 대해서 상세히 설명한다.
실험을 위해 2014년 9월 이슈화된 키워드 ‘담배값’에 대한 뉴스 문서를 수집하여 평가를 수행하였다.

이론/모형

문서군을 생성하는 방법은 코사인 유사도를 이용한다. 문서 분류를 위한 문서 특성은 제목과 본문에서 사용되는 명사를 이용하여 구성한다.

성능/효과

그림 8은 '담배값'에 대한 2014년 9월 19일 기준의 시스템 결과를 보인다. 결과에서 볼 수 있듯이 키워드에 대한 검색 문서 중 유사한 문서를 군집화하고 군집을 대표하는 요약 문장을 선택하여, 기존 뉴스 검색이 가지는 최신 기사 중심의 결과 제공의 단점을 해소하여, 키워드에 관련된 다양한 결과를 한 눈에 볼 수 있다.
이를 고려하여 본 논문에서는 조건부 확률에 기반한 분별도로 단어의 가중치를 표현하여, 코사인 유사도를 활용한 유사 문장 군집화를 하는 방법을 제시하였다. 실험 결과 특정 문장에만 등장하는 차별성이 있는 단어들에 의해 문장들이 군집화되는 결과를 얻을 수 있었다.
표에서 볼 수 있듯이 '인상', '보건', '담뱃세', '담배'는 '담배값'으로 검색한 9월의 대부분의 기사의 문장에 포함되어 높은 빈도를 가지지만, 제안한 분별도는 낮은 값을 가진다.

후속연구

향후 연구로는 다양한 실험을 통한 분별도의 개선과 코사인 유사도 이외의 유사도 계산 방식의 적용, 추가적인 군집화 알고리즘의 적용 등을 예정하고 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	본 논문에서 제안한 뉴스 기사에 대한 다중문서요약은 어떤 과정을 거쳐 요약을 진행하는 시스템인가?	기존 다중문서 요약에서는 동일 주제의 문장에서 요약을 생성하는 것[4][5]을 문제로 한다. 이와는 다르게 제안하는 시스템에서는 키워드로 검색된 뉴스를 대상으로 하고 있으므로, 시스템에서는 첫 단계로 검색된 뉴스를 수집하고, 다음 단계에서 유사한 뉴스 기사들의 군집화 과정을 수행한다. 군집화된 기사에 대한 다중문서 요약을 수행하여 유사한 기사들의 대표 문장 즉 요약을 제시하면, 중복된 기사에 의한 문제점을 해결할 수 있을 뿐만 아니라 시간의 흐름에 따른 뉴스의 흐름도 쉽게 파악할 수 있다.
	본 연구에서 제안한 다중문서요약 시스템의 뉴스 기사 군집화를 위한 문장 벡터에서 tf-idf를 이용한 가중치 계산이 적절치 않은 이유는 무엇인가?	문장 군집화를 위한 문장 벡터에는 tf-idf를 이용한 가중치 계산은 적절하지 않다. 문장 군집화에 참여하는 문서 집합은 키워드에 검색된 기사들을 군집화하여 얻는 문서이므로, 각 문서가 가지고 있는 단어들 또한 유사하다. 이 경우 문서 집합 내의 특정 문서에서만 등장하는 단어에 높은 가중치를 주는 idf는 적절한 가중치를 제공하지 않는다[6]. 따라서 문장 군집화를 위해서는 별도의 단어 가중치 기법이 필요하다.
	본 논문에서 제안하는 뉴스 기사에 대한 다중문서요약에서 뉴스 검색 문서에 대한 요약은 어떻게 처리되는가?	뉴스 검색 문서에 대한 요약은 수집된 문서에 대한 문서 군집, 문장 군집, 요약문 추출으로 처리된다. 본 논문에서는 뉴스 기사의 특성을 고려한 비교적 간단한 군집화 방식을 적용한 뒤, 분별도를 이용하여 문장 군집을 수행한다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

단어 분별도에 기반한 뉴스 검색 문서 요약
Search Resulted News Summarization using Word Discriminability 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

단어 분별도에 기반한 뉴스 검색 문서 요약 Search Resulted News Summarization using Word Discriminability 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

단어 분별도에 기반한 뉴스 검색 문서 요약
Search Resulted News Summarization using Word Discriminability 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper