$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 웹 뉴스의 기사 추출과 요약
Text Extraction and Summarization from Web News 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.12 no.5, 2007년, pp.1 - 10  

한광록 (호서대학교 컴퓨터공학과) ,  선복근 (호서대학교 프로그램) ,  유형선 (순천향대학교 국어국문학과)

초록
AI-Helper 아이콘AI-Helper

뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

Abstract AI-Helper 아이콘AI-Helper

Many types of information provided through the web including news contents contain unnecessary clutters. These clutters make it difficult to build automated information processing systems such as the summarization, extraction and retrieval of documents. We propose a system that extracts and summariz...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 직접 구현한 HTML 파서를 이용해 DOM 트리와 유사한 요소 트리를 구축한 후 HTML 태그의 하이퍼링크 속성을 갖는 노드를 제거해 나가면서 웹 뉴스 데이터를 추출하고, 추출된 데이터를 요약하는 시스템에 대해 논하고자 한다. 또한 추출한 결과를 요약하기 위하여 공기 관계 그래프(co-occurrence relation graph)를 이용하는 방법을 적용하였다(5).
  • 본 논문에서는 추출된 Vertex들의 공기관계를 나타내기 위해서 Vertex들의 쌍을 만들어 공기도를 계산하고, 계산된 공기 도가 유효한 경우 즉 문서에서 한번이상 동일한 문장에서 나타난 경우에만 Vertex간의 관계를 나타내는 Edge를 생성해준다. 공기도는 두 개의 단어가 대상 문서내의 동일한 문장에 대해 동시에 출현한 횟수의 합을 의미하고 식(2) 와 같이 나타낸다.
  • 본 논문에서는 시스템이 추출한 핵심 문장을 수작업에 의한 결과와 비교하여 평가를 수행하였다. 평가 기준은 다음의 4개를 기준으로 하였다.
  • 본 논문에서는 이러한 클러터들을 효과적으로 제거하기 위해 대부분의 클러터가 가진 HTML 태그의 하이퍼링크 속성에 관심을 두었다. HTML 파서가 구축한 요소 트리에서 링크속성을 가진 클러터를 제외하고 휴리스틱 규칙을 적용하여 하이퍼링크 속성을 가지지 않은 클러터를 제외하였다.
  • 현재 두 개의 어플리케이션으로 동작하고 있으나, 향후 하나의 시스템으로 통합하여 시스템의 복잡도를 줄여야 할 것이다. 또한 현재 이슈가 되고 있는 시멘틱 웹이나 웹2.0과 관련해서 RDF와 RSS 등의 다양한 기술을 논문의 시스템에 접목하여 보다 지능적인 정보검색시스템을 구축하고자 한다.

가설 설정

  • (1) 텍스트 노드들을 제외한 모든 노들은 무시한다.
  • (2) 하이퍼링크 속성을 갖는 텍스트 노드는 무시한다.
본문요약 정보가 도움이 되었나요?

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로