$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

특정 주제 웹문서의 논리적 구조 분석
Logical Structure Analysis of Topic-specific Web Documents 원문보기

한국정보과학회 04 봄 학술발표논문집(B), 2004 Apr., 2004년, pp.157 - 159  

이민형 (연세대학교 컴퓨터과학과) ,  이경호 (연세대학교 컴퓨터과학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구라 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML 문서를 생성하기 때문에 문서의 재 사용성을 높인다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 특히, 제안된 방법은 정교한 수준의 구조분석을 위하여 문서 모델믈 효율적으로 표현할 수 있는 언어인 MEDL(m니ti니取이 element description language)을 제안한다. MEDLe 논리적 계층 구조률 기술하기 위하여 특정 주제에 속하는 문서 집합이 포함할 수 있는 논리적 구성 요소의 종류, 포함관계, n리고 빈도수 등에 대한 다양한 정보를 기술한다.
  • 제안된 방법은 정교한 수준의 구조분석을 위하여 문서 모델을 효과적으로 기술할 수 있는 언어인 MEDL을 제안한다. MEDLe 논리적인 계충 구조클 기술하기 위하여 특정 주제에 속하는 문서 집합이 포함할 수 있는 논리적 구성 요소의 종류, 포함관계, 그리고 빈도수 등에 해한 다양한 정보콜 기술한다. 제안된 방법은 논리적 계층구조의 분석을 위해 비주얼 그룹 화, 요소식별, 그리고 논리적 그룹화의 세 단계로 구성된다.
  • X서Le 논리적인 구조 정보裏 표현할 수 있으며 이 기종간의 호환이 가능하다는 장점 때문에 전자 문서의 표준 포맷으로 널리 사용되고 있다. 따라서, 본 논군에서는 웹 문서로부터 XML 문서룰 생성하기 위한 논리적 구조분석 방법을 제안한다.
  • 똔 논문에서는 웹 문서로부터 논리적인 구조 정보養 추養할 수 있는 효율적인 방법율 제안한다. 제안된 방법은 비주얼 그 番화(visual grouping), 요소 식별(이ement identification), 그리고 논리적 그룹화(logical grouping)°l 세 단계로 구성된다.
  • 본 논문은 HTML 문서로부터 논리적 구조 정보를 추춯하여 XML 문서롤 생성하는 것을 목적으로 한다. 제안된 방법은 <그림 1》과 같이 전처리, 논리적 구조분석, 그리고 후처리의 세 단계로 구성된다.
  • 또한, 반복되는 논 리적 요소養 기준으로 계층 구조를 생성한다. 논리적 계층 구 조!! 정확히 생성하기 위하여 반복되는 요소나 리스트 아이템 태그H 기준으로 그룹화할 때 그룹이 제안된 문서 모델에 부합 하는지의 여부를 검사한다. 제안된 방법에 대한 자세한 기.
본문요약 정보가 도움이 되었나요?

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로