최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.11 no.5, 2008년, pp.567 - 578
For analyzing a huge amount of web pages available in the Internet, we need to extract the encoded information in web pages. In this paper, we propose a method to extract and convert web information from web pages into XML documents for multidimensional analysis. For extracting information from web ...
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
XML 웨어하우스로부터 XML 큐브를 만들기 위해서 요구되는 것은 무엇인가? | XML 웨어하우스의 사실 데이터는 XML 문서들 이므로 XML 웨어하우스로부터 XML 큐브를 만들기 위해서는 XML 문서의 통합연산(aggregation)이 요구된다. 그런데, XML 문서는 계층 구조를 가진 복합 객체이므로 XML 문서에 대한 통합연산은 정의하기가 어렵다. | |
웹 정보 분석에 효과적인 질의를 위해서 필요한 것은 무엇인가? | 웹 정보를 분석하기 위해서는 수많은 웹 페이지들을 웹브라우저를 통해 모두 다 읽기보다는 질의하는 것이 보다 효과적이다. 질의를 위해서는 웹 페이지에 들어 있는 정보를 추출하여 구조화된 데이터 (예, SQL 질의를 위한 관계형 데이터) 또는 반구조화된 데이터(예. XQuery 질의를 위한 XML 데이터)로 변환하는 것이 필요하다. 웹 페이지가 정해진 스키마를 가진 구조화된 데이터 (주로 릴레이션 데이터)로 이루어져 있다면 자동 추출이 가능하다[1,2,3,4]. | |
본 논문에서 제안한 추출 규칙을 작성하기 위한 두 개의 언어는 무엇인가? | 본 논문에서는 추출 규칙을 작성하기 위한 두 개의 언어를 제안한다. 하나는 추출 규칙 명세 언어인 xRule이고, 다른 하나는 HTML 태그 시퀀스에 대한 정규 언어인 TagRex이다. 본 논문에서는 웹 페이지를 하나의 HTML 태그 시퀀스로 간주하고 xRule 속의 TagRex 정규식과 매치되는 부분을 추출한다. |
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.