$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

마크업 패턴을 이용한 웹 검색
Web Information Retrieval Exploiting Markup Pattern 원문보기

정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, v.13 no.6, 2007년, pp.407 - 411  

김민수 (아주대학교 정보통신학) ,  김민구 (아주대학교 정보통신학)

초록
AI-Helper 아이콘AI-Helper

HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.

Abstract AI-Helper 아이콘AI-Helper

Over the years, great attention has been paid to the question of exploiting inherent semantic of HTML in the area of web document retrieval. Although HTML is mainly presentation oriented, HTML tags implicitly contain useful semantics that can be catch meaning of text. Focusing on this idea. in this ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 마크업 패턴은 암묵적으로 웹 문서를 작성한 사람의 의도이며, 이는 명시적으로 HTML 태그 혹은 CSS을 통해 표현된다. 마크업 패턴을 활용하기 위해, 본 연구에서는 마크업 패턴으로 표현된 단어들을 개념으로 정의하였다. 개념은 웹 문서에 포함된 중요한 용어를 의미하며, 이 개념에 가중치를부여함으로서 웹 문서의 가중치를 부여하였다.
  • 이에 더하여, 웹 검색의 영역을 웹 전체를 대상으로 하는 것이 아니라, 특정 사이트로 한정한 것은 지능적인 웹 검색을 위한 단초를보여주었다. 본 논문에서는 이러한 점에 착안하여, 마크업 정보를 이용한 웹 검색 성능 향상을 보이려 한다. 우리는 마크업 개념을 확장하여 마크업 패턴을 정의하고, 마크업 패턴을 이용하여 특정 사이트에서 웹 문서를 색인하고 가중치를 설정하는 웹 검색 성능 향상 방법을 제안한다.
  • 즉 웹 문서의 내용은 특정 마크업 언어에 의해 강조되거나 특징지어지고, 이를 이용하여 웹 검색 성능을 향상시킬 수 있다는 것이다. 본 논문에서는 이러한 특징을 이용하여 질의를 확장 /수정하는 것이 아니라, 웹 문서의 가중치 재설정을 통한 성능 향상을 꾀한다. 이를 위해 마크업 패턴을 정의하고, 검색 성능 향상을 위한 방법들을 제안한다.
  • 이러한 개념의 정의는 웹 문서로부터 중요한 용어들만을 추출할 수 있는 방법을 제공하며, 따라서 추출된 개념은 중요하지 않은 용어들을 포함하지 않음으로서, 결국 웹 검색 성능에 긍정적이 영향을 끼친다. 본 연구에서는 어떤 서식도 적용되지 않은 용어들을 중요하게 생각하지 않고, 마크업 패턴으로 표현된 용어들을 이용한 검색을 고려하는 것이다.
  • 본 연구에서는 지능적인 웹 검색을 위해 마크업 패턴을 활용한 검색기법을 제안하였다. 마크업 패턴은 암묵적으로 웹 문서를 작성한 사람의 의도이며, 이는 명시적으로 HTML 태그 혹은 CSS을 통해 표현된다.
  • 그러나 HTML의 특성은 웹 문서로부터 용어들을 추출하고 계층 구조를 구축하는 것을 어렵게 하는 요인으로 작용하였다. 이를 극복하기 위해, Udo⑹는 웹 문서에 존재하는 용어의 계층 구조를 구축하기 위한 새로운 방법을 제안하였다. 그가 제안한 방법은 용어의 의미를 고려하는 것이 아니라, 웹 문서의 마크업 정보를 이용한 즉것이다.
  • 그러나 본 연구에서는 실험에 사용된 두 사이트, 즉 BBC와 CNN에서 사용되고 있는 검색 엔진의 가중치 부여 방법을 추가 작업 없이 사용하였다. 즉 질의에 대해, 각 검색 엔진이 돌려주는 결과 문서들을 대상으로 새로이 가중치 부여를 하여 질의에 대해 재평가를 하는 것이다. 우리는 특정 사이트에서 사용되고 있는 검색 엔진이 그 사이트에서 최적의 성능을 보이는 것이라 가정한다.

가설 설정

  • i) Implicitly, Markup Pattern is a mirror of intention of person who designs a web document.
  • 즉 질의에 대해, 각 검색 엔진이 돌려주는 결과 문서들을 대상으로 새로이 가중치 부여를 하여 질의에 대해 재평가를 하는 것이다. 우리는 특정 사이트에서 사용되고 있는 검색 엔진이 그 사이트에서 최적의 성능을 보이는 것이라 가정한다. 즉 본 연구의 목적에 비추어 볼 때, 기존 검색 엔진의 성능은 중요한 요소가 아니며, Google 혹은 Yahoo 등 어느 것이라도 될 수 있다.
본문요약 정보가 도움이 되었나요?

참고문헌 (9)

  1. Hodgson, J. 2001. Do HTML Tags Semantic Content? IEEE Internet Computing, 5(1):20-25 

  2. Sanderson, M. and Croft, W. B. 1999. Deriving Concept Hierarchies from text. In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 206-213, Berkeley, CA 

  3. Lawrie, D. J. and Croft, W. B. 2003. Generating Hierarchical Summaries for Web Searches. In Proceedings of the 26th Annual International ACM SIGIR conference on Research and Development in Information Retrieval, pages 457-458, Toronto, Canada 

  4. Reiner, K. and Jason, Z. 2004. Mining Anchor Text for Query Refinement. In Proceedings of WWW2004, New York, USA 

  5. Silverstein, C., Marais, H., Henzinger, M., Morics, M. 1999. Analysis of a very large web search engine query log. SIGIR Forum, 33(1):6-12 

  6. Udo, K. 2005. Intelligent Document Retrieval Exploiting Markup Structure. : Springer, Berlin Heidelberg New York 

  7. Ruth, Y. Z., Laks, V. S. L., Ruben, H. Z. 2004. Extracting Relational Data from HTML Repositories. ACM SIGKDD Explorations Newsletter, 6(2): 5-12 

  8. Kleinberg, J. M. 1998. Authoritative Sources in Hyperlinked Environment. In Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, pages 668-677, ACM 

  9. Brin, S. and Page, L. 1998. The anatomy of a largescale hypertextual web search engine. In Proceedings of the seventh international conference on World Wide Web 7 (WWW7), Brisbane, Australia 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로