HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.
HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.
Over the years, great attention has been paid to the question of exploiting inherent semantic of HTML in the area of web document retrieval. Although HTML is mainly presentation oriented, HTML tags implicitly contain useful semantics that can be catch meaning of text. Focusing on this idea. in this ...
Over the years, great attention has been paid to the question of exploiting inherent semantic of HTML in the area of web document retrieval. Although HTML is mainly presentation oriented, HTML tags implicitly contain useful semantics that can be catch meaning of text. Focusing on this idea. in this paper we define 'markup pattern' and try to improve performance of web document retrieval using markup patterns. Markup pattern is a mirror of intends of web document publisher and an internal semantic of text on web document. To discover the markup pattern and exploit it, we suggest a new scheme for extracting concepts and weighting documents. For evaluation task, we select two domains-BBC and CNN web sites, and use their search engines to gather domain documents. We re-weight and re-score documents using proposed scheme, and show the performance improvement in the two domains.
Over the years, great attention has been paid to the question of exploiting inherent semantic of HTML in the area of web document retrieval. Although HTML is mainly presentation oriented, HTML tags implicitly contain useful semantics that can be catch meaning of text. Focusing on this idea. in this paper we define 'markup pattern' and try to improve performance of web document retrieval using markup patterns. Markup pattern is a mirror of intends of web document publisher and an internal semantic of text on web document. To discover the markup pattern and exploit it, we suggest a new scheme for extracting concepts and weighting documents. For evaluation task, we select two domains-BBC and CNN web sites, and use their search engines to gather domain documents. We re-weight and re-score documents using proposed scheme, and show the performance improvement in the two domains.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
마크업 패턴은 암묵적으로 웹 문서를 작성한 사람의 의도이며, 이는 명시적으로 HTML 태그 혹은 CSS을 통해 표현된다. 마크업 패턴을 활용하기 위해, 본 연구에서는 마크업 패턴으로 표현된 단어들을 개념으로 정의하였다. 개념은 웹 문서에 포함된 중요한 용어를 의미하며, 이 개념에 가중치를부여함으로서 웹 문서의 가중치를 부여하였다.
이에 더하여, 웹 검색의 영역을 웹 전체를 대상으로 하는 것이 아니라, 특정 사이트로 한정한 것은 지능적인 웹 검색을 위한 단초를보여주었다. 본 논문에서는 이러한 점에 착안하여, 마크업 정보를 이용한 웹 검색 성능 향상을 보이려 한다. 우리는 마크업 개념을 확장하여 마크업 패턴을 정의하고, 마크업 패턴을 이용하여 특정 사이트에서 웹 문서를 색인하고 가중치를 설정하는 웹 검색 성능 향상 방법을 제안한다.
즉 웹 문서의 내용은 특정 마크업 언어에 의해 강조되거나 특징지어지고, 이를 이용하여 웹 검색 성능을 향상시킬 수 있다는 것이다. 본 논문에서는 이러한 특징을 이용하여 질의를 확장 /수정하는 것이 아니라, 웹 문서의 가중치 재설정을 통한 성능 향상을 꾀한다. 이를 위해 마크업 패턴을 정의하고, 검색 성능 향상을 위한 방법들을 제안한다.
이러한 개념의 정의는 웹 문서로부터 중요한 용어들만을 추출할 수 있는 방법을 제공하며, 따라서 추출된 개념은 중요하지 않은 용어들을 포함하지 않음으로서, 결국 웹 검색 성능에 긍정적이 영향을 끼친다. 본 연구에서는 어떤 서식도 적용되지 않은 용어들을 중요하게 생각하지 않고, 마크업 패턴으로 표현된 용어들을 이용한 검색을 고려하는 것이다.
본 연구에서는 지능적인 웹 검색을 위해 마크업 패턴을 활용한 검색기법을 제안하였다. 마크업 패턴은 암묵적으로 웹 문서를 작성한 사람의 의도이며, 이는 명시적으로 HTML 태그 혹은 CSS을 통해 표현된다.
그러나 HTML의 특성은 웹 문서로부터 용어들을 추출하고 계층 구조를 구축하는 것을 어렵게 하는 요인으로 작용하였다. 이를 극복하기 위해, Udo⑹는 웹 문서에 존재하는 용어의 계층 구조를 구축하기 위한 새로운 방법을 제안하였다. 그가 제안한 방법은 용어의 의미를 고려하는 것이 아니라, 웹 문서의 마크업 정보를 이용한 즉것이다.
그러나 본 연구에서는 실험에 사용된 두 사이트, 즉 BBC와 CNN에서 사용되고 있는 검색 엔진의 가중치 부여 방법을 추가 작업 없이 사용하였다. 즉 질의에 대해, 각 검색 엔진이 돌려주는 결과 문서들을 대상으로 새로이 가중치 부여를 하여 질의에 대해 재평가를 하는 것이다. 우리는 특정 사이트에서 사용되고 있는 검색 엔진이 그 사이트에서 최적의 성능을 보이는 것이라 가정한다.
가설 설정
i) Implicitly, Markup Pattern is a mirror of intention of person who designs a web document.
즉 질의에 대해, 각 검색 엔진이 돌려주는 결과 문서들을 대상으로 새로이 가중치 부여를 하여 질의에 대해 재평가를 하는 것이다. 우리는 특정 사이트에서 사용되고 있는 검색 엔진이 그 사이트에서 최적의 성능을 보이는 것이라 가정한다. 즉 본 연구의 목적에 비추어 볼 때, 기존 검색 엔진의 성능은 중요한 요소가 아니며, Google 혹은 Yahoo 등 어느 것이라도 될 수 있다.
제안 방법
⑥ 질의를 가중치가 재부여된 문서에 적용하고, 얻어진 결과를 처음 검색엔진이 돌려준 결과와 비교한다. 이때 좀 더 좋은 결과를 얻기 위해 ③단계로 돌아가 마크업 패턴의 중요도 값을 재설정 할 수 있음.
부여 방법을 사용할 수 있다. 그러나 본 연구에서는 실험에 사용된 두 사이트, 즉 BBC와 CNN에서 사용되고 있는 검색 엔진의 가중치 부여 방법을 추가 작업 없이 사용하였다. 즉 질의에 대해, 각 검색 엔진이 돌려주는 결과 문서들을 대상으로 새로이 가중치 부여를 하여 질의에 대해 재평가를 하는 것이다.
본 논문에서는 이러한 점에 착안하여, 마크업 정보를 이용한 웹 검색 성능 향상을 보이려 한다. 우리는 마크업 개념을 확장하여 마크업 패턴을 정의하고, 마크업 패턴을 이용하여 특정 사이트에서 웹 문서를 색인하고 가중치를 설정하는 웹 검색 성능 향상 방법을 제안한다.
이 문제의 해결을 위해 질의 확장 및 수정을 위한 다양한 방법이 제안되으며, 특히 Udo의 연구⑹는 웹 문서의 특성을 규정하고, 마크업 언어의 중요한 개념을 파악하여 문서로부터 용어들을 추출하고 이를 질의확장에 응용하였다.
본 논문에서는 이러한 특징을 이용하여 질의를 확장 /수정하는 것이 아니라, 웹 문서의 가중치 재설정을 통한 성능 향상을 꾀한다. 이를 위해 마크업 패턴을 정의하고, 검색 성능 향상을 위한 방법들을 제안한다.
개념은 웹 문서에 포함된 중요한 용어를 의미하며, 이 개념에 가중치를부여함으로서 웹 문서의 가중치를 부여하였다. 제안한 방법의 평가를 위해서 웹문서를 분석하고 마크업 패턴을 추출할 수 있는 검색시스템을 개발하였다. 제안하는 방법의 우수성을 입하기 위해, 본 연구에서는 BBC와 CNN 두 사이트의 웹 문서들을 대상으로 실험하여 제안하는 시스템이 좋은 결과를 돌려줌을 보였다.
대상 데이터
10개의 질의가 BBC 사이트에서 평가되었다. <title> 태그 등 9개의 마크업 패턴이 3의 중요도를 가졌으며, 15 개의 패턴이 중요도 2, 22개의 패턴이 중요도 1을 가졌다.
마크업 패턴을 이용한 웹 검색의 성능을 평가하기 위해 본 연구에서는 BBB와 CNN2)뉴스 사이트의 문서들을 실험 대상으로 하였다. 또한 2006 Google News Top 10 질의어%를 실험의 질의로 선택하였다.
이론/모형
문서의 초기 가중치 부여를 위해 잘 알려진 TF/IDF 방법이나 언어 모델(Language Model)에서 사용하는 가중치 부여 방법을 사용할 수 있다. 그러나 본 연구에서는 실험에 사용된 두 사이트, 즉 BBC와 CNN에서 사용되고 있는 검색 엔진의 가중치 부여 방법을 추가 작업 없이 사용하였다.
성능/효과
77개의 마크업 패턴 중 34개의 패턴이 중요도를 가졌고, 나머지 43개의 패턴은 무시되었다. 6개의 질의에 대해 제안한 검색 방법은 성능 향상을 보였으며, 특히 'Paris Hilton'에 대해 주목할 만한 성능 향상을 보였다. 표 5는 CNN 사이트에서의 실험 결과이다.
두 결과를 비교하여, 상위 10개의 문서가 가지는 점수의 합이 높은 시스템의 성능이 높다고 판단한다.
이 문서들은 개념과 가중치의 쌍으로 간단하게 구조화된다. 이상의과정은 모두 off니ine으로 진행되고, 따라서 실제 검색에 소요되는 시간에는 영향을 미치지 않는다. Search Engine 은 Re-weighted Documents를 토대로 질의에 대해 관련 있는 문서를 검색하여 사용자에게 결과를 돌려준다.
제안한 방법의 평가를 위해서 웹문서를 분석하고 마크업 패턴을 추출할 수 있는 검색시스템을 개발하였다. 제안하는 방법의 우수성을 입하기 위해, 본 연구에서는 BBC와 CNN 두 사이트의 웹 문서들을 대상으로 실험하여 제안하는 시스템이 좋은 결과를 돌려줌을 보였다. 이러한 결과를 볼 때 마크업 패턴의 활용은 지능적인 웹 검색에 도움을 줄 것으로 여겨진다.
표4에서 보듯이, 제안한 방법의 검색은 10개의 질의 중 8개의 질의에 대해 성능 향상을 가져왔다. 특히 'cancer'와 '2006 nfl draft'에 대해 주목할 만한 성능 향상을 보였다. 반면 2개의 질의에 대해 약간의 성능 저하를 나타내었다.
전체 83개의 패턴 중 37개의 패턴은 무시되었다. 표4에서 보듯이, 제안한 방법의 검색은 10개의 질의 중 8개의 질의에 대해 성능 향상을 가져왔다. 특히 'cancer'와 '2006 nfl draft'에 대해 주목할 만한 성능 향상을 보였다.
후속연구
마크업 패턴에 대해 기술하기 전에, 이미 존재하는 웹검색 멏 관련 연구를 살펴보는 것이 연구의 이해에 도움이 될 것이다. 먼저 웹 문서에서 용어를 추출하기 위해 HTML 대 그를 이용하는 다수의 연구가 존재한다.
개선되어야 할 문제가 존재한다. 첫째, 웹 문서의 서식을 정확히 분석하여 다양한 마크업 패턴을 추출하는 문제, 둘째, Multi-word 개념 추출 방법, 셋째, 다양한 질의를 통한 실험 등이 향후 연구과제로 요구된다.
참고문헌 (9)
Hodgson, J. 2001. Do HTML Tags Semantic Content? IEEE Internet Computing, 5(1):20-25
Sanderson, M. and Croft, W. B. 1999. Deriving Concept Hierarchies from text. In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 206-213, Berkeley, CA
Lawrie, D. J. and Croft, W. B. 2003. Generating Hierarchical Summaries for Web Searches. In Proceedings of the 26th Annual International ACM SIGIR conference on Research and Development in Information Retrieval, pages 457-458, Toronto, Canada
Reiner, K. and Jason, Z. 2004. Mining Anchor Text for Query Refinement. In Proceedings of WWW2004, New York, USA
Silverstein, C., Marais, H., Henzinger, M., Morics, M. 1999. Analysis of a very large web search engine query log. SIGIR Forum, 33(1):6-12
Udo, K. 2005. Intelligent Document Retrieval Exploiting Markup Structure. : Springer, Berlin Heidelberg New York
Ruth, Y. Z., Laks, V. S. L., Ruben, H. Z. 2004. Extracting Relational Data from HTML Repositories. ACM SIGKDD Explorations Newsletter, 6(2): 5-12
Kleinberg, J. M. 1998. Authoritative Sources in Hyperlinked Environment. In Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, pages 668-677, ACM
Brin, S. and Page, L. 1998. The anatomy of a largescale hypertextual web search engine. In Proceedings of the seventh international conference on World Wide Web 7 (WWW7), Brisbane, Australia
※ AI-Helper는 부적절한 답변을 할 수 있습니다.