World Wide Web의 대중화로 인해 전자 정보량이 급속하게 증가하였고, 이러한 많은 양의 다양한 정보에 대한 효율적인 검색 시스템의 필요성이 증대되었다. 정확한 검색 결과를 제공하기 위해 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 웹 검색 방법에 있어서 목표 검색어만을 가지고 검색을 수행하는 기존 검색 방법과 달리 검색어가 나타나는 문맥 정보를 추가하여 검색하는 방법을 제안하고 구현하였다. 또한 본 논문에서는 제안된 새로운 키워드 추출 방법으로 추출된 키워드를 기반으로 키워드 마이닝 프로파일에 기반한 웹 검색 시스템을 제안하고 구현하였다. 이는 원하는 정보를 대표하는 목표 검색어만 가지고 검색을 수행하는 기존의 검색방법과 달리 검색어가 포함된 문맥정보를 추가하여 검색하기 때문에 기존의 검색방법보다 정확하고 효율적인 정보를 제공한다. 특정 도메인으로부터 순위가 매겨진 도메인 키워드 리스트를 작성하여 이를 기준으로 기존의 출현빈도기반의 차이를 실험을 통하여 보였으며, 예제 기반 질의를 바탕으로 키워드 마이닝 프로파일을 만들어 검색을 수행하는 검색 방법으로 이의 효용성을 실험을 통해 검증하였다.
World Wide Web의 대중화로 인해 전자 정보량이 급속하게 증가하였고, 이러한 많은 양의 다양한 정보에 대한 효율적인 검색 시스템의 필요성이 증대되었다. 정확한 검색 결과를 제공하기 위해 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 웹 검색 방법에 있어서 목표 검색어만을 가지고 검색을 수행하는 기존 검색 방법과 달리 검색어가 나타나는 문맥 정보를 추가하여 검색하는 방법을 제안하고 구현하였다. 또한 본 논문에서는 제안된 새로운 키워드 추출 방법으로 추출된 키워드를 기반으로 키워드 마이닝 프로파일에 기반한 웹 검색 시스템을 제안하고 구현하였다. 이는 원하는 정보를 대표하는 목표 검색어만 가지고 검색을 수행하는 기존의 검색방법과 달리 검색어가 포함된 문맥정보를 추가하여 검색하기 때문에 기존의 검색방법보다 정확하고 효율적인 정보를 제공한다. 특정 도메인으로부터 순위가 매겨진 도메인 키워드 리스트를 작성하여 이를 기준으로 기존의 출현빈도기반의 차이를 실험을 통하여 보였으며, 예제 기반 질의를 바탕으로 키워드 마이닝 프로파일을 만들어 검색을 수행하는 검색 방법으로 이의 효용성을 실험을 통해 검증하였다.
With the popularization of a World Wide Web (WWW), the quantity of web information has been increased. Therefore, an efficient searching system is needed to offer the exact result of diverse Information to user. Due to this reason, it is important to extract and analysis of user requirements in the ...
With the popularization of a World Wide Web (WWW), the quantity of web information has been increased. Therefore, an efficient searching system is needed to offer the exact result of diverse Information to user. Due to this reason, it is important to extract and analysis of user requirements in the distributed information environment. The conventional searching method used the only keyword for the web searching. However, the searching method proposed in this paper adds the context information of keyword for the effective searching. In addition, this searching method extracts keywords by the new keyword extraction method proposed in this paper and it executes the web searching based on a keyword mining profile generated by the extracted keywords. Unlike the conventional searching method which searched for information by a representative word, this searching method proposed in this paper is much more efficient and exact. This is because this searching method proposed in this paper is searched by the example based query included content information as well as a representative word. Moreover, this searching method makes a domain keyword list in order to perform search quietly. The domain keyword is a representative word of a special domain. The performance of the proposed algorithm is analyzed by a series of experiments to identify its various characteristic.
With the popularization of a World Wide Web (WWW), the quantity of web information has been increased. Therefore, an efficient searching system is needed to offer the exact result of diverse Information to user. Due to this reason, it is important to extract and analysis of user requirements in the distributed information environment. The conventional searching method used the only keyword for the web searching. However, the searching method proposed in this paper adds the context information of keyword for the effective searching. In addition, this searching method extracts keywords by the new keyword extraction method proposed in this paper and it executes the web searching based on a keyword mining profile generated by the extracted keywords. Unlike the conventional searching method which searched for information by a representative word, this searching method proposed in this paper is much more efficient and exact. This is because this searching method proposed in this paper is searched by the example based query included content information as well as a representative word. Moreover, this searching method makes a domain keyword list in order to perform search quietly. The domain keyword is a representative word of a special domain. The performance of the proposed algorithm is analyzed by a series of experiments to identify its various characteristic.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
문서의 키워드는 문서의 내용을 대표하는 단어로써 정확한 키워드를 추출하는 것은 웹검색 시스템의 효율성을 극대화시킨다. 따라서 기존의 빈도기반 키워드 추출방식[18-2이의 단점을 극복하기 위하여 본 논문에서는 스타일에 기반한 가중치 부여방식을 고려한 새로운 키워드 추출방식을 제안한다. 문서의 단어들 중에서 전체적인 스타일과 다른 스타일을 가진 단어들은 중요한 의미를 가지거나 강조하고자 하는 단어일 확률이 높기 때문에 이러한 스타일의 차이에 따른 단어의 중요도를 파악하여 키워드를 추출하는 것을 스타일 기반 키워드추출 방법이라고 정의한다.
이는 사용자가 찾고자 하는 내용을 대표하는 실제 웹 페이지들을 질의로 선택하게 함으로써 이루어지며, 질의는 웹 페이지들을 직접 방문하며 질의에 포함될 페이지들을 선택하여 완성한다. 따라서, 본 논문은 스타일 기반 키워드 추출방법을 제안하고 이의 유효성을 실험을 통해 검증하였다. 또한 이 스타일 기반 키워드 추출방법을 기반으로 키워드 마이닝 기반 웹 검색 시스템을 설계하고 구현하였으며 이에 대한 검증을 수행하였다.
만약 질의가 하나의 페이지로 구성되어 진다면 페이지를 대표하는 키워드 집합을 프로파일로 선택할 수 있다. 본 논문에서는 검색의 정확성을 높이기 위하여 다수의 예제를 질의로 선택함으로써 다수의 페이지들로부터 프로파일을 생성하여 많은 데이터로부터 유용한 요약을 찾아낸다. 이때 프로파일을 생성하기 위하여 데이터마이닝 기법중의 하나인 Apriori 알고리즘[13]을 사용한다.
사이트의 한 로그가 일정길이 이상의 패턴을 만족시킬때 프로파일을 만족하는 로그로 판정한다. 본 논문에서는 로그와 패턴의 매치도 판정의 정확성을 높이기 위하여 매치패턴비율, 매치 단어 수, 패턴 지지도, 매치패턴 포인트 비율, 구간별 매치 패턴 지지도 비율, 구간별 단어매치율의 6가지 비교 기준 항목을 제안한다.
이때 집합 S에서 집합 C를 뺀 차집합 PQS-C)는 검색어가 포함되어 있으나 사용된 의미의 상이함으로 인해 원치 않는 결과 문서의 집합이다. 본 논문에서는 이를 부정 (negative)에러 집합이라고 정의하며 부정에러집합을 줄이는 것을 목표로 한다.
본 논문에서는 제안된 알고리즘을 다양한 관점에서 평가하기 위하여 여러가지 실험을 수행하였다. 또한 키워드 추출 및 생성된 프로파일에 대한 다양한 실험을 수행하기 위하여 서로 다른 두 종류의 도메인으로 실험을 수행하였다.
본 논문에서는 키워드를 추출하기 위하여 기존의 빈도 기반 키워드 추출 방법을 바탕으로 하는 스타일 기반 키워드추출 방법을 제안하였다. 스타일 기반 키워드 추출방법은 문서의 스타일을 분석하여 이를 기반으로 중요도를 판정하고 가중치를 부여한다.
이와 같은 6가지 비교 항목들을 기반으로 질의와의 유사 여부를 판정할 기준을 세우기 위해 질의 사이트에 대한 검사를 수행한다. 사이트 단위로 각 항목의 값을 계산하여 전체 질의 사이트에 대한 평균과 표준편차를 구하고, 구해진 평균과 표준편차를 기반으로 질의와의 유사 여부를 판정한다.
가설 설정
는 ", '.값들이 표준정규분포를 이룬다고 가정하고 정규화를 수행하여 구한다. 값들의 평균과 표준편차를 각각 FYag와 FVe 라고 정의하면, F, .
제안 방법
검색을 수행할 때 사용자가 찾고자 하는 키워드뿐만 아니라 키워드가 포함되어 있는 문맥정보를 포함하여 검색을 수행하면 부정에러집합을 줄일 수 있기 때문에 대상 영역질의뿐만 아니라 대상영역 질의에 내용영역 질의도 포함한 질의도 고려하였다. (그림 1)에서와 같이 대상영역은 기존검색 방법에서 사용되는 목표 검색어와 동일한 의미를 갖는 찾고자 하는 내용을 나타내며, 내용영역은 대상영역을 포함하는 문맥정보를 표현하기 때문에 내용영역을 통하여 대상 영역의 정확한 의미를 정의할 수 있으며, 부정 에러 집합을 줄일 수 있다.
있다. 구글(goo이e)에서 질의 사이트의 대상영역 프로파일의 키워드들로 검색을 수행하여 검색한 결과에서 원치 않는 결과 사이트를 추출하여 이를 부정에러집합으로 설정하고, 검색 결과에서 부정에러집합의 포함율을 측정하였다. (그림 15), (그림 16), (그림 17)은 과 DO-WUN2에서 차례로 내용영역 프로파일, 대상영역 프로파일, 내용영역-대상영역 프로파일에 대한 부정에러집합의 실험 결과를 나타낸다.
기존의 키워드 추출방법들은 모두 출현빈도에 동일한 가중치를 부여하였다. 그러나 본 논문에서 제안하는 스타일 기반 키워드 추출방법은 단어의 출현빈도를 모두 동일하게 보지 않고 적용된 스타일에 따라 가중치를 부여하여 출현빈도를 계산한다.<표 1>의 7가지 스타일 항목별로 각각 정규화하여 계산된 가중치를 합하여 단어의 가중치를 고려한 줄현빈도를 구한다.
비교실험을 수행하였다. 도메인내의 모든 페이지별로 키워드를 추출하여 스타일 기반과 출현빈도 기반으로 비교 실험을 수행하였으며, 결과의 정확성을 검증하기 위하여 양적비교와 질적비교로 나누어 실험을 수행하였다. 양적 비교란 추출된 페이지 키워드중에서 도메인 키워드에 포함되는 비율을 측정한 것으로 비율이 높을수록 도메인 키워드가 많이 추출되어진 것이기 때문에 정확한 키워드를 추출했다고 판단할 수 있다.
두 번째 방법은 글꼴 종류(Font Farmly), 글꼴 스타일(Font Style), 색 (Color), 글자정열(Text Align), 글자장식 (Text Decoration)과 같이 스타일 인스턴스의 값에 따른 중요도를 판단할 수 없는 경우 스타일 인스턴스가 적용된 단어수를 기반으로 중요도를 판단하는 방법이다. 이는 적용된 단어가 적을수록 중요한 의미를 나타낸다고 판단하는 것이다.
또한 검색의 정확성을 높이기 위하여 내용 영역과 대상영역간의 의미관계를 파악하여 검색에 이용한다. 따라서 본 논문에서 제안하는 검색방법은 내용영역 프로파일, 대상영역 프로파일, 내용영역-대상영역 프로파일의 세 가지 프로파일을 생성하여 이를 기반으로 검색을 수행한다.
그러나 이러한 기존의 키워드 추출 방법들은 문서의 스타일을 고려하지 않고 모두 출현 빈도에 동일한 가중치를 부여하였기 때문에 문서 작성자의 의도를 반영하지 못하는 단점이 있다. 따라서 본 논문에서 제안하는 스타일 기반 키워드 추출방법은 단어의 출현 빈도를 모두 동일하게 보지 않고 적용된 스타일에 따라 가중치를 부여하여 출현빈도를 계산한다.
문서 구조화를 통해 문서의 내용을 대표하는 키워드의 추출여부가 효율적인 웹 검색의 중요한 조건이다. 따라서 본 논문에서 제안하는 스타일 기반 키워드 추출방법은 문서를 이루는 단어들 중에서 문서의 전반적인 스타일에서 벗어나는 스타일을 가진 단어들을 키워드로 추출한다. 왜냐하면 다른 스타일을 가진 단어는 중요한 의미를 가지고 있거나 강조하고자 하는 단어일 가능성이 높기 때문이다.
키워드의 순위를 계산할 때 한 사이트 내의 여러 페이지에 출현한 단어들은 한 페이지를 대표하는 단어가 아니라 일반적인 단어일 가능성이 높기 때문에 낮은 가중치를 부여해야 한다. 따라서 사이트 키워드의 가중치는 전체 페이지 수를 키워드가 줄현한 페이지 수로 나누어 계산하고, 사이트 키워드 가중치의 평균을 도메인 키워드 가중치로 하여 순위를 계산한다.
실험을 통하여 키워드를 추출할 때 양적으로 많은 키워드를 추출하는 것보다 질적으로 우수한 키워드를 추출하는 것이 정확성이 높기 때문에 스타일 기반 키워드추출 방법은 매우 우수한 방법임을 증명하였다. 또한 스타일 기반의 키워드 추출 방법을 기반으로 내용영역 정보를 고려한 프로파일을 생성하여 키워드 마이닝 프로파일 기반의 웹 검색 시스템을 제안하고 구현하였다. 이때 질의는 단어기반의 질의가 아닌 예제 기반 질의로 검색을 수행할 수 있도록 하였으며 이를 손쉽게 정의하도록 하였다.
따라서, 본 논문은 스타일 기반 키워드 추출방법을 제안하고 이의 유효성을 실험을 통해 검증하였다. 또한 이 스타일 기반 키워드 추출방법을 기반으로 키워드 마이닝 기반 웹 검색 시스템을 설계하고 구현하였으며 이에 대한 검증을 수행하였다.
양적 비교란 추출된 페이지 키워드중에서 도메인 키워드에 포함되는 비율을 측정한 것으로 비율이 높을수록 도메인 키워드가 많이 추출되어진 것이기 때문에 정확한 키워드를 추출했다고 판단할 수 있다. 또한 질적비교는 도메인 키워드에 포함된 키워드의 순위를 결정한 후 순위의 평균을 계산하여 비교를 수행한다. 평균순위가 작을수록 추출된 키워드의 도메인 순위가 높기 때문에 정확한 키워드를 추출했다고 판단할 수 있다.
위하여 여러가지 실험을 수행하였다. 또한 키워드 추출 및 생성된 프로파일에 대한 다양한 실험을 수행하기 위하여 서로 다른 두 종류의 도메인으로 실험을 수행하였다. 첫 번째 도메인은 미국의 대학 기숙사 페이지로써 DOMAIN 1 이라고 한다.
키워드 마이닝 프로파일 기반 웹검색은 다음의 단계에 의하여 수행되어진다. 먼저 검색자가 찾고자 하는 정보와 유사한 내용을 가지고 있는 웹 문서들을 예제기반 질의로 제공하여 로그를 추출한다. 둘째로 추출된 로그에 데이터 마이닝 기법을 적용하여 프로파일을 생성한다.
본 논문에서 제안하는 스타일 기반 키워드 추출방법 (Key word Extraction based on the Style : KES)의 효율성을 검증하기 위하여 기존에 제안된 단어의 출현빈도 기반 키워드(Keyword Extraction based on the Frequency : KEF) 추출 방법과 비교실험을 수행하였다. 도메인내의 모든 페이지별로 키워드를 추출하여 스타일 기반과 출현빈도 기반으로 비교 실험을 수행하였으며, 결과의 정확성을 검증하기 위하여 양적비교와 질적비교로 나누어 실험을 수행하였다.
웹 페이지의 구조분석을 통하여 페이지의 전체 또는 일부분을 선택한 후 키워드를 추출하는 과정이다. 본 논문에서 제안한 스타일 기반 키워드 추출방법을 사용하여 키워드를 추출하며, 키워드 추출은 먼저 (그림 5)와 같이 내용을 선택한 후에 상단의 'Get'버튼을 누르면 선택된 영역으로부터 키워드를 추출한다. 키워드가 선택된 결과는 (그림 6)과 같다.
따라서 스타일기반 키워드추출 방법은 각 Text Formatting 태그별로 가중치를 계산하지 않고 최종 결과물로서 브라우저 상에서 실제로 표시되는 스타일로부터 가중치(weight)를 계산한다. 본 논문에서는 스타일을 [12]에서 제안한 7가지 항목으로 나누어 각 항목별로 가중치를 부여한다. 7가지의 스타일 항목은 다음의<표 1>과 같다.
수행한다. 사이트 단위로 각 항목의 값을 계산하여 전체 질의 사이트에 대한 평균과 표준편차를 구하고, 구해진 평균과 표준편차를 기반으로 질의와의 유사 여부를 판정한다. 이때 각 매치도 항목에 대한 평균을 기준값으로 설정하고, rre 시스템에 주어진 상수, 。는 매치도의 표준편차라고 할 때 기준값에서 매치 범위인儿X。이내로 떨어져 있다면 매치한다고 판정한다.
세 가지 프로파일에 대한 매치도 판정을 위하여 4.3에서 제안한 6가지의 비교 기분 항목 중 패턴매치비율(MPK), 매치단어 et(MWC), 패턴.지지도CPS), 매치패턴 포인트 비율(MPPR)을 키워드만을 이용하여 매치도를 판정하는 방법(ke舛ord)과 비교를 수행하였다.
스타일 기반 키워드 추출방법을 통하여 추출된 키워드를 바탕으로 프로파일을 생성하고, 생성된 프로파일 기반으로 웹 검색을 수행한다. 이때 본 논문에서는 키워드 마이닝 프로파일 기반 웹 검색을 사용한다.
검색을 수행한다. 이때 본 논문에서는 키워드 마이닝 프로파일 기반 웹 검색을 사용한다. 키워드 마이닝 프로파일 기반 웹 검색이란 먼저 검색자가 찾고자 하는 정보와 유사한 내용을 포함하는 웹 문서들을 예제기반 질의로 제공하고 이로부터 로그를 추출한 후 추출된 로그에 데이터 마이닝 기법을 적용하여 프로파일을 만들고 이를 바탕으로 웹을 검색하여 이와 유사한 문서들을 찾는 방법이다.
이와같이 다양한 스타일이 적용된 HTML문서를 검색할 때 문서에 사용된 스타일로부터 작성자의 의도를 파악하여 결과를 제공하면 검색 결과의 정확성을 높일 수 있으며, 불필요한 문서의 제공이 줄어들 것이다. 이를 위해 본 논문에서는 검색을 위한 키워드를 추출할 때 기존의 키워드 기반 추출 방법과 다르게 스타일 기반 키워드 추출방법을 제안한다.
이는 적용된 단어가 적을수록 중요한 의미를 나타낸다고 판단하는 것이다. 이를 위해 스타일 인스턴스의 대표값을 문서의 총 단어수에 대비하여 해당 스타일 인스턴스가 적용된 단어수의 비율로 정하고, 스타일 인스턴스가 적용된 단어수를 도수로 정하여 평균과 표준편차를 구한다. 이때 문서의 총 단어수를 TC 라고 할때, S*.
그러나 모든 키워드를 포함하는 문서는 일반적으로 그 양이 아주 작기때문에 이를 보완하기 위하여 두 번째 검색 단계에서는 키워드 빈도와 가중치를 사용하는 일반적인 문서 검색을 수행하여 문서를 검색한다. 이와같이 검색된 문서들을 문장 단위로 분리를 한 후 각각의 문장들을 대상으로 키워드를 추출한다. [20]은 불린 모델의 검색 엔진을 통하여 문서 검색을 수행한 후 검색된 문서들을 문장 단위로 분리하여 키워드를 포함하고 있는 문장을 추출한다: 추출된 각 문장들을 휴리스틱 방법을 사용하여 순위를 결정하고, 순위대로 키워드를 추출한다.
3에서 제안한 6가지의 비교 기분 항목 중 패턴매치비율(MPK), 매치단어 et(MWC), 패턴.지지도CPS), 매치패턴 포인트 비율(MPPR)을 키워드만을 이용하여 매치도를 판정하는 방법(ke舛ord)과 비교를 수행하였다. 표준편차계수는 0.
질의 사이트에 대한 프로파일이 사용자가 찾고자 하는 정보에 대한 정확한 정보를 제공하는지를 검증하기 위하여본 논문에서 제안하는 검색방법에서 기반이 되는 3가지 프로파일인 대상영역 프로파일, 내용영역 프로파일 그리고 내용 영역-대상영역 프로파일에 대하여 정확성실험을 수행하였다. 세 가지 프로파일에 대한 매치도 판정을 위하여 4.
지지도CPS), 매치패턴 포인트 비율(MPPR)을 키워드만을 이용하여 매치도를 판정하는 방법(ke舛ord)과 비교를 수행하였다. 표준편차계수는 0.25, 0.5, 0.75, 1, 1.5, 2, 3의 7가지에 대하여 실험을 수행하였다. (그림 12), (그림 13) 및 (그림 14)는 각각 순서대로 두 가지도 메인 과 Z7OMW2에 대한 내용영역 프로파일, 대상영역 프로파일 및 내용영역-대상영역 프로파일에 대한 결과이다.
대상 데이터
또 하나의 다른 도메인은 한국 구청의 민원 관련 페이지로 이를 라고 하였다. DOMAIN] 은총 18개의 대학 기숙사 도메인의 281개 웹 페이지를 대상으로 실험을 수행하였으며, DOMAIN2는 총 16개의 구청 도메인의 227개의 웹 페이지를 대상으로 실험을 수행하였다. 이때 키워드의 최소 서버 서포트는 0.
데이터처리
이때 S 昨의 정규화는 값을 표준편차로 나누어 수행한다. 스타일 인스턴스 f의 평균을 SK의 대표값으로 정의하고, 스타일 인스턴스 i가 적용된 단어수를 SC;라고 정의할 때 SC;를 도수로 보아 평균과 표준편차를 구한다. 이를 이용한 첫 번째 스타일 가중치 방법은 식 (1)과 같고, 이때 SCwg와 SCm는 평균과 표준편차를 의미한다.
질적비교의 결과를 나타낸다. 실험에서 임계값(thres hold) 을 0에서 0.9까지 변화시키면서 결과를 비교하였다. (그림 9)의 양적비교에서 페이지 키워드의 임계값이 커질수록 본 논문에서 제안하는 KES방법이 KEF방법보다 정확성이 높다는 것을 알 수 있다.
이론/모형
이때 사이트를 트랜잭션으로 키워드를 항목으로 간주하여 빈번하게 같이 출현하는 모든 빈발항목집합을 찾아서 프로파일로 선택한다. 빈발항목집합은 Apriori 알고리즘[13]을 사용하여 찾는다. 임의의 k단계에서 Apriori 알고리즘을 사용하여 빈발항목집합 L*를 찾는 방법은 다음과 같다.
[3, 4] 이 널리 사용되고 있다. 이 방법은 문서에서 추출된 단어의 중요도를 반영하기 위한 방법으로 TFx/L>F(Term Frequency Inversed Document Frequency)[2-4] 함수를 사용한다. TFxIDF 함수는 단어의 빈도수와 역 문서 빈도수를 곱하는 것으로 문서 d, .
본 논문에서는 검색의 정확성을 높이기 위하여 다수의 예제를 질의로 선택함으로써 다수의 페이지들로부터 프로파일을 생성하여 많은 데이터로부터 유용한 요약을 찾아낸다. 이때 프로파일을 생성하기 위하여 데이터마이닝 기법중의 하나인 Apriori 알고리즘[13]을 사용한다. 예제 기반 질의로부터 프로파일을 생성하는 단계는 (그림 3) 과 같이 4단계로 이루어진다.
프로파일 생성기는 로그생성기로부터 생성된 로그 파일의 최소 지지도(minimum support)를 입력받아 Apriori 알고리즘을 사용하여 로그별 프로파일을 생성한다.
성능/효과
9까지 변화시키면서 결과를 비교하였다. (그림 9)의 양적비교에서 페이지 키워드의 임계값이 커질수록 본 논문에서 제안하는 KES방법이 KEF방법보다 정확성이 높다는 것을 알 수 있다. 따라서 양적비교에서 KES 방법이 사용자에게 정확한 검색 결과를 제공한다는 것을 알 수 있다.
(그림 9)의 양적비교에서 페이지 키워드의 임계값이 커질수록 본 논문에서 제안하는 KES방법이 KEF방법보다 정확성이 높다는 것을 알 수 있다. 따라서 양적비교에서 KES 방법이 사용자에게 정확한 검색 결과를 제공한다는 것을 알 수 있다. 질적비교에서는 페이지 키워드의 임계값이 증가할수록 KES 방법이 KEF 방법보다 더 낮은 평균순위를 갖는다.
또한 키워드기반 판정방법이 프로파일 기반방법보다 더 큰 기울기를 나타낸다. 따라서 프로파일 기반방법은 매치도 결과가 기준값으로부터 멀리 떨어져 있다는 것을 알 수 있으며, 이는 부정에러집합의 매치도가 매우 낮다는 것을 의미한다. 따라서 프로파일 기반의 검색결과는 많은 양의 불필요한 부정 에러 집합을 판정하여 제외시키기 때문에 효율적임을 알 수 있다.
또한 (그림 14)의 내용영역-대상영역 프로파일의 경우 표준편차 계수가 1이하일 경우에는 프로파일 매치도를 통한 판정이 좋은 매치율을 나타내고, 1보다 클 경우에는 비슷한 결과를 나타내는 것을 알 수 있다. 세 가지 프로파일의 결과 그래프에서 키워드 기반 판정방법에 비해 프로파일 기반 판정방법의 기울기 변화가 완만함을 나타내고 있다. 이는 프로파일 기반 판정방법이 기준값에 가까이 접근하며 조밀하게 분포되어 있음을 나타내며, 질의 사이트에 대한 판정결과가 매우 우수하다는 것을 의미한다.
(그림 12), (그림 13) 및 (그림 14)는 각각 순서대로 두 가지도 메인 과 Z7OMW2에 대한 내용영역 프로파일, 대상영역 프로파일 및 내용영역-대상영역 프로파일에 대한 결과이다. 세 개의 실험결과에서 Y축은 에러로 판정된 사이트의 비율로 질의 사이트에 대한 판정결과이므로 낮을수록 정확한 결과를 제공한다고 판정할 수 있다. 또한 X축은 판정의 매치 범위를 결정하는 표준편차의 계수로써 X축의 변화에 따라 사이트 매치도의 분포를 파악할 수 있다.
스타일 기반 키워드 추출방법은 문서의 스타일을 분석하여 이를 기반으로 중요도를 판정하고 가중치를 부여한다. 스타일 기반 키워드 추출방법과 출현 회수에 기반한 키워드 추출 방법을 양적인 면과 질적인 면에서 비교하여 스타일 기반 키워드 추출방법이 더 우수함을 증명하였다. 실험을 통하여 키워드를 추출할 때 양적으로 많은 키워드를 추출하는 것보다 질적으로 우수한 키워드를 추출하는 것이 정확성이 높기 때문에 스타일 기반 키워드추출 방법은 매우 우수한 방법임을 증명하였다.
스타일 기반 키워드 추출방법과 출현 회수에 기반한 키워드 추출 방법을 양적인 면과 질적인 면에서 비교하여 스타일 기반 키워드 추출방법이 더 우수함을 증명하였다. 실험을 통하여 키워드를 추출할 때 양적으로 많은 키워드를 추출하는 것보다 질적으로 우수한 키워드를 추출하는 것이 정확성이 높기 때문에 스타일 기반 키워드추출 방법은 매우 우수한 방법임을 증명하였다. 또한 스타일 기반의 키워드 추출 방법을 기반으로 내용영역 정보를 고려한 프로파일을 생성하여 키워드 마이닝 프로파일 기반의 웹 검색 시스템을 제안하고 구현하였다.
(그림 11)에서 보듯이 KES방법의 순위 표준편차가 KEF 방법의 순위 표준편차보다 평균 순위차이 만큼 더 큰 값을 갖는다. 이는 본 논문에서 제안하는 KES방법이 넓게 분포하지만 순위는 KEE 방법보다 같거나 낮게 분포한다는 것을 의미한다. QOM4ZN2에서도 侦VI과 같은 결과를 보였다.
이때 질의는 단어기반의 질의가 아닌 예제 기반 질의로 검색을 수행할 수 있도록 하였으며 이를 손쉽게 정의하도록 하였다. 키워드 마이닝 프로파일의 유효성을 검증하기 위하여 질의에 사용된 사이트들을 대상으로 비교 실험을 수행하여 키워드만을 사용하여 판정하는 방법보다 우수하다는 것을 증명하였다.
후속연구
예를들어 강조하고 싶은 단어나 문장은 눈에 잘 띄는 색으로 표현한다거나 글꼴의 크기를 크게 하거나 글씨를 두껍게 표현할 수 있다. 이와같이 다양한 스타일이 적용된 HTML문서를 검색할 때 문서에 사용된 스타일로부터 작성자의 의도를 파악하여 결과를 제공하면 검색 결과의 정확성을 높일 수 있으며, 불필요한 문서의 제공이 줄어들 것이다. 이를 위해 본 논문에서는 검색을 위한 키워드를 추출할 때 기존의 키워드 기반 추출 방법과 다르게 스타일 기반 키워드 추출방법을 제안한다.
참고문헌 (20)
E. shakshuki and H. Ghenniwa, 'A multi-agent system architecture for information gathering,' Database and Expert Systems Applications, Proceedings, 11th International Workshop on, pp.732-736, 2000
Ricardo Baeza-Yates and Berthier Ribeiro-Neto, 'Modem Information Retrieval,' ADDISON WESLEY, pp.29- 30, 1999
I. Aalbersberg, 'A Document Retrieval Model Based on Term Frequency Ranks,' 17th international ACM SIGIR Conference on Research and Development in Information Retrieval, pp.163-172, 1994
Amit Singhal, Chris Buckley and Mandar Mitra, 'Pivoted Document Length Normalization,' Proceedings of 19th ACM International Conference on Research and Development in Information Retrieval, 1996
Cazalens S., Desmontils S., Jacquin C. and Lamarre P., 'A Web site indexing process for an Internet information retrieval agent system,' Web Information Systems Engineering 2000, Proceedings of the First International Conference on, Vol.1, pp.254-258, 2000
M. Scmidt and U. Ruckert, 'Content-based information retrieval using an embedded neural associative memory,' Parallel and Distributed Processing 2001 Proceedings, Ninth Euromicro Workshop on, pp.443-450
Weifeng Li, Baowen Xu, Hongji Yang, Cheng-Chung Chu W. and Chih-Wei Lu at Dept. of Compt. Sci. & Eng. Southeast Univ., Nanjing, China, 'Application of genetic algorithm in search engine,' Multimedia Software Engineering, Proceedings, International Symposium on, pp. 366-371, 2000
R. Weiss, B. Velez, M. Sheldon, C. Nemprempre, P. Szilagyi and D. K. Gifford, 'HyPursuit: A hierachical Network engine that exploits content-link hypertext clustering,' In Proc. Of the 7th ACM Conference on Hypertext and Hypermedia, Washington, DC, USA, pp.180-193, 1996
A. Broder, S. Glassman, M. Manasse and G. Zweig, 'Syntactic clustering of the web,' In 6th Int. WWW Conference, Snata Clara, CA, USA, pp.391-404, April, 1997
R. Agrawal and R. Srikant, 'Mining association rules between sets of items in large databases,' Proceeding of the ACM SIGMOD Conference on Management of Data, Washington, D.C., pp.207-216, May, 1993
R. Agrawal and R. Srikant, 'Fast algorithms for mining association rules,' In Proceedings of the 20th VLDB Conference, Santiago, Chile, Sept., 1994
J. S. Park, M-S. Chen and P. S. Ui, 'An effective hash-based algorithm for mining association rules,' In Proceedings of ACM SIGMOD Conference on Management of Data, San Jose, California, pp.175-186, May, 1995
A. Savasere, E. Omiencinsky and S. Navathe, 'An efficient algorithm for mining association rules in large databases,' In Proceedings of the 21th VLDB Conference, Zurich, Swizerland, pp.432-444, 1995
J. S. Park, P. S. Yu and M.-S. Chen, 'Mining Association Rules with Adjustable Accuracy,' In Proceedings of ACM CIKM '97, Las Vegas, Nevada, pp.151-160, November, 1997
S. Brin, R. Motwani, J D. Ullman and S. Tsur, 'Dynamic itemset Counting and Implication Rules for Market Basket Data,' In Proceedings of ACM SIGMOD Conference on Management of Data, Tucson, Arizona, pp.255-264, May, 1997
S. Harabagiu, D. Moldovan, M. Pasca, R. Mihalcea, M. Surdeanu, R. Bunescu, R. Girju, V. Rus and P. Morarescu, 'FALCON : Boosting Knowledge for Answer Engines,' In the Proceedings of Text REtrieval Conference (TREC-9), 2000
S. Alpha, P. Dixon, C. Liao, 'Oracle at TREC 10,' In the Proceedings of Text REtrieval Conference (TREC 2001), 2001
E. Hovy, U. Hermjakob, C-Y Lin, 'The Use of External Knowledge in Factoid QA,' In the Proceedings of Text REtrieval Conference (TREC 2001), 2001
※ AI-Helper는 부적절한 답변을 할 수 있습니다.