$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

확장 불리언 질의에 대한 비용 기반 최적화
Cost-based Optimization of Extended Boolean Queries 원문보기

정보관리학회지 = Journal of the Korean society for information management, v.18 no.3 = no.41, 2001년, pp.29 - 40  

박병권 (동아대학교 경영정보과학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we suggest a query optimization algorithm to select the optimal processing method of an extended boolean query on inverted files. There can be a lot of methods for processing an extended boolean query according to the processing sequence oh the keywords con tamed in the query, In this...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 역색인 파일을 이용한 불리 언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제임을 비용 모델을 통해 알 수 있고 이 문제는 데이터베 이스 분야 의 질의 최적화 문제 중 최적 조인 순서를 구 하는 문제와 구조적으로 유사하다. 따라서 본 논문에서는 이 분야의 연구결과를 이용하여 문제를 해결하였다.
  • 비용 기반 질의 최적화를 위해서는 질의 처리비용 모델이 필요하다. 본 논문에서는 역 색 인 파일을 사용하여 확장 불리 언 질의를 처리할 경우의 비용 모델을 수립하였다. 그리고 비용모델을 기반으로 하여 키워드에 대한 순차검색 역비용지수와 탐색 비용지수를 정 의하고 이들을 이용하여 질의 최적화 알고리즘을 도춤하였다.
  • 본 논문에서는 역색인 파일을 이용한 확장 불리언 질의 최적화를 위해 비용에 기반한 체 계적인 질의 최적화를 시도하였다. 확장 불리 언 질의를 처리하는 방법은 질의를 구성하는 키워드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 이 중에서 최소 비용을 가지는 질의 처리 방법을 구하는 질의 최적화가 필요하다.
  • 따라서 새로운 포스텅을 추가할 때 항상 포스텅 리스트의 끝에 추가(append)하게 되면 포스팅 리스트는 문서식별자 순의 정렬을 유지하지 못하지만 포스팅의 추가가 간단해 져 역색인 파일의 변경 비용이 작게 든다. 본 논문에서는 이러한 역색인 파일에 대한 확장 불리언 실의 최적화를 다룬다. 먼저 확장 불 리언 질의에 대한 처리 방법이 여러 가지가 있을 수 있음을 보이고 그 중 비용이 최소가 되는 질의 처리 방법을 선정해 주는 질의 최 적화 알고리즘을 제안한다.
  • 확장 불리 언 질의를 처리하는 방법은 질의를 구성하는 키워드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 이 중에서 최소 비용을 가지는 질의 처리 방법을 구하는 질의 최적화가 필요하다. 본 논문에서는 이를 위해 질의 최적화 알고리즘을 제시하고 이의 최적성을 증명하였다. 그리고 실험을 통하여 질의 최적화를 수 행할 경우와 수행하지 않을 경우의 질의 처리 비용 비교를 통해 질의 최적화의 중요성을 입증하였다.

가설 설정

  • 역색인 파일을 이용한 불리언 질의 최적화 연구로는 Liu(1976)가 주어진 불리 언 질의와 동등한 질의 형태 중 포스팅 리스트의 병합 을 가장 호율적으로 만드는 질의 형태를 구 하는 최적화 알고리즘을 제시하였다. 본 논문에서는 Liu(1976)가 제시한 알고리즘을 통해 결정된 질의 형태를 가정하고 그 질의 형태 에서의 최적 키워드 처리 순서를 다룬다. Moffat(1996)은 압축된 포스텅 리스트에 대한 불리언 칠의 처리 속도를 높이기 위해 포 스팅 리스트 내부에 색 인 정보를 심는 방안 을 제안하였고, Tomasic(1993)은 불리언 질 의의 분산 처리 속도를 높일 수 있는 역색인 파일 저장 구조를 연구하였다.
  • 비용 파라미터들의 값을 구하기 위하여 역 색인 파일의 키워드 디렉토리를 와 같이 유지한다고 가정한다.
  • 또한 질의 최적화를 수행하는 경우와 수행하지 않는 경우의 질의 처 리비용을 서로 비교해 봄으로써 질의 최적화 의 중요성을 입증한다. 질의 처리비용은 수식(1)의 비용모델에 의하며 질의 최적화를 수 행하지 않는 경우에는 질의에 명시된 키워드 순서대로 질의를 처리한다고 가정한다.
  • 포스팅 리스트 탐색 비용은 별도의 탐색 구조를 사용하지 않으면 포스팅 리스트 순차 검색 비용과 같고, 사용하면 달라진다. 키워 드 W1과 W2는 별도의 탐색 구조를 사용하지 않고 키워드 W3은 별도의 탐색 구조를 사용 한다고 가정한다. 따라서 키워드 W1과 W2의 포스텅 리스트 탐색 비용은 포스팅 리스트 순차검색 비용과 같고, 키워드 W3의 포스팅 리스트 탐색 비용은 포스팅 리스트 순차검색 비용보다 작다.
  • <표 2>에서 보는 바와 같이 키워드 W3의 포스팅 리스트 순차검색 비용은 키워드 W2의 포스팅 리스트 순차검색 비용보다 더 크지만 별도의 탐색 구조를 사용함으 로써 키워드 W3의 포스팅 리스트 탐색 비용 은 키워드 W2의 포스팅 리스트 탐색 비용보다 더 작다. 한편, 본 실험에서는 저장된 총 문서의 개수 nP를 1,000, 000으로 가정하였다.
본문요약 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로