[논문]평면 색인 구조에서 효율적인 k-근접 이웃 찾기

김태완; 강혜영; 이기준

평면 색인 구조에서 효율적인 k-근접 이웃 찾기
Efficient k-nn search on directory-based index structure 원문보기

김태완 (부산대학교 전자계산학과) , 강혜영 (부산대학교 전자계산학과) , 이기준 (부산대학교 전자계산학과)

최근에 제안된 VA-File［6］은 k-NN 질의 처리에서 아주 효율적이라고 알려져 있다. 제시된 방법은 분할된 데이터의 저장 효율성을 보장하지 못하기 때문에 각 차원에 할당된 비트의 수가 증가하면(비트수＝3~5) 할수륵 거의 모든 데이터에 대하여 MBH를 생성하는 단점이 있다. k-NN 질의는 거의 모든 데이터를 순차 검색을 통한 일차적 가지제거작업을 한 후. 질의를 수행하기 위한 디스크 접근을 한다. 따라서, 질의를 수행하기 위한 디스크 접근 횟수는 다른 방법들에 비하여 거의 최적에 가까운 접근 횟수를 가지나 주 기억 장치에서 최소-힘을 이용하여 수행하는 일차적 가지 제거 작업의 오버 로더는 간과되었다. 우리는 기존에 알려진 재귀적으로 공간을 두개의 부 공간으로 분할하는 방법을 사용하여 VA-File 과 같은 디렉토리 자료구조를 구축하여 k-NN 실험을 하였다. 이러한 분할된 MBH의 정방형성을 선호하는 방법은 저장 효율성을 보장한다. 실제 데이터에 대한 실험에서 우리가 실험한 간단한 방법은 디스크 접근 시간 및 CPU 시간을 합한 전체 수행시간에서 VA-File에 비하여 최대 93% 정도의 성능 향상이 있다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 응용 분야들에서 가장 중요하게 요구 되고 있는 기능들 중의 하나는 유사성 검색들 중 근접 또는 k-근접 이웃 질의이다. 근접 이웃질의에 대한 연구들은 이러한 질의처리를 효율적으로 처리 하기 위한 자료 구조를 제안한 방법들과 디스크에 기반을 둔 색인에서 질의를 처리 하는 방법들이 제안 되어 왔다 본 연구에서 우리는 디스크에 기반을 둔 색인에서 근접 이웃 질의를 처리하는 빙 법들에 대하여 연구한다.
디렉토리 구조卷 가지는 색인에서 근접 이웃질의를 처리하는 보다 랄리 처리 하는 방법에 대하여 본 연구는 기술하였다. 알고리즘의 초기 단계에서 하나의 엔트리에 포함되는 데이터를 처리하여 구성한 하이퍼 구에의하여 查의 처리를 위하여 사용되는 힙 자료 구조에 삽입되는 엔트리들의 수를 최소화 하였다、이러한 CPU 비용의 절감온 디스크 접근 비용을 충분히 보상한다.
본 논문온 다옴 장에서 평면 색인 구조의 일반적인 측징에 대하여 기술하고 본 연구애서 사용된 간단한 평면 디렉토리 생성에 대하여 기술한다. 그리고, 두 개의 잘 알려진 근접 이웃 알고리즘인 RKV 알고리즘[5] 과 HS 알고리즘을 간단히 소개 한다.

가설 설정

요약정보의 집합욜 디렉토리 라고 한다, 우리는 비교의 편의를 위하여 디렉토리의 엔트리는 (MBH, 디스크 페이지주소, 페이지개수) 구조를 가진다고 가정한다* 즉. MBH에 속한 모든 데이터는 디스크 페이지에 저장된다고 가정한다. 평면 색인 구조의한 예는 고A-File이 될 수 있다.
VA-File 온 우선 각 차원에 대하여 분할 개수 J흘 결정한다. 따라서, d 차원의 경우 2^개로 분할된 그리드 셀들이 가상적으로 존재한다고 가정하고 각 설에 데이터가 포함되면 셀에 대한 요약정보휼 생성하여 디렉토리에 삽입한다, 할당된 비트의 크기 b는 3-5 정도인 경우 근접잘의에서 좋은 성눙* 보여준다고 [6]에서 지적하였다. 그리고, 각 차원에서의 2b 개의 분할선의 선택 방법에 대한 자세한 기술온없으므로 우리는 각 차원에 대하여 동일한 개수를 가지는 2b -1개 분할선을 이응하였다.
나머지 10~11개의 차원은 분할대상 축으로 선택되지 않는다. 생성하려는 노드의 개수가 줄 이들 면 들수록(루트 노드에 가까워 질수록) 분할 축의 수는 더욱 줄어들 것이다. 이러한 사실은 트리 형태를 가지는 색인의 중간 노드들은 질의에 대하여 분 기력이 아주 저조함을 알 수 있다.
분할된 테이터는-디스크 페이지에 저장이 되며 디스크에 저장이 된 데이터에 대한 요약 정보(MBH, 최소 경계 하이퍼 입방처】)는 주기억 장치에 저장된다, 이 때. 요약정보의 집합욜 디렉토리 라고 한다, 우리는 비교의 편의를 위하여 디렉토리의 엔트리는 (MBH, 디스크 페이지주소, 페이지개수) 구조를 가진다고 가정한다* 즉. MBH에 속한 모든 데이터는 디스크 페이지에 저장된다고 가정한다.

제안 방법

RKV-알고리즘과 HS-알고리즘은 트리 형태의 색인 구조養 가지는 자료구조에 대하여 적용이 되었다, 평면 색인 구조인 경우 두 방법을 적용한 경우, RKV-알고리즘은 디렉토리에 있는 엔트리플을 접근하는 순서대로 디스크에 있는 데이터를 접근한다. HS-알고리즘온 디랙토리에 있논 엔트리듈을 최소■힙 자료구조를 이용하여 잘의 벡터 q 에 대하여 거리가 짧은 순으로 정렬한 후, 디스크에 있는 데이터를 접근한다.
따라서, d 차원의 경우 2^개로 분할된 그리드 셀들이 가상적으로 존재한다고 가정하고 각 설에 데이터가 포함되면 셀에 대한 요약정보휼 생성하여 디렉토리에 삽입한다, 할당된 비트의 크기 b는 3-5 정도인 경우 근접잘의에서 좋은 성눙* 보여준다고 [6]에서 지적하였다. 그리고, 각 차원에서의 2b 개의 분할선의 선택 방법에 대한 자세한 기술온없으므로 우리는 각 차원에 대하여 동일한 개수를 가지는 2b -1개 분할선을 이응하였다. 색인에 근거한 k-NN 알고리즘들온 RKV-알고리즘, HS-알고리즘 놀이 있다.
디렉토리 생성에 대하여 기술한다. 그리고, 두 개의 잘 알려진 근접 이웃 알고리즘인 RKV 알고리즘[5] 과 HS 알고리즘을 간단히 소개 한다. 그리고, 3장에서 VA-File 에서 제시한 NOA 방법 및 우리의 TP 방법에 대하여 기술한다.
9T;Me 9 차원의 색상 모멘트데이터이고 16-CT눈 16차원의 색상 질감 데이터 이고 32-CH 데이터논 32차원의 색상 히스토그램 데이터이다. 이러한 데이터 집합들은 여러 연구들에서 실험에 공통적으로 많이 이용한다, 질의 집합은 각각 데이터 집합에서 임의로 1000개의 점 데이터를 추츨한후, 이들을 이용하여 k 근첨 질의를 수행하였다. 개수 k의 값은 10으로 하였다, N0A는 VA*ile에 의하여 생성된 엔트리에 대하여 적용 되었고, TP는 EC 방법을 적용하였다.

대상 데이터

우리는 개수(N=68040)가 동일한 실제 데이터 집합에 대한 실험을 하였다. 9T;Me 9 차원의 색상 모멘트데이터이고 16-CT눈 16차원의 색상 질감 데이터 이고 32-CH 데이터논 32차원의 색상 히스토그램 데이터이다.

이론/모형

이러한 데이터 집합들은 여러 연구들에서 실험에 공통적으로 많이 이용한다, 질의 집합은 각각 데이터 집합에서 임의로 1000개의 점 데이터를 추츨한후, 이들을 이용하여 k 근첨 질의를 수행하였다. 개수 k의 값은 10으로 하였다, N0A는 VA*ile에 의하여 생성된 엔트리에 대하여 적용 되었고, TP는 EC 방법을 적용하였다. 결과는 표2에서 보여준다.

성능/효과

알고리즘의 초기 단계에서 하나의 엔트리에 포함되는 데이터를 처리하여 구성한 하이퍼 구에의하여 查의 처리를 위하여 사용되는 힙 자료 구조에 삽입되는 엔트리들의 수를 최소화 하였다、이러한 CPU 비용의 절감온 디스크 접근 비용을 충분히 보상한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

평면 색인 구조에서 효율적인 k-근접 이웃 찾기
Efficient k-nn search on directory-based index structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

평면 색인 구조에서 효율적인 k-근접 이웃 찾기 Efficient k-nn search on directory-based index structure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

평면 색인 구조에서 효율적인 k-근접 이웃 찾기
Efficient k-nn search on directory-based index structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper