[논문]DNN 모델을 이용한 기계 학습 기반 k-최근접 질의 처리 최적화 기법

위지원; 최도진; 이현병; 임종태; 임헌진; 복경수; 유재수

doi:10.5392/jkca.2020.20.10.715

DNN 모델을 이용한 기계 학습 기반 k-최근접 질의 처리 최적화 기법
k-NN Query Optimization Scheme Based on Machine Learning Using a DNN Model 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.20 no.10, 2020년, pp.715 - 725

위지원 (충북대학교 정보통신공학부) , 최도진 (충북대학교 정보통신공학부) , 이현병 (충북대학교 정보통신공학부) , 임종태 (충북대학교 정보통신공학부) , 임헌진 (충북대학교 정보통신공학부) , 복경수 (원광대학교 SW융합학과) , 유재수 (충북대학교 정보통신공학부)

초록
AI-Helper

본 논문에서는 고차원의 특징 벡터에서 질의와 가장 가까운 k개의 데이터를 찾는 k-최근접 질의 최적화 방법을 제안한다. k-최근접 질의는 k개의 데이터를 포함할 가능성이 있는 범위를 기반으로 범위 질의로 변환되어 처리하는 기법이다. 본 논문에서는 처리 비용을 감소시키고 검색 속도를 가속화 할 수 있는 최적의 범위를 도출하기 위해 k-최근접 질의 처리 시 DNN 모델을 이용한 최적화 기법을 제안한다. 제안하는 기법은 온라인 모듈과 오프라인 모듈로 구성된다. 온라인 모듈에서는 클라이언트로부터 요청을 받아 실제 질의를 처리한다. 오프라인 모듈에서는 과거 최적화 기법의 결과를 학습 로그로 사용한 DNN 모델로 최적의 범위를 도출하고 온라인 모듈로 전달한다. 제안하는 기법의 우수성 및 타당성의 입증을 위하여 다양한 성능 평가를 수행한다.

Abstract ▼ AI-Helper

In this paper, we propose an optimization scheme for a k-Nearest Neighbor(k-NN) query, which finds k objects closest to the query in the high dimensional feature vectors. The k-NN query is converted and processed into a range query based on the range that is likely to contain k data. In this paper, we propose an optimization scheme using DNN model to derive an optimal range that can reduce processing cost and accelerate search speed. The entire system of the proposed scheme is composed of online and offline modules. In the online module, a query is actually processed when it is issued from a client. In the offline module, an optimal range is derived for the query by using the DNN model and is delivered to the online module. It is shown through various performance evaluations that the proposed scheme outperforms the existing schemes.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 k-최근접 질의 처리에 대한 기계 학습기반의 최적화 기법을 제안하였다. 제안한 질의 처리 최적화 기법은 기계 학습 모델 DNN을 이용하였다.
본 절에서는 기계 학습을 위한 파라미터 실험과 제안하는 최적화 기법과 기존 최적화 기법을 비교하여 타당성을 제시하고 우수성을 검증한다. 성능 평가 환경은 [표 1]과 같다.
스파크를 이용하여 오프라인에서는 사전에 k-최근접 질의를 수행하면서 얻어낸 최적의 범위의 질의점, 탐색 범위, k 값 등을 기반으로 지도(supervised)학습을 진행한다. 학습을 위해 정답 세트와 예측 세트의 차이를 평균 제곱 오차인 MSE(Mean Squared Error)을 학습을 통해 지속해서 줄여나가는 것을 목표로 한다. 정답 세트는 기존의 처리 비용 및 밀집도 기반으로 도출한 최적 범위를 기록한 k최근접 질의 로그를 이용한다.

제안 방법

성능 평가 환경은 [표 1]과 같다. Intel(R) Core(TM) i5-6400, 2.7GHz 4 Core 프로세서와 48G의 메인 메모리를 가진 컴퓨터 4개로 구성하여 분산 환경을 구현하였다. 운영체제는CentOs7을 사용하였다.
[9]에서는 두 자료구조의 장단점을 고려하여 결합한 하이브리드 인덱스를 구축하였다. 구축된 색인에서 k-최근접 질의 처리의 최적화를 위해 밀집도 및 질의 처리 비용을 기반으로 k-최근접을 위한 최적의 범위를 계산하는 방법을 제안하였다. 밀집도 기반의 최적화 기법은 데이터의 통계를 반영한다.
기계 학습을 이용한 타당성 입증하기 위해 MSE를 DNN 모델의 깊이별로 평가하였다. 텐서플로우를 이용하여 DNN 모델을 구현하였다.
밀집도 기반의 최적화 기법은 데이터의 통계를 반영한다. 데이터 분포를 기반으로 한 밀집도 계산 결과를 초기 탐색 범위로 지정하고 질의를 진행한다. 탐색 비용 기반의 최적화 기법은 질의 처리 시간이 통계를 반영한다.
그림에서 알 수 있듯이 ADAMAX[15]가 가장 작은 값의 MSE를 갖는다. 따라서 본 논문에서는 ADAMAX를 최적화 함수로 사용하여 모델을 생성하였다.
학습된 데이터에 대해서는 확연하게 오차가 감소하는 현상을 보이지만 전체 실험데이터에 대해서는 오차가 증가하는 현상이 발생한다. 본 논문에서는 과적합 문제를 해결하기 위해서 적절한 깊이인 6을 선택하여 평가를 진행하였다. 그 결과 효과적인 범위도출을 위한 모델을 생성할 수 있었다.
두 이미지의 유사도 검색은 한 객체를 지속해서 추적하기 위해서도 필요하다. 본 논문에서는 내용 기반 이미지 검색에서의 k최근접 질의를 처리한다. 이미지는 N차원의 벡터 데이터로 변환되어 거리공간에 표현된다.
본 논문에서는 효율적인 내용 기반 이미지 검색을 위해 k-최근접 질의 처리를 수행한다. 앞서 설명한 대로 내용 기반 이미지 검색은 객체의 특징으로 객체를 검색한다.
본 논문에서는 해당 문제점을 해결하기 위하여 기계 학습 모델을 이용한다. 이를 위해 DNN모델을 이용하며, [9]에서의 처리 과정과 비교했을 때, 비교적 빠르고 안정적인 결과를 도출하는 방법을 제안한다. 또한, [9]에서는 기존에 존재하는 데이터만 가지고 최적의 범위를 도출하기 때문에 새로운 데이터에 대한 추가 작업이 없다.
[6]에서는 k-최근접의 속도를 증가시키기 위하여 “jump method"를 제안하였다. 이를 위해 k-평균 알고리즘을 데이터에 적용하고 논문에서 제안하는 수식을 이용하여 클러스터를 생성한다. k-평균 알고리즘은 사용자가 k를 부여하면 k개의 중심을 가지게 되고, 각 데이터는 가장 가까운 중심에 할당된다.
x축은 질의의 번호이며, 차례로 질의가 입력되는 상황이다. 전체 비교는 최적화가 적용되지 않은 나이브한 방법과 밀집도 그리고 비용기반과 제안하는 기법의 질의 처리 시간을 비교하였다.
[9]과 같은 방법으로 스파크(Spark)를 이용하여 분산으로 하이브리드 색인을 구축한다. 제안하는 기법은 DNN(Deep Neural Network)[12] 모델을 이용하여 k-최근접 질의의 최적 범위를 도출하는 방법을 제안한다.
거리가 가깝다는 것은 유사한 이미지라는 것을 의미한다. 질의 처리의 수행을 위하여 [9]에서 구축된 것과 같은 색인을 사용하고, 기계 학습을 적용한 k-최근접 최적화 기법을 제안한다. [9]과 같은 방법으로 스파크(Spark)를 이용하여 분산으로 하이브리드 색인을 구축한다.
첫 번째 방법은 밀집도 기반의 최적화 기법이다. 데이터를 거리공간에 표시했을 때 두 데이터 사이의 최대거리를 계산하고, 영역에 존재하는 데이터 수를 최대거리로 나누어주면 DPR(Date Per Range)을 얻을 수 있다.
질의점 q와 k가 10으로 들어왔다고 가정할 때, 사전에 학습된 모델은 q와 k를 가지고 범위 100을 출력한다. 출력된 범위 내에 존재하는 슬레이브 모델을 필터링하여 각 슬레이브에게 질의점과 k를 전달하여 결과 후보군을 도출할 수 있도록 한다. 또한 본 방법에서는 처리 비용을 줄이기 위해 각 노드마다 다른 k값을 부여한다.
타당한 비교를 위하여 기계 학습은 처리 비용 기반 최적화와 밀도 기반 최적화 두 가지로 도출한 최적 범위 로그를 이용하여 학습하였다. [그림 6]은 임곗값을 사용하였던 처리 비용기반 최적화 기법과 비교한 결과이다.
로그는 질의와 해당 질의에 대한 기존 최적화 기법으로 도출된 질의 범위가 정답 세트로 구성되어있다. 학습 모델은 오프라인에서 로그에 기록된 K-최근접 질의 처리 로그를 이용하여 충분히 학습한다.
오프라인에서는 K-최근접 질의의 범위 최적화를 위한 DNN 모델의 학습이 진행된다. 학습을 위한 데이터를 저장할 로그를 작성하고 기계학습 모델을 구현한다. 기계 학습 모델은 기계학습 오픈소스 플랫폼 텐서플로우(Tensorflow)를 이용해 구현한다.

대상 데이터

SIFT는 이미지의 크기나 회전에 불변하는 특징을 추출한다. 데이터의 각 차원은 0에서 255까지의 값을 가지며 128차원 데이터 100만 개의 데이터 집합을 사용하였다.
최적의 MSE를 도출할 때까지 걸리는 학습 횟수를 측정하기 위해 다음과 같은 실험을 진행하였다. 본 논문에서는 총 100 epoch를 진행하였다. 실험 결과, 약 5 epoch부터 MSE가 감소세를 띄고 있다.
[그림 3]은 설명을 위해 2차원 공간으로 표현하였다. 본 논문의 실제 질의점은 128차원의 벡터이다. 질의점 q와 k가 10으로 들어왔다고 가정할 때, 사전에 학습된 모델은 q와 k를 가지고 범위 100을 출력한다.
7GHz 4 Core 프로세서와 48G의 메인 메모리를 가진 컴퓨터 4개로 구성하여 분산 환경을 구현하였다. 운영체제는CentOs7을 사용하였다. 파티션은 서버별로 2개를 할당하여 총 8개의 파티션을 생성하였다.
텐서플로우를 이용하여 DNN 모델을 구현하였다. 전체 데이터에서 80%는 학습데이터로 사용하고 20%는 정답 데이터로 사용하였다. 그림 4는 MSE 계산 결과를 보여준다.
제안한 질의 처리 최적화 기법은 기계 학습 모델 DNN을 이용하였다. 처리 비용 및 데이터 밀집도 기반의 최적화 기법을 통해 도출된 최적 범위를 학습 데이터로 사용하였다. 학습을 통한 k-최근접 질의 처리는 밀집도 및 비용 기반 최적화 기법과 비교하였다.
0에서 구현되었다. 타당한 비교를 위하여 데이터는 [9]에서 사용한 데이터를 그대로 사용하였다. 데이터 집합은 SIFT(Scale-Invariant Feature Transform)[14] 알고리즘을 사용하여 이미지의 특징 벡터를 추출하였다.

데이터처리

“CICIDS-2017” 라는 네트워크 공격이 포함된 데이터세트에 대하여 분류 및 라벨링 작업을 통해 네트워크 공격 데이터를 분류한다. 기계학습은 k-최근접 알고리즘으로 수행하고 딥러닝은 DNN을 수행한 뒤 두 방법의 결과를 비교한다. 결과를 통해 일반 k-최근접 질의와 비교했을 때 DNN의 우수함을 알 수 있다.
최적화 기법의 성능을 검증하기 위하여 기존 기법의 최적화 기법과 제안하는 최적화 기법의 평균 처리 시간을 비교하였다. 또한, [9]에서 비교하였던 인덱스를 추가로 비교하였다.
처리 비용 및 데이터 밀집도 기반의 최적화 기법을 통해 도출된 최적 범위를 학습 데이터로 사용하였다. 학습을 통한 k-최근접 질의 처리는 밀집도 및 비용 기반 최적화 기법과 비교하였다. 그 결과 처리 비용 및 밀집도 기반의 최적화 기법의 문제점을 해결할 수 있었다.

이론/모형

k-최근접 질의를 위한 범위 도출 최적화를 위해 학습모델로는 심층 신경망인 DNN모델을 사용한다. DNN 모델은 입력층(input Layer)과 출력층(output Layer) 사이에 여러 개의 은닉층(hidden Layer)이 존재하는 모델이다.
학습을 위한 데이터를 저장할 로그를 작성하고 기계학습 모델을 구현한다. 기계 학습 모델은 기계학습 오픈소스 플랫폼 텐서플로우(Tensorflow)를 이용해 구현한다. 로그는 질의와 해당 질의에 대한 기존 최적화 기법으로 도출된 질의 범위가 정답 세트로 구성되어있다.
타당한 비교를 위하여 데이터는 [9]에서 사용한 데이터를 그대로 사용하였다. 데이터 집합은 SIFT(Scale-Invariant Feature Transform)[14] 알고리즘을 사용하여 이미지의 특징 벡터를 추출하였다. SIFT는 이미지의 크기나 회전에 불변하는 특징을 추출한다.
RSSI는 AP(Acees Poing)와 지문 학습 단계에 대한 의존성이 크다. 또한, 기존의 k-NN은 이 의존성을 해결하기 위하여 k-최근접 및 DNN을 이용한다. DNN은 지문 데이터 세트를 분류하는 데에 사용된다.
결과를 통해 일반 k-최근접 질의와 비교했을 때 DNN의 우수함을 알 수 있다. 본 논문 또한 k-최근접 질의의 성능을 증대시키기 위하여 DNN을 이용한다.
둘째, 탐색 비용을 기반으로 하는 최적화 기법은 일정 최적화 값에 수렴하는 데 시간이 걸린다. 본 논문에서는 해당 문제점을 해결하기 위하여 기계 학습 모델을 이용한다. 이를 위해 DNN모델을 이용하며, [9]에서의 처리 과정과 비교했을 때, 비교적 빠르고 안정적인 결과를 도출하는 방법을 제안한다.
본 논문에서는 k-최근접 질의 처리에 대한 기계 학습기반의 최적화 기법을 제안하였다. 제안한 질의 처리 최적화 기법은 기계 학습 모델 DNN을 이용하였다. 처리 비용 및 데이터 밀집도 기반의 최적화 기법을 통해 도출된 최적 범위를 학습 데이터로 사용하였다.
기계 학습을 이용한 타당성 입증하기 위해 MSE를 DNN 모델의 깊이별로 평가하였다. 텐서플로우를 이용하여 DNN 모델을 구현하였다. 전체 데이터에서 80%는 학습데이터로 사용하고 20%는 정답 데이터로 사용하였다.

성능/효과

기계학습은 k-최근접 알고리즘으로 수행하고 딥러닝은 DNN을 수행한 뒤 두 방법의 결과를 비교한다. 결과를 통해 일반 k-최근접 질의와 비교했을 때 DNN의 우수함을 알 수 있다. 본 논문 또한 k-최근접 질의의 성능을 증대시키기 위하여 DNN을 이용한다.
둘째, 밀집도 기반의 최적화 기법에서 나타났던 문제점을 해결하여 안정적인 처리 속도를 도출할 수 있었다. 그 결과 검색 속도가 최대 5% 이상 증가했다. 또한, DNN 모델을 통해 예측한 질의 범위는 기존 기법에 비교하여 더 작은 것을 확인할 수 있었다.
학습을 통한 k-최근접 질의 처리는 밀집도 및 비용 기반 최적화 기법과 비교하였다. 그 결과 처리 비용 및 밀집도 기반의 최적화 기법의 문제점을 해결할 수 있었다. 첫째, 처리 비용 기반 최적화 기법의 문제점이었던 수렴시간을 해결할 수 있었다.
본 논문에서는 과적합 문제를 해결하기 위해서 적절한 깊이인 6을 선택하여 평가를 진행하였다. 그 결과 효과적인 범위도출을 위한 모델을 생성할 수 있었다.
하지만 기존 기법에서 실험한 결과 분산 k-d 트리는 범위 질의에서 하이브리드 인덱스와 비교하면 약 3배의 질의 처리 시간이 걸리는 반면, k-최근접 질의에서 비용 기반 최적화 기법을 추가하였을 때와 비교하였을 때 약 1초 정도의 시간 차이밖에 나지 않았다. 그러므로 범위 질의와 k-최근접 질의 모두를 고려하였을 때, 본 논문에서 제안하는 하이브리드 인덱스와 기계 학습 기반 최적화가 추가된 기법이 더 우수하다고 할 수 있다. 여러 가지 성능평가를 통해 제안하는 k-최근접 질의 최적화 기법의 타당성과 우수성을 입증할 수 있었다.
붉은색으로 표시된 그래프는 k-최근접 질의를 위한 최적화 기법을 추가한 실험 평가 결과이다. 기존 기법에서 제안한 최적화 기법인 밀집도와 비용 기반의 최적화 기법보다 본 논문에서 제안하는 기계 학습기법이 더 우수한 성능을 보이는 것을 알 수 있다. 비용기반 최적화 기법과는 큰 차이가 없는 것처럼 보이지만 4.
[그림 6]은 임곗값을 사용하였던 처리 비용기반 최적화 기법과 비교한 결과이다. 두 가지 모두 기존 기법보다 DNN 모델을 이용하였을 때 더 작은 범위를 도출하였다. 범위가 작다는 것은 탐색해야 할 후보군의 수가 상대적으로 적다는 것을 의미하므로 처리 비용을 감소시킬 수 있다.
첫째, 처리 비용 기반 최적화 기법의 문제점이었던 수렴시간을 해결할 수 있었다. 둘째, 밀집도 기반의 최적화 기법에서 나타났던 문제점을 해결하여 안정적인 처리 속도를 도출할 수 있었다. 그 결과 검색 속도가 최대 5% 이상 증가했다.
첫째, 밀집도 기반의 최적화 기법은 밀집도가 일치하는 경우에만 좋은 성능을 보이는 결과를 보였으며 평균적인 처리 시간은 매우 나쁜 것으로 나타났다. 둘째, 탐색 비용을 기반으로 하는 최적화 기법은 일정 최적화 값에 수렴하는 데 시간이 걸린다. 본 논문에서는 해당 문제점을 해결하기 위하여 기계 학습 모델을 이용한다.
그 결과 검색 속도가 최대 5% 이상 증가했다. 또한, DNN 모델을 통해 예측한 질의 범위는 기존 기법에 비교하여 더 작은 것을 확인할 수 있었다. 그러나 밀집도 및 비용 기반 최적화와 비교하여 성능은 좋아졌지만, 여전히 분산 k-d 트리보다 질의 처리시간이 좋지 않았다.
그러나 일정 값에 수렴할 때까지 시간이 필요한 것을 알 수 있다. 반면에 본 논문에서 제안한 DNN 모델 기반의 최적화 기법은 처음부터 기존에 제안한 기법에 비교하여 좋은 성능으로 일정한 성능을 유지하는 것을 확인할 수 있다. 이를 통해 기존에 제안한 기법과 비교하여 제안하는 기법은 최적의 범위를 처음부터 안정성을 가지고 도출하는 것을 알 수 있었다.
본 논문에서는 총 100 epoch를 진행하였다. 실험 결과, 약 5 epoch부터 MSE가 감소세를 띄고 있다. 이는 적은 횟수의 반복으로도 빠른 학습이 가능하다는 것을 의미한다.
그러므로 범위 질의와 k-최근접 질의 모두를 고려하였을 때, 본 논문에서 제안하는 하이브리드 인덱스와 기계 학습 기반 최적화가 추가된 기법이 더 우수하다고 할 수 있다. 여러 가지 성능평가를 통해 제안하는 k-최근접 질의 최적화 기법의 타당성과 우수성을 입증할 수 있었다.
범위가 작다는 것은 탐색해야 할 후보군의 수가 상대적으로 적다는 것을 의미하므로 처리 비용을 감소시킬 수 있다. 이를 통해 기계 학습 최적화 기법이 기존 논문에서 제안한 최적화 기법과 비교하여 우수한 성능과 안전성을 보이는 것을 확인할 수 있었다.
반면에 본 논문에서 제안한 DNN 모델 기반의 최적화 기법은 처음부터 기존에 제안한 기법에 비교하여 좋은 성능으로 일정한 성능을 유지하는 것을 확인할 수 있다. 이를 통해 기존에 제안한 기법과 비교하여 제안하는 기법은 최적의 범위를 처음부터 안정성을 가지고 도출하는 것을 알 수 있었다.
제안하는 방법은 데이터를 학습하여 범위를 도출하고 있기 때문에 데이터의 양이 적은 경우에도 효과적으로 k-최근접 질의를 수행할 수 있다. 지속적인 학습이 가능하기 때문에 다양한 이미지에 대해서도 효과적으로 검색을 수행할 수 있다.
그러나 [9]에서 제안한 최적화 방법은 최적화 기법별로 문제점을 가지고 있다. 첫째, 밀집도 기반의 최적화 기법은 밀집도가 일치하는 경우에만 좋은 성능을 보이는 결과를 보였으며 평균적인 처리 시간은 매우 나쁜 것으로 나타났다. 둘째, 탐색 비용을 기반으로 하는 최적화 기법은 일정 최적화 값에 수렴하는 데 시간이 걸린다.
그 결과 처리 비용 및 밀집도 기반의 최적화 기법의 문제점을 해결할 수 있었다. 첫째, 처리 비용 기반 최적화 기법의 문제점이었던 수렴시간을 해결할 수 있었다. 둘째, 밀집도 기반의 최적화 기법에서 나타났던 문제점을 해결하여 안정적인 처리 속도를 도출할 수 있었다.
여전히 분산 k-d 트리보다 좋지 않은 성능을 보인다. 하지만 기존 기법에서 실험한 결과 분산 k-d 트리는 범위 질의에서 하이브리드 인덱스와 비교하면 약 3배의 질의 처리 시간이 걸리는 반면, k-최근접 질의에서 비용 기반 최적화 기법을 추가하였을 때와 비교하였을 때 약 1초 정도의 시간 차이밖에 나지 않았다. 그러므로 범위 질의와 k-최근접 질의 모두를 고려하였을 때, 본 논문에서 제안하는 하이브리드 인덱스와 기계 학습 기반 최적화가 추가된 기법이 더 우수하다고 할 수 있다.
DNN은 지문 데이터 세트를 분류하는 데에 사용된다. 향상된 k-최근접 알고리즘은 인접한 AP의 수에 따라가중치를 부여하여 기존 k-최근접이 인접 AP의 영향력을 무시하던 문제점을 해결하였다. 또한, 향상된 K-최근접 알고리즘은 분류된 데이터 세트를 기반으로 최종위치를 결정한다.

후속연구

또한, 학습을 위한 사전 데이터를 준비를 위하여 사용자가 직접 최적화 기법을 선택하여 로그를 생성해야 한다는 문제점을 여전히 내포하고 있다. 향후 연구에는 분산 k-d 트리보다 더 좋은 성능을 낼 방법을 연구하고, 데이터의 형태에 따라 최적화 기법을 선정하여 로그를 출력하고 학습할 수 있는 형태의 시스템을 구성할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이미지 검색의 2가지 방법인 의미 기반 검색과 내용 기반 검색은 무엇인가?	이미지 검색은 크게 의미 기반(Semantic-based)검색과 내용 기반(Content-based) 검색으로 나뉜다. 의미 기반 이미지 검색은 태그의 키워드나 웹 사이트의 텍스트를 이용하여 검색한다. 내용 기반 이미지 검색은 객체가 가지고 있는 특징들(예를 들어 색상, 굴곡 등)을 이용하여 객체를 검색하는 기술을 일컫는다. 특징은 한 가지만 사용하여 객체를 검색할 수도 있고 여러 가지 특징을 혼합하여 사용할 수도 있다.
	k-최근접은 무엇인가?	근접 데이터를 찾는 것은 다양한 방법을 이용하여 연구되고 있다[1]. 그 중 k-NN은 k개의 값을 주어 이웃한 데이터를 k를 찾아내는 것으로 활용 분야가 매우 다양한 기본적인 알고리즘이다[2-5]. k-NN은 굉장히 효과적인 방법이지만 데이터양 또는 차원의 수에 따라 비례하여 높아지는 처리 비용이 발생하는 문제점이 존재한다.
	kd-트리는 무엇인가?	[9]에서는 kd-트리와 iDistance를 이용하여 하이브리드(Hybrid) 색인을 구축하였다. kd-트리는 k차원 의데이터를 분할하는 기법으로 이진 탐색 트리를 다차원공간으로 확장한 것이다. iDistance는 거리 기반 색인기법으로 고차원 데이터를 1차원인 거리로 표현한 뒤 B+-Tree에 색인하는 기법이다.

참고문헌 (24)

Wen Li, Ying Zhang, Yifang Sun, Wei Wang, Wenjie Zhang, and Xuemin Lin, "Approximate nearest neighbor search on high dimensional data-experiments, analyses, and improvement," IEEE Transactions on Knowledge and Data Engineering, 2019.
Abu-Aisheh, Zeina, Romain Raveaux, and Jean-Yves Ramel, "Efficient k-nearest neighbors search in graph space," Pattern Recognition Letters, Vol.134, pp.77-86, 2020.

상세보기
Yiwei Pan; Zhibin Pan, Yikun Wang, and Wei Wang, "A new fast search algorithm for exact k-nearest neighbors based on optimal triangle-inequality-based check strategy," Knowledge-Based Systems, 189, 105088, 2020.

상세보기
Zhiyin Zhang, Xiaocheng Huang, Chaotang Sun, Shaolin Zheng, Bo Hu, Jagannadan Varadarajan, Yifang Yin, Roger Zimmerman, and Guanfeng Wang, "Sextant: Grab's Scalable In-Memory Spatial Data Store for Real-Time K-Nearest Neighbour Search,", 20th IEEE International Conference on Mobile Data Management (MDM). IEEE, 2019.
Gallego, Antonio-Javier, Jorge Calvo-Zaragoza, and Juan Ramon Rico-Juan, "Insights into efficient k-Nearest Neighbor classification with Convolutional Neural Codes," IEEE Access, 2020.
Vajda, Szilard and K. C. Santosh, "A fast k-nearest neighbor classifier using unsupervised clustering," International conference on recent trends in image processing and pattern recognition. Springer, Singapore, 2016.
Peng Dai, Yuan Yang, Manyi Wang, and Ruqiang Yan, "Combination of DNN and improved KNN for indoor location fingerprinting," Wireless Communications and Mobile Computing, 2019.
K. Atefi, H. Hashim, and M. Kassim, "Anomaly Analysis for the Classification Purpose of Intrusion Detection System with K-Nearest Neighbors and Deep Neural Network," 2019 IEEE 7th Conference on Systems, Process and Control (ICSPC), Melaka, Malaysia, 2019.
최도진, 박송희, 김연동, 위지원, 이현병, 임종태, 복경수, 유재수, "스파크 환경에서 내용 기반 이미지 검색을 위한 효율적인 분산 인-메모리 고차원 색인 기법," 정보과학회논문지, 제47권, 제1호, pp. 95-108, 2020.
H. Wei, Y. Du, F. Liang, C. Zhou, Z. Liu, J. Yi, and D. Wu, "A kd tree-based Algorithm to Parallelize Kriging Interpolation of Big Spatial Data," Journal of GIScience & Remote Sensing, Vol.52, No.1, pp.40-57, 2015.

상세보기
H. V. Jagadish, B. C. Ooi, K. L. Tan, C. Yu, and R. Zhang, "iDistance: An Adaptive B+-tree based Indexing Method for Nearest Neighbor Search," Journal of Transactions on Database Systems (TODS), Vol.30, No.2, pp.364-397, 2005.

상세보기
J. Schmidhuber, "Deep Learning in Neural Networks: An Overview," Neural networks, Vol.61, pp.85-117, 2015.

상세보기
R. H. R. Hahnloser, R. Sarpeshkar, M. A. Mahowald, R. J. Douglas, and H. S. Seung, "Digital Selection and Analogue Amplification Coexist in aCortex-Inspired Silicon Circuit," Nature, Vol.405, pp.947-951,2000.

상세보기
D. G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.

상세보기
Diederik P. Kingma and Jimmy Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412-6980, 2014.
J. Maillo, S. Garcia, J. Luengo, F. Herrera, and I. Triguero, "Fast and Scalable Approaches to Accelerate the Fuzzy k-Nearest Neighbors Classifier for Big Data," in IEEE Transactions on Fuzzy Systems, Vol.28, No.5, pp.874-886, 2020.

상세보기
J. Maillo, S. Garcia, J. Luengo, F. Herrera, and I. Triguero, "Fast and Scalable Approaches to Accelerate the Fuzzy k-Nearest Neighbors Classifier for Big Data," in IEEE Transactions on Fuzzy Systems, Vol.28, No.5, pp.874-886, 2020.

상세보기
J. M. Lee, "Fast k-nearest neighbor searching in static objects," Wireless Personal Communications, Vol.93, No.1, pp.147-160, 2017.

상세보기
Utsav Sheth, Sanghamitra Dutta, Malhar Chaudhari, Haewon Jeong, Yaoqing Yang, Jukka Kohonen,Teemu Roos, Pulkit Grover, "An Application of Storage-Optimal MatDot Codes for Coded Matrix Multiplication: Fast k-Nearest Neighbors Estimation," in IEEE International Conference on Big Data, Seattle, WA, USA, pp.1113-1120, 2018.
K. Li and Jitendra Malik, "Fast k-nearest neighbour search via prioritized DCI," arXiv preprint arXiv:1703.00440, 2017.
H. C. V. Ngu and J. H. Huh, "B+-Tree Construction on Massive Data with Hadoop," Journal of the Cluster computing, Vol.22, No.1, pp.1011-1021, 2019.

상세보기
Mishra, Gaurav, and Sraban Kumar Mohanty, "A fast hybrid clustering technique based on local nearest neighbor using minimum spanning tree," Expert Systems with Applications 132,28-43, 2019.

상세보기
H. J. Jang et al. "Nearest base-neighbor search on spatial datasets," Knowledge and Information Systems, Vol.62, No.3, pp.867-897, 2020.

상세보기
D. H. Yan et al, "K-nearest Neighbors Search by Random Projection Forests," IEEE Transactions on Big Data, 2019.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증