[논문]효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법

강재호; 양재완; 정성원; 류광렬; 권혁철; 정상화

문제 정의

특히 앞에서 설명한 적 합성 피드백에 의한 질의 확장 시 이러한 상관관계의 존재는 거의 의심의 여지가 없다고 하겠다. 따라서, 본 연구에서는 같은 문서에 동시에 등장하는 빈도수가 높은 색인어들이 최대한 서로 다른 노드에 저장되도록 아 래의 그림 1에서 보인 바와 같은 색인어 군집화를 이용한 분산저장 방안을 강구하게 되었다.
따라서, 본 연구에서는 개별 질의 처리 시 부하가 최 대한 균등화될 수 있도록 색인어 역파일을 적절히 분산 시키는 방안을 강구한다. PC 클러스터는 각 노드마다 하나씩의 프로세서와 하드디스크가 있는 구조로서 각 프로세서는 자신의 하드디스크로부터 읽은 정보의 처리 를 우선적으로 담당하게 된다.
일부 노드의 사용이 불가능한 경우에도 전체 시스템의 운영이 가능하게 하는 가장 적극적인 대처방법은 전체 시스템을 복제하여 운영하는 방법이나, 이는 그 효율 에 비하여 추가 비용이 과다하게 발생하므로, 본 논문에서는 작업분배의 직접 대상이 되는 색인어 역파일을 중 복저장함으로써 시스템의 효율성과 결함포용성을 동시에 달성하고자 하였다. 병렬 정보검색 시스템에서 개별 색인어 관련 역파일 엔트리 정보를 2개 이상의 서로 다른 노드에 중복하여 저장한다면 특정 노드 결함시에도 운영이 가능하므로, 본 논문에서는 저장 공간상의 요구 가 가장 낮은 2 노드 색인어 역파일 엔트리 중복저장방 안을 연구하였다.
본 논문에서는 pc 클러스터 기반의 병릴 정보검색 시스템의 효율을 향상시키기 위하여 색인어 역파일을 PC 클러스터의 각 누드에 분산 및 중복저장하는 기법을 제시하였다. 부하 균등화를 통한 병릴도의 향상은 위해서는 한 질의 내에 동시에 등장할 가능성이 높은 색 인어들이 가능한 서로 다른 노드에 저장될 필요가 있다.
이 연구에서는 색인어간의 연관관계를 기반으로 디클러스터링(declustering) 기법을 이용하여 색인어 역파일을 분산저장함으로써 무작 위적 분산저장보다 성능향상을 이룰 수 있음을 보인 바 있다. 본 논문에서는 검색대상 자료인 색인어 역파일을 효과적으로 분산저장하기 위해서 색인어를 먼저 질의에 동시에 나타날 가능성이 높은 것들끼리 묶어 군집화 (clustering)한 후, 각 PC의 하드디스日에 나누어 할당 함으로써 병렬처리의 효율을 향상시키는 방안을 제시하고 있다. 정보검색 분야에서 유사한 군집으로 분류하는 군집화기법들을[8, 9] 이용한 연구가 상당히 진척되어 있으나, 모두 검색 결과를 문서의 측면에서 정리하여 사 용자가 원하는 문서를 보다 쉽게 찾을 수 있도록 하는데 그 초점이 맞추어진 것이지, 본 논문에서 제시하는 바와 같이 병렬검색의 효율 향상을 목표로 한 것은 아 니 다.
데이타베이스분야에서는 초기부터 이러한 연구가 활 발히 진행하여 왔으나[10, 11], 병렬정보의 특성을 반영 하여 이러한 문제에 접근한 연구는 아직 미흡한 실정이다. 본 논문에서는 실용적인 수준의 결함포용성을 제공 하기 위하여 색인어 역파일을 여러 PC에 중복하여 저 장하는 방안을 분산저장방안과 연계함으로써 실용적이 면서 효율적인 병렬정보검색시스템을 위한 색인어 역파 일 분산저장기법을 제안하고자 한다.
본 연구에서는 색인어들이 어떤 문서에서 얼마만큼의 중요도를 가지고 얼마나 동시에 등장하는지를 대량의 말뭉치를 분석하여 작성한 색인어 동시등장 가중치 행 렬을 기반으로, 관련성이 높은 색인어들을 군집화하는 CWC 알고리즘을 제시하고, 이를 이용하여 색인어들을 기존의 그리디 디클러스팅과 유사한 방식으로 각 노드 에 분산저장하는 방안을 소개하였다. 또한 실용적인 PC 클러스터 기반 병릴정보검색시스템을 운영하기 위하여 필수적으로 요구되는 결함포용성과 함께 추가의 동적 부하균형화를 달성할 수 있는 색인어 중복저장기법을 분산저장기법과 연계하여 제안하였다.
앞장에서 설명한 그림 1 방식의 성공의 관건은 결국 색인어 군집화가 얼마나 잘되느냐 하는데 있다. 본 연구에서는 일단 임의의 두 색인어에 대한 동시등장 빈도수 를 그 두 색인어를 연결하는 연결강도로 간주하여 강하 게 연결된 색인어들끼리 서로 묶이도록 해 보았다. 그러나, 초기 여러 차례 실험을 통해 관찰한 바 군집의 형성 이 지극히 불균형한 것으로 나타났다.
여러 디스크 상의 색안어 역파일 분할을 성능의 측면에서 분석한 연구로는 [4] 가 있다. 여기에서는 공유 메모리 기반 병렬컴퓨터에서 고성능 디스크 I/O를 지원 하기 위하여 디스크 어레이의 여러 디스크에 색인어 역 파일을 분할하는 방법과 이에 따른 성능를 시뮬레이션 을 통하여 평가하였다. 이 연구에서는 색인어별 또는 문 서별로 색인어 역파일을 각 디스크에 분할하는 방안을 다양한 상황에서 시뮬레이션하였고, 특히 색인어 역파일 을 색인어 단위로 분할 시, 질의에 나타날 색인어의 확 률을 고려하면 상당한 효과가 있음을 확인하였다.
일부 노드의 사용이 불가능한 경우에도 전체 시스템의 운영이 가능하게 하는 가장 적극적인 대처방법은 전체 시스템을 복제하여 운영하는 방법이나, 이는 그 효율 에 비하여 추가 비용이 과다하게 발생하므로, 본 논문에서는 작업분배의 직접 대상이 되는 색인어 역파일을 중 복저장함으로써 시스템의 효율성과 결함포용성을 동시에 달성하고자 하였다. 병렬 정보검색 시스템에서 개별 색인어 관련 역파일 엔트리 정보를 2개 이상의 서로 다른 노드에 중복하여 저장한다면 특정 노드 결함시에도 운영이 가능하므로, 본 논문에서는 저장 공간상의 요구 가 가장 낮은 2 노드 색인어 역파일 엔트리 중복저장방 안을 연구하였다.

가설 설정

, 2차노드로는 Node, 가 선정되었으며, 색인어 由의 경우에는 1차노드로 Neg 2차노드로는 Nodes이 사용되었다. 그림 6에서는 임의노드 중복저장 방안의 노드 결함 시 대처방법을 보여주고 있는데 Nod们에 문제가 발생한 경우를 가정하였다. Mx地에 있던 색인어 匕氏 Z17, 由5는 각각 Node>, Nodes, Node>„ Node」에 중복저장된 색인어를 활용함으로써 전체시스템의 지속적인 운영이 가능하다.
단방향 이웃노드 중복저장기법을 사용한 경우에는 2 개 이상의 노드가 운영중지 상황인 경우에도 서비스가 지속될 수 있는데, 본 실험에서는 가장 부하균등화가 어려운 1, 3번 노드가 동시에 사용불가능하게 된 상황을 가정하였다. 특정 노드 주위의 양쪽노드에 동시에 문제가 발생한 경우는, 해당 노드가 왼쪽 노드에서 유입되는 부하와 자신의 부하를 모두 처리해야 하므로 부하균등 화가 가장 어려운 상황이라 할 수 있다.
그림 8에는 단방향 이웃노드 중복저장방안 적용시 노드에 문제가 발생한 경우의 대처방법을 설명한다. 이 예에서는 M说1과 Not血이 동시에 결함이 발생한 경우를 가정하였다. 서로 이웃하지 않은 노드들에 문제'사 발생하였으므로 각각 Node-z, Nod幻를 활용하여 전체시스템의 지속적인 운영이 가능하다.

제안 방법

하나의 색인어 관련 역파일 정보를 2개의 서로 다른 노드에 중복저장할 때, 첫번째 노드를 1차노드, 두번째 노드를 2차노드라고 부르기로 한다. 1차노드는 시스템의 효율성을 위하여 앞 장에서의 색인어 분산저장방법을 이용하였으며, 2차노드는 효율성과 결함포용성 측면에서 여러 방안을 고안하여 실험하였다. 구체적인 2차노드의 선정방식은 1차노드와 무관한 임의의 노드에 중복저장 하는 경우와 1차노드의 단방향 이웃노드에 중복저장하는 두 가지 방안을 연구하였다.
1차노드 선정방법으로는 무작위, 그리디 및 분산저장기법실험에서 가장 좋은 성능을 보인 CWC 50/80을 사용하였다. 2차노드 선정 방법으로는 쇠장에서 설명한 임의노드 중 복저장방안과 단방향이웃노드 중복저장방안을 실험하였다. 중복저장을 이용한 기법들은 전반적으로 개별 질의 에 대해서도 부하균등화 互과가 높게 발휘되므로 중복 저장을 하지 않은 경우에 비해서 상당한 추가의 성능향 상이 이루어 짐을 알 수 있다.
1차노드는 시스템의 효율성을 위하여 앞 장에서의 색인어 분산저장방법을 이용하였으며, 2차노드는 효율성과 결함포용성 측면에서 여러 방안을 고안하여 실험하였다. 구체적인 2차노드의 선정방식은 1차노드와 무관한 임의의 노드에 중복저장 하는 경우와 1차노드의 단방향 이웃노드에 중복저장하는 두 가지 방안을 연구하였다. 임의노드 중복저장 방안 은 1차노드의 색인어 분배와는 완전히 독립된 방식으로 색인어를 중복저장하므로, 하나의 노드 결함시에 파급되는 부하의 불균형이 전반적으로 분산된다는 장점이 있으며, 단방향 이웃노드 중복저장 방안은 이웃하지 않은 2개 이상의 노드가 동시에 문제가 발생하더라도 전체 시스템 운영이 가능하다는 장점을 가지고 있다.
따라서, 본 연구에서는 기존의 군집화 알고리즘들과는 달리 추이성(transitivity)이 성립하지 않는 관계를 기반 으로도 휴리스틱하게 군집을 형성할 수 있는 CWC(Co- occurrence Weight-based Clustering) 알고리즘을 새 로이 제안하게 되었다. CWC 알고리즘의 특징은 색인어 간 연관관계에 추이성이 성립하지 않더라도 한 색인어 를 어떤 군집에 편입시킬 때 색인어가 군집 내에 이미 존재하는 다른 색인어들과 충분한 관련성이 있는지 여부를 조사한다는데 있다.
본 연구에서는 색인어들이 어떤 문서에서 얼마만큼의 중요도를 가지고 얼마나 동시에 등장하는지를 대량의 말뭉치를 분석하여 작성한 색인어 동시등장 가중치 행 렬을 기반으로, 관련성이 높은 색인어들을 군집화하는 CWC 알고리즘을 제시하고, 이를 이용하여 색인어들을 기존의 그리디 디클러스팅과 유사한 방식으로 각 노드 에 분산저장하는 방안을 소개하였다. 또한 실용적인 PC 클러스터 기반 병릴정보검색시스템을 운영하기 위하여 필수적으로 요구되는 결함포용성과 함께 추가의 동적 부하균형화를 달성할 수 있는 색인어 중복저장기법을 분산저장기법과 연계하여 제안하였다. 실험적인 시스템 으로는 비교적 대규모라 할 수 있는 5Q만 건 말뭉치를 대상으로 한 실험결과 본 연구에서 제안한 방식이 기존의 방식보다 좋은 성능을 보여 충분한 실용성이 있음을 확인하였다.
먼저 CWC 알고리즘에서 적절한 연결강도 및 연결횟 수 임계치를 선정하기 위하여 50만 건 말뭉치로부터 무 작위로 추출한 약 5만 건의 문서를 대상으로 색인어 역 파일을 만들어 실험하였다. 문서의 규모를 줄임으로써 개별 실험에 소요되는 시간이 단축되어 보다 다양한 실험을 해 볼 수 있었다.
병렬 정보검색의 효율 향상을 목적으로 저장방식을 제시한 또 다른 연구로는 [6] 가 있는데, 이 연구에서는 문서를 분류(이assification)하는 방법을 사용하여 유사한 문서들을 군집으로 묶고, 생성된 군집에 대한 색인어 역파일 구조를 추가로 도입한 계층적인 검색방법을 제 안하였다. 군집단위의 색인어 역파일을 활용하여 검색 대상문서를 여과함으로써 병렬 정보검색의 효율을 향상 시켰으나, 수작업으로 학습데이타를 준비하여야 한다는 부담과 정확도와 재현율 측면에서 기존 정보검색시스템 과는 차이가 있을 수 있으므로, 일반적인 정보검색시스 템에 손쉽게 적용될 수 있는 방법이라고 하기는 어렵다.
색인어의 군집화는 말뭉치 내에 등장하는 색인어들 중 일부만을 대상으로 하였다. 본 실험의 경우 50만 건 문서에 등장하는 총 색인어의 수는 약 470만 개이지만 이들 중 5개 이상의 문서에 등 장하는 색인어 약 56만 개만을 대상으로 동시등장 가중 치 행렬을 구성하고 CWC 알고리즘으로 군집화한 후 앞의 3.2절에서 제시한 색인어 분산저장 방법으로 8개의 노드에 분배하였다. 실제로 등장빈도가 지나치게 낮은 나머지 색인어들은 비록 그 수는 많으나 질의에 등장할 가능성이 매우 낮으므로 모두 무작위로 각 노드에 배정 하였다.
본 연구에서는 동시등장 빈도 행렬을 그대로 사용하여 색인어들을 군집화하는 대신 각 색인어가 어떤 문서 에 나타날 때 그 색인어가 그 문서에서 차지하는 중요 도를 반영하는 tfxidf 값을 가공하여 새로이 동시등장 가중치 행렬을 만들어 사용하였다. tfxidf는 특히 적합 성 피드백과 같은 질의확장기법에서 질의에 추가될 색 인어의 선정 또는 가중치 결정에 주요한 역할을 담당하 므로, 동시등장 빈도에 비해 색인어가 질의에 함께 나타 날 확률을 보다 정확하게 반영할 수 있다.
이 예에서 색 인어를 중복저장한 경우 상대적으로 높은 수준의 부하 의 평준화가 가능함을 보여주고 있다. 색인어 할당은 그 리디하게 순차적으로 부하가 낮은 노드를 선정하는 방법을 사용하였다.
실험에 는 각각 24개의 색인어를 가진 5, 000개의 질의가 사용 되었고 이들을 이용하여 병렬 검색을 실시한 결과 검색 에 소요된 누적 총 시간을 측정하여 비교하였다. 하나의 질의를 생성하는데는 적합성 피드백을 가정하여 임의로 96개 이상의 색인어를 가진 문서를 선정한 뒤 Z2 문서 에서 tfidf 값의 상위 순으로 24개의 색인어를 선택하는 방법을 사용하였다.

대상 데이터

예를 들어 색인어 £i의 경우 1차노드로 Node., 2차노드로는 Node, 가 선정되었으며, 색인어 由의 경우에는 1차노드로 Neg 2차노드로는 Nodes이 사용되었다. 그림 6에서는 임의노드 중복저장 방안의 노드 결함 시 대처방법을 보여주고 있는데 Nod们에 문제가 발생한 경우를 가정하였다.
임계치 설정에 관한 수치값 40, 50 등의 단위도 역시 %이다. 색인어의 군집화는 말뭉치 내에 등장하는 색인어들 중 일부만을 대상으로 하였다. 본 실험의 경우 50만 건 문서에 등장하는 총 색인어의 수는 약 470만 개이지만 이들 중 5개 이상의 문서에 등 장하는 색인어 약 56만 개만을 대상으로 동시등장 가중 치 행렬을 구성하고 CWC 알고리즘으로 군집화한 후 앞의 3.
실험을 위한 병렬 컴퓨팅 환경으로는 8대의 PC를 80MBps(mega bytes per second)의 SCKScalable Coherent Inter face) 기반의 고속 네트워크로 연결한 PC 클러스터 시스템을 사용하였다. 실험 대상의 대용량 말뭉치로는 5년 간의 신문기사 약 50만 건의 모음을 사용하였다. 실험에 는 각각 24개의 색인어를 가진 5, 000개의 질의가 사용 되었고 이들을 이용하여 병렬 검색을 실시한 결과 검색 에 소요된 누적 총 시간을 측정하여 비교하였다.
실험 대상의 대용량 말뭉치로는 5년 간의 신문기사 약 50만 건의 모음을 사용하였다. 실험에 는 각각 24개의 색인어를 가진 5, 000개의 질의가 사용 되었고 이들을 이용하여 병렬 검색을 실시한 결과 검색 에 소요된 누적 총 시간을 측정하여 비교하였다. 하나의 질의를 생성하는데는 적합성 피드백을 가정하여 임의로 96개 이상의 색인어를 가진 문서를 선정한 뒤 Z2 문서 에서 tfidf 값의 상위 순으로 24개의 색인어를 선택하는 방법을 사용하였다.
이상에서 설명한 색인어 군집화기법을 활용한 분산 및 중복저장 방안의 효과를 검증하기 위해 일련의 실험을 수행한 결과를 이 장에서 정리하였다. 실험을 위한 병렬 컴퓨팅 환경으로는 8대의 PC를 80MBps(mega bytes per second)의 SCKScalable Coherent Inter face) 기반의 고속 네트워크로 연결한 PC 클러스터 시스템을 사용하였다. 실험 대상의 대용량 말뭉치로는 5년 간의 신문기사 약 50만 건의 모음을 사용하였다.
문서의 규모를 줄임으로써 개별 실험에 소요되는 시간이 단축되어 보다 다양한 실험을 해 볼 수 있었다. 아래의 50만건 말뭉치를 이용한 실험은 이 5만건 문서를 대상으로 한 실험에서 가장 성 능이 좋았던 4가지 파라메터값을 이용하여 실험하였다&rsquo;

이론/모형

표 2는 다양한 색인어 역파일 중복저장 기법을 앞의 실험에서 중복저장하지 않는 무작위 분산저장 방식에 비해 그 성능이 향상된 정도를 표시하고 있다. 1차노드 선정방법으로는 무작위, 그리디 및 분산저장기법실험에서 가장 좋은 성능을 보인 CWC 50/80을 사용하였다. 2차노드 선정 방법으로는 쇠장에서 설명한 임의노드 중 복저장방안과 단방향이웃노드 중복저장방안을 실험하였다.

성능/효과

CWC 알고리즘은 실험결과 종래의 방법들처럼 군집 의 크기가 편중되지 않고 비교적 고른 형태로 형성됨을 확인할 수 있었다. 다만, 연결강도와 연결횟수 임계치의 적절한 값을 실험적으로 결정해 주어야 하는 부담이 있는 것은 결점이라 할 수 있겠다.
실제로 등장빈도가 지나치게 낮은 나머지 색인어들은 비록 그 수는 많으나 질의에 등장할 가능성이 매우 낮으므로 모두 무작위로 각 노드에 배정 하였다. 실험결과 종래의 그리디 디클러스터링 방식에 비해 CWC 기반의 저장방식이 뚜렷한 성능의 향상을 보였다. 그러나, 앞의 3.
또한 실용적인 PC 클러스터 기반 병릴정보검색시스템을 운영하기 위하여 필수적으로 요구되는 결함포용성과 함께 추가의 동적 부하균형화를 달성할 수 있는 색인어 중복저장기법을 분산저장기법과 연계하여 제안하였다. 실험적인 시스템 으로는 비교적 대규모라 할 수 있는 5Q만 건 말뭉치를 대상으로 한 실험결과 본 연구에서 제안한 방식이 기존의 방식보다 좋은 성능을 보여 충분한 실용성이 있음을 확인하였다. 향후, 지속적인 추가 문서의 유입과 변화하는 질의에 대응하여 이미 생성되어 사용되고 있는 분산 및 중복저장 구조를 저비용으로 변경하는 방안에 대한 연구가 추가적으로 요구된다.
약 50만 건의 신문기사들로 구성된 말뭉치를 활용한 실험 결과 색인어 군집화 및 분산저장 기법에 의해 사용자 질의에 포함되어 있는 검색어들을 각 PC에서 최 대한 병렬로 처리될 수 있도록 함으로써 단순한 색인어 분산저장 방식보다 검색 성능을 더욱 향상시킬 수 있음을 확인하였으며, 중복저장기법과 병용하여 분산저장한 실험에서는 의도하였던 일부노드의 정지 상황하에서의 안정적인 성능제공과 더불어, 색인어의 중복저장에 의한 병 렬검색 작업분배 의 유연 성 을 활용함으로써 부하균등화 효과도 충분함을 확인하였다.
PC 클러스터 기반의 병렬 정보검색 시스템을 제안하 면서 색인어 역파일의 효과적인 분산저장 방식을 소개 한 최근의 연구로〔기이 있다. 이 연구에서는 색인어간의 연관관계를 기반으로 디클러스터링(declustering) 기법을 이용하여 색인어 역파일을 분산저장함으로써 무작 위적 분산저장보다 성능향상을 이룰 수 있음을 보인 바 있다. 본 논문에서는 검색대상 자료인 색인어 역파일을 효과적으로 분산저장하기 위해서 색인어를 먼저 질의에 동시에 나타날 가능성이 높은 것들끼리 묶어 군집화 (clustering)한 후, 각 PC의 하드디스日에 나누어 할당 함으로써 병렬처리의 효율을 향상시키는 방안을 제시하고 있다.
여기에서는 공유 메모리 기반 병렬컴퓨터에서 고성능 디스크 I/O를 지원 하기 위하여 디스크 어레이의 여러 디스크에 색인어 역 파일을 분할하는 방법과 이에 따른 성능를 시뮬레이션 을 통하여 평가하였다. 이 연구에서는 색인어별 또는 문 서별로 색인어 역파일을 각 디스크에 분할하는 방안을 다양한 상황에서 시뮬레이션하였고, 특히 색인어 역파일 을 색인어 단위로 분할 시, 질의에 나타날 색인어의 확 률을 고려하면 상당한 효과가 있음을 확인하였다. 이후 문서별 분할과 색인어별 역파알 분할을 함께 고려하여 보다 개선한 연구로【5]이 있으나, 이러한 방법들은 분 할의 기본 요소인 색인어 또는 문서에 의해서 발생하는 작업부하를 독립적으로 가정하여, 현실적으로는 하나의 질의처리과정에서 특정 노드에 작업량이 편중될 수 있는 상황을 보다 면밀하게 반영하지 못한다는 한계를 가 진다.
특정 노드 주위의 양쪽노드에 동시에 문제가 발생한 경우는, 해당 노드가 왼쪽 노드에서 유입되는 부하와 자신의 부하를 모두 처리해야 하므로 부하균등 화가 가장 어려운 상황이라 할 수 있다. 이러한 2개 노 드의 동시결함이라는 극한 상황에서도 1차노드 선정방법으로 CWC 알고리즘을 사용하는 경우 본래 성능의 90%이상이라는 지속적인 운영이 가능한 수준으로 시비 스가 제공될 수 있음을 확인할 수 있다.

후속연구

이상과 같은 병렬 정보 검색 시스템을 실용적으로 활 용하기 위해서는 이러한 효율성 증대를 위한 노력과 더불어 서비스 제공 중에 발생할 수 있는 노드의 결함이 나 유지관리를 위해 일부 노드를 정지하여야 하는 상황 에도 적극적으로 대비할 필요가 있다. 특히 본 시스템과 같이 빠른 응답시간과 고성능올 달성하기 위하여 클러 스터에 포함된 모든 노드가 전체 작업에 참여하는 병렬 시스템의 경우, 노드 하나의 결함이 전체 시스템의 운영 중지로 이어지므로 이러한 결함포용성에 대한 중요성이 더욱 커진다.
이 연구에서는 색인어별 또는 문 서별로 색인어 역파일을 각 디스크에 분할하는 방안을 다양한 상황에서 시뮬레이션하였고, 특히 색인어 역파일 을 색인어 단위로 분할 시, 질의에 나타날 색인어의 확 률을 고려하면 상당한 효과가 있음을 확인하였다. 이후 문서별 분할과 색인어별 역파알 분할을 함께 고려하여 보다 개선한 연구로【5]이 있으나, 이러한 방법들은 분 할의 기본 요소인 색인어 또는 문서에 의해서 발생하는 작업부하를 독립적으로 가정하여, 현실적으로는 하나의 질의처리과정에서 특정 노드에 작업량이 편중될 수 있는 상황을 보다 면밀하게 반영하지 못한다는 한계를 가 진다.
실험적인 시스템 으로는 비교적 대규모라 할 수 있는 5Q만 건 말뭉치를 대상으로 한 실험결과 본 연구에서 제안한 방식이 기존의 방식보다 좋은 성능을 보여 충분한 실용성이 있음을 확인하였다. 향후, 지속적인 추가 문서의 유입과 변화하는 질의에 대응하여 이미 생성되어 사용되고 있는 분산 및 중복저장 구조를 저비용으로 변경하는 방안에 대한 연구가 추가적으로 요구된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법
Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법 Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

류광렬 (56) 권혁철 (42) 정상화 (58)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법
Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper