[논문]데이터 스트림 상에서 다중 연속 질의 처리를 위한 속성기반 접근 기법

이현호; 이원석

doi:10.3745/kipstd.2007.14-d.5.459

문제 정의

본 논문에서는 데이터 스트림 환경에서 다중 연속 질의를 효율적으로 처리하기 위해서 속성기반 구조체인 속성 선택체와 그것을 이용한 매칭 알고리즘을 제안하였다. 제안된 접근 방법은 대상 다중 연속 질의들의 공통된 선택 조건들을 공유함으로써 공간 사용량을 절약하였고, 질의의 선택조건에 나타난 참여 속성의 비교상수를 기준으로 한 질의의 부분적인 매칭 결과를 미리 계산하여 속성 선택체에 저장함으로써 실시간 부하를 줄었다.
질의 최적화의 본질인 불필요한 연산수행을 막기 위해서 취해지는 일반적인 질의 최적화 전략은 선택 연산(selection operations)-8: 가능한 빨리 수행하며, 여러 개의 선택 조건들 중에는 선택률이 가장 낮은 선택 조건을 먼저 적용하는 것이다. 본 논문에서는 연속 질의들의 처리시간을 줄이거나 어떤 질의에도 만족되지않는 스트림 튜플을 가능한 한 빨리 제거하기 위해서 적응적으로 속성 선택체들의 처리 순서를 결정하는 속성 선택체정렬 전략을 제안한다. 이러한 전략은 만족하지 않는 튜플이나 질의들에 의해 수행되는 불필요한 연산들을 차단함으로써 질의수행비용을 줄이는데 기여한다.
이러한 방법은 이미 대부분의 DSMS에서 적용하고 있다. 본 논문에서는 연속 질의의 집단적인 처리를 위해서 속성 선택처](Attribute Selection Construct)라는 새로운 구조를 제안한다. 주어진 연속 질의 집합에서 적어도 하나 이상의 선택 조건에 사용되는 데이터 스트림의 속성을 참여 속성(participant attribute 또는 p-attribute)라고 정의한다.
덧붙여서, 최소 속성커버 집합과 참여 속성의 질의 선택률에 따라 속성 선택체의 처리순서를 정렬하는 질의 최적화 기법을 제안하였다. 본 질의 최적화의 목적은 만족하지 않는 질의와 튜플을 가능한 한 일찍 종료하고 제거함으로써 불필요한 연산을 줄이는데 있다. 또한, 제안된 방법과 최적화 기법들을 다양한 실험을 통하여 검증하였는데, 수행된 실험을 통해 본 논문의 방법론이 합성 또는 실제 데이터 집합을 포함한 다양한 데이터 분포를 지닌 데이터 스트림에 대한 다중 연속 질의 처리에서 고루 효율적이라는 것을 보였다.
(알고리즘 1)은 데이터 스트림 〃에 대한 질의집합 Q의 매칭 프로세스를 기술한 것이다. 이 알고리즘에서는 매칭 과정에서 질의집합 Q의 질의중간결과를 저장하기 위해서 전역 비트맵 변수 GRB이 소개된다. 비트맵 변수 GRB의모든 비트들은 모두 I로 초기화된다.
본 논문의 목적은 다음과 같이 요약될 수 있다. 주어진 데이터 스트림 〃와 연속 질의 집합 Q에 대해서, 질의집합 Q에 속한 질의들의 공통 선택 조건들을 공유하고 Q에 속한 질의들을 연속적이면서 정시적인 형태로 동시 처리하기 위한 효과적인 데이터 구조와 매칭 알고리즘을 제안하고 이에 대한 적응적 최적화 방안을 제시하는 것이다 본 논문은 다음과 같이 구성되어 있다. 2장에서는 본 논문과 관련된 기존 연구들을 살펴본다.

가설 설정

질의셋은 (그림 6)의 질의셋과 동일한 것을 사용하였다. 스트림 튜플이 일정한 간격으로 도착한다는 전제하에 선택률 재계산 주기 入는 80, 000 튜플이 도착하는데 걸리는 시간으로 가정하였다. A 주기마다 현 참여 속성 시퀀스의 질의 선택률을 계산하여 4.
주어졌을 때, 질의집합。의 참여 속성들의 부분 집합 B u 에 대하여, Q6B丿를 집합 B에 속하는 속성이 적어도 한 번 이상 질의의 선택 조건에 나타난 질의들의 집합으로 가정한다. 일 때의 참여 속성집합 B를 질의 집합 Q에 대한 속성커버 집합이라 하고, 로 표기한다.

제안 방법

비교한 결과이다. (그림 6(a))는 최소 속성커버 집합에 의한 속성 선택체 정렬 방법(MACS), 참여 속성 시퀀스의 질의 선택률이 낮은 순으로 속성 선택체의 처리 순서를 결정하는 방법(SAS), 그리고 본 논문이 제시한 방법인 최소 속성커버 집합과 SAS를 결합한 방법(MACSSAS), 마지막으로 티켓 라우팅 방법을 비교하였다. 전체적으로 티켓 라우팅 방법보다 본 논문에서 제안된 방법이 좋은 성능을 보이며 특히 데이터집합 最와 以에 대해서는 MACSSAS가 훨씬 더 좋은 성능을 보인다.
제안된 접근 방법은 대상 다중 연속 질의들의 공통된 선택 조건들을 공유함으로써 공간 사용량을 절약하였고, 질의의 선택조건에 나타난 참여 속성의 비교상수를 기준으로 한 질의의 부분적인 매칭 결과를 미리 계산하여 속성 선택체에 저장함으로써 실시간 부하를 줄었다. 덧붙여서, 최소 속성커버 집합과 참여 속성의 질의 선택률에 따라 속성 선택체의 처리순서를 정렬하는 질의 최적화 기법을 제안하였다. 본 질의 최적화의 목적은 만족하지 않는 질의와 튜플을 가능한 한 일찍 종료하고 제거함으로써 불필요한 연산을 줄이는데 있다.
본 절에서는 속성 선택처](ASC)의 다양한 처리 순서에 따른 비교를 통하여 성능을 검증하였다. 각 실험에서 사용한 데이터 집합은 勿개의 속성을 가지는 5, 物, 皿개의 투플로 이루어져 있다.
속성 값은 무작위로 발생시킨 0〜釦의 값을 가지며 과 같은 속성 값의 분포를 가지는 세 종류의 데이터 집합들을 생성하였고, 와 같은 특징을 가지는 연속 질의 집합들을 사용했다.
NiagaraCQ[4]는 질의들 간의 유사 구조를 공유한다는 원칙 하에 웹 기반의 다중 연속 질의를 그룹화함으로써 인터넷 환경에서의 다중 연속 질의 처리를 가능하게 한다. 이 시스템은 XML-QL과 비슷한 질의언어를 사용하고, 질의 최적기(query optimizer)가 연속 질의들의 포맷을 분석하여 유사구조를 그룹화한다. 연속 질의들의 선택 연산이 스트림 튜플과 그룹상수 테이블(group constant table) 간의 조인을 통하여 수행되고 질의의 중간결과가 저장되어야 하기 때문에, 대상 질의들이 그룹화되어 공통연산을 공유한다고 하더라도 질의들의 특성에 따라 연산비용과 I/O 비용이 크게 증가될 수 있다.
이 실험에서는에 기술된 7개의 연속 질의 집합들을 2, 000번 수행하였으며 매 수행 시마다 속성 선택체의 처리 순서를 임의로 재비치 시켜 모든 가능한 경우가 도출되도록 하였다.
질의 수행을 스트림 데이터와 질의 간의 조인의 관점에서 바라본 또다른 연구로 [18]가 있다. 이 연구에서는 연속 질의의 문제를 다차원 공간 조인(multi dimensional spatial join) 의 문제로 변환하였다. 즉, 스트림의 데이터요소(data element)와 질의 각각에 대하여 색인 (index)를 구축하여 이를 다차원 공간에서의 영역들로 나타내고, 이 영역들 간의 공유 영역(overlapping regionX 공간조인 연산을 이용하여 구함으로써 질의를 수행한다.
이전에 결정될 수 있다. 이러한 매칭 정보를 효과적으로 저장하기 위해서 속성 선택체(Attribute Selection Construct)이라는 새로운 구조체를 제안한다. 속성 선택 체는 주어진 질의집합의 개별 참여 속성 각각에 대하여 만들어지며 질의 처리과정에서 필요한 정보를 가지고 있다.
제안된 전략은 비용 모델(cost model)에 근거한 필터의 개념적 공유 모델과 점진적이고 적응적인 필터의 순차 수행을 그 특성으로 한다. 개념적 공유 모델이라 함은 여러 질의에 존재하는 동일한 필터에 대해서 한 질의에서 수행된 필터의 수행 결과를 다른 질의들에서 재사용 함을 뜻하며, 적응적 순차 수행을 위해 처리되지 않은 필터들 중에 다음 처리될 필터를 실시간 비용분석을 통해 동적으로 결정한다.
이 연구에서는 연속 질의의 문제를 다차원 공간 조인(multi dimensional spatial join) 의 문제로 변환하였다. 즉, 스트림의 데이터요소(data element)와 질의 각각에 대하여 색인 (index)를 구축하여 이를 다차원 공간에서의 영역들로 나타내고, 이 영역들 간의 공유 영역(overlapping regionX 공간조인 연산을 이용하여 구함으로써 질의를 수행한다. 이 방법은 쿼리주도의 질의(ad-hoc query)와 데이터 주도의 질의 (continuous query)에 동일한 관점으로 적용할 수 있는 장점이 있으나, 스트림 튜플들을 일정한 정도로 모은 다음 한꺼번에 처리하는 것이 효율적이므로 스트림 튜플의 신속한 필터링이나 각 튜플에 대한 빠른 질의응답시간을 요하는 곳에는 적절하지 않을 수 있다.
참여 속성 시퀀스의 질의 선택률에 대한 동적인 변화를 유도하기 위해서 데(그림 9) 재정렬 임계치 M 값에 따른 적응적 속성 선택체 처리 순서 재정렬 효과이터 분포가 다른의 데이터 셋 玖과 D:를 번갈아 사용하면서 전체 데이터 셋 〃를 구성하였다.

대상 데이터

비교를 통하여 성능을 검증하였다. 각 실험에서 사용한 데이터 집합은 勿개의 속성을 가지는 5, 物, 皿개의 투플로 이루어져 있다. 속성 값은 무작위로 발생시킨 0〜釦의 값을 가지며 <표 1>과 같은 속성 값의 분포를 가지는 세 종류의 데이터 집합들을 생성하였고, <표 2>와 같은 특징을 가지는 연속 질의 집합들을 사용했다.

데이터처리

본 장에서는 여러 실험을 통하여 이전에 제안된 연속 질의 처리방법과 본 논문에서 제안한 연속 질의 처리 방법을 비교하여 성능을 검증하였다. 모든 실험은 1G의 램(RAM)을 가진 2.
실험 5.1 에서는 연속 질의의 그룹처리 방식에 대한 비교 실험으로 CACQ[기의 그룹필터(Grouped filter) 기법, PSoup[9] 의 홍흑 트리 (Red black tree) 기법 그리고 단순히 조건절을 연결한 연결리스트(Linked list) 기법을 본 논문에서 제안한 속성 선택체(ASC) 기법과 비교하여 효율성을 검증 하였다. 각 실험에서 사용한 데이터 집합은 하나의 속성을 가지는 5, 物物개의 튜플로 이루어졌으며 속성 값은 0〜999의 값을 무작위로 발생시켰다.

이론/모형

또한, 질의 최적화를 위한 정보를 실시간에 계속 유지해야 하고 빈번한 스케줄 변경이 발생할 수 있다는 점이 질의성능의 부담으로 작용할 수 있다. STREAMI6]에서는 필터링 순서를 정하기 위해서 조건부 필터 선택률(conditional filter selectivity)에 기초한 A-Greedy 알고리즘을 사용한다. A- Greedy의 특징은 실시간으로 모니터 된 선택률 통계에 따라 적응적으로 필터링 순서를 재정렬한다는 것이다.
Telegraph[3] 프로젝트에서 제안된 PSoup[9]은 질의의 형태를 애드혹(ad-hoc), 연속 (continuous) 그리고 혼합]hybrid)의 세가지 유형으로 나누고, 새로운 질의가 과거 데이터에도 적용되는 적응적 기법을 제시하였다. 또한, 등록된 다중 연속 질의들을 색인하기 위해서 일련의 홍흑 트리(red-black tree)군을 활용한다. 홍 흑 트리는 또한 본 논문의 속성 선택처](ASC)처럼 선택 조건에 사용된 각 속성마다 만들어진다.

성능/효과

(그림 5)의 (a)와 (b) 모두에서 선택 조건의 수가 증가함에 따라 속성 선택체 기법이 가장 좋은 성능을 보인다. 그룹 필터 기법은 선택 조건의 비동등 비교 연산에 대해 비교 상위트리 (greater-than tree) 또는 비교하위 트리 (less-than tree) 에 대한 순차 탐색을 한다.
이에 비해서 속성 선택체 기법은 선택 조건의 비교 연산 형태에 관계없이 튜플의 속성 값이 속한 영역을 찾기 위한 이진 탐색을 수행함으로 탐색 비용을 O(log 2k)까지 낮출 수 있다. 결론적으로 (그림 4)와 같이 동등 비교 연산에 대해서는 분명한 성능의 차이를 보이지 않지만, (그림 5)과 같이 비동등 비교 연산에서는 속성 선택체 기법이 다른 기법들에 비해 월등히 좋은 성능을 보인다.
본 질의 최적화의 목적은 만족하지 않는 질의와 튜플을 가능한 한 일찍 종료하고 제거함으로써 불필요한 연산을 줄이는데 있다. 또한, 제안된 방법과 최적화 기법들을 다양한 실험을 통하여 검증하였는데, 수행된 실험을 통해 본 논문의 방법론이 합성 또는 실제 데이터 집합을 포함한 다양한 데이터 분포를 지닌 데이터 스트림에 대한 다중 연속 질의 처리에서 고루 효율적이라는 것을 보였다.
1 절에 소개될 개념인 질의집합 Q 에 대한 최소 속성커버 집합(MACS)를 찾는데 활용된다. 또한, 질의 결과 비트맵을 통하여 데이터 스트림의 현재 튜플의 해당 속성값에 따라 각 질의의 그 속성에 대한 매칭 결과를 바로 확인할 수 있다.
(그림 6(a))는 최소 속성커버 집합에 의한 속성 선택체 정렬 방법(MACS), 참여 속성 시퀀스의 질의 선택률이 낮은 순으로 속성 선택체의 처리 순서를 결정하는 방법(SAS), 그리고 본 논문이 제시한 방법인 최소 속성커버 집합과 SAS를 결합한 방법(MACSSAS), 마지막으로 티켓 라우팅 방법을 비교하였다. 전체적으로 티켓 라우팅 방법보다 본 논문에서 제안된 방법이 좋은 성능을 보이며 특히 데이터집합 最와 以에 대해서는 MACSSAS가 훨씬 더 좋은 성능을 보인다. 이러한 결과가 나온 이유는 데이터 분포 형태가 Dz 또는 以와 같은 형태를 가지는 데이터 스트림에서는 질의를 처리하는 과정에서 많은 튜플 제거(tuple pruning)와 질의 종료(query terminating)가 일어날 가능성이 커서 상대적으로 더 적은 수의 속성 선택체를 방문하게 되기 때문으로 해석된다.
이는 시간적 제약이 많은 스트림 환경에서의 질의 처리에 관한 실시간 부하를 줄이는데 기여한다. 제안된 방법의 또 다른 기여점은 속성 선택체가 CACQ[기나 PSoup[9] 등 기존의 방법들과는 달리 비동등 비교 연산(non-equal comparison operation)의 수행속도와 동등 비교 연산(equal comparison operation)의 수행속도가 거의 차이가 없다는 점이다. 이것은 처리대상 스트림 튜플의 속성값은 반드시 해당 속성 선택체의 나뉘어진 영역들 중 하나에만 속하게 되고, 각 영역들은 선택 조건의 비교 연산의 유형에 상관없이 만족하는 질의들의 정보를 동일한 방식으로 가지고 있기 때문이다.
제안된 접근 방법은 대상 다중 연속 질의들의 공통된 선택 조건들을 공유함으로써 공간 사용량을 절약하였고, 질의의 선택조건에 나타난 참여 속성의 비교상수를 기준으로 한 질의의 부분적인 매칭 결과를 미리 계산하여 속성 선택체에 저장함으로써 실시간 부하를 줄었다. 덧붙여서, 최소 속성커버 집합과 참여 속성의 질의 선택률에 따라 속성 선택체의 처리순서를 정렬하는 질의 최적화 기법을 제안하였다.

후속연구

왜냐하면, 집단화나 조인 연산 또한 속성 기반의 연산 성격을 지니고 있기 때문이다. 본 논문에서 제안된 여러 가지 기법들을 바탕으로, 향후 집단화나 조인과 같은 좀 더 진전된 질의 연산 주제에 대한 처리방안을 연구하고, 나아가서는 이를 바탕으로 다중 스트림에 대한 다중 연속 질의 처리 시스템을 설계하는 것은 매우 의미 있는 일일 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

데이터 스트림 상에서 다중 연속 질의 처리를 위한 속성기반 접근 기법
Attribute-based Approach for Multiple Continuous Queries over Data Streams 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

데이터 스트림 상에서 다중 연속 질의 처리를 위한 속성기반 접근 기법 Attribute-based Approach for Multiple Continuous Queries over Data Streams 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

이원석 (38)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

데이터 스트림 상에서 다중 연속 질의 처리를 위한 속성기반 접근 기법
Attribute-based Approach for Multiple Continuous Queries over Data Streams 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper