[논문]데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색

박태수; 전석주; 이주홍; 강윤희; 최범기

[국내논문] 데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색
Finding the time sensitive frequent itemsets based on data mining technique in data streams 원문보기

정보교육학회논문지 = Journal of the Korean Association of Information Education, v.9 no.3, 2005년, pp.453 - 462

박태수 (인하대학교 컴퓨터.정보공학과) , 전석주 (서울교육대학교 컴퓨터교육과) , 이주홍 (인하대학교 컴퓨터.정보공학과) , 강윤희 (인하대학교 컴퓨터.정보공학과) , 최범기 (인하대학교 컴퓨터.정보공학과)

초록
AI-Helper

최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 대용량의 데이터에 내재되어 있는 정보를 빠른시간 내에 처리하여 새로운 지식을 창출하려는 요구가 증가하고 있다. 연속적이고 빠르게 증가하는 데이터를 지칭하는 데이터 스트림에서 데이터 마이닝 기법을 이용하여 시간이 흐름에 따라 변하고, 무한적으로 증가하는 데이터 스트림에서의 빈발항목을 찾는 연구가 활발하게 진행되고 있다. 하지만 기존의 연구들은 시간의 흐름에 따른 빈발항목 탐색방법을 적절히 제시하지 못하고 있으며 단지 집계를 이용하여 빈발항목을 탐색하고 있다. 본 논문에서는 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색하기 위한 새로운 알고리즘으로 한정적인 메모리를 고려하여 빈발항목과 부분 빈발항목만을 저장하고 시간의 흐름에 따른 빈발항목의 갱신방법에 관하여 제안하였다. 논문에서 제안하는 알고리즘의 성능은 다양한 실험을 통해서 검증된다. 제안된 방법은 웹 코스웨어로 학습하는 학생들의 행동패턴을 시간대별로 파악하여 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들의 학습효과 증진 및 지도 방향을 설정하는데 활용할 수 있다.

Abstract ▼ AI-Helper

Recently, due to technical improvements of storage devices and networks, the amount of data increase rapidly. In addition, it is required to find the knowledge embedded in a data stream as fast as possible. Huge data in a data stream are created continuously and changed fast. Various algorithms for finding frequent itemsets in a data stream are actively proposed. Current researches do not offer appropriate method to find frequent itemsets in which flow of time is reflected but provide only frequent items using total aggregation values. In this paper we proposes a novel algorithm for finding the relative frequent itemsets according to the time in a data stream. We also propose the method to save frequent items and sub-frequent items in order to take limited memory into account and the method to update time variant frequent items. The performance of the proposed method is analyzed through a series of experiments. The proposed method can search both frequent itemsets and relative frequent itemsets only using the action patterns of the students at each time slot. Thus, our method can enhance the effectiveness of learning and make the best plan for individual learning.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 기존에 연구되었던 데이터 스트림에서의 빈발항목 탐색기법에서 적용되지 않은 상대적인 빈발항목 탐색기법을 제안하였다.
때를 의미하는 것이다. 본 논문에서는 수치를 일반화시키고 계산을 간편하게 하기 위하여 상대적인 출현 빈도를 계산할 경우 소수점 첫째 자리까지 만을 고려하였다.
또한, 데이터 스트림은 데이터의 무한집합으로 정의될 수 있기 때문에 데이터 스트림에서 발생되는 모든 항목들을 저장하는 것은 불가능하다. 본 논문에서는 위와 같은 문제를 해결하기 위하여 상대적인 빈발항목이라는 개념과 FP-Tree 알고리즘을 제안하였다.
본 논문에서는 이러한 문제점을 개선하기 위해서 데이터 스트림에서 시간적 요소를 고려하여 상대적인 빈발항목을 효율적으로 탐색하는 새로운 마이닝 기법을 제안하였다.
본 절에서는 논문에서 제안된 상대적인 빈발항목과 FP-Tree에 대한 성능을 다양한 실험을 통하여 검증한다. 데이터 집합은 [1이에서 제안된 데이터 생성 방법에 따라 T10.
본 절에서는 모든 빈발항목과 상대적인 빈발항목들을 메모리에서 효율적으로 유지, 관리하는 prefix tree구조의 FP-Tree 알고리즘을 이용한 저장기법을 제안하였다.
위의 내용을 바탕으로 상대적인 빈발항목에 대하여 살펴보도록 하겠다. [그림 1]은 상대적인 빈발항목에 대한 개념도이다.

가설 설정

1. 상대적인 출현빈도가 빈발항목에 대한 상대적 인출 현빈도 보다 커야한다.

제안 방법

데이터 스트림에서 빈발항목을 탐색하기 위해서 먼저 탐색대상이 되는 데이터 집합에 대해 정의하도록 하겠다.
이 알고리즘은 데이터 집합을 최소 지지도와 최대 허용오차를 통하여 크게 빈발 항목, 부분 빈발 항목, 빈발하지 않은 항목으로 구분하며 Pattern-tree와 tilted time window를 사용한다. 또한 Pattern tree에 빈발항목을 저 장하고 tilted time window라는 고정된 크기의 윈도우를 사용하여 현 시점까지의 빈발항목을 축적하여 최근의 빈발항목의 변화를 용이하게 파악한다. 하지만 고정된 크기의 시간을 이용하기 때문에 유동적인 빈발항목을 탐색하기 어렵다.
탐색한다. 또한, FP-Tree에서 빈발항목과 부분 빈발항목을 효율적으로 관리하기 위하여 (items, 출현 빈도, TID)의 3가지 정보만을 저장한다. 그러므로 시간에 민감한 빈발항목을 탐색할 수 있으며, 빈발항목 탐색에 대한 정확도도 높일 수 있고, 한정적인 메모리를 효율적으로 사용할 수 있다.
두 번째는 빈발항목과 상대적인 빈발항목을 탐색하는 수행 시간에 대한 검증이다. 마지막으로 세 번째는 빈발항목과 부분 빈발항목을 관리하는 FP-Tree에 대한 메모리 사용량에 대한 검증한다.
본 논문에서 제안된 알고리즘은 웹 코스웨어로 학습하는 학생들의 시간적인 행동패턴 분석에 활용할 수 있다. 웹 코스웨어에는 대용량의 학생 데이터가 축적되어 있다.
본 논문에서는 위의 문제점을 효과적으로 해결하기 위하여 FP-stream[4]알고리즘에서와 같이 사전에 사용자에 의해 정의되는 최소 지지도 * V (。, 1))와 최대 지지도 오차S V (OSnin))를이용하여 단일 항목을 빈발항목, 부분 빈발항목, 빈발하지 않은 항목으로 구분하였다. 출현 빈도가 최소 지지도 이상의 값을 가질 경우는 빈발항목으로 간주하고 최소 지지도보다는 작지만 최대 지지도 오차 이상의 값을 가질 경우는 부분 빈발항목이라고 정의한다.
제 3단계는 현재의 빈발항목을 찾는 단계로 사용자의 요구에 의해 현재까지 총 빈발도수가 가장 크고 최소 지지도(乳位이상의 지지도를 갖는 항목의 (items, 출현 빈도, TID) 정보를 출력해 준다.
제안된 알고리즘에서는 전체 빈발도수와 빈발 간격에 따른 상대적인 빈발도수를 계산하고, 빈발항목과 부분 빈발항목에 따른 상대적인 빈발도수를 비교하여 간과하고 지나칠 수 있는 상대적인 빈발항목을 탐색한다. 또한, FP-Tree에서 빈발항목과 부분 빈발항목을 효율적으로 관리하기 위하여 (items, 출현 빈도, TID)의 3가지 정보만을 저장한다.

대상 데이터

I6.D1000K의 데이터 집합을 생성하여 사용하였다. 각 데이터 집합에서 T는 트랜잭션의 평균적인 길이를 의미하며, 【는 잠재적인 최대 빈발 항목의 평균적인 길이를 의미한다.

이론/모형

적절하게 변형시킨 알고리즘이다[4]. 이 알고리즘은 데이터 집합을 최소 지지도와 최대 허용오차를 통하여 크게 빈발 항목, 부분 빈발 항목, 빈발하지 않은 항목으로 구분하며 Pattern-tree와 tilted time window를 사용한다. 또한 Pattern tree에 빈발항목을 저 장하고 tilted time window라는 고정된 크기의 윈도우를 사용하여 현 시점까지의 빈발항목을 축적하여 최근의 빈발항목의 변화를 용이하게 파악한다.
한정적인 가용 메모리 공간을 사용하는 슬라이딩윈도우에 대한 빈발항목 탐색뿐만 아니라 빈발항목에 근접한 항목들까지 탐색하는 Moment 알고리즘은 CET (Closed enumeration tree) 라는 prefix tree와 유사한 트리 구조를 사용한다[7]. CET에서는최대 빈발항목과 빈발항목, 근접 빈발항목을 저장하기 때문에 시간이 흐름에 따른 빈발항목의 변화를 알아낼 수 있으며, 메모리를 효율적으로 관리하며 빈발항목을 탐색할 수 있다.

성능/효과

2. 상대적인 빈발항목의 출현 시점은 바로 이전의 상대적인 출현빈도의 값에서 현재의 상대적인 출현 빈도의 값을 거밴 결과가 0보다 작아지는 시점부터 0 보다 커지는 시점까지이다.
찾는 것이다.[5] 기존의 데이터 마이닝 기법은 정적인 트랜잭션들에 대해서 한번의 탐색으로 일정한 후보 빈발항목을 만든 후에 미리 정의된 특정 임계값 보다 높은 지지도를 가지는 빈발항목을 찾기 때문에 메모리의 사용량이 많고 처리 시간이 길다.
둘째, 데이터 스트림에서는 데이터가 매우 빠른 시간 내에 생성되고 현 시점에서의 마이닝 결과가 중요하기 때문에 마이닝 결과를 원하는 즉시 생성해 주어야 한다. 그러기 위해서는 데이터 스트림에서의 각 트랜잭션을 생성되는 즉시 오직 한번만 읽고 마이닝 결과를 즉각 생성해야 한다.
이 대용량의 학생 데이터를 기반으로 학생들의 행동패턴을 파악할 수 있다. 즉 시간대별로 행동패턴의 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들이 선호하는 학습 콘텐츠와 시간대를 확인할 수 있다. 이를 바탕으로 학생들 의지도 방향을 설정하여 학습 효과 및 능률을 증진시킬 수 있다.

후속연구

본 논문에서 제안된 방법을 이용하여 학생들이 웹 코스웨어 기반의 학습을 할 경우 시간대별로 학생들의 행동패턴을 분석하여 빈발항목 및 상대적인 빈발항목을 탐색함으로써 학생들의 학습향상을 위해 좀더 정확한 서비스를 제공할 수 있다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색
Finding the time sensitive frequent itemsets based on data mining technique in data streams 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색 Finding the time sensitive frequent itemsets based on data mining technique in data streams 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

박태수 (3) 전석주 (26) 이주홍 (36) 강윤희 (4) 최범기 (11)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 데이터 스트림에서 데이터 마이닝 기법 기반의 시간을 고려한 상대적인 빈발항목 탐색
Finding the time sensitive frequent itemsets based on data mining technique in data streams 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper