$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] PPFP(Push and Pop Frequent Pattern Mining): 빅데이터 패턴 분석을 위한 새로운 빈발 패턴 마이닝 방법
PPFP(Push and Pop Frequent Pattern Mining): A Novel Frequent Pattern Mining Method for Bigdata Frequent Pattern Mining 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.5 no.12, 2016년, pp.623 - 634  

이정훈 (동국대학교 전산원) ,  민연아 (가천대학교 SW중심대학사업단)

초록
AI-Helper 아이콘AI-Helper

현존하는 빈발 패턴 마이닝 방법은 대부분 시간 효율성을 목표로 하고, 물리적 메모리 사용에 매우 의존적이다. 하지만 빅데이터 시대가 도래함에 따라 실제 세상의 데이터베이스는 급속도로 증가하고 있으며, 그에 따라 기존의 방법으로 현실적인 거대한 양의 데이터를 마이닝하기에 물리적 메모리 공간이 부족한 실정이다. 이러한 문제를 해결하기 위해, 빈발 패턴 마이닝의 메모리 의존성을 줄이기 위한 보조저장장치 기반의 연구들이 진행되었으나, 메모리 기반의 방법들에 비해 처리 시간이 너무 많이 소비된다는 한계가 있었다. 따라서 확장성을 가지며, 기존의 디스크 기반의 방법들에 비해 시간효율성을 높인 새로운 빈발 패턴 마이닝이 필요하게 되었다. 본 논문에서는 빅데이터로부터 빈도 아이템 집합들을 마이닝하기 위해 메모리와 디스크를 함께 사용하는 스택 기반의 새로운 접근법인 PPFP 알고리즘을 제안하였다. PPFP는 빈발 패턴 마이닝 접근법 중 가장 인기 있고 효율적인 접근법 중 하나인 FP-growth를 기반으로 하고 있다. PPFP 마이닝 방법은 다음과 같이 두 단계로 진행된다. (1) IFP-tree 구축: FP-tree를 생성한 후, 새로운 인덱스 번호 부여 방법으로 FP-tree의 각 노드에 인덱스 번호를 부여하고, 이 인덱스 번호가 부여된 FP-tree(IFP-tree)를 테이블로 변환하여(IFP-table) 디스크에 저장한다. (2) PPFP 알고리즘을 이용한 빈발 패턴 마이닝: 스택 기반의 PUSH-POP 방식으로 패턴을 확장시켜 나가며 빈발 패턴을 마이닝한다. 이러한 방식을 통해 메모리 기반의 방법에 비해 반복적으로 많은 시간이 소모되는 연산에 매우 적은 양의 메모리를 활용하여 확장성과 함께 시간효율성 또한 향상시킬 수 있었다. 그리고 기존의 연구 방법들과 비교 실험을 통해 새로운 알고리즘의 성능을 증명하였다.

Abstract AI-Helper 아이콘AI-Helper

Most of existing frequent pattern mining methods address time efficiency and greatly rely on the primary memory. However, in the era of big data, the size of real-world databases to mined is exponentially increasing, and hence the primary memory is not sufficient enough to mine for frequent patterns...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 메모리를 적절히 활용하며 RDBMS에서 스택을 이용하여, 기존의 보조기억장치를 활용해 확장성을 높인 방법들에 비해 확장성은 유지하며 시간효율성을 향상시킨 새로운 빈발 패턴 마이닝 알고리즘을 제시하고, 실험을 통해 그 성능을 증명하였다.
  • 빈발 패턴 마이닝 문제가 제기된 이래로, 대부분의 빈발 패턴 마이닝 알고리즘들은 메모리 의존적으로 마이닝 속도와 정확성을 높이는 것을 목표로 하였다. 하지만 빅데이터 시대가 도래하며, 현실적으로 거대한 양의 마이닝을 처리하기에 인 메모리(in-memory) 기반의 알고리즘들은 한계가 있다.
  • 하지만 빅데이터 시대가 도래하며, 현실적으로 거대한 양의 마이닝을 처리하기에 인 메모리(in-memory) 기반의 알고리즘들은 한계가 있다. SQL 기반의 빈발 패턴 마이닝은 빈발 패턴 마이닝의 시간 효율성과 정확성을 향상시키기 위한 이전의 연구들과는 차별되게 확장성(scalability)을 향상시키기 위한 연구를 진행하였다. [15]의 연구는 기존의 빈발 패턴 마이닝에서 크게 이슈가 되던 FP-growth를 RDBMS에 통합시키는 방법을 제시하였다.
  • 이러한 물리적 메모리 공간의 한계를 극복하기 위해 SQL기반의 빈발 패턴 마이닝 방법이 제시되었으나, 확장성 측면에서는 만족할 만한 성능을 보이지만 기존의 메모리 기반의 방법들에 월등히 많은 시간이 소비되기 때문에 실효성이 없어 보인다. 따라서 본 논문에서는 메모리와 RDBMS를 적절히 활용하여 SQL기반의 방법에 비해 시간효율성을 높이고 FP-growth 방법에 비해 확장성을 높인 새로운 빈발 패턴 마이닝 방법을 제시한다.
  • 이 장에서는 앞서 구축한 IFP-table을 이용하여 반복적인 조건부 FP-tree의 생성 없이 빈발 패턴을 마이닝하는 방법에 대해 알아본다. PPFP 알고리즘은 본 논문에서 제시하는 빈발 패턴 마이닝 기법이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
FP-growth란 무엇인가? FP-growth는 Apriori 기반의 방법들에서 비용이 많이 드는 후보 집합의 생성을 피하기 위해 만든 접근법으로, 그 이전의 연구에 비해 매우 빠른 속도로 빈발 패턴을 마이닝할 수 있다. FP-growth에 있어서 FP-tree는 트랜잭션 데이터베이스의 빈번하지 않은 아이템들을 우선 가지치기한 후 데이터를 압축시켜 주기 때문에 FP-growth를 진행할 영역을 줄여 주고, 단 두 번의 스캔으로 트리를 구성하여 반복적인 데이터 베이스 스캔 비용을 줄여준다.
FP-tree를 이용하면 어떤 방식으로 빈발 패턴을 추출하는가? 주어진 FP-tree를 이용하면 분할-정복 방식으로 빈발 패턴을 추출할 수 있다. 이 단계는 길이가 1인 패턴(헤더 테이블에 존재하는 단일 아이템에 해당하는 패턴)으로부터 시작하여 그것의 조건부 패턴 베이스(conditional pattern base, 해당 패턴을 하위 패턴으로 포함하여 함께 발생하는 아이템들의 집합으로 구성된 부분 데이터베이스)를 생성하여 그 조건부 FP-tree(conditional FP-tree)를 생성하여 재귀적으로 패턴을 구해내는 방법이다.
FP-growth는 어떤 단계로 구성되는가? FP-growth는 두 단계로 구성된다. 첫 번째 단계는 FP-tree 를 생성하는 것이다. FP-tree는 효율적인 빈발 패턴 마이닝을 위해 트랜잭션 데이터베이스 내의 빈발 아이템 집합들을좀 더 압축시켜 FP-tree(a frequent pattern tree)라 불리는 새로운 데이터 구조에 저장하는 것이다. 두 번째 단계는 FP-tree를 이용하여 패턴을 마이닝하는 단계이다. 길이가 1인 패턴(최초의 접미 패턴)들로부터 시작하여 그것의 조건부 패턴 베이스(conditional pattern base)만을 고려하여 그것의 조건부 FP-tree(conditional FP-tree)를 반복적으로 생성하며 패턴을 찾아낸다.
질의응답 정보가 도움이 되었나요?

참고문헌 (18)

  1. R. Agrawal, T. Imieliski, and A. Swami, "Mining association rules between sets of items in large databases," in Proc. ACM SIGMOD Int. Conf. Manage. Data, pp.207-216, 1993. 

  2. R. Agrawal and R. Srikant, "Fast algorithms for mining association rules in large databases," in Proc. Int. Conf. Very Large Data Bases, pp.487-499, 1994. 

  3. A. Amir, R. Feldman, and R. Kashi, "A new and versatile method for association generation," Inf. Syst., Vol.22, No.6/7, pp.333-347, Sep.-Nov., 1997. 

  4. J. Han, J. Pei, and Y. Yin, "Mining frequent patterns without candidate generation," in Proc. ACM SIGMOD Int. Conf. Manage. Data, pp.1-12, 2000. 

  5. M. J. Zaki, "Scalable algorithms for association mining," IEEE Trans. Knowl. Data Eng., Vol.12, No.3, pp.372-390, May, 2000. 

  6. M. El-Hajj and O. R. Zaiane, "COFI approach for mining frequent item-sets revisited," in Proc. ACM SIGMOD Workshop Res. Issues Data Mining Knowl. Discovery, New York, pp.70-75, 2004. 

  7. W. Cheung and O. R. Zaiane, "Incremental mining of frequent patterns without candidate generation or support constraint," in Proc. IEEE Int. Conf. Database Eng. Appl., Los Alamitos, CA, pp.111-116, 2003. 

  8. C. K.-S. Leung, Q. I. Khan, and T. Hoque, "Cantree: A tree structure for efficient incremental mining of frequent patterns," in Proc. IEEE Int. Conf. Data Mining, Los Alamitos, CA, pp.274-308, 2005. 

  9. C. K. -S. Leung and Q. I. Khan, "DSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams," in Proc. IEEE ICDM, pp.928-932, 2006. 

  10. J. H. Lee, "IRFP-tree: Intersection Rule Based FP-tree," KIPS Transaction on Software and Data Engineering, Vol. 5, Issue 3, pp.155-164, 2016. 

  11. J.-L. Koh and S.-F. Shieh, "An efficient approach for maintaining association rules based on adjusting FP-tree structures," in Proc. DASFAA, Springer-Verlag, Berlin Heidelberg New York, pp.417-424, 2004. 

  12. G. Liu, H. Lu, J. X. Yu, W. Wang, and X. Xiao, "AFOPT: An efficient implementation of pattern growth approach," in Proc. FIMI, 2003. 

  13. M. Adan and R. Alhajj, "DRFP-tree: Disc-resident frequent pattern tree," Appl. Intell., Vol.30, No.2, pp.207-216, 2009. 

  14. M. Adan and R. Alhajj, "A Bounded and Adaptive Memory-Based Approach to Mine Frequent Patterns From Very Large Databases," IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, Issue 1, pp.154-172, 2011. 

  15. X. Shang, K.-U. Sattler, and I. Geist, "SQL Based Frequent Pattern Mining with FP-growth," in INAP/WLP, pp.32-46, 2005. 

  16. B. Goethals, "Memory issues in frequent itemset mining," in Proc. ACM SAC, pp.530-534, 2004. 

  17. R. Vaarandi, "A breadth-first algorithm for mining frequent patterns from event logs," in Proc. IEEE INTELLCOMM, pp.293-308, 2004. 

  18. G. Buehrer, S. Parthasarathy, and A. Ghoting, "Out-of-core frequent pattern mining on a commodity PC," in Proc. 12th ACM SIGKDD Int. Conf. KDD, pp.86-95, 2006. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로