[논문]상이한 특성을 갖는 아이템 그룹에 대한 가중 연관 규칙 탐사

김정자; 정희택

상이한 특성을 갖는 아이템 그룹에 대한 가중 연관 규칙 탐사
Weighted Association Rule Discovery for Item Groups with Different Properties 원문보기

한국해양정보통신학회논문지 = The journal of the Korea Institute of Maritime Information & Communication Sciences, v.8 no.6, 2004년, pp.1284 - 1290

김정자 (전남대학교 자연과학대학 컴퓨터 정보학부) , 정희택 (여수대학교 인터넷 전산정보학과)

초록
AI-Helper

장바구니 분석에서, 가중 연관 규칙 탐사는 특정 상품에 대한 아이템의 중요도를 반영함으로써 더 많은 이익을 주는 정보를 규칙으로 탐사하였다. 그러나 트랜잭션을 구성하는 아이템들이 한 개 이상의 서로 다른 그룹으로 나누어진다면, 각 그룹의 특성을 반영하는 서로 다른 측정 방법으로 평가되어야 하므로 기존의 가중연관규칙 탐사 방법을 적용할 수가 없다. 본 논문에서는 이를 해결하기 위해서 가중 연관 규칙의 새로운 탐사 방법을 제안하였다. 먼저 각 아이템들은 유사한 특성에 따라 서브 그룹으로 나누고, 아이템 중요도(아이템 가중치)는 서브 그룹에 포함된 아이템들 단위로 계산한다 이때 적용되는 여러 가중 인자들은 아이템의 특성을 반영하는 아이템 그룹별로 재 정의하였다. 제안하는 방법은 네트워크 보안 데이터에 적용하여 위험을 일으키는 요소에 대한 위험 규칙 집합을 생성함으로써 네트워크 위험관리의 정성평가와, 규칙 생성 시 적용된 가중치와 같은 여러 통계인자들에 의해서 위험도를 계산함으로써 정량평가를 가능하게 하였다. 또한 데이터 아이템들이 상이하게 구별될 수 있는 특성을 만족하는 마켓 데이터의 새로운 응용분야에 넓게 적용될 수 있다.

Abstract ▼ AI-Helper

In market-basket analysis, weighted association rule(WAR) discovery can mine the rules which include more beneficial information by reflecting item importance for special products. However, when items are divided into more than one group and item importance for each group must be measured by different measurement or separately, we cannot directly apply traditional weighted association rule discovery. To solve this problem, we propose a novel methodology to discovery the weighted association rule in this paper In this methodology, the items should be first divided into sub-groups according to the properties of the items, and the item importance is defined or calculated only with the items enclosed to the sub-group. Our algorithm makes qualitative evaluation for network risk assessment possible by generating risk rule set for risk factor using network sorority data, and quantitative evaluation possible by calculating risk value using statistical factors such as weight applied in rule generation. And, It can be widely used for new model of more delicate analysis in market-basket database in which the data items are distinctly separated.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 네트워크 운영데이터와 같이 서로 다른 그룹으로 구성된 데이터에 대하여, 가중연관 규칙탐사를 적용하여 중요한 규칙을 탐사하는 새로운 방법을 제안하였다. 결과로서, 제안하는방법론은 네트워크 보안관리 측면의 위험수준의수치화에 의한 정량평가와 위험 규칙에 의한 정성평가를 가능하게 하였고 새로이 정의된 가중인자들에 의하여 위험도를 정의할 수 있는 네트워크 위험 분석 모델을 제시하였다.
그러나 트랜잭션을 구성하는 데이터 아이템의 특성이 상이할 경우 이와 같은 방법을 그대로 적용할 수 없다. 본 논문에서는 이를 해결하기 위하여 각 아이템들을 그들의 특성에 따라 여러 서브 그룹으로 나누고 각 서브 그룹의 특성에 따르는 아이템별로 가중치를 정의하는 새로운 방법론을 정의하였다

가설 설정

정의 변수이다. 제안하는 모델에서는 아이템 가중치를 계산하는데 있어서 a=l로 정의하였다. 이는 일반적으로 빈발도 《risk value 의 관계가 성립함으로 이를 논리적으로 해석하면 빈발도 보다는 해당서비스나 OS의 취약/위협이 미치는 위험 정도가 더 강조되는 것이 타당하기 때문이다.
이러한 상황에서는 기존의 가중 연관 규칙 탐사 방법을 적용할 수 없으므로 다음의 사항들을 고려하여야 한다. 첫째, 가중치의 정의이다. 대부분의 판매점 데이터베이스의 경우에서는 각 아이템에 대한 가중치가 초기치 로 미리 정의된다.
트랜잭션 가중치는정의 2에 의하여 계산된 값이다. 취약/위협 데이터베이스에서 각 트랜잭션의 아이템이 빈발하게 발생 했다는 것은 위험에 노출된 정도가 더 크다는것으로 가정하고, 이는 가중치가 더 높음을 의미한다. 데이터베이스의 각 아이템은 가중치를 갖고 각아이템의 가중치는 전체 트랜잭션에서 각 아이템이 발생한 빈발도와 아이템 중요도(significance)의합으로 정의한다.

제안 방법

또한 제안하는 가중인자들로 재 정의된 가중연관 규칙 알고리즘에 의하여 최소 가중 지지도 이상의 빈발 아이템으로 구성된 취약/위협 규칙을 생성하였다. 이때 탐사된 규칙 집합에 정의된 wsp 는 전체 트랜잭션 에서 규칙으로 생성된 중요한 아이템 집합을 정의하는 통계치 이기 때문에 이를 각 취약/위협 규칙에 대한 위험도로서 정의하였다.
본 논문에서는 네트워크 위험 관리 문제에 가중연관 규칙탐사를 적용하였다. 기존의 가중.
본 논문에서는, 네트워크 보안관리에 가중 연관규칙탐사를 적용하였다. 통신망 관리 측면에서 운영자는, 어느(what) 시스템이 어느(what) 요소에 얼마(support)만큼의 중요도(significance)를 가지고 이만큼(weight) 취약 한가'를 알고 싶다고 가정하자.
3을 갖는 WEB이라는 식의 추론을 할 수 있다. 이와 같이 제안하는 방법은 네트워크 위험 관리측면에 탐사된 규칙을 통하여 보다 의미 있는 분석을 가능하게 한다.
데이터베이스의 각 아이템은 가중치를 갖고 각아이템의 가중치는 전체 트랜잭션에서 각 아이템이 발생한 빈발도와 아이템 중요도(significance)의합으로 정의한다. 제안하는 모델에서는 표 1과 같이 각 트랜잭션의 아이템 집합 (시스템(o), 서비스 (s), 중요도(r.v))내의 아이템간의 관계가, 하나의 시스템에 대해서 제공되는 서비스가 여러 개로 구성되어 있다. 그러므로 빈발도나 가중치를 계산 시두 요소(시스템과 서비스)는 서로 다른 기준으로정의 되어야 한다.
대부분의 판매점 데이터베이스의 경우에서는 각 아이템에 대한 가중치가 초기치 로 미리 정의된다. 제안하는 방법론에서는 상이한 특성을 갖는 데이터 아이템으로 구성된 네트워크 데이터의 상황을 충분히 반영하는 타당성 있는 가중치를 정의하여야 한다. 즉 취약/위협 보고 리스트를 구성하는 각 아이템의 빈발도를 근거로 각 아이템 가중치를 재 정의하여야 하며 이는 정의 1과 정의 2 에 표현되어 있다.
제안하는 방법론은 가중 연관 규칙 탐사방법을 네트워크 위험 평가를 위한 새로운 웅용 도매인에적용함으로써 중요한 위험 패턴들을 규칙으로 탐사하였고, 새롭게 정의된 가중인자들을 사용하여 위험 규칙의 위험 수준을 정의하였다. 이는 보안투자 면에서나 네트워크 운영상의 가이드라인의 제시에 대단히 효과적으로 활용할 수 있을 것이다.
제안하는 방법론은 네트워크 서비스를 제공하는 컴퓨터 시스템에 대한 취약, 위협평가에 적용하였다. 또한 제안하는 가중인자들로 재 정의된 가중연관 규칙 알고리즘에 의하여 최소 가중 지지도 이상의 빈발 아이템으로 구성된 취약/위협 규칙을 생성하였다.
둘째, 후보 아이템으로부터 가중 연관 규칙을 생성하는 빈발 항목(large item)을 결정하는데 있어서 가중 인자(weighting factor)를적용하여 규칙을 생성시킨다는 점이다. 제안하는 방법에서는 네트워크 운영데이터에 대하여 새롭게 정의한 가중 연관 규칙 탐사 방법을 통하여 주요 위험 규칙들을 발견하였고, 규칙 탐사 시 계산된 최소 가중 지지도를 위험도로 정의하였다.
다음과 같은 차이점을 지닌다. 첫째는 각탐사 단계에서 다양한 가중인자(아이템 가중치, 트랜잭션 가중치)들을 사용하여 후보 아이템 집합을생성한다. 둘째는 여러 가중 인자들에 의하여 정의된 최소 가중 지지도를 사용하여 전정된 빈발 아이템 집합을 결정 한다 [1][4][5][6].

성능/효과

새로운 방법을 제안하였다. 결과로서, 제안하는방법론은 네트워크 보안관리 측면의 위험수준의수치화에 의한 정량평가와 위험 규칙에 의한 정성평가를 가능하게 하였고 새로이 정의된 가중인자들에 의하여 위험도를 정의할 수 있는 네트워크 위험 분석 모델을 제시하였다.
이때 탐사된 규칙 집합에 정의된 wsp 는 전체 트랜잭션 에서 규칙으로 생성된 중요한 아이템 집합을 정의하는 통계치 이기 때문에 이를 각 취약/위협 규칙에 대한 위험도로서 정의하였다. 결과적으로 제안하는 방법론은 컴퓨터 시스템의 보안 관리 측면에서 위험 수준의 질적, 양적 평가를 가능하게 하였다.
즉 취약/위협 보고 리스트를 구성하는 각 아이템의 빈발도를 근거로 각 아이템 가중치를 재 정의하여야 하며 이는 정의 1과 정의 2 에 표현되어 있다. 둘째, 후보 아이템으로부터 가중 연관 규칙을 생성하는 빈발 항목(large item)을 결정하는데 있어서 가중 인자(weighting factor)를적용하여 규칙을 생성시킨다는 점이다. 제안하는 방법에서는 네트워크 운영데이터에 대하여 새롭게 정의한 가중 연관 규칙 탐사 방법을 통하여 주요 위험 규칙들을 발견하였고, 규칙 탐사 시 계산된 최소 가중 지지도를 위험도로 정의하였다.
정의 3 : 아이템 집합의 가중 지지도로서(Weigh ted support), 규칙 X => Y를 반영하는 트랜잭션의 집합에서 X와 Y는 X u I, Y u I 이면서, item(X)Ditem(Y) =0을 만족한다. 이때 t는 twT인 트랜스잭션을 의미하며 가중지지도 wsp는 모든 트랜잭션 가중치의 합에 대해 후보 아이템들을 포함하는 트랜잭션의 가중치의 합으로 정의한다.

후속연구

이는 보안투자 면에서나 네트워크 운영상의 가이드라인의 제시에 대단히 효과적으로 활용할 수 있을 것이다. 또한 상이한 특성을 가진 데이터 아이템 그룹으로 구성된 마켓 데이터 응용 분야에 활용함으로써 더욱 정교한 분석을 위한 새로운 모델로 적용할 수 있다.
규칙의 위험 수준을 정의하였다. 이는 보안투자 면에서나 네트워크 운영상의 가이드라인의 제시에 대단히 효과적으로 활용할 수 있을 것이다. 또한 상이한 특성을 가진 데이터 아이템 그룹으로 구성된 마켓 데이터 응용 분야에 활용함으로써 더욱 정교한 분석을 위한 새로운 모델로 적용할 수 있다.

참고문헌 (11)

Feng Tao, Fionn Murtagh, Mohsen Farid 'Weighted Association Rule Mining using Weighted Support and Significance Framework', SIGKDD 2003
Feng Tao, 'Mining Binary Relationships from Transaction Data in Weighted Settings', PhD Thesis, School of Computer Science, Queen's University Belfast, UK, 2003
W. Wang, J. Yang P. Yu, 'Efficient Mining of Weighted Association Rules(WAR)', Prec. of the ACM SIGKDD Conf. on Knowledge Discovery and Data Mining, 2000, pp
C.H. Cai, Ada W.C. Fu, C.H. Cheng and W.W. Kwong, 'Mining Association Rules with Weighted Items' International Database Engineering and Application Symposium, 1998
G.D.Ramkumar, Sanjay Ranka, and Shalom Tsur, 'Weighted Association Rules : Model and Algorithm', KDD 1998
Jiawei Han and Yongjian Fu, 'Discovery of Multiple-Level Association Rules from Large Databases' in the Proceedings of the 1995 Int'l Conf. on Very Large Data Bases(VLDB'95), Zurich, Switzerland, 2002, pp. 420-431
N.Pasquier, Y.Bastide, R.Taouil, and L.Lakhal, 'Efficient Mining of Association Rules using Closed Itemset Lattices', Information Systems, Vol. 24, No.1, 1999, pp. 25-46

상세보기
E. -H. Han, G. Karypis, and V. Kumar, 'Scalable Parallel Data Mining for Association Rules', Proc. ACM SIGMOD, Tucson, U.S.A., 1997, pp. 277-288
A. Savasere, E. Omiencinsky , and S. Navathe, 'An efficient algorithm for mining association rules in large databases', In Proceedings of the 21st VLDB Conference, pp.432-444, Zurich, Swizerland, 1995
R. SriKant and R. Agrawal, 'Mining Generalized Association Rules', In Proceedings of the 21st VLDB conference, Zurich, Swizerland, 1995
M. Klemettinen, H. Mannila, P.Ronkainen, H.Toivonen, and A. I. Verkamo, 'Finding Interesting Rules from Large Sets of Discovered Association Rules', Proc. of the 3rd IntI. Conf. on Information and Knowledge Management, 1994, pp. 401-407

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증