[논문]정보이론을 이용한 연속패턴생성방법

이창환; 이소민

문제 정의

주어진 데이터베이스로부터 전문가 수준의 지식을 자동으로 추출하여 사용할 수 있다면 대단히 유용할 것이다. 본 연구는 데이터 마이닝의 기술 중에서 연속 패턴의 생성에 대한 연구로서 시계열 데이터로부터 가잠계해있는 연속패턴을 정보이론을 이용하여 IF-THEN의 형식으로 자동 생성하는 기술에 관한 연구이다. 연속패턴의 생성에 대한 연구는 현재 몇 가지의 방법이 제안되어있으며 상용화되어있는 알고리즘도 있다.
본 연구는 시차를 가지고 발생하 눈 데이터에 잠재하고있는 연속패턴을 자동으로 탐지하여 법칙의 형태로 제공하는 방법을 정보 이론의 헬링거 변량을 이용하여 제안하였다. 기존의 연속 패턴 방법이 오직 한 개의 속성에 대해서만 연속 패턴을 탐지하 는데 비하여 본 연구에서 제시하는 방법은 여러 속성 간의 연속 패턴을 탐지하는 기능을 제공할 수 있었으며 이는 사용자에게 훨씬 많은 정보를 제공할 수 있다.

가설 설정

그다음으로 이후 확률분포를 계산할 때 먼저 IF 부분의 조건 고객 =C₁ A 제품=P1을 만족하는 레코드 논 (1), (3), (7)임을 알 수 있다. 따라서 레코드 (1)에 의하여 레코드 (3)과 (7)이 원래의 데이터에 추가되는 것으로 가정하며 레코드 (3)에 의하여 레코드 (7)이 추가되는 것으로 가정한다. 즉 레코드 (7)은 이 법칙에 대하여 3반 추가된다.
따라서 시스템은 웃너 속성의 변수 값(예를들어서 속성 B가 b와 같은 값을 가짐)을 우선 선택하고 B=b이라는 사건의 목표 속성 A의 부포값에 어떤 영향을 끼치는가를 점검한다. 만약 그것이 목표 속성의 확률 분포에 상당한 영향을 끼친다면 시스템은 다음과 같은 규칙이 있음을 가정한다.
정리 1 : 목표 속성의 클래스 개수를 m 이라고 할 때 瓦 값은 다음의 경계값을 초과할 수 없다
정리 2 : 만약 조건 확률 Rs 가 1이라면 & 의 反 값은 & 의 H값을 초과할 수 없다.
이 경우 속성。의 이전확률분포률 계산하는 것은 법칙생성 알고리즘의 경우와 동일하다. 하지만 이후 확 昌 분포 豊 계산할 때 본 알고리즘은 전체 데이터 중에서 조건 A=a A B 그 b 롤 만족하는 각 데이터마다 해당 데이터의 행위자(보통 고객임) 데이터가 끝날 때까지의 잔여 레코드 중에서 조건 A=a A B=b를 만족하는 모든 레코드를 원래의 데이터에 추가되는 것으로 가정하고 이렇게 수정된 데이터의 분포를 이용하여 이후 확률분포를 계산한다.

제안 방법

이 식에서 P(a)는는 B=b 라는 조건 하에서 A=a의 조건 확률을 의미한다. 구체적으로 얘기하면 먼저 THEN 부분에 나타나는 목표 속성에 대한 이전확菁분포 분포를 구한 다음 IF 부분의 조건을 만족한 상태에서의 목표 속성에 대한 확를분포인 이후 확률분포를 계산한다. 이후 확 豊 분포는 IF 부분의 행위가 THEN 부분의 행위보다 먼저 시행된 데이터의 개수만 고려를 하여 계산한다.
목표 속성(target attribute)의 확률 분포를 현저히 변화시킨다면 이는 특정 속성의 값을 결정하는 중요한 역할을 의미한다. 따라서 시스템은 웃너 속성의 변수 값(예를들어서 속성 B가 b와 같은 값을 가짐)을 우선 선택하고 B=b이라는 사건의 목표 속성 A의 부포값에 어떤 영향을 끼치는가를 점검한다. 만약 그것이 목표 속성의 확률 분포에 상당한 영향을 끼친다면 시스템은 다음과 같은 규칙이 있음을 가정한다.
또한 알고리즘의 수행을 위해서 데이터는 행위자와 시간의 순서대로 정렬(sorting을 시켜야 하며 연속형 속성은 이산 속성 (discrete attribute)의 형태로 변환되어야 한다. 본 논문의 연속 패턴 생성 알고리즘의 전체적인 기능은 위와 같이 정리된 데이터의 값들을 읽고서 k 개의 가장 의미 있는 연속패턴 법칙을 생성하는 알고리즘이다.
본 시스템에서 규칙을 생성하는 방법을 간략히 설명하면, 먼 저, 규칙의 왼편이 한 개의 속성조건만을 갖는 단일조건 (single-condition) 규칙들을 생성한다. 알고리즘은 이들 단일 조건 규칙들에서 출발하여 가능한 왼쪽 면을 통한 깊이 우선 넌epth-first) 탐색을 수행한다.
본 시스템에서 규칙을 생성하는 방법을 간략히 설명하면, 먼 저, 규칙의 왼편이 한 개의 속성조건만을 갖는 단일조건 (single-condition) 규칙들을 생성한다. 알고리즘은 이들 단일 조건 규칙들에서 출발하여 가능한 왼쪽 면을 통한 깊이 우선 넌epth-first) 탐색을 수행한다. 단일 조건들 중에서 H 계산 값이 가창 높은 k 개의 규칙들이 규칙 리스트의 형태로 저장된다.
우리는 헬 링거 함수의 특성들을 이용한 가지치기 기술을 제시한다. 우선 다음과 같은 규칙을 가정하자.
본 연구의 실험을 위하여 사용한 데이터 는<그림 3>와 같은 내용을 포함하고 있다. 이 데이터는 어느 유통업체의 거래데이터로 일부분을 발췌하여 사용하였으며 또한 제품의 숫자를 조금 축소화하였다.<그림 3>은 전체 데이터의 일부분으로 시간 속성은 제품 구입 시간을 연속형 숫자, 장소는 제품을 구입한 장소의 코드로, 판매사원도 코드로 표시하였다.
이후 확 豊 분포는 IF 부분의 행위가 THEN 부분의 행위보다 먼저 시행된 데이터의 개수만 고려를 하여 계산한다. 이와 같은 방식으로 이전확률분포와 이후 확률 분포를 계산한 후에 이들이 서로 얼마나 상이한가의 정도를 헬 링거 엔트로피 함수를 사용하여 계산한다. 이와 같이 계산된 엔트로피 함수의 값이 해당 법칙의 정확도를 의미한다,
본 연구의 방법은 구현되어서 실험 데이터를 이용하여 실험하였으며 데이터 속에 잠재하고 있는 연속 패턴을 효과적으로 탐지할 수 있음을 알 수 있었다. 한 가지 고려할 사항으로 본 연구는 알고리즘의 수행 속도 를 개선하기 위하여 두 가지 정리를 사용하여 가지치기 방법을 제공한다. 하지만 아직도 속성의 숫자가 아주 많은데이터의 경우에는 수행 속도를 더욱 감소시킬 수 있는 방법이 추가로 필요하며 이는 추후의 연구과 재가 될 것이다.

대상 데이터

이와 같은 데이터를 이용하여 본 알고리즘을 수행한 결과 생성된 연속패턴 중에서 가장 상위의 10 법칙을<그림 4>에서 보여준다. 법칙 1의 경우는 E14 사원에게 19 제품을 구입하는 고객은 나중에 112를 구입한다논 의미이다. 이는 기존의 연속패턴 생성 알고리즘에서 제공하는 기능을 포함하고 있음을 알 수 있다.

이론/모형

본 연구에서 이와 같은 목표 속성의 확률 분포의 변화 정도를 측정하기 위하여 헬 링거(Hellinger_ 엔트로피 함수[3]를 사용하였다 본 연구의 연속패턴 환경에서 위와 같은 법칙의 경우 헬 링거 함수는 다음과 같이 정리된다

성능/효과

본 연구는 시차를 가지고 발생하 눈 데이터에 잠재하고있는 연속패턴을 자동으로 탐지하여 법칙의 형태로 제공하는 방법을 정보 이론의 헬링거 변량을 이용하여 제안하였다. 기존의 연속 패턴 방법이 오직 한 개의 속성에 대해서만 연속 패턴을 탐지하 는데 비하여 본 연구에서 제시하는 방법은 여러 속성 간의 연속 패턴을 탐지하는 기능을 제공할 수 있었으며 이는 사용자에게 훨씬 많은 정보를 제공할 수 있다. 본 연구의 방법은 구현되어서 실험 데이터를 이용하여 실험하였으며 데이터 속에 잠재하고 있는 연속 패턴을 효과적으로 탐지할 수 있음을 알 수 있었다.
따라서 휠씬 중요한 의사결정의 정보를 제공하며 휠씬 다양한 분야에 대하여 적용할 수 있다. 따라서 본 논문의 방법에서 생성하는 법칙은 휠씬 광범위한 정보를 제공하며 휠씬 많은 응용범위를 가진다
본 연구에서 제시하는 연속패턴 생성 방법은 테이블 내의 모든 속성들의 값에 대항 ㅕ서로의 연속패턴 연관 관계를 계산할 수 있다. 따라서 휠씬 중요한 의사결정의 정보를 제공하며 휠씬 다양한 분야에 대하여 적용할 수 있다.
기존의 연속 패턴 방법이 오직 한 개의 속성에 대해서만 연속 패턴을 탐지하 는데 비하여 본 연구에서 제시하는 방법은 여러 속성 간의 연속 패턴을 탐지하는 기능을 제공할 수 있었으며 이는 사용자에게 훨씬 많은 정보를 제공할 수 있다. 본 연구의 방법은 구현되어서 실험 데이터를 이용하여 실험하였으며 데이터 속에 잠재하고 있는 연속 패턴을 효과적으로 탐지할 수 있음을 알 수 있었다. 한 가지 고려할 사항으로 본 연구는 알고리즘의 수행 속도 를 개선하기 위하여 두 가지 정리를 사용하여 가지치기 방법을 제공한다.

후속연구

주어진 데이터베이스로부터 전문가 수준의 지식을 자동으로 추출하여 사용할 수 있다면 대단히 유용할 것이다. 본 연구는 데이터 마이닝의 기술 중에서 연속 패턴의 생성에 대한 연구로서 시계열 데이터로부터 가잠계해있는 연속패턴을 정보이론을 이용하여 IF-THEN의 형식으로 자동 생성하는 기술에 관한 연구이다.
한 가지 고려할 사항으로 본 연구는 알고리즘의 수행 속도 를 개선하기 위하여 두 가지 정리를 사용하여 가지치기 방법을 제공한다. 하지만 아직도 속성의 숫자가 아주 많은데이터의 경우에는 수행 속도를 더욱 감소시킬 수 있는 방법이 추가로 필요하며 이는 추후의 연구과 재가 될 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

정보이론을 이용한 연속패턴생성방법
An Information-Theoretic Method for Sequential Pattern Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

정보이론을 이용한 연속패턴생성방법 An Information-Theoretic Method for Sequential Pattern Analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

정보이론을 이용한 연속패턴생성방법
An Information-Theoretic Method for Sequential Pattern Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper