[논문]웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색

장중혁

doi:10.9723/jksiis.2011.16.2.019

문제 정의

대표적인 연구에는 순차패턴 탐색 과정에서 일정한 제한 조건을 제시하여 관심도가 큰 순차패턴을 마이닝 결과로 얻기 위한 연구[7, 8], 하나의 순차정보에서 인접한 두 단위항목들 간의 발생 시간 차이 정보를 활용하여 관심도가 보다 높은 순차패턴을 찾는 연구 [13, 14] 및 closed 순차패턴이나 maximal 순차패턴 탐색에 대한 연구[9, 10] 등이 있다. [7] 및 [8]에서 단위 항목들의 발생 시간이나 발생 간격을 순차패턴 탐색 시 제한 조건으로 활용하여 정제된 형태의 마이닝 결과를 얻고자 시도하였다. [13] 및 [14]에서는 발생 시간 정보를 갖는 순차 데이터 스트림에서 하나의 순차 정보에서 인접한 두 단위항목들 간의 발생 시간 차이 정보를 활용하여 관심도가 높은 순차패턴을 찾기 위한 마이닝 방법이 제안되었다.
지지도 및 빈발 순차패턴에 대한 정의는 일반적인 데이터 스트림에서의 순차패턴 탐색과 동일하다. 결론적으로 본 논문에서 다루고자 하는 문제는 하나의 순차정보 데이터 스트림에 대해서 최소지지도 s沥과 최대허용시간 간격 琨가 주어졌을 때, 해당 조건을 만족하는 모든 빈발 순차패턴을 탐색하는 것이다.
본 논문에서는 순차정보 데이터 스트림에 대한 순차 패턴 탐색 과정에서 하나의 순차패턴을 구성하는 단위 항목들의 발생 시간 정보를 활용하여 정제된 마이닝 결과 집합을 얻기 위한 방법으로 시간 간격 제한을 활용한 데이터 스트림 순차패턴 탐색 방법을 제안하였다. 해당 방법에서는 하나의 순차패턴을 구성하는 단위항목들 사이의 발생 시간 간격으로부터 해당 순차패턴을 대표하는 시간 간격을 구하고, 이에 대한 최대 허용 값을 설정함으로써 관심도가 큰 빈발 순차패턴을 탐색한다.
본 논문에서는 웹 클릭 스트림에 대한 순차패턴 마이닝에서 관심도가 높은 순차패턴을 얻기 위한 접근법을 제안한다. 즉, 지속적으로 확장되는 웹 클릭 스트림의 특성을 고려하여 데이터 스트림 처리의 기본적인 요구 조건들[11]을 만족하면서 시간 간격에 기반한 제한 조건 설정을 통해 관심도나 흥미도가 큰 순차패턴을 얻을 수 있는 데이터 스트림에 대한 순차패턴 탐색 방법을 제안하며, 해당 순차패턴을 얻기 위해서 순차패턴 마이닝 과정에서 순차패턴을 구성하는 단위 항목들간의 시간 간격을 일정 정도로 제한하는방법을 활용한다.
본 절에서는 논문에서 제안하는 시간 간격 제한을 활용한 빈발 순차패턴 탐색의 처리 대상이 되는 웹클릭 스트림에 대해서 기술한다. 이를 위해서 먼저 순차정보 데이터 스트림을 명확히 기술하고, 더불어 하나의 웹 사이트에서 발생되는 사용 기록으로부터 순차정보 웹 클릭 스트림을 정의하는 방법을 간략히 기술한다.
웹 클릭 스트림과 같이 구성요소가 매우 빠른 속도로 생성되며 지속적으로 확장되는 데이터 스트림에 대한 마이닝에서는 마이닝 수행 시간 및 수행 과정에서의 메모리 사용량도 중요한 이슈가 되며, 이들두 가지 측면에서 제안된 방법의 성능을 검증하기 위한 실험을 수행하였다. 일반적으로 데이터 스트림에 대한 처리 방법에 있어서 수행 시간 측면의 유용성을 검증하기 위해서는 순차정보 등과 같은 하나의 단위 정보를 처리하는데 소요되는 시간을 측정하여 비교한다.
웹 클릭 스트림에서 시간 간격 제한을 활용한 관심 순차패턴 탐색 방법도 이러한 연구들 중의 하나로서, 순차정보에 대한 분석 과정에서 순차정보 구성요소의 단순 발생 순서뿐만 아니라 발생 시간 간격에 대한 제한 조건을 적용하여 사용자의 관심도가 보다 큰 순차패턴을 마이닝 결과로 얻는데 목적을 두고 있다. 이를 통해 기존의 단순 순차패턴 탐색 과정에서 지나치게 많은 수의 순차패턴들이 마이닝 결과로 탐색되는데 따른 단점을 줄일 수 있다.
즉, 단위항목들간의 시간 간격이 일정 값 이하인 경우에만 관심 순차패턴으로 간주하고, 이보다 큰 시간 간격을 갖는 순차패턴은 관심대상에서 제외된다. 이러한 내용을 보다 명확히 정의하기 위해서 본 절에서는 시간 간격 제한을 활용한 빈발 순차패턴의 기본 개념을 정의하고 이를 탐색하기 위한 데이터 마이닝 방법인 TiCbnS(Time-interval Constrained Sequential Pattern Mining over Data Streams) 방법을 제시한다. 해당 방법은 데이터 스트림 처리를 위한 기본적인 요구사항을 만족하는 것은 물론이거니와 시간 간격 제한을 활용하여 관심도나 큰 순차패턴들로 구성되는정제된 마이닝 결과를 얻을 수 있도록 지원한다.

가설 설정

순차 데이터 스트림 Dt에서 발생한 두 개의 순차 패턴 SI과 S2에서 S2는 &의 확대-순차 패턴(SIUS2)이라고 가정하자. 이때 순차패턴 SJ의 시간 간격 제한 지지도는 앞서 기술한 수식 (2)에 의해 다음과 같이 구해진다.

제안 방법

해당 데이터 집합은 국내 유명 SNS서비스 제공 사이트중의 하나인 C사이트의 사용자 접근 기록으로부터 생성된 것으로서, 사용자 접근 기록에 대한 원천 데이터를 가공하여 순차정보 데이터 집합을 생성하였다. 2.1 절에서 기술한 바와 같이 사용자 접근 로그에서 각 웹페이지를 단위항목으로 간주하고 연속적으로 접근된 웹 페이지들을 하나의 순차정보로 구성하였으며, 일정 시간 동안 사용자 입력이 없거나 사용자가 접속을 종료한 경우 하나의 순차정보가 생성된 것으로 간주하였다. 실험에 사용된 데이터 집합은 순차정보 구분올위한 시간 간격을 60초로 설정하여 생성되었다.
기술한다. TiConS 방법은 3장의 관련 연구에서 기술된 데이터 스트림에서 순차패턴 탐색을 위한 기본적인 접근 방법을 기반으로 시간 간격 제한을 적용하기 위한 과정을 추가하여 구현되었다.
논문에서 제안된 TiConS 방법 수행을 위한 매개변수들 중 Ssig 및 메모리 사용량 감소를 위한 강제전지 작업 주기는 시간 간격 제한 활용에 따른 순차 패턴 마이닝 방법의 성능 변화에는 영향을 미치지 않는 것으로서 본 논문의 각 실험에서 동일하게 설정하였다. 즉, Ssig는 Smin의 30%로 설정하고 강제 전지 작업은 1,000 개의 순차정보마다 반복하여 수행되도록 설정하였다.
먼저, 와은 마이닝 결과로 얻어지는 순차패턴의 개수 변화를 보여주며, 실험 데이터 집합에 속하는 순차정보가 지속적으로 발생되는 상황에서 순차정보가 매번 100,000 개씩 처리된 시점에서의 마이닝 결과를 구하여 비교하였다.
및에서 확인한 바와 두 가지의 시간 간격정의 방법에 있어서 Tec 값 변화에 따른 마이닝 결과 순차패턴의 수 변화가 대체로 비슷한 경향을 보이므로 본 실험에서는 하나의 순차패턴에 존재하는모든 인접항목간의 시간 간격에 대해서 제한 조건을 적용한 실험 결과만을 제시하였으며, 논문의 나머지실험에서도 동일하다.
시간 간격 제한을 적용했을 때 얻어지는 순차패턴집합을 보다 상세히 분석하기 위해서 결과로 얻어지는 순차패턴의 길이별 변화를 분석하였다.<그림 2> 및<그림 3>에서 확인한 바와 두 가지의 시간 간격정의 방법에 있어서 Tec 값 변화에 따른 마이닝 결과 순차패턴의 수 변화가 대체로 비슷한 경향을 보이므로 본 실험에서는 하나의 순차패턴에 존재하는모든 인접항목간의 시간 간격에 대해서 제한 조건을 적용한 실험 결과만을 제시하였으며, 논문의 나머지실험에서도 동일하다.
스트림에 대해서 기술한다. 이를 위해서 먼저 순차정보 데이터 스트림을 명확히 기술하고, 더불어 하나의 웹 사이트에서 발생되는 사용 기록으로부터 순차정보 웹 클릭 스트림을 정의하는 방법을 간략히 기술한다. 이어서 논문에서 다루고자 하는 문제인 시간 간격 제한을 활용한 순차패턴 마이닝을 명확히 정의한다.
<그림 4>-(b)는 수행 과정에서의 메모리 사용량을 측정한 결과를 보여준다. 일반적으로 메모리 사용량은 최대 사용량이 중요한 척도가될 수 있으며, 본 실험는 앞서와 같이 5개의 구간으로 나누어 각 구간별 최대 메모리 사용량을 측정하였다. 그림에서 알 수 있듯이 순차정보가 지속적으로 발생되는 경우에도 메모리 사용량은 큰 변화 없이일정 수준 이하로 유지되고 있으며, 특히 시간 간격제한을 적용하는 경우 메모리 사용량이 크게 감소됨을 알 수 있다.
즉, Ssig는 Smin의 30%로 설정하고 강제 전지 작업은 1,000 개의 순차정보마다 반복하여 수행되도록 설정하였다. 한편, 웹 클릭 스트림 환경에서는 분석 대상 순차정보를 순차적으로 처리하게 되며, 이를 위해서 실험에서는 각 데이터 집합을 구성하는 순차 정보를 하나씩 차례로 탐색하여 처리한다.
제안한다. 즉, 지속적으로 확장되는 웹 클릭 스트림의 특성을 고려하여 데이터 스트림 처리의 기본적인 요구 조건들[11]을 만족하면서 시간 간격에 기반한 제한 조건 설정을 통해 관심도나 흥미도가 큰 순차패턴을 얻을 수 있는 데이터 스트림에 대한 순차패턴 탐색 방법을 제안하며, 해당 순차패턴을 얻기 위해서 순차패턴 마이닝 과정에서 순차패턴을 구성하는 단위 항목들간의 시간 간격을 일정 정도로 제한하는방법을 활용한다. 이를 통해서 웹 클릭 스트림에 대한순차패턴 탐색 과정에서 메모리 사용량 및 수행 시간최소화 등과 같은 데이터 스트림 처리를 위한 기본적인 요구 조건을 만족하면서 관심도나 홍미도가 큰 순차패턴을 효율적으로 얻을 수 있다.
즉, Ssig는 Smin의 30%로 설정하고 강제 전지 작업은 1,000 개의 순차정보마다 반복하여 수행되도록 설정하였다. 한편, 웹 클릭 스트림 환경에서는 분석 대상 순차정보를 순차적으로 처리하게 되며, 이를 위해서 실험에서는 각 데이터 집합을 구성하는 순차 정보를 하나씩 차례로 탐색하여 처리한다.
해당 방법에서는 하나의 순차패턴을 구성하는 단위항목들 사이의 발생 시간 간격으로부터 해당 순차패턴을 대표하는 시간 간격을 구하고, 이에 대한 최대 허용 값을 설정함으로써 관심도가 큰 빈발 순차패턴을 탐색한다. 웹 사이트의 사용자 접근기록으로부터 생성된 웹 클릭 스트림을 대상으로 한 실험을 통해 제안된 방법이 데이터 스트림에 대한 순차 패턴 탐색 과정에 효과적으로 적용될 수 있으며 시간 간격 제한 값에 따라 다양한 형태의 정제된 순차 패턴 집합을 마이닝 결과로 구해줌을 확인하였다.

대상 데이터

검증 실험을 수행하였다. 해당 데이터 집합은 국내 유명 SNS서비스 제공 사이트중의 하나인 C사이트의 사용자 접근 기록으로부터 생성된 것으로서, 사용자 접근 기록에 대한 원천 데이터를 가공하여 순차정보 데이터 집합을 생성하였다. 2.

데이터처리

웹 클릭 스트림에 대한 분석에서 제안된 방법의 효용성을 검증하기 위해서 SD_Web 데이터 집합을 사용하여 검증 실험을 수행하였다. 해당 데이터 집합은 국내 유명 SNS서비스 제공 사이트중의 하나인 C사이트의 사용자 접근 기록으로부터 생성된 것으로서, 사용자 접근 기록에 대한 원천 데이터를 가공하여 순차정보 데이터 집합을 생성하였다.
제안된 방법의 효용성을 평가하기 위해서 마이닝결과로 얻어지는 빈발 순차패턴 집합에 대한 분석실험을 수행하였다. 본 실험에서 빈발 순차패턴을 정의하기 위한 최소 지지도는 0.

이론/모형

이어서 해당 속성을 활용하며 데이터 스트림 처리의 기본 요건을 만족하면서 시간 간격 제한을 활용한 관심 순차패턴 탐색 방법인 TiConS 방법을 기술한다. TiConS 방법은 3장의 관련 연구에서 기술된 데이터 스트림에서 순차패턴 탐색을 위한 기본적인 접근 방법을 기반으로 시간 간격 제한을 적용하기 위한 과정을 추가하여 구현되었다.

성능/효과

해당 방법에서는 하나의 순차패턴을 구성하는 단위항목들 사이의 발생 시간 간격으로부터 해당 순차패턴을 대표하는 시간 간격을 구하고, 이에 대한 최대 허용 값을 설정함으로써 관심도가 큰 빈발 순차패턴을 탐색한다. 웹 사이트의 사용자 접근기록으로부터 생성된 웹 클릭 스트림을 대상으로 한 실험을 통해 제안된 방법이 데이터 스트림에 대한 순차 패턴 탐색 과정에 효과적으로 적용될 수 있으며 시간 간격 제한 값에 따라 다양한 형태의 정제된 순차 패턴 집합을 마이닝 결과로 구해줌을 확인하였다. 제안된 방법은 웹 클릭 스트림뿐만 아니라 데이터 스트림 형태로 정보를 발생 시키는 다양한 컴퓨터 응용 환경에서 유용하게 활용될 수 있을 것으로 판단된다.
그림에서 알 수 있듯이 순차정보가 지속적으로 발생되는 경우에도 메모리 사용량은 큰 변화 없이일정 수준 이하로 유지되고 있으며, 특히 시간 간격제한을 적용하는 경우 메모리 사용량이 크게 감소됨을 알 수 있다. 이러한 실험결과를 통해 본 논문에서 제안된 방법은 웹 클릭 스트림에 대한 순차 패턴마이닝 과정에서 시간 간격 제한을 적용하여 보다 정제된 마이닝 결과를 제공할 뿐만 아니라 마이닝수행 시간 및 메모리 사용량 측면에서도 매우 유용한 방법임을 알 수 있다.
즉, 지속적으로 확장되는 웹 클릭 스트림의 특성을 고려하여 데이터 스트림 처리의 기본적인 요구 조건들[11]을 만족하면서 시간 간격에 기반한 제한 조건 설정을 통해 관심도나 흥미도가 큰 순차패턴을 얻을 수 있는 데이터 스트림에 대한 순차패턴 탐색 방법을 제안하며, 해당 순차패턴을 얻기 위해서 순차패턴 마이닝 과정에서 순차패턴을 구성하는 단위 항목들간의 시간 간격을 일정 정도로 제한하는방법을 활용한다. 이를 통해서 웹 클릭 스트림에 대한순차패턴 탐색 과정에서 메모리 사용량 및 수행 시간최소화 등과 같은 데이터 스트림 처리를 위한 기본적인 요구 조건을 만족하면서 관심도나 홍미도가 큰 순차패턴을 효율적으로 얻을 수 있다.

후속연구

일반적으로 마이닝수행 결과로 얻어지는 순차패턴의 수가 매우 많으며, 이를 바로 응용 분야의 특성을 이해하기 위해서 활용하는데 어려움이 있다. 따라서 관심도가 큰 순차패턴을 얻기 위해서는 일반적인 순차패턴 탐색으로 얻어진 결과를 다시 분석하는 등 후처리 작업을 필요로 한다.
웹 사이트의 사용자 접근기록으로부터 생성된 웹 클릭 스트림을 대상으로 한 실험을 통해 제안된 방법이 데이터 스트림에 대한 순차 패턴 탐색 과정에 효과적으로 적용될 수 있으며 시간 간격 제한 값에 따라 다양한 형태의 정제된 순차 패턴 집합을 마이닝 결과로 구해줌을 확인하였다. 제안된 방법은 웹 클릭 스트림뿐만 아니라 데이터 스트림 형태로 정보를 발생 시키는 다양한 컴퓨터 응용 환경에서 유용하게 활용될 수 있을 것으로 판단된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색
Mining Interesting Sequential Pattern with a Time-interval Constraint for Efficient Analyzing a Web-Click Stream 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색 Mining Interesting Sequential Pattern with a Time-interval Constraint for Efficient Analyzing a Web-Click Stream 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

장중혁 (12)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

웹 클릭 스트림의 효율적 분석을 위한 시간 간격 제한을 활용한 관심 순차패턴 탐색
Mining Interesting Sequential Pattern with a Time-interval Constraint for Efficient Analyzing a Web-Click Stream 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper