[논문]웹 데이터에서의 사용자 탐색 패턴 발견 및 추천

구흠모; 양재영; 홍광희; 최중민

웹 데이터에서의 사용자 탐색 패턴 발견 및 추천
Discovery and Recommendation of User Search Patterns from Web Data 원문보기

구흠모 (한양대학교 컴퓨터공학과) , 양재영 (한양대학교 컴퓨터공학과) , 홍광희 (한양대학교 컴퓨터공학과) , 최중민 (한양대학교 컴퓨터공학과)

웹 사용 마이닝은 데이터마이닝을 바탕으로 사용자의 로그 파일 정보를 이용하여 웹이 이용되는 패턴을 발견한다. 이를 이용하여 웹을 개선하여 사용자들이 보다 빨리 원하는 내용을 검색할 수 있도록 할 수 있으며 시스템 관리자에게는 효율적인 웹 구조를 인한 정보를 제공할 수 있다. 웹 사용 마이닝에서 사용하는 데이터는 성형화되어 있지 않으며 웹 사용 패턴을 분석하는데 방해가 되는 잡음 데이터까지 포함하고 있다. 이것은 기존에 개발된 여러 데이터마이닝 기법을 적용하는데 어려움으로 작용한다. 이러한 어려움을 해결하기 위해 본 논문에서는 새로운 방법을 도입한 SPMiner을 .제안한다. SPMiner는 웹의 구조를 이용하여 로그 파일의 전처리 과정을 줄이며 사용자의 탐색 패턴 분석을 효율적으로 수행 할 수 있는 시스템이다. SPMiner는 WebTree 에이전트를 이용하여 웹 사이트 구조를 분석하여 WebTree를 생성하고 사용자 로그 파일을 분석하여 각 웹 페이지의 사용빈도에 대한 정보를 추출한다. WebTree와 로그 파일에서 추출된 웹 페이지에 대한 정보는 SPMiner에 의해 패턴을 분석할 퍼 이용될 수 있는 형태인 WebTree$^{+}$로 병합된다 WebTree$^{+}$는 패턴 발견을 쉽게 해주며 사용자에게 추천할 정보나 웹 페이지를 능동적으로 추천할 수 있게 만들어 준다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 이러한 문제를 해결 하기 위하여 새로운 방법을 도입한 SPMiner를 제안한다. SPMiner는 웹의 구조를 이용하여 로그 파일의 전처리 과정을 줄이며 사용자의 탐색 패턴 분석을 효율적으로 수행 할 수 있는 시스템이다.
본 논문은 웹 사용 마이닝에서 웹 사이트 구조를 이용하여 사용자 탐색 패턴을 발견하고 추천 가능한 SPMiner을 제안하였다. SPMiner는 로그 데이터의 전처리 과정을 줄여주고 온라인 상황에서 사용자들에게 능동적으로 유용한 패턴들을 추천하게 된다.
이 장에서는 최근 많이 사용되는 웹 마이닝 기술을 데이터 마이닝과 함께 알아보고 다음으로 이 논문과 관련된 몇몇 패턴 분석 알고리즘들의 특징과 이들의 문제점에 대하여 알아보기로 한다.
웹 사용 마이닝에서 지지도는 문서의 빈도수(frequency)로 많이 나타낸다. 패턴 분석 알고리즘에 대하여 좀더 자세히 알아보자.

가설 설정

(1) 만약 freq_CurrentNode ≥ ∑ freqChildNode 이면freq_CurrentNode = ∑ freqChildNode 이다. 이는 현재 문서가 자식 문서들의 빈도수의 합보다 큰 경우이며 현재 문서의 빈도수는 그대로 유지한다.
둘째, 매우 방대한 후보 아이템셋을 발생시킨다. 셋째, 반복적인 로그 데이터의 로딩으로 인하여 시간과 비용을 낭비한다. 넷째, 데이터 마이닝 기술을 사용하여 사용자들에게 정보를 온라인상에서 능동적으로 제공해주기가 어렵다.
문제점들을 가지고 있다. 첫째 잡음이 많은 웹의 특성에 부적합하다. 둘째, 매우 방대한 후보 아이템셋을 발생시킨다.

제안 방법

기본 아이디어는 가장 작은 크기의 아이템셋(itemset)에서 집합의 크기를 하나씩 증가시켜 각 아이템셋에 대한 지지도를 찾고 최소 지지도 이상의 아이템셋을 찾아 나가는 것이다. 여기에서 아이템셋의 크기를 점점 크게 할 수 있는 이유는 어떤 아이템셋이 자주 발생하는 패턴이라면 그의 하위 아이템셋 또한 항상 자주 발생하는 패턴이라는 원리를 이용하였다.
본 논문에서 제안하는 SPMiner는 웹의 사용 기록인 웹 로그 파일과 하이퍼링크로 연결된 웹 구조를 이용한다. 기존 시스템들은 웹 사용정보인 사용자 로그 파일의 형식을 미리 정하여 입력 데이터로 사용했다.
SPMiner는 로그 데이터의 전처리 과정을 줄여주고 온라인 상황에서 사용자들에게 능동적으로 유용한 패턴들을 추천하게 된다. 웹 사이트 구조를 생성하기 위하여 WebTree 알고리즘을 만들었고, WebTree와 로그 데이터에서 얻은 각 문서의 빈도수를 병합하는 WebTree⁺를 제안하였다.
앞 절에서 WebTree+에 필요한 WebTree를 생성하였다. 이번 절에서는 사용자 로그 파일을 분석하여 각 웹 페이지의 사용빈도에 대한 정보를 추출하여 WebTree와 병합하는 과정을 알아 본다.

대상 데이터

한다. 본 논문에서는 한양대학교 컴퓨터공학과에소속되어 있는 13개 연구실의 웹 사이트와 로그 데이터를 사용하였다.
웹 내용 마이닝과 웹 구조 마이닝은 웹 실제의 데이터를 사용하지만 웹 사용 마이닝은 사용자와 웹의 상호작용에 의하여 만들어진 데이터를 이용한다. 이 데이터는 웹 서버 접근 로그, 프락시 서버 로그, 브라우저 로그, 사용자 프로파일, 쿠키 등을 나타낸다. 이렇게 발견된 패턴들은 전문가의 분석을 통하여 사용자에게 더욱 편리한 서비스를 위하여 웹 페이지를 재구성하거나, 웹 서버 로드 밸런스, 사용자별 맞춤형 웹 페이지 구성, 관심 있는 자료에 대한 추천 등에 이용된다.

이론/모형

FP-growth 알고리즘은 기존 Apriori 알고리즘의 문제점인 많은 스캔과 후보 아이템 생성을 줄이기 위하여 FP-tree를 이용하였다. 이 알고리즘은 2000년 Jiawei Han, Jian Pei, Yiwen Yin이 제안하였다[10].
실행시킨다. 이 함수는 WebTree의 빈도수를 수정하는 부분이며, 귀납적 (recursive) 방법을 사용한다. 가장 하위의 리프(leaf) 문서부터 탐색하며 수행한다.

성능/효과

(2) 매우 방대한 후보 아이템셋 집합들을 발생: Apriori, GSP, SPADE 알고리즘들은 후보 아이템셋을 생성하여 패턴을 찾는다. 예를 들어, 크기 1인 아이템셋을 10⁴개 가지는 집합이 있을 때, 크기가 2인 후보 아이템셋은 10⁷, 보다 더 많은 개수를 가지는 집합을 만들게 된다.

후속연구

이때 걸리는 수행 시간을 줄이기 위한 연구가 있을 수 있다. 마지막으로 본 논문에서 사용된 로그파일에서 구한 각 문서의 지지도 이외에 사용자의 로그파일이나 다른 여러 정보를 사용하여 좀더 효율적인 패턴을 발견하기 위한 연구가 있을 수 있다.
향후 연구로는 본 논문에서 사용한 html 페이지 이외의 JSP, ASP, PHP 등 다른 형태의 웹 페이지들을 가지는 웹 사이트에서도 패턴 발견 및 추천이 가능한 시스템 개발을 들 수 있겠다. 이런 페이지들은 웹 브라우저에서 html 형태의 페이지로 변환되어 보인다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

웹 데이터에서의 사용자 탐색 패턴 발견 및 추천
Discovery and Recommendation of User Search Patterns from Web Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

웹 데이터에서의 사용자 탐색 패턴 발견 및 추천 Discovery and Recommendation of User Search Patterns from Web Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

웹 데이터에서의 사용자 탐색 패턴 발견 및 추천
Discovery and Recommendation of User Search Patterns from Web Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper