[논문]대규모 로그를 사용한 유저 행동모델 분석 방법론

이종서; 김성국

[국내논문] 대규모 로그를 사용한 유저 행동모델 분석 방법론
The Analysis Framework for User Behavior Model using Massive Transaction Log Data 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.1 no.2, 2016년, pp.1 - 8

이종서 (연세대학교 글로벌융합공학부) , 김성국 (연세대학교 글로벌융합공학부)

초록
AI-Helper

사용자로그는 많은 숨겨진 정보를 포함하고 있지만 데이터 정형화가 이루어지지 않았고, 데이터 크기도 너무 방대하여 처리하기 까다로워서 아직 밝혀져야 할 부분들을 많이 내포하고 있다. 특히 행동마다의 모든 시간정보를 포함하고 있어서 이를 응용하여 많은 부분을 밝혀낼 수 있다. 하지만 로그데이터 자체를 바로 분석으로 사용할 수는 없다. 유저 행동 모델 분석을 위해서는 별도의 프레임워크를 통한 변환과정들이 필요하다. 이 때문에 유저 행동모델 분석 프레임워크를 먼저 파악을 하고 데이터에 접근해야 한다. 이 논문에서는, 우리는 유저 행동모델을 효과적으로 분석하기 위한 프레임워크 모델을 제안한다. 본 모델은 대규모 데이터를 빨리 처리하기 위한 분산환경에서의 MapReduce 프로세스와 유저별 행동분석을 위한 데이터 구조 설계에 대한 부분을 포함한다. 또한 실제 온라인 서비스 로그의 구조를 바탕으로 어떤 방식으로 MapReduce를 처리하고 어떤 방식으로 유저행동모델을 분석을 위해 데이터 구조를 어떤식으로 변형할지 설명하고, 이를 통해 어떤 방식의 모델 분석으로 이어질지에 대해 상세히 설명한다. 이를 통해 대규모 로그 처리방법과 분석모델 설계에 대한 기초를 다질 수 있을 것이다.

Abstract ▼ AI-Helper

User activity log includes lots of hidden information, however it is not structured and too massive to process data, so there are lots of parts uncovered yet. Especially, it includes time series data. We can reveal lots of parts using it. But we cannot use log data directly to analyze users' behaviors. In order to analyze user activity model, it needs transformation process through extra framework. Due to these things, we need to figure out user activity model analysis framework first and access to data. In this paper, we suggest a novel framework model in order to analyze user activity model effectively. This model includes MapReduce process for analyzing massive data quickly in the distributed environment and data architecture design for analyzing user activity model. Also we explained data model in detail based on real online service log design. Through this process, we describe which analysis model is fit for specific data model. It raises understanding of processing massive log and designing analysis model.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다. 다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다. 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다.
먼저 사용자 활동 로그를 전처리 과정을 통해 어떻게 변형 하는지에 대해 알아보고, 다음으로 각각의 Data 모델들의 상세한 구조와 이것이 어떤 모델 분석으로 이어질 수 있는지에 대해 설명하고자 한다.
대부분의 기존 연구에서는 분산환경을 이용하여 빠르게 처리하는 성능적 개선 연구를 수행하였다. 본 연구는 기존 연구와는 다르게 사용자의 행동 패턴을 효율적으로 분석하기 위한 데이터 조작적 측면에서의 프레임워크 연구를 다루고 있다.
마지막으로 업로드가 완료가 된 상황이라도 분석하는데 시간이 상당히 소모될 수 있다. 이 연구에서, 우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시한다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다.
프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다. 이를 위해 기초가 되는 로그데이터와 Hadoop과 MapReduce 처리 방식에 대해서도 함께 서술한다. 이어서 제시한 사용자 행동분석 프레임워크의 제약점 등에 대한 토론 세션을 설명한다.
다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다. 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다. 이를 위해 기초가 되는 로그데이터와 Hadoop과 MapReduce 처리 방식에 대해서도 함께 서술한다.

가설 설정

다음으로, 사용자 행동모델 분석프레임워크를 설명함으로써 하나의 로그가 하나의 행동만을 포함한다는 가정하에 설명을 진행하였다. 하지만 개발자의 로그 설계에 따라 이는 바뀔 수도 있다.
첫째로 이러한 툴들은 데이터가 정제되어 컬럼화 되어있지 않으면 원하는 항목을 제대로 분석할 수 없다. 둘째로 시스템 자체가 대규모 데이터에 적합하지 않다. 일반적으로 실제 사용자 로그는 월별 Gigabyte 단위로 구성되는데 기존 일반 소프트웨어로는 이 데이터를 업로드 조차할 수 없다.

제안 방법

우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시하였다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다.
본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다. 이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다. 다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다.

성능/효과

기존에 분석툴들은 사용자 로그와 같은 대규모 데이터를 다루기에 적합하지 않고 효율적인 분석을 위해 접근하는 방법도 용이하지 않았다. 결론적으로, 사용자 행동모델 분석 프레임워크는 이런 기존의 상황을 개선할 수 있다. 로그들을 Hadoop 시스템의 MapReduce 전처리 과정을 통해 제시한 Data Set, Bag, Session Model로 변환하고, 해당 모델에 적합한 분석을 수행하면 효과적으로 작동할 것이다.
이 연구에서, 우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시한다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다. 이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다.
사용자 행동을 분석할 수 있는 여러 가지 모델들이 존재하는데 각각 효과적으로 분석하기 위해서 요구되는 데이터 구조들이 다르다. 사용자 활동 로그는 비정형 데이터로 전처리 과정을 거쳐서 각각의 분석모델에 적합한 데이터 구조인 Data Set, Data Bag, Data Session 형태로 바뀌어서 분석을 수행하면 효과적으로 결과를 얻어낼 수 있다. 우리가 제시하는 로그기반 유저 행동 모델 분석 프레임워크는 <그림 5>와 같다.

후속연구

로그들을 Hadoop 시스템의 MapReduce 전처리 과정을 통해 제시한 Data Set, Bag, Session Model로 변환하고, 해당 모델에 적합한 분석을 수행하면 효과적으로 작동할 것이다. 본 연구진은 이 프레임워크를 바탕으로 사용자 유사도와 시퀀스 분석 같은 연구를 더 진행해 나갈 예정이다.
마지막으로, 본 모델은 프레임워크에 대한 성능테스트를 실시하지 않았다. 추후 전수모델을 사용한 방법과 본 모델을 사용한 방법의 효율성 개선 측면을 추가적으로 상세하게 연구할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	사용자 활동 로그란?	사용자 활동 로그란 인터넷상에서 사용자의 각 활동(클릭)에 따른 데이터 처리의 시간 순서 기록을 말한다. 보통 로그의 크기는 웹 사이트의 사용자 수와 활성화 정도, 그리고 개발자의 로그파일 설계에 따라 그 크기가 달라질 수 있다.
	Hadoop 분산 파일 시스템이 디자인된 목적은?	Hadoop 분산 파일 시스템(HDFS)은 하드웨어 여러 대를 사용하여 동작을 수행하기 위해 디자인되었다[5, 14]. 기존 분산시스템들과 매우 흡사하지만 오류를 스스로 복구할 수 있고 저비용으로 분산환경을 구축할 수 있도록 디자인 되었다.
	MapReduce 메커니즘을 통한 단순 작업의 장점은?	MapReduce는 수행하는 Job에 대하여 Mapper라는 과정을 통해 여러 개의 분산환경에서 나눠서 작업을 하고 Reducer라는 합치는 과정을 통해 결과를 빠르게 도출해낼 수 있다. 이러한 작업을 통하면 워드카운트, 키 인덱스 작업등 많으면서 단순한 작업들을 많은 컴퓨터에서 분산시켜 빠르게 작업할 수 있다. 아래 <그림 2>는 MapReduce의 Job 수행과정을 나타낸 것이다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 대규모 로그를 사용한 유저 행동모델 분석 방법론
The Analysis Framework for User Behavior Model using Massive Transaction Log Data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 대규모 로그를 사용한 유저 행동모델 분석 방법론 The Analysis Framework for User Behavior Model using Massive Transaction Log Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

김성국 (1)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 대규모 로그를 사용한 유저 행동모델 분석 방법론
The Analysis Framework for User Behavior Model using Massive Transaction Log Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper