$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 대규모 로그를 사용한 유저 행동모델 분석 방법론
The Analysis Framework for User Behavior Model using Massive Transaction Log Data 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.1 no.2, 2016년, pp.1 - 8  

이종서 (연세대학교 글로벌융합공학부) ,  김성국 (연세대학교 글로벌융합공학부)

초록
AI-Helper 아이콘AI-Helper

사용자로그는 많은 숨겨진 정보를 포함하고 있지만 데이터 정형화가 이루어지지 않았고, 데이터 크기도 너무 방대하여 처리하기 까다로워서 아직 밝혀져야 할 부분들을 많이 내포하고 있다. 특히 행동마다의 모든 시간정보를 포함하고 있어서 이를 응용하여 많은 부분을 밝혀낼 수 있다. 하지만 로그데이터 자체를 바로 분석으로 사용할 수는 없다. 유저 행동 모델 분석을 위해서는 별도의 프레임워크를 통한 변환과정들이 필요하다. 이 때문에 유저 행동모델 분석 프레임워크를 먼저 파악을 하고 데이터에 접근해야 한다. 이 논문에서는, 우리는 유저 행동모델을 효과적으로 분석하기 위한 프레임워크 모델을 제안한다. 본 모델은 대규모 데이터를 빨리 처리하기 위한 분산환경에서의 MapReduce 프로세스와 유저별 행동분석을 위한 데이터 구조 설계에 대한 부분을 포함한다. 또한 실제 온라인 서비스 로그의 구조를 바탕으로 어떤 방식으로 MapReduce를 처리하고 어떤 방식으로 유저행동모델을 분석을 위해 데이터 구조를 어떤식으로 변형할지 설명하고, 이를 통해 어떤 방식의 모델 분석으로 이어질지에 대해 상세히 설명한다. 이를 통해 대규모 로그 처리방법과 분석모델 설계에 대한 기초를 다질 수 있을 것이다.

Abstract AI-Helper 아이콘AI-Helper

User activity log includes lots of hidden information, however it is not structured and too massive to process data, so there are lots of parts uncovered yet. Especially, it includes time series data. We can reveal lots of parts using it. But we cannot use log data directly to analyze users' behavio...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다. 다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다. 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다.
  • 먼저 사용자 활동 로그를 전처리 과정을 통해 어떻게 변형 하는지에 대해 알아보고, 다음으로 각각의 Data 모델들의 상세한 구조와 이것이 어떤 모델 분석으로 이어질 수 있는지에 대해 설명하고자 한다.
  • 대부분의 기존 연구에서는 분산환경을 이용하여 빠르게 처리하는 성능적 개선 연구를 수행하였다. 본 연구는 기존 연구와는 다르게 사용자의 행동 패턴을 효율적으로 분석하기 위한 데이터 조작적 측면에서의 프레임워크 연구를 다루고 있다.
  • 마지막으로 업로드가 완료가 된 상황이라도 분석하는데 시간이 상당히 소모될 수 있다. 이 연구에서, 우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시한다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다.
  • 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다. 이를 위해 기초가 되는 로그데이터와 Hadoop과 MapReduce 처리 방식에 대해서도 함께 서술한다. 이어서 제시한 사용자 행동분석 프레임워크의 제약점 등에 대한 토론 세션을 설명한다.
  • 다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다. 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다. 이를 위해 기초가 되는 로그데이터와 Hadoop과 MapReduce 처리 방식에 대해서도 함께 서술한다.

가설 설정

  • 다음으로, 사용자 행동모델 분석프레임워크를 설명함으로써 하나의 로그가 하나의 행동만을 포함한다는 가정하에 설명을 진행하였다. 하지만 개발자의 로그 설계에 따라 이는 바뀔 수도 있다.
  • 첫째로 이러한 툴들은 데이터가 정제되어 컬럼화 되어있지 않으면 원하는 항목을 제대로 분석할 수 없다. 둘째로 시스템 자체가 대규모 데이터에 적합하지 않다. 일반적으로 실제 사용자 로그는 월별 Gigabyte 단위로 구성되는데 기존 일반 소프트웨어로는 이 데이터를 업로드 조차할 수 없다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
사용자 활동 로그란? 사용자 활동 로그란 인터넷상에서 사용자의 각 활동(클릭)에 따른 데이터 처리의 시간 순서 기록을 말한다. 보통 로그의 크기는 웹 사이트의 사용자 수와 활성화 정도, 그리고 개발자의 로그파일 설계에 따라 그 크기가 달라질 수 있다.
Hadoop 분산 파일 시스템이 디자인된 목적은? Hadoop 분산 파일 시스템(HDFS)은 하드웨어 여러 대를 사용하여 동작을 수행하기 위해 디자인되었다[5, 14]. 기존 분산시스템들과 매우 흡사하지만 오류를 스스로 복구할 수 있고 저비용으로 분산환경을 구축할 수 있도록 디자인 되었다.
MapReduce 메커니즘을 통한 단순 작업의 장점은? MapReduce는 수행하는 Job에 대하여 Mapper라는 과정을 통해 여러 개의 분산환경에서 나눠서 작업을 하고 Reducer라는 합치는 과정을 통해 결과를 빠르게 도출해낼 수 있다. 이러한 작업을 통하면 워드카운트, 키 인덱스 작업등 많으면서 단순한 작업들을 많은 컴퓨터에서 분산시켜 빠르게 작업할 수 있다. 아래 <그림 2>는 MapReduce의 Job 수행과정을 나타낸 것이다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로