사용자로그는 많은 숨겨진 정보를 포함하고 있지만 데이터 정형화가 이루어지지 않았고, 데이터 크기도 너무 방대하여 처리하기 까다로워서 아직 밝혀져야 할 부분들을 많이 내포하고 있다. 특히 행동마다의 모든 시간정보를 포함하고 있어서 이를 응용하여 많은 부분을 밝혀낼 수 있다. 하지만 로그데이터 자체를 바로 분석으로 사용할 수는 없다. 유저 행동 모델 분석을 위해서는 별도의 프레임워크를 통한 변환과정들이 필요하다. 이 때문에 유저 행동모델 분석 프레임워크를 먼저 파악을 하고 데이터에 접근해야 한다. 이 논문에서는, 우리는 유저 행동모델을 효과적으로 분석하기 위한 프레임워크 모델을 제안한다. 본 모델은 대규모 데이터를 빨리 처리하기 위한 분산환경에서의 MapReduce 프로세스와 유저별 행동분석을 위한 데이터 구조 설계에 대한 부분을 포함한다. 또한 실제 온라인 서비스 로그의 구조를 바탕으로 어떤 방식으로 MapReduce를 처리하고 어떤 방식으로 유저행동모델을 분석을 위해 데이터 구조를 어떤식으로 변형할지 설명하고, 이를 통해 어떤 방식의 모델 분석으로 이어질지에 대해 상세히 설명한다. 이를 통해 대규모 로그 처리방법과 분석모델 설계에 대한 기초를 다질 수 있을 것이다.
사용자로그는 많은 숨겨진 정보를 포함하고 있지만 데이터 정형화가 이루어지지 않았고, 데이터 크기도 너무 방대하여 처리하기 까다로워서 아직 밝혀져야 할 부분들을 많이 내포하고 있다. 특히 행동마다의 모든 시간정보를 포함하고 있어서 이를 응용하여 많은 부분을 밝혀낼 수 있다. 하지만 로그데이터 자체를 바로 분석으로 사용할 수는 없다. 유저 행동 모델 분석을 위해서는 별도의 프레임워크를 통한 변환과정들이 필요하다. 이 때문에 유저 행동모델 분석 프레임워크를 먼저 파악을 하고 데이터에 접근해야 한다. 이 논문에서는, 우리는 유저 행동모델을 효과적으로 분석하기 위한 프레임워크 모델을 제안한다. 본 모델은 대규모 데이터를 빨리 처리하기 위한 분산환경에서의 MapReduce 프로세스와 유저별 행동분석을 위한 데이터 구조 설계에 대한 부분을 포함한다. 또한 실제 온라인 서비스 로그의 구조를 바탕으로 어떤 방식으로 MapReduce를 처리하고 어떤 방식으로 유저행동모델을 분석을 위해 데이터 구조를 어떤식으로 변형할지 설명하고, 이를 통해 어떤 방식의 모델 분석으로 이어질지에 대해 상세히 설명한다. 이를 통해 대규모 로그 처리방법과 분석모델 설계에 대한 기초를 다질 수 있을 것이다.
User activity log includes lots of hidden information, however it is not structured and too massive to process data, so there are lots of parts uncovered yet. Especially, it includes time series data. We can reveal lots of parts using it. But we cannot use log data directly to analyze users' behavio...
User activity log includes lots of hidden information, however it is not structured and too massive to process data, so there are lots of parts uncovered yet. Especially, it includes time series data. We can reveal lots of parts using it. But we cannot use log data directly to analyze users' behaviors. In order to analyze user activity model, it needs transformation process through extra framework. Due to these things, we need to figure out user activity model analysis framework first and access to data. In this paper, we suggest a novel framework model in order to analyze user activity model effectively. This model includes MapReduce process for analyzing massive data quickly in the distributed environment and data architecture design for analyzing user activity model. Also we explained data model in detail based on real online service log design. Through this process, we describe which analysis model is fit for specific data model. It raises understanding of processing massive log and designing analysis model.
User activity log includes lots of hidden information, however it is not structured and too massive to process data, so there are lots of parts uncovered yet. Especially, it includes time series data. We can reveal lots of parts using it. But we cannot use log data directly to analyze users' behaviors. In order to analyze user activity model, it needs transformation process through extra framework. Due to these things, we need to figure out user activity model analysis framework first and access to data. In this paper, we suggest a novel framework model in order to analyze user activity model effectively. This model includes MapReduce process for analyzing massive data quickly in the distributed environment and data architecture design for analyzing user activity model. Also we explained data model in detail based on real online service log design. Through this process, we describe which analysis model is fit for specific data model. It raises understanding of processing massive log and designing analysis model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
마지막으로 업로드가 완료가 된 상황이라도 분석하는데 시간이 상당히 소모될 수 있다. 이 연구에서, 우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시한다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다.
이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다. 다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다. 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다.
다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다. 프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다. 이를 위해 기초가 되는 로그데이터와 Hadoop과 MapReduce 처리 방식에 대해서도 함께 서술한다.
프레임워크를 통해 적합한 데이터구조를 어떻게 설명하고 이 구조가 어떤 분석으로 이어질지에 대해 상세하게 다룬다. 이를 위해 기초가 되는 로그데이터와 Hadoop과 MapReduce 처리 방식에 대해서도 함께 서술한다. 이어서 제시한 사용자 행동분석 프레임워크의 제약점 등에 대한 토론 세션을 설명한다.
대부분의 기존 연구에서는 분산환경을 이용하여 빠르게 처리하는 성능적 개선 연구를 수행하였다. 본 연구는 기존 연구와는 다르게 사용자의 행동 패턴을 효율적으로 분석하기 위한 데이터 조작적 측면에서의 프레임워크 연구를 다루고 있다.
먼저 사용자 활동 로그를 전처리 과정을 통해 어떻게 변형 하는지에 대해 알아보고, 다음으로 각각의 Data 모델들의 상세한 구조와 이것이 어떤 모델 분석으로 이어질 수 있는지에 대해 설명하고자 한다.
가설 설정
첫째로 이러한 툴들은 데이터가 정제되어 컬럼화 되어있지 않으면 원하는 항목을 제대로 분석할 수 없다. 둘째로 시스템 자체가 대규모 데이터에 적합하지 않다. 일반적으로 실제 사용자 로그는 월별 Gigabyte 단위로 구성되는데 기존 일반 소프트웨어로는 이 데이터를 업로드 조차할 수 없다.
다음으로, 사용자 행동모델 분석프레임워크를 설명함으로써 하나의 로그가 하나의 행동만을 포함한다는 가정하에 설명을 진행하였다. 하지만 개발자의 로그 설계에 따라 이는 바뀔 수도 있다.
제안 방법
본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다. 이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다. 다음으로 로그기반 사용자 행동모델 분석을 위한 프레임워크에 대해 소개한다.
우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시하였다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다.
성능/효과
이 연구에서, 우리는 대규모의 로그를 사용하여 사용자의 행동모델을 분석하기 위한 분석프레임워크를 제시한다. 본 모델을 통해 사용자로그와 대규모 데이터를 Data Set, Bag, Session 형태로 전처리하고 자신이 분석하고자 하는 유사도분석과 같은 유저분석법에 연결시킬 수 있는 인사이트를 얻을 수 있다. 이 논문의 이후 부분에서, 우리는 가장 먼저 대규모 로그 분석을 수행한 연구, 로그를 통해 사용자 측면에서 프레임워크를 제시한 연구들을 정리하였다.
사용자 행동을 분석할 수 있는 여러 가지 모델들이 존재하는데 각각 효과적으로 분석하기 위해서 요구되는 데이터 구조들이 다르다. 사용자 활동 로그는 비정형 데이터로 전처리 과정을 거쳐서 각각의 분석모델에 적합한 데이터 구조인 Data Set, Data Bag, Data Session 형태로 바뀌어서 분석을 수행하면 효과적으로 결과를 얻어낼 수 있다. 우리가 제시하는 로그기반 유저 행동 모델 분석 프레임워크는 <그림 5>와 같다.
기존에 분석툴들은 사용자 로그와 같은 대규모 데이터를 다루기에 적합하지 않고 효율적인 분석을 위해 접근하는 방법도 용이하지 않았다. 결론적으로, 사용자 행동모델 분석 프레임워크는 이런 기존의 상황을 개선할 수 있다. 로그들을 Hadoop 시스템의 MapReduce 전처리 과정을 통해 제시한 Data Set, Bag, Session Model로 변환하고, 해당 모델에 적합한 분석을 수행하면 효과적으로 작동할 것이다.
후속연구
마지막으로, 본 모델은 프레임워크에 대한 성능테스트를 실시하지 않았다. 추후 전수모델을 사용한 방법과 본 모델을 사용한 방법의 효율성 개선 측면을 추가적으로 상세하게 연구할 계획이다.
로그들을 Hadoop 시스템의 MapReduce 전처리 과정을 통해 제시한 Data Set, Bag, Session Model로 변환하고, 해당 모델에 적합한 분석을 수행하면 효과적으로 작동할 것이다. 본 연구진은 이 프레임워크를 바탕으로 사용자 유사도와 시퀀스 분석 같은 연구를 더 진행해 나갈 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
사용자 활동 로그란?
사용자 활동 로그란 인터넷상에서 사용자의 각 활동(클릭)에 따른 데이터 처리의 시간 순서 기록을 말한다. 보통 로그의 크기는 웹 사이트의 사용자 수와 활성화 정도, 그리고 개발자의 로그파일 설계에 따라 그 크기가 달라질 수 있다.
Hadoop 분산 파일 시스템이 디자인된 목적은?
Hadoop 분산 파일 시스템(HDFS)은 하드웨어 여러 대를 사용하여 동작을 수행하기 위해 디자인되었다[5, 14]. 기존 분산시스템들과 매우 흡사하지만 오류를 스스로 복구할 수 있고 저비용으로 분산환경을 구축할 수 있도록 디자인 되었다.
MapReduce 메커니즘을 통한 단순 작업의 장점은?
MapReduce는 수행하는 Job에 대하여 Mapper라는 과정을 통해 여러 개의 분산환경에서 나눠서 작업을 하고 Reducer라는 합치는 과정을 통해 결과를 빠르게 도출해낼 수 있다. 이러한 작업을 통하면 워드카운트, 키 인덱스 작업등 많으면서 단순한 작업들을 많은 컴퓨터에서 분산시켜 빠르게 작업할 수 있다. 아래 <그림 2>는 MapReduce의 Job 수행과정을 나타낸 것이다.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.