최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.
최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.
Recently, due to the growth of social media and spread of smart-phone, the amount of data has considerably increased by full use of SNS (Social Network Service). According to it, the Big Data concept is come up and many researchers are seeking solutions to make the best use of big data. To maximize ...
Recently, due to the growth of social media and spread of smart-phone, the amount of data has considerably increased by full use of SNS (Social Network Service). According to it, the Big Data concept is come up and many researchers are seeking solutions to make the best use of big data. To maximize the creative value of the big data held by many companies, it is required to combine them with existing data. The physical and theoretical storage structures of data sources are so different that a system which can integrate and manage them is needed. In order to process big data, MapReduce is developed as a system which has advantages over processing data fast by distributed processing. However, it is difficult to construct and store a system for all key words. Due to the process of storage and search, it is to some extent difficult to do real-time processing. And it makes extra expenses to process complex event without structure of processing different data. In order to solve this problem, the existing Complex Event Processing System is supposed to be used. When it comes to complex event processing system, it gets data from different sources and combines them with each other to make it possible to do complex event processing that is useful for real-time processing specially in stream data. Nevertheless, unstructured data based on text of SNS and internet articles is managed as text type and there is a need to compare strings every time the query processing should be done. And it results in poor performance. Therefore, we try to make it possible to manage unstructured data and do query process fast in complex event processing system. And we extend the data complex function for giving theoretical schema of string. It is completed by changing the string key word into integer type with filtering which uses keyword set. In addition, by using the Complex Event Processing System and processing stream data at real-time of in-memory, we try to reduce the time of reading the query processing after it is stored in the disk.
Recently, due to the growth of social media and spread of smart-phone, the amount of data has considerably increased by full use of SNS (Social Network Service). According to it, the Big Data concept is come up and many researchers are seeking solutions to make the best use of big data. To maximize the creative value of the big data held by many companies, it is required to combine them with existing data. The physical and theoretical storage structures of data sources are so different that a system which can integrate and manage them is needed. In order to process big data, MapReduce is developed as a system which has advantages over processing data fast by distributed processing. However, it is difficult to construct and store a system for all key words. Due to the process of storage and search, it is to some extent difficult to do real-time processing. And it makes extra expenses to process complex event without structure of processing different data. In order to solve this problem, the existing Complex Event Processing System is supposed to be used. When it comes to complex event processing system, it gets data from different sources and combines them with each other to make it possible to do complex event processing that is useful for real-time processing specially in stream data. Nevertheless, unstructured data based on text of SNS and internet articles is managed as text type and there is a need to compare strings every time the query processing should be done. And it results in poor performance. Therefore, we try to make it possible to manage unstructured data and do query process fast in complex event processing system. And we extend the data complex function for giving theoretical schema of string. It is completed by changing the string key word into integer type with filtering which uses keyword set. In addition, by using the Complex Event Processing System and processing stream data at real-time of in-memory, we try to reduce the time of reading the query processing after it is stored in the disk.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 복합 이벤트 처리 시스템의 어댑터 자료구조를 추가하여 빅데이터의 텍스트형 비정형 데이터를 입력받아 질의 수행을 할 수 있도록 한다. 비정형 텍스트 데이터에 매핑되는 키워드 셋을 정의 하여 문자열의 키워드를 정수형으로 변환하고 비정형 데이터를 추상화함으로써 반복되는 문자열 매칭 연산을 줄인다.
본 논문에서는 빅데이터와 이기종 데이터의 질의 처리를 위한 방안을 연구하였다. 맵리듀스는 스트림 데이터 및 복합 질의를 처리하는데 비효율적이며 기존의 복합 이벤트 처리 시스템은 빅데이터를 처리하는데 비효율적인 문제가 있다.
입력 데이터로서 기존의 정형(structured) 데이터 외에 비정형(unstructured) 데이터를 입력받을 수 있도록 어댑터에 접속정보에 관한 새로운 데이터 구조가 필요하다. 본 논문에서는 빅데이터의 비정형 데이터 중에서 SNS(Social Network Service)나 인터넷 뉴스 기사에서 주로 발생하는 텍스트 처리에 목적을 둔다.
또한 비정형 데이터를 처리하기 위해 새로운 필터링(Filtering) 기능을 추가한다. 필터링 기능은 크게 키워드 셋(Keyword set)을 이용하여 문자열 매칭을 통해 비정형 데이터를 추상화(Abstraction) 하는 것을 목적으로 한다. 키워드 셋은 사용자가 정의한 것으로 질의에 필요한 관심사(interesting)나 정보를 테이블 형태로 관리한다.
가설 설정
Sports Market Data에는 스포츠매장에 관한 정보들이 있으며, 각 매장의 고유마켓번호, 위치정보, 오픈시간, 전화번호, 주소 등의 정보를 관리하고 있다고 가정한다. Item Data에는 판매하는 품목들에 대한 정보를 가지고 있으며 상품번호, 상품명, 사이즈 및 치수, 가격, 세일중인지, 판매되는 고유마켓번호 등의 정보를 관리하고 있다고 가정한다. AdvPerson, OnSaleItem, Adverstising 은 스키마 로 XML형태의 질의가 필요하며 이벤트에 필요한 데이터의 중간과정을 저장하고 관리한다.
변환되는 과정에서 문자열 형태의 키워드는 정수형으로 바뀐다. Sports Market Data에는 스포츠매장에 관한 정보들이 있으며, 각 매장의 고유마켓번호, 위치정보, 오픈시간, 전화번호, 주소 등의 정보를 관리하고 있다고 가정한다. Item Data에는 판매하는 품목들에 대한 정보를 가지고 있으며 상품번호, 상품명, 사이즈 및 치수, 가격, 세일중인지, 판매되는 고유마켓번호 등의 정보를 관리하고 있다고 가정한다.
제안 방법
2 GHz, 메모리 4GB, 운영체제 Window 7 에서 시뮬레이션 하였다. Eclipse 개발 툴을 이용하여 Java jdk 1.7 환경에서 성능평가를 위해 텍스트형 비정형 데이터를 기준으로 테스트 모듈을 개발하였다. 또한, 성능평가에 이용된 데이터베이스로는 Oracle 10g를 이용하였다.
스키마 3은 중간 결과 값인 Intermediate, AdvPerson 과 OnSaleItem으로 부터 필요한 정보를 추출하여 Advertising에 필요한 정보를 저장한다. 광고를 하기 위한 목적이므로 빅데이터의 고유 ID(sId), 작성자 닉네임(sNickname), 매장 전화번호(mTel), 매장 위치(mLocation), 상품명(iName), 사이즈(iSize), 가격(iPrice)의 정보를 저장하여 광고에 필요한 정보들을 저장한다.
기존의 복합 이벤트 처리 시스템의 언어를 확장하여 비정형 데이터를 입력받기 위해 어댑터의 데이터 구조를 추가하고 데이터 통합을 위해 자료구조를 정의한다. 비정형 데이터를 사용자의 관심사(Interesting)에 맞는 데이터를 추출하고 실시간 처리를 위한 키워드 셋을 이용한 필터링 기능에 대하여 설명한다.
복합 이벤트 처리 시스템의 경우 스트림 데이터와 이기종 데이터 소스에 대한 복합 질의와 이벤트 검출 등의 다양한 역할을 수행하지만 빅데이터를 텍스트 기반으로 관리하고 있어 비정형 데이터에서 복합 이벤트를 검출하기 위한 시스템의 비용이 크다. 따라서 어댑터에 텍스트 기반의 비정형 빅데이터를 효육적인 데이터 처리를 위하여 데이터 구조와 자료구조를 추가하고 스키마를 부여하여 복합 이벤트 처리와 이벤트 검출 및 복합 이벤트 패턴 분석을 가능하게 한다. 추가로 키워드 셋을 이용한 필터링 기능을 추가하여 빅데이터를 추상화함으로써 이기종 데이터 소스들과의 질의를 가능토록 하며 사용자가 요구하는 필요한 정보들을 관리할 수 있도록 한다.
확인결과 제안하는 CEP 시스템은 반복적으로 질의 요청이 발생하여도 문자열 매칭은 한번만 이루어지므로 다른 복합 이벤트 처리 시스템에 비해 처리속도가 빠른 것을 확인하였다. 또한 인메모리(In-memory)에서 스트림 데이터 형태의 질의처리가 가능한 복합 이벤트 시스템의 성능을 확인하기 위하여 맵리듀스와 처리 속도를 비교하였다. 디스크에 대한 입·출력이 발생하지 않아 제안하는 CEP 시스템이 맵리듀스에 비해 속도가 향상된 것을 확인하였다.
비정형 빅데이터에 대한 데이터들을 디스크에 모두 저장하지 않고 데이터 구조로 추상화하여 디스크 비용을 줄이고 디스크 입·출력 시간을 줄이고자 하였다.
본 논문에서는 복합 이벤트 처리 시스템의 어댑터 자료구조를 추가하여 빅데이터의 텍스트형 비정형 데이터를 입력받아 질의 수행을 할 수 있도록 한다. 비정형 텍스트 데이터에 매핑되는 키워드 셋을 정의 하여 문자열의 키워드를 정수형으로 변환하고 비정형 데이터를 추상화함으로써 반복되는 문자열 매칭 연산을 줄인다. 또한, 필터링 기능을 이용하면 시스템의 사용자가 관심 있는 데이터를 선별함으로써 데이터를 분석하고 저장하는 시간을 줄여줄 수 있다.
성능평가에서는 이벤트에 대한 질의 요청시 문자열 매칭이 필요한데 문자열 매칭 횟수에 대한 시스템간 성능을 비교하기 위하여 질의 요구 횟수에 따른 처리속도를 확인하였다. 확인결과 제안하는 CEP 시스템은 반복적으로 질의 요청이 발생하여도 문자열 매칭은 한번만 이루어지므로 다른 복합 이벤트 처리 시스템에 비해 처리속도가 빠른 것을 확인하였다.
질의 요청이 반복되어 발생할 경우 시스템 성능을 비교하기 위하여 질의 요구 회수에 따른 처리속도를 확인하였다. 시뮬레이션을 위해 2만개의 200 자 내외의 임의의 텍스트 데이터를 생성하여 사용했으며, 질의는 스포츠 관련(예, football, basketball, baseball, table tennis 등)된 텍스트를 검색하는 것을 기초로 하였다.
이러한 문제점들을 개선하기 위해 스트림 데이터를 실시간으로 처리하고 이기종 데이터 소스로부터 복합 질의 수행을 지원하는 복합 이벤트 처리 시스템을 활용하고자 한다[2, 5, 9, 10]. 복합 이벤트 처리 시스템은 대량의 이벤트 스트림을 대상으로 하며, 필터링 등의 기능을 수행하여 기업에서 발생하는 복잡한 이벤트들을 탐지하고 관리하기 위해 필요한 시스템이다.
맵리듀스는 스트림 데이터 및 복합 질의를 처리하는데 비효율적이며 기존의 복합 이벤트 처리 시스템은 빅데이터를 처리하는데 비효율적인 문제가 있다. 이를 개선하기 위하여 기존의 복합 이벤트 처리 시스템에 어댑터 부분을 확장하고, 이기종 데이터와 빅데이터의 복합 질의 처리를 위하여 데이터 통합을 하고자 새로운 자료구조를 정의하였다. 필터링 기능을 사용하여 문자형의 키워드 값을 정수형으로 변환하여 질의 수행에 필요한 문자열 매칭의 횟수를 줄여 속도향상을 가져왔다.
스키마 1은 SNS와 SportsMarket 으로 부터 데이터를 입력받아 Adv Person에 중간 과정을 저장하기 위한 스키마다. 입력받은 비정형 데이터(SNS)로 부터 고유ID(sId), 닉네임(Nickname) 정보를 가져오고 SportsMarket으로 부터 매장ID(mId), 전화번호(mTel), 매장위치(mLocation)의 정보를 유지한다. 스키마 2는 Item으로 부터 입력을 받아 정보를 유지한다.
전체적인 과정은 먼저 SNS으로부터 입력받은 데이터에서 “축구”에 관련한 키워드를 가진 정보들을 추려내고 스포츠 매장정보와 조인연산을 통해 매장과 SNS 작성자의 위치가 5km 이내에 있는 소비자들을 가려내 AdvPerson 스키마에 저장한다.
이벤트가 발생하여 질의를 처리하는 과정에서 문자열 매칭이 필요하다. 질의 요청이 반복되어 발생할 경우 시스템 성능을 비교하기 위하여 질의 요구 회수에 따른 처리속도를 확인하였다. 시뮬레이션을 위해 2만개의 200 자 내외의 임의의 텍스트 데이터를 생성하여 사용했으며, 질의는 스포츠 관련(예, football, basketball, baseball, table tennis 등)된 텍스트를 검색하는 것을 기초로 하였다.
맵리듀스는 태스크를 하나만 사용하여 분산처리 기능은 사용하지 않았다. 텍스트 형의 레코드 수를 증가시키며 처리속도를 비교하였다. 레코드 수가 증가함에 따라 제안하는 CEP 시스템이 맵리듀스에 비해 처리속도가 빠른것을 확인할 수가 있으며, 레코드 및 데이터양이 증가할 수록 그 차이는 더 많이 발생할 것으로 예상된다.
본 절에서는 텍스트형 비정형 데이터를 처리하는 어댑터의 기능을 수행하기 위한 자료구조에 대해 설명한다. 텍스트형 외의 동영상 같은 비정형 데이터의 경우 추가적인 자료 분석이나 데이터의 가공 및 수집 등이 필요하므로 본 논문에서는 복합 이벤트 처리에서 바로 유용하게 활용할 수 있는 텍스트형 비정형 데이터를 기준으로 한다.
대상 데이터
7 환경에서 성능평가를 위해 텍스트형 비정형 데이터를 기준으로 테스트 모듈을 개발하였다. 또한, 성능평가에 이용된 데이터베이스로는 Oracle 10g를 이용하였다. 맵리듀스와 Linux 환경을 구성하기 위하여 Cygwin을 사용하였다.
실험 평가에 사용된 시스템 환경은 CPU AMD Phenom ⅡX4 955 Processor 3.2 GHz, 메모리 4GB, 운영체제 Window 7 에서 시뮬레이션 하였다. Eclipse 개발 툴을 이용하여 Java jdk 1.
데이터처리
본 장에서는 제안하는 복합 이벤트 처리 시스템의 빅데이터 처리의 성능을 평가한다. 성능평가는 맵리듀스와 제안하는 복합 이벤트 처리 시스템의 처리속도, 키워드 개수에 의한 성능을 비교한다. 이에 따른 실험 환경은 4.
1절에서 제시한 실험 환경에서 실험을 진행한다. 제안하는 CEP 시스템과 기존에 연구된 CEP 인 GSS 및 SYBASE를 사용하여 성능평가를 진행하였다. 이벤트가 발생하여 질의를 처리하는 과정에서 문자열 매칭이 필요하다.
이론/모형
Cygwin은 Windows 환경에서 Linux 환경을 만들어 주는 프로그램이다. 맵리듀스를 위한 하둡의 버전은 Hadoop-0.20.2 버전을 사용하였다. 복합 이벤트 처리 시스템은 기존에 연구된 GSS(GeoSensor Data Stream processing System)[15]와 SYBASE[11]를 사용하였다.
2 버전을 사용하였다. 복합 이벤트 처리 시스템은 기존에 연구된 GSS(GeoSensor Data Stream processing System)[15]와 SYBASE[11]를 사용하였다.
성능/효과
그림 6은 질의 요구 횟수에 따른 복합 이벤트 처리 시스템간의 처리속도를 비교한 것이다. 기존에 연구된 GSS 및 SYBASE 시스템의 경우 비슷한 성능을 가지며 제안하는 CEP 시스템의 경우 다른 두 시스템에 비해 처리속도가 빠른 것을 확인할 수 있다. 기존의 CEP 시스템의 경우 질의 요청이 발생할 때마다 텍스트를 읽어 문자열 매칭 연산을 해야 하므로 비효율적이다.
디스크에 대한 입·출력이 발생하지 않아 제안하는 CEP 시스템이 맵리듀스에 비해 속도가 향상된 것을 확인하였다.
본문의 내용을 모두 메모리나 디스크에 저장할 경우 비정형 데이터의 많은 정보량을 저장하기 어려우며 처리 속도 또한 현저히 떨어질 수 있다. 따라서 본문의 내용을 전부 저장하지 않고, 링크(LINK) 정보만 유지하여 효율적인 저장장치의 관리뿐만 아니라 저장으로 인한 속도저하를 줄일 수 있다. LINK의 경우 가변길이 "String"변수를 이용해 관리한다.
텍스트 형의 레코드 수를 증가시키며 처리속도를 비교하였다. 레코드 수가 증가함에 따라 제안하는 CEP 시스템이 맵리듀스에 비해 처리속도가 빠른것을 확인할 수가 있으며, 레코드 및 데이터양이 증가할 수록 그 차이는 더 많이 발생할 것으로 예상된다. 맵리듀스를 이용할 경우 스트림 데이터에 대한 처리과정이 없으므로 질의를 처리하기 위해선 맵·리듀스 단계를 거쳐 데이터를 축소화하여 디스크에 저장하고 다시 읽는 과정을 거쳐야 하므로 디스크의 입·출력 시간만큼 처리속도가 오래 걸린다.
비정형 데이터의 텍스트로 작성된 글이나 기사 등의 내용에 키워드와 매칭되는 정보가 하나 이상 있을 수 있으므로 정수형 변수 “int”형의 배열로서 관리한다. 본문의 내용을 모두 메모리나 디스크에 저장할 경우 비정형 데이터의 많은 정보량을 저장하기 어려우며 처리 속도 또한 현저히 떨어질 수 있다. 따라서 본문의 내용을 전부 저장하지 않고, 링크(LINK) 정보만 유지하여 효율적인 저장장치의 관리뿐만 아니라 저장으로 인한 속도저하를 줄일 수 있다.
성능평가에서는 이벤트에 대한 질의 요청시 문자열 매칭이 필요한데 문자열 매칭 횟수에 대한 시스템간 성능을 비교하기 위하여 질의 요구 횟수에 따른 처리속도를 확인하였다. 확인결과 제안하는 CEP 시스템은 반복적으로 질의 요청이 발생하여도 문자열 매칭은 한번만 이루어지므로 다른 복합 이벤트 처리 시스템에 비해 처리속도가 빠른 것을 확인하였다. 또한 인메모리(In-memory)에서 스트림 데이터 형태의 질의처리가 가능한 복합 이벤트 시스템의 성능을 확인하기 위하여 맵리듀스와 처리 속도를 비교하였다.
후속연구
향후 연구로는 본 논문에서는 비정형 데이터 중 텍스트 형태의 빅데이터만 다루고 있어 그 외의 다양한 형태의 빅데이터를 처리할 수 있는 연구가 필요하다. 또한, 키워드셋의 갯수에 따라 시스템 성능저하를 가져오므로 효율적으로 관리할 수 있는 연구가 필요하다.
디스크에 대한 입·출력이 발생하지 않아 제안하는 CEP 시스템이 맵리듀스에 비해 속도가 향상된 것을 확인하였다. 이 연구는 개인 데이터를 기반으로 사용자의 행동 패턴, 선호등을 분석하여 마케팅 및 서비스를 제공할 수 있다.
향후 연구로는 본 논문에서는 비정형 데이터 중 텍스트 형태의 빅데이터만 다루고 있어 그 외의 다양한 형태의 빅데이터를 처리할 수 있는 연구가 필요하다. 또한, 키워드셋의 갯수에 따라 시스템 성능저하를 가져오므로 효율적으로 관리할 수 있는 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
MapReduce의 단점은?
맵리듀스의 혁신적인 부분은 데이터 집합에 대한 질의를 입력받아 분할한 후, 여러 개의 노드에서 병렬로 처리하는 분산처리로서 단일 장비에서 처리하기 부적합한 대규모 데이터의 문제를 해결한다. 하지만 맵리듀스의 경우 빅데이터의 빠른 처리를 위한 키(key) 값을 이용한 데이터 통합 및 집합, 분산처리 및 저장 등에 초점이 맞춰져 있어 물리적, 논리적으로 상이한 이기종 데이터 소스에 대한 데이터 통합이나 스키마 매칭 및 통합 기능이 없으므로 복합 이벤트 처리에는 적합하지 않다. 예를 들어 스포츠 매장에서 축구에 관심 있는 고객들에게 축구용품에 대한 광고를 해주도록 요구할 수 있다.
SNS가 활성화된 배경은?
최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다.
빅데이터의 가치창출을 높이기 위해서는 무엇이 필요한가?
이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다.
참고문헌 (15)
J. Dean, S. Ghemawat, 2008, "MapReduce; Simplified Data Processing on Large Clusters", Communications of the ACM, vol. 51, no 1, pp.107-113.
Y. Diao, Neil Immerman, Daniel Gyllstrom, 2007, "SASE+: An Agile Language for Kleene Closure over Event Streams," In UMass Technical Report 07-03.
B. Gedik, L. Liu, 2004, "ModiEyes: Distributed processing of continously moving queries on moving objects in a mobile system," Adavances in Database Techonology, vol. 2992, pp67-87.
S. Ghemawat, H. Gobioff, S. Leung. 2003, "The Google file system," In Proc of ACM Symposium on Operating Systems Principles, Lake George, NY, Oct, pp29-43.
D. Gyllstroml, E. Wu, H. Chae, Y. Diao, P. Stahlberg, G. Anderson, 2007, "SASE: Complex Event Processing over Streams," In CIDR' 07, Asilomar, CA, USA.
H. Hu, J. Xu and D.L. Lee, 2005, "A generic framework for monitoring continuous spatial queries over moving objects," Proc. of the ACM SIGMOD International Conference on Management of Data, pp. 479-490.
McKinsey, 2011, "Big Data: The Next Frontier for Innovation, Competition, and Productivity", [Online] McKinsey & Compnay, http:// www. mckinsey.com/.
Apache Hadoop, http://hadoop.apache.org/, 2012
"Complex Event Processing with Coral8 Final," 2009, http://www.microsoft.com/.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.