$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

비정형 빅데이터의 실시간 복합 이벤트 탐지를 위한 기법
The Method for Real-time Complex Event Detection of Unstructured Big data 원문보기

한국공간정보학회지 = Journal of Korea Spatial Information Society, v.20 no.5, 2012년, pp.99 - 109  

이준희 (인하대학교 컴퓨터정보공학과) ,  백성하 (인하대학교 컴퓨터정보공학과) ,  이순조 (서원대학교 컴퓨터공학과) ,  배해영 (인하대학교 컴퓨터정보공학과)

초록
AI-Helper 아이콘AI-Helper

최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.

Abstract AI-Helper 아이콘AI-Helper

Recently, due to the growth of social media and spread of smart-phone, the amount of data has considerably increased by full use of SNS (Social Network Service). According to it, the Big Data concept is come up and many researchers are seeking solutions to make the best use of big data. To maximize ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 복합 이벤트 처리 시스템의 어댑터 자료구조를 추가하여 빅데이터의 텍스트형 비정형 데이터를 입력받아 질의 수행을 할 수 있도록 한다. 비정형 텍스트 데이터에 매핑되는 키워드 셋을 정의 하여 문자열의 키워드를 정수형으로 변환하고 비정형 데이터를 추상화함으로써 반복되는 문자열 매칭 연산을 줄인다.
  • 본 논문에서는 빅데이터와 이기종 데이터의 질의 처리를 위한 방안을 연구하였다. 맵리듀스는 스트림 데이터 및 복합 질의를 처리하는데 비효율적이며 기존의 복합 이벤트 처리 시스템은 빅데이터를 처리하는데 비효율적인 문제가 있다.
  • 입력 데이터로서 기존의 정형(structured) 데이터 외에 비정형(unstructured) 데이터를 입력받을 수 있도록 어댑터에 접속정보에 관한 새로운 데이터 구조가 필요하다. 본 논문에서는 빅데이터의 비정형 데이터 중에서 SNS(Social Network Service)나 인터넷 뉴스 기사에서 주로 발생하는 텍스트 처리에 목적을 둔다.
  • 또한 비정형 데이터를 처리하기 위해 새로운 필터링(Filtering) 기능을 추가한다. 필터링 기능은 크게 키워드 셋(Keyword set)을 이용하여 문자열 매칭을 통해 비정형 데이터를 추상화(Abstraction) 하는 것을 목적으로 한다. 키워드 셋은 사용자가 정의한 것으로 질의에 필요한 관심사(interesting)나 정보를 테이블 형태로 관리한다.

가설 설정

  • Sports Market Data에는 스포츠매장에 관한 정보들이 있으며, 각 매장의 고유마켓번호, 위치정보, 오픈시간, 전화번호, 주소 등의 정보를 관리하고 있다고 가정한다. Item Data에는 판매하는 품목들에 대한 정보를 가지고 있으며 상품번호, 상품명, 사이즈 및 치수, 가격, 세일중인지, 판매되는 고유마켓번호 등의 정보를 관리하고 있다고 가정한다. AdvPerson, OnSaleItem, Adverstising 은 스키마 로 XML형태의 질의가 필요하며 이벤트에 필요한 데이터의 중간과정을 저장하고 관리한다.
  • 변환되는 과정에서 문자열 형태의 키워드는 정수형으로 바뀐다. Sports Market Data에는 스포츠매장에 관한 정보들이 있으며, 각 매장의 고유마켓번호, 위치정보, 오픈시간, 전화번호, 주소 등의 정보를 관리하고 있다고 가정한다. Item Data에는 판매하는 품목들에 대한 정보를 가지고 있으며 상품번호, 상품명, 사이즈 및 치수, 가격, 세일중인지, 판매되는 고유마켓번호 등의 정보를 관리하고 있다고 가정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
MapReduce의 단점은? 맵리듀스의 혁신적인 부분은 데이터 집합에 대한 질의를 입력받아 분할한 후, 여러 개의 노드에서 병렬로 처리하는 분산처리로서 단일 장비에서 처리하기 부적합한 대규모 데이터의 문제를 해결한다. 하지만 맵리듀스의 경우 빅데이터의 빠른 처리를 위한 키(key) 값을 이용한 데이터 통합 및 집합, 분산처리 및 저장 등에 초점이 맞춰져 있어 물리적, 논리적으로 상이한 이기종 데이터 소스에 대한 데이터 통합이나 스키마 매칭 및 통합 기능이 없으므로 복합 이벤트 처리에는 적합하지 않다. 예를 들어 스포츠 매장에서 축구에 관심 있는 고객들에게 축구용품에 대한 광고를 해주도록 요구할 수 있다.
SNS가 활성화된 배경은? 최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다.
빅데이터의 가치창출을 높이기 위해서는 무엇이 필요한가? 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. J. Dean, S. Ghemawat, 2008, "MapReduce; Simplified Data Processing on Large Clusters", Communications of the ACM, vol. 51, no 1, pp.107-113. 

  2. Y. Diao, Neil Immerman, Daniel Gyllstrom, 2007, "SASE+: An Agile Language for Kleene Closure over Event Streams," In UMass Technical Report 07-03. 

  3. B. Gedik, L. Liu, 2004, "ModiEyes: Distributed processing of continously moving queries on moving objects in a mobile system," Adavances in Database Techonology, vol. 2992, pp67-87. 

  4. S. Ghemawat, H. Gobioff, S. Leung. 2003, "The Google file system," In Proc of ACM Symposium on Operating Systems Principles, Lake George, NY, Oct, pp29-43. 

  5. D. Gyllstroml, E. Wu, H. Chae, Y. Diao, P. Stahlberg, G. Anderson, 2007, "SASE: Complex Event Processing over Streams," In CIDR' 07, Asilomar, CA, USA. 

  6. H. Hu, J. Xu and D.L. Lee, 2005, "A generic framework for monitoring continuous spatial queries over moving objects," Proc. of the ACM SIGMOD International Conference on Management of Data, pp. 479-490. 

  7. McKinsey, 2011, "Big Data: The Next Frontier for Innovation, Competition, and Productivity", [Online] McKinsey & Compnay, http:// www. mckinsey.com/. 

  8. Apache Hadoop, http://hadoop.apache.org/, 2012 

  9. "Complex Event Processing with Coral8 Final," 2009, http://www.microsoft.com/. 

  10. "StreamBase Pattern Matching language," 2009, StreamBase, http://www.streambase.com/ 

  11. SYBASE, http://infocenter.sybase.com/, 2012. 

  12. 강홍구, 박치민, 홍동숙, 한기준, 2007, "공간 센터 데이타의 효율적인 실시간 처리를 위한 공간 DSMS의 개발," 한국공간정보시스템학회지, 제9권, 제2호, pp.45-57. 

  13. 신재완, 2010, "u-GIS DSMS에서 이기종 데이터 처리를 위한 어댑터 설게 및 구현," 인하대학교대학원. 

  14. 박치민, 홍동숙, 박춘걸, 한기준, 2006, "STREAM을 기반으로 하는 공간 DSMS의 설계 및 구현," 한국공간정보시스템학회 추계학술대회 U-방재 국토의 구현, pp.131-136. 

  15. 정원일, 신숭선, 백성하, 이연, 이동욱, 김경배, 이충호, 김주완, 배해영, 2009, "u-GIS 컴퓨팅을 위한 GeoSensor 데이터 스트림 처리 시스템," 한국공간정보시스템학회지, 제11권, 제1호, pp.9-16. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로