컴퓨팅 기술의 비약적인 발전과 무선통신 기술의 발전에 힘입어 무선네트워크로 연결된 위치기반 센서 노드들에서 수집되는 시공간데이터를 활용한 응용에 대한 요구가 증가하고 있다.
이런 응용 요구 중 대표적인 경우로 환경 생태계 감시시스템 등에서 센서 네트워크상에서 수집된 시공간데이터가 유용하게 사용될 수 있으며 이를 처리하기 위한 시공간 센서 데이터 처리 시스템에 대한 연구가 활발히 일어나고 있다. 그러나, 기존 ...
컴퓨팅 기술의 비약적인 발전과 무선통신 기술의 발전에 힘입어 무선네트워크로 연결된 위치기반 센서 노드들에서 수집되는 시공간데이터를 활용한 응용에 대한 요구가 증가하고 있다.
이런 응용 요구 중 대표적인 경우로 환경 생태계 감시시스템 등에서 센서 네트워크상에서 수집된 시공간데이터가 유용하게 사용될 수 있으며 이를 처리하기 위한 시공간 센서 데이터 처리 시스템에 대한 연구가 활발히 일어나고 있다. 그러나, 기존 쿼리 처리 시스템은 시공간 데이터 타입과 시공간 연산자를 제공하지 않아 시공간 연산 처리에 미흡하며, 센서노드의 특성으로 인한 실시간 처리에 한계가 있으며 이로 인해 기존 쿼리 처리 시스템은 센서 노드들의 에너지 절감, 메모리 절감, 통신 대역폭 감소 등을 위한 에너지 효율적인 처리 방법에 중점을 두고 많은 연구가 이루어져 왔으며 또한 전송 비용을 최소화하기 위하여 중앙 집중식 처리 방법보다는 인-네트워크 처리 방법에 대한 연구가 활발히 이루어져 왔다. 인-네트워크 쿼리 배포 및 쿼리 결과 전송시 통신 비용을 최소화하기 위한 기술로는 노드간 라우팅 기술, 쿼리시 죠인 전략 등과 같은 쿼리 처리 기술 등이 있으며 데이터 저장 방식도 지역 저장 방식(local storage), 데이터 중심 저장 방식(Data Centric Storage)을 선호해 왔다.
한편, 외부 저장 방식(External Storage)을 사용하여 중앙집중식으로 기지국이나 베이스 스테이션에서 데이터를 저장 후 처리하는 방식도 있다. 지금까지의 연구는 무선네트워크의 통신 비용을 감소시키기 위하여 통신 대역폭을 줄이는 방향으로 활발한 연구를 진행해 왔지만 사용자의 복잡한 쿼리 처리, 과거 데이터 처리 및 이력 데이터 저장 등 정보로서의 가치를 향상시키고자 하는 요구가 증가함에 따라 외부 저장 방식에 의한 중앙집중방식의 처리가 필요하게 되었다.
따라서, 본 논문에서는 이런 두 가지 측면의 요구를 모두 만족할 수 있는 하이브리드 방식을 제안한다. 인-네트워크 쿼리시 성능을 향상시키기 위한 방안을 기존 시스템에 도입하여 단순한 쿼리 처리가 필요시 in-network 처리 방식으로 효율적인 전위(front-end)시스템을 사용하고 사용자의 다양하고 복잡한 쿼리 및 빅데이터 분석시 분산저장 및 병렬처리를 지원하며 다양한 분석이 가능한 시스템을 후위(back-end)시스템으로 제안하였다.
전위(front-end)시스템의 성능을 향상시키기 위하여 기존 쿼리 처리 시스템에 시공간 데이터 타입과 시공간 연산자를 추가 확장하여 시공간 연산을 효율적으로 할 수 있도록 하였으며 시공간 쿼리 처리 시스템의 성능을 향상시키기 위하여 입력 필터링처리 모듈과 메모리 공유 모듈을 적용하여 기존 시스템의 성능을 개선하였다.
후위(back-end)시스템은 센서 노드의 특성에 의한 처리 능력의 한계, 저장 능력의 한계를 극복하고 수집된 데이터에 대한 다양한 빅데이터 분석을 하기 위해서 대용량 데이터를 분산 저장하고 처리시 빠른 결과를 얻기 위해 병렬 처리 방식을 지원해 주는 하둡 기반 플랫폼 기술을 도입하여 빅데이터 처리 및 분석이 가능한 플랫폼을 제안하였다.
다양한 센서로 부터 수집되는 시공간데이터들은 양(Volume), 유입 속도(Velocity), 다양성(Variety)의 세 가지 특징을 모두 가진 빅데이터로 볼 수 있으며 이에 대한 처리 및 분석 기술이 필수로 요구된다. 빅데이터 처리는 수집(Aggregator), 저장(Storage), 처리(Processing), 분석(Analysis), 표현(Visualization)의 5단계로 이루어지며, 방대한 양의 빅데이터를 처리하게 된다. 간단한 프로세스처럼 보이지만 거대한 데이터의 양을 처리하고 분석하려면 첨단 핵심 기술들이 필요하다. 따라서, 분산 빅데이터 처리를 위해 적합한 Hadoop ECO System과, 빅데이터 분석을 위한 회귀분석, 군집분석, 시계열 분석 등의 다양한 분석 기술은 R을 사용하여 Hadoop시스템과 연동되어 구동되며 본 논문의 핵심 기술로써 활용된다. 다양한 시공간 센서 데이터들은 통신 프로토콜 기반으로 센서들로부터 수집되고 이는 센서 네트워크 라우팅 기술들을 이용하여 중앙 서버에 수집된다. 본 논문에서 연구 개발한 하둡 기반 시공간 센서 데이터 처리 시스템은 수집, 저장, 처리, 분석, 표현의 5단계를 거쳐 데이터를 처리한다. 그리고 수집 과정에서는 Oracle 같은 RDB로 부터 정형화된 대량 데이터를 전송하기 위해 Sqoop과 센서들의 비정형 데이터를 수집하기 위해 Flume을 적용하였다. 저장 과정에서는 대용량 파일을 분산 저장하고 병렬 처리하기 위하여 Hadoop HDFS와 MapReduce를 적용하였다. 그리고 빅데이터 분석을 위한 사전 처리 과정에서는 MapReduce와 구동을 위한 고급언어인 Pig와 SQL과 유사한 쿼리 인터페이스를 제공하는 Hive를 사용하여 데이터 요약, 쿼리 및 분석을 수행하였다. 마지막으로, 분석 및 표현 과정에서는 다양한 통계 분석 및 분석 결과의 시각화를 위해 R을 제안플랫폼에 처음으로 적용하여 사용하였다. 본 논문에서 제안한 빅데이터 기반 시공간 센서 데이터 처리 시스템은 센서에서 발생한 데이터를 수집하고 저장하여 이를 분석하고 그 결과에 따라 주요 의사 결정을 하는 응용시스템에서 활용가능하며 WSN의 후위(back-end)시스템은 정보계시스템으로 유용한 시스템임을 플랫폼 평가에서 보여주었다. 향후 연구 방향으로는 수집 저장된 시공간데이터를 가지고 다양한 분석을 할 수 있도록 빅데이터 분석 모델 개발에 대한 연구가 지속적으로 이루어져야 한다고 본다.
컴퓨팅 기술의 비약적인 발전과 무선통신 기술의 발전에 힘입어 무선네트워크로 연결된 위치기반 센서 노드들에서 수집되는 시공간데이터를 활용한 응용에 대한 요구가 증가하고 있다.
이런 응용 요구 중 대표적인 경우로 환경 생태계 감시시스템 등에서 센서 네트워크상에서 수집된 시공간데이터가 유용하게 사용될 수 있으며 이를 처리하기 위한 시공간 센서 데이터 처리 시스템에 대한 연구가 활발히 일어나고 있다. 그러나, 기존 쿼리 처리 시스템은 시공간 데이터 타입과 시공간 연산자를 제공하지 않아 시공간 연산 처리에 미흡하며, 센서노드의 특성으로 인한 실시간 처리에 한계가 있으며 이로 인해 기존 쿼리 처리 시스템은 센서 노드들의 에너지 절감, 메모리 절감, 통신 대역폭 감소 등을 위한 에너지 효율적인 처리 방법에 중점을 두고 많은 연구가 이루어져 왔으며 또한 전송 비용을 최소화하기 위하여 중앙 집중식 처리 방법보다는 인-네트워크 처리 방법에 대한 연구가 활발히 이루어져 왔다. 인-네트워크 쿼리 배포 및 쿼리 결과 전송시 통신 비용을 최소화하기 위한 기술로는 노드간 라우팅 기술, 쿼리시 죠인 전략 등과 같은 쿼리 처리 기술 등이 있으며 데이터 저장 방식도 지역 저장 방식(local storage), 데이터 중심 저장 방식(Data Centric Storage)을 선호해 왔다.
한편, 외부 저장 방식(External Storage)을 사용하여 중앙집중식으로 기지국이나 베이스 스테이션에서 데이터를 저장 후 처리하는 방식도 있다. 지금까지의 연구는 무선네트워크의 통신 비용을 감소시키기 위하여 통신 대역폭을 줄이는 방향으로 활발한 연구를 진행해 왔지만 사용자의 복잡한 쿼리 처리, 과거 데이터 처리 및 이력 데이터 저장 등 정보로서의 가치를 향상시키고자 하는 요구가 증가함에 따라 외부 저장 방식에 의한 중앙집중방식의 처리가 필요하게 되었다.
따라서, 본 논문에서는 이런 두 가지 측면의 요구를 모두 만족할 수 있는 하이브리드 방식을 제안한다. 인-네트워크 쿼리시 성능을 향상시키기 위한 방안을 기존 시스템에 도입하여 단순한 쿼리 처리가 필요시 in-network 처리 방식으로 효율적인 전위(front-end)시스템을 사용하고 사용자의 다양하고 복잡한 쿼리 및 빅데이터 분석시 분산저장 및 병렬처리를 지원하며 다양한 분석이 가능한 시스템을 후위(back-end)시스템으로 제안하였다.
전위(front-end)시스템의 성능을 향상시키기 위하여 기존 쿼리 처리 시스템에 시공간 데이터 타입과 시공간 연산자를 추가 확장하여 시공간 연산을 효율적으로 할 수 있도록 하였으며 시공간 쿼리 처리 시스템의 성능을 향상시키기 위하여 입력 필터링 처리 모듈과 메모리 공유 모듈을 적용하여 기존 시스템의 성능을 개선하였다.
후위(back-end)시스템은 센서 노드의 특성에 의한 처리 능력의 한계, 저장 능력의 한계를 극복하고 수집된 데이터에 대한 다양한 빅데이터 분석을 하기 위해서 대용량 데이터를 분산 저장하고 처리시 빠른 결과를 얻기 위해 병렬 처리 방식을 지원해 주는 하둡 기반 플랫폼 기술을 도입하여 빅데이터 처리 및 분석이 가능한 플랫폼을 제안하였다.
다양한 센서로 부터 수집되는 시공간데이터들은 양(Volume), 유입 속도(Velocity), 다양성(Variety)의 세 가지 특징을 모두 가진 빅데이터로 볼 수 있으며 이에 대한 처리 및 분석 기술이 필수로 요구된다. 빅데이터 처리는 수집(Aggregator), 저장(Storage), 처리(Processing), 분석(Analysis), 표현(Visualization)의 5단계로 이루어지며, 방대한 양의 빅데이터를 처리하게 된다. 간단한 프로세스처럼 보이지만 거대한 데이터의 양을 처리하고 분석하려면 첨단 핵심 기술들이 필요하다. 따라서, 분산 빅데이터 처리를 위해 적합한 Hadoop ECO System과, 빅데이터 분석을 위한 회귀분석, 군집분석, 시계열 분석 등의 다양한 분석 기술은 R을 사용하여 Hadoop시스템과 연동되어 구동되며 본 논문의 핵심 기술로써 활용된다. 다양한 시공간 센서 데이터들은 통신 프로토콜 기반으로 센서들로부터 수집되고 이는 센서 네트워크 라우팅 기술들을 이용하여 중앙 서버에 수집된다. 본 논문에서 연구 개발한 하둡 기반 시공간 센서 데이터 처리 시스템은 수집, 저장, 처리, 분석, 표현의 5단계를 거쳐 데이터를 처리한다. 그리고 수집 과정에서는 Oracle 같은 RDB로 부터 정형화된 대량 데이터를 전송하기 위해 Sqoop과 센서들의 비정형 데이터를 수집하기 위해 Flume을 적용하였다. 저장 과정에서는 대용량 파일을 분산 저장하고 병렬 처리하기 위하여 Hadoop HDFS와 MapReduce를 적용하였다. 그리고 빅데이터 분석을 위한 사전 처리 과정에서는 MapReduce와 구동을 위한 고급언어인 Pig와 SQL과 유사한 쿼리 인터페이스를 제공하는 Hive를 사용하여 데이터 요약, 쿼리 및 분석을 수행하였다. 마지막으로, 분석 및 표현 과정에서는 다양한 통계 분석 및 분석 결과의 시각화를 위해 R을 제안플랫폼에 처음으로 적용하여 사용하였다. 본 논문에서 제안한 빅데이터 기반 시공간 센서 데이터 처리 시스템은 센서에서 발생한 데이터를 수집하고 저장하여 이를 분석하고 그 결과에 따라 주요 의사 결정을 하는 응용시스템에서 활용가능하며 WSN의 후위(back-end)시스템은 정보계시스템으로 유용한 시스템임을 플랫폼 평가에서 보여주었다. 향후 연구 방향으로는 수집 저장된 시공간데이터를 가지고 다양한 분석을 할 수 있도록 빅데이터 분석 모델 개발에 대한 연구가 지속적으로 이루어져야 한다고 본다.
The application demand of spatio-temporal wireless sensor data due to the development of the computing related technology and the wireless sensor network is rapidly increasing. The spatio-temporal data collected in the sensor network can be used in various fields like environmental monitoring system...
The application demand of spatio-temporal wireless sensor data due to the development of the computing related technology and the wireless sensor network is rapidly increasing. The spatio-temporal data collected in the sensor network can be used in various fields like environmental monitoring system, fire detection system, weather forecasting system and so on. Also the study on the query processing of these sensed data is actively being done. Among these query systems, there are Tiny DB and spatial TinyDB which were developed to process the query about the sensed data by the sensor node. But the existing query processing system does not support efficiently the spatio-temporal data type and the spatio-temporal operator to handle this kind of spatio-temporal data and there are some limits in the real time processing to deal with it efficiently, which are derived from the limited computing power resources of sensor node such as processor, memory and the battery. Due to this kind of problem, the existing study was focused on the area of the reduction of communication cost in the sensor network by reducing the communicaton bandwidth, saving the energy and reducing the use of flash memory. So the technology of in-network query processing to process the user query rather than the centralized query processing was mainly studied. The representative technology studied so far is routing protocol, query processing technique like joining strategy and data storing method such as local storage and data centric storage. The centralized query processing is the external processing way out of the network after collecting and saving the sensed data in the base station or sink node. The centralized data processing way can be preferred to the in-network processing for the complex query and big data analysis using the collected data. So in my thesis, I propose the combined way called hybrid way to meet these two needs. The way to improve the performance and efficiency in in-network processing was added to the existing query processing system to get the result of ad-hoc query efficiently as a front-end system and also I proposed the centralized processing system as a back-end system to get the result of complex query efficiently using the saved sensed data or historical data for the further big data analysis. I deployed and proposed the spatio-temporal data type and its operator in the existing spatial tinyDB for the efficient query by following the OGC(Open Geospatial Consortium) suggestion. Aso I proposed the input filtering module, memory sharing module to improve the performance of query in the front-end system. The back-end system to process the collected sensed data in a centralized way to overcome the limits of sensor node such as processor power, small memory and battery is also strongly needed for big data processing and analysis like regression analysis, correlation analysis, cluster analysis and time series analysis by distributing the sensed data and using the parallel processing. So in my thesis I proposed and implemented the Hadoop based sensor data processing system as a back-end system platform to address these kind of needs. The spatio-temporal data collecting from the various type of sensor node can be classified as a big data in the viewpoint of 3 characteristics of big data which are volume, velocity and variety, so the technology to process and analyse this big data is strongly needed. The process of big data is comprised of five steps which are the stage of aggregator, storage, processing, analysis and visualization and the big amount of data is handled at a time. At a glance, it looks like very simple but it requires high technology to go ahead for the in-depth analysis. So in this paper the Hadoop based back-end processing system supporting the distributed file system, parallel processing and the visualization processing using R program was introduced and suggested. The Hadoop based spatio-temporal sensor data processing system which is designed and implemented in this paper processes the big data through 5 steps consisting of aggregating, storing, processing, analysing and visualizing. The HDFS was adopted as a distributing file system and MapReduce was used to process the data parallely. And in the pre-refining stage of big data, the Pig and Hive which runs over the Hadoop was used and in the final stage the R program was used to analyse the big data and show the result visually. First in all, user defined spatio-temporal data type and its opertor was defined and used in the analysis step using R for the first time and the test result showed this proposed system can be useful in the various application.
The application demand of spatio-temporal wireless sensor data due to the development of the computing related technology and the wireless sensor network is rapidly increasing. The spatio-temporal data collected in the sensor network can be used in various fields like environmental monitoring system, fire detection system, weather forecasting system and so on. Also the study on the query processing of these sensed data is actively being done. Among these query systems, there are Tiny DB and spatial TinyDB which were developed to process the query about the sensed data by the sensor node. But the existing query processing system does not support efficiently the spatio-temporal data type and the spatio-temporal operator to handle this kind of spatio-temporal data and there are some limits in the real time processing to deal with it efficiently, which are derived from the limited computing power resources of sensor node such as processor, memory and the battery. Due to this kind of problem, the existing study was focused on the area of the reduction of communication cost in the sensor network by reducing the communicaton bandwidth, saving the energy and reducing the use of flash memory. So the technology of in-network query processing to process the user query rather than the centralized query processing was mainly studied. The representative technology studied so far is routing protocol, query processing technique like joining strategy and data storing method such as local storage and data centric storage. The centralized query processing is the external processing way out of the network after collecting and saving the sensed data in the base station or sink node. The centralized data processing way can be preferred to the in-network processing for the complex query and big data analysis using the collected data. So in my thesis, I propose the combined way called hybrid way to meet these two needs. The way to improve the performance and efficiency in in-network processing was added to the existing query processing system to get the result of ad-hoc query efficiently as a front-end system and also I proposed the centralized processing system as a back-end system to get the result of complex query efficiently using the saved sensed data or historical data for the further big data analysis. I deployed and proposed the spatio-temporal data type and its operator in the existing spatial tinyDB for the efficient query by following the OGC(Open Geospatial Consortium) suggestion. Aso I proposed the input filtering module, memory sharing module to improve the performance of query in the front-end system. The back-end system to process the collected sensed data in a centralized way to overcome the limits of sensor node such as processor power, small memory and battery is also strongly needed for big data processing and analysis like regression analysis, correlation analysis, cluster analysis and time series analysis by distributing the sensed data and using the parallel processing. So in my thesis I proposed and implemented the Hadoop based sensor data processing system as a back-end system platform to address these kind of needs. The spatio-temporal data collecting from the various type of sensor node can be classified as a big data in the viewpoint of 3 characteristics of big data which are volume, velocity and variety, so the technology to process and analyse this big data is strongly needed. The process of big data is comprised of five steps which are the stage of aggregator, storage, processing, analysis and visualization and the big amount of data is handled at a time. At a glance, it looks like very simple but it requires high technology to go ahead for the in-depth analysis. So in this paper the Hadoop based back-end processing system supporting the distributed file system, parallel processing and the visualization processing using R program was introduced and suggested. The Hadoop based spatio-temporal sensor data processing system which is designed and implemented in this paper processes the big data through 5 steps consisting of aggregating, storing, processing, analysing and visualizing. The HDFS was adopted as a distributing file system and MapReduce was used to process the data parallely. And in the pre-refining stage of big data, the Pig and Hive which runs over the Hadoop was used and in the final stage the R program was used to analyse the big data and show the result visually. First in all, user defined spatio-temporal data type and its opertor was defined and used in the analysis step using R for the first time and the test result showed this proposed system can be useful in the various application.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.