빅데이터 시대를 맞이하여 일상 어느 곳에서건 수많은 종류의 데이터들이 발생하고 있다. 이렇게 발생된 데이터들은 다방면으로 수집되고 있으며, 그에 대한 다양한 분석들이 이루어지고 있다. 데이터의 크기가 늘어남에 따라 기존의 데이터베이스로 처리하는 데에는 한계가 나타났고, 이를 해결하는 새로운 빅데이터 기술들이 쏟아지고 있다. 본 논문은 교통분야에서 발생하고 있는 빅데이터를 신속하고 효율적으로 분석하기 위하여 Apache Spark를 활용하여 교통빅데이터 분석 시스템을 제안하였다. 또한 시스템의 처리성능을 평가하기 위해 대안이 되는 시스템들과의 처리속도를 비교 평가하였다. 기존의 단일머신 환경하에서 구축된 교통데이터 분석시스템을 빅데이터 환경으로 이전하는 과정은 ETL도구인 Talend를 사용하였고, 데이터의 저장은 ...
빅데이터 시대를 맞이하여 일상 어느 곳에서건 수많은 종류의 데이터들이 발생하고 있다. 이렇게 발생된 데이터들은 다방면으로 수집되고 있으며, 그에 대한 다양한 분석들이 이루어지고 있다. 데이터의 크기가 늘어남에 따라 기존의 데이터베이스로 처리하는 데에는 한계가 나타났고, 이를 해결하는 새로운 빅데이터 기술들이 쏟아지고 있다. 본 논문은 교통분야에서 발생하고 있는 빅데이터를 신속하고 효율적으로 분석하기 위하여 Apache Spark를 활용하여 교통빅데이터 분석 시스템을 제안하였다. 또한 시스템의 처리성능을 평가하기 위해 대안이 되는 시스템들과의 처리속도를 비교 평가하였다. 기존의 단일머신 환경하에서 구축된 교통데이터 분석시스템을 빅데이터 환경으로 이전하는 과정은 ETL도구인 Talend를 사용하였고, 데이터의 저장은 하둡, 분석은 인메모리 기반의 분산병렬처리를 지원하는 Spark를 사용하였다. 분석 결과를 시각적으로 보여주기 위하여 Zeppelin을 사용하여 다양한 차트를 보여 주었다. 단일 머신에서의 성능 평가는 MSSQL, DB2, Hive, Tajo에 대하여 수행되었다. 성능평가 결과 인메모리 기반인 Spark와 DB2의 성능이 가장 우수한 것으로 나타났다. 클러스터 환경에서의 성능평가는 분산컴퓨팅이 가능한 Spark, Hive, Tajo 3가지로 한정하여 수행하였다. 성능평가 결과 Spark가 가장 빠른 성능을 보여주었다. 종합하면 인메모리 기반의 솔루션들이 가장 좋은 성능을 보여 주었고, 그 중 인메모리 분산처리가 가능한 Spark의 성능이 모든 환경에서 가장 좋은 성능을 보여주었다.
빅데이터 시대를 맞이하여 일상 어느 곳에서건 수많은 종류의 데이터들이 발생하고 있다. 이렇게 발생된 데이터들은 다방면으로 수집되고 있으며, 그에 대한 다양한 분석들이 이루어지고 있다. 데이터의 크기가 늘어남에 따라 기존의 데이터베이스로 처리하는 데에는 한계가 나타났고, 이를 해결하는 새로운 빅데이터 기술들이 쏟아지고 있다. 본 논문은 교통분야에서 발생하고 있는 빅데이터를 신속하고 효율적으로 분석하기 위하여 Apache Spark를 활용하여 교통빅데이터 분석 시스템을 제안하였다. 또한 시스템의 처리성능을 평가하기 위해 대안이 되는 시스템들과의 처리속도를 비교 평가하였다. 기존의 단일머신 환경하에서 구축된 교통데이터 분석시스템을 빅데이터 환경으로 이전하는 과정은 ETL도구인 Talend를 사용하였고, 데이터의 저장은 하둡, 분석은 인메모리 기반의 분산병렬처리를 지원하는 Spark를 사용하였다. 분석 결과를 시각적으로 보여주기 위하여 Zeppelin을 사용하여 다양한 차트를 보여 주었다. 단일 머신에서의 성능 평가는 MSSQL, DB2, Hive, Tajo에 대하여 수행되었다. 성능평가 결과 인메모리 기반인 Spark와 DB2의 성능이 가장 우수한 것으로 나타났다. 클러스터 환경에서의 성능평가는 분산컴퓨팅이 가능한 Spark, Hive, Tajo 3가지로 한정하여 수행하였다. 성능평가 결과 Spark가 가장 빠른 성능을 보여주었다. 종합하면 인메모리 기반의 솔루션들이 가장 좋은 성능을 보여 주었고, 그 중 인메모리 분산처리가 가능한 Spark의 성능이 모든 환경에서 가장 좋은 성능을 보여주었다.
Big data era has arrived and various kinds of data are generating in everywhere in our daily life. Collection and analysis have been performed for the big data generated in this way. Since conventional database technology has a clear limitation in the storage and management for the big data, various...
Big data era has arrived and various kinds of data are generating in everywhere in our daily life. Collection and analysis have been performed for the big data generated in this way. Since conventional database technology has a clear limitation in the storage and management for the big data, various big data technologies have been developed rapidly. In this thesis, we constructed a transportation big data analysis system based on Apache Spark big data platform. Legacy transportation system in a single machine is transformed into Spark big data system for performance enhancement. In the transformation, various big data technologies such as ETL tool, big data management, analysis, and visualization, have been utilized. For performance evaluation, we constructed a transformation big data analysis system for each platform (MSSQL, DB2, Hive, Tajo, Spark) and evaluated typical analysis queries for real transportation big data. In a single machine environment, we evaluated performance evaluation for MSSQL, DB2, Hive, and Tajo packages. The result shows that Spark and DB2 outperform other packages. In multiple machine (cluster) environment, we constructed big data systems in Spark, Hive, and Tajo. The result shows that Spark has the fastest performance than others. In summary, in memory based platforms show the best performance and among them Spark is the best one.
Big data era has arrived and various kinds of data are generating in everywhere in our daily life. Collection and analysis have been performed for the big data generated in this way. Since conventional database technology has a clear limitation in the storage and management for the big data, various big data technologies have been developed rapidly. In this thesis, we constructed a transportation big data analysis system based on Apache Spark big data platform. Legacy transportation system in a single machine is transformed into Spark big data system for performance enhancement. In the transformation, various big data technologies such as ETL tool, big data management, analysis, and visualization, have been utilized. For performance evaluation, we constructed a transformation big data analysis system for each platform (MSSQL, DB2, Hive, Tajo, Spark) and evaluated typical analysis queries for real transportation big data. In a single machine environment, we evaluated performance evaluation for MSSQL, DB2, Hive, and Tajo packages. The result shows that Spark and DB2 outperform other packages. In multiple machine (cluster) environment, we constructed big data systems in Spark, Hive, and Tajo. The result shows that Spark has the fastest performance than others. In summary, in memory based platforms show the best performance and among them Spark is the best one.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.