[논문]Apache Spark를 활용한 교통빅데이터 분석 및 처리성능 평가

김상호

Apache Spark를 활용한 교통빅데이터 분석 및 처리성능 평가 원문보기

김상호 (충북대학교 비즈니스데이터융합학과 국내석사)

초록 ▼
AI-Helper

빅데이터 시대를 맞이하여 일상 어느 곳에서건 수많은 종류의 데이터들이 발생하고 있다. 이렇게 발생된 데이터들은 다방면으로 수집되고 있으며, 그에 대한 다양한 분석들이 이루어지고 있다. 데이터의 크기가 늘어남에 따라 기존의 데이터베이스로 처리하는 데에는 한계가 나타났고, 이를 해결하는 새로운 빅데이터 기술들이 쏟아지고 있다. 본 논문은 교통분야에서 발생하고 있는 빅데이터를 신속하고 효율적으로 분석하기 위하여 Apache Spark를 활용하여 교통빅데이터 분석 시스템을 제안하였다. 또한 시스템의 처리성능을 평가하기 위해 대안이 되는 시스템들과의 처리속도를 비교 평가하였다. 기존의 단일머신 환경하에서 구축된 교통데이터 분석시스템을 빅데이터 환경으로 이전하는 과정은 ETL도구인 Talend를 사용하였고, 데이터의 저장은 하둡, 분석은 인메모리 기반의 분산병렬처리를 지원하는 Spark를 사용하였다. 분석 결과를 시각적으로 보여주기 위하여 Zeppelin을 사용하여 다양한 차트를 보여 주었다. 단일 머신에서의 성능 평가는 MSSQL, DB2, Hive, Tajo에 대하여 수행되었다. 성능평가 결과 인메모리 기반인 Spark와 DB2의 성능이 가장 우수한 것으로 나타났다. 클러스터 환경에서의 성능평가는 분산컴퓨팅이 가능한 Spark, Hive, Tajo 3가지로 한정하여 수행하였다. 성능평가 결과 Spark가 가장 빠른 성능을 보여주었다. 종합하면 인메모리 기반의 솔루션들이 가장 좋은 성능을 보여 주었고, 그 중 인메모리 분산처리가 가능한 Spark의 성능이 모든 환경에서 가장 좋은 성능을 보여주었다.

Abstract ▼ AI-Helper

Big data era has arrived and various kinds of data are generating in everywhere in our daily life. Collection and analysis have been performed for the big data generated in this way. Since conventional database technology has a clear limitation in the storage and management for the big data, various big data technologies have been developed rapidly. In this thesis, we constructed a transportation big data analysis system based on Apache Spark big data platform. Legacy transportation system in a single machine is transformed into Spark big data system for performance enhancement. In the transformation, various big data technologies such as ETL tool, big data management, analysis, and visualization, have been utilized. For performance evaluation, we constructed a transformation big data analysis system for each platform (MSSQL, DB2, Hive, Tajo, Spark) and evaluated typical analysis queries for real transportation big data. In a single machine environment, we evaluated performance evaluation for MSSQL, DB2, Hive, and Tajo packages. The result shows that Spark and DB2 outperform other packages. In multiple machine (cluster) environment, we constructed big data systems in Spark, Hive, and Tajo. The result shows that Spark has the fastest performance than others. In summary, in memory based platforms show the best performance and among them Spark is the best one.

주제어

학위논문 정보

저자	김상호
학위수여기관	충북대학교
학위구분	국내석사
학과	비즈니스데이터융합학과
지도교수	조완섭
발행연도	2015
총페이지	vii,47 p.
키워드	Apache Spark 스파크 OLAB 데이터웨어하우스
언어	kor
원문 URL	http://www.riss.kr/link?id=T13840413&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Apache Spark를 활용한 교통빅데이터 분석 및 처리성능 평가 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Apache Spark를 활용한 교통빅데이터 분석 및 처리성능 평가 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper