[논문]빅데이터 애플리케이션을 위한 아파치 스파크 기반 분산 딥러닝 프레임워크

아메도브, 쿠모윤 마루요노비치

빅데이터 애플리케이션을 위한 아파치 스파크 기반 분산 딥러닝 프레임워크
SPARK BASED DISTRIBUTED DEEP LEARNING FRAMEWORK FOR BIG DATA APPLICATIONS 원문보기

아메도브, 쿠모윤 마루요노비치 (건국대학교 대학원 인터넷·미디어공학과 국내석사)

초록 ▼
AI-Helper

빅데이터가 폭주하고 있는 현재 데이터들 사이의 차이점과 유사성 통하여 데이터를 분류하고 가치 데이터를 추출함에 있어서 딥러닝 기술은 학습을 통한 패턴을 찾고 데이터에 대한 분류를 할 수 있는 강력한 기술로 인정받고 있다. 글로벌 세계에서 다수의 IT 기업들은 빅데이터를 분석할 수 있는 딥러닝 기술에 대한 연구에 집중하고 있고, 구글, 아마존, 야후 및 마이크로소프트웨어와 같은 IT 거장들은 이미 빅데이터의 시장을 장악하기 위한 다양하고 효과적인 분석 기술을 연구 개발하였으며, 비즈니스 발굴, 사람들 사이의 의사 결정에 미칠 수 있는 정보 추출 및 사물 인식과 같은 딥러닝기반 빅데이터 분석을 통한 사업화를 추진하고 있다. 딥러닝 알고리즘은 높은 수준의 추상화 데이터 표현을 위한 머신 러닝의 알고리즘 집합으로 복잡한 데이터 사이의 연관관계를 추측할 수 있는 고도화된 소프트웨어 기술이다. 이런 기술은 대용량 데이터에서 복잡한 패턴에서 의미 정보 추출, 고속 정보 수집, 데이터 분류 및 시맨틱 인덱싱과 같은 효율적인 빅데이터 분석 결과를 보여주고 있다. 그러나 딥러닝은 최적화된 가치데이터 추출에 있어서 학습을 위한 엄청난 시간이 수요되고, 특히 단일 GPU를 이용한 컴퓨팅환경에서 SGD(stochastic gradient descent)를 이용한 가치데이터 추출에 있어서는 며칠간의 학습 시간이 필요 된다. 또한 다중 GPU를 이용한 딥러닝환경을 구성함에 있어서 아래와 같은 문제점이 있다. 딥러닝에 사용되는 GPU는 학습을 위한 데이터 저장에 있어서 소규모 데이터만 메모리에 관리할 수 있다. 그리고 CPU에서 GPU로 데이터 전송에 있어서 효율적이지 못하고, GPU 가격이 비싼 이유로 수백만의 parameter를 가진 거대한 딥러닝 모델 구성에 있어서 GPU를 이용하여 빅데이터 분석하기 여간 쉽지 안은 환경이다. 이상과 같은 문제점을 해결하기 휘하여 본 논문은 클러스터 컴퓨터 환경을 구축하고 Apache Spark를 활용한 딥러닝 프레임워크를 제안한다. 클러스터 컴퓨터는 GPU를 이용한 딥러닝 모델과 비슷한 성능을 제공할 수 있고, 일반적인 클러스터 컴퓨터는 딥러닝 모델을 위해 구매해야 되는 고가의 GPU보다 저렴한 비용으로 구성될 수 있고, 확장 가능한 병렬 플랫폼을 통하여 효과적인 딥네트워크 학습이 가능하다. 또한 본 논문은 딥러닝을 이용한 최적화된 컴퓨팅 기술을 제공하기 위하여 Apache Spark를 활용한다. Apache Spark는 대용량 데이터를 실시간으로 처리할 수 있는 프레임워크를 제공함으로써 많은 빅데이터 분석 서비스에 활용되고 있고, 이런 Apache Spark를 클러스터 기반의 딥러닝 모델에 활용함으로써 학습시간을 단축하는 등 최적화된 딥러닝 환경을 구성할 수 있다. 본 논문에서 제안한 프레임워크는 분산 모델을 통한 데이터 복제, SGD 제공, 클러스터 환경에서 HDFS에 데이터 저장과 같은 기반기술을 통하여 딥러닝 모델을 구성하여 트레닝에 필요한 시간을 단축한다. 그 우수성은 클러스터 기반의 컴퓨팅 환경에서 다양한 딥러닝 프로그램을 이용한 실험과 성능평가를 통하여 보여진다.

Abstract ▼ AI-Helper

Deep Learning architectures, such as deep neural networks, are currently the hottest emerging areas of data science, especially in Big Data. Big Data has become a vital area of research and development as many tech giants such as Google, Amazon, Yahoo, Microsoft and others, have collected and maintained massive amounts of data for business analysis and decisions, influencing current and future technology. Deep Learning algorithms could infer complex, high-level abstractions from the unstructured raw data via a hierarchical learning process. Deep Learning could be effectively exploited to address the challenging problems in Big Data, including discovering complex patterns from enormous volumes of data, fast information retrieval, data classification, semantic indexing and so on. However, given the scale of these optimization problems, training could be time consuming, often requiring several days on a single GPU by exploiting optimization algorithms like SGD. For this reason, many attempts have been employed to exploit the computational resources of a cluster to accelerate the training of deep networks (and more generally to perform distributed optimization). Furthermore, large deep learning models with millions of parameters using GPUs can be hard to exploit for several reasons, e.g., most GPUs can only hold a relatively small amount of data in its memory and CPU-to-GPU data transfer is very slow, last but not least, GPUs are expensive, both to buy and rent (even by cloud GPU provider). Depending on an application it can be very slow that it actually invalidates the speed-up that the GPU provides. A popular alternative to the farm of GPUs is a cluster of computers constructed using a group of networked commodity servers. Cluster computers have the benefit that they are relatively low-cost to construct in comparison to a farm of GPUs, and also provide a highly scalable parallel platform in which deep networks can be efficiently trained. The main objective of this work is to achieve the merits of Deep Learning explained above and we designed and implemented a framework to train deep neural networks using Spark, fast and general data flow engine for large scale data processing. The ubiquity of Apache Spark implementations in the wild could provide an ideal vehicle for the mass training of deep neural networks, if such a framework could, indeed, be leveraged. The design is similar to Google software framework called DistBelief which can utilize computing clusters with thousands of machines to train large scale deep networks. As stated earlier, training deep learning models, deep neural networks, requires extensive data and computation. Our proposed framework can accelerate the training time by distributing the model replicas, stochastic gradient descent, among cluster nodes for data resided on HDFS. Proposed system is tested and experimented in cluster environment and several deep learning applications are designed and run on top of our proposed system to show the efficiency of the system.

학위논문 정보

저자	아메도브, 쿠모윤 마루요노비치
학위수여기관	건국대학교 대학원
학위구분	국내석사
학과	인터넷·미디어공학과
지도교수	이한구
발행연도	2016
총페이지	64 p.
언어	eng
원문 URL	http://www.riss.kr/link?id=T14164485&outLink=K
정보원	한국교육학술정보원

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

빅데이터 애플리케이션을 위한 아파치 스파크 기반 분산 딥러닝 프레임워크
SPARK BASED DISTRIBUTED DEEP LEARNING FRAMEWORK FOR BIG DATA APPLICATIONS 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

빅데이터 애플리케이션을 위한 아파치 스파크 기반 분산 딥러닝 프레임워크 SPARK BASED DISTRIBUTED DEEP LEARNING FRAMEWORK FOR BIG DATA APPLICATIONS 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

빅데이터 애플리케이션을 위한 아파치 스파크 기반 분산 딥러닝 프레임워크
SPARK BASED DISTRIBUTED DEEP LEARNING FRAMEWORK FOR BIG DATA APPLICATIONS 원문보기

초록 ▼
AI-Helper