빅데이터가 폭주하고 있는 현재 데이터들 사이의 차이점과 유사성 통하여 데이터를 분류하고 가치 데이터를 추출함에 있어서 딥러닝 기술은 학습을 통한 패턴을 찾고 데이터에 대한 분류를 할 수 있는 강력한 기술로 인정받고 있다. 글로벌 세계에서 다수의 IT 기업들은 빅데이터를 분석할 수 있는 딥러닝 기술에 대한 연구에 집중하고 있고, 구글, 아마존, 야후 및 마이크로소프트웨어와 같은 IT 거장들은 이미 빅데이터의 시장을 장악하기 위한 다양하고 효과적인 분석 기술을 연구 개발하였으며, 비즈니스 발굴, 사람들 사이의 ...
빅데이터가 폭주하고 있는 현재 데이터들 사이의 차이점과 유사성 통하여 데이터를 분류하고 가치 데이터를 추출함에 있어서 딥러닝 기술은 학습을 통한 패턴을 찾고 데이터에 대한 분류를 할 수 있는 강력한 기술로 인정받고 있다. 글로벌 세계에서 다수의 IT 기업들은 빅데이터를 분석할 수 있는 딥러닝 기술에 대한 연구에 집중하고 있고, 구글, 아마존, 야후 및 마이크로소프트웨어와 같은 IT 거장들은 이미 빅데이터의 시장을 장악하기 위한 다양하고 효과적인 분석 기술을 연구 개발하였으며, 비즈니스 발굴, 사람들 사이의 의사 결정에 미칠 수 있는 정보 추출 및 사물 인식과 같은 딥러닝기반 빅데이터 분석을 통한 사업화를 추진하고 있다. 딥러닝 알고리즘은 높은 수준의 추상화 데이터 표현을 위한 머신 러닝의 알고리즘 집합으로 복잡한 데이터 사이의 연관관계를 추측할 수 있는 고도화된 소프트웨어 기술이다. 이런 기술은 대용량 데이터에서 복잡한 패턴에서 의미 정보 추출, 고속 정보 수집, 데이터 분류 및 시맨틱 인덱싱과 같은 효율적인 빅데이터 분석 결과를 보여주고 있다. 그러나 딥러닝은 최적화된 가치데이터 추출에 있어서 학습을 위한 엄청난 시간이 수요되고, 특히 단일 GPU를 이용한 컴퓨팅환경에서 SGD(stochastic gradient descent)를 이용한 가치데이터 추출에 있어서는 며칠간의 학습 시간이 필요 된다. 또한 다중 GPU를 이용한 딥러닝환경을 구성함에 있어서 아래와 같은 문제점이 있다. 딥러닝에 사용되는 GPU는 학습을 위한 데이터 저장에 있어서 소규모 데이터만 메모리에 관리할 수 있다. 그리고 CPU에서 GPU로 데이터 전송에 있어서 효율적이지 못하고, GPU 가격이 비싼 이유로 수백만의 parameter를 가진 거대한 딥러닝 모델 구성에 있어서 GPU를 이용하여 빅데이터 분석하기 여간 쉽지 안은 환경이다. 이상과 같은 문제점을 해결하기 휘하여 본 논문은 클러스터 컴퓨터 환경을 구축하고 Apache Spark를 활용한 딥러닝 프레임워크를 제안한다. 클러스터 컴퓨터는 GPU를 이용한 딥러닝 모델과 비슷한 성능을 제공할 수 있고, 일반적인 클러스터 컴퓨터는 딥러닝 모델을 위해 구매해야 되는 고가의 GPU보다 저렴한 비용으로 구성될 수 있고, 확장 가능한 병렬 플랫폼을 통하여 효과적인 딥네트워크 학습이 가능하다. 또한 본 논문은 딥러닝을 이용한 최적화된 컴퓨팅 기술을 제공하기 위하여 Apache Spark를 활용한다. Apache Spark는 대용량 데이터를 실시간으로 처리할 수 있는 프레임워크를 제공함으로써 많은 빅데이터 분석 서비스에 활용되고 있고, 이런 Apache Spark를 클러스터 기반의 딥러닝 모델에 활용함으로써 학습시간을 단축하는 등 최적화된 딥러닝 환경을 구성할 수 있다. 본 논문에서 제안한 프레임워크는 분산 모델을 통한 데이터 복제, SGD 제공, 클러스터 환경에서 HDFS에 데이터 저장과 같은 기반기술을 통하여 딥러닝 모델을 구성하여 트레닝에 필요한 시간을 단축한다. 그 우수성은 클러스터 기반의 컴퓨팅 환경에서 다양한 딥러닝 프로그램을 이용한 실험과 성능평가를 통하여 보여진다.
빅데이터가 폭주하고 있는 현재 데이터들 사이의 차이점과 유사성 통하여 데이터를 분류하고 가치 데이터를 추출함에 있어서 딥러닝 기술은 학습을 통한 패턴을 찾고 데이터에 대한 분류를 할 수 있는 강력한 기술로 인정받고 있다. 글로벌 세계에서 다수의 IT 기업들은 빅데이터를 분석할 수 있는 딥러닝 기술에 대한 연구에 집중하고 있고, 구글, 아마존, 야후 및 마이크로소프트웨어와 같은 IT 거장들은 이미 빅데이터의 시장을 장악하기 위한 다양하고 효과적인 분석 기술을 연구 개발하였으며, 비즈니스 발굴, 사람들 사이의 의사 결정에 미칠 수 있는 정보 추출 및 사물 인식과 같은 딥러닝기반 빅데이터 분석을 통한 사업화를 추진하고 있다. 딥러닝 알고리즘은 높은 수준의 추상화 데이터 표현을 위한 머신 러닝의 알고리즘 집합으로 복잡한 데이터 사이의 연관관계를 추측할 수 있는 고도화된 소프트웨어 기술이다. 이런 기술은 대용량 데이터에서 복잡한 패턴에서 의미 정보 추출, 고속 정보 수집, 데이터 분류 및 시맨틱 인덱싱과 같은 효율적인 빅데이터 분석 결과를 보여주고 있다. 그러나 딥러닝은 최적화된 가치데이터 추출에 있어서 학습을 위한 엄청난 시간이 수요되고, 특히 단일 GPU를 이용한 컴퓨팅환경에서 SGD(stochastic gradient descent)를 이용한 가치데이터 추출에 있어서는 며칠간의 학습 시간이 필요 된다. 또한 다중 GPU를 이용한 딥러닝환경을 구성함에 있어서 아래와 같은 문제점이 있다. 딥러닝에 사용되는 GPU는 학습을 위한 데이터 저장에 있어서 소규모 데이터만 메모리에 관리할 수 있다. 그리고 CPU에서 GPU로 데이터 전송에 있어서 효율적이지 못하고, GPU 가격이 비싼 이유로 수백만의 parameter를 가진 거대한 딥러닝 모델 구성에 있어서 GPU를 이용하여 빅데이터 분석하기 여간 쉽지 안은 환경이다. 이상과 같은 문제점을 해결하기 휘하여 본 논문은 클러스터 컴퓨터 환경을 구축하고 Apache Spark를 활용한 딥러닝 프레임워크를 제안한다. 클러스터 컴퓨터는 GPU를 이용한 딥러닝 모델과 비슷한 성능을 제공할 수 있고, 일반적인 클러스터 컴퓨터는 딥러닝 모델을 위해 구매해야 되는 고가의 GPU보다 저렴한 비용으로 구성될 수 있고, 확장 가능한 병렬 플랫폼을 통하여 효과적인 딥네트워크 학습이 가능하다. 또한 본 논문은 딥러닝을 이용한 최적화된 컴퓨팅 기술을 제공하기 위하여 Apache Spark를 활용한다. Apache Spark는 대용량 데이터를 실시간으로 처리할 수 있는 프레임워크를 제공함으로써 많은 빅데이터 분석 서비스에 활용되고 있고, 이런 Apache Spark를 클러스터 기반의 딥러닝 모델에 활용함으로써 학습시간을 단축하는 등 최적화된 딥러닝 환경을 구성할 수 있다. 본 논문에서 제안한 프레임워크는 분산 모델을 통한 데이터 복제, SGD 제공, 클러스터 환경에서 HDFS에 데이터 저장과 같은 기반기술을 통하여 딥러닝 모델을 구성하여 트레닝에 필요한 시간을 단축한다. 그 우수성은 클러스터 기반의 컴퓨팅 환경에서 다양한 딥러닝 프로그램을 이용한 실험과 성능평가를 통하여 보여진다.
Deep Learning architectures, such as deep neural networks, are currently the hottest emerging areas of data science, especially in Big Data. Big Data has become a vital area of research and development as many tech giants such as Google, Amazon, Yahoo, Microsoft and others, have collected and mainta...
Deep Learning architectures, such as deep neural networks, are currently the hottest emerging areas of data science, especially in Big Data. Big Data has become a vital area of research and development as many tech giants such as Google, Amazon, Yahoo, Microsoft and others, have collected and maintained massive amounts of data for business analysis and decisions, influencing current and future technology. Deep Learning algorithms could infer complex, high-level abstractions from the unstructured raw data via a hierarchical learning process. Deep Learning could be effectively exploited to address the challenging problems in Big Data, including discovering complex patterns from enormous volumes of data, fast information retrieval, data classification, semantic indexing and so on. However, given the scale of these optimization problems, training could be time consuming, often requiring several days on a single GPU by exploiting optimization algorithms like SGD. For this reason, many attempts have been employed to exploit the computational resources of a cluster to accelerate the training of deep networks (and more generally to perform distributed optimization). Furthermore, large deep learning models with millions of parameters using GPUs can be hard to exploit for several reasons, e.g., most GPUs can only hold a relatively small amount of data in its memory and CPU-to-GPU data transfer is very slow, last but not least, GPUs are expensive, both to buy and rent (even by cloud GPU provider). Depending on an application it can be very slow that it actually invalidates the speed-up that the GPU provides. A popular alternative to the farm of GPUs is a cluster of computers constructed using a group of networked commodity servers. Cluster computers have the benefit that they are relatively low-cost to construct in comparison to a farm of GPUs, and also provide a highly scalable parallel platform in which deep networks can be efficiently trained. The main objective of this work is to achieve the merits of Deep Learning explained above and we designed and implemented a framework to train deep neural networks using Spark, fast and general data flow engine for large scale data processing. The ubiquity of Apache Spark implementations in the wild could provide an ideal vehicle for the mass training of deep neural networks, if such a framework could, indeed, be leveraged. The design is similar to Google software framework called DistBelief which can utilize computing clusters with thousands of machines to train large scale deep networks. As stated earlier, training deep learning models, deep neural networks, requires extensive data and computation. Our proposed framework can accelerate the training time by distributing the model replicas, stochastic gradient descent, among cluster nodes for data resided on HDFS. Proposed system is tested and experimented in cluster environment and several deep learning applications are designed and run on top of our proposed system to show the efficiency of the system.
Deep Learning architectures, such as deep neural networks, are currently the hottest emerging areas of data science, especially in Big Data. Big Data has become a vital area of research and development as many tech giants such as Google, Amazon, Yahoo, Microsoft and others, have collected and maintained massive amounts of data for business analysis and decisions, influencing current and future technology. Deep Learning algorithms could infer complex, high-level abstractions from the unstructured raw data via a hierarchical learning process. Deep Learning could be effectively exploited to address the challenging problems in Big Data, including discovering complex patterns from enormous volumes of data, fast information retrieval, data classification, semantic indexing and so on. However, given the scale of these optimization problems, training could be time consuming, often requiring several days on a single GPU by exploiting optimization algorithms like SGD. For this reason, many attempts have been employed to exploit the computational resources of a cluster to accelerate the training of deep networks (and more generally to perform distributed optimization). Furthermore, large deep learning models with millions of parameters using GPUs can be hard to exploit for several reasons, e.g., most GPUs can only hold a relatively small amount of data in its memory and CPU-to-GPU data transfer is very slow, last but not least, GPUs are expensive, both to buy and rent (even by cloud GPU provider). Depending on an application it can be very slow that it actually invalidates the speed-up that the GPU provides. A popular alternative to the farm of GPUs is a cluster of computers constructed using a group of networked commodity servers. Cluster computers have the benefit that they are relatively low-cost to construct in comparison to a farm of GPUs, and also provide a highly scalable parallel platform in which deep networks can be efficiently trained. The main objective of this work is to achieve the merits of Deep Learning explained above and we designed and implemented a framework to train deep neural networks using Spark, fast and general data flow engine for large scale data processing. The ubiquity of Apache Spark implementations in the wild could provide an ideal vehicle for the mass training of deep neural networks, if such a framework could, indeed, be leveraged. The design is similar to Google software framework called DistBelief which can utilize computing clusters with thousands of machines to train large scale deep networks. As stated earlier, training deep learning models, deep neural networks, requires extensive data and computation. Our proposed framework can accelerate the training time by distributing the model replicas, stochastic gradient descent, among cluster nodes for data resided on HDFS. Proposed system is tested and experimented in cluster environment and several deep learning applications are designed and run on top of our proposed system to show the efficiency of the system.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.