[논문]딥 러닝을 위한 HW 시스템 및 SW 라이브러리

정우근; 김정욱; 다오탄뚜안; 박정호; 박지영; 신재호; 정재훈; 조강원; 김희훈; 남형욱; 이재진

딥 러닝을 위한 HW 시스템 및 SW 라이브러리 원문보기

정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers, v.34 no.9 = no.328, 2016년, pp.10 - 20

정우근 (서울대학교) , 김정욱 (서울대학교) , 다오탄뚜안 (서울대학교) , 박정호 (서울대학교) , 박지영 (서울대학교) , 신재호 (서울대학교) , 정재훈 (서울대학교) , 조강원 (서울대학교) , 김희훈 (서울대학교) , 남형욱 (서울대학교) , 이재진 (서울대학교)

초록이 없습니다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

특히 단일 GPU, 다중 GPU 사용 시 현재 어느 정도까지 최적화가 진행되었는지 실험을 통해 파악한다. 그리고 각 라이브러리가 클러스터, 타 가속기 등을 지원할 계획이 있는지에 대해 간략하게 소개한다.
입력 데이터는 임의로 생성한 이미지 데이터를 사용하였다. 본 실험의 목적은 인공 신경망의 정확도(accuracy)를 보고자 하는 것이 아니라 라이브러리의 성능 및 GPU 활용 정도를 분석하는 것이기 때문에, 임의로 생성한 데이터를 사용하여도 별다른 문제가 없다. 학습 기 법은 SGD를 사용하였으며, 실험에 따라 한 번에 256, 512, 1024개씩 이미지를 배치(batch)로 학습시킨다.
본고는 널리 사용되는 딥 러닝 라이브러리들을 중심으로 GPU 지원 현황에 대해 분석한다. 특히 단일 GPU, 다중 GPU 사용 시 현재 어느 정도까지 최적화가 진행되었는지 실험을 통해 파악한다.
본고는 딥 러닝에 사용되는 HW 시스템의 현 동향을 파악하고 현재 널리 사용되고 있는 SW 라이브러리들의 장단점 및 한계를 확인한다. 또 앞으로 딥 러닝 라이브러리들이 중점을 두어야 할 지원 사항을 살펴본다.
본고는 딥 러닝을 위한 HW 시스템과 SW 라이브러리의 동향을 알아보았고, 이들의 문제점 및 이를 해결하기 위한 연구 방향을 도출하였다. 딥 러닝의 정확도를 높이기 위해 점차 높은 성능의 HW 시스템을 필요로 하는 추세이며, NVIDIA GPU를 사용한 딥 러닝이 현재 큰 성공을 거두고 있다.
딥 러닝의 정확도를 높이기 위해 점차 높은 성능의 HW 시스템을 필요로 하는 추세이며, NVIDIA GPU를 사용한 딥 러닝이 현재 큰 성공을 거두고 있다. 전력 효율을 높이기 위해 새로운 구조의 가속기가 연구.개발되고 있으며, 성능을 더욱 높이기 위해 여러 개의 가속기를 장착하거나 클러스터를 구성하여 딥 러닝을 수행하는 연구가 진행되고 있다.

제안 방법

구현하였다. TensorFlow, Theano의 경우 각 라이브러리가 제공하는 Python API를 사용한 실험용 프로그램을 작성하였고, Torch는 라이브러리가 제공하는 Lua API를 사용하여 코드를 작성하였다. Caffe의 경우 Caffe가 제공하는 인공신경망 모델 정의 스크립트인 prototxt[30]를 사용하여 실험을 수행하였다.
및 소프트웨어 버전 정보이다. 각 라이브러리는 cuDNN을 통해 GPU를 활용하도록 설정하였다. 성능 분석 시에는 NVIDIA에서 제공하는 프로파일러인 nvprof를 사용하였다.
다중 GPU를 사용하는 실험의 경우, 각 GPU에 서로 다른 입력 데이터를 나눠 주는 방식으로 병렬화를 수행하였다. 예를 들어 이미지 배치의 크기가 256이고 GPU를 4개 사용할 경우 각 GPU에서는 한 배치마다 64개씩 이미지를 처리하게 된다.
실험용 프로그램은 각 라이브러리에서 제공하는 튜토리 얼 코드에 기반을 두고 작성하였으며, 라이브러리가 지원하는 기본적인 기능만을 사용하여 구현하였다. TensorFlow, Theano의 경우 각 라이브러리가 제공하는 Python API를 사용한 실험용 프로그램을 작성하였고, Torch는 라이브러리가 제공하는 Lua API를 사용하여 코드를 작성하였다.
SnuCL을 사용할 경우 클러스터를 위한 딥 러닝 라이브러리의 개발이 훨씬 간단해진다. 우선 OpenCL로 cuDNN과 유사한 동작을 수행하는 딥 러닝 라이브러리를 개발하고 다중 GPU를 지원하도록 구현을 확장한다. 구현한 OpenCL 라이브러리를 SnuCL을 사용하여 클러스터 상에서 실행하면, 마치 하나의 컴퓨터 위에서 딥 러닝 라이브러리가 실행되듯이 클러스터를 활용할 수 있다.
GPU 지원 현황에 대해 분석한다. 특히 단일 GPU, 다중 GPU 사용 시 현재 어느 정도까지 최적화가 진행되었는지 실험을 통해 파악한다. 그리고 각 라이브러리가 클러스터, 타 가속기 등을 지원할 계획이 있는지에 대해 간략하게 소개한다.
본 실험의 목적은 인공 신경망의 정확도(accuracy)를 보고자 하는 것이 아니라 라이브러리의 성능 및 GPU 활용 정도를 분석하는 것이기 때문에, 임의로 생성한 데이터를 사용하여도 별다른 문제가 없다. 학습 기 법은 SGD를 사용하였으며, 실험에 따라 한 번에 256, 512, 1024개씩 이미지를 배치(batch)로 학습시킨다.

대상 데이터

AlexNet은 5개의 컨볼루션층(convolutional layer)과 3개의 완전 연결 층(fiilly connected layer)으로 이루어져 있으며, 현재 사용되는 컨볼루션 기반 인공 신경망은 대부분 AlexNet과 유사한 구조를 가지고 있다. 입력 데이터는 임의로 생성한 이미지 데이터를 사용하였다. 본 실험의 목적은 인공 신경망의 정확도(accuracy)를 보고자 하는 것이 아니라 라이브러리의 성능 및 GPU 활용 정도를 분석하는 것이기 때문에, 임의로 생성한 데이터를 사용하여도 별다른 문제가 없다.

이론/모형

TensorFlow, Theano의 경우 각 라이브러리가 제공하는 Python API를 사용한 실험용 프로그램을 작성하였고, Torch는 라이브러리가 제공하는 Lua API를 사용하여 코드를 작성하였다. Caffe의 경우 Caffe가 제공하는 인공신경망 모델 정의 스크립트인 prototxt[30]를 사용하여 실험을 수행하였다.
각 라이브러리는 cuDNN을 통해 GPU를 활용하도록 설정하였다. 성능 분석 시에는 NVIDIA에서 제공하는 프로파일러인 nvprof를 사용하였다.
성능 측정은 AlexNet을 학습시키는 예제 어플리케이션을 사용하여 수행하였다[31]. AlexNet은 2012년 처음 발표된 이후로 가장 널리 사용되고 있는 이미지 인식용 인공 신경망 중 하나이다.

성능/효과

세부적인 실행시간을 살펴보면, Caffe와 TensorFlow 가 GPU 연산, 그 중에서도 컨볼루션 층을 처리하는 GPU 연산을 다른 라이브러리들에 비해 더 빠르게 처리하는 것을 확인할 수 있다. 이는 각 라이브러리가 내부적으로 서로 다른 cuDNN 함수를 사용하기 때문이다.
전체적으로 Caffe의 성능이 가장 좋음을 확인할 수 있다. 대부분의 경우 컨볼루션 층을 처리하는 GPU 연산이 전체 실행시간에서 가장 큰 부분을 차지하는 것을 확인할 수 있는데, 이는 AlexNet의 구조상 컨볼루션 층에서 처리하는 연산량이 전체 연산량의 대부분을 차지하기 때문이다.
전체적으로 여러 개의 GPU를 사용할 경우의 확장성이 매우 떨어지는 것을 확인할 수 있다. Caflfe의 경우 GPU 2개를 사용하는 경우에는 이미지 배치 크기에 따라 1.
이는 GPU 간에 학습 결과를 주고받는 데 걸리는 통신 시간 때문인 것으로 분석된다. 프로파일링 결과에 따르면, GPU 2개 시용 시 전체 실행시간의 40%가 GPU 간 통신에 소모되는 반면, GPU 4개 사용 시에는 전체 실행시간의 65%가 GPU 간 통신에 소모된다. TensorFlow의 경우 배치 크기가 충분히 크지 않을 경우에 GPU 여 러 개를 사용하면 GPU 1 개를 사용하는 경우보다 오히려 성능이 더 떨어지는 것을 확인할 수 있다.

후속연구

있다. 이러한 라이브러리들은 사용자가 실제 하드웨어 시스템에 대해 신경 쓰지 않고도 다양한 딥 러닝 기법들을 연구하고 활용할 수 있도록 한다. 대표적인 라이브러리로 UC 버클리 대학에서 개발한 Caffe[10], 구글에서 발표한 TensorFlow[ll], 몬트리올 대힉.
하드웨어의 동향과 소프트웨어의 발전 방향을 잘 고려하여 딥 러닝 분야에서 영속성 있는 원천기술이 국내에서 개발되고, 딥 러닝 분야를 선도할 수 있기를 기대한다.

참고문헌 (48)

Rivera, J., "Gartner Reveals Top Predictions for IT Organizations and Users for 2014 and Beyond," Gartner, 2013. http://www.gartner.com/newsroom/id/2603215
Woods, V., "Gartner Identifies the Top 10 Strategic Technology Trends for 2016," Gartner, 2015. http://www.gartner.com/newsroom/id/3143521
Google Scholar. https://scholar.google.com/
McCulloch, W. S. and Pitts, W., "A logical calculus of the ideas immanent in nervous activity," Bulletin of Mathematical Biophysics, vol. 5, no. 4, pp. 115-133, 1943.

상세보기
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D., "Backpropagation applied to handwritten zip code recognition," Neural Computation, vol. 1, no. 4, pp. 541-551, 1989.

상세보기
Birdsall, J. W., "The Sun Hardware Reference," 1995. http://www.sunhelp.org/faq/sunrefl.html
"NVIDIA Tesla P100," NVIDIA Whitepaper, 2016. https://images.nvidia.com/content/pdf/tesla/whitepaper/pascal-architecture-whitepaper.pdf
Min, S., Lee, B., and Yoon, S., "Deep Learning in Bioinformatics," arXiv preprint arXiv:1603.06430, 2016.
Fehrer, R. and Feuerriegel, S., "Improving Decision Analytics with Deep Learning: The Case of Financial Disclosures," arXiv preprint arXiv:1508.01993, 2015.
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., and Darrell, T., "Caffe: Convolutional Architecture for Fast Feature Embedding," Proceedings of the 22nd ACM International Conference on Multimedia, pp. 675-678, 2014.
Abadi, M. et al., "TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems," arXiv preprint arXiv:1603.04467, 2016
Bergstra, J., Bastien, F., Breuleux, O., Lamblin, P., Pascanu, R., Delalleau, O., Desjardins, G., Warde-Farley, D., Goodfellow, I., Bergeron, A., and Bengio, Y., "Theano: Deep Learning on GPUs with Python," Journal of Machine Learning Research, vol. 1, pp. 1-48, 2011.
Torch: A scientific computing framework for LuaJIT. http://torch.ch/
ImageNet. http://image-net.org/
Chetlur, S., Woolley, C., Vandermersch, P., Cohen, J., and Tran, J., "cuDNN: Efficient Primitives for Deep Learning," arXiv preprint arXiv:1410.0759, 2014.
Mathieu, M., Mikael H., and LeCun, Y., "Fast Training of Convolutional Networks through FFTs," arXiv preprint arXiv:1312.5851, 2013.
Jouppi, N., "Google supercharges machine learning tasks with TPU custom chip," Google Cloud Platform Blog, 2016. https://cloudplatform.googleblog.com/2016/05/Google-supercharges-machine-learning-tasks-with-custom-chip.html
Chen, Y., Luo, T., Liu, S., Zhang, S., He, L., Wang, J., Li, L., Chen, T., Xu, Z., Sun, N., and Temam, O., "DaDianNao: A Machine-Learning Supercomputer," Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture, pp. 609-622, 2014.
Lacey, G., Taylor, G. W., and Areibi, S., "Deep Learning on FPGAs: Past, Present, and Future," arXiv preprint arXiv: 1602.04283, 2016.
Ovtcharov, K., Ruwase, O., Fowers, J., Strauss, K., and Chung, E., "Accelerating Deep Convolutional Neural Networks Using Specialized Hardware," Microsoft Research Whitepaper, 2015. https://www.microsoft.com/en-us/research/publication/accelerating-deep-convolutional-neural-networks-using-specalized-hardware/
Dean, J., Corrado, G. S., Monga, R., Chen, K., Devin, M., Le, Q. V., Mao, M. Z., Ranzato, M., Senior, A., Tucker, P., Yang, K., and Ng, A. Y. "Large Scale Distributed Deep Networks," Advances in Neural Information Processing Systems, vol. 25, pp. 1232-1240, 2012.
Tallada, M. G., "Coarse Grain Parallelization of Deep Neural Networks," Proceedings of the 21st ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Article no. 1, 2016.
Wu, R., Yan, S., Shan, Y., Dang, Q., and Sun, G. "Deep Image: Scaling up Image Recognition," arXiv preprint arXiv: 1501.02876, 2015.
Adhikari, R., "Google, Movidius to Bring Deep Learning to Mobile Devices," Tech News World, 2016. http://www.technewsworld.com/story/83052.html
Qualcomm Zeroth Platform. https://www.qualcomm.com/invention/cognitive-technologies/zeroth
"GPU-Based Deep Learning Inference: A Performance and Power Analysis," NVIDIA Whitepaper, 2015. https://www.nvidia.com/content/tegra!embedded-systems/pdf/jetson_tx1_whitepaper.pdf
Han, S., Liu, X., Mao, H., Pu, J., Pedram, A., Horowitz, M. A., and Dally, W. J., "EIE: Efficient Inference Engine on Compressed Deep Neural Network," arXiv preprint arXiv:1602.01528, 2016.
Reagen, B., Whatmough, P., Adolf, R., Rama, S., Lee, H., Lee, S. K., Hernandez-Lobato, J. M., Wei, G.-Y, and Brooks, D., "Minerva: Enabling Low-Power, Highly-Accurate Deep Nerual Network Accelerators," Proceedings of the 43rd International Symposium on Computer Architecture, 2016.
LiKamWa, R., Hou, Y, Gao, J., Polansky, M., and Zhong, L., "RedEye: Analog ConvNet Image Sensor Architecture for Continuous Mobile Vision," Proceedings of the 43rd International Symposium on Computer Architecture, 2016.
Caffe tutorial. http://caffe.berkeleyvision.org/tutorial/layers.html
Krizhevsky, A., Sutskever, I., and Hinton, G. E., "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, 2012.
Lavin, A. and Gray, S., "Fast Algorithms for Convolutional Neural Networks," arXiv preprint arXiv: 1509.09308, 2015.
Smith, C., Nguyen, C. and De. U., "Distributed Tensor Flow: Scaling Google's Deep Learning Library on Spark," ARIMO, 2016. https://mimo.com/machine-learning/deepleaming/2016/arimo-distributed-tensorflow-on-spark/
Vishnu, A., Siegel, C., and Daily, J., "Distributed TensorFlow with MPI," arXiv preprint arXiv: 1603.02339, 2016.
Multi node caffe. https://github.com/BVLC/caffe/pull/3441
Elephas: Distributed Deep learning with Keras & Spark. https://github.com/maxpumperla/elephas/
IPC. https://github.com/twitter/torch-ipc
DistLearn. https://github.com/twitter/torch-distlearn
Using the GPU - Theano 0.8.2 documentation. http://deeplearning.net/software/theano/tutorial/using_gpu.html
cltorch. https://github.com/hughperkins/cltorch
OpenCL Caffe. https://github.com/BVLC/caffe/tree/opencl
tensorflow-opencl. https://github.com/benoitsteiner/tensorflow-opencl
OpenCL. https://www.khronos.org/opencl/
Song, F. and Dongarra, J. "A Scalable Framework for Heterogeneous GPU-Based Clusters," Proceedings of the twenty-fourth annual ACM symposium on parallelism in algorithms and architectures, pp. 91-100, 2012.
Dean, J. and Ghemawat, S. "Map Reduce: Simplified Data Processing on Large Clusters," Communications of the ACM, vol 51, no. 1, pp.107-113, 2008.

상세보기
Petitet, A., Whaley, R. C., Dongarra, J., and Cleary, A., "HPL - A Portable Implementation of the High-Performance Linpack Benchmark for Distributed Memory Computers," 2016. http://www.netlib.org/benchmark/hpl
Kim, J., Jo, G., Jung, J., Kim, J., and Lee, J., "A Distributed OpenCL Framework using Redundant Computation and Data Replication," Proceedings of the 37th ACM SIGPLAN Conference on Programming Language Design and Implementation, pp. 553-569, 2016.
Kim, J., Seo, S., Lee, J., Nah, J., Jo, G., and Lee, J., "SnuCL: An OpenCL Framework for Heterogeneous CPU/GPU Clusters," Proceedings of the 26th ACM International Conference on Supercomputing, pp. 341-351, 2012.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증