[논문]슈퍼컴퓨터를 이용한 빅 데이터 분석 중심의 HPC 기술 전망

조강원; 김정현; 다오탄뚜안; 정우근; 박정호; 이용준; 김홍준; 정재훈; 신재호; 이재진

[국내논문] 슈퍼컴퓨터를 이용한 빅 데이터 분석 중심의 HPC 기술 전망 원문보기

정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers, v.34 no.2, 2016년, pp.31 - 42

조강원 (서울대학교) , 김정현 (서울대학교) , 다오탄뚜안 (서울대학교) , 정우근 (서울대학교) , 박정호 (서울대학교) , 이용준 (서울대학교) , 김홍준 (서울대학교) , 정재훈 (서울대학교) , 신재호 (서울대학교) , 이재진 (서울대학교)

초록이 없습니다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본고는 우선 빅 데이터 분석에 슈퍼컴퓨터가 사용되는 여러가지 사례와 현재의 기술적 어려움들을 살펴본다. 이를 바탕으로 향후 엑사스케일 슈퍼컴퓨터기술이 어떤 방향으로 나아가야 하는지에 대해 논의한다.
본고에서는 많은 양의 계산을 필요로 하는 대표적인 빅 데이터 분석 분야인 딥 러닝, 보건의료, 그래프 탐색에 대하여 알아보고, 빅 데이터의 실시간 처리. 분석을 위해 요구되는 엑사스케일 슈퍼컴퓨터의 아키텍처 및 프로그래밍 모델에 대해 논의하였다.
처리. 분석을 위해 요구되는 엑사스케일 슈퍼컴퓨터의 아키텍처 및 프로그래밍 모델에 대해 논의하였다.
앞서 도출한 엑사스케일 슈퍼컴퓨터 아키텍처에서 빅 데이터 분석 애플리케이션을 쉽게 작성하고 빠르게 실행시키기 위해서는, 프로그래밍 모델이 어떤 조건을 갖추어야 하고 어떤 기술이 필요할지를 본 절에서 논한다.
이를 바탕으로 향후 엑사스케일 슈퍼컴퓨터기술이 어떤 방향으로 나아가야 하는지에 대해 논의한다. 슈퍼컴퓨터 기술은 프로세서와 메모리 등의 하드웨어 요소기술부터 사용자 애플리케이션에 이르기까지 매우 넓은 범위를 아우른다.

가설 설정

. 하드웨어적인 문제는 GPU의 메모리가 작고 GPU를 연결하는 PCI-E 통신이 느린 것이다. 이종 슈퍼컴퓨터에서 딥 러닝을 수행할 때는 그림 1과같이 GPU가 인공신경망의 서로 다른 부분을 나누어 담당하며, 한 GPU가 맡은 부분의 출력을 다른 GPU가 맡은 부분의 입력으로 전달하기 위한 통신이 빈번하게 일어난다.

제안 방법

앞에서 살펴본 몇 가지 대표적인 빅 데이터 분석사례들을 종합하여, 미래의 엑사스케일 슈퍼컴퓨터에서 빅 데이터를 실시간으로 처리.분석하기 위해 필요한 시스템 아키텍처를 다음과 같이 정리할 수 있다.

대상 데이터

예를 들어 오늘날 x86 및 ARM 프로세서에 널리 채택되어 멀티미디어 처리 등의 용도로 사용되는 SSE, AVX, NEON 등의 SIMD 연산들은 과거 슈퍼 컴퓨터에서 널리 사용되던 벡터 프로세서의 유산이다. 또한 과거 슈퍼컴퓨터를 대상으로 연구 . 개발된 병렬화 컴파일러 기술이 지금은 스마트폰에도 적용되고 있다.
딥 러닝의 대표적인 성공 사례로스탠포드 대학교와 구글(Google)의 연구팀이 2012년에 인공신경망을 사용하여 이미지에서 사람 얼굴, 사람 몸, 고양이를 인식해 낸 연구를 꼽을 수 있다[6]. 여기에서 사용된 인공신경망은 10억 개의 파라미터를 가지고 있으며, 유튜브(YouTube) 동영상에서 추출한 1000만 개의 이미지가 트레이닝 셋으로 사용되었다. 이를 학습시키기 위해 총 CPU 코어 수가 16, 000개이고 노드 수가 1, 000개인 슈퍼컴퓨터가 사용되었다.
여기에서 사용된 인공신경망은 10억 개의 파라미터를 가지고 있으며, 유튜브(YouTube) 동영상에서 추출한 1000만 개의 이미지가 트레이닝 셋으로 사용되었다. 이를 학습시키기 위해 총 CPU 코어 수가 16, 000개이고 노드 수가 1, 000개인 슈퍼컴퓨터가 사용되었다.

성능/효과

첫째로 빅 데이터가 등장하면서 인공신경망을 학습시키기 위한 대규모 트레이닝 셋(training set)을확보하는 것이 가능해졌다. 둘째로, 과거보다 컴퓨터의 계산 성능이 좋아지면서 인공신경망을 구성하는 많은 수의 파라미터들을 짧은 시간 안에 학습시킬 수 있게 되었다. 기본적으로 인공신경망은 파라미터 수가 늘어나고 트레이닝 셋이 커질수록 학습 결과가 좋다.
슈퍼컴퓨터의 전력소모를 줄이는 것은 데이터센터의 기반시설 구축비용 및 운영비용과 직결되는 중요한 문제이다. 에너지 효율이 높은 이종 슈퍼컴퓨터를 사용함으로써 빅 데이터 분석 비용을 크게 절감할 수 있다.
수 있다. 첫째로 빅 데이터가 등장하면서 인공신경망을 학습시키기 위한 대규모 트레이닝 셋(training set)을확보하는 것이 가능해졌다. 둘째로, 과거보다 컴퓨터의 계산 성능이 좋아지면서 인공신경망을 구성하는 많은 수의 파라미터들을 짧은 시간 안에 학습시킬 수 있게 되었다.

후속연구

. 앞으로는 실시간으로 계속해서 생산되는 빅 데이터를 빠르게 분석하고 유의미한 정보를 얻어내는 것이 국가, 기업, 혹은 기관의 경쟁력으로 이어질 것이다. 이를 위해서는 슈퍼컴퓨터의 충분한 계산 성능이 뒷받침되어야 한다.
실용성 있는 고성능컴퓨터 원천기반 기술의 연구.개발이 국내에서 활발히 이루어져 고성능컴퓨팅 기술 후진국의 오명을 씻고 세계와 경쟁할 수 있기를 기대해 본다.
따라서 굳이 한 가지 가속기만 장착하고 여기서 모든 계산 작업을 실행하기보다는, 범용 CPU와 여러 종류의 가속기를 함께 장착하고 각 워크로드의 특성에 따라 최적의 가속기 혹은 CPU를 선택하는 것이 좋으리라 판단된다. 예를 들어, 슈퍼컴퓨터를 구성하는 각 노드에 멀티코어 CPU와 GPU, FTOA를 함께 장착할 수 있다.
앞으로 빅 데이터 분석과정이 고도화됨에 따라 사람이 손으로 직접 최적화를 하기 점점 어려워질 것이다. 따라서 향후 연구개발을 통해 복잡한 빅 데이터 분석 애플리케이션에서도 지능화된 실행 시스템(runtime system)이 자동으로 위와 같은 최적화를 수행할 수 있도록 해야 한다.
현재 세계 최상위권 슈퍼컴퓨터들의 계산 성능은 수-수십 PFLOPS(1015 FLoating-point Operations per Second)에 달한다. 또한 2020년 전후로 엑사스케일(exascale) 슈퍼컴퓨터, 즉 계산 성능이 1018 FLOPS 이상인 컴퓨터가 등장할 것이라 전망된다[1].
이를 위해서는 지금보다 더 복잡한 데이터를 다루고 더 정확한 결과를 얻어낼 수 있어야 한다. 또한 누적되어 가는 빅 데이터를 계속 실시간으로 추가적으로(incrementally) 학습하는 능력도 중요해질 것이다. 이를 위해 지금보다 규모와 계산 성능이 크게 높은 이종 슈퍼컴퓨터에서 딥 러닝을 수행할 수 있어야 한다.
아직까지는 각각의 데이터가 단편적으로 수집.분석되고 있지만, 향후 모든 데이터를 종합적으로 분석하고 유의미한 정보를 추출하는 기술이 확보될 것이다. 이 경우 빅 데이터는 복잡한 데이터 분석 파이프라인을 거쳐 필요한 정보로 가공되며, 이 파이프라인은 다양한 워크로드를 포함한다.
앞으로 딥 러닝은, 빅 데이터에서 패턴을 찾아내고 분석하는 유용한 도구로써 지금보다 더 많은 분야에서 사용될 것이라 전망된다. 이를 위해서는 지금보다 더 복잡한 데이터를 다루고 더 정확한 결과를 얻어낼 수 있어야 한다.
이러한 슈퍼컴퓨터의 최근 추세에 부합하여, 빅 데이터 분석도 가속기를 장착한 이종 고성능컴퓨터 시스템을 널리 사용할 것이라 기대된다. 그 이유는 다음과 같다.
다양한 종류의 가속기를 한데 사용할 수 있도록 OpenCL과같은 표준 프로그래밍 모델을 제공되고, 여기에 더하여 빅 데이터 분석 작업을 빠르게 개발.테스트하기 위한 쉬운 프로그래밍 모델이 추가로 제공될 것으로 보인다.
왔다. 하지만 여러 노드에 워크로드를 균등하게 나누는 것이 어렵고 계산량에 비해 많은 통신이 필요하기 때문에 여전히 성능을 높이기 위한 추가 연구가 필요한 상황이다.

참고문헌 (38)

P. Kogge et al. "ExaScale Computing Study: Technology Challenges in Achieving Exascale Systems," DARPA, 2008.http://www.cse.nd.edu/Reports/2008/TR-2008- 13.pdf
V. Anantharaj, F. Foertter, W. Joubert and J. Wells. "APPROACHING EXASCALE: Application Requirements for OLCF Leadership Computing," Oak Ridge Leadership Computing Facility Technical Report ORNL/TM-2013/186, 2013. https://www.olcf.ornl.gov/ media-center/center-reports/
TOP500 Supercomputer Sites. http://top500.org/
U.S. Department of Energy. "Synergistic Challenges in Data-Intensive Science and Exascale Computing," DOE ASCAC Data Subcommittee Report, 2013. http://science.energy.gov/-/media/ascr/ascac/pdf/repor ts/2013/ASCAC_Data_Intensive_Computing_report_f inal.pdf
D. A. Reed and J. Dongarra. "Exascale Computing and Big Data," Communications of the ACM, Vol. 58, No. 7, pp. 56-68, 2015.

상세보기
Q. V. Le, M. Ranzato, R. Monga, M. Devin, K. Chen, G. S. Corrado, J. Dean and A. Y. Ng. "Building High-level Features Using Large Scale Unsupervised Learning," Proceedings of the 29th International Conference on Machine Learning, pp. 81-88, 2012.
A. Coates, B. Huval, T. Wang, D. J. Wu, A. Y. Ng, and B. Catanzaro. "Deep learning with COTS HPC systems," Proceedings of the 30th International Conference on Machine Learning, pp. 1337-1345, 2013.
R. Wu, S. Yan, Y. Shan, Q. Dang and G. Sun. "Deep Image: Scaling up Image Recognition," arXiv preprint arXiv: 1501.02876, 2015.
K. Ovtcharov, O. Ruwase, J.-Y. Kim, J. Fowers, K. Strauss and E. S. Chung. "Accelerating Deep Convolutional Neural Networks Using Specialized Hardware," Microsoft Research, 2015. http://research.microsoft.com/en-us/projects/catapult/
Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama and T. Darrell. "Caffe: Convolutional Architecture for Fast Feature Embedding," Proceedings of the 22nd ACM International Conference on Multimedia, pp. 675-678, 2014.
M. Abadi et al. "TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems," TensorFlow White Paper, 2015. https://www.tensorflow.org/
Precision Medicine Initiative Cohort Program. https://www.nih.gov/precision-medicine-initiative-coh ort-program
D. Ferrucci, A. Levas, S. Bagchi, D. Gondek and E. T. Mueller. "Watson: Beyond Jeopardy!," Artificial Intelligence, Vol. 199-200, pp. 93-105, 2013.

상세보기
S. F. Altschul, W. Gish, W. Miller, E. W. Myers and D. J. Lipman. "Basic Local Alignment Search Tool," Journal of Molecular Biology, Vol. 215, No. 3, pp. 403-410, 1990.

상세보기
B. Langmead, C. Trapnell, M. Pop and S. L. Salzberg. "Ultrafast and memory-efficient alignment of short DNA sequences to the human genome," Genome Biology, Vol. 10, No. 3, Article R25, 2009.

상세보기
F. Sievers, A. Wilim, D. Dineen, T. J. Gibson, K. Karplus, W. Li, R. Lopez, H. McWilliam, M. Remmert, J. Soding, J. D. Thompson and D. G. Higgins. "Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega," Molecular Systems Biology, Vol. 7, No. 1, Article No. 539, 2011.

상세보기
C.-M. Liu, T. Wong, E. Wu, R. Luo, S.-M. Yiu, Y. Li, B. Wang, C. Yu, X. Chu, K. Zhao, R. Li and T.-W. Lam. "SOAP3: Ultra-fast GPU-based parallel alighment tool for short reads," Bioinformatics Advacned, 2012.
J. Arram, K. H. Tsoi, W. Luk and P. Jiang. "Reconfigurable Acceleration of Short Read Mapping," Proceedings of IEEE 21st Annual International Symposium on Field-Programmable Custom Computing Machines, pp. 210-217, 2013.
N. Savage. "Bioinformatics: Big Data Versus the Big C," Nature, Vol. 509, No. 7502, pp. S66-S67, 2014.

상세보기
J. Ugander, B. Karrer, L. Backstrom and C. Marlow. "The Anatomy of the Facebook Social Graph," arXiv preprint arXiv:1111.4503, 2011.
The Graph 500 List. http://www.graph500.org/
W. Jung, J. Park and J. Lee. "Versatile and Scalable Parallel Histogram Construction," Proceedings of the 23rd ACM/IEEE/IFIP International Conference on Parallel Architectures and Compilation Techniques, pp. 127-138, 2014.
조강원, 서상민, 나정호, 김정원, 김정현, 이준, 박정호, 이용준, 김홍준, 강수연, 주진영, 박선명, 정우근, 임기현, 이재진. "이종 슈퍼컴퓨터 기술 동향과 슈퍼컴퓨터 '천둥'의 개발 사례," 정보과학회지, 제31권, 제4호, pp. 34-41, 2013.

원문보기 상세보기
HSA Platform System Architecture Specification 1.0. http://www.hsafoundation.com/standards/
D. Bryant. "Disrupting the Data Center to Create the Digital Services Economy," The Data Stack, 2014. https://communities.intel.com/community/itpeernetwo rk/datastack/blog/2014/06/18/disrupting-the-data-cent er-to-create-the-digital-services-economy
AMD Opteron A1100 SOC Series. http://www.amd.com/ Documents/A-Heirofalcon-Product-Brief.pdf
Mont-Blanc European Approach Towards Energy Efficient High Performance. https://www.montblancproject. eu/
OpenCL - The open standard for parallel programming of heterogeneous systems. https://www.khronos.org/opencl/
Altera SDK for OpenCL. https://www.altera.com/opencl
Xilinx SDAccel Development Environment. http://www. xilinx.com/products/design-tools/software-zone/sdacc el.html
J. Kim, T. T. Dao, J. Jung, J. Joo and J. Lee. "Bridging OpenCL and CUDA: A Comparative Analysis and Translation." Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, Article No. 82, 2015.
J. Kim, S. Seo, J. Lee, J. Nah, G, Jo and J. Lee. "SnuCL: an OpenCL Framework for Heterogeneous CPU/GPU Clusters," Proceedings of the 26th International Conference on Supercomputing, pp. 341-352, 2012.
OpenMP. http://openmp.org/
OpenACC. http://www.openacc.org/
PGI Accelerator Compilers With OpenACC Directives. http://www.pgroup.com/resources/accel.htm
G. Jo, J. Nah, J. Lee, J. Kim and J. Lee. "Accelerating LINPACK with MPI-OpenCL on Clusters with Multi-GPU Nodes," IEEE Transactions on Parallel and Distributed Systems, Vol. 26, No. 7, pp. 1814-1825, 2015.

상세보기
J. Kim, H. Kim, J. H. Lee and J. Lee. "Achieving a Single Compute Device Image in OpenCL for Multiple GPUs," Proceedings of the 16th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, pp. 277-288, 2011.
C. Angelini. "AMD GPUOpen: Doubling Down On Open-Source Development," Tom's Hardware, 2015. http://www.tomshardware.com/news/amd-gpuopen-op en-source-development,30750.html

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증