[논문]영상인식 및 분류용 인공지능 가속기의 최신 성능평가: MLPerf를 중심으로

서영호; 박성호; 박장호

영상인식 및 분류용 인공지능 가속기의 최신 성능평가: MLPerf를 중심으로 원문보기

방송과 미디어 = Broadcasting and media magazine, v.25 no.1, 2020년, pp.28 - 41

서영호 (광운대학교) , 박성호 (미국 Cosignon) , 박장호 (미국 Cosignon)

초록
AI-Helper

인공지능의 고속화를 위한 인공지능용 혹은 딥러닝용 하드웨어 및 소프트웨어 시스템에 대한 수요가 폭발적으로 증가하고 있다. 또한 딥러닝 모델에 따라 다양한 추론 시스템이 끊임없이 연구되고 소개되고 있다. 최근에는 전세계에서 100개가 넘는 회사들에서 인공지능용 추론 칩을 개발하고 있고, 임베디드 시스템에서 데이터센터 솔루션에 이르기까지 다양한 분야를 위한 것들이 존재한다. 이러한 하드웨어의 개발을 위해서 12개 이상의 소프트웨어 프레임 워크 및 라이브러리가 활용되고 있다. 하드웨어와 소프트웨어가 다양한 만큼 이들을 중립적으로 평가하기가 매우 어려운 실정이다. 따라서 업계 표준의 인공지능을 위한 벤치마킹 및 평가기준이 필요한데, 이러한 요구로 인해 MLPerf 추론이 만들어졌다. MLPerf는 30개 이상의 기업과 200개 이상의 머신러닝 연구자 및 실무자들에 의해 운영되고, 전혀 다른 구조를 갖는 시스템을 비교할 수 있는 일관성 있는 규칙과 방법을 제시한다. MLPerf에 의해 제시된 규칙에 의해 2019년도에 처음으로 다양한 인공지능용 추론 하드웨어가 벤치마킹을 수행했다. 여기에는 14개의 회사에서 600개 이상의 추론 결과를 측정하였으며, 30개가 넘는 시스템이 이러한 추론에 사용되었다. 본 원고에서는 MLPerf의 학습과 추론을 중심으로 하여 최근에 개발된 다양한 회사들의 인공지능용 하드웨어, 즉 가속기 들의 성능을 살펴보고자 한다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

LoadGen과 시나리오는 실제로 시스템을 어떻게 사용할 것인가를 평가하는 것을 목표로 한다. 이를 위해 <표 5>는 다양한 작업 및 시나리오 조합에 대한 결과 분포를 보여준다.
본 원고에서는 MLPerf 벤치마크를 바탕으로 하여 현재 머신러닝 및 딥러닝 분야에서 쏟아져 나오고 있는 다양한 제품과 개발물들에 대한 성능평가가 어떻게 이루어지고 있고, 현재 상황은 어떠한지를 살펴보고자 하였다. 현재 전세계적으로 학습 및 추론을 위한 새로운 시스템으 개발하기 위한 활발한 활동이 펼쳐지고 있고, 새로운 시스템의 우수성을 검증받고자 노력하고 있다.
MLPerf는 모든 벤치마크와 마찬가지로 해당 분야의 발전을 장려하기 위해 경쟁을 유도하기 위한 것을 하나의 목표로 한다. 제출 라운드 간의 결과를 비교하여 이러한 공공의 목표를 향한 진행 상황을 분석하여 보고한다. 현재까지 MLPerf 학습 벤치마크에는 v0.

제안 방법

성능 및 정밀도는 일련의 작업 및 시나리오 조합에 의해 실행된다. 이 모든 데이터는 공개 GitHub 리포지토리에 업로드되어 릴리스 전에 피어 검토 및 유효성 검사를 수행한다. MLPerf Inference는 광범위한 적용 범위를 보장하는 작업 및 시나리오이지만 제출에는 하위 작업 및 시나리오가 포함될 수 있다.
이러한 모델을 다루기 위해 와 같이 추론 응용 프로그램을 나타내는 네 가지 시나리오를 지정하였다.
벤치마크는 주로 산업 및 연구 관련성을 기반으로 선택되었으며 다양한 연산에 대한 주제를 나타낸다. 일반성과 공공성을 확립하기 위해 MLPerf를 지원하는 수십 개의 산업 및 학술 기관과 연계하면서 작업이 진행되었다. 벤치마크를 저비용으로 운영하기 위해 <표 1>에 요약된 것처럼 대표적인 7가지 벤치마크 세트를 지정하였다.

대상 데이터

벤치마크를 저비용으로 운영하기 위해 에 요약된 것처럼 대표적인 7가지 벤치마크 세트를 지정하였다.
<표 4> 시나리오 설명 및 메트릭 각 시나리오는 고객 및 공급 업체 입력을 기반으로 실제 사용 사례를 대상으로 한다.

성능/효과

MLPerf 제품군이 다루는 다양한 시스템 사용자 및 광범위한 응용 분야를 고려할 때 보편적으로 대표되는 가중치는 없을 것이다. 둘째, 제출된 단일 시스템이 제품군의 모든 벤치마크에 대한 결과를 보고하지 않으면 요약 점수의 의미가 낮아진다. 제출 과정에서 일부 벤치마크를 생략할 수 있는 여러 가지 이유가 존재할 수 있다.
MLPerf를 이용한 성능평가를 위해 성능결과를 제출하기 위해서는 시스템 설명, 학습 세션 로그파일 및 해당 학습 세션을 재현하는데 필요한 모든 코드와 라이브러리로 구성된다. 이 모든 것은 MLPerf 결과 게시와 동시에 MLPerf GitHub에서 공개적으로 제공되므로 재현이 가능하고 이후의 제출 시 다양한 지원자에 의해 결과를 개선할 수 있다. 시스템 설명에는 하드웨어 설명(노드 수, 프로세서 및 가속기 수 및 유형, 노드 당 스토리지, 네트워크 상호 연결) 및 소프트웨어 설명(운영 체제, 라이브러리 및 해당 버전)이 모두 포함된다.

후속연구

또한 벤치마크를 모듈식으로 설계함으로써 새로운 모델을 추가하거나 작업을 하는데 있어서 많은 비용을 저감하였다. MLPerf Inference 사용자는 새로운 디자인을 쉽게 추가할 수 있는데, 앞으로 더 많은 영역, 작업, 모델 등을 포함하도록 범위를 확장할 계획이다. 또한 훈련 및 추론 벤치마크 간의 일관성과 정렬을 유지하는 것도 필요할 것이다.
MLPerf Inference 사용자는 새로운 디자인을 쉽게 추가할 수 있는데, 앞으로 더 많은 영역, 작업, 모델 등을 포함하도록 범위를 확장할 계획이다. 또한 훈련 및 추론 벤치마크 간의 일관성과 정렬을 유지하는 것도 필요할 것이다.

참고문헌 (40)

He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learn-ing for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in neural information processing systems, pp. 2672-2680, 2014.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y., and Berg, A. C. Ssd: Single shot multibox detector. In European conference on computer vision, pp. 21-37. Springer, 2016.
Krizhevsky, A., Sutskever, I., and Hinton, G. E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pp. 1097-1105, 2012.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
Badrinarayanan, V., Kendall, A., and Cipolla, R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE transactions on pattern analysis and machine intelligence, 39(12):2481-2495, 2017.

상세보기
Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L., and Lerer, A. Automatic differentiation in pytorch. 2017.
Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M., et al. TensorFlow: A System for Large-Scale Machine Learning. In OSDI, volume 16, pp. 265-283, 2016.
Chen, T., Li, M., Li, Y., Lin, M., Wang, N., Wang, M., Xiao, T., Xu, B., Zhang, C., and Zhang, Z. Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems. arXiv preprint arXiv:1512.01274, 2015.
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., and Darrell, T. Caffe: Convolutional Architecture for Fast Feature Embedding. In ACM International Conference on Multimedia, pp. 675-678. ACM, 2014.
Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., Bates, S., Bhatia, S., Boden, N., Borchers, A., et al. In-datacenter performance analysis of a tensor processing unit. In 2017 ACM/IEEE 44th Annual Inter-national Symposium on Computer Architecture (ISCA), pp. 1-12. IEEE, 2017.
Chen, T., Moreau, T., Jiang, Z., Zheng, L., Yan, E., Shen, H., Cowan, M., Wang, L., Hu, Y., Ceze, L., et al. fTVMg: An automated end-to-end optimizing compiler for deep learning. In 13th fUSENIXg Symposium on Operating Systems Design and Implementation (fOSDIg 18), pp. 578-594, 2018.
Markidis, S., Der Chien, S. W., Laure, E., Peng, I. B., and Vetter, J. S. Nvidia tensor core programmability, performance & precision. arXiv preprint arXiv:1803.04014, 2018.
Intel. Bigdl: Distributed deep learning library for apache spark, 2019. URL https://github.com/ intel-analytics/BigDL.
Hennessy, J. L. and Patterson, D. A. Computer architecture: a quantitative approach. Elsevier, 2011.
Council, T. P. P. Transaction processing performance council. Web Site, http://www.tpc.org, 2005.
Han, S., Mao, H., and Dally, W. J. Deep compres-sion: Compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv preprint arXiv:1510.00149, 2015.
Han, S., Liu, X., Mao, H., Pu, J., Pedram, A., Horowitz, M. A., and Dally, W. J. Eie: efficient inference engine on compressed deep neural network. In 2016 ACM/IEEE 43rd Annual International Symposium on Computer Ar-chitecture (ISCA), pp. 243-254. IEEE, 2016.
Molchanov, P., Tyree, S., Karras, T., Aila, T., and Kautz, J. Pruning convolutional neural networks for resource efficient inference. arXiv preprint arXiv:1611.06440, 2016.
Li, H., Kadav, A., Durdanovic, I., Samet, H., and Graf, H. P. Pruning filters for efficient convnets. arXiv preprint arXiv:1608.08710, 2016.
Adolf, R., Rama, S., Reagen, B., Wei, G.-Y., and Brooks, D. Fathom: Reference Workloads for Modern Deep Learning Methods. In Workload Characterization (IISWC), 2016 IEEE International Symposium on, pp. 1-10. IEEE, 2016.
Coleman, C., Narayanan, D., Kang, D., Zhao, T., Zhang, J., Nardi, L., Bailis, P., Olukotun, K., Re, C., and Zaharia, M. DAWNBench: An End-to-End Deep Learning Benchmark and Competition. NIPS 머신러닝 Systems Workshop, 2017.
EEMBC. Introducing the eembc 머신러닝mark benchmark.
Zhu, H., Akrout, M., Zheng, B., Pelegris, A., Jayarajan, A., Phanishayee, A., Schroeder, B., and Pekhimenko, G. Benchmarking and analyzing deep neural network training. In 2018 IEEE International Symposium on Workload Characterization (IISWC), pp. 88-100. IEEE, 2018.
Alibaba. Ai matrix. https://aimatrix.ai/ en-us/, 2018.
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pp. 248-255. Ieee, 2009.
MLPerf. MLPerf Reference: ResNet in TensorFlow. https://github.com/MLPerf/training/tree/master/image_classification/tensorflow/official, 2019
Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ra-manan, D., Dollar, P., and Zitnick, C. L. Microsoft COCO: Common Objects in Context. In European Conference on Computer Vision, pp. 740-755. Springer, 2014.
WMT. First conference on machine translation, 2016. URL http://www.statmt.org/wmt16/.
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., et al. Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.
WMT. Second conference on machine translation, 2017.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I. Attention is all you need. In Advances in neural information processing systems, pp. 5998-6008, 2017.
GroupLens. Movielens 20m dataset, Oct 2016. URL https://grouplens.org/datasets/ movielens/20m/.
He, X., Liao, L., Zhang, H., Nie, L., Hu, X., and Chua, T.-S. Neural collaborative filtering. In Proceedings of the 26th international conference on world wide web, pp. 173-182. International World Wide Web Conferences Steering Committee, 2017b.
MLPerf. MLPerf Reference: MiniGo. https://github.com/MLPerf/training/tree/master/reinforcement, 2019a.
Mattson, P., Cheng, C., Coleman, C., Diamos, G., Micikevicius, P., Patterson, D., Tang, H., Wei, G.-Y., Bailis, P., Bittorf, V., Brooks, D., Chen, D., Dutta, D., Gupta, U., Hazelwood, K., Hock, A., Huang, X., Jia, B., Kang, D., Kanter, D., Kumar, N., Liao, J., Narayanan, D., Oguntebi, T., Pekhimenko, G., Pentecost, L., Reddi, V. J., Robie, T., John, T. S., Wu, C.-J., Xu, L., Young, C., and Zaharia, M. MLPerf training benchmark, 2019.
Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., and Adam, H. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
Bai, J., Lu, F., Zhang, K., et al. Onnx: Open neural network exchange. https://github.com/onnx/onnx, 2019.
"MLPerf Training Benchmark", https://arxiv.org/abs/1910.01500
"MLPerf Inference Benchmark", https://arxiv.org/abs/1911.02549

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증