$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

효율적인 Transformer 모델 경량화를 위한 구조화된 프루닝
Structured Pruning for Efficient Transformer Model compression 원문보기

반도체공학회 논문지 = Transactions on semiconductor engineering, v.1 no.1, 2023년, pp.23 - 30  

류은지 (Pohang University of Science and Technology) ,  이영주 (Pohang University of Science and Technology)

초록
AI-Helper 아이콘AI-Helper

최근 거대 IT 기업들의 Generative AI 기술 개발로 Transformer 모델의 규모가 조 단위를 넘어가며 기하급수적으로 증가하고 있다. 이러한 AI 서비스를 지속적으로 가능케 하기 위해선 모델 경량화가 필수적이다. 본 논문에서는 하드웨어 친화적으로 구조화된(structured) 프루닝 패턴을 찾아 Transformer 모델의 경량화 방법을 제안한다. 이는 모델 알고리즘의 특성을 살려 압축을 진행하기 때문에 모델의 크기는 줄어들면서 성능은 최대한 유지할 수 있다. 실험에 따르면 GPT2 와 BERT 언어 모델을 프루닝할 때 제안하는 구조화된 프루닝 기법은 희소성이 높은 영역에서도 미세 조정된(fine-grained) 프루닝과 거의 흡사한 성능을 보여준다. 이 접근 방식은 미세 조정된 프루닝 대비 0.003%의 정확도 손실로 모델매개 변수를 80% 줄이고 구조화된 형태로 하드웨어 가속화를 진행할 수 있다.

Abstract AI-Helper 아이콘AI-Helper

With the recent development of Generative AI technology by IT giants, the size of the transformer model is increasing exponentially over trillion won. In order to continuously enable these AI services, it is essential to reduce the weight of the model. In this paper, we find a hardware-friendly stru...

주제어

참고문헌 (32)

  1. A. Vaswani et al., "Attention is all you need," in Proc.?of NeurIPS, 2017.? 

  2. T. Brown et al., "Language models are few-shot learners," in Proc. of NeurIPS, 2020, pp. 1877-1901.? 

  3. A. Chowdhery et al., "Palm: Scaling language modeling with pathways," arXiv preprint arXiv:2204.02311,?2022.? 

  4. S. Han, H. Mao, and W. J. Dally, "Deep compression:?Compressing deep neural networks with pruning,?trained quantization and Huffman coding," arXiv preprint arXiv:1510.00149, 2015.? 

  5. Sutskever, I., Vinyals, O., & Le, Q. V.. "Sequence to?sequence learning with neural networks." Advances?in neural information processing systems 27 (2014).? 

  6. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,?"Bert: Pre-training of deep bidirectional transformers?for language understanding," in Proc. of NAACL,?2019, pp. 4171-4186.? 

  7. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., &?Bowman, S. R. "GLUE: A multi-task benchmark and?analysis platform for natural language understanding." arXiv preprint arXiv:1804.07461 (2018).? 

  8. Paperno, D., Kruszewski, G., Lazaridou, A., Pham, Q.?N., Bernardi, R., Pezzelle, S., ... & Fernandez, R. "The?LAMBADA dataset: Word prediction requiring a?broad discourse context." arXiv preprint?arXiv:1606.06031 (2016).? 

  9. G. Park, B. Park, S. J. Kwon, B. Kim, Y. Lee, and D.?Lee, "nuqmm: Quantized matmul for efficient inference of large-scale generative language models,"?arXiv preprint arXiv:2206.09557, 2022.? 

  10. Dettmers, T., Lewis, M., Belkada, Y., & Zettlemoyer,?L. "Llm. int8 (): 8-bit matrix multiplication for transformers at scale." arXiv preprint arXiv:2208.07339?(2022).? 

  11. Yao, Z., Yazdani Aminabadi, R., Zhang, M., Wu, X.,?Li, C., & He, Y. "Zeroquant: Efficient and affordable post-training quantization for large-scale transformers." Advancesin Neural Information Processing Systems 35 (2022): 27168-27183.? 

  12. Xiao, G., Lin, J., Seznec, M., Wu, H., Demouth, J., &?Han, S. "Smoothquant: Accurate and efficient post-training quantization for large language models." International Conference on Machine Learning. PMLR,?2023.? 

  13. Gou, Jianping, et al. "Knowledge distillation: A survey." International Journal of Computer Vision 129?(2021): 1789-1819.? 

  14. Gu, Y., Dong, L., Wei, F., & Huang, M. "Knowledge?Distillation of Large Language Models." arXiv preprint arXiv:2306.08543 (2023).? 

  15. Frantar, E., & Alistarh, D. "SparseGPT: Massive?Language Models Can Be Accurately Pruned in OneShot." (2023).? 

  16. Ma, X., Fang, G., & Wang, X. "LLM-Pruner: On the?Structural Pruning of Large Language Models." arXiv?preprint arXiv:2305.11627 (2023).? 

  17. Zhang, M., Shen, C., Yang, Z., Ou, L., Yu, X., &?Zhuang, B. "Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning." arXiv preprint?arXiv:2305.18403 (2023).? 

  18. V. Sanh, T. Wolf, and A. Rush, "Movement pruning:?Adaptive sparsity by fine-tuning," in Proc. of NeurIPS, 2020, pp. 20 378-20 389.? 

  19. Babak Hassibi, David G Stork, and Gregory J Wolff.?Optimal brain surgeon and general network pruning.?In IEEE International Conference on Neural Networks, 1993.? 

  20. Elias Frantar, Sidak Pal Singh, and Dan Alistarh. Optimal Brain Compression: A framework for accurate?post-training quantization and pruning. arXiv preprint?arXiv:2208.11580, 2022.? 

  21. Y. He, X. Zhang, and J. Sun, "Channel pruning for?accelerating very deep neural networks," in Proc. of?ICCV, 2017, pp. 1389-1397.? 

  22. M. Zhu, T. Zhang, Z. Gu, and Y. Xie, "Sparse tensor?core: Algorithm and hardware co-design for vector-wise sparse neural networks on modern gpus," in Proc.?of MICRO, 2019, pp. 359-371.? 

  23. E. Voita, D. Talbot, F. Moiseev, R. Sennrich, and I.?Titov, "Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned,"?in Proc. of ACL, 2019, pp. 5797-5808.? 

  24. P. Michel, O. Levy, and G. Neubig, "Are sixteen?heads really better than one?" Proc. of NeurIPS, vol.?32, 2019.? 

  25. Lagunas, Francois, et al. "Block pruning for faster?transformers." arXiv preprint arXiv:2109.04838?(2021).? 

  26. E. Yoo, G. Park, J. Min, S. Kwon, B. Park, D. Lee,?and Y. Lee*, "TF-MVP: Novel sparsity-aware transformer accelerator with mixed-length vector pruning," Design Automation Conference (DAC), San?Francis-co, CA, USA, July 2023. 

  27. J. Park, H. Yoon, D. Ahn, J. Choi, and J.-J. Kim, "Optimus: Optimized matrix multiplication structure for?transformer neural network accelerator," Proc. of?MLSys, pp. 363-378, 2020.? 

  28. A. Parashar et al., "Scnn: An accelerator for compressed-sparse convolutional neural networks," ACM?SIGARCH computer architecture news, vol. 45, no. 2,?pp. 27-40, 2017.? 

  29. S. Zhang et al., "Cambricon-x: An accelerator for?sparse neural networks," in Proc. of MICRO. IEEE,?2016, pp. 1-12.? 

  30. S. Moon, H. Lee, Y. Byun, J. Park, J. Joe, S. Hwang,?S. Lee, and Y. Lee*, "FPGA-based sparsity-aware?CNN accelerator for noise-resilient edge-level image?recognition," IEEE Asian Solid-State Circuits Confer-ence (A-SSCC), Macao, China, Nov. 2019, pp.?205-208.? 

  31. H. Kwon, Y. Byun, S. Kang, and Y. Lee*, "CHAMP:?Channel merging process for cost-efficient highly-pruned CNN acceleration," IEEE Transactions on?Circuits and Systems I: Regular vol. 69, no. 8, pp.?3308-3319, Aug. 2022.? 

  32. Y. Byun, S. Moon, B. Park, S. Kwon, D. Lee, G.?Park, E. Yoo, J. Min and Y. Lee*, "Sparsity-Aware?Memory Interface Architecture using Stacked XOR-Net Compression for Accelerating Pruned-DNN?Models," Proceedings of Machine Learning and Systems, Miami, FL, USA, June 2023.? 

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로