보고서 정보
주관연구기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
연구책임자 |
오광진
|
참여연구자 |
곽재혁
,
구경모
,
구기범
,
김상완
,
김수진
,
노승우
,
류훈
,
류정희
,
명훈주
,
박경석
,
박근철
,
박준영
,
변은규
,
손아영
,
유진승
,
이식
,
전인호
,
정기문
,
정요상
,
정현미
,
조혜영
,
차광호
,
최민진
,
최지은
,
황순욱
,
김유선
,
유찬희
,
정주빈
|
보고서유형 | 연차보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2023-12 |
과제시작연도 |
2023 |
주관부처 |
과학기술정보통신부 Ministry of Science and ICT |
연구관리전문기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
등록번호 |
TRKO202400000464 |
과제고유번호 |
1711198494 |
사업명 |
한국과학기술정보연구원연구운영비지원(주요사업비) |
DB 구축일자 |
2024-06-26
|
키워드 |
클라우드 컴퓨팅.고성능컴퓨팅.슈퍼컴퓨팅.인공지능.빅데이터.Cloud Computing.High Performance Computing.Supercomputing.Artificial Intelligence.Big Data.
|
초록
▼
□ 연구개발 목표 및 내용
◼ 최종 목표
○ 초고성능컴퓨터 기술 자체개발 역량 및 국가 초고성능컴퓨팅 공동활용 서비스 기반기술 확보
- 이기종 기반의 초고성능컴퓨터 HW, SW 기술 개발 및 적용
- 국가 차원의 초고성능컴퓨팅 공동활용을 위한 서비스 기술 개발 및 적용
◼ 전체 내용
○ 국가 초고성능컴퓨팅 기술 고도화 및 공동활용 서비스를 위한 기술개발 전략 및 로드맵 수립
- 이기종 아키텍처 기반 초고성능컴퓨터 HW/SW 기술 개발 계획 수립
- 국가센터 및 공동활용 서비스를 위한
□ 연구개발 목표 및 내용
◼ 최종 목표
○ 초고성능컴퓨터 기술 자체개발 역량 및 국가 초고성능컴퓨팅 공동활용 서비스 기반기술 확보
- 이기종 기반의 초고성능컴퓨터 HW, SW 기술 개발 및 적용
- 국가 차원의 초고성능컴퓨팅 공동활용을 위한 서비스 기술 개발 및 적용
◼ 전체 내용
○ 국가 초고성능컴퓨팅 기술 고도화 및 공동활용 서비스를 위한 기술개발 전략 및 로드맵 수립
- 이기종 아키텍처 기반 초고성능컴퓨터 HW/SW 기술 개발 계획 수립
- 국가센터 및 공동활용 서비스를 위한 자원 통합운영 기술 개발 계획 수립
○ 국가센터 및 초고성능컴퓨팅 공동활용 서비스를 위한 요소기술 개발
- 자체 개발 하드웨어 기반 이기종 시스템 관리 및 활용 최적화 기술 등 개발
- 클라우드 아키텍처 기반 자원 최적화 및 스토리지 연동 기술, 공동활용 기반 자원통합 운영 플랫폼 기술 등 개발
○ 국가센터 및 초고성능컴퓨팅 공동활용 서비스 기술 적용 및 구축
- 자체 개발 시스템 기술의 인프라 서비스(국가센터 T/B, 전문센터 등의 인프라 구축 사업, 공동활용 서비스 등) 적용
- 국가센터 인프라 기반 클라우드 서비스, 초고성능컴퓨팅 공동활용 서비스에 적용
◼ 1단계
❏ 목표
○ 국가센터 인프라 공동활용 서비스 기술 개발
- KI Cloud 기반 국가센터내 초고성능컴퓨팅 자원 통합・운영 기술개발
❏ 내용
- 국가센터 자원 통합운영 및 이기종 아키텍처 기반 초고성능컴퓨터 HW/SW 기술 개발 계획 수립
- KI Cloud 기반 공동활용 플랫폼 및 이기종 아키텍처 기반 초고성능컴퓨터 요소기술 개발
◼ 2단계
❏ 목표
○ 국가센터 인프라 공동활용 서비스 기술 개발
- KI Cloud 기반 국가센터내 초고성능컴퓨팅 자원 통합・운영 적용
- 이기종 자원 최적 활용 방안 연구 및 적용・검증
❏ 내용
- KI Cloud 기반 국가센터 內 초고성능컴퓨팅 자원 통합 구축
- 초고성능컴퓨팅 공동활용 플랫폼 개발 및 중소규모 자원 통합시범 구축・적용(3개 사이트 연계)
- 초고성능컴퓨터 HW/SW 기술의 인프라 운영기관 기반 적용・검증
◼ 3단계
❏ 목표
○국가 초고성능컴퓨팅인프라 공동활용 서비스 기술개발
- 국가 초고성능컴퓨팅 자원 통합・운영을 위한 초고성능컴퓨팅 플랫폼 기술 개발 및 적용
- 이기종 초고성능컴퓨터 HW/SW 기술 활용 확대
❏ 내용
- 공동활용 자원 기반 초고성능컴퓨터 HW/SW 개발 기술 확장
- 초고성능컴퓨터 HW/SW 개발 기술의 인프라 서비스 적용 및 활용 확대
□ 연구개발성과
○ 이기종 컴퓨팅 기반의 시스템 HW 및 SW 기술 개발
- 대규모 자원 기반 프로비저닝 등 시스템 관리 기술, GPU, FPGA, Persistent Memory 등 이기종 시스템 활용 최적화 기술 등
○ 국가 초고성능컴퓨팅 자원통합 운영 플랫폼 기술 개발
- 동적 자원 할당시스템 기술, 맞춤형 User Portal 기술, 분산자원 데이터 전송 기술 등
□ 연구개발성과 활용계획 및 기대 효과
- 자원 통합 운영 및 서비스 플랫폼 연계 등을 통해 슈퍼컴퓨팅 자원의 활용성 강화 및 대내·외 서비스 확대
- 사용자 요구기반 유연한 슈퍼컴퓨팅 서비스를 제공함으로써 신산업, 융합산업 분야의 R&D 컴퓨팅 인프라 플랫폼 서비스로 확대
- HPC Cloud 기술을 국가센터(KISTI) 클라우드 서비스에 적용 및 전문센터·단위센터의 기본 활용체계로 적용
(출처 : 요약문 4p)
Abstract
▼
Ⅳ. Result of the study
○ Development of heterogeneous high performance computer system technology for future infrastructure response
- Development and validation of an expansion system for heterogeneous resources
• Revision of a PCIe 4.0 based expansion system prototype
✓ Revision of the
Ⅳ. Result of the study
○ Development of heterogeneous high performance computer system technology for future infrastructure response
- Development and validation of an expansion system for heterogeneous resources
• Revision of a PCIe 4.0 based expansion system prototype
✓ Revision of the prototype for system stabilization
✓ Study on firmware multi configuration for a PCIe expansion system
• Performance evaluation of PCIe based communication system
✓ Study on the system software for NTB based communication
✓ Development of PCIe switch information management software tool
- Study on the Artificial Intelligence Computing Environment Technology Based on Heterogeneous Extension Systems
• Study on expansion system utilization technology for optimal artificial intelligence computing environment
✓ Verification of connection between expansion system and various main processing units
✓ Expansion system-based accelerator device expansion verification
✓ Study on artificial intelligence learning performance according to GPU device expansion
- Development and verification of performance improvement technology utilizing next-generation hardware (NVRAM, PIM, FPGA)
• Researching techniques for parallel utilization of non-volatile memory utilizing next-generation memory/storage hardware
✓ Development of a module that uses the LD_PRELOAD environment variable to hijack an application's malloc() and free() system calls to save to a preferred memory space.
✓ Development of a daemon running with superuser privileges in a userspace that can utilize both DRAM and non-volatile memory as main memory.
• Application and performance validation in HPC applications of NVRAM-enabled I/O systems based on Lustre File System.
✓ Implementation of the NVRAM-utilizing Luster File system testbed.
✓ Performance verification of the Lustre File System testbed using FIO, and filebench benchmark tool.
• Advance research on large memory utilization techniques utilizing next-generation bus interfaces
✓ Analyzing the behavioral patterns of CXL memory using slow memory emulation tools and the GAPBS benchmark of Pond Emulator
• Implementation of Pi estimation based on Monte Carlo method using UPMEM PIM
✓ A study on Monte Carlo method based application use cases and UPMEM PIM usability analysis
✓ Implementation of Pi code based on Monte Carlo method and analysis of performance scalability using UPMEM PIM
• Implementaion of embedding lookup of deep learning recommendation model using UPMEM PIM
✓ A study of deep learning recommendation model architecture and UPMEM PIM usability analysis
✓ Implementation of embedding lookup code for deep learning recommendation model using UPMEM PIM and analysis of performance impact by embedding table partition method
• Xilinx FPGA testing using F1 instances on Amazon EC2 cloud
✓ AWS instance execution and environment settings, PAC device verification, and GUI connection test
✓ HDK configuration and example code compilation AFI image creation and registration
✓ Setting up SDK development environment and compiling and executing host code • Intel DevCloud-based PAC product testing
✓ DevCloud account registration and access environment settings
✓ Setting up a development environment based on Arria 10 PAC, building and running example code using OpenCL and HDL
- Development and validation of the technology to scale heterogeneous cluster management
• Analysis and customization research using OpenBMC
✓ Yocto, OpenEmbedded. Building a build environment using BitBake. Device tree and sensor data settings for kernel customization
✓ Analysis of vue and bmcweb components that make up Redfish and WebUI
✓ Analysis of sensor monitoring mechanism to collect system information
• Next generation BMC SoC analysis
✓ Analysis using AST2600 development board
✓ It consists of a main processor and an SSP processor and analyzes communication mechanisms using shared memory and interrupts.
✓ Analysis of device tree, device driver, and kernel settings for use of SSP processor
✓ Implementation of sensor monitoring mechanism in SSP and implementation of communication with main processor
• Research and development of cluster configuration extension technology utilizing remote management platform
✓ Optimization of the structure of the remote management platform for heterogeneous cluster configurations
✓ Development of the technology to support dynamic multi-network and proxy for remote management platforms based on the neuron network environment
✓ Analysis of PXE booting procedures and development of the remote management platform UEFI/Legacy bios PXE booting technology
✓ Acquirement of the metadata information (CPU, GPU, memory, storage device, BIOS, network) and development of the network/partition configuration technology through node commission before cluster configuration
✓ Development of the technology of DHCP multi-subnet interface scanning and setup capabilities for remote management platform
✓ Development of the cluster configuration technology for cluster deployment
✓ Development of the technology for UEFI mode NVME disk booting and operating system installation
✓ Development of the technology for high-performance network-based operating system installation
• Application and validation of the cluster configuration extension technology utilizing remote management platform
✓ Test for scaling cluster, analysis and optimization for performance of the node state screen
✓ Installation and functional verification of self-developed KNL and Cascade cluster-based operating systems
✓ Test of the application of a remote management platform based on a supercomputer assistance system(Neuron)
- Establishment of a testbed to verify and apply heterogeneous system technology
• Development of testbed for technology verification using domestic server technology
• Development of Intel 4th generation Xeon Sapphire Rapids 2-socket main board
✓ support PCIe 5.0 (32GT/s), TDP up to 350W per socket, DDR5 DIMM, C740 series PCH, up to 4 GPUs can be installed, chassis design, 2000W PSU applied, BIOS and BMC firmware applied
○ Study on HPC software technology
- MPI wrapper prototype development for AdaptiveCpp-based application
- Development and verification of SYCL-based FP64 unit BLAS computation routines
- Research on accelerator technology trends based on open source architecture
- Design of profiling library for open source architecture-based accelerator
• Design of profiling library for RISC-V based GPU
- Development of a monitoring tool for clusters with heterogeneous architecture
• Development of a prototype of a multi-node heterogeneous systems monitoring tool
- LLDB-based debugger prototype development for heterogeneous architecture
○ Establishment of KISTI resource sharing and operating system based KI Cloud
- In order to enhance the efficiency of KISTI resource utilization, Design of resources sharing method for cluster in KISTI
• Cave Cluster sharing and utilizaion with KI Cloud
• Establishment of Operaing system for various HPC Cluster (Kairos cluster, CAVE cluster ,etc.)in KISTI for resource sharing
- Establishment of Authentication and resource sharing system for R&D cloud platform
• Design of Resource authentication framework in R&D cloud platform for KI Cloud and cluster (CAVE and Cascade, etc.)
• Construction of resource and application sharing module
• Establishment of an Authentication and sharing system through analysis of related work
○ Support for KISTI HPC Cloud
- Stable operation for KI Cloud
• System monitoring for KI Cloud@KAIROS, KI Cloud@NURION
• Maintenance and continuous operation Management for KI Cloud
• Performance advancement
• Replacing of parts and performance advancement for KI Cloud performance
• Development of VM Life cycle function for efficiency of operation and resource utilization
• Performance advancement and issue management for stable service operation
• Reorganization of GPU Flavor
• PM conduction for resource arrangement
• Development of Manual for System failure
- Support users of KI Cloud through mutual cooperation
• Research support for model analysis server to KAIST and CHONNAM NATIONAL UNIVERSITY, etc.
• Resource Cooperation through support KI Cloud service
- Promotion for KI Cloud Technology
(source : Summary 16p)
목차 Contents
- 표지 ... 1
- 제 출 문 ... 2
- 연차보고서 초록 ... 3
- 요 약 문 ... 4
- SUMMARY ... 14
- CONTENTS ... 21
- 목차 ... 22
- 표목차 ... 23
- 그림목차 ... 24
- 1. 연구개발과제의 개요 ... 28
- 가. 연구개발 최종 목표(2021-2026 기준) ... 28
- 나. 국내·외 기술개발 현황 ... 28
- 다. 단계별 연구개발 로드맵 ... 39
- 라. 단계별 연구개발과제 목표 및 내용 ... 40
- 1) 성과지표 및 연차별 목표 ... 40
- 2) 2023년 성과지표 달성도 ... 41
- 3) 목표 미달 시 원인분석 ... 41
- 마. 전략목표(대과제)-성과목표(중과제)-성과지표(세부과제) 성과 연계도 ... 42
- 바. 추진전략 및 협력 네트워크 ... 43
- 1) 추진전략 및 방법 ... 43
- 2) 내외부 사업과의 연계 협력 계획 ... 44
- 사. 2023년 대표성과 ... 45
- 아. 2023년 실적 및 2024년 계획 ... 47
- 2. 연구개발과제의 수행 과정 및 수행 내용 ... 48
- 3. 연구개발과제의 수행 결과 ... 99
- 가. 정성적 연구개발성과 ... 99
- 나. 정량적 연구개발성과 ... 114
- 다. 계획하지 않은 성과 및 관련 분야 기여사항 ... 121
- 4. 연구개발성과의 관련 분야에 대한 기여 정도 ... 122
- 5. 연구개발성과의 관리 및 활용 계획 ... 124
- 가. 연구데이터 관리계획(DMP) 추진실적 ... 125
- 6. 참고문헌 ... 126
- 끝페이지 ... 130
※ AI-Helper는 부적절한 답변을 할 수 있습니다.