슈퍼컴퓨팅 자원들은 주로 MPI와 같은 메시지 교환 인터페이스에 기반한 통신 집적도가 높은 고성능 컴퓨팅(HPC: High Performance Computing) 응용 분야를 지원하는데 활용되어 왔다. 반면에, 대규모 계산처리 컴퓨팅(HTC: High Throughput Computing) 방식의 패러다임은 주로 계산 집적도가 높고(상대적으로 적은 I/O 연산), 독립적인(작업들 간의 통신이 적음) 많은 수의 작업을 처리하는 것을 요구하고 있다. 국내에서도 고에너지 물리, 신약개발, 핵물리와 같은 연구 분야를 중심으로 대규모 컴퓨팅 자원을 요구하는 계산처리에 대한 수요가 증가하고 있다. 본 논문에서는 이러한 HTC 과학 응용들에 대한 효율적인 지원을 국가차원의 슈퍼컴퓨팅 분산 환경에서 제공하기 위해 연구/개발되어진 대규모 계산처리 서비스(HTCaaS: High Throughput Computing as a Service)의 전체 구조 및 구성 요소, 실행 시나리오 및 실제 응용 적용 사례 등에 대해 서술한다.
슈퍼컴퓨팅 자원들은 주로 MPI와 같은 메시지 교환 인터페이스에 기반한 통신 집적도가 높은 고성능 컴퓨팅(HPC: High Performance Computing) 응용 분야를 지원하는데 활용되어 왔다. 반면에, 대규모 계산처리 컴퓨팅(HTC: High Throughput Computing) 방식의 패러다임은 주로 계산 집적도가 높고(상대적으로 적은 I/O 연산), 독립적인(작업들 간의 통신이 적음) 많은 수의 작업을 처리하는 것을 요구하고 있다. 국내에서도 고에너지 물리, 신약개발, 핵물리와 같은 연구 분야를 중심으로 대규모 컴퓨팅 자원을 요구하는 계산처리에 대한 수요가 증가하고 있다. 본 논문에서는 이러한 HTC 과학 응용들에 대한 효율적인 지원을 국가차원의 슈퍼컴퓨팅 분산 환경에서 제공하기 위해 연구/개발되어진 대규모 계산처리 서비스(HTCaaS: High Throughput Computing as a Service)의 전체 구조 및 구성 요소, 실행 시나리오 및 실제 응용 적용 사례 등에 대해 서술한다.
Petascale systems(so called supercomputers) have been mainly used for supporting communication-intensive and tightly-coupled parallel computations based on message passing interfaces such as MPI(HPC: High-Performance Computing). On the other hand, computing paradigms such as High-Throughput Computin...
Petascale systems(so called supercomputers) have been mainly used for supporting communication-intensive and tightly-coupled parallel computations based on message passing interfaces such as MPI(HPC: High-Performance Computing). On the other hand, computing paradigms such as High-Throughput Computing(HTC) mainly target compute-intensive (relatively low I/O requirements) applications consisting of many loosely-coupled tasks(there is no communication needed between them). In Korea, recently emerging applications from various scientific fields such as pharmaceutical domain, high-energy physics, and nuclear physics require a very large amount of computing power that cannot be supported by a single type of computing resources. In this paper, we present our HTCaaS(High-Throughput Computing as a Service) which can leverage national distributed computing resources in Korea to support these challenging HTC applications and describe the details of our system architecture, job execution scenario and case studies of various scientific applications.
Petascale systems(so called supercomputers) have been mainly used for supporting communication-intensive and tightly-coupled parallel computations based on message passing interfaces such as MPI(HPC: High-Performance Computing). On the other hand, computing paradigms such as High-Throughput Computing(HTC) mainly target compute-intensive (relatively low I/O requirements) applications consisting of many loosely-coupled tasks(there is no communication needed between them). In Korea, recently emerging applications from various scientific fields such as pharmaceutical domain, high-energy physics, and nuclear physics require a very large amount of computing power that cannot be supported by a single type of computing resources. In this paper, we present our HTCaaS(High-Throughput Computing as a Service) which can leverage national distributed computing resources in Korea to support these challenging HTC applications and describe the details of our system architecture, job execution scenario and case studies of various scientific applications.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서 설명하는 HTCaaS와 유사한 이름을 가지고 있는 HPCaaS[20]도 기본적으로는 슈퍼컴퓨팅 자원을 다중 사용자 및 다양한 과학 응용들의 지원에 사용하고자 하였다. 단일 응용의 성능을 최대한 끌어내기 위한 전용 HPC 시스템 구축보다는 이러한 시스템을 보다 다양한 응용에 동시 적용하면서 적절한 스케줄링을 통한 자원배분을 통해 전체적인 생산성 및 유연성을 증가시킬 수 있음을 보이고 있다.
HTCaaS는 다양한 자원의 효율적인 연동 및 스케줄링을 위해 파일럿 작업의 형태인 에이전트(Agent)에 기반한 멀티레벨 스케줄링(Multi-level Scheduling)기법을 사용하고 있다 (로컬 배치스케줄러를 통한 에이전트 실행으로써 자원을 확보하고, 작업들은 별도의 큐를 통해 배포 및 실행함). 본 논문에서는 PLSI의 다중 클러스터 자원을 사용하기 위한 기술과 사용자의 편의성을 돕기 위해 개발된 그래픽 사용자 인터페이스(GUI: Graphic User Interface)와 커맨드 사용자 인터페이스 (CLI:Command Line Interface)등에 대해 소개한다.
본 연구는 다양한 계산 과학 분야(신약개발, 고에너지 물리 등)의 연구자들이 그들의 연구에 필수적인 대규모 데이터 처리 또는 반복적인 연산 작업을 위해 분산되어 있는 이기종 컴퓨팅 자원들을 하나의 통합된 형태로 연동하여 용이하게 연구할 수 있는 서비스를 구축 및 제공하고자 한다. ([그림 1]은 이러한 HTCaaS의 개념도를 보여주고 있음)
핵물리 분야는 가속기 물리의 다체계산 (N-bodyPhase SpaceCalculation)에 적용하여 실험을 하고 있는 상황이다.현재 PLSI에서 HTCaaS를 이용해 몇 차원 위상공간 계산까지 가능한지 테스트함으로써 실제 핵입자 물리 이론 연구에 도움을 줄 수 있도록 하고자 한다.
제안 방법
인증 관리에서는 로그인 모듈에서의 사용자 식별 요청을 처리하고 클라이언트로부터 인증서 검사를 위해 전송되는 암호화된 메시지를 통해 PLSI데이터베이스, 웹 서비스와의 통신을 수행하고 인증서 유효성 검사 결과를 돌려준다. HTCaaS사용자 인증 검사를 위해 DBManager에 사용자 ID존재 여부와 암호 일치 여부 를 검사 후 그 결과를 반환한다.
고에너지 물리 분야에서는 고에너지 가속기 실험을 통해 얻어지는 데이터의 예측 및 검증을 위한 대용량 MonteCarlo(MC)시뮬레이션 데이터를 분산 처리하여 HTCaaS에 적용하였다. 고에너지 입자 충돌 프로세스가 가속기 내 검출기에서 관측되는 현상을 시뮬레이션하는 프로그램인 MadGraph5[18],PYTHIA[19]를 조합하여 실행 후 결과를 얻을 수 있었다.
대규모 계산을 요구하는 용용 가운데 신약개발 분야의 Autodock3, 고에너지 물리 가속기 시뮬레이션 분야의 Madgraph5+PYTHIA를 이용하여 실험을 해보았다.
이기종 자원을 지원하기 위해 HTCaaS는 자체 사용자에 대한 인증 및 사용하고자 하는 자원에 대한 인증이 필요하다. 본 논문에서 사용된 PLSI환경에서는 1단계는 HTCaaS 사용자인지 검사하고, 2단계는 PLSI사 용자인지 검사를 하게 된다. [그림 4]는 HTCaaS에서 지원하는 인증 과정을 도식화한 것이다.
이러한 과정을 거쳐 SARS(중증 급성 호흡기 증후군)에 대한 대규모 신약후보물질탐색을 수행하였으며, 그리드 자원을 활용하여 110만개의 화합물을 대상으로 평균 2500개의 CPU를 동시 활용하여 실험을 하였고, 총 42년의 계산을 11일 만에 완료하였다[16][17].
대상 데이터
사용되어지는 데이터는 단백질, 화합물 등이 있는데, 단백질은 PDB파일로 평균적으로 400KB크기를 가지고, 화합물 역시 PDB파일로 평균적으로 2∼3KB크기이며, 30만개를 기준으로 1GB정도의 저장 공간이 필요하다.
이론/모형
고에너지 물리 분야에서는 고에너지 가속기 실험을 통해 얻어지는 데이터의 예측 및 검증을 위한 대용량 MonteCarlo(MC)시뮬레이션 데이터를 분산 처리하여 HTCaaS에 적용하였다. 고에너지 입자 충돌 프로세스가 가속기 내 검출기에서 관측되는 현상을 시뮬레이션하는 프로그램인 MadGraph5[18],PYTHIA[19]를 조합하여 실행 후 결과를 얻을 수 있었다.
성능/효과
PLSI자원을 활용하여 약 1천만 개의 이벤트 시뮬레이션을 평균 500개의 CPU를 활용하여 2시간 만에 끝낼 수 있었다(3.5GHz쿼드코어 머신에서 약 8일 소요).
본 논문에서 설명하는 HTCaaS와 유사한 이름을 가지고 있는 HPCaaS[20]도 기본적으로는 슈퍼컴퓨팅 자원을 다중 사용자 및 다양한 과학 응용들의 지원에 사용하고자 하였다. 단일 응용의 성능을 최대한 끌어내기 위한 전용 HPC 시스템 구축보다는 이러한 시스템을 보다 다양한 응용에 동시 적용하면서 적절한 스케줄링을 통한 자원배분을 통해 전체적인 생산성 및 유연성을 증가시킬 수 있음을 보이고 있다.
[그림 4]는 HTCaaS에서 지원하는 인증 과정을 도식화한 것이다. 사용자 (HTCaaSClient부분)는 사용자의 아이디와 패스워드, 그리고 (PLSI사용자인 경우) PLSI 인증서를 입력하고 HTCaaS 서비스 내의 Account Manager를 통해 HTCaaS사용자 리스트와 PLSI인증이 모두 유효한지를 검사받는다. 이러한 다단계 인증 체계는 사용자에게는 보이지 않고 단일한 인터페이스로 표현되고, 결과적으로 인증의 유효성 검사 결과만이 전달된다.
응용의 실험에 사용된 데이터는 출력파일이 파라미터 스윕 범위에 따라 분할 개수가 결정되며, 분할 개수가 500인 경우 결과 파일 하나의 크기는 약 72.4MB정도가 되었다. 이러한 연구는 고에너지 물리 분야뿐만이 아니라 MadGraph5, PYTHIA와 같은 프로그램을 이용하는 천체물리 등 유사 분야에 적용 가능할 수 있어서 향후 새로운 응용 적용에 가이드라인을 제시할 수 있었다.
사용자(Client)가 작업을 취소하 려는 경우에는 취소 모듈에 작업 정보를 전달하여 취소 요청을 하며 모니터링 모듈에 작업 플래그를 변경함으로써 작업 취소를 유도한다. 최종적으로 완료된 메타 작업의 결과는 작업 결과 모듈을 통해 작업 결과 정보를 제공받고,결과 데이터를 UserDataManager에 요청하여 결과 파일을 사용자에게 전달한다.
후속연구
슈퍼컴퓨터 인프라 기반의 HTCaaS시범 서비스를 구축하고, 연구자가 쉽게 사용할 수 있게 HTCaaSGUI 및 CLI클라이언트를 제공하여 서비스에 대한 접근성을 높임으로써 국가 슈퍼컴퓨팅 자원을 효율적으로 사용하고, 다양한 응용 분야에 활용될 것으로 기대된다
4MB정도가 되었다. 이러한 연구는 고에너지 물리 분야뿐만이 아니라 MadGraph5, PYTHIA와 같은 프로그램을 이용하는 천체물리 등 유사 분야에 적용 가능할 수 있어서 향후 새로운 응용 적용에 가이드라인을 제시할 수 있었다.
HTCaaS는 분산되어 서로 다른 특징을 갖는 인프라 구조로 구성된 계산 자원들을 하나의 통합된 형태로 연구자들에게 제공한다. 즉, 본 연구를 통해 다양한 계산 과학 분야의 응용 연구자들은 분산되어 존재하는 고성능 컴퓨팅 자원으로 쉽게 접근이 가능하며, 컴퓨팅 자원으로의 계산 작업 구성 및 제출의 자동화를 통해 용이 하게 연구 수행을 할 수 있다. 이로써 국내 계산과학 분야의 연구 생산성을 높이고, 국가 슈퍼컴퓨팅 인프라의 활용도를 높이는 데에도 크게 기여할 수 있다.
기존의 그리드 기반의 HTCaaS 시스템을 확장한 PLSI기반의 HTCaaS시범 서비스를 제공하여 신약개발, 인공위성 구조 최적설계, 고에너지 물리, 의학물리 등의 국내외 커뮤니티 활용을 지원하였다. 향후 더 많은 수의 국내 대학 개발 연구팀에게 국가 슈퍼컴퓨팅 인프라를 포함하는 대용량의 계산 자원을 활용할 수 있도록 개발할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
대규모 계산처리 컴퓨팅방식은 어디에 사용되고 있는가?
대규모 계산이나 많은 양의 데이터 접근이 요구되는 계산과학 분야에서는 복잡한 문제 풀이를 위해 다수의 고성능 계산 자원을 동시에 활용하는 대규모 계산처리 컴퓨팅(High-ThroughputComputing)방식을 채택하여 사용하고 있다. 기존의 HPC방식과는 달리, HTC방식의 컴퓨팅 패러다임은 주로 계산 집적도가 높고(상대적으로 적은 I/O연산), 독립적인(작업들 간의 통신이 적음)많은 수의 작업을 처리하는 것을 요구하고 있다.
대규모 계산처리 컴퓨팅방식의 한계점은?
기존의 HPC방식과는 달리, HTC방식의 컴퓨팅 패러다임은 주로 계산 집적도가 높고(상대적으로 적은 I/O연산), 독립적인(작업들 간의 통신이 적음)많은 수의 작업을 처리하는 것을 요구하고 있다. 하지만 계산 과학 연구자들이 직접 계산 자원을 구축하고 관리하는 데에는 추가적인 지식 습득이 요구되며, 동시에 많은 비용이 소비된다. 또한 이같이 직접 계산 자원을 구축하는 경우, 실제로 만족할 만한 성능을 제공하지 못 하는 경우가 대다수이다.이러한 한계점을 해결하고자 수년간 서비스 그리드(EGI[1])또는 데스크톱 그리드 (BOINC[2])와 같은 계산 자원이 제공되어 왔으며, 최근에는 IT및 하드웨어 기술이 급속도로 발전하여 저비용의 최첨단 자원의 활용이 가능함에도 불구하고 실제 응용 과학자 또는 연구자들의 접근 및 활용에는 여전히 한 계가 존재한다.
슈퍼컴퓨팅 자원들은 어디에 활용되어 왔는가?
슈퍼컴퓨팅 자원들은 주로 MPI와 같은 메시지 교환 인터페이스에 기반한 통신 집적도가 높은 고성능 컴퓨팅(HPC: High Performance Computing) 응용 분야를 지원하는데 활용되어 왔다. 반면에, 대규모 계산처리 컴퓨팅(HTC: High Throughput Computing) 방식의 패러다임은 주로 계산 집적도가 높고(상대적으로 적은 I/O 연산), 독립적인(작업들 간의 통신이 적음) 많은 수의 작업을 처리하는 것을 요구하고 있다.
참고문헌 (20)
http://www.egi.eu/
http://boinc.berkeley.edu/
http://www.plsi.or.kr
김성준, 성진우, 장지훈, 이상동,"국가 슈퍼컴퓨팅 공동활용 환경을 위한 통합 모니터링 환경 구축", 한국콘텐츠학회 추계 종합학술대회 논문집, 제5권, 제2호(하), pp.517-521, 2007.
우준, 박석중, 이상동, 김형식,"국가 슈퍼컴퓨팅 공동활용체제 구축을 위한 글로벌공유파일시스템 성능 분석", 한국콘텐츠학회 추계 종합학술대회 논문집, 제5권, 제2호(하), pp509-512, 2007.
http://research.cs.wisc.edu/htcondor/
D. Thain, T. Tannenbaum, and M. Livny, "Distributed Computing in Practice: The Condor Experience," Concurrency and Computation:Practice and Experience, Vol. 17, Issue 2-4, pp.323-356, 2005.
I. Raicu, Y. Zhao, C. Dumitrescu, I. Foster, and Mike Wilde,"Falkon: a Fastand Light-weight tasK executiON framework," ACM/IEEE conference on Supercomputing (SC'07), 2007.
I. Raicu, I. Foster, and Y. Zhao, "Many-Task Computing for Grids and Supercomputers," ACM Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS'08), 2008.
www.cern.ch/alice/
http://alien2.cern.ch/
http://cern.ch/DIANE
http://autodock.scripps.edu
T. T. Nguyen, H. J. Ryu, S. H. Lee, S. Hwang, V. Breton, J. H. Rhee, and D. Kim,"Virtual screening identification of novelsevere acute respiratory syndrome 3C-like protease inhibitors and in vitro confirmation," Bioorganic & Medicinal Chemistry Letters, Vol. 21, No. 10, pp.3088-3091, 2011.
T. T. Nguyen, H. J. Ryu, S. H. Lee, S. Hwang, J. Cha, V. Breton, and D. Kim, "Discovery of novel inhibitors for human intestinal maltase: virtual screening in a WISDOM environment and in vitro evaluation," Biotechnology Letters, Vol. 33, No. 11, pp.2185-2191, 2001.
http://madgraph.hep.uiuc.edu/
http://pythia6.hepforge.org/
G. Shainer, T. Liu, J. Layton, and J. Mora, "Scheduling Strategies for HPC as a Service (HPCaaS)," IEEE Cluster Computing and Workshops, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.