$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

배치 작업 로그 분석을 통한 스케줄링 최적화 연구
Study of Scheduling Optimization through the Batch Job Logs Analysis 원문보기

디지털콘텐츠학회 논문지 = Journal of Digital Contents Society, v.18 no.7, 2017년, pp.1411 - 1418  

윤준원 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ,  송의성 (부산교육대학교 컴퓨터교육과)

초록
AI-Helper 아이콘AI-Helper

배치 작업 스케줄러클러스터 환경에서 구성된 계산 자원을 인지하고 순서에 맞게 효율적으로 작업을 배치하는 역할을 수행한다. 클러스터내의 한정된 가용자원을 효율적으로 사용하기 위해서는 사용자 작업의 특성을 분석하여 반영하여야 하는데 이를 위해서는 다양한 스케줄링 알고리즘을 파악하고 해당 시스템 환경에 맞게 적용하는 것이 중요하다. 대부분의 스케줄러 소프트웨어는 전체 관리 대상의 자원 명세와 시스템의 상태뿐만 아니라 작업 제출부터 종료까지 다양한 사용자의 작업 수행 환경을 반영하게 된다. 또한 작업 수행과 관련한 다양한 정보 가령, 작업 스크립트, 환경변수, 라이브러리, 작업의 대기, 시작, 종료 시간 등을 저장하게 된다. 본 연구에서는 배치 스케줄러를 통한 작업 수행과 관련된 정보를 통해 사용자의 작업 성공률, 수행시간, 자원 규모 등의 스케줄러의 수행 로그를 분석하여 문제점을 파악하였다. 향후 이 연구를 바탕으로 자원의 활용률을 높임으로써 시스템을 최적화할 수 있다.

Abstract AI-Helper 아이콘AI-Helper

The batch job scheduler recognizes the computational resources configured in the cluster environment and plays a role of efficiently arranging the jobs in order. In order to efficiently use the limited available resources in the cluster, it is important to analyze and characterize the characteristic...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 높은 확장성과 추가적인 플러그인을 통해 다양한 기능을 제공하고 있으며 가속 프로세서(GPU, PHI)의 기능도 일부 지원한다. SLURM은 Quadrics RMS에서 영감을 받아서 개발되었으며 대 규모 슈퍼컴퓨팅 센터들의 요구사항을 충족시키는 것을 목표로 삼고 있다. SLURM의 핵심 요소는 slurmctld라는 컨트롤 데몬이며 가용자원의 모니터링과 배차작업 스케줄링을 담당한다.
  • 다른 작업과의 상호 작용은 체크하지 않 으며 다른 작업은 지연될 수도 있다. 목적은 큐 목록의 순서를 고려하여 현재 사용률을 최대한 향상시키는 것으로 Conservative 알고리즘과 달리 작업이 큐에 들어갈 때 마다 전 체 목록을 확인해서 여유 자원이 확보되면 백필을 수행하게 된다. <표 3>은 Easy Backfilling 알고리즘을 나타내고 있다.
  • 본 논문에서는 클러스터 환경에서 배치작업을 수행하기 위한 스케줄러 최적화 연구를 수행하였다. 작업이 수행되는 환경을 스케줄러는 반영하고 작업 요구사항에 맞춰 공평하게 분배 해야 한다.
  • 클러스터 환경을 구성하는 계산노드들에게 작업을 지시하고, 그 중 장애가 있는 시스템을 구분하는 것, 그리고 서버들간에 통신을 관리하는 기능이 스케줄러의 대표적인 특징이라 할 수 있다. 본 연구에서는 우선 대표적으로 사용되고 있는 스케줄러의 솔루션들을 조사하였다. 널리 사용되는 클러스터 배치 시스템들로는 Moab, Oracle Grid Engine, Portable Batch System, LoadLeveler, Condor, OAR, Platform LSF 등이 있다.
  • 본 연구에서는 특히 Tachyon2 시스템에서 점차 증가되고 있는 대규모 작업의 통계를 분석하여 사용자의 작업 성공률, 수행 시간, 자원 규모 등을 파악하였다. 통계 결과를 기반으로 Tachyon2에서 발생하는 자원의 단편화를 줄이기 위해 백필링 스케줄링 알고리즘을 연구하였다.
  • 또한 한 노드에 하나의 작업만이 실행될 수 있도록 보장하는 배타적 노드 할당 정책을 기본적으로 적용하고 있다. 이 는 단일 노드에서 두 작업 이상이 수행될 때 서로 다른 자원 사 용특징에 따라 발생할 수 있는 간섭에 따른 성능 저하를 막고자 하였다. (그림 2)는 Tachyon2 시스템에서 수행된 자원규모에 따른 작업개수 분포를 나태내고 있다.
  • 본 연구에서는 특히 Tachyon2 시스템에서 점차 증가되고 있는 대규모 작업의 통계를 분석하여 사용자의 작업 성공률, 수행 시간, 자원 규모 등을 파악하였다. 통계 결과를 기반으로 Tachyon2에서 발생하는 자원의 단편화를 줄이기 위해 백필링 스케줄링 알고리즘을 연구하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
클러스터 컴퓨팅이란 무엇인가? 클러스터 컴퓨팅은 서버를 여러 대 묶어서 하나의 장비처럼 구성하는 것이다. 클러스터 환경을 구성하는 계산노드들에게 작업을 지시하고, 그 중 장애가 있는 시스템을 구분하는 것, 그리고 서버들간에 통신을 관리하는 기능이 스케줄러의 대표적인 특징이라 할 수 있다.
FCFS 방식이 공정성을 보장하긴 하나 규모가 커질수록 효율성에 제한이 있는 이유는? FCFS는 작업 수행 순서의 공정성(Fairness)을 보장하는 가장 좋은 방식이기는 하나 계산자원의 규모가 커질수록 자원을 효율적으로 사용하는데 제한이 있다. 왜냐하면 각 작업마다 요구하는 자원의 규모가 달라 실제 가용자원이 사용되지 못하고 단편화가 발생할 수 있기 때문이다. 이런 문제를 해결하기 위해 단편화(Fragmentation)된 자원에 맞는 작은 작업을 우선적으로 배치하는 방식인 SJF(Shortest Job First)은 자원의 활용성을 높여 전체적인 성능을 향상을 가져올 수 있다.
백필 스케줄링은 어떠한 장점이 있는가? 백필 스케줄링(Backfill Scheduling)은 자원 사용량이 큰 선행 작업으로 인해 작은 작업이 수행되지 못할 때 우선 수행할 수 있도록 순서를 재조정하는 스케줄링 방식으로 작업의 공정성 과 성능 향상을 가져올 수 있다. 백필 스케줄링에서는 각 작업의 요구 수행시간이 반드시 명시되어야 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. He, Libo, et al., "A Review of Resource Scheduling in Large-Scale Server Cluster", International Conference on Knowledge Management in Organizations. Springer, Cham, pp. 494-505, 2017. 

  2. J.H. Abawajy, "An efficient adaptive scheduling policy for high-performance computing", Original Research Article Future Generation Computer Systems, Vol 25, Issue 3, pp.364-370, Mar 2009. 

  3. National Institute of Supercomputing and Networking, KISTI, Available: http://www.nisn.re.kr/. 

  4. Reuther, Albert, et al. "Scalable system scheduling for HPC and big data", Journal of Parallel and Distributed Computing 111, pp.76-92, 2017. 

  5. Templeton, D., "A Beginner's Guide to Sun Grid Engine 6.2", Whitepaper of Sun Microsystems, July 2009. 

  6. C. Chaubal, "Scheduler Policies for Job Prioritization in the Sun N1 Grid Engine 6 System", Technical report, Sun BluePrints Online, Sun Microsystems, Inc., Santa Clara, CA, USA. 

  7. Zhou, Xiaobing, et al., "Exploring distributed resource allocation techniques in the slurm job management system", Illinois Institute of Technology, Department of Computer Science, Technical Report, 2013. 

  8. KLUSACEK, Dalibor; CHLUMSKY, Vaclav; RUDOVA, Hana, "Planning and optimization in TORQUE resource manager", In: Proceedings of the 24th International Symposium on High-Performance Parallel and Distributed Computing. ACM, pp. 203-206, 2015. 

  9. Quintero, Dino, et al., "IBM Platform Computing Solutions Reference Architectures and Best Practices", IBM Redbooks, 2014. 

  10. Yuan, Yulai, et al., "Guarantee strict fairness and utilize prediction better in parallel job scheduling", IEEE Transactions on Parallel and Distributed Systems Vol. 25, No. 4, pp. 971-981, 2014. 

  11. Feitelson, D. G., & Weil, A. M. A. (1998, April). Utilization and predictability in scheduling the IBM SP2 with backfilling. In Parallel Processing Symposium, 1998. IPPS/SPDP 1998. Proceedings of the First Merged International and Symposium on Parallel and Distributed Processing , IEEE. pp.542-546, 1998. 

  12. J. W. Yoon, T. Y. Hong, C. Y. Park, H.C. Yu, "Analysis of Batch Job log to improve the success rate in HPC Environment", International Conference on Convergence Technology, vol.2 No.1, pp.209-210, July,2013. 

  13. El-Sayed, N., & Schroeder, B., "Reading between the lines of failure logs: Understanding how HPC systems fail". In: Dependable Systems and Networks (DSN), 2013 43rd Annual IEEE/IFIP International Conference on, pp.1-12, June, 2013. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로