Slurm Workload Manager

Slurm is an open-source workload manager designed for Linux clusters of all sizes.
Slurmは、あらゆるサイズのLinuxクラスター向けに設計されたオープンソースのワークロードマネージャーです。
It provides three key functions.
それは3つの主要な機能を提供します。
First it allocates exclusive and/or non-exclusive access to resources (computer nodes) to users for some duration of time so they can perform work.
まず、ユーザーが作業を実行できるように、リソース(コンピューターノード)への排他的および/または非排他的アクセスを一定期間ユーザーに割り当てます。
Second, it provides a framework for starting, executing, and monitoring work (typically a parallel job) on a set of allocated nodes.
次に、割り当てられたノードのセットで作業(通常は並列ジョブ)を開始、実行、および監視するためのフレームワークを提供します。
Finally, it arbitrates contention for resources by managing a queue of pending work.
最後に、保留中の作業のキューを管理することにより、リソースの競合を調停します。

Slurm's design is very modular with dozens of optional plugins.
Slurmの設計は非常にモジュール化されており、多数のオプションのプラグインがあります。
In its simplest configuration, it can be installed and configured in a couple of minutes (see Caos NSA and Perceus: All-in-one Cluster Software Stack by Jeffrey B. Layton).
最も単純な構成では、数分でインストールおよび構成できます(Caos NSAおよびPerceus:Jeffrey B. Laytonによるオールインワンクラスターソフトウェアスタックを参照)。
More complex configurations can satisfy the job scheduling needs of world-class computer centers and rely upon a MySQL database for archiving accounting records, managing resource limits by user or bank account, or supporting sophisticated job prioritization algorithms.
より複雑な構成は、世界クラスのコンピューターセンターのジョブスケジューリングのニーズを満たし、会計記録のアーカイブ、ユーザーまたは銀行口座によるリソース制限の管理、または高度なジョブ優先順位付けアルゴリズムのサポートをMySQLデータベースに依存できます。

While other workload managers do exist, Slurm is unique in several respects:
他のワークロードマネージャーは存在しますが、Slurmはいくつかの点でユニークです。

  • Scalability: It is designed to operate in a heterogeneous cluster with up to tens of millions of processors.
    スケーラビリティ:最大数千万のプロセッサを搭載した異種クラスターで動作するように設計されています。
  • Performance: It can accept 1,000 job submissions per second and fully execute 500 simple jobs per second (depending upon hardware and system configuration).
    パフォーマンス:1秒あたり1,000のジョブ送信を受け入れ、1秒あたり500の単純なジョブを完全に実行できます(ハードウェアとシステムの構成によって異なります)。
  • Free and Open Source: Its source code is freely available under the GNU General Public License.
    フリーでオープンソース:そのソースコードはGNU General PublicLicenseの下で無料で入手できます。
  • Portability: Written in C with a GNU autoconf configuration engine.
    移植性:GNUautoconf構成エンジンを使用してCで記述されています。
    While initially written for Linux, Slurm has been ported to a diverse assortment of systems.
    Slurmは当初Linux向けに作成されましたが、さまざまな種類のシステムに移植されています。
  • Power Management: Job can specify their desired CPU frequency and power use by job is recorded.
    電源管理:ジョブは希望のCPU周波数を指定でき、ジョブごとの電力使用量が記録されます。
    Idle resources can be powered down until needed.
    アイドル状態のリソースは、必要になるまで電源を切ることができます。
  • Fault Tolerant: It is highly tolerant of system failures, including failure of the node executing its control functions.
    フォールトトレラント:制御機能を実行しているノードの障害など、システム障害に対する耐性が高くなっています。
  • Flexibility: A plugin mechanism exists to support various interconnects, authentication mechanisms, schedulers, etc.
    柔軟性:プラグインメカニズムは、さまざまな相互接続、認証メカニズム、スケジューラなどをサポートするために存在します。
    These plugins are documented and simple enough for the motivated end user to understand the source and add functionality.
    これらのプラグインは文書化されており、やる気のあるエンドユーザーがソースを理解して機能を追加できるほどシンプルです。
  • Resizable Jobs: Jobs can grow and shrink on demand.
    サイズ変更可能なジョブ:ジョブはオンデマンドで拡大および縮小できます。
    Job submissions can specify size and time limit ranges.
    ジョブの送信では、サイズと制限時間の範囲を指定できます。
  • Status Jobs: Status running jobs at the level of individual tasks to help identify load imbalances and other anomalies.
    ステータスジョブ:負荷の不均衡やその他の異常を特定するのに役立つ、個々のタスクのレベルで実行中のジョブのステータス。

Slurm provides workload management on many of the most powerful computers in the world.
Slurmは、世界で最も強力なコンピューターの多くでワークロード管理を提供します。
On the November 2013 Top500 list, five of the ten top systems use Slurm including the number one system.
2013年11月のTop500リストでは、上位10のシステムのうち5つが、ナンバーワンのシステムを含めてSlurmを使用しています。
These five systems alone contain over 5.7 million cores.
これらの5つのシステムだけでも、570万を超えるコアが含まれています。
A few of the systems using Slurm are listed below:
Slurmを使用するシステムのいくつかを以下に示します。

  • Tianhe-2 designed by The National University of Defense Technology (NUDT) in China has 16,000 nodes, each with two Intel Xeon IvyBridge processors and three Xeon Phi processors for a total of 3.1 million cores and a peak performance of 33.86 Petaflops.
    中国の国防科技大学(NUDT)によって設計されたTianhe-2には16,000のノードがあり、それぞれに2つのIntel XeonIvyBridgeプロセッサと3つのXeonPhiプロセッサがあり、合計310万コア、ピークパフォーマンスは33.86ペタフロップスです。
  • Sequoia, an IBM BlueGene/Q system at Lawrence Livermore National Laboratory with 1.6 petabytes of memory, 96 racks, 98,304 compute nodes, and 1.6 million cores, with a peak performance of over 17.17 Petaflops.
    Sequoiaは、ローレンスリバモア国立研究所のIBM BlueGene / Qシステムで、1.6ペタバイトのメモリ、96ラック、98,304コンピューティングノード、160万コアを備え、ピークパフォーマンスは17.17ペタフロップスを超えています。
  • Piz Daint a Cray XC30 system at the Swiss National Supercomputing Centre with 28 racks and 5,272 hybrid compute nodes each with an Intel Xeon E5-2670 CPUs plus an NVIDIA Tesla K20X GPUs for a total of 115,984 compute cores and a peak performance of 6.27 Petaflops.
    スイス国立スーパーコンピューティングセンターのPizDaint a Cray XC30システムには、28個のラックと5,272個のハイブリッド計算ノードがあり、それぞれにIntel Xeon E5-2670CPUとNVIDIATesla K20X GPUが搭載されており、合計115,984個の計算コアと6.27ペタフロップスのピークパフォーマンスを実現します。
  • Stampede at the Texas Advanced Computing Center/University of Texas is a Dell with over 80,000 Intel Xeon cores, Intel Phi co-processors, plus 128 NVIDIA GPUs delivering 5.17 Petaflops.
    Texas Advanced Computing Center / University of TexasのStampedeは、80,000を超えるIntel Xeonコア、Intel Phiコプロセッサ、および5.17ペタフロップスを提供する128のNVIDIAGPUを備えたデルです。
  • TGCC Curie, owned by GENCI and operated in the TGCC by CEA, Curie is offering 3 different fractions of x86-64 computing resources for addressing a wide range of scientific challenges and offering an aggregate peak performance of 2 PetaFlops.
    GENCIが所有しCEAがTGCCで運用しているTGCCCurieは、幅広い科学的課題に対処し、2ペタフロップスの合計ピークパフォーマンスを提供するために、x86-64コンピューティングリソースの3つの異なる部分を提供しています。
  • Tera 100 at CEA with 140,000 Intel Xeon 7500 processing cores, 300TB of central memory and a theoretical computing power of 1.25 Petaflops.
    CEAのTera100は​​、140,000個のIntel Xeon 7500プロセッシングコア、300TBの中央メモリ、および1.25ペタフロップスの理論上の計算能力を備えています。
  • Lomonosov, a T-Platforms system at Moscow State University Research Computing Center with 52,168 Intel Xeon processing cores and 8,840 NVIDIA GPUs.
    Lomonosov、52,168個のIntelXeonプロセッシングコアと8,840個のNVIDIAGPUを備えたモスクワ州立大学リサーチコンピューティングセンターのTプラットフォームシステム。
  • LOEWE-CSC, a combined CPU-GPU Linux cluster at The Center for Scientific Computing (CSC) of the Goethe University Frankfurt, Germany, with 20,928 AMD Magny-Cours CPU cores (176 Teraflops peak performance) plus 778 ATI Radeon 5870 GPUs (2.1 Petaflops peak performance single precision and 599 Teraflops double precision) and QDR Infiniband interconnect.
    LOEWE-CSCは、ドイツのゲーテ大学フランクフルトの科学コンピューティングセンター(CSC)にあるCPU-GPU Linuxクラスターの組み合わせで、20,928個のAMD Magny-Cours CPUコア(176テラフロップスのピークパフォーマンス)と778個のATI Radeon 5870 GPU(2.1ペタフロップスのピークパフォーマンスは単精度、599テラフロップスは倍精度)およびQDRInfiniband相互接続。

Last modified 24 November 2013