Multi-Cluster Operation

A cluster is comprised of all the nodes managed by a single slurmctld daemon.
クラスターは、単一のslurmctldデーモンによって管理されるすべてのノードで構成されます。
Slurm offers the ability to target commands to other clusters instead of, or in addition to, the local cluster on which the command is invoked.
Slurmは、コマンドが呼び出されるローカルクラスターの代わりに、またはそれに加えて、コマンドを他のクラスターにターゲティングする機能を提供します。
When this behavior is enabled, users can submit jobs to one or many clusters and receive status from those remote clusters.
この動作を有効にすると、ユーザーは1つまたは複数のクラスターにジョブを送信し、それらのリモートクラスターからステータスを受け取ることができます。

For example:

juser@dawn> squeue -M dawn,dusk
CLUSTER: dawn
JOBID PARTITION   NAME   USER  ST   TIME NODES BP_LIST(REASON)
76897    pdebug  myJob  juser   R   4:10   128 dawn001[8-15]
76898    pdebug  myJob  juser   R   4:10   128 dawn001[16-23]
16899    pdebug  myJob  juser   R   4:10   128 dawn001[24-31]

CLUSTER: dusk
JOBID PARTITION   NAME   USER  ST   TIME NODES BP_LIST(REASON)
11950    pdebug   aJob  juser   R   4:20   128 dusk000[0-15]
11949    pdebug   aJob  juser   R   5:01   128 dusk000[48-63]
11946    pdebug   aJob  juser   R   6:35   128 dusk000[32-47]
11945    pdebug   aJob  juser   R   6:36   128 dusk000[16-31]

Most of the Slurm client commands offer the "-M, --clusters=" option which provides the ability to communicate to and from a comma separated list of clusters.
ほとんどのSlurmクライアントコマンドは、「-M、-clusters =」オプションを提供します。これは、コンマで区切られたクラスターのリストと通信する機能を提供します。

When sbatch, salloc or srun is invoked with a cluster list, Slurm will immediately submit the job to the cluster that offers the earliest start time subject its queue of pending and running jobs.
クラスターリストを使用してsbatch、salloc、またはsrunが呼び出されると、Slurmは、保留中および実行中のジョブのキューを条件として、最も早い開始時刻を提供するクラスターにジョブをすぐに送信します。
Slurm will make no subsequent effort to migrate the job to a different cluster (from the list) whose resources become available when running jobs finish before their scheduled end times.
Slurmは、ジョブの実行がスケジュールされた終了時間より前に終了したときにリソースが使用可能になる別のクラスター(リストから)にジョブを移行するための後続の作業を行いません。

NOTE: In order for salloc or srun to work with the "-M, --clusters" option in a multi-cluster environment, the compute nodes must be accessible to and from the submission host.
注:マルチクラスター環境でsallocまたはsrunを「-M、-clusters」オプションと連携させるには、送信ホストとの間で計算ノードにアクセスできる必要があります。

Multi-Cluster Configuration

The multi-cluster functionality requires the use of the slurmDBD.
マルチクラスター機能では、slurmDBDを使用する必要があります。
The AccountingStorageType in the slurm.conf file must be set to the accounting_storage/slurmdbd plugin and the MUNGE or authentication keys must be installed to allow each cluster to communicate with the slurmDBD.
slurm.confファイルのAccountingStorageTypeをaccounting_storage / slurmdbdプラグインに設定し、各クラスターがslurmDBDと通信できるようにMUNGEまたは認証キーをインストールする必要があります。
Note that MUNGE can be configured to use different keys for communications within a cluster and across clusters if desired.
MUNGEは、必要に応じて、クラスター内およびクラスター間での通信に異なるキーを使用するように構成できることに注意してください。
See accounting for details.
詳細については、アカウンティングを参照してください。

Once configured, Slurm commands specifying the "-M, --clusters=" option will become active for all of the clusters listed by the "sacctmgr show clusters" command.
構成が完了すると、「-M、-clusters =」オプションを指定するSlurmコマンドは、「sacctmgrshowclusters」コマンドでリストされたすべてのクラスターに対してアクティブになります。

See also the Slurm Federated Scheduling Guide.

Last modified 16 April 2019