Multi-Cluster Operation
A cluster is comprised of all the nodes managed by a single slurmctld
daemon.
クラスターは、単一のslurmctldデーモンによって管理されるすべてのノードで構成されます。
Slurm offers the ability to target commands to other
clusters instead of, or in addition to, the local cluster on which the
command is invoked.
Slurmは、コマンドが呼び出されるローカルクラスターの代わりに、またはそれに加えて、コマンドを他のクラスターにターゲティングする機能を提供します。
When this behavior is enabled, users can submit
jobs to one or many clusters and receive status from those remote
clusters.
この動作を有効にすると、ユーザーは1つまたは複数のクラスターにジョブを送信し、それらのリモートクラスターからステータスを受け取ることができます。
For example:
juser@dawn> squeue -M dawn,dusk CLUSTER: dawn JOBID PARTITION NAME USER ST TIME NODES BP_LIST(REASON) 76897 pdebug myJob juser R 4:10 128 dawn001[8-15] 76898 pdebug myJob juser R 4:10 128 dawn001[16-23] 16899 pdebug myJob juser R 4:10 128 dawn001[24-31] CLUSTER: dusk JOBID PARTITION NAME USER ST TIME NODES BP_LIST(REASON) 11950 pdebug aJob juser R 4:20 128 dusk000[0-15] 11949 pdebug aJob juser R 5:01 128 dusk000[48-63] 11946 pdebug aJob juser R 6:35 128 dusk000[32-47] 11945 pdebug aJob juser R 6:36 128 dusk000[16-31]
Most of the Slurm client commands offer the "-M, --clusters="
option which provides the ability to communicate to and from a comma
separated list of clusters.
ほとんどのSlurmクライアントコマンドは、「-M、-clusters =」オプションを提供します。これは、コンマで区切られたクラスターのリストと通信する機能を提供します。
When sbatch, salloc or srun is invoked with a cluster
list, Slurm will immediately submit the job to the cluster that offers the
earliest start time subject its queue of pending and running jobs.
クラスターリストを使用してsbatch、salloc、またはsrunが呼び出されると、Slurmは、保留中および実行中のジョブのキューを条件として、最も早い開始時刻を提供するクラスターにジョブをすぐに送信します。
Slurm will
make no subsequent effort to migrate the job to a different cluster (from the
list) whose resources become available when running jobs finish before their
scheduled end times.
Slurmは、ジョブの実行がスケジュールされた終了時間より前に終了したときにリソースが使用可能になる別のクラスター(リストから)にジョブを移行するための後続の作業を行いません。
NOTE: In order for salloc or srun to work with the "-M,
--clusters" option in a multi-cluster environment, the compute nodes must be
accessible to and from the submission host.
注:マルチクラスター環境でsallocまたはsrunを「-M、-clusters」オプションと連携させるには、送信ホストとの間で計算ノードにアクセスできる必要があります。
Multi-Cluster Configuration
The multi-cluster functionality requires the use of the slurmDBD.
マルチクラスター機能では、slurmDBDを使用する必要があります。
The AccountingStorageType in the slurm.conf file must be set to the
accounting_storage/slurmdbd plugin and the MUNGE or authentication
keys must be installed to allow each cluster to communicate with the
slurmDBD.
slurm.confファイルのAccountingStorageTypeをaccounting_storage / slurmdbdプラグインに設定し、各クラスターがslurmDBDと通信できるようにMUNGEまたは認証キーをインストールする必要があります。
Note that MUNGE can be configured to use different keys for
communications within a cluster and across clusters if desired.
MUNGEは、必要に応じて、クラスター内およびクラスター間での通信に異なるキーを使用するように構成できることに注意してください。
See accounting for details.
詳細については、アカウンティングを参照してください。
Once configured, Slurm commands specifying the "-M, --clusters="
option will become active for all of the clusters listed by the
"sacctmgr show clusters" command.
構成が完了すると、「-M、-clusters =」オプションを指定するSlurmコマンドは、「sacctmgrshowclusters」コマンドでリストされたすべてのクラスターに対してアクティブになります。
See also the Slurm Federated Scheduling Guide.
Last modified 16 April 2019