gres.conf
Section: Slurm Configuration File (5)Updated: Slurm Configuration File
Index
NAME
gres.conf - Slurm configuration file for Generic RESource (GRES) management.gres.conf-Generic RESource(GRES)管理用のSlurm構成ファイル。
DESCRIPTION
gres.conf is an ASCII file which describes the configuration of Generic RESource (GRES) on each compute node.gres.confは、各計算ノードでのGeneric RESource(GRES)の構成を記述したASCIIファイルです。
If the GRES information in the slurm.conf file does not fully describe those resources, then a gres.conf file should be included on each compute node.
slurm.confファイルのGRES情報がこれらのリソースを完全に記述していない場合は、各計算ノードにgres.confファイルを含める必要があります。
The file location can be modified at system build time using the DEFAULT_SLURM_CONF parameter or at execution time by setting the SLURM_CONF environment variable.
ファイルの場所は、システムのビルド時にDEFAULT_SLURM_CONFパラメーターを使用して変更することも、実行時にSLURM_CONF環境変数を設定することによって変更することもできます。
The file will always be located in the same directory as the slurm.conf file.
このファイルは常にslurm.confファイルと同じディレクトリにあります。
If the GRES information in the slurm.conf file fully describes those resources
(i.e. no "Cores", "File" or "Links" specification is required for that GRES
type or that information is automatically detected), that information may be
omitted from the gres.conf file and only the configuration information in the
slurm.conf file will be used.
slurm.confファイルのGRES情報がそれらのリソースを完全に記述している場合(つまり、そのGRESタイプに「コア」、「ファイル」、または「リンク」の指定が不要であるか、その情報が自動的に検出される場合)、その情報はgres.confファイルとslurm.confファイルの構成情報のみが使用されます。
The gres.conf file may be omitted completely if the configuration information
in the slurm.conf file fully describes all GRES.
slurm.confファイルの構成情報にすべてのGRESが完全に記述されている場合は、gres.confファイルを完全に省略できます。
If using the gres.conf file to describe the resources available to nodes,
the first parameter on the line should be NodeName.
gres.confファイルを使用してノードで使用可能なリソースを記述する場合、行の最初のパラメーターはNodeNameである必要があります。
If configuring
Generic Resources without specifying nodes, the first parameter on the line
should be Name.
ノードを指定せずにGenericResourcesを構成する場合、行の最初のパラメーターはNameである必要があります。
Parameter names are case insensitive.
パラメータ名では大文字と小文字は区別されません。
Any text following a "#" in the configuration file is treated
as a comment through the end of that line.
構成ファイルの「#」に続くテキストは、その行の終わりまでコメントとして扱われます。
Changes to the configuration file take effect upon restart of
Slurm daemons, daemon receipt of the SIGHUP signal, or execution
of the command "scontrol reconfigure" unless otherwise noted.
構成ファイルへの変更は、特に明記されていない限り、Slurmデーモンの再起動、デーモンによるSIGHUPシグナルの受信、またはコマンド「scontrolreconfigure」の実行時に有効になります。
NOTE: Slurm support for gres/mps requires the use of the select/cons_tres
plugin.
注:gres / mpsのSlurmサポートには、select / cons_tresプラグインを使用する必要があります。
For more information on how to configure MPS, see
https://slurm.schedmd.com/gres.html#MPS_Management.
MPSの構成方法の詳細については、https://slurm.schedmd.com/gres.html#MPS_Managementを参照してください。
For more information on GRES scheduling in general, see
https://slurm.schedmd.com/gres.html.
一般的なGRESスケジューリングの詳細については、https://slurm.schedmd.com/gres.htmlを参照してください。
The overall configuration parameters available include:
使用可能な全体的な構成パラメーターは次のとおりです。
- AutoDetect
-
The hardware detection mechanisms to enable for automatic GRES configuration.
自動GRES構成を可能にするハードウェア検出メカニズム。
Currently, the options are:
現在、オプションは次のとおりです。
AutoDetect can be on a line by itself, in which case it will globally apply to all lines in gres.conf by default.
AutoDetectはそれ自体で1行に配置できます。その場合、デフォルトでgres.conf内のすべての行にグローバルに適用されます。
In addition, AutoDetect can be combined with NodeName to only apply to certain nodes.
さらに、AutoDetectをNodeNameと組み合わせて、特定のノードにのみ適用することができます。
Node-specific AutoDetects will trump the global AutoDetect.
ノード固有のAutoDetectは、グローバルAutoDetectよりも優先されます。
A node-specific AutoDetect only needs to be specified once per node.
ノード固有のAutoDetectは、ノードごとに1回だけ指定する必要があります。
If specified multiple times for the same nodes, they must all be the same value.
同じノードに複数回指定する場合は、すべて同じ値にする必要があります。
To unset AutoDetect for a node when a global AutoDetect is set, simply set it to "off" in a node-specific GRES line.
グローバル自動検出が設定されているときにノードの自動検出の設定を解除するには、ノード固有のGRES行でノードを「オフ」に設定するだけです。
E.g.: NodeName=tux3 AutoDetect=off Name=gpu File=/dev/nvidia[0-3].
例:NodeName = tux3 AutoDetect = off Name = gpu File = / dev / nvidia [0-3]。
- Count
-
Number of resources of this type available on this node.
このノードで使用可能なこのタイプのリソースの数。
The default value is set to the number of File values specified (if any), otherwise the default value is one.
デフォルト値は、指定されたファイル値の数(存在する場合)に設定されます。それ以外の場合、デフォルト値は1です。
A suffix of "K", "M", "G", "T" or "P" may be used to multiply the number by 1024, 1048576, 1073741824, etc.
「K」、「M」、「G」、「T」、または「P」の接尾辞を使用して、数値に1024、1048576、1073741824などを掛けることができます。
respectively.
それぞれ。
For example: "Count=10G".
例:「Count = 10G」。
- Cores
-
Optionally specify the core index numbers for the specific cores
which can use this resource.
オプションで、このリソースを使用できる特定のコアのコアインデックス番号を指定します。
For example, it may be strongly preferable to use specific cores with specific GRES devices (e.g. on a NUMA architecture).
たとえば、特定のGRESデバイス(NUMAアーキテクチャなど)で特定のコアを使用することが強く推奨される場合があります。
While Slurm can track and assign resources at the CPU or thread level, its scheduling algorithms used to co-allocate GRES devices with CPUs operates at a socket or NUMA level.
SlurmはCPUまたはスレッドレベルでリソースを追跡および割り当てることができますが、GRESデバイスをCPUと同時割り当てするために使用されるスケジューリングアルゴリズムは、ソケットまたはNUMAレベルで動作します。
Therefore it is not possible to preferentially assign GRES with different specific CPUs on the same NUMA or socket and this option should be used to identify all cores on some socket.
したがって、同じNUMAまたはソケット上の異なる特定のCPUにGRESを優先的に割り当てることはできません。このオプションを使用して、一部のソケット上のすべてのコアを識別する必要があります。
Multiple cores may be specified using a comma delimited list or a range may be specified using a "-" separator (e.g. "0,1,2,3" or "0-3").
複数のコアは、コンマ区切りリストを使用して指定するか、範囲を「-」区切り文字を使用して指定できます(例:「0,1,2,3」または「0-3」)。
If a job specifies --gres-flags=enforce-binding, then only the identified cores can be allocated with each generic resource.
ジョブで--gres-flags = Enforce-bindingが指定されている場合、識別されたコアのみを各汎用リソースに割り当てることができます。
This will tend to improve performance of jobs, but delay the allocation of resources to them.
これにより、ジョブのパフォーマンスが向上する傾向がありますが、ジョブへのリソースの割り当てが遅れます。
If specified and a job is not submitted with the --gres-flags=enforce-binding option the identified cores will be preferred for scheduling with each generic resource.
指定され、ジョブが--gres-flags = Enforce-bindingオプションで送信されない場合、識別されたコアが各汎用リソースでのスケジューリングに優先されます。
If --gres-flags=disable-binding is specified, then any core can be used with the resources, which also increases the speed of Slurm's scheduling algorithm but can degrade the application performance.
--gres-flags = disable-bindingが指定されている場合、任意のコアをリソースで使用できます。これにより、Slurmのスケジューリングアルゴリズムの速度も向上しますが、アプリケーションのパフォーマンスが低下する可能性があります。
The --gres-flags=disable-binding option is currently required to use more CPUs than are bound to a GRES (i.e. if a GPU is bound to the CPUs on one socket, but resources on more than one socket are required to run the job).
現在、GRESにバインドされているよりも多くのCPUを使用するには、-gres-flags = disable-bindingオプションが必要です(つまり、GPUが1つのソケットのCPUにバインドされているが、実行するには複数のソケットのリソースが必要な場合)ジョブ)。
If any core can be effectively used with the resources, then do not specify the cores option for improved speed in the Slurm scheduling logic.
リソースでコアを効果的に使用できる場合は、Slurmスケジューリングロジックで速度を向上させるためのコアオプションを指定しないでください。
A restart of the slurmctld is needed for changes to the Cores option to take effect.
Coresオプションの変更を有効にするには、slurmctldを再起動する必要があります。
NOTE: Since Slurm must be able to perform resource management on heterogeneous clusters having various processing unit numbering schemes, a logical core index must be specified instead of the physical core index.
注:Slurmは、さまざまな処理装置の番号付けスキームを持つ異種クラスターでリソース管理を実行できる必要があるため、物理コアインデックスの代わりに論理コアインデックスを指定する必要があります。
That logical core index might not correspond to your physical core index number.
その論理コアインデックスは、物理コアインデックス番号に対応していない可能性があります。
Core 0 will be the first core on the first socket, while core 1 will be the second core on the first socket.
コア0は最初のソケットの最初のコアになり、コア1は最初のソケットの2番目のコアになります。
This numbering coincides with the logical core number (Core L#) seen in "lstopo -l" command output.
この番号付けは、「lstopo-l」コマンド出力に表示される論理コア番号(コアL#)と一致します。
- File
-
Fully qualified pathname of the device files associated with a resource.
リソースに関連付けられているデバイスファイルの完全修飾パス名。
The name can include a numeric range suffix to be interpreted by Slurm (e.g. File=/dev/nvidia[0-3]).
名前には、Slurmによって解釈される数値範囲のサフィックスを含めることができます(例:File = / dev / nvidia [0-3])。
This field is generally required if enforcement of generic resource allocations is to be supported (i.e. prevents users from making use of resources allocated to a different user).
このフィールドは、一般的なリソース割り当ての実施をサポートする場合(つまり、ユーザーが別のユーザーに割り当てられたリソースを使用できないようにする場合)に一般的に必要です。
Enforcement of the file allocation relies upon Linux Control Groups (cgroups) and Slurm's task/cgroup plugin, which will place the allocated files into the job's cgroup and prevent use of other files.
ファイル割り当ての実施は、Linuxコントロールグループ(cgroups)とSlurmのtask / cgroupプラグインに依存します。これらのプラグインは、割り当てられたファイルをジョブのcgroupに配置し、他のファイルの使用を防ぎます。
Please see Slurm's Cgroups Guide for more information: https://slurm.schedmd.com/cgroups.html.
詳細については、SlurmのCgroupsガイドを参照してください:https://slurm.schedmd.com/cgroups.html。
If File is specified then Count must be either set to the number of file names specified or not set (the default value is the number of files specified).
Fileが指定されている場合、Countは指定されたファイル名の数に設定するか、設定しない必要があります(デフォルト値は指定されたファイルの数です)。
The exception to this is MPS.
これの例外はMPSです。
For MPS, each GPU would be identified by device file using the File parameter and Count would specify the number of MPS entries that would correspond to that GPU (typically 100 or some multiple of 100).
MPSの場合、各GPUはFileパラメーターを使用してデバイスファイルによって識別され、CountはそのGPUに対応するMPSエントリの数(通常は100または100の倍数)を指定します。
NOTE: If you specify the File parameter for a resource on some node, the option must be specified on all nodes and Slurm will track the assignment of each specific resource on each node.
注:あるノードのリソースにFileパラメーターを指定する場合、そのオプションはすべてのノードで指定する必要があり、Slurmは各ノードの特定の各リソースの割り当てを追跡します。
Otherwise Slurm will only track a count of allocated resources rather than the state of each individual device file.
それ以外の場合、Slurmは、個々のデバイスファイルの状態ではなく、割り当てられたリソースの数のみを追跡します。
NOTE: Drain a node before changing the count of records with File parameters (i.e. if you want to add or remove GPUs from a node's configuration).
注:ファイルパラメーターを使用してレコードの数を変更する前に、ノードをドレインします(つまり、ノードの構成にGPUを追加または削除する場合)。
Failure to do so will result in any job using those GRES being aborted.
そうしないと、それらのGRESを使用するジョブが中止されます。
- Flags
-
Optional flags that can be specified to change configured behavior of the GRES.
GRESの構成済みの動作を変更するために指定できるオプションのフラグ。
Allowed values at present are:
現在許可されている値は次のとおりです。
-
- CountOnly
-
Do not attempt to load plugin as this GRES will only be used to track counts of
GRES used.
このGRESは、使用されたGRESの数を追跡するためにのみ使用されるため、プラグインをロードしようとしないでください。
This avoids attempting to load non-existent plugin which can affect filesystems with high latency metadata operations for non-existent files.
これにより、存在しないファイルの高遅延メタデータ操作でファイルシステムに影響を与える可能性のある存在しないプラグインを読み込もうとするのを回避できます。
-
- Links
-
A comma-delimited list of numbers identifying the number of connections
between this device and other devices to allow coscheduling of
better connected devices.
このデバイスと他のデバイス間の接続数を識別する番号のコンマ区切りリスト。これにより、より適切に接続されたデバイスの同時スケジューリングが可能になります。
This is an ordered list in which the number of connections this specific device has to device number 0 would be in the first position, the number of connections it has to device number 1 in the second position, etc.
これは、この特定のデバイスがデバイス番号0に接続する必要がある接続の数が最初の位置にあり、デバイス番号1に接続する必要がある接続の数が2番目の位置にある順序付きリストです。
A -1 indicates the device itself and a 0 indicates no connection.
-1はデバイス自体を示し、0は接続がないことを示します。
If specified, then this line can only contain a single GRES device (i.e. can only contain a single file via File).
指定した場合、この行には1つのGRESデバイスのみを含めることができます(つまり、ファイルを介して1つのファイルのみを含めることができます)。
This is an optional value and is usually automatically determined if AutoDetect is enabled.
これはオプションの値であり、通常、自動検出が有効になっている場合は自動的に決定されます。
A typical use case would be to identify GPUs having NVLink connectivity.
典型的な使用例は、NVLink接続を備えたGPUを特定することです。
Note that for GPUs, the minor number assigned by the OS and used in the device file (i.e. the X in /dev/nvidiaX) is not necessarily the same as the device number/index.
GPUの場合、OSによって割り当てられ、デバイスファイルで使用されるマイナー番号(つまり、/ dev / nvidiaXのX)は、必ずしもデバイス番号/インデックスと同じではないことに注意してください。
The device number is created by sorting the GPUs by PCI bus ID and then numbering them starting from the smallest bus ID.
デバイス番号は、GPUをPCIバスIDでソートし、最小のバスIDから番号を付けることによって作成されます。
See https://slurm.schedmd.com/gres.html#GPU_Management
https://slurm.schedmd.com/gres.html#GPU_Managementを参照してください
- Name
-
Name of the generic resource.
汎用リソースの名前。
Any desired name may be used.
任意の名前を使用できます。
The name must match a value in GresTypes in slurm.conf.
名前は、slurm.confのGresTypesの値と一致する必要があります。
Each generic resource has an optional plugin which can provide resource-specific functionality.
各汎用リソースには、リソース固有の機能を提供できるオプションのプラグインがあります。
Generic resources that currently include an optional plugin are:
現在オプションのプラグインが含まれている一般的なリソースは次のとおりです。
- NodeName
-
An optional NodeName specification can be used to permit one gres.conf file to
be used for all compute nodes in a cluster by specifying the node(s) that each
line should apply to.
オプションのNodeName指定を使用すると、各行を適用するノードを指定することで、クラスター内のすべての計算ノードに1つのgres.confファイルを使用できるようになります。
The NodeName specification can use a Slurm hostlist specification as shown in the example below.
NodeName仕様では、以下の例に示すようにSlurmホストリスト仕様を使用できます。
- Type
-
An optional arbitrary string identifying the type of device.
デバイスのタイプを識別するオプションの任意の文字列。
For example, this might be used to identify a specific model of GPU, which users can then specify in a job request.
たとえば、これを使用してGPUの特定のモデルを識別し、ユーザーがジョブリクエストで指定できるようにすることができます。
If Type is specified, then Count is limited in size (currently 1024).
Typeが指定されている場合、Countのサイズは制限されています(現在は1024)。
EXAMPLES
##################################################################
# Slurm's Generic Resource (GRES) configuration file
# Define GPU devices with MPS support, with AutoDetect sanity checking
##################################################################
AutoDetect=nvml
Name=gpu Type=gtx560 File=/dev/nvidia0 COREs=0,1
Name=gpu Type=tesla File=/dev/nvidia1 COREs=2,3
Name=mps Count=100 File=/dev/nvidia0 COREs=0,1
Name=mps Count=100 File=/dev/nvidia1 COREs=2,3
##################################################################
# Slurm's Generic Resource (GRES) configuration file
# Overwrite system defaults and explicitly configure three GPUs
##################################################################
Name=gpu Type=tesla File=/dev/nvidia[0-1] COREs=0,1
# Name=gpu Type=tesla File=/dev/nvidia[2-3] COREs=2,3
# NOTE: nvidia2 device is out of service
Name=gpu Type=tesla File=/dev/nvidia3 COREs=2,3
##################################################################
# Slurm's Generic Resource (GRES) configuration file
# Use a single gres.conf file for all compute nodes - positive method
##################################################################
## Explicitly specify devices on nodes tux0-tux15
# NodeName=tux[0-15] Name=gpu File=/dev/nvidia[0-3]
# NOTE: tux3 nvidia1 device is out of service
NodeName=tux[0-2] Name=gpu File=/dev/nvidia[0-3]
NodeName=tux3 Name=gpu File=/dev/nvidia[0,2-3]
NodeName=tux[4-15] Name=gpu File=/dev/nvidia[0-3]
##################################################################
# Slurm's Generic Resource (GRES) configuration file
# Use NVML to gather GPU configuration information
# for all nodes except one
##################################################################
AutoDetect=nvml
NodeName=tux3 AutoDetect=off Name=gpu File=/dev/nvidia[0-3]
##################################################################
# Slurm's Generic Resource (GRES) configuration file
# Specify some nodes with NVML, some with RSMI, and some with no AutoDetect
##################################################################
NodeName=tux[0-7] AutoDetect=nvml
NodeName=tux[8-11] AutoDetect=rsmi
NodeName=tux[12-15] Name=gpu File=/dev/nvidia[0-3]
COPYING
Copyright (C) 2010 The Regents of the University of California. Produced at Lawrence Livermore National Laboratory (cf, DISCLAIMER).Copyright (C) 2010-2019 SchedMD LLC.
This file is part of Slurm, a resource management program. For details, see <https://slurm.schedmd.com/>.
Slurm is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version.
Slurm is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
SEE ALSO
slurm.conf(5)
Index
This document was created by man2html using the manual pages.
Time: 21:55:19 GMT, March 16, 2021