slurm.conf
Section: Slurm Configuration File (5)Updated: Slurm Configuration File
Index
NAME
slurm.conf - Slurm configuration fileslurm.conf-Slurm構成ファイル
DESCRIPTION
slurm.conf is an ASCII file which describes general Slurm configuration information, the nodes to be managed, information about how those nodes are grouped into partitions, and various scheduling parameters associated with those partitions.slurm.confは、一般的なSlurm構成情報、管理対象のノード、それらのノードがパーティションにグループ化される方法に関する情報、およびそれらのパーティションに関連付けられたさまざまなスケジューリングパラメーターを記述するASCIIファイルです。
This file should be consistent across all nodes in the cluster.
このファイルは、クラスター内のすべてのノードで一貫している必要があります。
The file location can be modified at system build time using the
DEFAULT_SLURM_CONF parameter or at execution time by setting the SLURM_CONF
environment variable.
ファイルの場所は、システムのビルド時にDEFAULT_SLURM_CONFパラメーターを使用して変更することも、実行時にSLURM_CONF環境変数を設定することによって変更することもできます。
The Slurm daemons also allow you to override
both the built-in and environment-provided location using the "-f"
option on the command line.
Slurmデーモンでは、コマンドラインの「-f」オプションを使用して、組み込みの場所と環境が提供する場所の両方をオーバーライドすることもできます。
The contents of the file are case insensitive except for the names of nodes
and partitions.
ファイルの内容では、ノードとパーティションの名前を除いて、大文字と小文字は区別されません。
Any text following a "#" in the configuration file is treated
as a comment through the end of that line.
構成ファイルの「#」に続くテキストは、その行の終わりまでコメントとして扱われます。
Changes to the configuration file take effect upon restart of
Slurm daemons, daemon receipt of the SIGHUP signal, or execution
of the command "scontrol reconfigure" unless otherwise noted.
構成ファイルへの変更は、特に明記されていない限り、Slurmデーモンの再起動、デーモンによるSIGHUPシグナルの受信、またはコマンド「scontrolreconfigure」の実行時に有効になります。
If a line begins with the word "Include" followed by whitespace
and then a file name, that file will be included inline with the current
configuration file.
「インクルード」という単語で始まり、空白、ファイル名が続く行の場合、そのファイルは現在の構成ファイルにインラインで含まれます。
For large or complex systems, multiple configuration files
may prove easier to manage and enable reuse of some files (See INCLUDE
MODIFIERS for more details).
大規模または複雑なシステムの場合、複数の構成ファイルの管理が容易になり、一部のファイルの再利用が可能になる場合があります(詳細については、INCLUDE MODIFIERSを参照してください)。
Note on file permissions:
ファイルのアクセス許可に関する注意:
The slurm.conf file must be readable by all users of Slurm, since it
is used by many of the Slurm commands.
slurm.confファイルは、多くのSlurmコマンドで使用されるため、Slurmのすべてのユーザーが読み取り可能である必要があります。
Other files that are defined
in the slurm.conf file, such as log files and job accounting files,
may need to be created/owned by the user "SlurmUser" to be successfully
accessed.
ログファイルやジョブアカウンティングファイルなど、slurm.confファイルで定義されている他のファイルに正常にアクセスするには、ユーザー「SlurmUser」が作成/所有する必要がある場合があります。
Use the "chown" and "chmod" commands to set the ownership
and permissions appropriately.
「chown」コマンドと「chmod」コマンドを使用して、所有権と権限を適切に設定します。
See the section FILE AND DIRECTORY PERMISSIONS for information
about the various files and directories used by Slurm.
Slurmで使用されるさまざまなファイルとディレクトリについては、「ファイルとディレクトリの許可」のセクションを参照してください。
PARAMETERS
The overall configuration parameters available include:
使用可能な全体的な構成パラメーターは次のとおりです。
- AccountingStorageBackupHost
-
The name of the backup machine hosting the accounting storage database.
アカウンティングストレージデータベースをホストしているバックアップマシンの名前。
If used with the accounting_storage/slurmdbd plugin, this is where the backup slurmdbd would be running.
アカウンティングストレージ/ slurmdbdプラグインとともに使用する場合、これはバックアップslurmdbdが実行される場所です。
Only used with systems using SlurmDBD, ignored otherwise.
SlurmDBDを使用するシステムでのみ使用され、それ以外の場合は無視されます。
- AccountingStorageEnforce
-
This controls what level of association-based enforcement to impose
on job submissions.
これは、ジョブの送信に課すアソシエーションベースの強制のレベルを制御します。
Valid options are any combination of associations, limits, nojobs, nosteps, qos, safe, and wckeys, or all for all things (expect nojobs and nosteps, they must be requested as well).
有効なオプションは、関連付け、制限、nojobs、nosteps、qos、safe、wckeysの任意の組み合わせ、またはすべてのものです(nojobsとnostepsを想定し、それらも要求する必要があります)。
If limits, qos, or wckeys are set, associations will automatically be set.
Limits、qos、またはwckeysが設定されている場合、関連付けは自動的に設定されます。
If wckeys is set, TrackWCKey will automatically be set.
wckeysが設定されている場合、TrackWCKeyが自動的に設定されます。
If safe is set, limits and associations will automatically be set.
安全が設定されている場合、制限と関連付けが自動的に設定されます。
If nojobs is set nosteps will automatically be set.
nojobsが設定されている場合、nostepsが自動的に設定されます。
By enforcing Associations no new job is allowed to run unless a corresponding association exists in the system.
アソシエーションを適用することにより、対応するアソシエーションがシステムに存在しない限り、新しいジョブの実行は許可されません。
If limits are enforced users can be limited by association to whatever job size or run time limits are defined.
制限が適用されている場合、ユーザーは、定義されているジョブサイズまたは実行時間の制限に関連付けることで制限できます。
If nojobs is set Slurm will not account for any jobs or steps on the system, like wise if nosteps is set Slurm will not account for any steps ran limits will still be enforced.
nojobsが設定されている場合、Slurmはシステム上のジョブまたはステップを考慮しません。同様に、nostepsが設定されている場合、Slurmは実行されたステップを考慮しません。制限は引き続き適用されます。
If safe is enforced, a job will only be launched against an association or qos that has a GrpTRESMins limit set if the job will be able to run to completion.
安全が実施されている場合、ジョブを完了まで実行できる場合にのみ、GrpTRESMins制限が設定されているアソシエーションまたはQoSに対してジョブが起動されます。
Without this option set, jobs will be launched as long as their usage hasn't reached the cpu-minutes limit which can lead to jobs being launched but then killed when the limit is reached.
このオプションが設定されていない場合、ジョブは、使用量がCPU分制限に達していない限り起動されます。これにより、ジョブが起動されますが、制限に達すると強制終了されます。
With qos and/or wckeys enforced jobs will not be scheduled unless a valid qos and/or workload characterization key is specified.
qosおよび/またはwckeysを使用すると、有効なqosおよび/またはワークロード特性化キーが指定されない限り、強制されたジョブはスケジュールされません。
When AccountingStorageEnforce is changed, a restart of the slurmctld daemon is required (not just a "scontrol reconfig").
AccountingStorageEnforceが変更された場合、slurmctldデーモンの再起動が必要です(「scontrolreconfig」だけではありません)。
- AccountingStorageExternalHost
-
A comma separated list of external slurmdbds (<host/ip>[:port][,...]) to
register with.
登録する外部slurmdbds(<host / ip> [:port] [、...])のコンマ区切りのリスト。
If no port is given, the AccountingStoragePort will be used.
ポートが指定されていない場合、AccountingStoragePortが使用されます。
This allows clusters registered with the external slurmdbd to communicate with each other using the --cluster/-M client command options.
これにより、外部slurmdbdに登録されているクラスターは、-cluster / -Mclientコマンドオプションを使用して相互に通信できます。
The cluster will add itself to the external slurmdbd if it doesn't exist.
クラスターが存在しない場合、クラスターはそれ自体を外部slurmdbdに追加します。
If a non-external cluster already exists on the external slurmdbd, the slurmctld will ignore registering to the external slurmdbd.
非外部クラスターが外部slurmdbdにすでに存在する場合、slurmctldは外部slurmdbdへの登録を無視します。
- AccountingStorageHost
-
The name of the machine hosting the accounting storage database.
アカウンティングストレージデータベースをホストしているマシンの名前。
Only used with systems using SlurmDBD, ignored otherwise.
SlurmDBDを使用するシステムでのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageHost.
DefaultStorageHostも参照してください。
- AccountingStorageLoc
-
The fully qualified file name where accounting records are written
when the AccountingStorageType is "accounting_storage/filetxt".
AccountingStorageTypeが "accounting_storage / filetxt"の場合に、アカウンティングレコードが書き込まれる完全修飾ファイル名。
Also see DefaultStorageLoc.
DefaultStorageLocも参照してください。
- AccountingStoragePass
-
The password used to gain access to the database to store the
accounting data.
アカウンティングデータを格納するためにデータベースにアクセスするために使用されるパスワード。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
In the case of Slurm DBD (Database Daemon) with MUNGE authentication this can be configured to use a MUNGE daemon specifically configured to provide authentication between clusters while the default MUNGE daemon provides authentication within a cluster.
MUNGE認証を使用するSlurmDBD(データベースデーモン)の場合、これは、クラスター間の認証を提供するように特別に構成されたMUNGEデーモンを使用するように構成できますが、デフォルトのMUNGEデーモンはクラスター内の認証を提供します。
In that case, AccountingStoragePass should specify the named port to be used for communications with the alternate MUNGE daemon (e.g. "/var/run/munge/global.socket.2").
その場合、AccountingStoragePassは、代替MUNGEデーモンとの通信に使用される名前付きポートを指定する必要があります(例:「/ var / run / munge / global.socket.2」)。
The default value is NULL.
デフォルト値はNULLです。
Also see DefaultStoragePass.
DefaultStoragePassも参照してください。
- AccountingStoragePort
-
The listening port of the accounting storage database server.
アカウンティングストレージデータベースサーバーのリスニングポート。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
The default value is SLURMDBD_PORT as established at system build time.
デフォルト値は、システム構築時に確立されたSLURMDBD_PORTです。
If no value is explicitly specified, it will be set to 6819.
値が明示的に指定されていない場合は、6819に設定されます。
This value must be equal to the DbdPort parameter in the slurmdbd.conf file.
この値は、slurmdbd.confファイルのDbdPortパラメーターと同じである必要があります。
Also see DefaultStoragePort.
DefaultStoragePortも参照してください。
- AccountingStorageTRES
-
Comma separated list of resources you wish to track on the cluster.
クラスターで追跡するリソースのコンマ区切りリスト。
These are the resources requested by the sbatch/srun job when it is submitted.
これらは、送信時にsbatch / srunジョブによって要求されるリソースです。
Currently this consists of any GRES, BB (burst buffer) or license along with CPU, Memory, Node, Energy, FS/[Disk|Lustre], IC/OFED, Pages, and VMem.
現在、これは、CPU、メモリ、ノード、エネルギー、FS / [Disk | Lustre]、IC / OFED、Pages、およびVMemに加えて、GRES、BB(バーストバッファ)またはライセンスで構成されています。
By default Billing, CPU, Energy, Memory, Node, FS/Disk, Pages and VMem are tracked.
デフォルトでは、課金、CPU、エネルギー、メモリ、ノード、FS /ディスク、ページ、VMemが追跡されます。
These default TRES cannot be disabled, but only appended to.
これらのデフォルトのTRESを無効にすることはできませんが、追加するだけです。
AccountingStorageTRES=gres/craynetwork,license/iop1 will track billing, cpu, energy, memory, nodes, fs/disk, pages and vmem along with a gres called craynetwork as well as a license called iop1.
AccountingStorageTRES = gres / craynetwork、license / iop1は、課金、CPU、エネルギー、メモリ、ノード、fs / disk、ページ、およびvmemを、craynetworkと呼ばれるgresおよびiop1と呼ばれるライセンスとともに追跡します。
Whenever these resources are used on the cluster they are recorded.
これらのリソースがクラスターで使用されるたびに、それらが記録されます。
The TRES are automatically set up in the database on the start of the slurmctld.
TRESは、slurmctldの開始時にデータベースに自動的に設定されます。
If multiple GRES of different types are tracked (e.g. GPUs of different types), then job requests with matching type specifications will be recorded.
異なるタイプの複数のGRESが追跡される場合(たとえば、異なるタイプのGPU)、タイプ仕様が一致するジョブ要求が記録されます。
Given a configuration of "AccountingStorageTRES=gres/gpu,gres/gpu:tesla,gres/gpu:volta" Then "gres/gpu:tesla" and "gres/gpu:volta" will track only jobs that explicitly request those two GPU types, while "gres/gpu" will track allocated GPUs of any type ("tesla", "volta" or any other GPU type).
「AccountingStorageTRES = gres / gpu、gres / gpu:tesla、gres / gpu:volta」の構成が与えられた場合、「gres / gpu:tesla」と「gres / gpu:volta」は、これら2つのGPUタイプを明示的に要求するジョブのみを追跡します。 、「gres / gpu」は任意のタイプ(「tesla」、「volta」またはその他のGPUタイプ)の割り当てられたGPUを追跡します。
Given a configuration of "AccountingStorageTRES=gres/gpu:tesla,gres/gpu:volta" Then "gres/gpu:tesla" and "gres/gpu:volta" will track jobs that explicitly request those GPU types.
「AccountingStorageTRES = gres / gpu:tesla、gres / gpu:volta」の構成が与えられた場合、「gres / gpu:tesla」と「gres / gpu:volta」は、これらのGPUタイプを明示的に要求するジョブを追跡します。
If a job requests GPUs, but does not explicitly specify the GPU type, then its resource allocation will be accounted for as either "gres/gpu:tesla" or "gres/gpu:volta", although the accounting may not match the actual GPU type allocated to the job and the GPUs allocated to the job could be heterogeneous.
ジョブがGPUを要求しているが、GPUタイプを明示的に指定していない場合、そのリソース割り当ては「gres / gpu:tesla」または「gres / gpu:volta」のいずれかとして考慮されますが、アカウンティングは実際のGPUと一致しない場合があります。ジョブに割り当てられたタイプとジョブに割り当てられたGPUは異種である可能性があります。
In an environment containing various GPU types, use of a job_submit plugin may be desired in order to force jobs to explicitly specify some GPU type.
さまざまなGPUタイプを含む環境では、ジョブに特定のGPUタイプを明示的に指定させるために、job_submitプラグインの使用が必要になる場合があります。
- AccountingStorageType
-
The accounting storage mechanism type.
アカウンティングストレージメカニズムタイプ。
Acceptable values at present include "accounting_storage/filetxt", "accounting_storage/none" and "accounting_storage/slurmdbd".
現在許容される値には、「accounting_storage / filetxt」、「accounting_storage / none」、および「accounting_storage / slurmdbd」が含まれます。
The "accounting_storage/filetxt" value indicates that accounting records will be written to the file specified by the AccountingStorageLoc parameter.
「accounting_storage / filetxt」値は、AccountingStorageLocパラメーターで指定されたファイルにアカウンティングレコードが書き込まれることを示します。
The "accounting_storage/slurmdbd" value indicates that accounting records will be written to the Slurm DBD, which manages an underlying MySQL database.
「accounting_storage / slurmdbd」値は、アカウンティングレコードが基盤となるMySQLデータベースを管理するSlurmDBDに書き込まれることを示します。
See "man slurmdbd" for more information.
詳細については、「manslurmdbd」を参照してください。
The default value is "accounting_storage/none" and indicates that account records are not maintained.
デフォルト値は「accounting_storage / none」であり、アカウントレコードが維持されないことを示します。
Note: The filetxt plugin records only a limited subset of accounting information and will prevent some sacct options from proper operation.
注:filetxtプラグインは、アカウンティング情報の限られたサブセットのみを記録し、一部のsacctオプションが適切に動作するのを妨げます。
Also see DefaultStorageType.
DefaultStorageTypeも参照してください。
- AccountingStorageUser
-
The user account for accessing the accounting storage database.
アカウンティングストレージデータベースにアクセスするためのユーザーアカウント。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageUser.
DefaultStorageUserも参照してください。
- AccountingStoreJobComment
-
If set to "YES" then include the job's comment field in the job
complete message sent to the Accounting Storage database.
「YES」に設定されている場合は、AccountingStorageデータベースに送信されるジョブ完了メッセージにジョブのコメントフィールドを含めます。
The default is "YES".
デフォルトは「YES」です。
Note the AdminComment and SystemComment are always recorded in the database.
AdminCommentとSystemCommentは常にデータベースに記録されることに注意してください。
- AcctGatherNodeFreq
-
The AcctGather plugins sampling interval for node accounting.
AcctGatherプラグインのノードアカウンティングのサンプリング間隔。
For AcctGather plugin values of none, this parameter is ignored.
AcctGatherプラグインの値がnoneの場合、このパラメーターは無視されます。
For all other values this parameter is the number of seconds between node accounting samples.
他のすべての値の場合、このパラメーターはノードアカウンティングサンプル間の秒数です。
For the acct_gather_energy/rapl plugin, set a value less than 300 because the counters may overflow beyond this rate.
acct_gather_energy / raplプラグインの場合、カウンターがこのレートを超えてオーバーフローする可能性があるため、300未満の値を設定します。
The default value is zero.
デフォルト値はゼロです。
This value disables accounting sampling for nodes.
この値は、ノードのアカウンティングサンプリングを無効にします。
Note: The accounting sampling interval for jobs is determined by the value of JobAcctGatherFrequency.
注:ジョブのアカウンティングサンプリング間隔は、JobAcctGatherFrequencyの値によって決定されます。
- AcctGatherEnergyType
-
Identifies the plugin to be used for energy consumption accounting.
エネルギー消費アカウンティングに使用されるプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect energy consumption data for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのエネルギー消費データを収集します。
The collection of energy consumption data takes place on the node level, hence only in case of exclusive job allocation the energy consumption measurements will reflect the job's real consumption.
エネルギー消費データの収集はノードレベルで行われるため、排他的なジョブ割り当ての場合にのみ、エネルギー消費測定値はジョブの実際の消費を反映します。
In case of node sharing between jobs the reported consumed energy per job (through sstat or sacct) will not reflect the real energy consumed by the jobs.
ジョブ間でノードを共有している場合、(sstatまたはsacctを介して)ジョブごとに報告された消費エネルギーは、ジョブによって消費された実際のエネルギーを反映しません。
Configurable values at present are:
現在、構成可能な値は次のとおりです。
-
- acct_gather_energy/none
-
No energy consumption data is collected.
エネルギー消費データは収集されません。
- acct_gather_energy/ipmi
-
Energy consumption data is collected from the Baseboard Management Controller
(BMC) using the Intelligent Platform Management Interface (IPMI).
エネルギー消費データは、Intelligent Platform Management Interface(IPMI)を使用してBaseboard Management Controller(BMC)から収集されます。
- acct_gather_energy/xcc
-
Energy consumption data is collected from the Lenovo SD650 XClarity Controller
(XCC) using IPMI OEM raw commands.
エネルギー消費データは、IPMI OEMrawコマンドを使用してLenovoSD650 XClarity Controller(XCC)から収集されます。
- acct_gather_energy/rapl
-
Energy consumption data is collected from hardware sensors using the Running
Average Power Limit (RAPL) mechanism.
エネルギー消費データは、移動平均電力制限(RAPL)メカニズムを使用してハードウェアセンサーから収集されます。
Note that enabling RAPL may require the execution of the command "sudo modprobe msr".
RAPLを有効にするには、コマンド「sudomodprobemsr」の実行が必要になる場合があることに注意してください。
-
- AcctGatherInterconnectType
-
Identifies the plugin to be used for interconnect network traffic accounting.
相互接続ネットワークトラフィックアカウンティングに使用されるプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect network traffic data for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのネットワークトラフィックデータを収集します。
The collection of network traffic data takes place on the node level, hence only in case of exclusive job allocation the collected values will reflect the job's real traffic.
ネットワークトラフィックデータの収集はノードレベルで行われるため、排他的なジョブ割り当ての場合にのみ、収集された値はジョブの実際のトラフィックを反映します。
In case of node sharing between jobs the reported network traffic per job (through sstat or sacct) will not reflect the real network traffic by the jobs.
ジョブ間でノードを共有している場合、ジョブごとに報告されるネットワークトラフィック(sstatまたはsacctを介して)は、ジョブによる実際のネットワークトラフィックを反映しません。
Configurable values at present are:
現在、構成可能な値は次のとおりです。
-
- acct_gather_interconnect/none
-
No infiniband network data are collected.
インフィニバンドネットワークデータは収集されません。
- acct_gather_interconnect/ofed
-
Infiniband network traffic data are collected from the hardware monitoring
counters of Infiniband devices through the OFED library.
Infinibandネットワークトラフィックデータは、OFEDライブラリを介してInfinibandデバイスのハードウェア監視カウンターから収集されます。
In order to account for per job network traffic, add the "ic/ofed" TRES to AccountingStorageTRES.
ジョブごとのネットワークトラフィックを考慮するために、「ic / ofed」TRESをAccountingStorageTRESに追加します。
-
- AcctGatherFilesystemType
-
Identifies the plugin to be used for filesystem traffic accounting.
ファイルシステムトラフィックアカウンティングに使用されるプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect filesystem traffic data for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、ジョブとノードのファイルシステムトラフィックデータを収集します。
The collection of filesystem traffic data takes place on the node level, hence only in case of exclusive job allocation the collected values will reflect the job's real traffic.
ファイルシステムトラフィックデータの収集はノードレベルで行われるため、排他的なジョブ割り当ての場合にのみ、収集された値はジョブの実際のトラフィックを反映します。
In case of node sharing between jobs the reported filesystem traffic per job (through sstat or sacct) will not reflect the real filesystem traffic by the jobs.
ジョブ間でノードを共有している場合、ジョブごとに報告されるファイルシステムトラフィック(sstatまたはsacctを介して)は、ジョブによる実際のファイルシステムトラフィックを反映しません。
Configurable values at present are:
現在、構成可能な値は次のとおりです。
-
- acct_gather_filesystem/none
-
No filesystem data are collected.
ファイルシステムデータは収集されません。
- acct_gather_filesystem/lustre
-
Lustre filesystem traffic data are collected from the counters found in
/proc/fs/lustre/.
光沢ファイルシステムのトラフィックデータは、/ proc / fs / lustre /にあるカウンターから収集されます。
In order to account for per job lustre traffic, add the "fs/lustre" TRES to AccountingStorageTRES.
ジョブごとの光沢トラフィックを考慮するために、「fs / lustre」TRESをAccountingStorageTRESに追加します。
-
- AcctGatherProfileType
-
Identifies the plugin to be used for detailed job profiling.
詳細なジョブプロファイリングに使用するプラグインを識別します。
The jobacct_gather plugin and slurmd daemon call this plugin to collect detailed data such as I/O counts, memory usage, or energy consumption for jobs and nodes.
jobacct_gatherプラグインとslurmdデーモンは、このプラグインを呼び出して、I / Oカウント、メモリ使用量、ジョブとノードのエネルギー消費量などの詳細データを収集します。
There are interfaces in this plugin to collect data as step start and completion, task start and completion, and at the account gather frequency.
このプラグインには、ステップの開始と完了、タスクの開始と完了、およびアカウントの収集頻度としてデータを収集するためのインターフェースがあります。
The data collected at the node level is related to jobs only in case of exclusive job allocation.
ノードレベルで収集されたデータは、排他的なジョブ割り当ての場合にのみジョブに関連します。
Configurable values at present are:
現在、構成可能な値は次のとおりです。
-
- acct_gather_profile/none
-
No profile data is collected.
プロファイルデータは収集されません。
- acct_gather_profile/hdf5
-
This enables the HDF5 plugin.
これにより、HDF5プラグインが有効になります。
The directory where the profile files are stored and which values are collected are configured in the acct_gather.conf file.
プロファイルファイルが保存され、値が収集されるディレクトリは、acct_gather.confファイルで構成されます。
- acct_gather_profile/influxdb
-
This enables the influxdb plugin.
これにより、influxdbプラグインが有効になります。
The influxdb instance host, port, database, retention policy and which values are collected are configured in the acct_gather.conf file.
influxdbインスタンスのホスト、ポート、データベース、保持ポリシー、および収集される値は、acct_gather.confファイルで構成されます。
-
- AllowSpecResourcesUsage
-
If set to "YES", Slurm allows individual jobs to override node's configured
CoreSpecCount value.
「YES」に設定すると、Slurmは個々のジョブがノードの構成済みCoreSpecCount値をオーバーライドできるようにします。
For a job to take advantage of this feature, a command line option of --core-spec must be specified.
ジョブでこの機能を利用するには、-core-specのコマンドラインオプションを指定する必要があります。
The default value for this option is "YES" for Cray systems and "NO" for other system types.
このオプションのデフォルト値は、Crayシステムの場合は「YES」、その他のシステムタイプの場合は「NO」です。
- AuthAltTypes
-
Comma separated list of alternative authentication plugins that the slurmctld
will permit for communication.
slurmctldが通信を許可する代替認証プラグインのコンマ区切りリスト。
Acceptable values at present include "auth/jwt".
現在許容される値には「auth / jwt」が含まれます。
- AuthInfo
-
Additional information to be used for authentication of communications
between the Slurm daemons (slurmctld and slurmd) and the Slurm
clients.
Slurmデーモン(slurmctldおよびslurmd)とSlurmクライアント間の通信の認証に使用される追加情報。
The interpretation of this option is specific to the configured AuthType.
このオプションの解釈は、構成されたAuthTypeに固有です。
Multiple options may be specified in a comma delimited list.
複数のオプションをコンマ区切りのリストで指定できます。
If not specified, the default authentication information will be used.
指定しない場合、デフォルトの認証情報が使用されます。
-
- cred_expire
-
Default job step credential lifetime, in seconds (e.g. "cred_expire=1200").
デフォルトのジョブステップ資格情報の有効期間(秒単位)(例:「cred_expire = 1200」)。
It must be sufficiently long enough to load user environment, run prolog, deal with the slurmd getting paged out of memory, etc.
ユーザー環境のロード、プロローグの実行、メモリからページアウトされるslurmdの処理などに十分な長さである必要があります。
This also controls how long a requeued job must wait before starting again.
これは、再キューイングされたジョブが再開するまで待機する必要がある時間も制御します。
The default value is 120 seconds.
デフォルト値は120秒です。
- socket
-
Path name to a MUNGE daemon socket to use
(e.g. "socket=/var/run/munge/munge.socket.2").
使用するMUNGEデーモンソケットへのパス名(例: "socket = / var / run / munge / munge.socket.2")。
The default value is "/var/run/munge/munge.socket.2".
デフォルト値は「/var/run/munge/munge.socket.2」です。
Used by auth/munge and cred/munge.
auth / mungeおよびcred / mungeによって使用されます。
- ttl
-
Credential lifetime, in seconds (e.g. "ttl=300").
資格情報の有効期間(秒単位)(例: "ttl = 300")。
The default value is dependent upon the MUNGE installation, but is typically 300 seconds.
デフォルト値はMUNGEのインストールによって異なりますが、通常は300秒です。
-
- AuthType
-
The authentication method for communications between Slurm
components.
Slurmコンポーネント間の通信の認証方法。
Acceptable values at present include "auth/munge" and "auth/none".
現在許容される値には、「auth / munge」と「auth / none」があります。
The default value is "auth/munge".
デフォルト値は「auth / munge」です。
"auth/none" includes the UID in each communication, but it is not verified.
「auth / none」には各通信のUIDが含まれていますが、検証されていません。
This may be fine for testing purposes, but do not use "auth/none" if you desire any security.
これはテスト目的には問題ないかもしれませんが、セキュリティが必要な場合は「auth / none」を使用しないでください。
"auth/munge" indicates that MUNGE is to be used.
「auth / munge」は、MUNGEを使用することを示します。
(See "https://dun.github.io/munge/" for more information).
(詳細については、「https://dun.github.io/munge/」を参照してください)。
All Slurm daemons and commands must be terminated prior to changing the value of AuthType and later restarted.
AuthTypeの値を変更する前に、すべてのSlurmデーモンとコマンドを終了し、後で再起動する必要があります。
- BackupAddr
-
Defunct option, see SlurmctldHost.
無効なオプション。SlurmctldHostを参照してください。
- BackupController
-
Defunct option, see SlurmctldHost.
無効なオプション。SlurmctldHostを参照してください。
The backup controller recovers state information from the StateSaveLocation directory, which must be readable and writable from both the primary and backup controllers.
バックアップコントローラは、StateSaveLocationディレクトリから状態情報を回復します。このディレクトリは、プライマリコントローラとバックアップコントローラの両方から読み取りおよび書き込み可能である必要があります。
While not essential, it is recommended that you specify a backup controller.
必須ではありませんが、バックアップコントローラーを指定することをお勧めします。
See the RELOCATING CONTROLLERS section if you change this.
これを変更する場合は、「コントローラーの再配置」セクションを参照してください。
- BatchStartTimeout
-
The maximum time (in seconds) that a batch job is permitted for
launching before being considered missing and releasing the
allocation.
バッチジョブが欠落していると見なされて割り当てを解放する前に、バッチジョブの起動が許可される最大時間(秒単位)。
The default value is 10 (seconds).
デフォルト値は10(秒)です。
Larger values may be required if more time is required to execute the Prolog, load user environment variables, or if the slurmd daemon gets paged from memory.
Prologの実行、ユーザー環境変数のロード、またはslurmdデーモンがメモリからページングされるためにより多くの時間が必要な場合は、より大きな値が必要になる場合があります。
Note: The test for a job being successfully launched is only performed when the Slurm daemon on the compute node registers state with the slurmctld daemon on the head node, which happens fairly rarely.
注:正常に起動されたジョブのテストは、計算ノードのSlurmデーモンがヘッドノードのslurmctldデーモンに状態を登録する場合にのみ実行されます。これは非常にまれです。
Therefore a job will not necessarily be terminated if its start time exceeds BatchStartTimeout.
したがって、ジョブの開始時間がBatchStartTimeoutを超えても、ジョブは必ずしも終了しません。
This configuration parameter is also applied to launch tasks and avoid aborting srun commands due to long running Prolog scripts.
この構成パラメーターは、タスクを起動し、長時間実行されるPrologスクリプトによるsrunコマンドの中止を回避するためにも適用されます。
- BurstBufferType
-
The plugin used to manage burst buffers.
バーストバッファの管理に使用されるプラグイン。
Acceptable values at present are:
現在許容される値は次のとおりです。
- CliFilterPlugins
-
A comma delimited list of command line interface option filter/modification
plugins.
コマンドラインインターフェイスオプションフィルター/変更プラグインのコンマ区切りリスト。
The specified plugins will be executed in the order listed.
指定されたプラグインは、リストされた順序で実行されます。
These are intended to be site-specific plugins which can be used to set default job parameters and/or logging events.
これらは、デフォルトのジョブパラメータやログイベントを設定するために使用できるサイト固有のプラグインであることが意図されています。
No cli_filter plugins are used by default.
デフォルトでは、cli_filterプラグインは使用されません。
- ClusterName
-
The name by which this Slurm managed cluster is known in the
accounting database.
このSlurmマネージドクラスターの名前は、アカウンティングデータベースで認識されています。
This is needed distinguish accounting records when multiple clusters report to the same database.
これは、複数のクラスターが同じデータベースにレポートする場合に、アカウンティングレコードを区別するために必要です。
Because of limitations in some databases, any upper case letters in the name will be silently mapped to lower case.
一部のデータベースの制限により、名前の大文字はすべて小文字にサイレントにマップされます。
In order to avoid confusion, it is recommended that the name be lower case.
混乱を避けるために、名前は小文字にすることをお勧めします。
- CommunicationParameters
-
Comma separated options identifying communication options.
通信オプションを識別するコンマ区切りオプション。
-
- CheckGhalQuiesce
-
Used specifically on a Cray using an Aries Ghal interconnect.
AriesGhal相互接続を使用するCrayで特に使用されます。
This will check to see if the system is quiescing when sending a message, and if so, we wait until it is done before sending.
これにより、メッセージの送信時にシステムが静止しているかどうかが確認され、静止している場合は、静止するまで待ってから送信します。
- NoAddrCache
-
By default, Slurm will cache a node's network address after
successfully establishing the node's network address.
デフォルトでは、Slurmはノードのネットワークアドレスを正常に確立した後、ノードのネットワークアドレスをキャッシュします。
This option disables the cache and Slurm will look up the node's network address each time a connection is made.
このオプションはキャッシュを無効にし、Slurmは接続が確立されるたびにノードのネットワークアドレスを検索します。
This is useful, for example, in a cloud environment where the node addresses come and go out of DNS.
これは、たとえば、ノードアドレスがDNSに出入りするクラウド環境で役立ちます。
- NoCtldInAddrAny
-
Used to directly bind to the address of what the node resolves to running
the slurmctld instead of binding messages to any address on the node,
which is the default.
デフォルトであるノード上の任意のアドレスにメッセージをバインドする代わりに、ノードが解決してslurmctldを実行するアドレスに直接バインドするために使用されます。
- NoInAddrAny
-
Used to directly bind to the address of what the node resolves to instead
of binding messages to any address on the node which is the default.
デフォルトであるノード上の任意のアドレスにメッセージをバインドする代わりに、ノードが解決するアドレスに直接バインドするために使用されます。
This option is for all daemons/clients except for the slurmctld.
このオプションは、slurmctldを除くすべてのデーモン/クライアント用です。
-
- CompleteWait
-
The time, in seconds, given for a job to remain in COMPLETING state
before any additional jobs are scheduled.
追加のジョブがスケジュールされる前に、ジョブがCOMPLETING状態のままになるために与えられた時間(秒単位)。
If set to zero, pending jobs will be started as soon as possible.
ゼロに設定すると、保留中のジョブができるだけ早く開始されます。
Since a COMPLETING job's resources are released for use by other jobs as soon as the Epilog completes on each individual node, this can result in very fragmented resource allocations.
COMPLETINGジョブのリソースは、Epilogが個々のノードで完了するとすぐに他のジョブで使用できるように解放されるため、リソース割り当てが非常に断片化される可能性があります。
To provide jobs with the minimum response time, a value of zero is recommended (no waiting).
最小の応答時間をジョブに提供するには、ゼロの値をお勧めします(待機なし)。
To minimize fragmentation of resources, a value equal to KillWait plus two is recommended.
リソースの断片化を最小限に抑えるために、KillWaitに2を加えた値に等しい値をお勧めします。
In that case, setting KillWait to a small value may be beneficial.
その場合、KillWaitを小さい値に設定すると便利な場合があります。
The default value of CompleteWait is zero seconds.
CompleteWaitのデフォルト値は0秒です。
The value may not exceed 65533.
値は65533を超えてはなりません。
- ControlAddr
-
Defunct option, see SlurmctldHost.
無効なオプション。SlurmctldHostを参照してください。
- ControlMachine
-
Defunct option, see SlurmctldHost.
無効なオプション。SlurmctldHostを参照してください。
- CoreSpecPlugin
-
Identifies the plugins to be used for enforcement of core specialization.
コアスペシャライゼーションの実施に使用されるプラグインを識別します。
The slurmd daemon must be restarted for a change in CoreSpecPlugin to take effect.
CoreSpecPluginの変更を有効にするには、slurmdデーモンを再起動する必要があります。
Acceptable values at present include:
現在許容される値は次のとおりです。
- CpuFreqDef
-
Default CPU frequency value or frequency governor to use when running a
job step if it has not been explicitly set with the --cpu-freq option.
--cpu-freqオプションで明示的に設定されていない場合に、ジョブステップを実行するときに使用するデフォルトのCPU周波数値または周波数ガバナー。
Acceptable values at present include a numeric value (frequency in kilohertz) or one of the following governors:
現在許容される値には、数値(キロヘルツ単位の周波数)または次のガバナーのいずれかが含まれます。
-
- Conservative
-
attempts to use the Conservative CPU governor
保守的なCPUガバナーを使用しようとします
- OnDemand
-
attempts to use the OnDemand CPU governor
OnDemandCPUガバナーの使用を試みます
- Performance
-
attempts to use the Performance CPU governor
パフォーマンスCPUガバナーの使用を試みます
- PowerSave
-
attempts to use the PowerSave CPU governor
PowerSaveCPUガバナーの使用を試みます
デフォルト値はありません。
If unset, no attempt to set the governor is made if the --cpu-freq option has not been set.
設定されていない場合、-cpu-freqオプションが設定されていなければ、ガバナーの設定は試行されません。
-
- CpuFreqGovernors
-
List of CPU frequency governors allowed to be set with the salloc, sbatch, or
srun option --cpu-freq.
salloc、sbatch、またはsrunオプション--cpu-freqで設定できるCPU周波数ガバナーのリスト。
Acceptable values at present include:
現在許容される値は次のとおりです。
-
- Conservative
-
attempts to use the Conservative CPU governor
保守的なCPUガバナーを使用しようとします
- OnDemand
-
attempts to use the OnDemand CPU governor (a default value)
OnDemand CPUガバナー(デフォルト値)の使用を試みます
- Performance
-
attempts to use the Performance CPU governor (a default value)
Performance CPUガバナー(デフォルト値)の使用を試みます
- PowerSave
-
attempts to use the PowerSave CPU governor
PowerSaveCPUガバナーの使用を試みます
- UserSpace
-
attempts to use the UserSpace CPU governor (a default value)
UserSpace CPUガバナー(デフォルト値)の使用を試みます
デフォルトは、オンデマンド、パフォーマンス、およびユーザースペースです。
-
- CredType
-
The cryptographic signature tool to be used in the creation of
job step credentials.
ジョブステップ資格情報の作成に使用される暗号署名ツール。
The slurmctld daemon must be restarted for a change in CredType to take effect.
CredTypeの変更を有効にするには、slurmctldデーモンを再起動する必要があります。
Acceptable values at present include "cred/munge".
現在許容される値には「cred / munge」が含まれます。
The default value is "cred/munge" and is the recommended.
デフォルト値は「cred / munge」であり、推奨されます。
- DebugFlags
-
Defines specific subsystems which should provide more detailed event logging.
より詳細なイベントログを提供する特定のサブシステムを定義します。
Multiple subsystems can be specified with comma separators.
複数のサブシステムは、コンマ区切りで指定できます。
Most DebugFlags will result in verbose logging for the identified subsystems and could impact performance.
ほとんどのDebugFlagsは、識別されたサブシステムの詳細なログを生成し、パフォーマンスに影響を与える可能性があります。
Valid subsystems available today (with more to come) include:
現在利用可能な有効なサブシステム(今後さらに追加予定)には、次のものがあります。
-
- Accrue
-
Accrue counters accounting details
発生カウンターの会計の詳細
- Agent
-
RPC agents (outgoing RPCs from Slurm daemons)
RPCエージェント(Slurmデーモンからの発信RPC)
- Backfill
-
Backfill scheduler details
バックフィルスケジューラの詳細
- BackfillMap
-
Backfill scheduler to log a very verbose map of reserved resources through
time.
予約されたリソースの非常に詳細なマップを時間の経過とともにログに記録するためのバックフィルスケジューラ。
Combine with Backfill for a verbose and complete view of the backfill scheduler's work.
バックフィルと組み合わせると、バックフィルスケジューラの作業の詳細で完全なビューが得られます。
- BurstBuffer
-
Burst Buffer plugin
バーストバッファプラグイン
- CPU_Bind
-
CPU binding details for jobs and steps
ジョブとステップのCPUバインディングの詳細
- CpuFrequency
-
Cpu frequency details for jobs and steps using the --cpu-freq option.
--cpu-freqオプションを使用したジョブとステップのCPU頻度の詳細。
- Data
-
Generic data structure details.
一般的なデータ構造の詳細。
- Dependency
-
Job dependency debug info
ジョブの依存関係のデバッグ情報
- Elasticsearch
-
Elasticsearch debug info
Elasticsearchのデバッグ情報
- Energy
-
AcctGatherEnergy debug info
AcctGatherEnergyデバッグ情報
- ExtSensors
-
External Sensors debug info
外部センサーのデバッグ情報
- Federation
-
Federation scheduling debug info
フェデレーションスケジューリングのデバッグ情報
- FrontEnd
-
Front end node details
フロントエンドノードの詳細
- Gres
-
Generic resource details
一般的なリソースの詳細
- Hetjob
-
Heterogeneous job details
不均一な仕事の詳細
- Gang
-
Gang scheduling details
ギャングスケジュールの詳細
- JobContainer
-
Job container plugin details
ジョブコンテナプラグインの詳細
- License
-
License management details
ライセンス管理の詳細
- Network
-
Network details
ネットワークの詳細
- NodeFeatures
-
Node Features plugin debug info
ノード機能プラグインのデバッグ情報
- NO_CONF_HASH
-
Do not log when the slurm.conf files differs between Slurm daemons
slurm.confファイルがSlurmデーモン間で異なる場合はログに記録しないでください
- Power
-
Power management plugin
電源管理プラグイン
- PowerSave
-
Power save (suspend/resume programs) details
省電力(プログラムの一時停止/再開)の詳細
- Priority
-
Job prioritization
仕事の優先順位付け
- Profile
-
AcctGatherProfile plugins details
AcctGatherProfileプラグインの詳細
- Protocol
-
Communication protocol details
通信プロトコルの詳細
- Reservation
-
Advanced reservations
事前予約
- Route
-
Message forwarding and message aggregation debug info
メッセージ転送とメッセージ集約のデバッグ情報
- SelectType
-
Resource selection plugin
リソース選択プラグイン
- Steps
-
Slurmctld resource allocation for job steps
ジョブステップのSlurmctldリソース割り当て
- Switch
-
Switch plugin
プラグインを切り替える
- TimeCray
-
Timing of Cray APIs
CrayAPIのタイミング
- TRESNode
-
Limits dealing with TRES=Node
TRES = Nodeの処理の制限
- TraceJobs
-
Trace jobs in slurmctld.
slurmctldでジョブをトレースします。
It will print detailed job information including state, job ids and allocated nodes counter.
状態、ジョブID、割り当てられたノードカウンターなどの詳細なジョブ情報を出力します。
- Triggers
-
Slurmctld triggers
Slurmctldトリガー
- WorkQueue
-
Work Queue details
ワークキューの詳細
-
- DefCpuPerGPU
-
Default count of CPUs allocated per allocated GPU.
割り当てられたGPUごとに割り当てられたCPUのデフォルト数。
- DefMemPerCPU
-
Default real memory size available per allocated CPU in megabytes.
割り当てられたCPUごとに使用可能なデフォルトの実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
DefMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerGPU, DefMemPerNode and MaxMemPerCPU.
DefMemPerGPU、DefMemPerNode、およびMaxMemPerCPUも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerGPU
-
Default real memory size available per allocated GPU in megabytes.
割り当てられたGPUごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerCPU and DefMemPerNode.
DefMemPerCPUおよびDefMemPerNodeも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerNode
-
Default real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能なデフォルトの実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
DefMemPerNodeは通常、ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている場合(OverSubscribe = yesまたはOverSubscribe = force)に使用されます。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerCPU, DefMemPerGPU and MaxMemPerCPU.
DefMemPerCPU、DefMemPerGPU、およびMaxMemPerCPUも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefaultStorageHost
-
The default name of the machine hosting the accounting storage and
job completion databases.
アカウンティングストレージおよびジョブ完了データベースをホストするマシンのデフォルト名。
Only used for database type storage plugins and when the AccountingStorageHost and JobCompHost have not been defined.
データベースタイプのストレージプラグインで、AccountingStorageHostとJobCompHostが定義されていない場合にのみ使用されます。
- DefaultStorageLoc
-
The fully qualified file name where accounting records and/or job
completion records are written when the DefaultStorageType is
"filetxt".
DefaultStorageTypeが "filetxt"の場合に、アカウンティングレコードやジョブ完了レコードが書き込まれる完全修飾ファイル名。
Also see AccountingStorageLoc and JobCompLoc.
AccountingStorageLocおよびJobCompLocも参照してください。
- DefaultStoragePass
-
The password used to gain access to the database to store the
accounting and job completion data.
アカウンティングおよびジョブ完了データを格納するためにデータベースにアクセスするために使用されるパスワード。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see AccountingStoragePass and JobCompPass.
AccountingStoragePassおよびJobCompPassも参照してください。
- DefaultStoragePort
-
The listening port of the accounting storage and/or job completion
database server.
アカウンティングストレージおよび/またはジョブ完了データベースサーバーのリスニングポート。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see AccountingStoragePort and JobCompPort.
AccountingStoragePortおよびJobCompPortも参照してください。
- DefaultStorageType
-
The accounting and job completion storage mechanism type.
アカウンティングおよびジョブ完了ストレージメカニズムタイプ。
Acceptable values at present include "filetxt", "mysql" and "none".
現在許容される値には、「filetxt」、「mysql」、および「none」が含まれます。
The value "filetxt" indicates that records will be written to a file.
値「filetxt」は、レコードがファイルに書き込まれることを示します。
The value "mysql" indicates that accounting records will be written to a MySQL or MariaDB database.
値「mysql」は、アカウンティングレコードがMySQLまたはMariaDBデータベースに書き込まれることを示します。
The default value is "none", which means that records are not maintained.
デフォルト値は「none」です。これは、レコードが維持されないことを意味します。
Also see AccountingStorageType and JobCompType.
AccountingStorageTypeおよびJobCompTypeも参照してください。
- DefaultStorageUser
-
The user account for accessing the accounting storage and/or job
completion database.
アカウンティングストレージやジョブ完了データベースにアクセスするためのユーザーアカウント。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see AccountingStorageUser and JobCompUser.
AccountingStorageUserおよびJobCompUserも参照してください。
- DependencyParameters
-
Multiple options may be comma-separated.
複数のオプションをコンマで区切ることができます。
-
- disable_remote_singleton
-
By default, when a federated job has a singleton dependeny, each cluster in the
federation must clear the singleton dependency before the job's singleton
dependency is considered satisfied.
デフォルトでは、フェデレーションジョブにシングルトン依存関係がある場合、フェデレーション内の各クラスターは、ジョブのシングルトン依存関係が満たされていると見なされる前に、シングルトン依存関係をクリアする必要があります。
Enabling this option means that only the origin cluster must clear the singleton dependency.
このオプションを有効にすると、オリジンクラスターのみがシングルトン依存関係をクリアする必要があります。
This option must be set in every cluster in the federation.
このオプションは、フェデレーション内のすべてのクラスターで設定する必要があります。
- kill_invalid_depend
-
If a job has an invalid dependency and it can never run terminate it
and set its state to be JOB_CANCELLED.
ジョブに無効な依存関係があり、実行できない場合は、ジョブを終了して、その状態をJOB_CANCELLEDに設定します。
By default the job stays pending with reason DependencyNeverSatisfied.
デフォルトでは、ジョブはDependencyNeverSatisfiedの理由で保留状態のままになります。
max_depend_depth=# Maximum number of jobs to test for a circular job dependency.
max_depend_depth =#循環ジョブの依存関係をテストするジョブの最大数。
Stop testing after this number of job dependencies have been tested.
この数のジョブの依存関係がテストされたら、テストを停止します。
The default value is 10 jobs.
デフォルト値は10ジョブです。
-
- DisableRootJobs
-
If set to "YES" then user root will be prevented from running any jobs.
「YES」に設定すると、ユーザーrootはジョブを実行できなくなります。
The default value is "NO", meaning user root will be able to execute jobs.
デフォルト値は「NO」です。これは、ユーザーrootがジョブを実行できることを意味します。
DisableRootJobs may also be set by partition.
DisableRootJobsは、パーティションによって設定することもできます。
- EioTimeout
-
The number of seconds srun waits for slurmstepd to close the TCP/IP
connection used to relay data between the user application and srun
when the user application terminates.
srunがslurmstepdがユーザーアプリケーションとsrunの間でデータを中継するために使用されるTCP / IP接続を閉じるのを待機する秒数(ユーザーアプリケーションの終了時)。
The default value is 60 seconds.
デフォルト値は60秒です。
May not exceed 65533.
65533を超えることはできません。
- EnforcePartLimits
-
If set to "ALL" then jobs which exceed a partition's size and/or
time limits will be rejected at submission time.
「ALL」に設定すると、パーティションのサイズや時間制限を超えるジョブは送信時に拒否されます。
If job is submitted to multiple partitions, the job must satisfy the limits on all the requested partitions.
ジョブが複数のパーティションにサブミットされる場合、ジョブは要求されたすべてのパーティションの制限を満たす必要があります。
If set to "NO" then the job will be accepted and remain queued until the partition limits are altered(Time and Node Limits).
「NO」に設定すると、ジョブは受け入れられ、パーティション制限(時間とノードの制限)が変更されるまでキューに入れられたままになります。
If set to "ANY" a job must satisfy any of the requested partitions to be submitted.
「ANY」に設定されている場合、ジョブは送信される要求されたパーティションのいずれかを満たす必要があります。
The default value is "NO".
デフォルト値は「NO」です。
NOTE: If set, then a job's QOS can not be used to exceed partition limits.
注:設定されている場合、ジョブのQOSを使用してパーティション制限を超えることはできません。
NOTE: The partition limits being considered are its configured MaxMemPerCPU, MaxMemPerNode, MinNodes, MaxNodes, MaxTime, AllocNodes, AllowAccounts, AllowGroups, AllowQOS, and QOS usage threshold.
注:考慮されるパーティション制限は、構成されたMaxMemPerCPU、MaxMemPerNode、MinNodes、MaxNodes、MaxTime、AllocNodes、AllowAccounts、AllowGroups、AllowQOS、およびQOS使用量のしきい値です。
- Epilog
-
Fully qualified pathname of a script to execute as user root on every
node when a user's job completes (e.g. "/usr/local/slurm/epilog").
ユーザーのジョブが完了したときにすべてのノードでユーザーrootとして実行するスクリプトの完全修飾パス名(例: "/ usr / local / slurm / epilog")。
A glob pattern (See glob (7)) may also be used to run more than one epilog script (e.g. "/etc/slurm/epilog.d/*").
globパターン(glob(7)を参照)を使用して、複数のエピローグスクリプト(「/etc/slurm/epilog.d/*」など)を実行することもできます。
The Epilog script or scripts may be used to purge files, disable user login, etc.
Epilogスクリプトは、ファイルのパージ、ユーザーログインの無効化などに使用できます。
By default there is no epilog.
デフォルトでは、エピローグはありません。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- EpilogMsgTime
-
The number of microseconds that the slurmctld daemon requires to process
an epilog completion message from the slurmd daemons.
slurmctldデーモンがslurmdデーモンからのエピローグ完了メッセージを処理するために必要なマイクロ秒数。
This parameter can be used to prevent a burst of epilog completion messages from being sent at the same time which should help prevent lost messages and improve throughput for large jobs.
このパラメーターを使用すると、エピローグ完了メッセージのバーストが同時に送信されるのを防ぐことができます。これにより、メッセージの損失を防ぎ、大規模なジョブのスループットを向上させることができます。
The default value is 2000 microseconds.
デフォルト値は2000マイクロ秒です。
For a 1000 node job, this spreads the epilog completion messages out over two seconds.
1000ノードのジョブの場合、これによりエピローグ完了メッセージが2秒に分散されます。
- EpilogSlurmctld
-
Fully qualified pathname of a program for the slurmctld to execute
upon termination of a job allocation (e.g.
"/usr/local/slurm/epilog_controller").
ジョブ割り当ての終了時にslurmctldが実行するプログラムの完全修飾パス名(例:「/ usr / local / slurm / epilog_controller」)。
The program executes as SlurmUser, which gives it permission to drain nodes and requeue the job if a failure occurs (See scontrol(1)).
プログラムはSlurmUserとして実行され、障害が発生した場合にノードをドレインしてジョブを再キューイングする権限を付与します(scontrol(1)を参照)。
Exactly what the program does and how it accomplishes this is completely at the discretion of the system administrator.
プログラムが何をし、どのようにこれを達成するかは、完全にシステム管理者の裁量に委ねられています。
Information about the job being initiated, its allocated nodes, etc. are passed to the program using environment variables.
開始されているジョブ、割り当てられているノードなどに関する情報は、環境変数を使用してプログラムに渡されます。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- ExtSensorsFreq
-
The external sensors plugin sampling interval.
外部センサープラグインのサンプリング間隔。
If ExtSensorsType=ext_sensors/none, this parameter is ignored.
ExtSensorsType = ext_sensors / noneの場合、このパラメーターは無視されます。
For all other values of ExtSensorsType, this parameter is the number of seconds between external sensors samples for hardware components (nodes, switches, etc.)
ExtSensorsTypeの他のすべての値の場合、このパラメーターは、ハードウェアコンポーネント(ノード、スイッチなど)の外部センサーサンプル間の秒数です。
The default value is zero.
デフォルト値はゼロです。
This value disables external sensors sampling. Note: This parameter does not affect external sensors data collection for jobs/steps.
この値は、外部センサーのサンプリングを無効にします。注:このパラメーターは、ジョブ/ステップの外部センサーのデータ収集には影響しません。
- ExtSensorsType
-
Identifies the plugin to be used for external sensors data collection.
外部センサーのデータ収集に使用するプラグインを識別します。
Slurmctld calls this plugin to collect external sensors data for jobs/steps and hardware components.
Slurmctldはこのプラグインを呼び出して、ジョブ/ステップおよびハードウェアコンポーネントの外部センサーデータを収集します。
In case of node sharing between jobs the reported values per job/step (through sstat or sacct) may not be accurate.
ジョブ間でノードを共有している場合、ジョブ/ステップごとに報告された値(sstatまたはsacctを介して)が正確でない場合があります。
See also "man ext_sensors.conf".
「manext_sensors.conf」も参照してください。
Configurable values at present are:
現在、構成可能な値は次のとおりです。
- FairShareDampeningFactor
-
Dampen the effect of exceeding a user or group's fair share of allocated
resources.
割り当てられたリソースのユーザーまたはグループの公平なシェアを超える影響を弱めます。
Higher values will provides greater ability to differentiate between exceeding the fair share at high levels (e.g. a value of 1 results in almost no difference between overconsumption by a factor of 10 and 100, while a value of 5 will result in a significant difference in priority).
値が高いほど、高レベルでのフェアシェアの超過を区別する能力が高くなります(たとえば、値が1の場合、過剰消費の差は10倍と100倍になりますが、値が5の場合、優先度に大きな違いが生じます)。 )。
The default value is 1.
デフォルト値は1です。
- FederationParameters
-
Used to define federation options.
フェデレーションオプションを定義するために使用されます。
Multiple options may be comma separated.
複数のオプションはコンマで区切ることができます。
-
- fed_display
-
If set, then the client status commands (e.g. squeue, sinfo, sprio, etc.) will
display information in a federated view by default.
設定されている場合、クライアントステータスコマンド(squeue、sinfo、sprioなど)は、デフォルトでフェデレーションビューに情報を表示します。
This option is functionally equivalent to using the --federation options on each command.
このオプションは、各コマンドで--federationオプションを使用するのと機能的に同等です。
Use the client's --local option to override the federated view and get a local view of the given cluster.
クライアントの--localオプションを使用して、フェデレーションビューをオーバーライドし、指定されたクラスターのローカルビューを取得します。
-
- FirstJobId
-
The job id to be used for the first submitted to Slurm without a
specific requested value.
特定の要求値なしでSlurmに最初に送信されるために使用されるジョブID。
Job id values generated will incremented by 1 for each subsequent job.
生成されたジョブID値は、後続のジョブごとに1ずつ増加します。
This may be used to provide a meta-scheduler with a job id space which is disjoint from the interactive jobs.
これは、インタラクティブジョブとは切り離されたジョブIDスペースをメタスケジューラに提供するために使用できます。
The default value is 1.
デフォルト値は1です。
Also see MaxJobId
MaxJobIdも参照してください
- GetEnvTimeout
-
Controls how long the job should wait (in seconds) to load the user's
environment before attempting to load it from a cache file.
キャッシュファイルからのロードを試行する前に、ジョブがユーザーの環境をロードするのを待機する時間(秒単位)を制御します。
Applies when the salloc or sbatch --get-user-env option is used.
sallocまたはsbatch--get-user-envオプションが使用されている場合に適用されます。
If set to 0 then always load the user's environment from the cache file.
0に設定すると、常にキャッシュファイルからユーザーの環境をロードします。
The default value is 2 seconds.
デフォルト値は2秒です。
- GresTypes
-
A comma delimited list of generic resources to be managed (e.g.
GresTypes=gpu,mps).
管理する汎用リソースのコンマ区切りリスト(GresTypes = gpu、mpsなど)。
These resources may have an associated GRES plugin of the same name providing additional functionality.
これらのリソースには、追加機能を提供する同じ名前のGRESプラグインが関連付けられている場合があります。
No generic resources are managed by default.
デフォルトでは、汎用リソースは管理されません。
Ensure this parameter is consistent across all nodes in the cluster for proper operation.
適切に動作するために、このパラメーターがクラスター内のすべてのノードで一貫していることを確認してください。
The slurmctld daemon must be restarted for changes to this parameter to become effective.
このパラメーターの変更を有効にするには、slurmctldデーモンを再始動する必要があります。
- GroupUpdateForce
-
If set to a non-zero value, then information about which users are members
of groups allowed to use a partition will be updated periodically, even when
there have been no changes to the /etc/group file.
ゼロ以外の値に設定すると、/ etc / groupファイルに変更がない場合でも、パーティションの使用が許可されているグループのメンバーであるユーザーに関する情報が定期的に更新されます。
If set to zero, group member information will be updated only after the /etc/group file is updated.
ゼロに設定すると、グループメンバー情報は/ etc / groupファイルが更新された後にのみ更新されます。
The default value is 1.
デフォルト値は1です。
Also see the GroupUpdateTime parameter.
GroupUpdateTimeパラメーターも参照してください。
- GroupUpdateTime
-
Controls how frequently information about which users are members of
groups allowed to use a partition will be updated, and how long user
group membership lists will be cached.
どのユーザーがパーティションの使用を許可されたグループのメンバーであるかに関する情報が更新される頻度、およびユーザーグループメンバーシップリストがキャッシュされる期間を制御します。
The time interval is given in seconds with a default value of 600 seconds.
時間間隔は秒単位で指定され、デフォルト値は600秒です。
A value of zero will prevent periodic updating of group membership information.
値がゼロの場合、グループメンバーシップ情報が定期的に更新されるのを防ぎます。
Also see the GroupUpdateForce parameter.
GroupUpdateForceパラメーターも参照してください。
- GpuFreqDef=[<type]=value>[,<type=value>]
-
Default GPU frequency to use when running a job step if it
has not been explicitly set using the --gpu-freq option.
--gpu-freqオプションを使用して明示的に設定されていない場合に、ジョブステップを実行するときに使用するデフォルトのGPU頻度。
This option can be used to independently configure the GPU and its memory frequencies.
このオプションを使用して、GPUとそのメモリ周波数を個別に構成できます。
Defaults to "high,memory=high".
デフォルトは「high、memory = high」です。
After the job is completed, the frequencies of all affected GPUs will be reset to the highest possible values.
ジョブが完了すると、影響を受けるすべてのGPUの周波数が可能な限り高い値にリセットされます。
In some cases, system power caps may override the requested values.
場合によっては、システムの電力上限が要求された値を上書きすることがあります。
The field type can be "memory".
フィールドタイプは「メモリ」にすることができます。
If type is not specified, the GPU frequency is implied.
タイプが指定されていない場合、GPU周波数が暗黙指定されます。
The value field can either be "low", "medium", "high", "highm1" or a numeric value in megahertz (MHz).
値フィールドは、「低」、「中」、「高」、「高m1」、またはメガヘルツ(MHz)単位の数値のいずれかです。
If the specified numeric value is not possible, a value as close as possible will be used.
指定された数値が不可能な場合は、可能な限り近い値が使用されます。
See below for definition of the values.
値の定義については、以下を参照してください。
Examples of use include "GpuFreqDef=medium,memory=high and "GpuFreqDef=450".
使用例には、「GpuFreqDef = medium、memory = high」および「GpuFreqDef = 450」が含まれます。
Supported value definitions:
サポートされている値の定義:
- HealthCheckInterval
-
The interval in seconds between executions of HealthCheckProgram.
HealthCheckProgramの実行間の秒単位の間隔。
The default value is zero, which disables execution.
デフォルト値はゼロで、実行を無効にします。
- HealthCheckNodeState
-
Identify what node states should execute the HealthCheckProgram.
HealthCheckProgramを実行するノードの状態を特定します。
Multiple state values may be specified with a comma separator.
複数の状態値は、コンマ区切り文字で指定できます。
The default value is ANY to execute on nodes in any state.
デフォルト値はANYで、任意の状態のノードで実行されます。
-
- ALLOC
-
Run on nodes in the ALLOC state (all CPUs allocated).
ALLOC状態(すべてのCPUが割り当てられている)のノードで実行します。
- ANY
-
Run on nodes in any state.
任意の状態のノードで実行します。
- CYCLE
-
Rather than running the health check program on all nodes at the same time,
cycle through running on all compute nodes through the course of the
HealthCheckInterval.
すべてのノードで同時にヘルスチェックプログラムを実行するのではなく、HealthCheckIntervalの過程ですべての計算ノードで実行を繰り返します。
May be combined with the various node state options.
さまざまなノード状態オプションと組み合わせることができます。
- IDLE
-
Run on nodes in the IDLE state.
IDLE状態のノードで実行します。
- MIXED
-
Run on nodes in the MIXED state (some CPUs idle and other CPUs allocated).
MIXED状態のノードで実行します(一部のCPUはアイドル状態で、他のCPUは割り当てられています)。
-
- HealthCheckProgram
-
Fully qualified pathname of a script to execute as user root periodically
on all compute nodes that are not in the NOT_RESPONDING state.
NOT_RESPONDING状態にないすべての計算ノードで定期的にユーザーrootとして実行するスクリプトの完全修飾パス名。
This program may be used to verify the node is fully operational and DRAIN the node or send email if a problem is detected.
このプログラムは、ノードが完全に動作していることを確認し、ノードをドレインするか、問題が検出された場合に電子メールを送信するために使用できます。
Any action to be taken must be explicitly performed by the program (e.g. execute "scontrol update NodeName=foo State=drain Reason=tmp_file_system_full" to drain a node).
実行するアクションはすべて、プログラムによって明示的に実行する必要があります(たとえば、「scontrol update NodeName = foo State = drain Reason = tmp_file_system_full」を実行してノードをドレインします)。
The execution interval is controlled using the HealthCheckInterval parameter.
実行間隔は、HealthCheckIntervalパラメーターを使用して制御されます。
Note that the HealthCheckProgram will be executed at the same time on all nodes to minimize its impact upon parallel programs.
HealthCheckProgramは、並列プログラムへの影響を最小限に抑えるために、すべてのノードで同時に実行されることに注意してください。
This program is will be killed if it does not terminate normally within 60 seconds.
このプログラムは、60秒以内に正常に終了しない場合は強制終了されます。
This program will also be executed when the slurmd daemon is first started and before it registers with the slurmctld daemon.
このプログラムは、slurmdデーモンが最初に起動されたとき、およびslurmctldデーモンに登録される前にも実行されます。
By default, no program will be executed.
デフォルトでは、プログラムは実行されません。
- InactiveLimit
-
The interval, in seconds, after which a non-responsive job allocation
command (e.g. srun or salloc) will result in the job being
terminated.
応答しないジョブ割り当てコマンド(srunやsallocなど)が実行されてからジョブが終了するまでの間隔(秒単位)。
If the node on which the command is executed fails or the command abnormally terminates, this will terminate its job allocation.
コマンドが実行されたノードに障害が発生した場合、またはコマンドが異常終了した場合、これによりジョブの割り当てが終了します。
This option has no effect upon batch jobs.
このオプションは、バッチジョブには影響しません。
When setting a value, take into consideration that a debugger using srun to launch an application may leave the srun command in a stopped state for extended periods of time.
値を設定するときは、srunを使用してアプリケーションを起動するデバッガーがsrunコマンドを長時間停止状態のままにする可能性があることを考慮してください。
This limit is ignored for jobs running in partitions with the RootOnly flag set (the scheduler running as root will be responsible for the job).
この制限は、RootOnlyフラグが設定されたパーティションで実行されているジョブでは無視されます(rootとして実行されているスケジューラーがジョブを担当します)。
The default value is unlimited (zero) and may not exceed 65533 seconds.
デフォルト値は無制限(ゼロ)で、65533秒を超えることはできません。
- JobAcctGatherType
-
The job accounting mechanism type.
ジョブアカウンティングメカニズムタイプ。
Acceptable values at present include "jobacct_gather/linux" (for Linux systems) and is the recommended one, "jobacct_gather/cgroup" and "jobacct_gather/none" (no accounting data collected).
現在許容される値には、「jobacct_gather / linux」(Linuxシステムの場合)が含まれ、推奨される値は「jobacct_gather / cgroup」および「jobacct_gather / none」(アカウンティングデータは収集されません)です。
The default value is "jobacct_gather/none".
デフォルト値は「jobacct_gather / none」です。
"jobacct_gather/cgroup" is a plugin for the Linux operating system that uses cgroups to collect accounting statistics.
「jobacct_gather / cgroup」は、cgroupを使用してアカウンティング統計を収集するLinuxオペレーティングシステム用のプラグインです。
The plugin collects the following statistics: From the cgroup memory subsystem: memory.usage_in_bytes (reported as 'pages') and rss from memory.stat (reported as 'rss').
プラグインは次の統計を収集します。cgroupメモリサブシステムから:memory.usage_in_bytes(「ページ」として報告)およびmemory.statからのrss(「rss」として報告)。
From the cgroup cpuacct subsystem: user cpu time and system cpu time.
cgroup cpuacctサブシステムから:ユーザーCPU時間とシステムCPU時間。
No value is provided by cgroups for virtual memory size ('vsize').
仮想メモリサイズ( 'vsize')の値はcgroupsによって提供されません。
In order to use the sstat tool "jobacct_gather/linux", or "jobacct_gather/cgroup" must be configured.
sstatツールを使用するには、「jobacct_gather / linux」または「jobacct_gather / cgroup」を構成する必要があります。
NOTE: Changing this configuration parameter changes the contents of the messages between Slurm daemons.
注:この構成パラメーターを変更すると、Slurmデーモン間のメッセージの内容が変更されます。
Any previously running job steps are managed by a slurmstepd daemon that will persist through the lifetime of that job step and not change its communication protocol.
以前に実行されていたジョブステップは、そのジョブステップの存続期間を通じて存続し、通信プロトコルを変更しないslurmstepdデーモンによって管理されます。
Only change this configuration parameter when there are no running job steps.
実行中のジョブステップがない場合にのみ、この構成パラメーターを変更してください。
- JobAcctGatherFrequency
-
The job accounting and profiling sampling intervals.
ジョブアカウンティングとプロファイリングのサンプリング間隔。
The supported format is follows:
サポートされている形式は次のとおりです。
-
- JobAcctGatherFrequency=<datatype>=<interval>
-
where <datatype>=<interval> specifies the task sampling
interval for the jobacct_gather plugin or a
sampling interval for a profiling type by the
acct_gather_profile plugin.
ここで、<datatype> = <interval>は、jobacct_gatherプラグインのタスクサンプリング間隔、またはacct_gather_profileプラグインによるプロファイリングタイプのサンプリング間隔を指定します。
Multiple, comma-separated <datatype>=<interval> intervals may be specified.
複数のコンマ区切りの<datatype> = <interval>間隔を指定できます。
Supported datatypes are as follows:
サポートされているデータ型は次のとおりです。
-
- task=<interval>
-
where <interval> is the task sampling interval in seconds
for the jobacct_gather plugins and for task
profiling by the acct_gather_profile plugin.
ここで、<interval>は、jobacct_gatherプラグインおよびacct_gather_profileプラグインによるタスクプロファイリングのタスクサンプリング間隔(秒単位)です。
- energy=<interval>
-
where <interval> is the sampling interval in seconds
for energy profiling using the acct_gather_energy plugin
ここで、<interval>は、acct_gather_energyプラグインを使用したエネルギープロファイリングのサンプリング間隔(秒単位)です。
- network=<interval>
-
where <interval> is the sampling interval in seconds
for infiniband profiling using the acct_gather_interconnect
plugin.
ここで、<interval>は、acct_gather_interconnectプラグインを使用したインフィニバンドプロファイリングのサンプリング間隔(秒単位)です。
- filesystem=<interval>
-
where <interval> is the sampling interval in seconds
for filesystem profiling using the acct_gather_filesystem
plugin.
ここで、<interval>は、acct_gather_filesystemプラグインを使用したファイルシステムプロファイリングのサンプリング間隔(秒単位)です。
-
タスクのサンプリング間隔のデフォルト値は30秒です。
The default value for all other intervals is 0.
他のすべての間隔のデフォルト値は0です。
An interval of 0 disables sampling of the specified type.
間隔が0の場合、指定されたタイプのサンプリングは無効になります。
If the task sampling interval is 0, accounting information is collected only at job termination (reducing Slurm interference with the job).
タスクのサンプリング間隔が0の場合、アカウンティング情報はジョブの終了時にのみ収集されます(ジョブへのSlurm干渉が減少します)。
Smaller (non-zero) values have a greater impact upon job performance, but a value of 30 seconds is not likely to be noticeable for applications having less than 10,000 tasks.
小さい(ゼロ以外の)値はジョブのパフォーマンスに大きな影響を与えますが、タスクが10,000未満のアプリケーションでは、30秒の値は目立たない可能性があります。
Users can independently override each interval on a per job basis using the --acctg-freq option when submitting the job.
ユーザーは、ジョブを送信するときに--acctg-freqオプションを使用して、ジョブごとに各間隔を個別にオーバーライドできます。
-
- JobAcctGatherParams
-
Arbitrary parameters for the job account gather plugin
Acceptable values at present include:
ジョブアカウント収集プラグインの任意のパラメーター現在の許容値は次のとおりです。
-
- NoShared
-
Exclude shared memory from accounting.
共有メモリをアカウンティングから除外します。
- UsePss
-
Use PSS value instead of RSS to calculate real usage of memory.
RSSの代わりにPSS値を使用して、メモリの実際の使用量を計算します。
The PSS value will be saved as RSS.
PSS値はRSSとして保存されます。
- OverMemoryKill
-
Kill jobs or steps that are being detected to use more memory than requested
every time accounting information is gathered by the JobAcctGather plugin.
JobAcctGatherプラグインによってアカウンティング情報が収集されるたびに、要求されたよりも多くのメモリを使用するように検出されているジョブまたはステップを強制終了します。
This parameter should be used with caution because a job exceeding its memory allocation may affect other processes and/or machine health.
このパラメータは、メモリ割り当てを超えるジョブが他のプロセスやマシンの状態に影響を与える可能性があるため、注意して使用する必要があります。
NOTE: If available, it is recommended to limit memory by enabling task/cgroup in TaskPlugin and making use of ConstrainRAMSpace=yes cgroup.conf instead of using this JobAcctGather mechanism for memory enforcement, since the former has a lower resolution (JobAcctGatherFreq) and OOMs could happen at some point.
注:可能な場合は、TaskPluginでtask / cgroupを有効にし、メモリの適用にこのJobAcctGatherメカニズムを使用する代わりに、ConstrainRAMSpace = yes cgroup.confを使用してメモリを制限することをお勧めします。前者は、解像度(JobAcctGatherFreq)とOOMが低いためです。ある時点で発生する可能性があります。
-
- JobCompHost
-
The name of the machine hosting the job completion database.
ジョブ完了データベースをホストしているマシンの名前。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageHost.
DefaultStorageHostも参照してください。
- JobCompLoc
-
The fully qualified file name where job completion records are written
when the JobCompType is "jobcomp/filetxt" or the database where
job completion records are stored when the JobCompType is a
database, or an url with format http://yourelasticserver:port when
JobCompType is "jobcomp/elasticsearch".
JobCompTypeが「jobcomp / filetxt」の場合にジョブ完了レコードが書き込まれる完全修飾ファイル名、JobCompTypeがデータベースの場合にジョブ完了レコードが保存されるデータベース、またはJobCompTypeの場合はhttp:// yourelasticserver:port形式のURL 「jobcomp / elasticsearch」です。
NOTE: when you specify a URL for Elasticsearch, Slurm will remove any trailing slashes "/" from the configured URL and append "/slurm/jobcomp", which are the Elasticsearch index name (slurm) and mapping (jobcomp).
注:ElasticsearchのURLを指定すると、Slurmは設定されたURLから末尾のスラッシュ「/」を削除し、Elasticsearchのインデックス名(slurm)とマッピング(jobcomp)である「/ slurm / jobcomp」を追加します。
NOTE: More information is available at the Slurm web site ( https://slurm.schedmd.com/elasticsearch.html ).
注:詳細については、Slurm Webサイト(https://slurm.schedmd.com/elasticsearch.html)を参照してください。
Also see DefaultStorageLoc.
DefaultStorageLocも参照してください。
- JobCompParams
-
Pass arbitrary text string to job completion plugin.
任意のテキスト文字列をジョブ完了プラグインに渡します。
Also see JobCompType.
JobCompTypeも参照してください。
- JobCompPass
-
The password used to gain access to the database to store the job
completion data.
ジョブ完了データを格納するためにデータベースにアクセスするために使用されるパスワード。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStoragePass.
DefaultStoragePassも参照してください。
- JobCompPort
-
The listening port of the job completion database server.
ジョブ完了データベースサーバーのリスニングポート。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStoragePort.
DefaultStoragePortも参照してください。
- JobCompType
-
The job completion logging mechanism type.
ジョブ完了ログメカニズムタイプ。
Acceptable values at present include "jobcomp/none", "jobcomp/elasticsearch", "jobcomp/filetxt", "jobcomp/lua", "jobcomp/mysql" and "jobcomp/script".
現在許容される値には、「jobcomp / none」、「jobcomp / elasticsearch」、「jobcomp / filetxt」、「jobcomp / lua」、「jobcomp / mysql」、および「jobcomp / script」が含まれます。
The default value is "jobcomp/none", which means that upon job completion the record of the job is purged from the system.
デフォルト値は「jobcomp / none」です。これは、ジョブの完了時に、ジョブのレコードがシステムから削除されることを意味します。
If using the accounting infrastructure this plugin may not be of interest since the information here is redundant.
アカウンティングインフラストラクチャを使用している場合、ここの情報は冗長であるため、このプラグインは重要ではない可能性があります。
The value "jobcomp/elasticsearch" indicates that a record of the job should be written to an Elasticsearch server specified by the JobCompLoc parameter.
値「jobcomp / elasticsearch」は、JobCompLocパラメーターで指定されたElasticsearchサーバーにジョブのレコードを書き込む必要があることを示します。
NOTE: More information is available at the Slurm web site ( https://slurm.schedmd.com/elasticsearch.html ).
注:詳細については、Slurm Webサイト(https://slurm.schedmd.com/elasticsearch.html)を参照してください。
The value "jobcomp/filetxt" indicates that a record of the job should be written to a text file specified by the JobCompLoc parameter.
値「jobcomp / filetxt」は、ジョブのレコードをJobCompLocパラメーターで指定されたテキストファイルに書き込む必要があることを示します。
The value "jobcomp/lua" indicates that a record of the job should processed by the "jobcomp.lua" script located in the default script directory (typically the subdirectory "etc" of the installation directory).
値「jobcomp / lua」は、ジョブのレコードがデフォルトのスクリプトディレクトリ(通常はインストールディレクトリのサブディレクトリ「etc」)にある「jobcomp.lua」スクリプトによって処理される必要があることを示します。
The value "jobcomp/mysql" indicates that a record of the job should be written to a MySQL or MariaDB database specified by the JobCompLoc parameter.
値「jobcomp / mysql」は、JobCompLocパラメーターで指定されたMySQLまたはMariaDBデータベースにジョブのレコードを書き込む必要があることを示します。
The value "jobcomp/script" indicates that a script specified by the JobCompLoc parameter is to be executed with environment variables indicating the job information.
値「jobcomp / script」は、JobCompLocパラメーターで指定されたスクリプトが、ジョブ情報を示す環境変数を使用して実行されることを示します。
- JobCompUser
-
The user account for accessing the job completion database.
ジョブ完了データベースにアクセスするためのユーザーアカウント。
Only used for database type storage plugins, ignored otherwise.
データベースタイプのストレージプラグインにのみ使用され、それ以外の場合は無視されます。
Also see DefaultStorageUser.
DefaultStorageUserも参照してください。
- JobContainerType
-
Identifies the plugin to be used for job tracking.
ジョブの追跡に使用するプラグインを識別します。
The slurmd daemon must be restarted for a change in JobContainerType to take effect.
JobContainerTypeの変更を有効にするには、slurmdデーモンを再起動する必要があります。
NOTE: The JobContainerType applies to a job allocation, while ProctrackType applies to job steps.
注:JobContainerTypeはジョブ割り当てに適用され、ProctrackTypeはジョブステップに適用されます。
Acceptable values at present include:
現在許容される値は次のとおりです。
- JobFileAppend
-
This option controls what to do if a job's output or error file
exist when the job is started.
このオプションは、ジョブの開始時にジョブの出力ファイルまたはエラーファイルが存在する場合の処理を制御します。
If JobFileAppend is set to a value of 1, then append to the existing file.
JobFileAppendが値1に設定されている場合は、既存のファイルに追加します。
By default, any existing file is truncated.
デフォルトでは、既存のファイルはすべて切り捨てられます。
- JobRequeue
-
This option controls the default ability for batch jobs to be requeued.
このオプションは、バッチジョブを再キューイングするためのデフォルトの機能を制御します。
Jobs may be requeued explicitly by a system administrator, after node failure, or upon preemption by a higher priority job.
ジョブは、ノード障害後、または優先度の高いジョブによるプリエンプション時に、システム管理者によって明示的に再キューイングされる場合があります。
If JobRequeue is set to a value of 1, then batch job may be requeued unless explicitly disabled by the user.
JobRequeueが値1に設定されている場合、ユーザーが明示的に無効にしない限り、バッチジョブは再キューイングされる可能性があります。
If JobRequeue is set to a value of 0, then batch job will not be requeued unless explicitly enabled by the user.
JobRequeueが値0に設定されている場合、ユーザーが明示的に有効にしない限り、バッチジョブは再キューイングされません。
Use the sbatch --no-requeue or --requeue option to change the default behavior for individual jobs.
sbatch --no-requeueまたは--requeueオプションを使用して、個々のジョブのデフォルトの動作を変更します。
The default value is 1.
デフォルト値は1です。
- JobSubmitPlugins
-
A comma delimited list of job submission plugins to be used.
使用するジョブ送信プラグインのコンマ区切りリスト。
The specified plugins will be executed in the order listed.
指定されたプラグインは、リストされた順序で実行されます。
These are intended to be site-specific plugins which can be used to set default job parameters and/or logging events.
これらは、デフォルトのジョブパラメータやログイベントを設定するために使用できるサイト固有のプラグインであることが意図されています。
Sample plugins available in the distribution include "all_partitions", "defaults", "logging", "lua", and "partition".
ディストリビューションで利用可能なサンプルプラグインには、「all_partitions」、「defaults」、「logging」、「lua」、および「partition」が含まれます。
For examples of use, see the Slurm code in "src/plugins/job_submit" and "contribs/lua/job_submit*.lua" then modify the code to satisfy your needs.
使用例については、「src / plugins / job_submit」および「contribs / lua / job_submit * .lua」のSlurmコードを参照してから、ニーズを満たすようにコードを変更してください。
Slurm can be configured to use multiple job_submit plugins if desired, however the lua plugin will only execute one lua script named "job_submit.lua" located in the default script directory (typically the subdirectory "etc" of the installation directory).
Slurmは、必要に応じて複数のjob_submitプラグインを使用するように構成できますが、luaプラグインは、デフォルトのスクリプトディレクトリ(通常はインストールディレクトリのサブディレクトリ「etc」)にある「job_submit.lua」という名前のluaスクリプトを1つだけ実行します。
No job submission plugins are used by default.
デフォルトでは、ジョブ送信プラグインは使用されません。
- KeepAliveTime
-
Specifies how long sockets communications used between the srun command and its
slurmstepd process are kept alive after disconnect.
srunコマンドとそのslurmstepdプロセス間で使用されるソケット通信が切断後に存続する期間を指定します。
Longer values can be used to improve reliability of communications in the event of network failures.
より長い値を使用すると、ネットワーク障害が発生した場合の通信の信頼性を向上させることができます。
The default value leaves the system default value.
デフォルト値は、システムのデフォルト値のままです。
The value may not exceed 65533.
値は65533を超えてはなりません。
- KillOnBadExit
-
If set to 1, a step will be terminated immediately if any task is
crashed or aborted, as indicated by a non-zero exit code.
1に設定すると、ゼロ以外の終了コードで示されているように、タスクがクラッシュまたは中止された場合、ステップはただちに終了します。
With the default value of 0, if one of the processes is crashed or aborted the other processes will continue to run while the crashed or aborted process waits.
デフォルト値の0では、プロセスの1つがクラッシュまたは中止された場合、クラッシュまたは中止されたプロセスが待機している間、他のプロセスは実行を継続します。
The user can override this configuration parameter by using srun's -K, --kill-on-bad-exit.
ユーザーは、srunの-K、-kill-on-bad-exitを使用して、この構成パラメーターをオーバーライドできます。
- KillWait
-
The interval, in seconds, given to a job's processes between the
SIGTERM and SIGKILL signals upon reaching its time limit.
制限時間に達したときにSIGTERMシグナルとSIGKILLシグナルの間のジョブのプロセスに与えられる間隔(秒単位)。
If the job fails to terminate gracefully in the interval specified, it will be forcibly terminated.
指定された間隔でジョブが正常に終了しなかった場合、ジョブは強制的に終了します。
The default value is 30 seconds.
デフォルト値は30秒です。
The value may not exceed 65533.
値は65533を超えてはなりません。
- NodeFeaturesPlugins
-
Identifies the plugins to be used for support of node features which can
change through time.
時間の経過とともに変化する可能性のあるノード機能のサポートに使用されるプラグインを識別します。
For example, a node which might be booted with various BIOS setting.
たとえば、さまざまなBIOS設定で起動される可能性のあるノード。
This is supported through the use of a node's active_features and available_features information.
これは、ノードのactive_featuresおよびavailable_features情報を使用することでサポートされます。
Acceptable values at present include:
現在許容される値は次のとおりです。
- LaunchParameters
-
Identifies options to the job launch plugin.
ジョブ起動プラグインのオプションを識別します。
Acceptable values include:
許容値は次のとおりです。
-
- batch_step_set_cpu_freq
-
Set the cpu frequency for the batch step from given --cpu-freq, or
slurm.conf CpuFreqDef, option.
指定された--cpu-freqまたはslurm.confCpuFreqDefオプションからバッチステップのCPU頻度を設定します。
By default only steps started with srun will utilize the cpu freq setting options.
デフォルトでは、srunで開始されたステップのみがcpufreq設定オプションを利用します。
NOTE: If you are using srun to launch your steps inside a batch script (advised) this option will create a situation where you may have multiple agents setting the cpu_freq as the batch step usually runs on the same resources one or more steps the sruns in the script will create.
注:srunを使用してバッチスクリプト内でステップを起動する場合(推奨)、このオプションを使用すると、複数のエージェントがcpu_freqを設定する可能性があります。これは、バッチステップが通常同じリソースで実行されるためです。スクリプトが作成します。
- cray_net_exclusive
-
Allow jobs on a Cray Native cluster exclusive access to network resources.
Crayネイティブクラスター上のジョブにネットワークリソースへの排他的アクセスを許可します。
This should only be set on clusters providing exclusive access to each node to a single job at once, and not using parallel steps within the job, otherwise resources on the node can be oversubscribed.
これは、各ノードへの排他的アクセスを一度に1つのジョブに提供し、ジョブ内で並列ステップを使用しないクラスターにのみ設定する必要があります。そうしないと、ノード上のリソースがオーバーサブスクライブされる可能性があります。
- enable_nss_slurm
-
Permits passwd and group resolution for a job to be serviced by slurmstepd rather
than requiring a lookup from a network based service.
ネットワークベースのサービスからのルックアップを要求するのではなく、slurmstepdによってサービスされるジョブのpasswdおよびグループ解決を許可します。
See https://slurm.schedmd.com/nss_slurm.html for more information.
詳細については、https://slurm.schedmd.com/nss_slurm.htmlを参照してください。
- lustre_no_flush
-
If set on a Cray Native cluster, then do not flush the Lustre cache on job step
completion.
Cray Nativeクラスターに設定されている場合は、ジョブステップの完了時にLustreキャッシュをフラッシュしないでください。
This setting will only take effect after reconfiguring, and will only take effect for newly launched jobs.
この設定は、再構成後にのみ有効になり、新しく起動されたジョブに対してのみ有効になります。
- mem_sort
-
Sort NUMA memory at step start.
ステップ開始時にNUMAメモリをソートします。
User can override this default with SLURM_MEM_BIND environment variable or --mem-bind=nosort command line option.
ユーザーは、SLURM_MEM_BIND環境変数または--mem-bind = nosortコマンドラインオプションを使用してこのデフォルトをオーバーライドできます。
- disable_send_gids
-
By default the slurmctld will lookup and send the user_name and extended gids
for a job, rather than individual on each node as part of each task launch.
デフォルトでは、slurmctldは、各タスクの起動の一部として各ノードで個別ではなく、ジョブのuser_nameと拡張gidを検索して送信します。
Which avoids issues around name service scalability when launching jobs involving many nodes.
これにより、多くのノードが関与するジョブを起動する際のネームサービスのスケーラビリティに関する問題が回避されます。
Using this option will reverse this functionality.
このオプションを使用すると、この機能が逆になります。
- slurmstepd_memlock
-
Lock the slurmstepd process's current memory in RAM.
slurmstepdプロセスの現在のメモリをRAMにロックします。
- slurmstepd_memlock_all
-
Lock the slurmstepd process's current and future memory in RAM.
slurmstepdプロセスの現在および将来のメモリをRAMにロックします。
- test_exec
-
Have srun verify existence of the executable program along with user
execute permission on the node where srun was called before attempting to
launch it on nodes in the step.
ステップのノードでsrunを起動する前に、srunが呼び出されたノードでのユーザー実行権限とともに実行可能プログラムの存在をsrunに確認させます。
-
- LaunchType
-
Identifies the mechanism to be used to launch application tasks.
アプリケーションタスクを起動するために使用されるメカニズムを識別します。
Acceptable values include:
許容値は次のとおりです。
- Licenses
-
Specification of licenses (or other resources available on all
nodes of the cluster) which can be allocated to jobs.
ジョブに割り当てることができるライセンス(またはクラスターのすべてのノードで使用可能なその他のリソース)の仕様。
License names can optionally be followed by a colon and count with a default count of one.
ライセンス名の後には、オプションでコロンとカウントを続けることができ、デフォルトのカウントは1です。
Multiple license names should be comma separated (e.g. "Licenses=foo:4,bar").
複数のライセンス名はコンマで区切る必要があります(例: "Licenses = foo:4、bar")。
Note that Slurm prevents jobs from being scheduled if their required license specification is not available.
Slurmは、必要なライセンス仕様が利用できない場合、ジョブがスケジュールされないようにすることに注意してください。
Slurm does not prevent jobs from using licenses that are not explicitly listed in the job submission specification.
Slurmは、ジョブ送信仕様に明示的にリストされていないライセンスをジョブが使用することを妨げません。
- LogTimeFormat
-
Format of the timestamp in slurmctld and slurmd log files.
slurmctldおよびslurmdログファイルのタイムスタンプの形式。
Accepted values are "iso8601", "iso8601_ms", "rfc5424", "rfc5424_ms", "clock", "short" and "thread_id".
受け入れられる値は、「iso8601」、「iso8601_ms」、「rfc5424」、「rfc5424_ms」、「clock」、「short」、および「thread_id」です。
The values ending in "_ms" differ from the ones without in that fractional seconds with millisecond precision are printed.
「_ms」で終わる値は、ミリ秒の精度で小数秒が出力されるという点で、そうでない値とは異なります。
The default value is "iso8601_ms".
デフォルト値は「iso8601_ms」です。
The "rfc5424" formats are the same as the "iso8601" formats except that the timezone value is also shown.
「rfc5424」形式は、タイムゾーン値も表示されることを除いて、「iso8601」形式と同じです。
The "clock" format shows a timestamp in microseconds retrieved with the C standard clock() function.
「クロック」形式は、C標準のclock()関数で取得されたタイムスタンプをマイクロ秒単位で表示します。
The "short" format is a short date and time format.
「短い」形式は、短い日付と時刻の形式です。
The "thread_id" format shows the timestamp in the C standard ctime() function form without the year but including the microseconds, the daemon's process ID and the current thread name and ID.
「thread_id」形式は、C標準のctime()関数形式でタイムスタンプを年なしで表示しますが、マイクロ秒、デーモンのプロセスID、現在のスレッド名とIDを含みます。
- MailDomain
-
Domain name to qualify usernames if email address is not explicitly given
with the "--mail-user" option.
メールアドレスが「--mail-user」オプションで明示的に指定されていない場合にユーザー名を修飾するためのドメイン名。
If unset, the local MTA will need to qualify local address itself.
設定されていない場合、ローカルMTAはローカルアドレス自体を修飾する必要があります。
Changes to MailDomain will only affect new jobs.
MailDomainへの変更は、新しいジョブにのみ影響します。
- MailProg
-
Fully qualified pathname to the program used to send email per user request.
ユーザー要求ごとに電子メールを送信するために使用されるプログラムへの完全修飾パス名。
The default value is "/bin/mail" (or "/usr/bin/mail" if "/bin/mail" does not exist but "/usr/bin/mail" does exist).
デフォルト値は「/ bin / mail」(または「/ bin / mail」は存在しないが「/ usr / bin / mail」は存在する場合は「/ usr / bin / mail」)です。
- MaxArraySize
-
The maximum job array size.
ジョブ配列の最大サイズ。
The maximum job array task index value will be one less than MaxArraySize to allow for an index value of zero.
ゼロのインデックス値を可能にするために、ジョブ配列タスクの最大インデックス値はMaxArraySizeより1つ小さくなります。
Configure MaxArraySize to 0 in order to disable job array use.
ジョブ配列の使用を無効にするには、MaxArraySizeを0に構成します。
The value may not exceed 4000001.
値は4000001を超えてはなりません。
The value of MaxJobCount should be much larger than MaxArraySize.
MaxJobCountの値は、MaxArraySizeよりもはるかに大きくする必要があります。
The default value is 1001.
デフォルト値は1001です。
- MaxDBDMsgs
-
When communication to the SlurmDBD is not possible the slurmctld will queue messages meant to processed when the the SlurmDBD is available again.
SlurmDBDとの通信が不可能な場合、slurmctldは、SlurmDBDが再び使用可能になったときに処理されることを意図したメッセージをキューに入れます。
In order to avoid running out of memory the slurmctld will only queue so many messages.
メモリ不足を回避するために、slurmctldは非常に多くのメッセージのみをキューに入れます。
The default value is 10000, or MaxJobCount * 2 + Node Count * 4, whichever is greater.
デフォルト値は10000、またはMaxJobCount * 2+ノード数* 4のいずれか大きい方です。
The value can not be less than 10000.
値は10000以上にする必要があります。
- MaxJobCount
-
The maximum number of jobs Slurm can have in its active database
at one time.
Slurmがアクティブなデータベースに一度に持つことができるジョブの最大数。
Set the values of MaxJobCount and MinJobAge to ensure the slurmctld daemon does not exhaust its memory or other resources.
MaxJobCountとMinJobAgeの値を設定して、slurmctldデーモンがメモリやその他のリソースを使い果たしないようにします。
Once this limit is reached, requests to submit additional jobs will fail.
この制限に達すると、追加のジョブを送信するリクエストは失敗します。
The default value is 10000 jobs.
デフォルト値は10000ジョブです。
NOTE: Each task of a job array counts as one job even though they will not occupy separate job records until modified or initiated.
注:ジョブ配列の各タスクは、変更または開始されるまで個別のジョブレコードを占有しませんが、1つのジョブとしてカウントされます。
Performance can suffer with more than a few hundred thousand jobs.
パフォーマンスは、数十万を超えるジョブで低下する可能性があります。
Setting per MaxSubmitJobs per user is generally valuable to prevent a single user from filling the system with jobs.
ユーザーごとのMaxSubmitJobsごとの設定は、一般に、1人のユーザーがシステムにジョブを入力するのを防ぐために役立ちます。
This is accomplished using Slurm's database and configuring enforcement of resource limits.
これは、Slurmのデータベースを使用し、リソース制限の適用を構成することで実現されます。
This value may not be reset via "scontrol reconfig".
この値は、「scontrolreconfig」を介してリセットすることはできません。
It only takes effect upon restart of the slurmctld daemon.
slurmctldデーモンの再起動時にのみ有効になります。
- MaxJobId
-
The maximum job id to be used for jobs submitted to Slurm without a specific
requested value.
特定の要求値なしでSlurmに送信されたジョブに使用される最大ジョブID。
Job ids are unsigned 32bit integers with the first 26 bits reserved for local job ids and the remaining 6 bits reserved for a cluster id to identify a federated job's origin.
ジョブIDは符号なし32ビット整数で、最初の26ビットはローカルジョブID用に予約され、残りの6ビットはフェデレーションジョブの起点を識別するためにクラスターID用に予約されています。
The maximun allowed local job id is 67,108,863 (0x3FFFFFF).
許可されるローカルジョブIDの最大数は67,108,863(0x3FFFFFF)です。
The default value is 67,043,328 (0x03ff0000).
デフォルト値は67,043,328(0x03ff0000)です。
MaxJobId only applies to the local job id and not the federated job id.
MaxJobIdは、ローカルジョブIDにのみ適用され、フェデレーションジョブIDには適用されません。
Job id values generated will be incremented by 1 for each subsequent job.
生成されたジョブID値は、後続のジョブごとに1ずつ増加します。
Once MaxJobId is reached, the next job will be assigned FirstJobId.
MaxJobIdに達すると、次のジョブにFirstJobIdが割り当てられます。
Federated jobs will always have a job ID of 67,108,865 or higher.
フェデレーションジョブのジョブIDは常に67,108,865以上になります。
Also see FirstJobId.
FirstJobIdも参照してください。
- MaxMemPerCPU
-
Maximum real memory size available per allocated CPU in megabytes.
割り当てられたCPUごとに使用可能な最大実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
MaxMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerCPU, DefMemPerGPU and MaxMemPerNode.
DefMemPerCPU、DefMemPerGPU、およびMaxMemPerNodeも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
NOTE: If a job specifies a memory per CPU limit that exceeds this system limit, that job's count of CPUs per task will try to automatically increase.
注:ジョブがこのシステム制限を超えるCPUあたりのメモリ制限を指定した場合、そのジョブのタスクあたりのCPU数は自動的に増加しようとします。
This may result in the job failing due to CPU count limits.
これにより、CPUカウントの制限が原因でジョブが失敗する可能性があります。
This auto-adjustment feature is a best-effort one and optimal assignment is not guaranteed due to the possibility of having heterogeneous configurations and multi-partition/qos jobs.
この自動調整機能はベストエフォート機能であり、異種構成やマルチパーティション/ QoSジョブが発生する可能性があるため、最適な割り当ては保証されません。
If this is a concern it is advised to use a job submit LUA plugin instead to enforce auto-adjustments to your specific needs.
これが懸念事項である場合は、代わりにジョブ送信LUAプラグインを使用して、特定のニーズに合わせて自動調整を実施することをお勧めします。
- MaxMemPerNode
-
Maximum real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能な最大実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
MaxMemPerNodeは通常、ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている場合(OverSubscribe = yesまたはOverSubscribe = force)に使用されます。
The default value is 0 (unlimited).
デフォルト値は0(無制限)です。
Also see DefMemPerNode and MaxMemPerCPU.
DefMemPerNodeおよびMaxMemPerCPUも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
- MaxStepCount
-
The maximum number of steps that any job can initiate.
すべてのジョブが開始できるステップの最大数。
This parameter is intended to limit the effect of bad batch scripts.
このパラメーターは、不正なバッチスクリプトの影響を制限することを目的としています。
The default value is 40000 steps.
デフォルト値は40000ステップです。
- MaxTasksPerNode
-
Maximum number of tasks Slurm will allow a job step to spawn
on a single node.
Slurmが許可するタスクの最大数は、単一ノードでジョブステップを生成できるようにします。
The default MaxTasksPerNode is 512.
デフォルトのMaxTasksPerNodeは512です。
May not exceed 65533.
65533を超えることはできません。
- MCSParameters
-
MCS = Multi-Category Security
MCS Plugin Parameters.
MCS =マルチカテゴリセキュリティMCSプラグインパラメータ。
The supported parameters are specific to the MCSPlugin.
サポートされているパラメーターは、MCSPluginに固有です。
Changes to this value take effect when the Slurm daemons are reconfigured.
この値の変更は、Slurmデーモンが再構成されたときに有効になります。
More information about MCS is available here <https://slurm.schedmd.com/mcs.html>.
MCSの詳細については、<https://slurm.schedmd.com/mcs.html>を参照してください。
- MCSPlugin
-
MCS = Multi-Category Security : associate a security label to jobs and ensure
that nodes can only be shared among jobs using the same security label.
MCS =マルチカテゴリセキュリティ:セキュリティラベルをジョブに関連付け、同じセキュリティラベルを使用するジョブ間でのみノードを共有できるようにします。
Acceptable values include:
許容値は次のとおりです。
-
- mcs/none
-
is the default value.
デフォルト値です。
No security label associated with jobs, no particular security restriction when sharing nodes among jobs.
ジョブに関連付けられたセキュリティラベルはなく、ジョブ間でノードを共有する場合の特別なセキュリティ制限もありません。
- mcs/account
-
only users with the same account can share the nodes (requires enabling of accounting).
同じアカウントを持つユーザーのみがノードを共有できます(アカウンティングを有効にする必要があります)。
- mcs/group
-
only users with the same group can share the nodes.
同じグループのユーザーのみがノードを共有できます。
- mcs/user
-
a node cannot be shared with other users.
ノードを他のユーザーと共有することはできません。
-
- MessageTimeout
-
Time permitted for a round-trip communication to complete
in seconds.
往復通信が完了するのに許可される時間(秒単位)。
Default value is 10 seconds.
デフォルト値は10秒です。
For systems with shared nodes, the slurmd daemon could be paged out and necessitate higher values.
共有ノードを持つシステムの場合、slurmdデーモンがページアウトされ、より高い値が必要になる可能性があります。
- MinJobAge
-
The minimum age of a completed job before its record is purged from
Slurm's active database.
Slurmのアクティブなデータベースからレコードが削除されるまでの完了したジョブの最小経過時間。
Set the values of MaxJobCount and to ensure the slurmctld daemon does not exhaust its memory or other resources.
MaxJobCountの値を設定し、slurmctldデーモンがメモリやその他のリソースを使い果たしないようにします。
The default value is 300 seconds.
デフォルト値は300秒です。
A value of zero prevents any job record purging.
値がゼロの場合、ジョブレコードのパージは防止されます。
Jobs are not purged during a backfill cycle, so it can take longer than MinJobAge seconds to purge a job if using the backfill scheduling plugin.
バックフィルサイクル中にジョブはパージされないため、バックフィルスケジューリングプラグインを使用している場合、ジョブのパージにMinJobAge秒より長くかかる可能性があります。
In order to eliminate some possible race conditions, the minimum non-zero value for MinJobAge recommended is 2.
考えられる競合状態を排除するために、推奨されるMinJobAgeのゼロ以外の最小値は2です。
- MpiDefault
-
Identifies the default type of MPI to be used.
使用するMPIのデフォルトタイプを識別します。
Srun may override this configuration parameter in any case.
Srunは、どのような場合でもこの構成パラメーターをオーバーライドできます。
Currently supported versions include: pmi2, pmix, and none (default, which works for many other versions of MPI).
現在サポートされているバージョンには、pmi2、pmix、およびnone(デフォルト。MPIの他の多くのバージョンで機能します)が含まれます。
More information about MPI use is available here mpi_guide.
MPIの使用の詳細については、mpi_guideを参照してください。
- MpiParams
-
MPI parameters.
MPIパラメータ。
Used to identify ports used by older versions of OpenMPI and native Cray systems.
古いバージョンのOpenMPIおよびネイティブCrayシステムで使用されているポートを識別するために使用されます。
The input format is "ports=12000-12999" to identify a range of communication ports to be used.
入力形式は「ports = 12000-12999」で、使用する通信ポートの範囲を識別します。
NOTE: This is not needed for modern versions of OpenMPI, taking it out can cause a small boost in scheduling performance.
注:これは、OpenMPIの最新バージョンには必要ありません。これを削除すると、スケジューリングのパフォーマンスがわずかに向上する可能性があります。
NOTE: This is require for Cray's PMI.
注:これはCrayのPMIに必要です。
- MsgAggregationParams
-
Message aggregation parameters.
メッセージ集約パラメータ。
Message aggregation is an optional feature that may improve system performance by reducing the number of separate messages passed between nodes.
メッセージ集約は、ノード間で渡される個別のメッセージの数を減らすことによってシステムパフォーマンスを向上させる可能性のあるオプション機能です。
The feature works by routing messages through one or more message collector nodes between their source and destination nodes.
この機能は、送信元ノードと宛先ノードの間の1つ以上のメッセージコレクターノードを介してメッセージをルーティングすることによって機能します。
At each collector node, messages with the same destination received during a defined message collection window are packaged into a single composite message.
各コレクターノードでは、定義されたメッセージ収集ウィンドウ中に受信された同じ宛先のメッセージが、単一の複合メッセージにパッケージ化されます。
When the window expires, the composite message is sent to the next collector node on the route to its destination.
ウィンドウの有効期限が切れると、複合メッセージは宛先へのルート上の次のコレクターノードに送信されます。
The route between each source and destination node is provided by the Route plugin.
各送信元ノードと宛先ノードの間のルートは、Routeプラグインによって提供されます。
When a composite message is received at its destination node, the original messages are extracted and processed as if they had been sent directly.
複合メッセージが宛先ノードで受信されると、元のメッセージが抽出され、直接送信されたかのように処理されます。
Currently, the only message types supported by message aggregation are the node registration, batch script completion, step completion, and epilog complete messages.
現在、メッセージ集約でサポートされているメッセージタイプは、ノード登録、バッチスクリプト完了、ステップ完了、およびエピローグ完了メッセージのみです。
Since the aggregation node address is set resolving the hostname at slurmd start in each node, using this feature in non-flat networks is not possible.
集約ノードアドレスは、各ノードのslurmd startでホスト名を解決するように設定されているため、非フラットネットワークでこの機能を使用することはできません。
For example, if slurmctld is in a different subnetwork than compute nodes and node addresses are resolved differently the controller than in the compute nodes, you may face communication issues.
たとえば、slurmctldが計算ノードとは異なるサブネットワークにあり、ノードアドレスが計算ノードとは異なる方法でコントローラーで解決される場合、通信の問題が発生する可能性があります。
In some cases it may be useful to set CommunicationParameters=NoInAddrAny to make all daemons communicate through the same network.
場合によっては、CommunicationParameters = NoInAddrAnyを設定して、すべてのデーモンが同じネットワークを介して通信できるようにすると便利な場合があります。
The format for this parameter is as follows:
このパラメーターの形式は次のとおりです。
WindowMsgsまたはWindowTimeのいずれかに達すると、ウィンドウは期限切れになります。
By default, message aggregation is disabled.
デフォルトでは、メッセージの集約は無効になっています。
To enable the feature, set WindowMsgs to a value greater than 1.
この機能を有効にするには、WindowMsgsを1より大きい値に設定します。
The default value for WindowTime is 100 milliseconds.
WindowTimeのデフォルト値は100ミリ秒です。
- OverTimeLimit
-
Number of minutes by which a job can exceed its time limit before
being canceled.
ジョブがキャンセルされる前に制限時間を超えることができる分数。
Normally a job's time limit is treated as a hard limit and the job will be killed upon reaching that limit.
通常、ジョブの制限時間はハード制限として扱われ、その制限に達するとジョブは強制終了されます。
Configuring OverTimeLimit will result in the job's time limit being treated like a soft limit.
OverTimeLimitを構成すると、ジョブの時間制限がソフト制限のように扱われます。
Adding the OverTimeLimit value to the soft time limit provides a hard time limit, at which point the job is canceled.
ソフト時間制限にOverTimeLimit値を追加すると、ハード時間制限が提供され、その時点でジョブがキャンセルされます。
This is particularly useful for backfill scheduling, which bases upon each job's soft time limit.
これは、各ジョブのソフト時間制限に基づく埋め戻しスケジューリングに特に役立ちます。
The default value is zero.
デフォルト値はゼロです。
May not exceed exceed 65533 minutes.
65533分を超えてはなりません。
A value of "UNLIMITED" is also supported.
「UNLIMITED」の値もサポートされています。
- PluginDir
-
Identifies the places in which to look for Slurm plugins.
Slurmプラグインを探す場所を特定します。
This is a colon-separated list of directories, like the PATH environment variable.
これは、PATH環境変数のように、コロンで区切られたディレクトリのリストです。
The default value is "/usr/local/lib/slurm".
デフォルト値は「/ usr / local / lib / slurm」です。
- PlugStackConfig
-
Location of the config file for Slurm stackable plugins that use
the Stackable Plugin Architecture for Node job (K)control (SPANK).
Nodeジョブ(K)コントロール(SPANK)のStackable PluginArchitectureを使用するSlurmスタッカブルプラグインの構成ファイルの場所。
This provides support for a highly configurable set of plugins to be called before and/or after execution of each task spawned as part of a user's job step.
これにより、ユーザーのジョブステップの一部として生成された各タスクの実行前および/または実行後に呼び出される高度に構成可能なプラグインのセットがサポートされます。
Default location is "plugstack.conf" in the same directory as the system slurm.conf.
デフォルトの場所は、システムslurm.confと同じディレクトリ内の「plugstack.conf」です。
For more information on SPANK plugins, see the spank(8) manual.
SPANKプラグインの詳細については、spank(8)のマニュアルを参照してください。
- PowerParameters
-
System power management parameters.
システムの電源管理パラメーター。
The supported parameters are specific to the PowerPlugin.
サポートされているパラメーターは、PowerPluginに固有です。
Changes to this value take effect when the Slurm daemons are reconfigured.
この値の変更は、Slurmデーモンが再構成されたときに有効になります。
More information about system power management is available here <https://slurm.schedmd.com/power_mgmt.html>.
システムの電源管理の詳細については、<https://slurm.schedmd.com/power_mgmt.html>を参照してください。
Options current supported by any plugins are listed below.
プラグインで現在サポートされているオプションを以下に示します。
-
- balance_interval=#
-
Specifies the time interval, in seconds, between attempts to rebalance power
caps across the nodes.
ノード間で電力上限の再調整を試行する間隔を秒単位で指定します。
This also controls the frequency at which Slurm attempts to collect current power consumption data (old data may be used until new data is available from the underlying infrastructure and values below 10 seconds are not recommended for Cray systems).
これは、Slurmが現在の電力消費データを収集しようとする頻度も制御します(基盤となるインフラストラクチャから新しいデータが利用可能になるまで古いデータを使用でき、Crayシステムでは10秒未満の値は推奨されません)。
The default value is 30 seconds.
デフォルト値は30秒です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- capmc_path=
-
Specifies the absolute path of the capmc command.
capmcコマンドの絶対パスを指定します。
The default value is "/opt/cray/capmc/default/bin/capmc".
デフォルト値は「/ opt / cray / capmc / default / bin / capmc」です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- cap_watts=#
-
Specifies the total power limit to be established across all compute nodes
managed by Slurm.
Slurmによって管理されるすべての計算ノードにわたって確立される合計電力制限を指定します。
A value of 0 sets every compute node to have an unlimited cap.
値0は、すべての計算ノードに無制限の上限を設定します。
The default value is 0.
デフォルト値は0です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- decrease_rate=#
-
Specifies the maximum rate of change in the power cap for a node where the
actual power usage is below the power cap by an amount greater than
lower_threshold (see below).
実際の電力使用量がlower_thresholdよりも大きい量だけ電力上限を下回っているノードの電力上限の最大変化率を指定します(以下を参照)。
Value represents a percentage of the difference between a node's minimum and maximum power consumption.
値は、ノードの最小消費電力と最大消費電力の差のパーセンテージを表します。
The default value is 50 percent.
デフォルト値は50パーセントです。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- get_timeout=#
-
Amount of time allowed to get power state information in milliseconds.
ミリ秒単位で電源状態情報を取得できる時間。
The default value is 5,000 milliseconds or 5 seconds.
デフォルト値は5,000ミリ秒または5秒です。
Supported by the power/cray_aries plugin and represents the time allowed for the capmc command to respond to various "get" options.
power / cray_ariesプラグインによってサポートされ、capmcコマンドがさまざまな「get」オプションに応答するために許可される時間を表します。
- increase_rate=#
-
Specifies the maximum rate of change in the power cap for a node where the
actual power usage is within upper_threshold (see below) of the power cap.
実際の電力使用量が電力上限のupper_threshold(以下を参照)内にあるノードの電力上限の最大変化率を指定します。
Value represents a percentage of the difference between a node's minimum and maximum power consumption.
値は、ノードの最小消費電力と最大消費電力の差のパーセンテージを表します。
The default value is 20 percent.
デフォルト値は20パーセントです。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- job_level
-
All nodes associated with every job will have the same power cap, to the extent
possible.
すべてのジョブに関連付けられているすべてのノードには、可能な限り同じ電力上限があります。
Also see the --power=level option on the job submission commands.
ジョブ送信コマンドの--power = levelオプションも参照してください。
- job_no_level
-
Disable the user's ability to set every node associated with a job to the same
power cap.
ジョブに関連付けられているすべてのノードを同じ電力上限に設定するユーザーの機能を無効にします。
Each node will have its power cap set independently.
各ノードの電力上限は個別に設定されます。
This disables the --power=level option on the job submission commands.
これにより、ジョブ送信コマンドの--power = levelオプションが無効になります。
- lower_threshold=#
-
Specify a lower power consumption threshold.
消費電力の下限しきい値を指定します。
If a node's current power consumption is below this percentage of its current cap, then its power cap will be reduced.
ノードの現在の消費電力が現在の上限のこのパーセンテージを下回っている場合、その電力上限は引き下げられます。
The default value is 90 percent.
デフォルト値は90パーセントです。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- recent_job=#
-
If a job has started or resumed execution (from suspend) on a compute node
within this number of seconds from the current time, the node's power cap will
be increased to the maximum.
現在の時刻からこの秒数以内にジョブが計算ノードで(サスペンドから)実行を開始または再開した場合、ノードの電力上限が最大に増加します。
The default value is 300 seconds.
デフォルト値は300秒です。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- set_timeout=#
-
Amount of time allowed to set power state information in milliseconds.
電力状態情報をミリ秒単位で設定できる時間。
The default value is 30,000 milliseconds or 30 seconds.
デフォルト値は30,000ミリ秒または30秒です。
Supported by the power/cray plugin and represents the time allowed for the capmc command to respond to various "set" options.
power / crayプラグインによってサポートされ、capmcコマンドがさまざまな「設定」オプションに応答するために許可される時間を表します。
- set_watts=#
-
Specifies the power limit to be set on every compute nodes managed by Slurm.
Slurmが管理するすべての計算ノードに設定する電力制限を指定します。
Every node gets this same power cap and there is no variation through time based upon actual power usage on the node.
すべてのノードはこれと同じ電力上限を取得し、ノードの実際の電力使用量に基づく時間による変動はありません。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
- upper_threshold=#
-
Specify an upper power consumption threshold.
消費電力の上限しきい値を指定します。
If a node's current power consumption is above this percentage of its current cap, then its power cap will be increased to the extent possible.
ノードの現在の消費電力が現在の上限のこのパーセンテージを超えている場合、その電力上限は可能な限り増加します。
The default value is 95 percent.
デフォルト値は95パーセントです。
Supported by the power/cray_aries plugin.
power / cray_ariesプラグインでサポートされています。
-
- PowerPlugin
-
Identifies the plugin used for system power management.
システムの電源管理に使用されるプラグインを識別します。
Currently supported plugins include: cray_aries and none.
現在サポートされているプラグインには、cray_ariesとnoneがあります。
Changes to this value require restarting Slurm daemons to take effect.
この値を変更すると、Slurmデーモンを再起動して有効にする必要があります。
More information about system power management is available here <https://slurm.schedmd.com/power_mgmt.html>.
システムの電源管理の詳細については、<https://slurm.schedmd.com/power_mgmt.html>を参照してください。
By default, no power plugin is loaded.
デフォルトでは、電源プラグインはロードされません。
- PreemptMode
-
Mechanism used to preempt jobs or enable gang scheudling.
ジョブをプリエンプトしたり、ギャングの回避を可能にするために使用されるメカニズム。
When the PreemptType parameter is set to enable preemption, the PreemptMode selects the default mechanism used to preempt the eligible jobs for the cluster.
PreemptTypeパラメーターがプリエンプションを有効にするように設定されている場合、PreemptModeは、クラスターの適格なジョブをプリエンプションするために使用されるデフォルトのメカニズムを選択します。
PreemptMode may be specified on a per partition basis to override this default value if PreemptType=preempt/partition_prio.
PreemptType = preempt / partition_prioの場合、PreemptModeをパーティションごとに指定して、このデフォルト値をオーバーライドできます。
Alternatively, it can be specified on a per QOS basis if PreemptType=preempt/qos.
または、PreemptType = preempt / qosの場合、QOSごとに指定できます。
In either case, a valid default PreemptMode value must be specified for the cluster as a whole when preemption is enabled.
いずれの場合も、プリエンプションが有効になっている場合は、クラスター全体に対して有効なデフォルトのPreemptMode値を指定する必要があります。
The GANG option is used to enable gang scheduling independent of whether preemption is enabled (i.e. independent of the PreemptType setting).
GANGオプションは、プリエンプションが有効かどうかに関係なく(つまり、PreemptType設定に関係なく)ギャングスケジューリングを有効にするために使用されます。
It can be specified in addition to a PreemptMode setting with the two options comma separated (e.g. PreemptMode=SUSPEND,GANG).
PreemptMode設定に加えて、2つのオプションをコンマで区切って指定できます(例:PreemptMode = SUSPEND、GANG)。
See <preempt> and <gang_scheduling> for more details.
詳細については、<preempt>および<gang_scheduling>を参照してください。
NOTE: For performance reasons, the backfill scheduler reserves whole nodes for jobs, not partial nodes.
パフォーマンス上の理由から、バックフィルスケジューラは、ノードの一部ではなく、ノード全体をジョブ用に予約します。
If during backfill scheduling a job preempts one or more other jobs, the whole nodes for those preempted jobs are reserved for the preemptor job, even if the preemptor job requested fewer resources than that.
バックフィルスケジューリング中に、ジョブが1つ以上の他のジョブをプリエンプトする場合、プリエンプタージョブがそれより少ないリソースを要求した場合でも、それらのプリエンプトされたジョブのノード全体がプリエンプタージョブ用に予約されます。
These reserved nodes aren't available to other jobs during that backfill cycle, even if the other jobs could fit on the nodes.
これらの予約済みノードは、他のジョブがノードに収まる場合でも、そのバックフィルサイクル中は他のジョブで使用できません。
Therefore, jobs may preempt more resources during a single backfill iteration than they requested.
したがって、ジョブは、1回の埋め戻しの反復中に、要求したよりも多くのリソースをプリエンプトする可能性があります。
NOTE: For heterogeneous job to be considered for preemption all components must be eligible for preemption.
異種ジョブがプリエンプションの対象となるには、すべてのコンポーネントがプリエンプションの対象である必要があります。
When a heterogeneous job is to be preempted the first identified component of the job with the highest order PreemptMode (SUSPEND (highest), REQUEUE, CANCEL (lowest)) will be used to set the PreemptMode for all components.
異種ジョブがプリエンプトされる場合、ジョブの最初に識別されたコンポーネントで、最高次のPreemptMode(SUSPEND(最高)、REQUEUE、CANCEL(最低))が使用され、すべてのコンポーネントのPreemptModeが設定されます。
The GraceTime and user warning signal for each component of the heterogeneous job remain unique.
異種ジョブの各コンポーネントのGraceTimeおよびユーザー警告シグナルは一意のままです。
-
- OFF
-
Is the default value and disables job preemption and gang scheduling.
デフォルト値であり、ジョブのプリエンプションとギャングスケジューリングを無効にします。
It is only compatible with PreemptType=preempt/none.
PreemptType = preempt / noneとのみ互換性があります。
- CANCEL
-
The preempted job will be cancelled.
プリエンプトされたジョブはキャンセルされます。
- GANG
-
Enables gang scheduling (time slicing) of jobs in the same partition, and
allows the resuming of suspended jobs.
同じパーティション内のジョブのギャングスケジューリング(タイムスライス)を有効にし、中断されたジョブの再開を許可します。
NOTE: Gang scheduling is performed independently for each partition, so if you only want time-slicing by OverSubscribe, without any preemption, then configuring partitions with overlapping nodes is not recommended.
ギャングスケジューリングはパーティションごとに個別に実行されるため、プリエンプションなしでOverSubscribeによるタイムスライスのみが必要な場合は、ノードが重複するパーティションを構成することはお勧めしません。
On the other hand, if you want to use PreemptType=preempt/partition_prio to allow jobs from higher PriorityTier partitions to Suspend jobs from lower PriorityTier partitions you will need overlapping partitions, and PreemptMode=SUSPEND,GANG to use the Gang scheduler to resume the suspended jobs(s).
一方、PreemptType = preempt / partition_prioを使用して、優先度の高いパーティションからのジョブを優先度の低いパーティションからのジョブを一時停止できるようにする場合は、パーティションをオーバーラップさせる必要があります。PreemptMode= SUSPEND、GANGを使用して、ギャングスケジューラを使用して一時停止を再開します。ジョブ。
In any case, time-slicing won't happen between jobs on different partitions.
いずれの場合も、異なるパーティション上のジョブ間でタイムスライスは発生しません。
- REQUEUE
-
Preempts jobs by requeuing them (if possible) or canceling them.
ジョブを再キューイング(可能な場合)またはキャンセルすることにより、ジョブをプリエンプトします。
For jobs to be requeued they must have the --requeue sbatch option set or the cluster wide JobRequeue parameter in slurm.conf must be set to one.
ジョブを再キューイングするには、-requeue sbatchオプションを設定するか、slurm.confのクラスター全体のJobRequeueパラメーターを1に設定する必要があります。
- SUSPEND
-
The preempted jobs will be suspended, and later the Gang scheduler will resume
them.
プリエンプトされたジョブは一時停止され、後でギャングスケジューラがジョブを再開します。
Therefore the SUSPEND preemption mode always needs the GANG option to be specified at the cluster level.
したがって、SUSPENDプリエンプションモードでは、常にGANGオプションをクラスターレベルで指定する必要があります。
Also, because the suspended jobs will still use memory on the allocated nodes, Slurm needs to be able to track memory resources to be able to suspend jobs.
また、中断されたジョブは割り当てられたノードのメモリを引き続き使用するため、Slurmは、ジョブを中断できるようにメモリリソースを追跡できる必要があります。
NOTE: Because gang scheduling is performed independently for each partition, if using PreemptType=preempt/partition_prio then jobs in higher PriorityTier partitions will suspend jobs in lower PriorityTier partitions to run on the released resources.
注:ギャングスケジューリングはパーティションごとに個別に実行されるため、PreemptType = preempt / partition_prioを使用すると、PriorityTierの高いパーティションのジョブは、解放されたリソースで実行するためにPriorityTierの低いパーティションのジョブを一時停止します。
Only when the preemptor job ends will the suspended jobs will be resumed by the Gang scheduler.
プリエンプタージョブが終了した場合にのみ、中断されたジョブがギャングスケジューラによって再開されます。
If PreemptType=preempt/qos is configured and if the preempted job(s) and the preemptor job are on the same partition, then they will share resources with the Gang scheduler (time-slicing).
PreemptType = preempt / qosが構成されていて、プリエンプトされたジョブとプリエンプタージョブが同じパーティション上にある場合、それらはギャングスケジューラーとリソースを共有します(タイムスライス)。
If not (i.e. if the preemptees and preemptor are on different partitions) then the preempted jobs will remain suspended until the preemptor ends.
そうでない場合(つまり、プリエンプティとプリエンプターが異なるパーティションにある場合)、プリエンプトされたジョブは、プリエンプターが終了するまで中断されたままになります。
-
- PreemptType
-
Specifies the plugin used to identify which jobs can be
preempted in order to start a pending job.
保留中のジョブを開始するためにプリエンプトできるジョブを識別するために使用されるプラグインを指定します。
-
- preempt/none
-
Job preemption is disabled.
ジョブのプリエンプションは無効になっています。
This is the default.
これがデフォルトです。
- preempt/partition_prio
-
Job preemption is based upon partition PriorityTier.
ジョブのプリエンプションは、パーティションPriorityTierに基づいています。
Jobs in higher PriorityTier partitions may preempt jobs from lower PriorityTier partitions.
PriorityTierの高いパーティションのジョブは、PriorityTierの低いパーティションからジョブをプリエンプトする場合があります。
This is not compatible with PreemptMode=OFF.
これはPreemptMode = OFFと互換性がありません。
- preempt/qos
-
Job preemption rules are specified by Quality Of Service (QOS) specifications
in the Slurm database.
ジョブプリエンプションルールは、SlurmデータベースのQuality Of Service(QOS)仕様によって指定されます。
This option is not compatible with PreemptMode=OFF.
このオプションは、PreemptMode = OFFと互換性がありません。
A configuration of PreemptMode=SUSPEND is only supported by the SelectType=select/cons_res and SelectType=select/cons_tres plugins.
PreemptMode = SUSPENDの構成は、SelectType = select / cons_resおよびSelectType = select / cons_tresプラグインでのみサポートされます。
See the sacctmgr man page to configure the options for preempt/qos.
preempt / qosのオプションを設定するには、sacctmgrのマニュアルページを参照してください。
-
- PreemptExemptTime
-
Global option for minimum run time for all jobs before they can be considered
for preemption.
プリエンプションの対象となる前のすべてのジョブの最小実行時間のグローバルオプション。
Any QOS PreemptExemptTime takes precedence over the global option.
QOS PreemptExemptTimeは、グローバルオプションよりも優先されます。
A time of -1 disables the option, equivalent to 0.
-1の時間は、0に相当するオプションを無効にします。
Acceptable time formats include "minutes", "minutes:seconds", "hours:minutes:seconds", "days-hours", "days-hours:minutes", and "days-hours:minutes:seconds".
使用可能な時間形式には、「分」、「分:秒」、「時:分:秒」、「日-時」、「日-時:分」、および「日-時:分:秒」があります。
- PriorityCalcPeriod
- The period of time in minutes in which the half-life decay will be re-calculated. Applicable only if PriorityType=priority/multifactor. The default value is 5 (minutes).
- PriorityDecayHalfLife
-
This controls how long prior resource use is considered in determining
how over- or under-serviced an association is (user, bank account and
cluster) in determining job priority.
これは、ジョブの優先度を決定する際に、アソシエーション(ユーザー、銀行口座、およびクラスター)のサービスが過剰または不足しているかどうかを判断する際に、以前のリソース使用が考慮される期間を制御します。
The record of usage will be decayed over time, with half of the original value cleared at age PriorityDecayHalfLife.
使用量の記録は時間の経過とともに減衰し、PriorityDecayHalfLifeの年齢で元の値の半分がクリアされます。
If set to 0 no decay will be applied.
0に設定すると、減衰は適用されません。
This is helpful if you want to enforce hard time limits per association.
これは、アソシエーションごとにハードタイム制限を適用する場合に役立ちます。
If set to 0 PriorityUsageResetPeriod must be set to some interval.
0に設定する場合、PriorityUsageResetPeriodを一定の間隔に設定する必要があります。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The unit is a time string (i.e. min, hr:min:00, days-hr:min:00, or days-hr).
単位は時間文字列です(つまり、min、hr:min:00、days-hr:min:00、またはdays-hr)。
The default value is 7-0 (7 days).
デフォルト値は7-0(7日)です。
- PriorityFavorSmall
-
Specifies that small jobs should be given preferential scheduling priority.
小さなジョブに優先的なスケジューリングの優先順位を与える必要があることを指定します。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
Supported values are "YES" and "NO".
サポートされている値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- PriorityFlags
-
Flags to modify priority behavior.
優先動作を変更するためのフラグ。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The keywords below have no associated value (e.g. "PriorityFlags=ACCRUE_ALWAYS,SMALL_RELATIVE_TO_TIME").
以下のキーワードには関連する値はありません(例:「PriorityFlags = ACCRUE_ALWAYS、SMALL_RELATIVE_TO_TIME」)。
-
- ACCRUE_ALWAYS
-
If set, priority age factor will be increased despite job dependencies
or holds.
設定すると、ジョブの依存関係や保留に関係なく、優先年齢係数が増加します。
- CALCULATE_RUNNING
-
If set, priorities will be recalculated not only for pending jobs, but also
running and suspended jobs.
設定されている場合、優先順位は保留中のジョブだけでなく、実行中および一時停止中のジョブについても再計算されます。
- DEPTH_OBLIVIOUS
-
If set, priority will be calculated based similar to the normal multifactor
calculation, but depth of the associations in the tree do not adversely effect
their priority.
設定されている場合、優先度は通常の多因子計算と同様に計算されますが、ツリー内の関連付けの深さが優先度に悪影響を与えることはありません。
This option automatically enables NO_FAIR_TREE.
このオプションは、NO_FAIR_TREEを自動的に有効にします。
- NO_FAIR_TREE
-
Disables the "fair tree" algorithm, and reverts to "classic" fair share
priority scheduling.
「フェアツリー」アルゴリズムを無効にし、「クラシック」フェアシェア優先順位スケジューリングに戻します。
- INCR_ONLY
-
If set, priority values will only increase in value.
設定されている場合、優先度の値は値が増加するだけです。
Job priority will never decrease in value.
仕事の優先順位が下がることはありません。
- MAX_TRES
-
If set, the weighted TRES value (e.g. TRESBillingWeights) is calculated as the
MAX of individual TRES' on a node (e.g. cpus, mem, gres) plus the sum of all
global TRES' (e.g. licenses).
設定されている場合、加重TRES値(例:TRESBillingWeights)は、ノード(例:cpus、mem、gres)上の個々のTRESの最大値にすべてのグローバルTRES(例:ライセンス)の合計を加えたものとして計算されます。
- NO_NORMAL_ALL
-
If set, all NO_NORMAL_* flags are set.
設定すると、すべてのNO_NORMAL_ *フラグが設定されます。
- NO_NORMAL_ASSOC
-
If set, the association factor is not normalized against the highest association
priority.
設定されている場合、アソシエーション係数は最高のアソシエーション優先度に対して正規化されません。
- NO_NORMAL_PART
-
If set, the partition factor is not normalized against the highest partition
PriorityTier.
設定されている場合、パーティション係数は最高のパーティションPriorityTierに対して正規化されません。
- NO_NORMAL_QOS
-
If set, the QOS factor is not normalized against the highest qos priority.
設定されている場合、QOS係数は最高のqos優先度に対して正規化されません。
- NO_NORMAL_TRES
-
If set, the QOS factor is not normalized against the job's partition TRES
counts.
設定されている場合、QOS係数はジョブのパーティションTRESカウントに対して正規化されません。
- SMALL_RELATIVE_TO_TIME
-
If set, the job's size component will be based upon not the job size alone, but
the job's size divided by its time limit.
設定されている場合、ジョブのサイズコンポーネントは、ジョブサイズだけではなく、ジョブのサイズを制限時間で割った値に基づきます。
-
- PriorityMaxAge
-
Specifies the job age which will be given the maximum age factor in computing
priority.
計算の優先順位で最大年齢係数が与えられるジョブ年齢を指定します。
For example, a value of 30 minutes would result in all jobs over 30 minutes old would get the same age-based priority.
たとえば、値が30分であると、30分を超えるすべてのジョブが同じ年齢ベースの優先度を取得します。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The unit is a time string (i.e. min, hr:min:00, days-hr:min:00, or days-hr).
単位は時間文字列です(つまり、min、hr:min:00、days-hr:min:00、またはdays-hr)。
The default value is 7-0 (7 days).
デフォルト値は7-0(7日)です。
- PriorityParameters
-
Arbitrary string used by the PriorityType plugin.
PriorityTypeプラグインによって使用される任意の文字列。
- PrioritySiteFactorParameters
-
Arbitrary string used by the PrioritySiteFactorPlugin plugin.
PrioritySiteFactorPluginプラグインによって使用される任意の文字列。
- PrioritySiteFactorPlugin
-
The specifies an optional plugin to be used alongside "priority/multifactor",
which is meant to initially set and continuously update the SiteFactor
priority factor.
は、「priority / multifactor」と一緒に使用するオプションのプラグインを指定します。これは、SiteFactor優先度係数を最初に設定して継続的に更新することを目的としています。
The default value is "site_factor/none".
デフォルト値は「site_factor / none」です。
- PriorityType
-
This specifies the plugin to be used in establishing a job's scheduling
priority.
これは、ジョブのスケジューリング優先順位を確立する際に使用されるプラグインを指定します。
Supported values are "priority/basic" (jobs are prioritized by order of arrival), "priority/multifactor" (jobs are prioritized based upon size, age, fair-share of allocation, etc).
サポートされている値は、「priority / basic」(ジョブは到着順に優先されます)、「priority / multifactor」(ジョブはサイズ、年齢、割り当ての公平なシェアなどに基づいて優先されます)です。
Also see PriorityFlags for configuration options.
構成オプションについては、PriorityFlagsも参照してください。
The default value is "priority/basic".
デフォルト値は「priority / basic」です。
-
When not FIFO scheduling, jobs are prioritized in the following order:
FIFOスケジューリングでない場合、ジョブは次の順序で優先されます。
1. Jobs that can preempt
1.先取りできる仕事
2. Jobs with an advanced reservation
2.事前予約のある仕事
3. Partition Priority Tier
3.パーティション優先順位
4. Job Priority
4.仕事の優先順位
5. Job Id
5.ジョブID
-
When not FIFO scheduling, jobs are prioritized in the following order:
- PriorityUsageResetPeriod
-
At this interval the usage of associations will be reset to 0.
この間隔で、アソシエーションの使用は0にリセットされます。
This is used if you want to enforce hard limits of time usage per association.
これは、アソシエーションごとの使用時間の厳しい制限を適用する場合に使用されます。
If PriorityDecayHalfLife is set to be 0 no decay will happen and this is the only way to reset the usage accumulated by running jobs.
PriorityDecayHalfLifeが0に設定されている場合、減衰は発生せず、これがジョブの実行によって蓄積された使用量をリセットする唯一の方法です。
By default this is turned off and it is advised to use the PriorityDecayHalfLife option to avoid not having anything running on your cluster, but if your schema is set up to only allow certain amounts of time on your system this is the way to do it.
デフォルトではこれはオフになっており、クラスターで何も実行されないようにPriorityDecayHalfLifeオプションを使用することをお勧めしますが、スキーマがシステムで特定の時間のみを許可するように設定されている場合は、これがその方法です。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
-
- NONE
-
Never clear historic usage.
歴史的な使用法を決してクリアしないでください。
The default value.
デフォルト値。
- NOW
-
Clear the historic usage now.
今すぐ歴史的な使用法をクリアしてください。
Executed at startup and reconfiguration time.
起動時および再構成時に実行されます。
- DAILY
-
Cleared every day at midnight.
毎日深夜にクリアされました。
- WEEKLY
-
Cleared every week on Sunday at time 00:00.
毎週日曜日の00:00にクリアされます。
- MONTHLY
-
Cleared on the first day of each month at time 00:00.
毎月1日の00:00にクリアされます。
- QUARTERLY
-
Cleared on the first day of each quarter at time 00:00.
各四半期の初日の00:00にクリアされます。
- YEARLY
-
Cleared on the first day of each year at time 00:00.
毎年1日の00:00にクリアされます。
-
- PriorityWeightAge
-
An integer value that sets the degree to which the queue wait time
component contributes to the job's priority.
キュー待機時間コンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightAssoc
-
An integer value that sets the degree to which the association
component contributes to the job's priority.
アソシエーションコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightFairshare
-
An integer value that sets the degree to which the fair-share
component contributes to the job's priority.
フェアシェアコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightJobSize
-
An integer value that sets the degree to which the job size
component contributes to the job's priority.
ジョブサイズコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightPartition
-
Partition factor used by priority/multifactor plugin in calculating job priority.
ジョブの優先度を計算する際にpriority / multifactorプラグインによって使用されるパーティション係数。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightQOS
-
An integer value that sets the degree to which the Quality Of Service
component contributes to the job's priority.
Quality OfServiceコンポーネントがジョブの優先度に寄与する度合いを設定する整数値。
Applicable only if PriorityType=priority/multifactor.
PriorityType = priority / multifactorの場合にのみ適用されます。
The default value is 0.
デフォルト値は0です。
- PriorityWeightTRES
-
A comma separated list of TRES Types and weights that sets the degree that each
TRES Type contributes to the job's priority.
各TRESタイプがジョブの優先度に寄与する度合いを設定するTRESタイプと重みのコンマ区切りのリスト。
e.g. PriorityWeightTRES=CPU=1000,Mem=2000,GRES/gpu=3000
Applicable only if PriorityType=priority/multifactor and if AccountingStorageTRES is configured with each TRES Type.
PriorityType = priority / multifactorの場合、およびAccountingStorageTRESが各TRESタイプで構成されている場合にのみ適用されます。
Negative values are allowed.
負の値が許可されます。
The default values are 0.
デフォルト値は0です。
- PrivateData
-
This controls what type of information is hidden from regular users.
これは、通常のユーザーから非表示にする情報の種類を制御します。
By default, all information is visible to all users.
デフォルトでは、すべての情報がすべてのユーザーに表示されます。
User SlurmUser and root can always view all information.
ユーザーSlurmUserとrootは、いつでもすべての情報を表示できます。
Multiple values may be specified with a comma separator.
複数の値をコンマ区切り文字で指定できます。
Acceptable values include:
許容値は次のとおりです。
-
- accounts
-
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing any account
definitions unless they are coordinators of them.
(非SlurmDBDアカウンティングのみ)ユーザーがアカウント定義のコーディネーターでない限り、アカウント定義を表示できないようにします。
- cloud
-
Powered down nodes in the cloud are visible.
クラウド内の電源がオフになっているノードが表示されます。
- events
-
prevents users from viewing event information unless they have operator status
or above.
オペレーターのステータス以上でない限り、ユーザーがイベント情報を表示できないようにします。
- jobs
-
Prevents users from viewing jobs or job steps belonging
to other users.
ユーザーが他のユーザーに属するジョブまたはジョブステップを表示できないようにします。
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing job records belonging to other users unless they are coordinators of the association running the job when using sacct.
(非SlurmDBDアカウンティングのみ)sacctを使用するときに、ユーザーがジョブを実行しているアソシエーションのコーディネーターでない限り、ユーザーが他のユーザーに属するジョブレコードを表示できないようにします。
- nodes
-
Prevents users from viewing node state information.
ユーザーがノードの状態情報を表示できないようにします。
- partitions
-
Prevents users from viewing partition state information.
ユーザーがパーティションの状態情報を表示できないようにします。
- reservations
-
Prevents regular users from viewing reservations which they can not use.
通常のユーザーが使用できない予約を表示できないようにします。
- usage
-
Prevents users from viewing usage of any other user, this applies to sshare.
ユーザーが他のユーザーの使用状況を表示できないようにします。これはsshareに適用されます。
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing usage of any other user, this applies to sreport.
(非SlurmDBDアカウンティングのみ)ユーザーが他のユーザーの使用状況を表示できないようにします。これはsreportに適用されます。
- users
-
(NON-SlurmDBD ACCOUNTING ONLY) Prevents users from viewing
information of any user other than themselves, this also makes it so users can
only see associations they deal with.
(非SlurmDBDアカウンティングのみ)ユーザーが自分以外のユーザーの情報を表示できないようにします。これにより、ユーザーは自分が扱っている関連付けのみを表示できるようになります。
Coordinators can see associations of all users in the account they are coordinator of, but can only see themselves when listing users.
コーディネーターは、コーディネーターであるアカウント内のすべてのユーザーの関連付けを確認できますが、ユーザーを一覧表示するときにのみ自分自身を確認できます。
-
- ProctrackType
-
Identifies the plugin to be used for process tracking on a job step basis.
ジョブステップベースでプロセス追跡に使用されるプラグインを識別します。
The slurmd daemon uses this mechanism to identify all processes which are children of processes it spawns for a user job step.
slurmdデーモンは、このメカニズムを使用して、ユーザージョブステップ用に生成するプロセスの子であるすべてのプロセスを識別します。
The slurmd daemon must be restarted for a change in ProctrackType to take effect.
ProctrackTypeの変更を有効にするには、slurmdデーモンを再起動する必要があります。
NOTE: "proctrack/linuxproc" and "proctrack/pgid" can fail to identify all processes associated with a job since processes can become a child of the init process (when the parent process terminates) or change their process group.
注:「proctrack / linuxproc」および「proctrack / pgid」は、プロセスがinitプロセスの子になる(親プロセスが終了する)か、プロセスグループを変更する可能性があるため、ジョブに関連付けられているすべてのプロセスを識別できない場合があります。
To reliably track all processes, "proctrack/cgroup" is highly recommended.
すべてのプロセスを確実に追跡するには、「proctrack / cgroup」を強くお勧めします。
NOTE: The JobContainerType applies to a job allocation, while ProctrackType applies to job steps.
注:JobContainerTypeはジョブ割り当てに適用され、ProctrackTypeはジョブステップに適用されます。
Acceptable values at present include:
現在許容される値は次のとおりです。
-
- proctrack/cgroup
-
which uses linux cgroups to constrain and track processes, and is the default.
これは、Linux cgroupを使用してプロセスを制約および追跡し、デフォルトです。
NOTE: see "man cgroup.conf" for configuration details
注:構成の詳細については、「mancgroup.conf」を参照してください。
- proctrack/cray_aries
-
which uses Cray proprietary process tracking
Cray独自のプロセス追跡を使用します
- proctrack/linuxproc
-
which uses linux process tree using parent process IDs.
これは、親プロセスIDを使用するLinuxプロセスツリーを使用します。
- proctrack/pgid
-
which uses process group IDs
プロセスグループIDを使用します
-
- Prolog
-
Fully qualified pathname of a program for the slurmd to execute
whenever it is asked to run a job step from a new job allocation (e.g.
"/usr/local/slurm/prolog").
新しいジョブ割り当てからジョブステップを実行するように要求されたときにslurmdが実行するプログラムの完全修飾パス名(「/ usr / local / slurm / prolog」など)。
A glob pattern (See glob (7)) may also be used to specify more than one program to run (e.g. "/etc/slurm/prolog.d/*").
グロブパターン(グロブ(7)を参照)を使用して、実行する複数のプログラムを指定することもできます(例:「/ etc / slurm / prolog.d / *」)。
The slurmd executes the prolog before starting the first job step.
slurmdは、最初のジョブステップを開始する前にプロローグを実行します。
The prolog script or scripts may be used to purge files, enable user login, etc.
1つまたは複数のプロローグスクリプトを使用して、ファイルをパージしたり、ユーザーログインを有効にしたりすることができます。
By default there is no prolog.
デフォルトでは、プロローグはありません。
Any configured script is expected to complete execution quickly (in less time than MessageTimeout).
構成されたスクリプトはすべて、(MessageTimeoutよりも短い時間で)迅速に実行を完了することが期待されます。
If the prolog fails (returns a non-zero exit code), this will result in the node being set to a DRAIN state and the job being requeued in a held state, unless nohold_on_prolog_fail is configured in SchedulerParameters.
プロローグが失敗した場合(ゼロ以外の終了コードを返す場合)、SchedulerParametersでnohold_on_prolog_failが構成されていない限り、ノードはDRAIN状態に設定され、ジョブは保留状態で再キューイングされます。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- PrologEpilogTimeout
-
The interval in seconds Slurms waits for Prolog and Epilog before terminating
them.
SlurmsがPrologとEpilogを終了する前に待機する秒単位の間隔。
The default behavior is to wait indefinitely.
デフォルトの動作では、無期限に待機します。
This interval applies to the Prolog and Epilog run by slurmd daemon before and after the job, the PrologSlurmctld and EpilogSlurmctld run by slurmctld daemon, and the SPANK plugins run by the slurmstepd daemon.
この間隔は、ジョブの前後にslurmdデーモンによって実行されるPrologおよびEpilog、slurmctldデーモンによって実行されるPrologSlurmctldおよびEpilogSlurmctld、およびslurmstepdデーモンによって実行されるSPANKプラグインに適用されます。
- PrologFlags
-
Flags to control the Prolog behavior.
Prologの動作を制御するためのフラグ。
By default no flags are set.
デフォルトでは、フラグは設定されていません。
Multiple flags may be specified in a comma-separated list.
複数のフラグをコンマ区切りのリストで指定できます。
Currently supported options are:-
- Alloc
-
If set, the Prolog script will be executed at job allocation.
設定されている場合、Prologスクリプトはジョブ割り当て時に実行されます。
By default, Prolog is executed just before the task is launched.
デフォルトでは、Prologはタスクが起動される直前に実行されます。
Therefore, when salloc is started, no Prolog is executed.
したがって、sallocが開始されると、Prologは実行されません。
Alloc is useful for preparing things before a user starts to use any allocated resources.
Allocは、ユーザーが割り当てられたリソースの使用を開始する前に準備するのに役立ちます。
In particular, this flag is needed on a Cray system when cluster compatibility mode is enabled.
特に、このフラグは、クラスター互換モードが有効になっているCrayシステムで必要です。
NOTE: Use of the Alloc flag will increase the time required to start jobs.
注:Allocフラグを使用すると、ジョブの開始に必要な時間が長くなります。
- Contain
-
At job allocation time, use the ProcTrack plugin to create a job container
on all allocated compute nodes.
ジョブの割り当て時に、ProcTrackプラグインを使用して、割り当てられたすべての計算ノードにジョブコンテナを作成します。
This container may be used for user processes not launched under Slurm control, for example pam_slurm_adopt may place processes launched through a direct user login into this container.
このコンテナーは、Slurmの制御下で起動されないユーザープロセスに使用できます。たとえば、pam_slurm_adoptは、ユーザーの直接ログインによって起動されたプロセスをこのコンテナーに配置できます。
If using pam_slurm_adopt, then ProcTrackType must be set to either proctrack/cgroup or proctrack/cray_aries.
pam_slurm_adoptを使用する場合は、ProcTrackTypeをproctrack / cgroupまたはproctrack / cray_ariesのいずれかに設定する必要があります。
Setting the Contain implicitly sets the Alloc flag.
Containを設定すると、暗黙的にAllocフラグが設定されます。
- NoHold
-
If set, the Alloc flag should also be set.
設定されている場合は、Allocフラグも設定する必要があります。
This will allow for salloc to not block until the prolog is finished on each node.
これにより、各ノードでプロローグが終了するまでsallocがブロックされないようになります。
The blocking will happen when steps reach the slurmd and before any execution has happened in the step.
ブロッキングは、ステップがslurmdに到達したとき、およびステップで実行が行われる前に発生します。
This is a much faster way to work and if using srun to launch your tasks you should use this flag.
これははるかに高速な作業方法であり、srunを使用してタスクを起動する場合は、このフラグを使用する必要があります。
This flag cannot be combined with the Contain or X11 flags.
このフラグは、ContainフラグまたはX11フラグと組み合わせることはできません。
- Serial
-
By default, the Prolog and Epilog scripts run concurrently on each node.
デフォルトでは、PrologスクリプトとEpilogスクリプトは各ノードで同時に実行されます。
This flag forces those scripts to run serially within each node, but with a significant penalty to job throughput on each node.
このフラグは、これらのスクリプトを各ノード内でシリアルに実行するように強制しますが、各ノードのジョブスループットに大きなペナルティがあります。
- X11
-
Enable Slurm's built-in X11 forwarding capabilities.
Slurmの組み込みX11転送機能を有効にします。
This is incompatible with ProctrackType=proctrack/linuxproc.
これは、ProctrackType = proctrack / linuxprocと互換性がありません。
Setting the X11 flag implicitly enables both Contain and Alloc flags as well.
X11フラグを設定すると、ContainフラグとAllocフラグの両方が暗黙的に有効になります。
-
- PrologSlurmctld
-
Fully qualified pathname of a program for the slurmctld daemon to execute
before granting a new job allocation (e.g.
"/usr/local/slurm/prolog_controller").
新しいジョブ割り当てを許可する前にslurmctldデーモンが実行するプログラムの完全修飾パス名(例:「/ usr / local / slurm / prolog_controller」)。
The program executes as SlurmUser on the same node where the slurmctld daemon executes, giving it permission to drain nodes and requeue the job if a failure occurs or cancel the job if appropriate.
プログラムは、slurmctldデーモンが実行されるのと同じノードでSlurmUserとして実行され、障害が発生した場合にノードをドレインしてジョブを再キューイングするか、必要に応じてジョブをキャンセルする権限を与えます。
The program can be used to reboot nodes or perform other work to prepare resources for use.
このプログラムを使用して、ノードを再起動したり、使用するリソースを準備するための他の作業を実行したりできます。
Exactly what the program does and how it accomplishes this is completely at the discretion of the system administrator.
プログラムが何をし、どのようにこれを達成するかは、完全にシステム管理者の裁量に委ねられています。
Information about the job being initiated, its allocated nodes, etc. are passed to the program using environment variables.
開始されているジョブ、割り当てられているノードなどに関する情報は、環境変数を使用してプログラムに渡されます。
While this program is running, the nodes associated with the job will be have a POWER_UP/CONFIGURING flag set in their state, which can be readily viewed.
このプログラムの実行中、ジョブに関連付けられているノードの状態はPOWER_UP / CONFIGURINGフラグに設定されており、簡単に確認できます。
The slurmctld daemon will wait indefinitely for this program to complete.
slurmctldデーモンは、このプログラムが完了するまで無期限に待機します。
Once the program completes with an exit code of zero, the nodes will be considered ready for use and the program will be started.
プログラムがゼロの終了コードで完了すると、ノードは使用可能であると見なされ、プログラムが開始されます。
If some node can not be made available for use, the program should drain the node (typically using the scontrol command) and terminate with a non-zero exit code.
一部のノードを使用可能にできない場合、プログラムはノードをドレインし(通常はscontrolコマンドを使用)、ゼロ以外の終了コードで終了する必要があります。
A non-zero exit code will result in the job being requeued (where possible) or killed.
ゼロ以外の終了コードは、ジョブが再キューイングされるか(可能な場合)、強制終了されます。
Note that only batch jobs can be requeued.
再キューイングできるのはバッチジョブのみであることに注意してください。
See Prolog and Epilog Scripts for more information.
詳細については、PrologおよびEpilogスクリプトを参照してください。
- PropagatePrioProcess
-
Controls the scheduling priority (nice value) of user spawned tasks.
ユーザーが生成したタスクのスケジューリング優先度(適切な値)を制御します。
-
- 0
-
The tasks will inherit the scheduling priority from the slurm daemon.
タスクは、slurmデーモンからスケジューリングの優先順位を継承します。
This is the default value.
これがデフォルト値です。
- 1
-
The tasks will inherit the scheduling priority of the command used to
submit them (e.g. srun or sbatch).
タスクは、それらを送信するために使用されるコマンドのスケジューリング優先度を継承します(例:srunまたはsbatch)。
Unless the job is submitted by user root, the tasks will have a scheduling priority no higher than the slurm daemon spawning them.
ジョブがユーザーrootによって送信されない限り、タスクは、それらを生成するslurmデーモンよりも高くないスケジューリング優先順位を持ちます。
- 2
-
The tasks will inherit the scheduling priority of the command used to
submit them (e.g. srun or sbatch) with the restriction that
their nice value will always be one higher than the slurm daemon (i.e.
the tasks scheduling priority will be lower than the slurm daemon).
タスクは、それらを送信するために使用されるコマンド(srunやsbatchなど)のスケジューリング優先度を継承しますが、nice値は常にslurmデーモンよりも1つ高くなります(つまり、タスクのスケジューリング優先度はslurmデーモンよりも低くなります)。 。
-
- PropagateResourceLimits
-
A list of comma separated resource limit names.
コンマで区切られたリソース制限名のリスト。
The slurmd daemon uses these names to obtain the associated (soft) limit values from the user's process environment on the submit node.
slurmdデーモンはこれらの名前を使用して、送信ノード上のユーザーのプロセス環境から関連する(ソフト)制限値を取得します。
These limits are then propagated and applied to the jobs that will run on the compute nodes.
次に、これらの制限が伝播され、計算ノードで実行されるジョブに適用されます。
This parameter can be useful when system limits vary among nodes.
このパラメーターは、システム制限がノード間で異なる場合に役立ちます。
Any resource limits that do not appear in the list are not propagated.
リストに表示されないリソース制限は伝播されません。
However, the user can override this by specifying which resource limits to propagate with the sbatch or srun "--propagate" option.
ただし、ユーザーは、sbatchまたはsrunの「--propagate」オプションを使用して伝播するリソース制限を指定することにより、これをオーバーライドできます。
If neither PropagateResourceLimits or PropagateResourceLimitsExcept are configured and the "--propagate" option is not specified, then the default action is to propagate all limits.
PropagateResourceLimitsもPropagateResourceLimitsExceptも構成されておらず、「-propagate」オプションが指定されていない場合、デフォルトのアクションはすべての制限を伝播することです。
Only one of the parameters, either PropagateResourceLimits or PropagateResourceLimitsExcept, may be specified.
指定できるパラメーターは、PropagateResourceLimitsまたはPropagateResourceLimitsExceptのいずれか1つだけです。
The user limits can not exceed hard limits under which the slurmd daemon operates.
ユーザー制限は、slurmdデーモンが動作するハード制限を超えることはできません。
If the user limits are not propagated, the limits from the slurmd daemon will be propagated to the user's job.
ユーザー制限が伝播されない場合、slurmdデーモンからの制限がユーザーのジョブに伝播されます。
The limits used for the Slurm daemons can be set in the /etc/sysconf/slurm file.
Slurmデーモンに使用される制限は、/ etc / sysconf / slurmファイルで設定できます。
For more information, see: https://slurm.schedmd.com/faq.html#memlock The following limit names are supported by Slurm (although some options may not be supported on some systems):
詳細については、https://slurm.schedmd.com/faq.html#memlockを参照してください。Slurmでは次の制限名がサポートされています(ただし、一部のオプションは一部のシステムではサポートされていない場合があります)。
-
- ALL
-
All limits listed below (default)
以下にリストされているすべての制限(デフォルト)
- NONE
-
No limits listed below
以下にリストされている制限はありません
- AS
-
The maximum address space for a process
プロセスの最大アドレス空間
- CORE
-
The maximum size of core file
コアファイルの最大サイズ
- CPU
-
The maximum amount of CPU time
CPU時間の最大量
- DATA
-
The maximum size of a process's data segment
プロセスのデータセグメントの最大サイズ
- FSIZE
-
The maximum size of files created.
作成されるファイルの最大サイズ。
Note that if the user sets FSIZE to less than the current size of the slurmd.log, job launches will fail with a 'File size limit exceeded' error.
ユーザーがFSIZEをslurmd.logの現在のサイズよりも小さく設定すると、ジョブの起動が失敗し、「ファイルサイズの制限を超えました」というエラーが発生することに注意してください。
- MEMLOCK
-
The maximum size that may be locked into memory
メモリにロックされる可能性のある最大サイズ
- NOFILE
-
The maximum number of open files
開いているファイルの最大数
- NPROC
-
The maximum number of processes available
利用可能なプロセスの最大数
- RSS
-
The maximum resident set size
常駐セットの最大サイズ
- STACK
-
The maximum stack size
最大スタックサイズ
-
- PropagateResourceLimitsExcept
-
A list of comma separated resource limit names.
コンマで区切られたリソース制限名のリスト。
By default, all resource limits will be propagated, (as described by the PropagateResourceLimits parameter), except for the limits appearing in this list.
デフォルトでは、このリストに表示される制限を除いて、すべてのリソース制限が伝播されます(PropagateResourceLimitsパラメーターで説明されています)。
The user can override this by specifying which resource limits to propagate with the sbatch or srun "--propagate" option.
ユーザーは、sbatchまたはsrunの「--propagate」オプションを使用して伝播するリソース制限を指定することにより、これをオーバーライドできます。
See PropagateResourceLimits above for a list of valid limit names.
有効な制限名のリストについては、上記のPropagateResourceLimitsを参照してください。
- RebootProgram
-
Program to be executed on each compute node to reboot it.
再起動するために各計算ノードで実行されるプログラム。
Invoked on each node once it becomes idle after the command "scontrol reboot_nodes" is executed by an authorized user or a job is submitted with the "--reboot" option.
コマンド「scontrolreboot_nodes」が許可されたユーザーによって実行された後、またはジョブが「--reboot」オプションで送信された後、アイドル状態になると、各ノードで呼び出されます。
After rebooting, the node is returned to normal use.
再起動後、ノードは通常の使用に戻ります。
See ResumeTimeout to configure the time you expect a reboot to finish in.
再起動が完了すると予想される時間を設定するには、ResumeTimeoutを参照してください。
A node will be marked DOWN if it doesn't reboot within ResumeTimeout.
ResumeTimeout内に再起動しない場合、ノードはDOWNとマークされます。
- ReconfigFlags
-
Flags to control various actions that may be taken when an "scontrol
reconfig" command is issued.
「scontrolreconfig」コマンドが発行されたときに実行される可能性のあるさまざまなアクションを制御するためのフラグ。
Currently the options are:
現在のオプションは次のとおりです。
-
- KeepPartInfo
-
If set, an "scontrol reconfig" command will maintain the in-memory
value of partition "state" and other parameters that may have been
dynamically updated by "scontrol update".
設定されている場合、「scontrol reconfig」コマンドは、パーティション「state」のメモリ内の値と、「scontrolupdate」によって動的に更新された可能性のあるその他のパラメータを維持します。
Partition information in the slurm.conf file will be merged with in-memory data.
slurm.confファイルのパーティション情報はメモリ内データとマージされます。
This flag supersedes the KeepPartState flag.
このフラグは、KeepPartStateフラグに優先します。
- KeepPartState
-
If set, an "scontrol reconfig" command will preserve only the current
"state" value of in-memory partitions and will reset all other
parameters of the partitions that may have been dynamically updated by
"scontrol update" to the values from the slurm.conf file.
設定されている場合、「scontrol reconfig」コマンドは、メモリ内パーティションの現在の「状態」値のみを保持し、「scontrolupdate」によって動的に更新された可能性のあるパーティションの他のすべてのパラメータをslurmの値にリセットします。 confファイル。
Partition information in the slurm.conf file will be merged with in-memory data.
slurm.confファイルのパーティション情報はメモリ内データとマージされます。
-
The default for the above flags is not set, and the
"scontrol reconfig" will rebuild the partition information using only
the definitions in the slurm.conf file.
上記のフラグのデフォルトは設定されておらず、「scontrol reconfig」は、slurm.confファイルの定義のみを使用してパーティション情報を再構築します。
-
- RequeueExit
-
Enables automatic requeue for batch jobs which exit with the specified
values.
指定された値で終了するバッチジョブの自動再キューイングを有効にします。
Separate multiple exit code by a comma and/or specify numeric ranges using a "-" separator (e.g. "RequeueExit=1-9,18") Jobs will be put back in to pending state and later scheduled again.
複数の終了コードをコンマで区切るか、「-」区切り文字を使用して数値範囲を指定します(例:「RequeueExit = 1-9,18」)。ジョブは保留状態に戻され、後で再度スケジュールされます。
Restarted jobs will have the environment variable SLURM_RESTART_COUNT set to the number of times the job has been restarted.
再起動されたジョブでは、環境変数SLURM_RESTART_COUNTが、ジョブが再起動された回数に設定されます。
- RequeueExitHold
-
Enables automatic requeue for batch jobs which exit with the specified
values, with these jobs being held until released manually by the user.
指定された値で終了するバッチジョブの自動再キューイングを有効にします。これらのジョブは、ユーザーが手動で解放するまで保持されます。
Separate multiple exit code by a comma and/or specify numeric ranges using a "-" separator (e.g. "RequeueExitHold=10-12,16") These jobs are put in the JOB_SPECIAL_EXIT exit state.
複数の終了コードをコンマで区切るか、「-」区切り文字を使用して数値範囲を指定します(例:「RequeueExitHold = 10-12,16」)。これらのジョブは、JOB_SPECIAL_EXIT終了状態になります。
Restarted jobs will have the environment variable SLURM_RESTART_COUNT set to the number of times the job has been restarted.
再起動されたジョブでは、環境変数SLURM_RESTART_COUNTが、ジョブが再起動された回数に設定されます。
- ResumeFailProgram
-
The program that will be executed when nodes fail to resume to by
ResumeTimeout.
ResumeTimeoutによってノードの再開に失敗したときに実行されるプログラム。
The argument to the program will be the names of the failed nodes (using Slurm's hostlist expression format).
プログラムへの引数は、失敗したノードの名前になります(Slurmのホストリスト式形式を使用)。
- ResumeProgram
-
Slurm supports a mechanism to reduce power consumption on nodes that
remain idle for an extended period of time.
Slurmは、長期間アイドル状態のままであるノードの消費電力を削減するメカニズムをサポートしています。
This is typically accomplished by reducing voltage and frequency or powering the node down.
これは通常、電圧と周波数を下げるか、ノードの電源を切ることによって実現されます。
ResumeProgram is the program that will be executed when a node in power save mode is assigned work to perform.
ResumeProgramは、省電力モードのノードに実行する作業が割り当てられたときに実行されるプログラムです。
For reasons of reliability, ResumeProgram may execute more than once for a node when the slurmctld daemon crashes and is restarted.
信頼性の理由から、slurmctldデーモンがクラッシュして再起動すると、ResumeProgramがノードに対して複数回実行される場合があります。
If ResumeProgram is unable to restore a node to service with a responding slurmd and an updated BootTime, it should requeue any job associated with the node and set the node state to DOWN.
ResumeProgramが、応答するslurmdと更新されたBootTimeを使用してノードをサービスに復元できない場合、ノードに関連付けられているジョブを再キューイングし、ノードの状態をDOWNに設定する必要があります。
If the node isn't actually rebooted (i.e. when multiple-slurmd is configured) starting slurmd with "-b" option might be useful.
ノードが実際に再起動されない場合(つまり、multiple-slurmdが構成されている場合)、「-b」オプションを指定してslurmdを開始すると便利な場合があります。
The program executes as SlurmUser.
プログラムはSlurmUserとして実行されます。
The argument to the program will be the names of nodes to be removed from power savings mode (using Slurm's hostlist expression format).
プログラムへの引数は、省電力モードから削除されるノードの名前になります(Slurmのホストリスト式形式を使用)。
By default no program is run.
デフォルトでは、プログラムは実行されません。
Related configuration options include ResumeTimeout, ResumeRate, SuspendRate, SuspendTime, SuspendTimeout, SuspendProgram, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeRate、SuspendRate、SuspendTime、SuspendTimeout、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsが含まれます。
More information is available at the Slurm web site ( https://slurm.schedmd.com/power_save.html ).
詳細については、Slurm Webサイト(https://slurm.schedmd.com/power_save.html)を参照してください。
- ResumeRate
-
The rate at which nodes in power save mode are returned to normal
operation by ResumeProgram.
省電力モードのノードがResumeProgramによって通常の動作に戻る速度。
The value is number of nodes per minute and it can be used to prevent power surges if a large number of nodes in power save mode are assigned work at the same time (e.g. a large job starts).
値は1分あたりのノード数であり、省電力モードの多数のノードに同時に作業が割り当てられている場合(たとえば、大規模なジョブの開始)、電力サージを防ぐために使用できます。
A value of zero results in no limits being imposed.
値がゼロの場合、制限は課されません。
The default value is 300 nodes per minute.
デフォルト値は1分あたり300ノードです。
Related configuration options include ResumeTimeout, ResumeProgram, SuspendRate, SuspendTime, SuspendTimeout, SuspendProgram, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、SuspendRate、SuspendTime、SuspendTimeout、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsが含まれます。
- ResumeTimeout
-
Maximum time permitted (in seconds) between when a node resume request
is issued and when the node is actually available for use.
ノード再開要求が発行されてからノードが実際に使用可能になるまでに許可される最大時間(秒単位)。
Nodes which fail to respond in this time frame will be marked DOWN and the jobs scheduled on the node requeued.
この時間枠内に応答しなかったノードはDOWNとマークされ、ノードでスケジュールされたジョブが再キューイングされます。
Nodes which reboot after this time frame will be marked DOWN with a reason of "Node unexpectedly rebooted." The default value is 60 seconds.
この時間枠の後に再起動するノードは、「ノードが予期せず再起動されました」という理由でDOWNとマークされます。デフォルト値は60秒です。
Related configuration options include ResumeProgram, ResumeRate, SuspendRate, SuspendTime, SuspendTimeout, SuspendProgram, SuspendExcNodes and SuspendExcParts.
関連する構成オプションには、ResumeProgram、ResumeRate、SuspendRate、SuspendTime、SuspendTimeout、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsが含まれます。
More information is available at the Slurm web site ( https://slurm.schedmd.com/power_save.html ).
詳細については、Slurm Webサイト(https://slurm.schedmd.com/power_save.html)を参照してください。
- ResvEpilog
-
Fully qualified pathname of a program for the slurmctld to execute
when a reservation ends.
予約の終了時にslurmctldが実行するプログラムの完全修飾パス名。
The program can be used to cancel jobs, modify partition configuration, etc.
このプログラムは、ジョブのキャンセル、パーティション構成の変更などに使用できます。
The reservation named will be passed as an argument to the program.
指定された予約は、プログラムへの引数として渡されます。
By default there is no epilog.
デフォルトでは、エピローグはありません。
- ResvOverRun
-
Describes how long a job already running in a reservation should be
permitted to execute after the end time of the reservation has been
reached.
予約の終了時間に達した後、予約ですでに実行されているジョブの実行を許可する期間について説明します。
The time period is specified in minutes and the default value is 0 (kill the job immediately).
期間は分単位で指定され、デフォルト値は0です(ジョブをすぐに強制終了します)。
The value may not exceed 65533 minutes, although a value of "UNLIMITED" is supported to permit a job to run indefinitely after its reservation is terminated.
値は65533分を超えることはできませんが、予約が終了した後、ジョブを無期限に実行できるように「UNLIMITED」の値がサポートされています。
- ResvProlog
-
Fully qualified pathname of a program for the slurmctld to execute
when a reservation begins.
予約の開始時にslurmctldが実行するプログラムの完全修飾パス名。
The program can be used to cancel jobs, modify partition configuration, etc.
このプログラムは、ジョブのキャンセル、パーティション構成の変更などに使用できます。
The reservation named will be passed as an argument to the program.
指定された予約は、プログラムへの引数として渡されます。
By default there is no prolog.
デフォルトでは、プロローグはありません。
- ReturnToService
-
Controls when a DOWN node will be returned to service.
DOWNノードがいつサービスに戻るかを制御します。
The default value is 0.
デフォルト値は0です。
Supported values include
サポートされている値は次のとおりです。
-
- 0
-
A node will remain in the DOWN state until a system administrator
explicitly changes its state (even if the slurmd daemon registers
and resumes communications).
システム管理者が明示的に状態を変更するまで(slurmdデーモンが登録して通信を再開した場合でも)、ノードはDOWN状態のままになります。
- 1
-
A DOWN node will become available for use upon registration with a
valid configuration only if it was set DOWN due to being non-responsive.
DOWNノードは、応答がないためにDOWNに設定されている場合にのみ、有効な構成で登録すると使用できるようになります。
If the node was set DOWN for any other reason (low memory, unexpected reboot, etc.), its state will not automatically be changed.
他の理由(メモリ不足、予期しない再起動など)でノードがDOWNに設定された場合、その状態は自動的に変更されません。
A node registers with a valid configuration if its memory, GRES, CPU count, etc. are equal to or greater than the values configured in slurm.conf.
ノードのメモリ、GRES、CPUカウントなどが、slurm.confで構成された値以上の場合、ノードは有効な構成で登録されます。
- 2
-
A DOWN node will become available for use upon registration with a
valid configuration.
有効な構成で登録すると、DOWNノードが使用可能になります。
The node could have been set DOWN for any reason.
何らかの理由でノードがDOWNに設定されている可能性があります。
A node registers with a valid configuration if its memory, GRES, CPU count, etc. are equal to or greater than the values configured in slurm.conf.
ノードのメモリ、GRES、CPUカウントなどが、slurm.confで構成された値以上の場合、ノードは有効な構成で登録されます。
(Disabled on Cray ALPS systems.)
(Cray ALPSシステムでは無効になっています。)
-
- RoutePlugin
-
Identifies the plugin to be used for defining which nodes will be used
for message forwarding and message aggregation.
メッセージ転送とメッセージ集約に使用されるノードを定義するために使用されるプラグインを識別します。
- SallocDefaultCommand
-
Normally, salloc(1) will run the user's default shell when
a command to execute is not specified on the salloc command line.
通常、salloc(1)は、実行するコマンドがsallocコマンドラインで指定されていない場合に、ユーザーのデフォルトシェルを実行します。
If SallocDefaultCommand is specified, salloc will instead run the configured command.
SallocDefaultCommandが指定されている場合、sallocは代わりに構成されたコマンドを実行します。
The command is passed to '/bin/sh -c', so shell metacharacters are allowed, and commands with multiple arguments should be quoted.
コマンドは '/ bin / sh -c'に渡されるため、シェルメタ文字が許可され、複数の引数を持つコマンドは引用符で囲む必要があります。
For instance:
例えば:
SallocDefaultCommand = "$SHELL"
would run the shell in the user's $SHELL environment variable.
ユーザーの$ SHELL環境変数でシェルを実行します。
andSallocDefaultCommand = "srun -n1 -N1 --mem-per-cpu=0 --pty --preserve-env --mpi=none $SHELL"
would run spawn the user's default shell on the allocated resources, but not consume any of the CPU or memory resources, configure it as a pseudo-terminal, and preserve all of the job's environment variables (i.e. and not over-write them with the job step's allocation information).
割り当てられたリソースでユーザーのデフォルトシェルを生成しますが、CPUまたはメモリリソースを消費せず、疑似端末として構成し、ジョブのすべての環境変数を保持します(つまり、ジョブでそれらを上書きしません)ステップの割り当て情報)。
For systems with generic resources (GRES) defined, the SallocDefaultCommand value should explicitly specify a zero count for the configured GRES.
汎用リソース(GRES)が定義されているシステムの場合、SallocDefaultCommand値は、構成されたGRESのゼロカウントを明示的に指定する必要があります。
Failure to do so will result in the launched shell consuming those GRES and preventing subsequent srun commands from using them.
そうしないと、起動されたシェルがそれらのGRESを消費し、後続のsrunコマンドがそれらを使用できなくなります。
For example, on Cray systems add "--gres=craynetwork:0" as shown below:
たとえば、Crayシステムでは、次のように「--gres = craynetwork:0」を追加します。
SallocDefaultCommand = "srun -n1 -N1 --mem-per-cpu=0 --gres=craynetwork:0 --pty --preserve-env --mpi=none $SHELL"
For systems with TaskPlugin set, adding an option of "--cpu-bind=no" is recommended if the default shell should have access to all of the CPUs allocated to the job on that node, otherwise the shell may be limited to a single cpu or core.
TaskPluginが設定されているシステムで、デフォルトのシェルがそのノードのジョブに割り当てられているすべてのCPUにアクセスできる場合は、「-cpu-bind = no」のオプションを追加することをお勧めします。そうしないと、シェルが1つに制限される場合があります。 CPUまたはコア。
- SbcastParameters
-
Controls sbcast command behavior.
sbcastコマンドの動作を制御します。
Multiple options can be specified in a comma separated list.
複数のオプションをコンマ区切りのリストで指定できます。
Supported values include:
サポートされている値は次のとおりです。
-
- DestDir=
-
Destination directory for file being broadcast to allocated compute nodes.
割り当てられた計算ノードにブロードキャストされるファイルの宛先ディレクトリ。
Default value is current working directory.
デフォルト値は現在の作業ディレクトリです。
- Compression=
-
Specify default file compression library to be used.
使用するデフォルトのファイル圧縮ライブラリを指定します。
Supported values are "lz4", "none" and "zlib".
サポートされている値は、「lz4」、「none」、および「zlib」です。
The default value with the sbcast --compress option is "lz4" and "none" otherwise.
sbcast --compressオプションのデフォルト値は「lz4」で、それ以外の場合は「none」です。
Some compression libraries may be unavailable on some systems.
一部の圧縮ライブラリは、一部のシステムでは使用できない場合があります。
-
- SchedulerParameters
-
The interpretation of this parameter varies by SchedulerType.
このパラメーターの解釈は、SchedulerTypeによって異なります。
Multiple options may be comma separated.
複数のオプションはコンマで区切ることができます。
-
- allow_zero_lic
-
If set, then job submissions requesting more than configured licenses won't be
rejected.
設定されている場合、構成されたライセンスを超えるライセンスを要求するジョブの送信は拒否されません。
- assoc_limit_stop
-
If set and a job cannot start due to association limits, then do not attempt
to initiate any lower priority jobs in that partition.
設定されていて、関連付けの制限のためにジョブを開始できない場合は、そのパーティションで優先度の低いジョブを開始しないでください。
Setting this can decrease system throughput and utilization, but avoid potentially starving larger jobs by preventing them from launching indefinitely.
これを設定すると、システムのスループットと使用率が低下する可能性がありますが、無期限に起動しないようにすることで、より大きなジョブが不足する可能性を回避できます。
- batch_sched_delay=#
-
How long, in seconds, the scheduling of batch jobs can be delayed.
バッチジョブのスケジューリングを遅らせることができる時間(秒単位)。
This can be useful in a high-throughput environment in which batch jobs are submitted at a very high rate (i.e. using the sbatch command) and one wishes to reduce the overhead of attempting to schedule each job at submit time.
これは、バッチジョブが非常に高速で送信され(つまり、sbatchコマンドを使用する)、送信時に各ジョブをスケジュールしようとするオーバーヘッドを削減したい高スループット環境で役立ちます。
The default value is 3 seconds.
デフォルト値は3秒です。
- bb_array_stage_cnt=#
-
Number of tasks from a job array that should be available for burst buffer
resource allocation.
バーストバッファリソースの割り当てに使用できる必要があるジョブ配列からのタスクの数。
Higher values will increase the system overhead as each task from the job array will be moved to its own job record in memory, so relatively small values are generally recommended.
値を大きくすると、ジョブ配列の各タスクがメモリ内の独自のジョブレコードに移動されるため、システムオーバーヘッドが増加するため、通常は比較的小さい値をお勧めします。
The default value is 10.
デフォルト値は10です。
- bf_busy_nodes
-
When selecting resources for pending jobs to reserve for future execution
(i.e. the job can not be started immediately), then preferentially select
nodes that are in use.
保留中のジョブのリソースを選択して将来の実行のために予約する場合(つまり、ジョブをすぐに開始できない場合)、使用中のノードを優先的に選択します。
This will tend to leave currently idle resources available for backfilling longer running jobs, but may result in allocations having less than optimal network topology.
これにより、現在アイドル状態のリソースを、実行時間の長いジョブを埋め戻すために使用できるようになる傾向がありますが、割り当てのネットワークトポロジが最適ではなくなる可能性があります。
This option is currently only supported by the select/cons_res and select/cons_tres plugins (or select/cray_aries with SelectTypeParameters set to "OTHER_CONS_RES" or "OTHER_CONS_TRES", which layers the select/cray_aries plugin over the select/cons_res or select/cons_tres plugin respectively).
このオプションは現在、select / cons_resおよびselect / cons_tresプラグイン(またはSelectTypeParametersが「OTHER_CONS_RES」または「OTHER_CONS_TRES」に設定されているselect / cray_ariesでのみサポートされており、select / cons_resまたはselect / cons_tresプラグインの上にselect / cray_ariesプラグインを重ねます。それぞれ)。
- bf_continue
-
The backfill scheduler periodically releases locks in order to permit other
operations to proceed rather than blocking all activity for what could be an
extended period of time.
バックフィルスケジューラは、長期間にわたってすべてのアクティビティをブロックするのではなく、他の操作を続行できるようにするために、定期的にロックを解放します。
Setting this option will cause the backfill scheduler to continue processing pending jobs from its original job list after releasing locks even if job or node state changes.
このオプションを設定すると、バックフィルスケジューラは、ジョブまたはノードの状態が変更された場合でも、ロックを解放した後、元のジョブリストから保留中のジョブの処理を続行します。
- bf_hetjob_immediate
-
Instruct the backfill scheduler to attempt to start a heterogeneous job as
soon as all of its components are determined able to do so.
すべてのコンポーネントが開始可能であると判断されたらすぐに、異種ジョブの開始を試行するようにバックフィルスケジューラーに指示します。
Otherwise, the backfill scheduler will delay heterogeneous jobs initiation attempts until after the rest of the queue has been processed.
それ以外の場合、バックフィルスケジューラは、キューの残りの部分が処理されるまで、異種ジョブの開始試行を遅らせます。
This delay may result in lower priority jobs being allocated resources, which could delay the initiation of the heterogeneous job due to account and/or QOS limits being reached.
この遅延により、優先度の低いジョブにリソースが割り当てられる可能性があり、アカウントやQOSの制限に達したために、異種ジョブの開始が遅れる可能性があります。
This option is disabled by default.
このオプションはデフォルトで無効になっています。
If enabled and bf_hetjob_prio=min is not set, then it would be automatically set.
有効でbf_hetjob_prio = minが設定されていない場合は、自動的に設定されます。
- bf_hetjob_prio=[min|avg|max]
-
At the beginning of each backfill scheduling cycle, a list of pending to be
scheduled jobs is sorted according to the precedence order configured in
PriorityType.
各埋め戻しスケジューリングサイクルの開始時に、スケジュールされる保留中のジョブのリストは、PriorityTypeで構成された優先順位に従ってソートされます。
This option instructs the scheduler to alter the sorting algorithm to ensure that all components belonging to the same heterogeneous job will be attempted to be scheduled consecutively (thus not fragmented in the resulting list).
このオプションは、同じ異種ジョブに属するすべてのコンポーネントが連続してスケジュールされるように(したがって、結果のリストで断片化されないように)ソートアルゴリズムを変更するようにスケジューラーに指示します。
More specifically, all components from the same heterogeneous job will be treated as if they all have the same priority (minimum, average or maximum depending upon this option's parameter) when compared with other jobs (or other heterogeneous job components).
より具体的には、同じ異種ジョブのすべてのコンポーネントは、他のジョブ(または他の異種ジョブコンポーネント)と比較した場合、すべて同じ優先度(このオプションのパラメーターに応じて最小、平均、または最大)を持っているかのように扱われます。
The original order will be preserved within the same heterogeneous job.
元の順序は、同じ異種ジョブ内で保持されます。
Note that the operation is calculated for the PriorityTier layer and for the Priority resulting from the priority/multifactor plugin calculations.
操作は、PriorityTierレイヤーと、priority / multifactorプラグインの計算から得られたPriorityに対して計算されることに注意してください。
When enabled, if any heterogeneous job requested an advanced reservation, then all of that job's components will be treated as if they had requested an advanced reservation (and get preferential treatment in scheduling).
有効にすると、異種ジョブが事前予約を要求した場合、そのジョブのすべてのコンポーネントは、事前予約を要求したかのように扱われます(そして、スケジューリングで優先的に扱われます)。
Note that this operation does not update the Priority values of the heterogeneous job components, only their order within the list, so the output of the sprio command will not be effected.
この操作では、異種ジョブコンポーネントの優先度の値は更新されず、リスト内の順序のみが更新されるため、sprioコマンドの出力は影響を受けないことに注意してください。
Heterogeneous jobs have special scheduling properties: they are only scheduled by the backfill scheduling plugin, each of their components is considered separately when reserving resources (and might have different PriorityTier or different Priority values), and no heterogeneous job component is actually allocated resources until all if its components can be initiated.
異種ジョブには特別なスケジューリングプロパティがあります。これらはバックフィルスケジューリングプラグインによってのみスケジュールされ、リソースを予約するときに各コンポーネントが個別に考慮され(また、異なるPriorityTierまたは異なるPriority値を持つ場合があります)、異種ジョブコンポーネントには、すべてが実行されるまで実際にリソースが割り当てられません。そのコンポーネントを開始できるかどうか。
This may imply potential scheduling deadlock scenarios because components from different heterogeneous jobs can start reserving resources in an interleaved fashion (not consecutively), but none of the jobs can reserve resources for all components and start.
これは、異なる異種ジョブのコンポーネントがインターリーブ方式で(連続してではなく)リソースの予約を開始できるため、潜在的なスケジューリングデッドロックシナリオを意味する場合がありますが、どのジョブもすべてのコンポーネントのリソースを予約して開始することはできません。
Enabling this option can help to mitigate this problem.
このオプションを有効にすると、この問題を軽減するのに役立ちます。
By default, this option is disabled.
デフォルトでは、このオプションは無効になっています。
- bf_interval=#
-
The number of seconds between backfill iterations.
バックフィルの反復間の秒数。
Higher values result in less overhead and better responsiveness.
値を大きくすると、オーバーヘッドが少なくなり、応答性が向上します。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 30, Min: 1, Max: 10800 (3h).
デフォルト:30、最小:1、最大:10800(3時間)。
- bf_job_part_count_reserve=#
-
The backfill scheduling logic will reserve resources for the specified count
of highest priority jobs in each partition.
バックフィルスケジューリングロジックは、各パーティションで最も優先度の高いジョブの指定された数のリソースを予約します。
For example, bf_job_part_count_reserve=10 will cause the backfill scheduler to reserve resources for the ten highest priority jobs in each partition.
たとえば、bf_job_part_count_reserve = 10を指定すると、バックフィルスケジューラは、各パーティションで最も優先度の高い10個のジョブのリソースを予約します。
Any lower priority job that can be started using currently available resources and not adversely impact the expected start time of these higher priority jobs will be started by the backfill scheduler The default value is zero, which will reserve resources for any pending job and delay initiation of lower priority jobs.
現在利用可能なリソースを使用して開始でき、これらの優先度の高いジョブの予想開始時間に悪影響を及ぼさない優先度の低いジョブは、バックフィルスケジューラによって開始されます。デフォルト値はゼロです。これにより、保留中のジョブ用にリソースが予約され、優先度の低いジョブ。
Also see bf_min_age_reserve and bf_min_prio_reserve.
bf_min_age_reserveおよびbf_min_prio_reserveも参照してください。
Default: 0, Min: 0, Max: 100000.
デフォルト:0、最小:0、最大:100000。
- bf_max_job_array_resv=#
-
The maximum number of tasks from a job array for which the backfill scheduler
will reserve resources in the future.
バックフィルスケジューラが将来リソースを予約するジョブ配列からのタスクの最大数。
Since job arrays can potentially have millions of tasks, the overhead in reserving resources for all tasks can be prohibitive.
ジョブ配列には数百万のタスクが含まれる可能性があるため、すべてのタスクのリソースを予約する際のオーバーヘッドは法外なものになる可能性があります。
In addition various limits may prevent all the jobs from starting at the expected times.
さらに、さまざまな制限により、すべてのジョブが予期された時間に開始されない場合があります。
This has no impact upon the number of tasks from a job array that can be started immediately, only those tasks expected to start at some future time.
これは、すぐに開始できるジョブ配列のタスクの数には影響せず、将来開始されると予想されるタスクのみに影響します。
Default: 20, Min: 0, Max: 1000.
デフォルト:20、最小:0、最大:1000。
NOTE: Jobs submitted to multiple partitions appear in the job queue once per partition.
注:複数のパーティションに送信されたジョブは、パーティションごとに1回ジョブキューに表示されます。
If different copies of a single job array record aren't consecutive in the job queue and another job array record is in between, then bf_max_job_array_resv tasks are considered per partition that the job is submitted to.
単一のジョブ配列レコードの異なるコピーがジョブキュー内で連続しておらず、別のジョブ配列レコードがその間にある場合、bf_max_job_array_resvタスクは、ジョブが送信されるパーティションごとに考慮されます。
- bf_max_job_assoc=#
-
The maximum number of jobs per user association to attempt starting with the
backfill scheduler.
バックフィルスケジューラーから開始しようとする、ユーザーアソシエーションごとのジョブの最大数。
This setting is similar to bf_max_job_user but is handy if a user has multiple associations equating to basically different users.
この設定はbf_max_job_userに似ていますが、ユーザーが基本的に異なるユーザーに相当する複数の関連付けを持っている場合に便利です。
One can set this limit to prevent users from flooding the backfill queue with jobs that cannot start and that prevent jobs from other users to start.
この制限を設定すると、ユーザーがバックフィルキューを開始できないジョブで溢れさせたり、他のユーザーからのジョブを開始したりするのを防ぐことができます。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the bf_max_job_user bf_max_job_part, bf_max_job_test and bf_max_job_user_part=# options.
bf_max_job_user bf_max_job_part、bf_max_job_test、およびbf_max_job_user_part =#オプションも参照してください。
Set bf_max_job_test to a value much higher than bf_max_job_assoc.
bf_max_job_testをbf_max_job_assocよりもはるかに高い値に設定します。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_job_part=#
-
The maximum number of jobs per partition to attempt starting with the backfill
scheduler.
バックフィルスケジューラーから開始するために試行するパーティションあたりのジョブの最大数。
This can be especially helpful for systems with large numbers of partitions and jobs.
これは、多数のパーティションとジョブがあるシステムで特に役立ちます。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the partition_job_depth and bf_max_job_test options.
また、partition_job_depthおよびbf_max_job_testオプションも参照してください。
Set bf_max_job_test to a value much higher than bf_max_job_part.
bf_max_job_testをbf_max_job_partよりもはるかに高い値に設定します。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_job_start=#
-
The maximum number of jobs which can be initiated in a single iteration
of the backfill scheduler.
バックフィルスケジューラの1回の反復で開始できるジョブの最大数。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 0 (no limit), Min: 0, Max: 10000.
デフォルト:0(制限なし)、最小:0、最大:10000。
- bf_max_job_test=#
-
The maximum number of jobs to attempt backfill scheduling for
(i.e. the queue depth).
バックフィルスケジューリングを試行するジョブの最大数(つまり、キューの深さ)。
Higher values result in more overhead and less responsiveness.
値を大きくすると、オーバーヘッドが大きくなり、応答性が低下します。
Until an attempt is made to backfill schedule a job, its expected initiation time value will not be set.
ジョブのバックフィルスケジュールが試行されるまで、その予想開始時間値は設定されません。
In the case of large clusters, configuring a relatively small value may be desirable.
大規模なクラスターの場合、比較的小さな値を構成することが望ましい場合があります。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 100, Min: 1, Max: 1,000,000.
デフォルト:100、最小:1、最大:1,000,000。
- bf_max_job_user=#
-
The maximum number of jobs per user to attempt starting with the backfill
scheduler for ALL partitions.
すべてのパーティションのバックフィルスケジューラーから開始しようとする、ユーザーあたりのジョブの最大数。
One can set this limit to prevent users from flooding the backfill queue with jobs that cannot start and that prevent jobs from other users to start.
この制限を設定すると、ユーザーがバックフィルキューを開始できないジョブで溢れさせたり、他のユーザーからのジョブを開始したりするのを防ぐことができます。
This is similar to the MAXIJOB limit in Maui.
これは、マウイ島のMAXIJOB制限に似ています。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the bf_max_job_part, bf_max_job_test and bf_max_job_user_part=# options.
bf_max_job_part、bf_max_job_test、およびbf_max_job_user_part =#オプションも参照してください。
Set bf_max_job_test to a value much higher than bf_max_job_user.
bf_max_job_testをbf_max_job_userよりもはるかに高い値に設定します。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_job_user_part=#
-
The maximum number of jobs per user per partition to attempt starting with the
backfill scheduler for any single partition.
任意の単一パーティションのバックフィルスケジューラーから開始するために試行する、パーティションごとのユーザーごとのジョブの最大数。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Also see the bf_max_job_part, bf_max_job_test and bf_max_job_user=# options.
bf_max_job_part、bf_max_job_test、およびbf_max_job_user =#オプションも参照してください。
Default: 0 (no limit), Min: 0, Max: bf_max_job_test.
デフォルト:0(制限なし)、最小:0、最大:bf_max_job_test。
- bf_max_time=#
-
The maximum time in seconds the backfill scheduler can spend (including time
spent sleeping when locks are released) before discontinuing, even if maximum
job counts have not been reached.
最大ジョブ数に達していない場合でも、バックフィルスケジューラが中止する前に費やすことができる最大時間(秒単位)(ロックが解除されたときにスリープに費やされた時間を含む)。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
The default value is the value of bf_interval (which defaults to 30 seconds).
デフォルト値はbf_intervalの値です(デフォルトは30秒です)。
Default: bf_interval value (def. 30 sec), Min: 1, Max: 3600 (1h).
デフォルト:bf_interval値(定義30秒)、最小:1、最大:3600(1時間)。
NOTE: If bf_interval is short and bf_max_time is large, this may cause locks to be acquired too frequently and starve out other serviced RPCs.
注:bf_intervalが短く、bf_max_timeが大きい場合、ロックの取得頻度が高くなり、他のサービス対象RPCが不足する可能性があります。
It's advisable if using this parameter to set max_rpc_cnt high enough that scheduling isn't always disabled, and low enough that the interactive workload can get through in a reasonable period of time.
このパラメーターを使用してmax_rpc_cntを十分に高く設定し、スケジューリングが常に無効になるとは限らない場合、および対話型ワークロードが妥当な期間内に通過できるように十分に低く設定することをお勧めします。
max_rpc_cnt needs to be below 256 (the default RPC thread limit).
max_rpc_cntは、256(デフォルトのRPCスレッド制限)未満である必要があります。
Running around the middle (150) may give you good results.
真ん中(150)を走り回ると、良い結果が得られる場合があります。
NOTE: When increasing the amount of time spent in the backfill scheduling cycle, Slurm can be prevented from responding to client requests in a timely manner.
注:バックフィルのスケジューリングサイクルに費やす時間を増やすと、Slurmがクライアントの要求にタイムリーに応答できなくなる可能性があります。
To address this you can use max_rpc_cnt to specify a number of queued RPCs before the scheduler stops to respond to these requests.
これに対処するには、max_rpc_cntを使用して、スケジューラーがこれらの要求への応答を停止する前に、キューに入れられたRPCの数を指定できます。
- bf_min_age_reserve=#
-
The backfill and main scheduling logic will not reserve resources for pending
jobs until they have been pending and runnable for at least the specified
number of seconds.
バックフィルおよびメインスケジューリングロジックは、保留中のジョブが少なくとも指定された秒数の間実行可能になるまで、保留中のジョブ用にリソースを予約しません。
In addition, jobs waiting for less than the specified number of seconds will not prevent a newly submitted job from starting immediately, even if the newly submitted job has a lower priority.
さらに、指定された秒数未満待機しているジョブは、新しく送信されたジョブの優先度が低くても、新しく送信されたジョブの即時開始を妨げることはありません。
This can be valuable if jobs lack time limits or all time limits have the same value.
これは、ジョブに時間制限がない場合、またはすべての時間制限の値が同じである場合に役立ちます。
The default value is zero, which will reserve resources for any pending job and delay initiation of lower priority jobs.
デフォルト値はゼロです。これにより、保留中のジョブ用にリソースが予約され、優先度の低いジョブの開始が遅れます。
Also see bf_job_part_count_reserve and bf_min_prio_reserve.
bf_job_part_count_reserveおよびbf_min_prio_reserveも参照してください。
Default: 0, Min: 0, Max: 2592000 (30 days).
デフォルト:0、最小:0、最大:2592000(30日)。
- bf_min_prio_reserve=#
-
The backfill and main scheduling logic will not reserve resources for pending
jobs unless they have a priority equal to or higher than the specified value.
バックフィルおよびメインスケジューリングロジックは、指定された値以上の優先度がない限り、保留中のジョブ用にリソースを予約しません。
In addition, jobs with a lower priority will not prevent a newly submitted job from starting immediately, even if the newly submitted job has a lower priority.
さらに、優先度の低いジョブは、新しく送信されたジョブの優先度が低くても、新しく送信されたジョブの即時開始を妨げることはありません。
This can be valuable if one wished to maximum system utilization without regard for job priority below a certain threshold.
これは、特定のしきい値を下回るジョブの優先度に関係なく、システムの使用率を最大にしたい場合に役立ちます。
The default value is zero, which will reserve resources for any pending job and delay initiation of lower priority jobs.
デフォルト値はゼロです。これにより、保留中のジョブ用にリソースが予約され、優先度の低いジョブの開始が遅れます。
Also see bf_job_part_count_reserve and bf_min_age_reserve.
bf_job_part_count_reserveおよびbf_min_age_reserveも参照してください。
Default: 0, Min: 0, Max: 2^63.
デフォルト:0、最小:0、最大:2 ^ 63。
- bf_one_resv_per_job
-
Disallow adding more than one backfill reservation per job.
ジョブごとに複数の埋め戻し予約を追加することを禁止します。
The scheduling logic builds a sorted list of (job, partition) pairs.
スケジューリングロジックは、(ジョブ、パーティション)ペアのソートされたリストを作成します。
Jobs submitted to multiple partitions have as many entries in the list as requested partitions.
複数のパーティションに送信されたジョブのリストには、要求されたパーティションと同じ数のエントリがあります。
By default, the backfill scheduler may evaluate all the (job, partition) entries for a single job, potentially reserving resources for each pair, but only starting the job in the reservation offering the earliest start time.
デフォルトでは、バックフィルスケジューラは、単一のジョブのすべての(ジョブ、パーティション)エントリを評価し、各ペアのリソースを予約する可能性がありますが、最も早い開始時刻を提供する予約でのみジョブを開始します。
Having a single job reserving resources for multiple partitions could impede other jobs (or hetjob components) from reserving resources already reserved for the reservations related to the paris that don't offer the earliest start time.
複数のパーティションのリソースを予約する単一のジョブがあると、他のジョブ(またはhetjobコンポーネント)が、最も早い開始時刻を提供しないパリに関連する予約用にすでに予約されているリソースを予約するのを妨げる可能性があります。
This option makes it so that a job submitted to multiple partitions will stop reserving resources once the first (job, partition) pair has booked a backfill reservation.
このオプションを使用すると、複数のパーティションに送信されたジョブは、最初の(ジョブ、パーティション)ペアがバックフィル予約を予約すると、リソースの予約を停止します。
Subsequent pairs from the same job will only be tested to start now.
同じジョブからの後続のペアは、今すぐ開始するためにのみテストされます。
This allows for other jobs to be able to book the other pairs resources at the cost of not guaranteeing that the multi partition job will start in the partition offering the earliest start time (except if it can start now).
これにより、他のジョブが他のペアリソースを予約できるようになりますが、マルチパーティションジョブが最も早い開始時刻を提供するパーティションで開始されることが保証されません(今すぐ開始できる場合を除く)。
This option is disabled by default.
このオプションはデフォルトで無効になっています。
- bf_resolution=#
-
The number of seconds in the resolution of data maintained about when jobs
begin and end.
ジョブがいつ開始および終了するかについて維持されるデータの解決の秒数。
Higher values result in less overhead and better responsiveness.
値を大きくすると、オーバーヘッドが少なくなり、応答性が向上します。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 60, Min: 1, Max: 3600 (1 hour).
デフォルト:60、最小:1、最大:3600(1時間)。
- bf_running_job_reserve
-
Add an extra step to backfill logic, which creates backfill reservations
for jobs running on whole nodes.
バックフィルロジックにステップを追加します。これにより、ノード全体で実行されているジョブのバックフィル予約が作成されます。
This option is disabled by default.
このオプションはデフォルトで無効になっています。
- bf_window=#
-
The number of minutes into the future to look when considering jobs to schedule.
スケジュールするジョブを検討するときに確認する将来の分数。
Higher values result in more overhead and less responsiveness.
値を大きくすると、オーバーヘッドが大きくなり、応答性が低下します。
A value at least as long as the highest allowed time limit is generally advisable to prevent job starvation.
仕事の飢餓を防ぐために、少なくとも許容される最大の制限時間内の値が一般的に推奨されます。
In order to limit the amount of data managed by the backfill scheduler, if the value of bf_window is increased, then it is generally advisable to also increase bf_resolution.
バックフィルスケジューラによって管理されるデータの量を制限するために、bf_windowの値を増やす場合は、通常、bf_resolutionも増やすことをお勧めします。
This option applies only to SchedulerType=sched/backfill.
このオプションは、SchedulerType = sched / backfillにのみ適用されます。
Default: 1440 (1 day), Min: 1, Max: 43200 (30 days).
デフォルト:1440(1日)、最小:1、最大:43200(30日)。
- bf_window_linear=#
-
For performance reasons, the backfill scheduler will decrease precision in
calculation of job expected termination times.
パフォーマンス上の理由から、バックフィルスケジューラは、ジョブの予想終了時間の計算の精度を低下させます。
By default, the precision starts at 30 seconds and that time interval doubles with each evaluation of currently executing jobs when trying to determine when a pending job can start.
デフォルトでは、精度は30秒から始まり、保留中のジョブをいつ開始できるかを判断しようとすると、現在実行中のジョブが評価されるたびにその時間間隔が2倍になります。
This algorithm can support an environment with many thousands of running jobs, but can result in the expected start time of pending jobs being gradually being deferred due to lack of precision.
このアルゴリズムは、何千もの実行中のジョブがある環境をサポートできますが、精度が不足しているため、保留中のジョブの予想開始時間が徐々に延期される可能性があります。
A value for bf_window_linear will cause the time interval to be increased by a constant amount on each iteration.
bf_window_linearの値により、各反復で時間間隔が一定量増加します。
The value is specified in units of seconds.
値は秒単位で指定されます。
For example, a value of 60 will cause the backfill scheduler on the first iteration to identify the job ending soonest and determine if the pending job can be started after that job plus all other jobs expected to end within 30 seconds (default initial value) of the first job.
たとえば、値が60の場合、最初の反復でバックフィルスケジューラは、最も早く終了するジョブを識別し、そのジョブと30秒以内に終了すると予想される他のすべてのジョブ(デフォルトの初期値)の後に保留中のジョブを開始できるかどうかを判断します。最初の仕事。
On the next iteration, the pending job will be evaluated for starting after the next job expected to end plus all jobs ending within 90 seconds of that time (30 second default, plus the 60 second option value).
次の反復では、保留中のジョブは、終了が予想される次のジョブと、その時間から90秒以内に終了するすべてのジョブ(デフォルトは30秒、オプション値は60秒)の後に開始するかどうかが評価されます。
The third iteration will have a 150 second window and the fourth 210 seconds.
3番目の反復には150秒のウィンドウがあり、4番目の反復には210秒があります。
Without this option, the time windows will double on each iteration and thus be 30, 60, 120, 240 seconds, etc.
このオプションがないと、時間枠は反復ごとに2倍になるため、30、60、120、240秒などになります。
The use of bf_window_linear is not recommended with more than a few hundred simultaneously executing jobs.
同時に実行されるジョブが数百を超える場合は、bf_window_linearの使用はお勧めしません。
- bf_yield_interval=#
-
The backfill scheduler will periodically relinquish locks in order for other
pending operations to take place.
バックフィルスケジューラは、他の保留中の操作を実行するために、定期的にロックを放棄します。
This specifies the times when the locks are relinquished in microseconds.
これは、ロックがマイクロ秒単位で放棄される時間を指定します。
Smaller values may be helpful for high throughput computing when used in conjunction with the bf_continue option.
小さい値は、bf_continueオプションと組み合わせて使用すると、高スループットのコンピューティングに役立つ場合があります。
Also see the bf_yield_sleep option.
bf_yield_sleepオプションも参照してください。
Default: 2,000,000 (2 sec), Min: 1, Max: 10,000,000 (10 sec).
デフォルト:2,000,000(2秒)、最小:1、最大:10,000,000(10秒)。
- bf_yield_sleep=#
-
The backfill scheduler will periodically relinquish locks in order for other
pending operations to take place.
バックフィルスケジューラは、他の保留中の操作を実行するために、定期的にロックを放棄します。
This specifies the length of time for which the locks are relinquished in microseconds.
これは、ロックが解放される時間の長さをマイクロ秒単位で指定します。
Also see the bf_yield_interval option.
bf_yield_intervalオプションも参照してください。
Default: 500,000 (0.5 sec), Min: 1, Max: 10,000,000 (10 sec).
デフォルト:500,000(0.5秒)、最小:1、最大:10,000,000(10秒)。
- build_queue_timeout=#
-
Defines the maximum time that can be devoted to building a queue of jobs to
be tested for scheduling.
スケジューリングのためにテストされるジョブのキューを構築するために費やすことができる最大時間を定義します。
If the system has a huge number of jobs with dependencies, just building the job queue can take so much time as to adversely impact overall system performance and this parameter can be adjusted as needed.
システムに依存関係のあるジョブが多数ある場合、ジョブキューを作成するだけでも時間がかかり、システム全体のパフォーマンスに悪影響を与える可能性があります。このパラメーターは必要に応じて調整できます。
The default value is 2,000,000 microseconds (2 seconds).
デフォルト値は2,000,000マイクロ秒(2秒)です。
- default_queue_depth=#
-
The default number of jobs to attempt scheduling (i.e. the queue depth) when a
running job completes or other routine actions occur, however the frequency
with which the scheduler is run may be limited by using the defer or
sched_min_interval parameters described below.
実行中のジョブが完了したとき、またはその他のルーチンアクションが発生したときにスケジューリングを試行するデフォルトのジョブ数(つまり、キューの深さ)。ただし、スケジューラーが実行される頻度は、以下で説明するdeferまたはsched_min_intervalパラメーターを使用して制限できます。
The full queue will be tested on a less frequent basis as defined by the sched_interval option described below.
完全なキューは、以下で説明するsched_intervalオプションで定義されているように、頻度は低くなります。
The default value is 100.
デフォルト値は100です。
See the partition_job_depth option to limit depth by partition.
パーティションごとに深さを制限するには、partition_job_depthオプションを参照してください。
- defer
-
Setting this option will avoid attempting to schedule each job
individually at job submit time, but defer it until a later time when
scheduling multiple jobs simultaneously may be possible.
このオプションを設定すると、ジョブの送信時に各ジョブを個別にスケジュールすることを回避できますが、複数のジョブを同時にスケジュールできるようになるまで延期します。
This option may improve system responsiveness when large numbers of jobs (many hundreds) are submitted at the same time, but it will delay the initiation time of individual jobs.
このオプションは、多数のジョブ(数百)が同時に送信された場合のシステムの応答性を向上させる可能性がありますが、個々のジョブの開始時間を遅らせます。
Also see default_queue_depth above.
上記のdefault_queue_depthも参照してください。
- delay_boot=#
-
Do not reboot nodes in order to satisfied this job's feature specification if
the job has been eligible to run for less than this time period.
ジョブがこの期間よりも短い期間実行する資格がある場合は、このジョブの機能仕様を満たすためにノードを再起動しないでください。
If the job has waited for less than the specified period, it will use only nodes which already have the specified features.
ジョブが指定された期間よりも短い時間待機した場合、ジョブはすでに指定された機能を備えているノードのみを使用します。
The argument is in units of minutes.
引数は分単位です。
Individual jobs may override this default value with the --delay-boot option.
個々のジョブは、このデフォルト値を--delay-bootオプションでオーバーライドできます。
- default_gbytes
-
The default units in job submission memory and temporary disk size specification
will be gigabytes rather than megabytes.
ジョブ送信メモリと一時ディスクサイズの指定のデフォルトの単位は、メガバイトではなくギガバイトになります。
Users can override the default by using a suffix of "M" for megabytes.
ユーザーは、メガバイトに「M」のサフィックスを使用することにより、デフォルトをオーバーライドできます。
- disable_job_shrink
-
Deny user requests to shrink the side of running jobs.
実行中のジョブの側面を縮小するユーザー要求を拒否します。
(However, running jobs may still shrink due to node failure if the --no-kill option was set.)
(ただし、-no-killオプションが設定されている場合、ノードの障害が原因で実行中のジョブが縮小する可能性があります。)
- disable_hetjob_steps
-
Disable job steps that span heterogeneous job allocations.
異種のジョブ割り当てにまたがるジョブステップを無効にします。
The default value on Cray systems.
Crayシステムのデフォルト値。
- enable_hetjob_steps
-
Enable job steps that span heterogeneous job allocations.
異種のジョブ割り当てにまたがるジョブステップを有効にします。
The default value except for Cray systems.
Crayシステムを除くデフォルト値。
- enable_user_top
-
Enable use of the "scontrol top" command by non-privileged users.
非特権ユーザーによる「scontroltop」コマンドの使用を有効にします。
- Ignore_NUMA
-
Some processors (e.g. AMD Opteron 6000 series) contain multiple NUMA nodes per
socket.
一部のプロセッサ(AMD Opteron 6000シリーズなど)には、ソケットごとに複数のNUMAノードが含まれています。
This is a configuration which does not map into the hardware entities that Slurm optimizes resource allocation for (PU/thread, core, socket, baseboard, node and network switch).
これは、Slurmがリソース割り当てを最適化するハードウェアエンティティ(PU /スレッド、コア、ソケット、ベースボード、ノード、およびネットワークスイッチ)にマップされない構成です。
In order to optimize resource allocations on such hardware, Slurm will consider each NUMA node within the socket as a separate socket by default.
このようなハードウェアでのリソース割り当てを最適化するために、Slurmはソケット内の各NUMAノードをデフォルトで個別のソケットと見なします。
Use the Ignore_NUMA option to report the correct socket count, but not optimize resource allocations on the NUMA nodes.
Ignore_NUMAオプションを使用して正しいソケット数を報告しますが、NUMAノードでのリソース割り当てを最適化しません。
- inventory_interval=#
-
On a Cray system using Slurm on top of ALPS this limits the number of times
a Basil Inventory call is made.
ALPS上でSlurmを使用するCrayシステムでは、これによりBasilInventory呼び出しが行われる回数が制限されます。
Normally this call happens every scheduling consideration to attempt to close a node state change window with respects to what ALPS has.
通常、この呼び出しは、ALPSの機能に関して、ノードの状態変更ウィンドウを閉じようとするスケジューリングの考慮事項ごとに発生します。
This call is rather slow, so making it less frequently improves performance dramatically, but in the situation where a node changes state the window is as large as this setting.
この呼び出しはかなり遅いため、頻度を減らすとパフォーマンスが大幅に向上しますが、ノードの状態が変化する状況では、ウィンドウはこの設定と同じくらい大きくなります。
In an HTC environment this setting is a must and we advise around 10 seconds.
HTC環境では、この設定は必須であり、約10秒をお勧めします。
- max_array_tasks
-
Specify the maximum number of tasks that be included in a job array.
ジョブ配列に含まれるタスクの最大数を指定します。
The default limit is MaxArraySize, but this option can be used to set a lower limit.
デフォルトの制限はMaxArraySizeですが、このオプションを使用して下限を設定できます。
For example, max_array_tasks=1000 and MaxArraySize=100001 would permit a maximum task ID of 100000, but limit the number of tasks in any single job array to 1000.
たとえば、max_array_tasks = 1000およびMaxArraySize = 100001は、最大タスクID 100000を許可しますが、単一のジョブ配列内のタスクの数を1000に制限します。
- max_rpc_cnt=#
-
If the number of active threads in the slurmctld daemon is equal to or
larger than this value, defer scheduling of jobs.
slurmctldデーモンのアクティブなスレッドの数がこの値以上の場合は、ジョブのスケジューリングを延期します。
The scheduler will check this condition at certain points in code and yield locks if necessary.
スケジューラーは、コードの特定のポイントでこの状態をチェックし、必要に応じてロックを生成します。
This can improve Slurm's ability to process requests at a cost of initiating new jobs less frequently.
これにより、新しいジョブを開始する頻度を減らすことを犠牲にして、リクエストを処理するSlurmの機能を向上させることができます。
Default: 0 (option disabled), Min: 0, Max: 1000.
デフォルト:0(オプションは無効)、最小:0、最大:1000。
-
NOTE: The maximum number of threads (MAX_SERVER_THREADS) is internally set to
256 and defines the number of served RPCs at a given time.
注:スレッドの最大数(MAX_SERVER_THREADS)は内部で256に設定されており、特定の時間に提供されるRPCの数を定義します。
Setting max_rpc_cnt to more than 256 will be only useful to let backfill continue scheduling work after locks have been yielded (i.e. each 2 seconds) if there are a maximum of MAX(max_rpc_cnt/10, 20) RPCs in the queue.
max_rpc_cntを256以上に設定すると、キューに最大MAX(max_rpc_cnt / 10、20)RPCがある場合に、ロックが解除された後(つまり、2秒ごと)にバックフィルが作業のスケジューリングを続行できるようにする場合にのみ役立ちます。
i.e. max_rpc_cnt=1000, the scheduler will be allowed to continue after yielding locks only when there are less than or equal to 100 pending RPCs.
つまり、max_rpc_cnt = 1000の場合、保留中のRPCが100以下の場合にのみ、スケジューラーはロックを生成した後に続行できます。
If a value is set, then a value of 10 or higher is recommended.
値を設定する場合は、10以上の値をお勧めします。
It may require some tuning for each system, but needs to be high enough that scheduling isn't always disabled, and low enough that requests can get through in a reasonable period of time.
システムごとに調整が必要になる場合がありますが、スケジューリングが常に無効になるとは限らないように十分に高く、要求が妥当な期間内に通過できるように十分に低くする必要があります。
-
NOTE: The maximum number of threads (MAX_SERVER_THREADS) is internally set to
256 and defines the number of served RPCs at a given time.
- max_sched_time=#
-
How long, in seconds, that the main scheduling loop will execute for before
exiting.
メインのスケジューリングループが終了するまでに実行される時間(秒単位)。
If a value is configured, be aware that all other Slurm operations will be deferred during this time period.
値が設定されている場合、他のすべてのSlurm操作はこの期間中に延期されることに注意してください。
Make certain the value is lower than MessageTimeout.
値がMessageTimeoutよりも小さいことを確認してください。
If a value is not explicitly configured, the default value is half of MessageTimeout with a minimum default value of 1 second and a maximum default value of 2 seconds.
値が明示的に設定されていない場合、デフォルト値はMessageTimeoutの半分であり、最小デフォルト値は1秒、最大デフォルト値は2秒です。
For example if MessageTimeout=10, the time limit will be 2 seconds (i.e. MIN(10/2, 2) = 2).
たとえば、MessageTimeout = 10の場合、制限時間は2秒になります(つまり、MIN(10 / 2、2)= 2)。
- max_script_size=#
-
Specify the maximum size of a batch script, in bytes.
バッチスクリプトの最大サイズをバイト単位で指定します。
The default value is 4 megabytes.
デフォルト値は4メガバイトです。
Larger values may adversely impact system performance.
値を大きくすると、システムのパフォーマンスに悪影響を与える可能性があります。
- max_switch_wait=#
-
Maximum number of seconds that a job can delay execution waiting for the
specified desired switch count.
指定された目的のスイッチ数を待機してジョブが実行を遅らせることができる最大秒数。
The default value is 300 seconds.
デフォルト値は300秒です。
- no_backup_scheduling
-
If used, the backup controller will not schedule jobs when it takes over.
使用する場合、バックアップコントローラは引き継ぐときにジョブをスケジュールしません。
The backup controller will allow jobs to be submitted, modified and cancelled but won't schedule new jobs.
バックアップコントローラは、ジョブの送信、変更、キャンセルを許可しますが、新しいジョブをスケジュールすることはありません。
This is useful in Cray environments when the backup controller resides on an external Cray node.
これは、バックアップコントローラーが外部のCrayノードにあるCray環境で役立ちます。
A restart is required to alter this option.
このオプションを変更するには、再起動が必要です。
This is explicitly set on a Cray/ALPS system.
これは、Cray / ALPSシステムで明示的に設定されます。
- no_env_cache
-
If used, any job started on node that fails to load the env from a node will
fail instead of using the cached env.
使用すると、ノードからenvをロードできないノードで開始されたジョブは、キャッシュされたenvを使用する代わりに失敗します。
This will also implicitly imply the requeue_setup_env_fail option as well.
これは、requeue_setup_env_failオプションも暗黙的に意味します。
- nohold_on_prolog_fail
-
By default, if the Prolog exits with a non-zero value the job is requeued in
a held state.
デフォルトでは、プロローグがゼロ以外の値で終了した場合、ジョブは保留状態で再キューイングされます。
By specifying this parameter the job will be requeued but not held so that the scheduler can dispatch it to another host.
このパラメーターを指定すると、ジョブは再キューイングされますが、スケジューラーが別のホストにディスパッチできるように保持されません。
- pack_serial_at_end
-
If used with the select/cons_res or select/cons_tres plugin,
then put serial jobs at the end of
the available nodes rather than using a best fit algorithm.
select / cons_resまたはselect / cons_tresプラグインとともに使用する場合は、最適なアルゴリズムを使用するのではなく、使用可能なノードの最後にシリアルジョブを配置します。
This may reduce resource fragmentation for some workloads.
これにより、一部のワークロードのリソースの断片化が軽減される場合があります。
- partition_job_depth=#
-
The default number of jobs to attempt scheduling (i.e. the queue depth)
from each partition/queue in Slurm's main scheduling logic.
Slurmのメインスケジューリングロジックの各パーティション/キューからスケジューリングを試行するデフォルトのジョブ数(つまり、キューの深さ)。
The functionality is similar to that provided by the bf_max_job_part option for the backfill scheduling logic.
機能は、バックフィルスケジューリングロジックのbf_max_job_partオプションによって提供される機能と似ています。
The default value is 0 (no limit).
デフォルト値は0(制限なし)です。
Job's excluded from attempted scheduling based upon partition will not be counted against the default_queue_depth limit.
パーティションに基づいて試行されたスケジューリングから除外されたジョブは、default_queue_depth制限に対してカウントされません。
Also see the bf_max_job_part option.
bf_max_job_partオプションも参照してください。
- permit_job_expansion
-
Allow running jobs to request additional nodes be merged in with the current
job allocation.
実行中のジョブが追加のノードを要求できるようにして、現在のジョブ割り当てとマージします。
- preempt_reorder_count=#
-
Specify how many attempts should be made in reording preemptable jobs to
minimize the count of jobs preempted.
プリエンプトされるジョブの数を最小限に抑えるために、プリエンプト可能なジョブの調整を何回試行するかを指定します。
The default value is 1.
デフォルト値は1です。
High values may adversely impact performance.
高い値はパフォーマンスに悪影響を与える可能性があります。
The logic to support this option is only available in the select/cons_res and select/cons_tres plugins.
このオプションをサポートするロジックは、select / cons_resおよびselect / cons_tresプラグインでのみ使用できます。
- preempt_strict_order
-
If set, then execute extra logic in an attempt to preempt only the lowest
priority jobs.
設定されている場合は、優先度の最も低いジョブのみをプリエンプトするために、追加のロジックを実行します。
It may be desirable to set this configuration parameter when there are multiple priorities of preemptable jobs.
プリエンプト可能なジョブに複数の優先順位がある場合は、この構成パラメーターを設定することが望ましい場合があります。
The logic to support this option is only available in the select/cons_res and select/cons_tres plugins.
このオプションをサポートするロジックは、select / cons_resおよびselect / cons_tresプラグインでのみ使用できます。
- preempt_youngest_first
-
If set, then the preemption sorting algorithm will be changed to sort by the
job start times to favor preempting younger jobs over older.
設定されている場合、プリエンプションの並べ替えアルゴリズムは、ジョブの開始時間で並べ替えるように変更され、古いジョブよりも若いジョブのプリエンプトが優先されます。
(Requires preempt/partition_prio or preempt/qos plugins.)
(preempt / partition_prioまたはpreempt / qosプラグインが必要です。)
- reduce_completing_frag
-
This option is used to control how scheduling of resources is performed when
jobs are in completing state, which influences potential fragmentation.
このオプションは、ジョブが完了状態にあるときにリソースのスケジューリングがどのように実行されるかを制御するために使用されます。これは、潜在的な断片化に影響を与えます。
If the option is not set then no jobs will be started in any partition when any job is in completing state.
このオプションが設定されていない場合、ジョブが完了状態にあるとき、どのパーティションでもジョブは開始されません。
If the option is set then no jobs will be started in any individual partition that has a job in completing state.
このオプションが設定されている場合、完了状態のジョブがある個々のパーティションでジョブは開始されません。
In addition, no jobs will be started in any partition with nodes that overlap with any nodes in the partition of the completing job.
さらに、完了したジョブのパーティション内のノードと重複するノードがあるパーティションでは、ジョブは開始されません。
This option is to be used in conjunction with CompleteWait.
このオプションは、CompleteWaitと組み合わせて使用します。
NOTE: CompleteWait must be set for this to work.
注:これを機能させるには、CompleteWaitを設定する必要があります。
- requeue_setup_env_fail
-
By default if a job environment setup fails the job keeps running with
a limited environment.
デフォルトでは、ジョブ環境のセットアップが失敗した場合、ジョブは制限された環境で実行され続けます。
By specifying this parameter the job will be requeued in held state and the execution node drained.
このパラメーターを指定すると、ジョブは保留状態で再キューイングされ、実行ノードがドレインされます。
- salloc_wait_nodes
-
If defined, the salloc command will wait until all allocated nodes are ready for
use (i.e. booted) before the command returns.
定義されている場合、sallocコマンドは、割り当てられたすべてのノードが使用可能になる(つまり、起動される)まで待機してから、コマンドが戻ります。
By default, salloc will return as soon as the resource allocation has been made.
デフォルトでは、リソースの割り当てが行われるとすぐにsallocが返されます。
- sbatch_wait_nodes
-
If defined, the sbatch script will wait until all allocated nodes are ready for
use (i.e. booted) before the initiation.
定義されている場合、sbatchスクリプトは、割り当てられたすべてのノードが使用可能になる(つまり、起動される)まで待機してから開始します。
By default, the sbatch script will be initiated as soon as the first node in the job allocation is ready.
デフォルトでは、ジョブ割り当ての最初のノードの準備ができるとすぐに、sbatchスクリプトが開始されます。
The sbatch command can use the --wait-all-nodes option to override this configuration parameter.
sbatchコマンドは、-wait-all-nodesオプションを使用して、この構成パラメーターをオーバーライドできます。
- sched_interval=#
-
How frequently, in seconds, the main scheduling loop will execute and test all
pending jobs.
メインのスケジューリングループが実行され、保留中のすべてのジョブをテストする頻度(秒単位)。
The default value is 60 seconds.
デフォルト値は60秒です。
- sched_max_job_start=#
-
The maximum number of jobs that the main scheduling logic will start in any
single execution.
メインのスケジューリングロジックが1回の実行で開始するジョブの最大数。
The default value is zero, which imposes no limit.
デフォルト値はゼロであり、制限はありません。
- sched_min_interval=#
-
How frequently, in microseconds, the main scheduling loop will execute and test
any pending jobs.
メインのスケジューリングループが実行され、保留中のジョブをテストする頻度(マイクロ秒単位)。
The scheduler runs in a limited fashion every time that any event happens which could enable a job to start (e.g. job submit, job terminate, etc.).
スケジューラーは、ジョブの開始を可能にする可能性のあるイベント(ジョブの送信、ジョブの終了など)が発生するたびに、制限された方法で実行されます。
If these events happen at a high frequency, the scheduler can run very frequently and consume significant resources if not throttled by this option.
これらのイベントが高頻度で発生する場合、このオプションで抑制されない限り、スケジューラーは非常に頻繁に実行され、大量のリソースを消費する可能性があります。
This option specifies the minimum time between the end of one scheduling cycle and the beginning of the next scheduling cycle.
このオプションは、1つのスケジューリングサイクルの終了から次のスケジューリングサイクルの開始までの最小時間を指定します。
A value of zero will disable throttling of the scheduling logic interval.
値がゼロの場合、スケジューリングロジック間隔の調整が無効になります。
The default value is 1,000,000 microseconds on Cray/ALPS systems and 2 microseconds on other systems.
デフォルト値は、Cray / ALPSシステムでは1,000,000マイクロ秒、その他のシステムでは2マイクロ秒です。
- spec_cores_first
-
Specialized cores will be selected from the first cores of the first sockets,
cycling through the sockets on a round robin basis.
専用コアは、最初のソケットの最初のコアから選択され、ラウンドロビン方式でソケットを循環します。
By default, specialized cores will be selected from the last cores of the last sockets, cycling through the sockets on a round robin basis.
デフォルトでは、特殊なコアが最後のソケットの最後のコアから選択され、ラウンドロビン方式でソケットを循環します。
- step_retry_count=#
-
When a step completes and there are steps ending resource allocation, then
retry step allocations for at least this number of pending steps.
ステップが完了し、リソース割り当てを終了するステップがある場合は、少なくともこの数の保留中のステップに対してステップ割り当てを再試行します。
Also see step_retry_time.
step_retry_timeも参照してください。
The default value is 8 steps.
デフォルト値は8ステップです。
- step_retry_time=#
-
When a step completes and there are steps ending resource allocation, then
retry step allocations for all steps which have been pending for at least this
number of seconds.
ステップが完了し、リソース割り当てを終了するステップがある場合は、少なくともこの秒数の間保留されているすべてのステップに対してステップ割り当てを再試行します。
Also see step_retry_count.
step_retry_countも参照してください。
The default value is 60 seconds.
デフォルト値は60秒です。
- whole_hetjob
-
Requests to cancel, hold or release any component of a heterogeneous job will
be applied to all components of the job.
異種ジョブのコンポーネントをキャンセル、保留、または解放する要求は、ジョブのすべてのコンポーネントに適用されます。
NOTE: this option was previously named whole_pack and this is still supported for retrocompatibility.
注:このオプションは以前はwhole_packという名前でしたが、下位互換性のために引き続きサポートされています。
-
- SchedulerTimeSlice
-
Number of seconds in each time slice when gang scheduling is enabled
(PreemptMode=SUSPEND,GANG).
ギャングスケジューリングが有効になっている場合の各タイムスライスの秒数(PreemptMode = SUSPEND、GANG)。
The value must be between 5 seconds and 65533 seconds.
値は5秒から65533秒の間でなければなりません。
The default value is 30 seconds.
デフォルト値は30秒です。
- SchedulerType
-
Identifies the type of scheduler to be used.
使用するスケジューラーのタイプを識別します。
Note the slurmctld daemon must be restarted for a change in scheduler type to become effective (reconfiguring a running daemon has no effect for this parameter).
スケジューラタイプの変更を有効にするには、slurmctldデーモンを再起動する必要があることに注意してください(実行中のデーモンを再構成しても、このパラメータには影響しません)。
The scontrol command can be used to manually change job priorities if desired.
必要に応じて、scontrolコマンドを使用してジョブの優先順位を手動で変更できます。
Acceptable values include:
許容値は次のとおりです。
-
- sched/backfill
-
For a backfill scheduling module to augment the default FIFO scheduling.
デフォルトのFIFOスケジューリングを拡張するバックフィルスケジューリングモジュールの場合。
Backfill scheduling will initiate lower-priority jobs if doing so does not delay the expected initiation time of any higher priority job.
バックフィルスケジューリングは、優先度の高いジョブの予想開始時間を遅らせない場合、優先度の低いジョブを開始します。
Effectiveness of backfill scheduling is dependent upon users specifying job time limits, otherwise all jobs will have the same time limit and backfilling is impossible.
バックフィルスケジューリングの有効性は、ユーザーがジョブの時間制限を指定するかどうかに依存します。そうしないと、すべてのジョブに同じ時間制限が設定され、バックフィルは不可能になります。
Note documentation for the SchedulerParameters option above.
上記のSchedulerParametersオプションのドキュメントに注意してください。
This is the default configuration.
これがデフォルトの構成です。
- sched/builtin
-
This is the FIFO scheduler which initiates jobs in priority order.
これは、優先順位に従ってジョブを開始するFIFOスケジューラーです。
If any job in the partition can not be scheduled, no lower priority job in that partition will be scheduled.
パーティション内のいずれかのジョブをスケジュールできない場合、そのパーティション内の優先度の低いジョブはスケジュールされません。
An exception is made for jobs that can not run due to partition constraints (e.g. the time limit) or down/drained nodes.
パーティションの制約(制限時間など)またはノードのダウン/ドレインが原因で実行できないジョブには例外があります。
In that case, lower priority jobs can be initiated and not impact the higher priority job.
その場合、優先度の低いジョブを開始でき、優先度の高いジョブに影響を与えることはありません。
- sched/hold
-
To hold all newly arriving jobs if a file "/etc/slurm.hold"
exists otherwise use the built-in FIFO scheduler
ファイル「/etc/slurm.hold」が存在する場合に新しく到着するすべてのジョブを保持するには、それ以外の場合は組み込みのFIFOスケジューラーを使用します
-
- SelectType
-
Identifies the type of resource selection algorithm to be used.
使用するリソース選択アルゴリズムのタイプを識別します。
Changing this value can only be done by restarting the slurmctld daemon.
この値の変更は、slurmctldデーモンを再起動することによってのみ実行できます。
When changed, all job information (running and pending) will be lost, since the job state save format used by each plugin is different.
変更すると、各プラグインで使用されるジョブ状態の保存形式が異なるため、すべてのジョブ情報(実行中および保留中)が失われます。
The only exception to this is when changing from cons_res to cons_tres or from cons_tres to cons_res.
これに対する唯一の例外は、cons_resからcons_tresに、またはcons_tresからcons_resに変更する場合です。
However, if a job contains cons_tres-specific features and then SelectType is changed to cons_res, the job will be canceled, since there is no way for cons_res to satisfy requirements specific to cons_tres.
ただし、ジョブにcons_tres固有の機能が含まれていて、SelectTypeがcons_resに変更された場合、cons_resがcons_tresに固有の要件を満たす方法がないため、ジョブはキャンセルされます。
Acceptable values include
許容値は次のとおりです。
-
- select/cons_res
-
The resources (cores and memory) within a node are individually allocated as
consumable resources.
ノード内のリソース(コアとメモリ)は、消費可能なリソースとして個別に割り当てられます。
Note that whole nodes can be allocated to jobs for selected partitions by using the OverSubscribe=Exclusive option.
OverSubscribe = Exclusiveオプションを使用すると、ノード全体を選択したパーティションのジョブに割り当てることができることに注意してください。
See the partition OverSubscribe parameter for more information.
詳細については、パーティションのOverSubscribeパラメーターを参照してください。
- select/cray_aries
-
for a Cray system.
クレイシステムの場合。
The default value is "select/cray_aries" for all Cray systems.
デフォルト値は、すべてのCrayシステムで「select / cray_aries」です。
- select/linear
-
for allocation of entire nodes assuming a one-dimensional array of nodes in
which sequentially ordered nodes are preferable.
順番に並べられたノードが望ましいノードの1次元配列を想定したノード全体の割り当て。
For a heterogeneous cluster (e.g. different CPU counts on the various nodes), resource allocations will favor nodes with high CPU counts as needed based upon the job's node and CPU specification if TopologyPlugin=topology/none is configured.
異種クラスター(たとえば、さまざまなノードで異なるCPUカウント)の場合、TopologyPlugin = topology / noneが構成されている場合、リソース割り当ては、ジョブのノードとCPU仕様に基づいて、必要に応じてCPUカウントが高いノードを優先します。
Use of other topology plugins with select/linear and heterogeneous nodes is not recommended and may result in valid job allocation requests being rejected.
選択/線形および異種ノードで他のトポロジプラグインを使用することは推奨されておらず、有効なジョブ割り当て要求が拒否される可能性があります。
This is the default value.
これがデフォルト値です。
- select/cons_tres
-
The resources (cores, memory, GPUs and all other trackable resources) within
a node are individually allocated as consumable resources.
ノード内のリソース(コア、メモリ、GPU、およびその他すべての追跡可能なリソース)は、消費可能なリソースとして個別に割り当てられます。
Note that whole nodes can be allocated to jobs for selected partitions by using the OverSubscribe=Exclusive option.
OverSubscribe = Exclusiveオプションを使用すると、ノード全体を選択したパーティションのジョブに割り当てることができることに注意してください。
See the partition OverSubscribe parameter for more information.
詳細については、パーティションのOverSubscribeパラメーターを参照してください。
-
- SelectTypeParameters
-
The permitted values of SelectTypeParameters depend upon the
configured value of SelectType.
SelectTypeParametersの許可される値は、SelectTypeの構成値によって異なります。
The only supported options for SelectType=select/linear are CR_ONE_TASK_PER_CORE and CR_Memory, which treats memory as a consumable resource and prevents memory over subscription with job preemption or gang scheduling.
SelectType = select / linearでサポートされているオプションは、CR_ONE_TASK_PER_COREとCR_Memoryのみです。これらは、メモリを消費可能なリソースとして扱い、ジョブのプリエンプションまたはギャングスケジューリングによるサブスクリプションのメモリ超過を防ぎます。
By default SelectType=select/linear allocates whole nodes to jobs without considering their memory consumption.
デフォルトでは、SelectType = select / linearは、メモリ消費を考慮せずにノード全体をジョブに割り当てます。
By default SelectType=select/cons_res, SelectType=select/cray_aries, and SelectType=select/cons_tres, use CR_CPU, which allocates CPU (threads) to jobs without considering their memory consumption.
デフォルトでは、SelectType = select / cons_res、SelectType = select / cray_aries、およびSelectType = select / cons_tresは、メモリ消費を考慮せずにCPU(スレッド)をジョブに割り当てるCR_CPUを使用します。
-
The following options are supported for SelectType=select/cray_aries:
SelectType = select / cray_ariesでは次のオプションがサポートされています。
-
- OTHER_CONS_RES
-
Layer the select/cons_res plugin under the select/cray_aries plugin, the default is
to layer on select/linear.
select / cons_resプラグインをselect / cray_ariesプラグインの下にレイヤーします。デフォルトではselect / linearにレイヤーします。
This also allows all the options available for SelectType=select/cons_res.
これにより、SelectType = select / cons_resで使用可能なすべてのオプションも使用できるようになります。
- OTHER_CONS_TRES
-
Layer the select/cons_tres plugin under the select/cray_aries plugin, the default is
to layer on select/linear.
select / cons_tresプラグインをselect / cray_ariesプラグインの下にレイヤーします。デフォルトではselect / linearにレイヤーします。
This also allows all the options available for SelectType=select/cons_tres.
これにより、SelectType = select / cons_tresで使用可能なすべてのオプションも使用できるようになります。
The following options are supported by the SelectType=select/cons_res and SelectType=select/cons_tres plugins:
次のオプションは、SelectType = select / cons_resおよびSelectType = select / cons_tresプラグインでサポートされています。
-
- CR_CPU
-
CPUs are consumable resources.
CPUは消費可能なリソースです。
Configure the number of CPUs on each node, which may be equal to the count of cores or hyper-threads on the node depending upon the desired minimum resource allocation.
各ノードのCPUの数を構成します。これは、必要な最小リソース割り当てに応じて、ノードのコアまたはハイパースレッドの数と同じになる場合があります。
The node's Boards, Sockets, CoresPerSocket and ThreadsPerCore may optionally be configured and result in job allocations which have improved locality; however doing so will prevent more than one job being from being allocated on each core.
ノードのBoards、Sockets、CoresPerSocket、およびThreadsPerCoreは、オプションで構成でき、局所性が向上したジョブ割り当てになります。ただし、そうすることで、各コアに複数のジョブが割り当てられるのを防ぐことができます。
- CR_CPU_Memory
-
CPUs and memory are consumable resources.
CPUとメモリは消費可能なリソースです。
Configure the number of CPUs on each node, which may be equal to the count of cores or hyper-threads on the node depending upon the desired minimum resource allocation.
各ノードのCPUの数を構成します。これは、必要な最小リソース割り当てに応じて、ノードのコアまたはハイパースレッドの数と同じになる場合があります。
The node's Boards, Sockets, CoresPerSocket and ThreadsPerCore may optionally be configured and result in job allocations which have improved locality; however doing so will prevent more than one job being from being allocated on each core.
ノードのBoards、Sockets、CoresPerSocket、およびThreadsPerCoreは、オプションで構成でき、局所性が向上したジョブ割り当てになります。ただし、そうすることで、各コアに複数のジョブが割り当てられるのを防ぐことができます。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
- CR_Core
-
Cores are consumable resources.
コアは消費可能なリソースです。
On nodes with hyper-threads, each thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated threads on the same core.
ハイパースレッドのあるノードでは、各スレッドはジョブのリソース要件を満たすためにCPUとしてカウントされますが、複数のジョブに同じコア上のスレッドが割り当てられることはありません。
The count of CPUs allocated to a job may be rounded up to account for every CPU on an allocated core.
ジョブに割り当てられたCPUの数は、割り当てられたコア上のすべてのCPUを考慮して切り上げられる場合があります。
- CR_Core_Memory
-
Cores and memory are consumable resources.
コアとメモリは消費可能なリソースです。
On nodes with hyper-threads, each thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated threads on the same core.
ハイパースレッドのあるノードでは、各スレッドはジョブのリソース要件を満たすためにCPUとしてカウントされますが、複数のジョブに同じコア上のスレッドが割り当てられることはありません。
The count of CPUs allocated to a job may be rounded up to account for every CPU on an allocated core.
ジョブに割り当てられたCPUの数は、割り当てられたコア上のすべてのCPUを考慮して切り上げられる場合があります。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
- CR_ONE_TASK_PER_CORE
-
Allocate one task per core by default.
デフォルトでは、コアごとに1つのタスクを割り当てます。
Without this option, by default one task will be allocated per thread on nodes with more than one ThreadsPerCore configured.
このオプションがない場合、デフォルトでは、複数のThreadsPerCoreが構成されているノードのスレッドごとに1つのタスクが割り当てられます。
NOTE: This option cannot be used with CR_CPU*.
注:このオプションは、CR_CPU *では使用できません。
- CR_CORE_DEFAULT_DIST_BLOCK
-
Allocate cores within a node using block distribution by default.
デフォルトでは、ブロック分散を使用してノード内にコアを割り当てます。
This is a pseudo-best-fit algorithm that minimizes the number of boards and minimizes the number of sockets (within minimum boards) used for the allocation.
これは、ボードの数を最小限に抑え、割り当てに使用されるソケットの数(最小ボード内)を最小限に抑える疑似最適アルゴリズムです。
This default behavior can be overridden specifying a particular "-m" parameter with srun/salloc/sbatch.
このデフォルトの動作は、srun / salloc / sbatchで特定の「-m」パラメーターを指定してオーバーライドできます。
Without this option, cores will be allocated cyclicly across the sockets.
このオプションがないと、コアはソケット全体に循環的に割り当てられます。
- CR_LLN
-
Schedule resources to jobs on the least loaded nodes (based upon the number
of idle CPUs).
(アイドル状態のCPUの数に基づいて)最も負荷の少ないノード上のジョブにリソースをスケジュールします。
This is generally only recommended for an environment with serial jobs as idle resources will tend to be highly fragmented, resulting in parallel jobs being distributed across many nodes.
アイドル状態のリソースは非常に断片化される傾向があり、並列ジョブが多くのノードに分散されるため、これは通常、シリアルジョブがある環境でのみ推奨されます。
Note that node Weight takes precedence over how many idle resources are on each node.
ノードの重みは、各ノードにあるアイドル状態のリソースの数よりも優先されることに注意してください。
Also see the partition configuration parameter LLN use the least loaded nodes in selected partitions.
パーティション構成パラメーターLLNは、選択したパーティションで最も負荷の少ないノードを使用することも参照してください。
- CR_Pack_Nodes
-
If a job allocation contains more resources than will be used for launching
tasks (e.g. if whole nodes are allocated to a job), then rather than
distributing a job's tasks evenly across its allocated nodes, pack them as
tightly as possible on these nodes.
ジョブの割り当てに、タスクの起動に使用されるよりも多くのリソースが含まれている場合(たとえば、ノード全体がジョブに割り当てられている場合)、割り当てられたノード全体にジョブのタスクを均等に分散するのではなく、これらのノードにできるだけ密にパックします。
For example, consider a job allocation containing two entire nodes with eight CPUs each.
たとえば、それぞれ8つのCPUを備えた2つのノード全体を含むジョブ割り当てについて考えてみます。
If the job starts ten tasks across those two nodes without this option, it will start five tasks on each of the two nodes.
このオプションを使用せずに、ジョブがこれら2つのノードで10個のタスクを開始すると、2つのノードのそれぞれで5個のタスクが開始されます。
With this option, eight tasks will be started on the first node and two tasks on the second node.
このオプションを使用すると、最初のノードで8つのタスクが開始され、2番目のノードで2つのタスクが開始されます。
This can be superseded by "NoPack" in srun's "--distribution" option.
これは、srunの「--distribution」オプションの「NoPack」に置き換えることができます。
CR_Pack_Nodes only applies when the "block" task distribution method is used.
CR_Pack_Nodesは、「ブロック」タスク分散方式が使用されている場合にのみ適用されます。
- CR_Socket
-
Sockets are consumable resources.
ソケットは消耗品です。
On nodes with multiple cores, each core or thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated resources on the same socket.
複数のコアを持つノードでは、各コアまたはスレッドはジョブのリソース要件を満たすためにCPUとしてカウントされますが、複数のジョブに同じソケット上のリソースが割り当てられることはありません。
- CR_Socket_Memory
-
Memory and sockets are consumable resources.
メモリとソケットは消費可能なリソースです。
On nodes with multiple cores, each core or thread is counted as a CPU to satisfy a job's resource requirement, but multiple jobs are not allocated resources on the same socket.
複数のコアを持つノードでは、各コアまたはスレッドはジョブのリソース要件を満たすためにCPUとしてカウントされますが、複数のジョブに同じソケット上のリソースが割り当てられることはありません。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
- CR_Memory
-
Memory is a consumable resource.
メモリは消耗品です。
NOTE: This implies OverSubscribe=YES or OverSubscribe=FORCE for all partitions.
注:これは、すべてのパーティションに対してOverSubscribe = YESまたはOverSubscribe = FORCEを意味します。
Setting a value for DefMemPerCPU is strongly recommended.
DefMemPerCPUの値を設定することを強くお勧めします。
-
-
- SlurmUser
-
The name of the user that the slurmctld daemon executes as.
slurmctldデーモンが実行されるユーザーの名前。
For security purposes, a user other than "root" is recommended.
セキュリティ上の理由から、「root」以外のユーザーをお勧めします。
This user must exist on all nodes of the cluster for authentication of communications between Slurm components.
このユーザーは、Slurmコンポーネント間の通信を認証するために、クラスターのすべてのノードに存在する必要があります。
The default value is "root".
デフォルト値は「root」です。
- SlurmdParameters
-
Parameters specific to the Slurmd.
Slurmdに固有のパラメーター。
Multiple options may be comma separated.
複数のオプションはコンマで区切ることができます。
-
- config_overrides
-
If set, consider the configuration of each node to be that specified in the
slurm.conf configuration file and any node with less than the
configured resources will not be set DRAIN.
設定されている場合、各ノードの構成はslurm.conf構成ファイルで指定されているものと見なされ、構成されたリソースより少ないノードはDRAINに設定されません。
This option is generally only useful for testing purposes.
このオプションは通常、テスト目的でのみ役立ちます。
Equivalent to the now deprecated FastSchedule=2 option.
現在非推奨のFastSchedule = 2オプションと同等です。
- shutdown_on_reboot
-
If set, the Slurmd will shut itself down when a reboot request is received.
設定されている場合、再起動要求を受信すると、Slurmdは自動的にシャットダウンします。
-
- SlurmdUser
-
The name of the user that the slurmd daemon executes as.
slurmdデーモンが実行されるユーザーの名前。
This user must exist on all nodes of the cluster for authentication of communications between Slurm components.
このユーザーは、Slurmコンポーネント間の通信を認証するために、クラスターのすべてのノードに存在する必要があります。
The default value is "root".
デフォルト値は「root」です。
- SlurmctldAddr
-
An optional address to be used for communications to the currently active
slurmctld daemon, normally used with Virtual IP addressing of the currently
active server.
現在アクティブなslurmctldデーモンとの通信に使用されるオプションのアドレス。通常、現在アクティブなサーバーの仮想IPアドレス指定で使用されます。
If this parameter is not specified then each primary and backup server will have its own unique address used for communications as specified in the SlurmctldHost parameter.
このパラメーターが指定されていない場合、各プライマリサーバーとバックアップサーバーには、SlurmctldHostパラメーターで指定されているように通信に使用される独自の一意のアドレスがあります。
If this parameter is specified then the SlurmctldHost parameter will still be used for communications to specific slurmctld primary or backup servers, for example to cause all of them to read the current configuration files or shutdown.
このパラメーターが指定されている場合、SlurmctldHostパラメーターは、特定のslurmctldプライマリサーバーまたはバックアップサーバーとの通信に引き続き使用されます。たとえば、すべてのサーバーに現在の構成ファイルを読み取らせたり、シャットダウンしたりします。
Also see the SlurmctldPrimaryOffProg and SlurmctldPrimaryOnProg configuration parameters to configure programs to manipulate virtual IP address manipulation.
仮想IPアドレス操作を操作するようにプログラムを構成するには、SlurmctldPrimaryOffProgおよびSlurmctldPrimaryOnProg構成パラメーターも参照してください。
- SlurmctldDebug
-
The level of detail to provide slurmctld daemon's logs.
slurmctldデーモンのログを提供するための詳細レベル。
The default value is info.
デフォルト値はinfoです。
If the slurmctld daemon is initiated with -v or --verbose options, that debug level will be preserve or restored upon reconfiguration.
slurmctldデーモンが-vまたは--verboseオプションで開始された場合、そのデバッグレベルは再構成時に保持または復元されます。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみをログに記録する
- info
-
Log errors and general informational messages
ログエラーと一般的な情報メッセージ
- verbose
-
Log errors and verbose informational messages
ログエラーと詳細な情報メッセージ
- debug
-
Log errors and verbose informational messages and debugging messages
ログエラーと詳細な情報メッセージおよびデバッグメッセージ
- debug2
-
Log errors and verbose informational messages and more debugging messages
ログエラーと詳細な情報メッセージおよびその他のデバッグメッセージ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug4
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug5
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
-
- SlurmctldHost
-
The short, or long, hostname of the machine where Slurm control daemon is
executed (i.e. the name returned by the command "hostname -s").
Slurm制御デーモンが実行されるマシンの短いまたは長いホスト名(つまり、コマンド「hostname-s」によって返される名前)。
This hostname is optionally followed by the address, either the IP address or a name by which the address can be identifed, enclosed in parentheses (e.g. SlurmctldHost=master1(12.34.56.78)).
このホスト名の後には、オプションで、IPアドレスまたはアドレスを識別できる名前のいずれかが括弧で囲まれて続きます(例:SlurmctldHost = master1(12.34.56.78))。
This value must be specified at least once.
この値は少なくとも1回指定する必要があります。
If specified more than once, the first hostname named will be where the daemon runs.
複数回指定した場合、指定された最初のホスト名はデーモンが実行される場所になります。
If the first specified host fails, the daemon will execute on the second host.
最初に指定されたホストに障害が発生した場合、デーモンは2番目のホストで実行されます。
If both the first and second specified host fails, the daemon will execute on the third host.
指定された最初のホストと2番目のホストの両方に障害が発生した場合、デーモンは3番目のホストで実行されます。
- SlurmctldLogFile
-
Fully qualified pathname of a file into which the slurmctld daemon's
logs are written.
slurmctldデーモンのログが書き込まれるファイルの完全修飾パス名。
The default value is none (performs logging via syslog).
デフォルト値はnoneです(syslogを介してロギングを実行します)。
See the section LOGGING if a pathname is specified.
パス名が指定されている場合は、「LOGGING」セクションを参照してください。
- SlurmctldParameters
-
Multiple options may be comma-separated.
複数のオプションをコンマで区切ることができます。
-
- allow_user_triggers
-
Permit setting triggers from non-root/slurm_user users.
root / slurm_user以外のユーザーからの設定トリガーを許可します。
SlurmUser must also be set to root to permit these triggers to work.
これらのトリガーが機能するようにするには、SlurmUserもrootに設定する必要があります。
See the strigger man page for additional details.
詳細については、striggerのmanページを参照してください。
- cloud_dns
-
By default, Slurm expects that the network address for a cloud node won't
be known until the creation of the node and that Slurm will be notified of the
node's address (e.g. scontrol update nodename=<name> nodeaddr=<addr>).
デフォルトでは、Slurmは、ノードが作成されるまでクラウドノードのネットワークアドレスがわからないこと、およびノードのアドレスがSlurmに通知されることを想定しています(例:scontrol update nodename = <name> nodeaddr = <addr>)。
Since Slurm communications rely on the node configuration found in the slurm.conf, Slurm will tell the client command, after waiting for all nodes to boot, each node's ip address.
Slurm通信はslurm.confにあるノード構成に依存しているため、Slurmは、すべてのノードが起動するのを待った後、各ノードのIPアドレスをクライアントコマンドに通知します。
However, in environments where the nodes are in DNS, this step can be avoided by configuring this option.
ただし、ノードがDNSにある環境では、このオプションを構成することでこの手順を回避できます。
- enable_configless
-
Permit "configless" operation by the slurmd, slurmstepd, and user commands.
slurmd、slurmstepd、およびuserコマンドによる「configless」操作を許可します。
When enabled the slurmd will be permitted to retrieve config files from the slurmctld, and on any 'scontrol reconfigure' command new configs will be automatically pushed out and applied to nodes that are running in this "configless" mode.
有効にすると、slurmdはslurmctldから構成ファイルを取得できるようになり、「scontrol reconfigure」コマンドを実行すると、新しい構成が自動的にプッシュされ、この「configless」モードで実行されているノードに適用されます。
NOTE: a restart of the slurmctld is required for this to take effect.
注:これを有効にするには、slurmctldを再起動する必要があります。
- idle_on_node_suspend Mark nodes as idle, regardless of current state,
-
when suspending nodes with SuspendProgram so that nodes will be eligible
to be resumed at a later time.
SuspendProgramを使用してノードを一時停止し、ノードを後で再開できるようにする場合。
- max_dbd_msg_action
- Action used once MaxDBDMsgs is reached, options are 'discard' (default) and 'exit'.
MaxDBDMsgsに到達したときに使用されるアクション。オプションは、「破棄」(デフォルト)および「終了」です。
When 'discard' is specified and MaxDBDMsgs is reached we start by purging pending messages of types Step start and complete, and it reaches MaxDBDMsgs again Job start messages are purged.
'discard'が指定され、MaxDBDMsgsに到達すると、ステップ開始および完了タイプの保留中のメッセージをパージすることから開始し、再びMaxDBDMsgsに到達します。ジョブ開始メッセージはパージされます。
Job completes and node state changes continue to consume the empty space created from the purgings until MaxDBDMsgs is reached again at which no new message is tracked creating data loss and potentially runaway jobs.
ジョブが完了し、ノードの状態の変更は、MaxDBDMsgsに再び到達するまで、パージから作成された空のスペースを消費し続けます。この時点で、新しいメッセージは追跡されず、データの損失と潜在的に暴走するジョブが作成されます。
When 'exit' is specified and MaxDBDMsgs is reached the slurmctld will exit instead of discarding any messages.
'exit'が指定され、MaxDBDMsgsに到達すると、slurmctldはメッセージを破棄する代わりに終了します。
It will be impossible to start the slurmctld with this option where the slurmdbd is down and the slurmctld is tracking more than MaxDBDMsgs.
slurmdbdがダウンしていて、slurmctldがMaxDBDMsgsを超えて追跡している場合、このオプションでslurmctldを開始することはできません。
- preempt_send_user_signal
-
Send the user signal (e.g. --signal=<sig_num>)
at preemption time even if the signal time hasn't been reached.
シグナル時間に達していない場合でも、プリエンプション時間にユーザーシグナル(例:-signal = <sig_num>)を送信します。
In the case of a gracetime preemption the user signal will be sent if the user signal has been specified and not sent, otherwise a SIGTERM will be sent to the tasks.
猶予時間プリエンプションの場合、ユーザーシグナルが指定されていて送信されていない場合はユーザーシグナルが送信されます。それ以外の場合は、SIGTERMがタスクに送信されます。
- reboot_from_controller
-
Run the RebootProgram from the controller
instead of on the slurmds.
slurmdではなく、コントローラーからRebootProgramを実行します。
The RebootProgram will be passed a comma-separated list of nodes to reboot.
RebootProgramには、再起動するノードのコンマ区切りリストが渡されます。
-
- SlurmctldPidFile
-
Fully qualified pathname of a file into which the slurmctld daemon
may write its process id.
slurmctldデーモンがプロセスIDを書き込む可能性のあるファイルの完全修飾パス名。
This may be used for automated signal processing.
これは、自動信号処理に使用できます。
The default value is "/var/run/slurmctld.pid".
デフォルト値は「/var/run/slurmctld.pid」です。
- SlurmctldPlugstack
-
A comma delimited list of Slurm controller plugins to be started when the
daemon begins and terminated when it ends.
デーモンの開始時に開始され、デーモンの終了時に終了するSlurmコントローラープラグインのコンマ区切りリスト。
Only the plugin's init and fini functions are called.
プラグインのinit関数とfini関数のみが呼び出されます。
- SlurmctldPort
-
The port number that the Slurm controller, slurmctld, listens
to for work.
Slurmコントローラーslurmctldが作業をリッスンするポート番号。
The default value is SLURMCTLD_PORT as established at system build time.
デフォルト値は、システム構築時に確立されたSLURMCTLD_PORTです。
If none is explicitly specified, it will be set to 6817.
明示的に指定されていない場合は、6817に設定されます。
SlurmctldPort may also be configured to support a range of port numbers in order to accept larger bursts of incoming messages by specifying two numbers separated by a dash (e.g. SlurmctldPort=6817-6818).
SlurmctldPortは、ダッシュで区切られた2つの番号を指定することにより、着信メッセージのより大きなバーストを受け入れるために、ポート番号の範囲をサポートするように構成することもできます(SlurmctldPort = 6817-6818など)。
NOTE: Either slurmctld and slurmd daemons must not execute on the same nodes or the values of SlurmctldPort and SlurmdPort must be different.
注:slurmctldデーモンとslurmdデーモンを同じノードで実行することはできません。または、SlurmctldPortとSlurmdPortの値が異なる必要があります。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレス指定(RSIP)は、ポート8192〜60000で開かれているものと自動的に対話しようとします。
Configure SlurmctldPort to use a port outside of the configured SrunPortRange and RSIP's port range.
構成されたSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにSlurmctldPortを構成します。
- SlurmctldPrimaryOffProg
-
This program is executed when a slurmctld daemon running as the primary server
becomes a backup server.
このプログラムは、プライマリサーバーとして実行されているslurmctldデーモンがバックアップサーバーになったときに実行されます。
By default no program is executed.
デフォルトでは、プログラムは実行されません。
See also the related "SlurmctldPrimaryOnProg" parameter.
関連する「SlurmctldPrimaryOnProg」パラメーターも参照してください。
- SlurmctldPrimaryOnProg
-
This program is executed when a slurmctld daemon running as a backup server
becomes the primary server.
このプログラムは、バックアップサーバーとして実行されているslurmctldデーモンがプライマリサーバーになったときに実行されます。
By default no program is executed.
デフォルトでは、プログラムは実行されません。
When using virtual IP addresses to manage High Available Slurm services, this program can be used to add the IP address to an interface (and optionally try to kill the unresponsive slurmctld daemon and flush the ARP caches on nodes on the local ethernet fabric).
仮想IPアドレスを使用してHighAvailable Slurmサービスを管理する場合、このプログラムを使用してIPアドレスをインターフェイスに追加できます(オプションで、応答しないslurmctldデーモンを強制終了し、ローカルイーサネットファブリック上のノードのARPキャッシュをフラッシュします)。
See also the related "SlurmctldPrimaryOffProg" parameter.
関連する「SlurmctldPrimaryOffProg」パラメーターも参照してください。
- SlurmctldSyslogDebug
-
The slurmctld daemon will log events to the syslog file at the specified
level of detail.
slurmctldデーモンは、指定された詳細レベルでイベントをsyslogファイルに記録します。
If not set, the slurmctld daemon will log to syslog at level fatal, unless there is no SlurmctldLogFile and it is running in the background, in which case it will log to syslog at the level specified by SlurmctldDebug (at fatal in the case that SlurmctldDebug is set to quiet) or it is run in the foreground, when it will be set to quiet.
設定されていない場合、slurmctldLogFileがなく、バックグラウンドで実行されている場合を除き、slurmctldデーモンは致命的なレベルでsyslogにログを記録します。バックグラウンドで実行されている場合、SlurmctldDebugで指定されたレベルでsyslogにログを記録します(SlurmctldDebugの場合は致命的)はquietに設定されています)または、quietに設定されるときにフォアグラウンドで実行されます。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみをログに記録する
- info
-
Log errors and general informational messages
ログエラーと一般的な情報メッセージ
- verbose
-
Log errors and verbose informational messages
ログエラーと詳細な情報メッセージ
- debug
-
Log errors and verbose informational messages and debugging messages
ログエラーと詳細な情報メッセージおよびデバッグメッセージ
- debug2
-
Log errors and verbose informational messages and more debugging messages
ログエラーと詳細な情報メッセージおよびその他のデバッグメッセージ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug4
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug5
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
-
- SlurmctldTimeout
-
The interval, in seconds, that the backup controller waits for the
primary controller to respond before assuming control.
バックアップコントローラが制御を引き継ぐ前にプライマリコントローラが応答するのを待機する間隔(秒単位)。
The default value is 120 seconds.
デフォルト値は120秒です。
May not exceed 65533.
65533を超えることはできません。
- SlurmdDebug
-
The level of detail to provide slurmd daemon's logs.
slurmdデーモンのログを提供するための詳細レベル。
The default value is info.
デフォルト値はinfoです。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみをログに記録する
- info
-
Log errors and general informational messages
ログエラーと一般的な情報メッセージ
- verbose
-
Log errors and verbose informational messages
ログエラーと詳細な情報メッセージ
- debug
-
Log errors and verbose informational messages and debugging messages
ログエラーと詳細な情報メッセージおよびデバッグメッセージ
- debug2
-
Log errors and verbose informational messages and more debugging messages
ログエラーと詳細な情報メッセージおよびその他のデバッグメッセージ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug4
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug5
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
-
- SlurmdLogFile
-
Fully qualified pathname of a file into which the slurmd daemon's
logs are written.
slurmdデーモンのログが書き込まれるファイルの完全修飾パス名。
The default value is none (performs logging via syslog).
デフォルト値はnoneです(syslogを介してロギングを実行します)。
Any "%h" within the name is replaced with the hostname on which the slurmd is running.
名前内の「%h」は、slurmdが実行されているホスト名に置き換えられます。
Any "%n" within the name is replaced with the Slurm node name on which the slurmd is running.
名前内の「%n」は、slurmdが実行されているSlurmノード名に置き換えられます。
See the section LOGGING if a pathname is specified.
パス名が指定されている場合は、「LOGGING」セクションを参照してください。
- SlurmdPidFile
-
Fully qualified pathname of a file into which the slurmd daemon may write
its process id.
slurmdデーモンがプロセスIDを書き込む可能性のあるファイルの完全修飾パス名。
This may be used for automated signal processing.
これは、自動信号処理に使用できます。
Any "%h" within the name is replaced with the hostname on which the slurmd is running.
名前内の「%h」は、slurmdが実行されているホスト名に置き換えられます。
Any "%n" within the name is replaced with the Slurm node name on which the slurmd is running.
名前内の「%n」は、slurmdが実行されているSlurmノード名に置き換えられます。
The default value is "/var/run/slurmd.pid".
デフォルト値は「/var/run/slurmd.pid」です。
- SlurmdPort
-
The port number that the Slurm compute node daemon, slurmd, listens
to for work.
Slurm計算ノードデーモンslurmdが作業をリッスンするポート番号。
The default value is SLURMD_PORT as established at system build time.
デフォルト値は、システム構築時に確立されたSLURMD_PORTです。
If none is explicitly specified, its value will be 6818.
明示的に指定されていない場合、その値は6818になります。
NOTE: Either slurmctld and slurmd daemons must not execute on the same nodes or the values of SlurmctldPort and SlurmdPort must be different.
注:slurmctldデーモンとslurmdデーモンを同じノードで実行することはできません。または、SlurmctldPortとSlurmdPortの値が異なる必要があります。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレス指定(RSIP)は、ポート8192〜60000で開かれているものと自動的に対話しようとします。
Configure SlurmdPort to use a port outside of the configured SrunPortRange and RSIP's port range.
構成済みのSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにSlurmdPortを構成します。
- SlurmdSpoolDir
-
Fully qualified pathname of a directory into which the slurmd
daemon's state information and batch job script information are written.
slurmdデーモンの状態情報とバッチジョブスクリプト情報が書き込まれるディレクトリの完全修飾パス名。
This must be a common pathname for all nodes, but should represent a directory which is local to each node (reference a local file system).
これはすべてのノードに共通のパス名である必要がありますが、各ノードに対してローカルなディレクトリを表す必要があります(ローカルファイルシステムを参照してください)。
The default value is "/var/spool/slurmd".
デフォルト値は「/ var / pool / slurmd」です。
Any "%h" within the name is replaced with the hostname on which the slurmd is running.
名前内の「%h」は、slurmdが実行されているホスト名に置き換えられます。
Any "%n" within the name is replaced with the Slurm node name on which the slurmd is running.
名前内の「%n」は、slurmdが実行されているSlurmノード名に置き換えられます。
- SlurmdSyslogDebug
-
The slurmd daemon will log events to the syslog file at the specified
level of detail.
slurmdデーモンは、指定された詳細レベルでイベントをsyslogファイルに記録します。
If not set, the slurmd daemon will log to syslog at level fatal, unless there is no SlurmdLogFile and it is running in the background, in which case it will log to syslog at the level specified by SlurmdDebug (at fatal in the case that SlurmdDebug is set to quiet) or it is run in the foreground, when it will be set to quiet.
設定されていない場合、slurmdデーモンはSlurmdLogFileがなく、バックグラウンドで実行されている場合を除き、致命的なレベルでsyslogにログを記録します。バックグラウンドで実行されている場合は、SlurmdDebugで指定されたレベルでsyslogにログを記録します(SlurmdDebugの場合は致命的です)。はquietに設定されています)または、quietに設定されるときにフォアグラウンドで実行されます。
-
- quiet
-
Log nothing
何も記録しない
- fatal
-
Log only fatal errors
致命的なエラーのみをログに記録する
- error
-
Log only errors
エラーのみをログに記録する
- info
-
Log errors and general informational messages
ログエラーと一般的な情報メッセージ
- verbose
-
Log errors and verbose informational messages
ログエラーと詳細な情報メッセージ
- debug
-
Log errors and verbose informational messages and debugging messages
ログエラーと詳細な情報メッセージおよびデバッグメッセージ
- debug2
-
Log errors and verbose informational messages and more debugging messages
ログエラーと詳細な情報メッセージおよびその他のデバッグメッセージ
- debug3
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug4
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
- debug5
-
Log errors and verbose informational messages and even more debugging messages
ログエラーと詳細な情報メッセージ、さらに多くのデバッグメッセージ
-
- SlurmdTimeout
-
The interval, in seconds, that the Slurm controller waits for slurmd
to respond before configuring that node's state to DOWN.
Slurmコントローラーがslurmdの応答を待機してから、そのノードの状態をDOWNに構成する間隔(秒単位)。
A value of zero indicates the node will not be tested by slurmctld to confirm the state of slurmd, the node will not be automatically set to a DOWN state indicating a non-responsive slurmd, and some other tool will take responsibility for monitoring the state of each compute node and its slurmd daemon.
ゼロの値は、ノードがslurmdの状態を確認するためにslurmctldによってテストされないこと、ノードが応答しないslurmdを示すDOWN状態に自動的に設定されないこと、および他のツールがの状態を監視する責任を負うことを示します。各計算ノードとそのslurmdデーモン。
Slurm's hierarchical communication mechanism is used to ping the slurmd daemons in order to minimize system noise and overhead.
Slurmの階層通信メカニズムは、システムのノイズとオーバーヘッドを最小限に抑えるために、slurmdデーモンにpingを実行するために使用されます。
The default value is 300 seconds.
デフォルト値は300秒です。
The value may not exceed 65533 seconds.
値は65533秒を超えてはなりません。
- SlurmSchedLogFile
-
Fully qualified pathname of the scheduling event logging file.
スケジューリングイベントログファイルの完全修飾パス名。
The syntax of this parameter is the same as for SlurmctldLogFile.
このパラメーターの構文は、SlurmctldLogFileの場合と同じです。
In order to configure scheduler logging, set both the SlurmSchedLogFile and SlurmSchedLogLevel parameters.
スケジューラーロギングを構成するには、SlurmSchedLogFileパラメーターとSlurmSchedLogLevelパラメーターの両方を設定します。
- SlurmSchedLogLevel
-
The initial level of scheduling event logging, similar to the
SlurmctldDebug parameter used to control the initial level of
slurmctld logging.
slurmctldロギングの初期レベルを制御するために使用されるSlurmctldDebugパラメーターと同様のスケジューリングイベントロギングの初期レベル。
Valid values for SlurmSchedLogLevel are "0" (scheduler logging disabled) and "1" (scheduler logging enabled).
SlurmSchedLogLevelの有効な値は、「0」(スケジューラーロギングが無効)および「1」(スケジューラーロギングが有効)です。
If this parameter is omitted, the value defaults to "0" (disabled).
このパラメーターを省略すると、値はデフォルトで「0」(無効)になります。
In order to configure scheduler logging, set both the SlurmSchedLogFile and SlurmSchedLogLevel parameters.
スケジューラーロギングを構成するには、SlurmSchedLogFileパラメーターとSlurmSchedLogLevelパラメーターの両方を設定します。
The scheduler logging level can be changed dynamically using scontrol.
スケジューラのログレベルは、scontrolを使用して動的に変更できます。
- SrunEpilog
-
Fully qualified pathname of an executable to be run by srun following
the completion of a job step.
ジョブステップの完了後にsrunによって実行される実行可能ファイルの完全修飾パス名。
The command line arguments for the executable will be the command and arguments of the job step.
実行可能ファイルのコマンドライン引数は、ジョブステップのコマンドと引数になります。
This configuration parameter may be overridden by srun's --epilog parameter.
この構成パラメーターは、srunの--epilogパラメーターによってオーバーライドされる場合があります。
Note that while the other "Epilog" executables (e.g., TaskEpilog) are run by slurmd on the compute nodes where the tasks are executed, the SrunEpilog runs on the node where the "srun" is executing.
他の「Epilog」実行可能ファイル(たとえば、TaskEpilog)は、タスクが実行される計算ノードでslurmdによって実行されますが、SrunEpilogは「srun」が実行されているノードで実行されることに注意してください。
- SrunPortRange
-
The srun creates a set of listening ports to communicate with the
controller, the slurmstepd and to handle the application I/O.
srunは、コントローラーと通信し、slurmstepdを実行し、アプリケーションI / Oを処理するための一連のリスニングポートを作成します。
By default these ports are ephemeral meaning the port numbers are selected by the kernel.
デフォルトでは、これらのポートは一時的なものであり、ポート番号はカーネルによって選択されます。
Using this parameter allow sites to configure a range of ports from which srun ports will be selected.
このパラメーターを使用すると、サイトは、srunポートが選択されるポートの範囲を構成できます。
This is useful if sites want to allow only certain port range on their network.
これは、サイトがネットワーク上で特定のポート範囲のみを許可する場合に役立ちます。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレス指定(RSIP)は、ポート8192〜60000で開かれているものと自動的に対話しようとします。
Configure SrunPortRange to use a range of ports above those used by RSIP, ideally 1000 or more ports, for example "SrunPortRange=60001-63000".
RSIPで使用されるポートの範囲を超えるポートの範囲、理想的には1000以上のポートを使用するように、SrunPortRangeを構成します(例:「SrunPortRange = 60001-63000」)。
Note: A sufficient number of ports must be configured based on the estimated number of srun on the submission nodes considering that srun opens 3 listening ports plus 2 more for every 48 hosts.
注:srunが3つのリスニングポートに加えて48ホストごとに2つを開くことを考慮して、送信ノードのsrunの推定数に基づいて十分な数のポートを構成する必要があります。
Example: - SrunProlog
-
Fully qualified pathname of an executable to be run by srun prior to
the launch of a job step.
ジョブステップの起動前にsrunによって実行される実行可能ファイルの完全修飾パス名。
The command line arguments for the executable will be the command and arguments of the job step.
実行可能ファイルのコマンドライン引数は、ジョブステップのコマンドと引数になります。
This configuration parameter may be overridden by srun's --prolog parameter.
この構成パラメーターは、srunの--prologパラメーターによってオーバーライドされる場合があります。
Note that while the other "Prolog" executables (e.g., TaskProlog) are run by slurmd on the compute nodes where the tasks are executed, the SrunProlog runs on the node where the "srun" is executing.
他の「Prolog」実行可能ファイル(たとえば、TaskProlog)は、タスクが実行される計算ノードでslurmdによって実行されますが、SrunPrologは「srun」が実行されているノードで実行されることに注意してください。
- StateSaveLocation
-
Fully qualified pathname of a directory into which the Slurm controller,
slurmctld, saves its state (e.g. "/usr/local/slurm/checkpoint").
Slurmコントローラーslurmctldがその状態を保存するディレクトリーの完全修飾パス名(例:「/ usr / local / slurm / checkpoint」)。
Slurm state will saved here to recover from system failures.
Slurm状態は、システム障害から回復するためにここに保存されます。
SlurmUser must be able to create files in this directory.
SlurmUserは、このディレクトリにファイルを作成できる必要があります。
If you have a secondary SlurmctldHost configured, this location should be readable and writable by both systems.
セカンダリSlurmctldHostが構成されている場合、この場所は両方のシステムで読み取りおよび書き込み可能である必要があります。
Since all running and pending job information is stored here, the use of a reliable file system (e.g. RAID) is recommended.
実行中および保留中のすべてのジョブ情報がここに保存されるため、信頼性の高いファイルシステム(RAIDなど)の使用をお勧めします。
The default value is "/var/spool".
デフォルト値は「/ var / spool」です。
If any slurm daemons terminate abnormally, their core files will also be written into this directory.
slurmデーモンが異常終了した場合、それらのコアファイルもこのディレクトリに書き込まれます。
- SuspendExcNodes
-
Specifies the nodes which are to not be placed in power save mode, even
if the node remains idle for an extended period of time.
ノードが長時間アイドル状態のままであっても、省電力モードにしないノードを指定します。
Use Slurm's hostlist expression to identify nodes with an optional ":" separator and count of nodes to exclude from the preceding range.
Slurmのホストリスト式を使用して、オプションの「:」区切り文字と前の範囲から除外するノードの数を使用してノードを識別します。
For example "nid[10-20]:4" will prevent 4 usable nodes (i.e IDLE and not DOWN, DRAINING or already powered down) in the set "nid[10-20]" from being powered down.
たとえば、「nid [10-20]:4」は、セット「nid [10-20]」内の4つの使用可能なノード(つまり、IDLEであり、DOWN、DRAINING、またはすでに電源がオフになっていない)の電源がオフになるのを防ぎます。
Multiple sets of nodes can be specified with or without counts in a comma separated list (e.g "nid[10-20]:4,nid[80-90]:2").
ノードの複数のセットは、カンマ区切りのリストでカウントの有無にかかわらず指定できます(例:「nid [10-20]:4、nid [80-90]:2」)。
If a node count specification is given, any list of nodes to NOT have a node count must be after the last specification with a count.
ノード数の指定が指定されている場合、ノード数を持たないノードのリストは、最後に数を指定した後でなければなりません。
For example "nid[10-20]:4,nid[60-70]" will exclude 4 nodes in the set "nid[10-20]:4" plus all nodes in the set "nid[60-70]" while "nid[1-3],nid[10-20]:4" will exclude 4 nodes from the set "nid[1-3],nid[10-20]".
たとえば、「nid [10-20]:4、nid [60-70]」は、セット「nid [10-20]:4」の4つのノードと、セット「nid [60-70]」のすべてのノードを除外します。一方、「nid [1-3]、nid [10-20]:4」は、セット「nid [1-3]、nid [10-20]」から4つのノードを除外します。
By default no nodes are excluded.
デフォルトでは、ノードは除外されません。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendRate, SuspendTime, SuspendTimeout, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendRate、SuspendTime、SuspendTimeout、およびSuspendExcPartsが含まれます。
- SuspendExcParts
-
Specifies the partitions whose nodes are to not be placed in power save
mode, even if the node remains idle for an extended period of time.
ノードが長時間アイドル状態のままであっても、ノードを省電力モードにしないパーティションを指定します。
Multiple partitions can be identified and separated by commas.
複数のパーティションを識別し、コンマで区切ることができます。
By default no nodes are excluded.
デフォルトでは、ノードは除外されません。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendRate, SuspendTime SuspendTimeout, and SuspendExcNodes.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendRate、SuspendTime SuspendTimeout、およびSuspendExcNodesが含まれます。
- SuspendProgram
-
SuspendProgram is the program that will be executed when a node
remains idle for an extended period of time.
SuspendProgramは、ノードが長時間アイドル状態になっているときに実行されるプログラムです。
This program is expected to place the node into some power save mode.
このプログラムは、ノードを何らかの省電力モードにすることが期待されています。
This can be used to reduce the frequency and voltage of a node or completely power the node off.
これは、ノードの周波数と電圧を下げるため、またはノードの電源を完全に切るために使用できます。
The program executes as SlurmUser.
プログラムはSlurmUserとして実行されます。
The argument to the program will be the names of nodes to be placed into power savings mode (using Slurm's hostlist expression format).
プログラムへの引数は、省電力モードに配置されるノードの名前になります(Slurmのホストリスト式形式を使用)。
By default, no program is run.
デフォルトでは、プログラムは実行されません。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendRate, SuspendTime, SuspendTimeout, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendRate、SuspendTime、SuspendTimeout、SuspendExcNodes、およびSuspendExcPartsが含まれます。
- SuspendRate
-
The rate at which nodes are placed into power save mode by SuspendProgram.
SuspendProgramによってノードが省電力モードになる速度。
The value is number of nodes per minute and it can be used to prevent a large drop in power consumption (e.g. after a large job completes).
この値は1分あたりのノード数であり、消費電力の大幅な低下を防ぐために使用できます(たとえば、大規模なジョブが完了した後)。
A value of zero results in no limits being imposed.
値がゼロの場合、制限は課されません。
The default value is 60 nodes per minute.
デフォルト値は1分あたり60ノードです。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendTime, SuspendTimeout, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendTime、SuspendTimeout、SuspendExcNodes、およびSuspendExcPartsが含まれます。
- SuspendTime
-
Nodes which remain idle or down for this number of seconds will be placed into
power save mode by SuspendProgram.
この秒数の間アイドル状態またはダウン状態のままであるノードは、SuspendProgramによって省電力モードになります。
For efficient system utilization, it is recommended that the value of SuspendTime be at least as large as the sum of SuspendTimeout plus ResumeTimeout.
システムを効率的に使用するには、SuspendTimeの値を少なくともSuspendTimeoutとResumeTimeoutの合計と同じ大きさにすることをお勧めします。
A value of -1 disables power save mode and is the default.
値-1は省電力モードを無効にし、デフォルトです。
Related configuration options include ResumeTimeout, ResumeProgram, ResumeRate, SuspendProgram, SuspendRate, SuspendTimeout, SuspendExcNodes, and SuspendExcParts.
関連する構成オプションには、ResumeTimeout、ResumeProgram、ResumeRate、SuspendProgram、SuspendRate、SuspendTimeout、SuspendExcNodes、およびSuspendExcPartsが含まれます。
- SuspendTimeout
-
Maximum time permitted (in seconds) between when a node suspend request
is issued and when the node is shutdown.
ノードの一時停止要求が発行されてからノードがシャットダウンされるまでに許可される最大時間(秒単位)。
At that time the node must be ready for a resume request to be issued as needed for new work.
その時点で、ノードは、新しい作業の必要に応じて再開要求を発行する準備ができている必要があります。
The default value is 30 seconds.
デフォルト値は30秒です。
Related configuration options include ResumeProgram, ResumeRate, ResumeTimeout, SuspendRate, SuspendTime, SuspendProgram, SuspendExcNodes and SuspendExcParts.
関連する構成オプションには、ResumeProgram、ResumeRate、ResumeTimeout、SuspendRate、SuspendTime、SuspendProgram、SuspendExcNodes、およびSuspendExcPartsが含まれます。
More information is available at the Slurm web site ( https://slurm.schedmd.com/power_save.html ).
詳細については、Slurm Webサイト(https://slurm.schedmd.com/power_save.html)を参照してください。
- SwitchType
-
Identifies the type of switch or interconnect used for application
communications.
アプリケーション通信に使用されるスイッチまたは相互接続のタイプを識別します。
Acceptable values include "switch/cray_aries" for Cray systems, "switch/none" for switches not requiring special processing for job launch or termination (Ethernet, and InfiniBand) and The default value is "switch/none".
許容値には、Crayシステムの「switch / cray_aries」、ジョブの起動または終了に特別な処理を必要としないスイッチ(Ethernet、およびInfiniBand)の「switch / none」が含まれ、デフォルト値は「switch / none」です。
All Slurm daemons, commands and running jobs must be restarted for a change in SwitchType to take effect.
SwitchTypeの変更を有効にするには、すべてのSlurmデーモン、コマンド、および実行中のジョブを再起動する必要があります。
If running jobs exist at the time slurmctld is restarted with a new value of SwitchType, records of all jobs in any state may be lost.
slurmctldがSwitchTypeの新しい値で再起動されたときに実行中のジョブが存在する場合、任意の状態のすべてのジョブのレコードが失われる可能性があります。
- TaskEpilog
-
Fully qualified pathname of a program to be execute as the slurm job's
owner after termination of each task.
各タスクの終了後にslurmジョブの所有者として実行されるプログラムの完全修飾パス名。
See TaskProlog for execution order details.
実行順序の詳細については、TaskPrologを参照してください。
- TaskPlugin
-
Identifies the type of task launch plugin, typically used to provide
resource management within a node (e.g. pinning tasks to specific
processors).
通常、ノード内のリソース管理を提供するために使用されるタスク起動プラグインのタイプを識別します(たとえば、タスクを特定のプロセッサーに固定する)。
More than one task plugin can be specified in a comma separated list.
複数のタスクプラグインをコンマ区切りのリストで指定できます。
The prefix of "task/" is optional.
「task /」のプレフィックスはオプションです。
Acceptable values include:
許容値は次のとおりです。
-
- task/affinity
-
enables resource containment using CPUSETs.
CPUSETを使用してリソースの封じ込めを有効にします。
This enables the --cpu-bind and/or --mem-bind srun options.
これにより、-cpu-bindおよび/または--mem-bindsrunオプションが有効になります。
If you use "task/affinity" and encounter problems, it may be due to the variety of system calls used to implement task affinity on different operating systems.
「タスク/アフィニティ」を使用して問題が発生した場合は、さまざまなオペレーティングシステムにタスクアフィニティを実装するために使用されるさまざまなシステムコールが原因である可能性があります。
- task/cgroup
-
enables resource containment using Linux control cgroups.
Linuxコントロールcgroupを使用してリソースの封じ込めを有効にします。
This enables the --cpu-bind and/or --mem-bind srun options.
これにより、-cpu-bindおよび/または--mem-bindsrunオプションが有効になります。
NOTE: see "man cgroup.conf" for configuration details.
注:構成の詳細については、「mancgroup.conf」を参照してください。
- task/none
-
for systems requiring no special handling of user tasks.
ユーザータスクの特別な処理を必要としないシステムの場合。
Lacks support for the --cpu-bind and/or --mem-bind srun options.
--cpu-bindおよび/または--mem-bindsrunオプションのサポートが不足しています。
The default value is "task/none".
デフォルト値は「task / none」です。
NOTE: It is recommended to stack task/affinity,task/cgroup together when configuring TaskPlugin, and setting TaskAffinity=no and ConstrainCores=yes in cgroup.conf.
注:TaskPluginを構成し、cgroup.confでTaskAffinity = noおよびConstrainCores = yesを設定する場合は、task /アフィニティ、タスク/ cgroupを一緒にスタックすることをお勧めします。
This setup uses the task/affinity plugin for setting the affinity of the tasks (which is better and different than task/cgroup) and uses the task/cgroup plugin to fence tasks into the specified resources, thus combining the best of both pieces.
このセットアップでは、タスク/アフィニティプラグインを使用してタスクのアフィニティを設定し(タスク/ cgroupよりも優れており、異なります)、タスク/ cgroupプラグインを使用してタスクを指定されたリソースにフェンスし、両方の長所を組み合わせます。
NOTE: For CRAY systems only: task/cgroup must be used with, and listed after task/cray_aries in TaskPlugin.
注:CRAYシステムの場合のみ:task / cgroupは、TaskPluginでtask / cray_ariesと一緒に使用し、task / cray_ariesの後にリストする必要があります。
The task/affinity plugin can be listed everywhere, but the previous constraint must be satisfied.
タスク/アフィニティプラグインはどこにでもリストできますが、前の制約を満たす必要があります。
So for CRAY systems, a configuration like this is recommended:
したがって、CRAYシステムの場合、次のような構成をお勧めします。
TaskPlugin=task/affinity,task/cray_aries,task/cgroup
-
- TaskPluginParam
-
Optional parameters for the task plugin.
タスクプラグインのオプションのパラメーター。
Multiple options should be comma separated.
複数のオプションはコンマで区切る必要があります。
If None, Boards, Sockets, Cores, Threads, and/or Verbose are specified, they will override the --cpu-bind option specified by the user in the srun command.
None、Boards、Sockets、Cores、Threads、Verboseが指定されている場合、srunコマンドでユーザーが指定した--cpu-bindオプションをオーバーライドします。
None, Boards, Sockets, Cores and Threads are mutually exclusive and since they decrease scheduling flexibility are not generally recommended (select no more than one of them).
なし、ボード、ソケット、コア、およびスレッドは相互に排他的であり、スケジューリングの柔軟性が低下するため、一般的には推奨されません(1つだけを選択してください)。
Cpusets and Sched are mutually exclusive (select only one of them).
CpusetsとSchedは相互に排他的です(そのうちの1つのみを選択してください)。
All TaskPluginParam options are supported on FreeBSD except Cpusets.
すべてのTaskPluginParamオプションは、Cpusetsを除くFreeBSDでサポートされています。
The Sched option uses cpuset_setaffinity() on FreeBSD, not sched_setaffinity().
Schedオプションは、sched_setaffinity()ではなく、FreeBSDでcpuset_setaffinity()を使用します。
-
- Boards
-
Bind tasks to boards by default.
デフォルトでタスクをボードにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Cores
-
Bind tasks to cores by default.
デフォルトでタスクをコアにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Cpusets
-
Use cpusets to perform task affinity functions.
cpusetsを使用して、タスクアフィニティ機能を実行します。
By default, Sched task binding is performed.
デフォルトでは、スケジュールされたタスクのバインドが実行されます。
- None
-
Perform no task binding by default.
デフォルトでは、タスクバインディングは実行されません。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Sched
-
Use sched_setaffinity (if available) to bind tasks to
processors.
sched_setaffinity(使用可能な場合)を使用して、タスクをプロセッサーにバインドします。
- Sockets
-
Bind to sockets by default.
デフォルトでソケットにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- Threads
-
Bind to threads by default.
デフォルトでスレッドにバインドします。
Overrides automatic binding.
自動バインディングをオーバーライドします。
- SlurmdOffSpec
-
If specialized cores or CPUs are identified for the node (i.e. the
CoreSpecCount or CpuSpecList are configured for the node),
then Slurm daemons running on the compute node (i.e. slurmd and slurmstepd)
should run outside of those resources (i.e. specialized resources are
completely unavailable to Slurm daemons and jobs spawned by Slurm).
ノードに対して特殊なコアまたはCPUが識別された場合(つまり、CoreSpecCountまたはCpuSpecListがノードに対して構成されている場合)、計算ノードで実行されているSlurmデーモン(つまり、slurmdおよびslurmstepd)は、それらのリソースの外部で実行する必要があります(つまり、特殊なリソースは完全に利用できません)。 SlurmデーモンおよびSlurmによって生成されたジョブへ)。
This option may not be used with the task/cray_aries plugin.
このオプションは、task / cray_ariesプラグインでは使用できません。
- Verbose
-
Verbosely report binding before tasks run.
タスクを実行する前に、バインディングを詳細に報告します。
Overrides user options.
ユーザーオプションを上書きします。
- Autobind
-
Set a default binding in the event that "auto binding" doesn't find a match.
「自動バインディング」で一致するものが見つからない場合は、デフォルトのバインディングを設定します。
Set to Threads, Cores or Sockets (E.g. TaskPluginParam=autobind=threads).
スレッド、コア、またはソケットに設定します(例:TaskPluginParam = autobind = threads)。
-
- TaskProlog
-
Fully qualified pathname of a program to be execute as the slurm job's
owner prior to initiation of each task.
各タスクの開始前にslurmジョブの所有者として実行されるプログラムの完全修飾パス名。
Besides the normal environment variables, this has SLURM_TASK_PID available to identify the process ID of the task being started.
通常の環境変数に加えて、これには、開始されているタスクのプロセスIDを識別するために使用可能なSLURM_TASK_PIDがあります。
Standard output from this program can be used to control the environment variables and output for the user program.
このプログラムからの標準出力は、環境変数とユーザープログラムの出力を制御するために使用できます。
-
- export NAME=value
-
Will set environment variables for the task being spawned.
生成されるタスクの環境変数を設定します。
Everything after the equal sign to the end of the line will be used as the value for the environment variable.
行の終わりまでの等号の後のすべてが、環境変数の値として使用されます。
Exporting of functions is not currently supported.
関数のエクスポートは現在サポートされていません。
- print ...
-
Will cause that line (without the leading "print ")
to be printed to the job's standard output.
その行(先頭の「印刷」なし)がジョブの標準出力に印刷されます。
- unset NAME
-
Will clear environment variables for the task being spawned.
生成されるタスクの環境変数をクリアします。
- The order of task prolog/epilog execution is as follows:
タスクのプロローグ/エピローグの実行順序は次のとおりです。 - 1. pre_launch_priv()
-
Function in TaskPlugin
TaskPluginの関数
- 1. pre_launch()
-
Function in TaskPlugin
TaskPluginの関数
- 2. TaskProlog
-
System-wide per task program defined in slurm.conf
slurm.confで定義されたシステム全体のタスクプログラムごと
- 3. user prolog
-
Job step specific task program defined using
srun's --task-prolog option or SLURM_TASK_PROLOG
environment variable
srunの--task-prologオプションまたはSLURM_TASK_PROLOG環境変数を使用して定義されたジョブステップ固有のタスクプログラム
- 4. Execute the job step's task
- 5. user epilog
-
Job step specific task program defined using
srun's --task-epilog option or SLURM_TASK_EPILOG
environment variable
srunの--task-epilogオプションまたはSLURM_TASK_EPILOG環境変数を使用して定義されたジョブステップ固有のタスクプログラム
- 6. TaskEpilog
-
System-wide per task program defined in slurm.conf
slurm.confで定義されたシステム全体のタスクプログラムごと
- 7. post_term()
-
Function in TaskPlugin
TaskPluginの関数
-
- TCPTimeout
-
Time permitted for TCP connection to be established.
TCP接続が確立されるまでに許可された時間。
Default value is 2 seconds.
デフォルト値は2秒です。
- TmpFS
-
Fully qualified pathname of the file system available to user jobs for
temporary storage.
一時記憶域のユーザージョブで使用可能なファイルシステムの完全修飾パス名。
This parameter is used in establishing a node's TmpDisk space.
このパラメーターは、ノードのTmpDiskスペースを確立する際に使用されます。
The default value is "/tmp".
デフォルト値は「/ tmp」です。
- TopologyParam
-
Comma separated options identifying network topology options.
ネットワークトポロジオプションを識別するコンマ区切りのオプション。
-
- Dragonfly
-
Optimize allocation for Dragonfly network.
Dragonflyネットワークの割り当てを最適化します。
Valid when TopologyPlugin=topology/tree.
TopologyPlugin = topology / treeの場合に有効です。
- TopoOptional
-
Only optimize allocation for network topology if the job includes a switch
option.
ジョブにスイッチオプションが含まれている場合にのみ、ネットワークトポロジの割り当てを最適化します。
Since optimizing resource allocation for topology involves much higher system overhead, this option can be used to impose the extra overhead only on jobs which can take advantage of it.
トポロジのリソース割り当ての最適化にははるかに高いシステムオーバーヘッドが伴うため、このオプションを使用して、それを利用できるジョブにのみ追加のオーバーヘッドを課すことができます。
If most job allocations are not optimized for network topology, they make fragment resources to the point that topology optimization for other jobs will be difficult to achieve.
ほとんどのジョブ割り当てがネットワークトポロジ用に最適化されていない場合、他のジョブのトポロジ最適化を実現するのが困難になるまで、フラグメントリソースが作成されます。
NOTE: Jobs may span across nodes without common parent switches with this enabled.
注:これを有効にすると、共通の親スイッチがなくてもジョブがノードにまたがる場合があります。
-
- TopologyPlugin
-
Identifies the plugin to be used for determining the network topology
and optimizing job allocations to minimize network contention.
ネットワークトポロジを決定し、ネットワークの競合を最小限に抑えるためにジョブ割り当てを最適化するために使用されるプラグインを識別します。
See NETWORK TOPOLOGY below for details.
詳細については、以下のネットワークトポロジを参照してください。
Additional plugins may be provided in the future which gather topology information directly from the network.
将来的には、ネットワークから直接トポロジ情報を収集する追加のプラグインが提供される可能性があります。
Acceptable values include:
許容値は次のとおりです。
-
- topology/3d_torus
-
best-fit logic over three-dimensional topology
3次元トポロジーに最適なロジック
- topology/node_rank
-
orders nodes based upon information a node_rank field in the node record
as generated by a select plugin.
selectプラグインによって生成されたノードレコードのnode_rankフィールドの情報に基づいてノードを並べ替えます。
Slurm performs a best-fit algorithm over those ordered nodes
Slurmは、これらの順序付けられたノードに対して最適なアルゴリズムを実行します
- topology/none
-
default for other systems, best-fit logic over one-dimensional topology
他のシステムのデフォルト、1次元トポロジーに最適なロジック
- topology/tree
-
used for a hierarchical network as described in a topology.conf file
topology.confファイルで説明されている階層ネットワークに使用されます
-
- TrackWCKey
-
Boolean yes or no.
ブール値yesまたはno。
Used to set display and track of the Workload Characterization Key.
ワークロード特性キーの表示と追跡を設定するために使用されます。
Must be set to track correct wckey usage.
正しいwckeyの使用を追跡するように設定する必要があります。
NOTE: You must also set TrackWCKey in your slurmdbd.conf file to create historical usage reports.
注:履歴使用状況レポートを作成するには、slurmdbd.confファイルでTrackWCKeyも設定する必要があります。
- TreeWidth
-
Slurmd daemons use a virtual tree network for communications.
Slurmdデーモンは、通信に仮想ツリーネットワークを使用します。
TreeWidth specifies the width of the tree (i.e. the fanout).
TreeWidthは、ツリーの幅(つまり、ファンアウト)を指定します。
On architectures with a front end node running the slurmd daemon, the value must always be equal to or greater than the number of front end nodes which eliminates the need for message forwarding between the slurmd daemons.
フロントエンドノードがslurmdデーモンを実行しているアーキテクチャでは、値は常にフロントエンドノードの数以上である必要があります。これにより、slurmdデーモン間でメッセージを転送する必要がなくなります。
On other architectures the default value is 50, meaning each slurmd daemon can communicate with up to 50 other slurmd daemons and over 2500 nodes can be contacted with two message hops.
他のアーキテクチャでは、デフォルト値は50です。これは、各slurmdデーモンが最大50の他のslurmdデーモンと通信でき、2500を超えるノードが2つのメッセージホップで接続できることを意味します。
The default value will work well for most clusters.
デフォルト値は、ほとんどのクラスターで適切に機能します。
Optimal system performance can typically be achieved if TreeWidth is set to the square root of the number of nodes in the cluster for systems having no more than 2500 nodes or the cube root for larger systems.
最適なシステムパフォーマンスは、通常、TreeWidthが2500ノード以下のシステムの場合はクラスター内のノード数の平方根に設定されているか、大規模なシステムの場合は立方根に設定されている場合に達成できます。
The value may not exceed 65533.
値は65533を超えてはなりません。
- UnkillableStepProgram
-
If the processes in a job step are determined to be unkillable for a period
of time specified by the UnkillableStepTimeout variable, the program
specified by UnkillableStepProgram will be executed.
UnkillableStepTimeout変数で指定された期間、ジョブステップ内のプロセスが強制終了できないと判断された場合、UnkillableStepProgramで指定されたプログラムが実行されます。
This program can be used to take special actions to clean up the unkillable processes and/or notify computer administrators.
このプログラムを使用して、特別なアクションを実行して、強制終了できないプロセスをクリーンアップしたり、コンピューター管理者に通知したりできます。
The program will be run SlurmdUser (usually "root") on the compute node.
プログラムは、計算ノードでSlurmdUser(通常は「root」)で実行されます。
By default no program is run.
デフォルトでは、プログラムは実行されません。
- UnkillableStepTimeout
-
The length of time, in seconds, that Slurm will wait before deciding that
processes in a job step are unkillable (after they have been signaled with
SIGKILL) and execute UnkillableStepProgram as described above.
Slurmがジョブステップ内のプロセスが強制終了できないと判断する前に(SIGKILLで通知された後)待機し、上記のようにUnkillableStepProgramを実行する時間の長さ(秒単位)。
The default timeout value is 60 seconds.
デフォルトのタイムアウト値は60秒です。
If exceeded, the compute node will be drained to prevent future jobs from being scheduled on the node.
超過すると、計算ノードはドレインされ、ノードで将来のジョブがスケジュールされないようにします。
- UsePAM
-
If set to 1, PAM (Pluggable Authentication Modules for Linux) will be enabled.
1に設定すると、PAM(Pluggable Authentication Modules for Linux)が有効になります。
PAM is used to establish the upper bounds for resource limits.
PAMは、リソース制限の上限を確立するために使用されます。
With PAM support enabled, local system administrators can dynamically configure system resource limits.
PAMサポートを有効にすると、ローカルシステム管理者はシステムリソース制限を動的に構成できます。
Changing the upper bound of a resource limit will not alter the limits of running jobs, only jobs started after a change has been made will pick up the new limits.
リソース制限の上限を変更しても、実行中のジョブの制限は変更されません。変更が行われた後に開始されたジョブのみが新しい制限を取得します。
The default value is 0 (not to enable PAM support).
デフォルト値は0です(PAMサポートを有効にしないため)。
Remember that PAM also needs to be configured to support Slurm as a service.
SlurmをサービスとしてサポートするようにPAMも構成する必要があることに注意してください。
For sites using PAM's directory based configuration option, a configuration file named slurm should be created.
PAMのディレクトリベースの構成オプションを使用しているサイトの場合、slurmという名前の構成ファイルを作成する必要があります。
The module-type, control-flags, and module-path names that should be included in the file are:
ファイルに含める必要のあるモジュールタイプ、制御フラグ、およびモジュールパス名は次のとおりです。
auth required pam_localuser.so
auth required pam_shells.so
account required pam_unix.so
account required pam_access.so
session required pam_unix.so
For sites configuring PAM with a general configuration file, the appropriate lines (see above), where slurm is the service-name, should be added.
一般的な構成ファイルを使用してPAMを構成するサイトの場合、slurmがサービス名である適切な行(上記を参照)を追加する必要があります。
NOTE: UsePAM option has nothing to do with the contribs/pam/pam_slurm and/or contribs/pam_slurm_adopt modules.
注:UsePAMオプションは、contribs / pam / pam_slurmおよび/またはcontribs / pam_slurm_adoptモジュールとは何の関係もありません。
So these two modules can work independently of the value set for UsePAM.
したがって、これら2つのモジュールは、UsePAMに設定された値とは独立して機能します。
- VSizeFactor
-
Memory specifications in job requests apply to real memory size (also known
as resident set size).
ジョブリクエストのメモリ仕様は、実際のメモリサイズ(常駐セットサイズとも呼ばれます)に適用されます。
It is possible to enforce virtual memory limits for both jobs and job steps by limiting their virtual memory to some percentage of their real memory allocation.
仮想メモリを実際のメモリ割り当ての一部に制限することにより、ジョブとジョブステップの両方に仮想メモリ制限を適用することができます。
The VSizeFactor parameter specifies the job's or job step's virtual memory limit as a percentage of its real memory limit.
VSizeFactorパラメーターは、ジョブまたはジョブステップの仮想メモリ制限を実際のメモリ制限のパーセンテージとして指定します。
For example, if a job's real memory limit is 500MB and VSizeFactor is set to 101 then the job will be killed if its real memory exceeds 500MB or its virtual memory exceeds 505MB (101 percent of the real memory limit).
たとえば、ジョブの実メモリ制限が500MBで、VSizeFactorが101に設定されている場合、実メモリが500MBを超えるか、仮想メモリが505MB(実メモリ制限の101パーセント)を超えると、ジョブは強制終了されます。
The default value is 0, which disables enforcement of virtual memory limits.
デフォルト値は0で、仮想メモリ制限の適用を無効にします。
The value may not exceed 65533 percent.
値は65533パーセントを超えてはなりません。
- WaitTime
-
Specifies how many seconds the srun command should by default wait after
the first task terminates before terminating all remaining tasks.
srunコマンドが、最初のタスクが終了した後、残りのすべてのタスクを終了する前にデフォルトで待機する秒数を指定します。
The "--wait" option on the srun command line overrides this value.
srunコマンドラインの「--wait」オプションはこの値を上書きします。
The default value is 0, which disables this feature.
デフォルト値は0で、この機能は無効になっています。
May not exceed 65533 seconds.
65533秒を超えることはできません。
- X11Parameters
-
For use with Slurm's built-in X11 forwarding implementation.
Slurmの組み込みX11転送実装で使用します。
The configuration of nodes (or machines) to be managed by Slurm is
also specified in /etc/slurm.conf.
Slurmによって管理されるノード(またはマシン)の構成も/etc/slurm.confで指定されます。
Changes in node configuration (e.g. adding nodes, changing their
processor count, etc.) require restarting both the slurmctld daemon
and the slurmd daemons.
ノード構成の変更(ノードの追加、プロセッサー数の変更など)では、slurmctldデーモンとslurmdデーモンの両方を再始動する必要があります。
All slurmd daemons must know each node in the system to forward
messages in support of hierarchical communications.
すべてのslurmdデーモンは、階層通信をサポートするメッセージを転送するために、システム内の各ノードを認識している必要があります。
Only the NodeName must be supplied in the configuration file.
構成ファイルには、NodeNameのみを指定する必要があります。
All other node configuration information is optional.
他のすべてのノード構成情報はオプションです。
It is advisable to establish baseline node configurations,
especially if the cluster is heterogeneous.
特にクラスターが異種の場合は、ベースラインノード構成を確立することをお勧めします。
Nodes which register to the system with less than the configured resources
(e.g. too little memory), will be placed in the "DOWN" state to
avoid scheduling jobs on them.
構成されたリソースより少ない(たとえば、メモリが少なすぎる)システムに登録するノードは、それらのノードでのジョブのスケジューリングを回避するために「DOWN」状態になります。
Establishing baseline configurations will also speed Slurm's
scheduling process by permitting it to compare job requirements
against these (relatively few) configuration parameters and
possibly avoid having to check job requirements
against every individual node's configuration.
ベースライン構成を確立すると、ジョブ要件をこれらの(比較的少数の)構成パラメーターと比較できるようになるため、Slurmのスケジューリングプロセスも高速化され、個々のノードの構成ごとにジョブ要件を確認する必要がなくなる可能性があります。
The resources checked at node registration time are: CPUs,
RealMemory and TmpDisk.
ノード登録時にチェックされるリソースは、CPU、RealMemory、およびTmpDiskです。
Default values can be specified with a record in which
NodeName is "DEFAULT".
デフォルト値は、NodeNameが「DEFAULT」であるレコードで指定できます。
The default entry values will apply only to lines following it in the
configuration file and the default values can be reset multiple times
in the configuration file with multiple entries where "NodeName=DEFAULT".
デフォルトのエントリ値は、構成ファイルでそれに続く行にのみ適用され、デフォルト値は、「NodeName = DEFAULT」である複数のエントリを持つ構成ファイルで複数回リセットできます。
Each line where NodeName is "DEFAULT" will replace or add to previous
default values and not a reinitialize the default values.
NodeNameが「DEFAULT」である各行は、以前のデフォルト値を置き換えたり追加したりし、デフォルト値を再初期化することはありません。
The "NodeName=" specification must be placed on every line
describing the configuration of nodes.
「NodeName =」指定は、ノードの構成を説明するすべての行に配置する必要があります。
A single node name can not appear as a NodeName value in more than one line
(duplicate node name records will be ignored).
単一のノード名を複数の行にNodeName値として表示することはできません(重複するノード名レコードは無視されます)。
In fact, it is generally possible and desirable to define the
configurations of all nodes in only a few lines.
実際、すべてのノードの構成を数行で定義することは一般的に可能であり、望ましいことです。
This convention permits significant optimization in the scheduling
of larger clusters.
この規則により、より大きなクラスターのスケジューリングを大幅に最適化できます。
In order to support the concept of jobs requiring consecutive nodes
on some architectures,
一部のアーキテクチャで連続ノードを必要とするジョブの概念をサポートするために、
node specifications should be place in this file in consecutive order.
ノード仕様は、このファイルに連続した順序で配置する必要があります。
No single node name may be listed more than once in the configuration
file.
構成ファイルに単一のノード名を複数回リストすることはできません。
Use "DownNodes=" to record the state of nodes which are temporarily
in a DOWN, DRAIN or FAILING state without altering permanent
configuration information.
「DownNodes =」を使用して、永続的な構成情報を変更せずに、一時的にDOWN、DRAIN、またはFAILING状態にあるノードの状態を記録します。
A job step's tasks are allocated to nodes in order the nodes appear
in the configuration file.
ジョブステップのタスクは、ノードが構成ファイルに表示される順序でノードに割り当てられます。
There is presently no capability within
Slurm to arbitrarily order a job step's tasks.
現在、Slurmには、ジョブステップのタスクを任意に順序付ける機能はありません。
Multiple node names may be comma separated (e.g. "alpha,beta,gamma")
and/or a simple node range expression may optionally be used to
specify numeric ranges of nodes to avoid building a configuration
file with large numbers of entries.
複数のノード名をカンマ区切り(「アルファ、ベータ、ガンマ」など)にするか、単純なノード範囲式をオプションで使用してノードの数値範囲を指定し、多数のエントリを含む構成ファイルを作成しないようにすることができます。
The node range expression can contain one pair of square brackets
with a sequence of comma separated numbers and/or ranges of numbers
separated by a "-" (e.g. "linux[0-64,128]", or "lx[15,18,32-33]").
ノード範囲式には、コンマで区切られた数値のシーケンスおよび/または「-」で区切られた数値の範囲を含む1組の角括弧を含めることができます(例:「linux [0-64,128]」または「lx [15,18,32」)。 -33] ")。
Note that the numeric ranges can include one or more leading
zeros to indicate the numeric portion has a fixed number of digits
(e.g. "linux[0000-1023]").
数値範囲には、数値部分の桁数が固定されていることを示す1つ以上の先行ゼロを含めることができることに注意してください(例:「linux [0000-1023]」)。
Multiple numeric ranges can be included in the expression
(e.g. "rack[0-63]_blade[0-41]").
式には複数の数値範囲を含めることができます(例:「rack [0-63] _blade [0-41]」)。
If one or more numeric expressions are included, one of them
must be at the end of the name (e.g. "unit[0-31]rack" is invalid),
but arbitrary names can always be used in a comma separated list.
1つ以上の数式が含まれている場合、それらの1つは名前の末尾にある必要があります(たとえば、「unit [0-31] Rack」は無効です)が、コンマ区切りのリストでは常に任意の名前を使用できます。
The node configuration specified the following information:
ノード構成で次の情報が指定されました。
- NodeName
-
Name that Slurm uses to refer to a node.
Slurmがノードを参照するために使用する名前。
Typically this would be the string that "/bin/hostname -s" returns.
通常、これは「/ bin / hostname-s」が返す文字列になります。
It may also be the fully qualified domain name as returned by "/bin/hostname -f" (e.g. "foo1.bar.com"), or any valid domain name associated with the host through the host database (/etc/hosts) or DNS, depending on the resolver settings.
また、「/ bin / hostname -f」(「foo1.bar.com」など)によって返される完全修飾ドメイン名、またはホストデータベース(/ etc / hosts)を介してホストに関連付けられた有効なドメイン名の場合もあります。またはDNS、リゾルバーの設定に応じて。
Note that if the short form of the hostname is not used, it may prevent use of hostlist expressions (the numeric portion in brackets must be at the end of the string).
ホスト名の短縮形を使用しないと、ホストリスト式を使用できなくなる可能性があることに注意してください(角かっこ内の数値部分は文字列の最後にある必要があります)。
It may also be an arbitrary string if NodeHostname is specified.
NodeHostnameが指定されている場合は、任意の文字列にすることもできます。
If the NodeName is "DEFAULT", the values specified with that record will apply to subsequent node specifications unless explicitly set to other values in that node record or replaced with a different set of default values.
NodeNameが "DEFAULT"の場合、そのノードレコード内の他の値に明示的に設定されるか、別のデフォルト値のセットに置き換えられない限り、そのレコードで指定された値は後続のノード仕様に適用されます。
Each line where NodeName is "DEFAULT" will replace or add to previous default values and not a reinitialize the default values.
NodeNameが「DEFAULT」である各行は、以前のデフォルト値を置き換えたり追加したりし、デフォルト値を再初期化することはありません。
For architectures in which the node order is significant, nodes will be considered consecutive in the order defined.
ノードの順序が重要なアーキテクチャの場合、ノードは定義された順序で連続していると見なされます。
For example, if the configuration for "NodeName=charlie" immediately follows the configuration for "NodeName=baker" they will be considered adjacent in the computer.
たとえば、「NodeName = charlie」の構成が「NodeName = Baker」の構成の直後に続く場合、それらはコンピューター内で隣接していると見なされます。
- NodeHostname
-
Typically this would be the string that "/bin/hostname -s" returns.
通常、これは「/ bin / hostname-s」が返す文字列になります。
It may also be the fully qualified domain name as returned by "/bin/hostname -f" (e.g. "foo1.bar.com"), or any valid domain name associated with the host through the host database (/etc/hosts) or DNS, depending on the resolver settings.
また、「/ bin / hostname -f」(「foo1.bar.com」など)によって返される完全修飾ドメイン名、またはホストデータベース(/ etc / hosts)を介してホストに関連付けられた有効なドメイン名の場合もあります。またはDNS、リゾルバーの設定に応じて。
Note that if the short form of the hostname is not used, it may prevent use of hostlist expressions (the numeric portion in brackets must be at the end of the string).
ホスト名の短縮形を使用しないと、ホストリスト式を使用できなくなる可能性があることに注意してください(角かっこ内の数値部分は文字列の最後にある必要があります)。
A node range expression can be used to specify a set of nodes.
ノード範囲式を使用して、ノードのセットを指定できます。
If an expression is used, the number of nodes identified by NodeHostname on a line in the configuration file must be identical to the number of nodes identified by NodeName.
式を使用する場合、構成ファイルの行でNodeHostnameによって識別されるノードの数は、NodeNameによって識別されるノードの数と同じである必要があります。
By default, the NodeHostname will be identical in value to NodeName.
デフォルトでは、NodeHostnameの値はNodeNameと同じになります。
- NodeAddr
-
Name that a node should be referred to in establishing
a communications path.
通信パスを確立する際にノードを参照する必要がある名前。
This name will be used as an argument to the gethostbyname() function for identification.
この名前は、識別のためのgethostbyname()関数への引数として使用されます。
If a node range expression is used to designate multiple nodes, they must exactly match the entries in the NodeName (e.g. "NodeName=lx[0-7] NodeAddr=elx[0-7]").
ノード範囲式を使用して複数のノードを指定する場合、それらはNodeNameのエントリと完全に一致する必要があります(例: "NodeName = lx [0-7] NodeAddr = elx [0-7]")。
NodeAddr may also contain IP addresses.
NodeAddrにはIPアドレスも含まれる場合があります。
By default, the NodeAddr will be identical in value to NodeHostname.
デフォルトでは、NodeAddrの値はNodeHostnameと同じになります。
- BcastAddr
-
Alternate network path to be used for sbcast network traffic to a given node.
特定のノードへのsbcastネットワークトラフィックに使用される代替ネットワークパス。
This name will be used as an argument to the gethostbyname() function.
この名前は、gethostbyname()関数の引数として使用されます。
If a node range expression is used to designate multiple nodes, they must exactly match the entries in the NodeName (e.g. "NodeName=lx[0-7] BcastAddr=elx[0-7]").
ノード範囲式を使用して複数のノードを指定する場合、それらはNodeNameのエントリと完全に一致する必要があります(例: "NodeName = lx [0-7] BcastAddr = elx [0-7]")。
BcastAddr may also contain IP addresses.
BcastAddrにはIPアドレスも含まれる場合があります。
By default, the BcastAddr is unset, and sbcast traffic will be routed to the NodeAddr for a given node.
デフォルトでは、BcastAddrは設定されておらず、sbcastトラフィックは特定のノードのNodeAddrにルーティングされます。
Note: cannot be used with CommunicationParameters=NoInAddrAny.
注:CommunicationParameters = NoInAddrAnyと一緒に使用することはできません。
- Boards
-
Number of Baseboards in nodes with a baseboard controller.
ベースボードコントローラーを備えたノード内のベースボードの数。
Note that when Boards is specified, SocketsPerBoard, CoresPerSocket, and ThreadsPerCore should be specified.
Boardsを指定する場合は、SocketsPerBoard、CoresPerSocket、およびThreadsPerCoreを指定する必要があることに注意してください。
Boards and CPUs are mutually exclusive.
ボードとCPUは相互に排他的です。
The default value is 1.
デフォルト値は1です。
- CoreSpecCount
-
Number of cores reserved for system use.
システムで使用するために予約されているコアの数。
These cores will not be available for allocation to user jobs.
これらのコアは、ユーザージョブへの割り当てには使用できません。
Depending upon the TaskPluginParam option of SlurmdOffSpec, Slurm daemons (i.e. slurmd and slurmstepd) may either be confined to these resources (the default) or prevented from using these resources.
SlurmdOffSpecのTaskPluginParamオプションに応じて、Slurmデーモン(つまり、slurmdおよびslurmstepd)は、これらのリソース(デフォルト)に制限されるか、これらのリソースの使用が禁止される場合があります。
Isolation of the Slurm daemons from user jobs may improve application performance.
Slurmデーモンをユーザージョブから分離すると、アプリケーションのパフォーマンスが向上する場合があります。
If this option and CpuSpecList are both designated for a node, an error is generated.
このオプションとCpuSpecListの両方がノードに指定されている場合、エラーが生成されます。
For information on the algorithm used by Slurm to select the cores refer to the core specialization documentation ( https://slurm.schedmd.com/core_spec.html ).
Slurmがコアを選択するために使用するアルゴリズムについては、コアスペシャライゼーションのドキュメント(https://slurm.schedmd.com/core_spec.html)を参照してください。
- CoresPerSocket
-
Number of cores in a single physical processor socket (e.g. "2").
単一の物理プロセッサソケット内のコアの数(例:「2」)。
The CoresPerSocket value describes physical cores, not the logical number of processors per socket.
CoresPerSocket値は、ソケットあたりのプロセッサの論理数ではなく、物理コアを表します。
NOTE: If you have multi-core processors, you will likely need to specify this parameter in order to optimize scheduling.
注:マルチコアプロセッサを使用している場合は、スケジューリングを最適化するために、このパラメータを指定する必要があります。
The default value is 1.
デフォルト値は1です。
- CpuBind
-
If a job step request does not specify an option to control how tasks are bound
to allocated CPUs (--cpu-bind) and all nodes allocated to the job have the same
CpuBind option the node CpuBind option will control how tasks are
bound to allocated resources.
ジョブステップ要求で、割り当てられたCPUへのタスクのバインド方法を制御するオプション(--cpu-bind)が指定されておらず、ジョブに割り当てられたすべてのノードに同じCpuBindオプションがある場合、ノードのCpuBindオプションはタスクの割り当て方法を制御します。リソース。
Supported values for CpuBind are "none", "board", "socket", "ldom" (NUMA), "core" and "thread".
CpuBindでサポートされている値は、「none」、「board」、「socket」、「ldom」(NUMA)、「core」、および「thread」です。
- CPUs
-
Number of logical processors on the node (e.g. "2").
ノード上の論理プロセッサの数(例:「2」)。
CPUs and Boards are mutually exclusive. It can be set to the total number of sockets(supported only by select/linear), cores or threads.
CPUとボードは相互に排他的です。ソケット(select / linearでのみサポート)、コア、またはスレッドの総数に設定できます。
This can be useful when you want to schedule only the cores on a hyper-threaded node.
これは、ハイパースレッドノードのコアのみをスケジュールする場合に役立ちます。
If CPUs is omitted, its default will be set equal to the product of Boards, Sockets, CoresPerSocket, and ThreadsPerCore.
CPUを省略すると、デフォルトはBoards、Sockets、CoresPerSocket、およびThreadsPerCoreの積に等しく設定されます。
- CpuSpecList
-
A comma delimited list of Slurm abstract CPU IDs reserved for system use.
システムで使用するために予約されているSlurm抽象CPUIDのコンマ区切りリスト。
The list will be expanded to include all other CPUs, if any, on the same cores.
リストが拡張され、同じコア上にある他のすべてのCPUが含まれるようになります。
These cores will not be available for allocation to user jobs.
これらのコアは、ユーザージョブへの割り当てには使用できません。
Depending upon the TaskPluginParam option of SlurmdOffSpec, Slurm daemons (i.e. slurmd and slurmstepd) may either be confined to these resources (the default) or prevented from using these resources.
SlurmdOffSpecのTaskPluginParamオプションに応じて、Slurmデーモン(つまり、slurmdおよびslurmstepd)は、これらのリソース(デフォルト)に制限されるか、これらのリソースの使用が禁止される場合があります。
Isolation of the Slurm daemons from user jobs may improve application performance.
Slurmデーモンをユーザージョブから分離すると、アプリケーションのパフォーマンスが向上する場合があります。
If this option and CoreSpecCount are both designated for a node, an error is generated.
このオプションとCoreSpecCountの両方がノードに指定されている場合、エラーが生成されます。
This option has no effect unless cgroup job confinement is also configured (TaskPlugin=task/cgroup with ConstrainCores=yes in cgroup.conf).
このオプションは、cgroupジョブの制限も構成されていない限り効果がありません(TaskPlugin = task / cgroup with ConstrainCores = yes in cgroup.conf)。
- Feature
-
A comma delimited list of arbitrary strings indicative of some
characteristic associated with the node.
ノードに関連付けられた特性を示す任意の文字列のコンマ区切りリスト。
There is no value associated with a feature at this time, a node either has a feature or it does not.
現時点では、機能に関連付けられている値はありません。ノードには機能があるか、ないかのどちらかです。
If desired a feature may contain a numeric component indicating, for example, processor speed.
必要に応じて、機能には、たとえばプロセッサ速度を示す数値コンポーネントを含めることができます。
By default a node has no features.
デフォルトでは、ノードには機能がありません。
Also see Gres.
Gresも参照してください。
- Gres
-
A comma delimited list of generic resources specifications for a node.
ノードの汎用リソース仕様のコンマ区切りリスト。
The format is: "<name>[:<type>][:no_consume]:<number>[K|M|G]".
形式は「<name> [:<type>] [:no_consume]:<number> [K | M | G]」です。
The first field is the resource name, which matches the GresType configuration parameter name.
最初のフィールドはリソース名であり、GresType構成パラメーター名と一致します。
The optional type field might be used to identify a model of that generic resource.
オプションのtypeフィールドは、その汎用リソースのモデルを識別するために使用される場合があります。
It is forbidden to specify both an untyped GRES and a typed GRES with the same <name>.
型なしGRESと型付きGRESの両方を同じ<name>で指定することは禁止されています。
A generic resource can also be specified as non-consumable (i.e. multiple jobs can use the same generic resource) with the optional field ":no_c onsume".
汎用リソースは、オプションのフィールド「:no_c onsume」を使用して、非消費型として指定することもできます(つまり、複数のジョブが同じ汎用リソースを使用できます)。
The final field must specify a generic resources count.
最後のフィールドは、一般的なリソース数を指定する必要があります。
A suffix of "K", "M", "G", "T" or "P" may be used to multiply the number by 1024, 1048576, 1073741824, etc. respectively.
「K」、「M」、「G」、「T」、または「P」の接尾辞を使用して、数値にそれぞれ1024、1048576、1073741824などを掛けることができます。
(e.g."Gres=gpu:tesla:1,gpu:kepler:1,bandwidth:lustre:no_consume:4G").
(例: "Gres = gpu:tesla:1、gpu:kepler:1、bandwidth:lustre:no_consume:4G")。
By default a node has no generic resources and its maximum count is that of an unsigned 64bit integer.
デフォルトでは、ノードには汎用リソースがなく、その最大数は符号なし64ビット整数の数です。
Also see Feature.
機能も参照してください。
- MemSpecLimit
-
Amount of memory, in megabytes, reserved for system use and not available
for user allocations.
システムで使用するために予約されており、ユーザーの割り当てに使用できないメモリの量(メガバイト単位)。
If the task/cgroup plugin is configured and that plugin constrains memory allocations (i.e. TaskPlugin=task/cgroup in slurm.conf, plus ConstrainRAMSpace=yes in cgroup.conf), then Slurm compute node daemons (slurmd plus slurmstepd) will be allocated the specified memory limit.
task / cgroupプラグインが構成されていて、そのプラグインがメモリ割り当てを制約している場合(つまり、slurm.confのTaskPlugin = task / cgroup、およびcgroup.confのConstrainRAMSpace = yes)、Slurm計算ノードデーモン(slurmdとslurmstepd)が割り当てられます。指定されたメモリ制限。
Note that having the Memory set in SelectTypeParameters as any of the options that has it as a consumable resource is needed for this option to work.
このオプションを機能させるには、メモリを消費可能なリソースとして持つオプションのいずれかとしてSelectTypeParametersにメモリを設定する必要があることに注意してください。
The daemons will not be killed if they exhaust the memory allocation (ie. the Out-Of-Memory Killer is disabled for the daemon's memory cgroup).
デーモンがメモリ割り当てを使い果たした場合(つまり、デーモンのメモリcgroupに対してOut-Of-Memory Killerが無効になっている場合)、デーモンは強制終了されません。
If the task/cgroup plugin is not configured, the specified memory will only be unavailable for user allocations.
task / cgroupプラグインが構成されていない場合、指定されたメモリはユーザー割り当てにのみ使用できません。
- Port
-
The port number that the Slurm compute node daemon, slurmd, listens
to for work on this particular node.
Slurm計算ノードデーモンslurmdがこの特定のノードでの作業をリッスンするポート番号。
By default there is a single port number for all slurmd daemons on all compute nodes as defined by the SlurmdPort configuration parameter.
デフォルトでは、SlurmdPort構成パラメーターで定義されているように、すべての計算ノードのすべてのslurmdデーモンに単一のポート番号があります。
Use of this option is not generally recommended except for development or testing purposes.
このオプションの使用は、開発またはテストの目的を除いて、一般的には推奨されません。
If multiple slurmd daemons execute on a node this can specify a range of ports.
1つのノードで複数のslurmdデーモンが実行される場合、これによりポートの範囲を指定できます。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレス指定(RSIP)は、ポート8192〜60000で開かれているものと自動的に対話しようとします。
Configure Port to use a port outside of the configured SrunPortRange and RSIP's port range.
構成済みのSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにポートを構成します。
- Procs
-
See CPUs.
CPUを参照してください。
- RealMemory
-
Size of real memory on the node in megabytes (e.g. "2048").
ノード上の実メモリーのサイズ(メガバイト単位)(例:「2048」)。
The default value is 1.
デフォルト値は1です。
Lowering RealMemory with the goal of setting aside some amount for the OS and not available for job allocations will not work as intended if Memory is not set as a consumable resource in SelectTypeParameters.
SelectTypeParametersでメモリが消費可能なリソースとして設定されていない場合、OSにある程度の量を確保し、ジョブの割り当てに使用できないことを目的としてRealMemoryを下げると、意図したとおりに機能しません。
So one of the *_Memory options need to be enabled for that goal to be accomplished.
したがって、その目標を達成するには、* _ Memoryオプションの1つを有効にする必要があります。
Also see MemSpecLimit.
MemSpecLimitも参照してください。
- Reason
-
Identifies the reason for a node being in state "DOWN", "DRAINED"
"DRAINING", "FAIL" or "FAILING".
ノードが「DOWN」、「DRAINED」、「DRAINING」、「FAIL」、または「FAILING」の状態にある理由を識別します。
Use quotes to enclose a reason having more than one word.
引用符を使用して、複数の単語を含む理由を囲みます。
- Sockets
-
Number of physical processor sockets/chips on the node (e.g. "2").
ノード上の物理プロセッサソケット/チップの数(例:「2」)。
If Sockets is omitted, it will be inferred from CPUs, CoresPerSocket, and ThreadsPerCore.
Socketsを省略すると、CPU、CoresPerSocket、およびThreadsPerCoreから推測されます。
NOTE: If you have multi-core processors, you will likely need to specify these parameters.
注:マルチコアプロセッサを使用している場合は、これらのパラメータを指定する必要があります。
Sockets and SocketsPerBoard are mutually exclusive.
SocketsとSocketsPerBoardは相互に排他的です。
If Sockets is specified when Boards is also used, Sockets is interpreted as SocketsPerBoard rather than total sockets.
Boardsも使用されているときにSocketsが指定されている場合、Socketsは合計ソケットではなくSocketsPerBoardとして解釈されます。
The default value is 1.
デフォルト値は1です。
- SocketsPerBoard
-
Number of physical processor sockets/chips on a baseboard.
ベースボード上の物理プロセッサソケット/チップの数。
Sockets and SocketsPerBoard are mutually exclusive.
SocketsとSocketsPerBoardは相互に排他的です。
The default value is 1.
デフォルト値は1です。
- State
-
State of the node with respect to the initiation of user jobs.
ユーザージョブの開始に関するノードの状態。
Acceptable values are "CLOUD", "DOWN", "DRAIN", "FAIL", "FAILING", "FUTURE" and "UNKNOWN".
許容値は、「CLOUD」、「DOWN」、「DRAIN」、「FAIL」、「FAILING」、「FUTURE」、および「UNKNOWN」です。
Node states of "BUSY" and "IDLE" should not be specified in the node configuration, but set the node state to "UNKNOWN" instead.
「BUSY」および「IDLE」のノード状態は、ノード構成で指定しないでください。代わりに、ノード状態を「UNKNOWN」に設定してください。
Setting the node state to "UNKNOWN" will result in the node state being set to "BUSY", "IDLE" or other appropriate state based upon recovered system state information.
ノード状態を「UNKNOWN」に設定すると、回復されたシステム状態情報に基づいて、ノード状態が「BUSY」、「IDLE」、またはその他の適切な状態に設定されます。
The default value is "UNKNOWN".
デフォルト値は「UNKNOWN」です。
Also see the DownNodes parameter below.
以下のDownNodesパラメーターも参照してください。
-
- CLOUD
-
Indicates the node exists in the cloud.
ノードがクラウドに存在することを示します。
Its initial state will be treated as powered down.
その初期状態は、電源がオフになっているものとして扱われます。
The node will be available for use after its state is recovered from Slurm's state save file or the slurmd daemon starts on the compute node.
ノードは、その状態がSlurmの状態保存ファイルから回復された後、またはslurmdデーモンが計算ノードで開始された後に使用できるようになります。
- DOWN
-
Indicates the node failed and is unavailable to be allocated work.
ノードに障害が発生し、作業を割り当てることができないことを示します。
- DRAIN
-
Indicates the node is unavailable to be allocated work.on.
ノードにwork.onを割り当てることができないことを示します。
- FAIL
-
Indicates the node is expected to fail soon, has
no jobs allocated to it, and will not be allocated
to any new jobs.
ノードにすぐに障害が発生すると予想され、ジョブが割り当てられておらず、新しいジョブにも割り当てられないことを示します。
- FAILING
-
Indicates the node is expected to fail soon, has
one or more jobs allocated to it, but will not be allocated
to any new jobs.
ノードに間もなく障害が発生すると予想され、1つ以上のジョブが割り当てられているが、新しいジョブには割り当てられないことを示します。
- FUTURE
-
Indicates the node is defined for future use and need not
exist when the Slurm daemons are started.
ノードが将来の使用のために定義されており、Slurmデーモンの開始時に存在する必要がないことを示します。
These nodes can be made available for use simply by updating the node state using the scontrol command rather than restarting the slurmctld daemon.
これらのノードは、slurmctldデーモンを再起動するのではなく、scontrolコマンドを使用してノードの状態を更新するだけで使用できるようになります。
After these nodes are made available, change their State in the slurm.conf file.
これらのノードが使用可能になったら、slurm.confファイルでそれらの状態を変更します。
Until these nodes are made available, they will not be seen using any Slurm commands or nor will any attempt be made to contact them.
これらのノードが使用可能になるまで、Slurmコマンドを使用してノードが表示されたり、ノードへの接続が試行されたりすることはありません。
- UNKNOWN
-
Indicates the node's state is undefined (BUSY or IDLE),
but will be established when the slurmd daemon on that node
registers.
ノードの状態が未定義(BUSYまたはIDLE)であることを示しますが、そのノードのslurmdデーモンが登録されると確立されます。
The default value is "UNKNOWN".
デフォルト値は「UNKNOWN」です。
-
- ThreadsPerCore
-
Number of logical threads in a single physical core (e.g. "2").
単一の物理コア内の論理スレッドの数(例:「2」)。
Note that the Slurm can allocate resources to jobs down to the resolution of a core.
Slurmは、コアの解像度までリソースをジョブに割り当てることができることに注意してください。
If your system is configured with more than one thread per core, execution of a different job on each thread is not supported unless you configure SelectTypeParameters=CR_CPU plus CPUs; do not configure Sockets, CoresPerSocket or ThreadsPerCore.
システムがコアごとに複数のスレッドで構成されている場合、SelectTypeParameters = CR_CPUとCPUを構成しない限り、各スレッドでの異なるジョブの実行はサポートされません。Sockets、CoresPerSocket、またはThreadsPerCoreを構成しないでください。
A job can execute a one task per thread from within one job step or execute a distinct job step on each of the threads.
ジョブは、1つのジョブステップ内からスレッドごとに1つのタスクを実行することも、各スレッドで個別のジョブステップを実行することもできます。
Note also if you are running with more than 1 thread per core and running the select/cons_res or select/cons_tres plugin then you will want to set the SelectTypeParameters variable to something other than CR_CPU to avoid unexpected results.
また、コアごとに複数のスレッドで実行していて、select / cons_resまたはselect / cons_tresプラグインを実行している場合は、予期しない結果を回避するために、SelectTypeParameters変数をCR_CPU以外に設定する必要があることにも注意してください。
The default value is 1.
デフォルト値は1です。
- TmpDisk
-
Total size of temporary disk storage in TmpFS in megabytes
(e.g. "16384").
メガバイト単位のTmpFSでの一時ディスクストレージの合計サイズ(例:「16384」)。
TmpFS (for "Temporary File System") identifies the location which jobs should use for temporary storage.
TmpFS(「一時ファイルシステム」の略)は、ジョブが一時ストレージに使用する場所を識別します。
Note this does not indicate the amount of free space available to the user on the node, only the total file system size.
これは、ノード上のユーザーが使用できる空き領域の量を示すものではなく、ファイルシステムの合計サイズのみを示すことに注意してください。
The system administration should ensure this file system is purged as needed so that user jobs have access to most of this space.
システム管理者は、ユーザージョブがこのスペースのほとんどにアクセスできるように、必要に応じてこのファイルシステムがパージされていることを確認する必要があります。
The Prolog and/or Epilog programs (specified in the configuration file) might be used to ensure the file system is kept clean.
Prologおよび/またはEpilogプログラム(構成ファイルで指定)を使用して、ファイルシステムをクリーンに保つことができます。
The default value is 0.
デフォルト値は0です。
- TRESWeights
-
TRESWeights are used to calculate a value that represents how
busy a node is.
TRESWeightsは、ノードのビジー状態を表す値を計算するために使用されます。
Currently only used in federation configurations.
現在、フェデレーション構成でのみ使用されます。
TRESWeights are different from TRESBillingWeights -- which is used for fairshare calculations.
TRESWeightsは、フェアシェアの計算に使用されるTRESBillingWeightsとは異なります。
TRES weights are specified as a comma-separated list of <TRES Type>=<TRES Weight> pairs.
TRESの重みは、<TRES Type> = <TRESWeight>のペアのコンマ区切りリストとして指定されます。
e.g. NodeName=node1 ... TRESWeights="CPU=1.0,Mem=0.25G,GRES/gpu=2.0"
By default the weighted TRES value is calculated as the sum of all node TRES types multiplied by their corresponding TRES weight.
デフォルトでは、加重TRES値は、すべてのノードTRESタイプの合計に対応するTRES加重を掛けたものとして計算されます。
If PriorityFlags=MAX_TRES is configured, the weighted TRES value is calculated as the MAX of individual node TRES' (e.g. cpus, mem, gres).
PriorityFlags = MAX_TRESが構成されている場合、重み付けされたTRES値は、個々のノードTRES(CPU、mem、gresなど)のMAXとして計算されます。
- Weight
-
The priority of the node for scheduling purposes.
スケジューリングのためのノードの優先度。
All things being equal, jobs will be allocated the nodes with the lowest weight which satisfies their requirements.
すべてが等しい場合、ジョブには、要件を満たす最小の重みを持つノードが割り当てられます。
For example, a heterogeneous collection of nodes might be placed into a single partition for greater system utilization, responsiveness and capability.
たとえば、ノードの異種コレクションを単一のパーティションに配置して、システムの使用率、応答性、および機能を向上させることができます。
It would be preferable to allocate smaller memory nodes rather than larger memory nodes if either will satisfy a job's requirements.
どちらかがジョブの要件を満たす場合は、大きなメモリノードよりも小さなメモリノードを割り当てることが望ましいでしょう。
The units of weight are arbitrary, but larger weights should be assigned to nodes with more processors, memory, disk space, higher processor speed, etc.
重みの単位は任意ですが、より多くのプロセッサ、メモリ、ディスクスペース、より高速なプロセッサ速度などを備えたノードには、より大きな重みを割り当てる必要があります。
Note that if a job allocation request can not be satisfied using the nodes with the lowest weight, the set of nodes with the next lowest weight is added to the set of nodes under consideration for use (repeat as needed for higher weight values).
重みが最も小さいノードを使用してジョブ割り当て要求を満たせない場合は、次に重みが小さいノードのセットが、使用を検討しているノードのセットに追加されます(重みの値が大きい場合は必要に応じて繰り返します)。
If you absolutely want to minimize the number of higher weight nodes allocated to a job (at a cost of higher scheduling overhead), give each node a distinct Weight value and they will be added to the pool of nodes being considered for scheduling individually.
ジョブに割り当てられる重みの大きいノードの数を絶対に最小限に抑えたい場合は(スケジューリングのオーバーヘッドが高くなります)、各ノードに個別の重み値を指定すると、個別にスケジューリングすることを検討しているノードのプールに追加されます。
The default value is 1.
デフォルト値は1です。
The "DownNodes=" configuration permits you to mark certain nodes as in a
DOWN, DRAIN, FAIL, or FAILING state without altering the permanent
configuration information listed under a "NodeName=" specification.
「DownNodes =」構成では、「NodeName =」仕様にリストされている永続的な構成情報を変更せずに、特定のノードをDOWN、DRAIN、FAIL、またはFAILING状態としてマークできます。
- DownNodes
-
Any node name, or list of node names, from the "NodeName=" specifications.
「NodeName =」仕様からの任意のノード名、またはノード名のリスト。
- Reason
-
Identifies the reason for a node being in state "DOWN", "DRAIN",
"FAIL" or "FAILING.
ノードが「DOWN」、「DRAIN」、「FAIL」、または「FAILING」の状態にある理由を識別します。
Use quotes to enclose a reason having more than one word.
引用符を使用して、複数の単語を含む理由を囲みます。
- State
-
State of the node with respect to the initiation of user jobs.
ユーザージョブの開始に関するノードの状態。
Acceptable values are "DOWN", "DRAIN", "FAIL", "FAILING" and "UNKNOWN".
許容値は、「DOWN」、「DRAIN」、「FAIL」、「FAILING」、および「UNKNOWN」です。
Node states of "BUSY" and "IDLE" should not be specified in the node configuration, but set the node state to "UNKNOWN" instead.
「BUSY」および「IDLE」のノード状態は、ノード構成で指定しないでください。代わりに、ノード状態を「UNKNOWN」に設定してください。
Setting the node state to "UNKNOWN" will result in the node state being set to "BUSY", "IDLE" or other appropriate state based upon recovered system state information.
ノード状態を「UNKNOWN」に設定すると、回復されたシステム状態情報に基づいて、ノード状態が「BUSY」、「IDLE」、またはその他の適切な状態に設定されます。
The default value is "UNKNOWN".
デフォルト値は「UNKNOWN」です。
-
- DOWN
-
Indicates the node failed and is unavailable to be allocated work.
ノードに障害が発生し、作業を割り当てることができないことを示します。
- DRAIN
-
Indicates the node is unavailable to be allocated work.on.
ノードにwork.onを割り当てることができないことを示します。
- FAIL
-
Indicates the node is expected to fail soon, has
no jobs allocated to it, and will not be allocated
to any new jobs.
ノードにすぐに障害が発生すると予想され、ジョブが割り当てられておらず、新しいジョブにも割り当てられないことを示します。
- FAILING
-
Indicates the node is expected to fail soon, has
one or more jobs allocated to it, but will not be allocated
to any new jobs.
ノードに間もなく障害が発生すると予想され、1つ以上のジョブが割り当てられているが、新しいジョブには割り当てられないことを示します。
- UNKNOWN
-
Indicates the node's state is undefined (BUSY or IDLE),
but will be established when the slurmd daemon on that node
registers.
ノードの状態が未定義(BUSYまたはIDLE)であることを示しますが、そのノードのslurmdデーモンが登録されると確立されます。
The default value is "UNKNOWN".
デフォルト値は「UNKNOWN」です。
-
On computers where frontend nodes are used to execute batch scripts
rather than compute nodes (Cray ALPS systems), one may configure one or more
frontend nodes using the configuration parameters defined below.
計算ノードではなくフロントエンドノードを使用してバッチスクリプトを実行するコンピューター(Cray ALPSシステム)では、以下に定義する構成パラメーターを使用して1つ以上のフロントエンドノードを構成できます。
These options
are very similar to those used in configuring compute nodes.
これらのオプションは、計算ノードの構成で使用されるオプションと非常によく似ています。
These options may
only be used on systems configured and built with the appropriate parameters
(--have-front-end) or a system determined to have the appropriate
architecture by the configure script (Cray ALPS systems).
これらのオプションは、適切なパラメーター(--have-front-end)で構成および構築されたシステム、または構成スクリプトによって適切なアーキテクチャーであると判断されたシステム(Cray ALPSシステム)でのみ使用できます。
The front end configuration specifies the following information:
フロントエンド構成は、次の情報を指定します。
- AllowGroups
-
Comma separated list of group names which may execute jobs on this front end
node.
このフロントエンドノードでジョブを実行する可能性のあるグループ名のコンマ区切りリスト。
By default, all groups may use this front end node.
デフォルトでは、すべてのグループがこのフロントエンドノードを使用できます。
If at least one group associated with the user attempting to execute the job is in AllowGroups, he will be permitted to use this front end node.
ジョブを実行しようとしているユーザーに関連付けられている少なくとも1つのグループがAllowGroupsにある場合、そのユーザーはこのフロントエンドノードの使用を許可されます。
May not be used with the DenyGroups option.
DenyGroupsオプションと一緒に使用することはできません。
- AllowUsers
-
Comma separated list of user names which may execute jobs on this front end
node.
このフロントエンドノードでジョブを実行できるユーザー名のコンマ区切りリスト。
By default, all users may use this front end node.
デフォルトでは、すべてのユーザーがこのフロントエンドノードを使用できます。
May not be used with the DenyUsers option.
DenyUsersオプションと一緒に使用することはできません。
- DenyGroups
-
Comma separated list of group names which are prevented from executing jobs on
this front end node.
このフロントエンドノードでジョブを実行できないグループ名のコンマ区切りリスト。
May not be used with the AllowGroups option.
AllowGroupsオプションと一緒に使用することはできません。
- DenyUsers
-
Comma separated list of user names which are prevented from executing jobs on
this front end node.
このフロントエンドノードでジョブを実行できないユーザー名のコンマ区切りリスト。
May not be used with the AllowUsers option.
AllowUsersオプションと一緒に使用することはできません。
- FrontendName
-
Name that Slurm uses to refer to a frontend node.
Slurmがフロントエンドノードを参照するために使用する名前。
Typically this would be the string that "/bin/hostname -s" returns.
通常、これは「/ bin / hostname-s」が返す文字列になります。
It may also be the fully qualified domain name as returned by "/bin/hostname -f" (e.g. "foo1.bar.com"), or any valid domain name associated with the host through the host database (/etc/hosts) or DNS, depending on the resolver settings.
また、「/ bin / hostname -f」(「foo1.bar.com」など)によって返される完全修飾ドメイン名、またはホストデータベース(/ etc / hosts)を介してホストに関連付けられた有効なドメイン名の場合もあります。またはDNS、リゾルバーの設定に応じて。
Note that if the short form of the hostname is not used, it may prevent use of hostlist expressions (the numeric portion in brackets must be at the end of the string).
ホスト名の短縮形を使用しないと、ホストリスト式を使用できなくなる可能性があることに注意してください(角かっこ内の数値部分は文字列の最後にある必要があります)。
If the FrontendName is "DEFAULT", the values specified with that record will apply to subsequent node specifications unless explicitly set to other values in that frontend node record or replaced with a different set of default values.
FrontendNameが "DEFAULT"の場合、そのフロントエンドノードレコード内の他の値に明示的に設定されるか、別のデフォルト値のセットに置き換えられない限り、そのレコードで指定された値は後続のノード仕様に適用されます。
Each line where FrontendName is "DEFAULT" will replace or add to previous default values and not a reinitialize the default values.
FrontendNameが「DEFAULT」である各行は、以前のデフォルト値を置換または追加し、デフォルト値を再初期化することはありません。
Note that since the naming of front end nodes would typically not follow that of the compute nodes (e.g. lacking X, Y and Z coordinates found in the compute node naming scheme), each front end node name should be listed separately and without a hostlist expression (i.e. frontend00,frontend01" rather than "frontend[00-01]").
フロントエンドノードの名前は通常、計算ノードの名前に従わないため(たとえば、計算ノードの名前付けスキームにあるX、Y、Z座標がない)、各フロントエンドノードの名前は個別にリストし、ホストリスト式を使用しないでください。 (つまり、「frontend [00-01]」ではなく「frontend00、frontend01」)。
- FrontendAddr
-
Name that a frontend node should be referred to in establishing
a communications path.
通信パスを確立する際にフロントエンドノードを参照する必要がある名前。
This name will be used as an argument to the gethostbyname() function for identification.
この名前は、識別のためのgethostbyname()関数への引数として使用されます。
As with FrontendName, list the individual node addresses rather than using a hostlist expression.
FrontendNameと同様に、hostlist式を使用するのではなく、個々のノードアドレスをリストします。
The number of FrontendAddr records per line must equal the number of FrontendName records per line (i.e. you can't map to node names to one address).
1行あたりのFrontendAddrレコードの数は、1行あたりのFrontendNameレコードの数と同じである必要があります(つまり、1つのアドレスのノード名にマップすることはできません)。
FrontendAddr may also contain IP addresses.
FrontendAddrにはIPアドレスも含まれる場合があります。
By default, the FrontendAddr will be identical in value to FrontendName.
デフォルトでは、FrontendAddrの値はFrontendNameと同じになります。
- Port
-
The port number that the Slurm compute node daemon, slurmd, listens
to for work on this particular frontend node.
Slurm計算ノードデーモンslurmdが、この特定のフロントエンドノードでの作業をリッスンするポート番号。
By default there is a single port number for all slurmd daemons on all frontend nodes as defined by the SlurmdPort configuration parameter.
デフォルトでは、SlurmdPort構成パラメーターで定義されているように、すべてのフロントエンドノードのすべてのslurmdデーモンに単一のポート番号があります。
Use of this option is not generally recommended except for development or testing purposes.
このオプションの使用は、開発またはテストの目的を除いて、一般的には推奨されません。
Note: On Cray systems, Realm-Specific IP Addressing (RSIP) will automatically try to interact with anything opened on ports 8192-60000.
注:Crayシステムでは、レルム固有のIPアドレス指定(RSIP)は、ポート8192〜60000で開かれているものと自動的に対話しようとします。
Configure Port to use a port outside of the configured SrunPortRange and RSIP's port range.
構成済みのSrunPortRangeおよびRSIPのポート範囲外のポートを使用するようにポートを構成します。
- Reason
-
Identifies the reason for a frontend node being in state "DOWN", "DRAINED"
"DRAINING", "FAIL" or "FAILING".
フロントエンドノードが「DOWN」、「DRAINED」、「DRAINING」、「FAIL」、または「FAILING」の状態にある理由を識別します。
Use quotes to enclose a reason having more than one word.
引用符を使用して、複数の単語を含む理由を囲みます。
- State
-
State of the frontend node with respect to the initiation of user jobs.
ユーザージョブの開始に関するフロントエンドノードの状態。
Acceptable values are "DOWN", "DRAIN", "FAIL", "FAILING" and "UNKNOWN".
許容値は、「DOWN」、「DRAIN」、「FAIL」、「FAILING」、および「UNKNOWN」です。
"DOWN" indicates the frontend node has failed and is unavailable to be allocated work.
「DOWN」は、フロントエンドノードに障害が発生し、作業を割り当てることができないことを示します。
"DRAIN" indicates the frontend node is unavailable to be allocated work.
「DRAIN」は、フロントエンドノードが作業を割り当てることができないことを示します。
"FAIL" indicates the frontend node is expected to fail soon, has no jobs allocated to it, and will not be allocated to any new jobs.
「FAIL」は、フロントエンドノードがすぐに失敗すると予想され、ジョブが割り当てられておらず、新しいジョブに割り当てられないことを示します。
"FAILING" indicates the frontend node is expected to fail soon, has one or more jobs allocated to it, but will not be allocated to any new jobs.
「FAILING」は、フロントエンドノードがすぐに失敗すると予想され、1つ以上のジョブが割り当てられているが、新しいジョブには割り当てられないことを示します。
"UNKNOWN" indicates the frontend node's state is undefined (BUSY or IDLE), but will be established when the slurmd daemon on that node registers.
「UNKNOWN」は、フロントエンドノードの状態が未定義(BUSYまたはIDLE)であることを示しますが、そのノードのslurmdデーモンが登録されると確立されます。
The default value is "UNKNOWN".
デフォルト値は「UNKNOWN」です。
Also see the DownNodes parameter above.
上記のDownNodesパラメーターも参照してください。
For example: "FrontendName=frontend[00-03] FrontendAddr=efrontend[00-03] State=UNKNOWN" is used to define four front end nodes for running slurmd daemons.
次に例を示します。「FrontendName = frontend [00-03] FrontendAddr = efrontend [00-03] State = UNKNOWN」は、slurmdデーモンを実行するための4つのフロントエンドノードを定義するために使用されます。
The nodeset configuration allows you to define a name for a specific set of
nodes which can be used to simplify the partition configuration section,
especially for heterogenous or condo-style systems.
ノードセット構成を使用すると、特定のノードセットの名前を定義できます。これを使用して、パーティション構成セクションを簡素化できます。特に、異種システムまたはコンドミニアムスタイルのシステムの場合はそうです。
Each nodeset may be defined
by an explicit list of nodes, and/or by filtering the nodes by a particular
configured feature.
各ノードセットは、ノードの明示的なリストによって、および/または特定の構成された機能によってノードをフィルタリングすることによって定義することができます。
If both Feature= and Nodes= are used the
nodeset shall be the union of the two subsets.
Feature =とNodes =の両方が使用される場合、ノードセットは2つのサブセットの和集合になります。
Note that the nodesets are only used to simplify the partition definitions
at present, and are not usable outside of the partition configuration.
ノードセットは現在、パーティション定義を単純化するためにのみ使用されており、パーティション構成の外部では使用できないことに注意してください。
- Feature
-
All nodes with this single feature will be included as part of this nodeset.
この単一の機能を備えたすべてのノードは、このノードセットの一部として含まれます。
- Nodes
-
List of nodes in this set.
このセットのノードのリスト。
- NodeSet
-
Unique name for a set of nodes.
ノードのセットの一意の名前。
Must not overlap with any NodeName definitions.
NodeName定義と重複してはなりません。
The partition configuration permits you to establish different job
limits or access controls for various groups (or partitions) of nodes.
パーティション構成を使用すると、ノードのさまざまなグループ(またはパーティション)に対してさまざまなジョブ制限またはアクセス制御を確立できます。
Nodes may be in more than one partition, making partitions serve
as general purpose queues.
ノードは複数のパーティションにある場合があり、パーティションを汎用キューとして機能させます。
For example one may put the same set of nodes into two different
partitions, each with different constraints (time limit, job sizes,
groups allowed to use the partition, etc.).
たとえば、同じノードのセットを2つの異なるパーティションに配置し、それぞれに異なる制約(時間制限、ジョブサイズ、パーティションの使用を許可するグループなど)を設定できます。
Jobs are allocated resources within a single partition.
ジョブには、単一のパーティション内でリソースが割り当てられます。
Default values can be specified with a record in which
PartitionName is "DEFAULT".
デフォルト値は、PartitionNameが「DEFAULT」であるレコードで指定できます。
The default entry values will apply only to lines following it in the
configuration file and the default values can be reset multiple times
in the configuration file with multiple entries where "PartitionName=DEFAULT".
デフォルトのエントリ値は、構成ファイルでそれに続く行にのみ適用され、デフォルト値は、「PartitionName = DEFAULT」の複数のエントリを持つ構成ファイルで複数回リセットできます。
The "PartitionName=" specification must be placed on every line
describing the configuration of partitions.
「PartitionName =」指定は、パーティションの構成を説明するすべての行に配置する必要があります。
Each line where PartitionName is "DEFAULT" will replace or add to previous
default values and not a reinitialize the default values.
PartitionNameが「DEFAULT」である各行は、以前のデフォルト値を置き換えたり追加したりし、デフォルト値を再初期化することはありません。
A single partition name can not appear as a PartitionName value in more than
one line (duplicate partition name records will be ignored).
単一のパーティション名を複数の行にPartitionName値として表示することはできません(重複するパーティション名レコードは無視されます)。
If a partition that is in use is deleted from the configuration and slurm
is restarted or reconfigured (scontrol reconfigure), jobs using the partition
are canceled.
使用中のパーティションが構成から削除され、slurmが再起動または再構成された場合(scontrol reconfigure)、そのパーティションを使用しているジョブはキャンセルされます。
NOTE: Put all parameters for each partition on a single line.
注:各パーティションのすべてのパラメーターを1行に配置します。
Each line of partition configuration information should
represent a different partition.
パーティション構成情報の各行は、異なるパーティションを表す必要があります。
The partition configuration file contains the following information:
パーティション構成ファイルには、次の情報が含まれています。
- AllocNodes
-
Comma separated list of nodes from which users can submit jobs in the
partition.
ユーザーがパーティション内のジョブをサブミットできるノードのコンマ区切りリスト。
Node names may be specified using the node range expression syntax described above.
ノード名は、上記のノード範囲式の構文を使用して指定できます。
The default value is "ALL".
デフォルト値は「ALL」です。
- AllowAccounts
-
Comma separated list of accounts which may execute jobs in the partition.
パーティション内でジョブを実行する可能性のあるアカウントのコンマ区切りリスト。
The default value is "ALL".
デフォルト値は「ALL」です。
NOTE: If AllowAccounts is used then DenyAccounts will not be enforced.
注:AllowAccountsが使用されている場合、DenyAccountsは適用されません。
Also refer to DenyAccounts.
DenyAccountsも参照してください。
- AllowGroups
-
Comma separated list of group names which may execute jobs in the partition.
パーティション内でジョブを実行する可能性のあるグループ名のコンマ区切りリスト。
If at least one group associated with the user attempting to execute the job is in AllowGroups, he will be permitted to use this partition.
ジョブを実行しようとしているユーザーに関連付けられている少なくとも1つのグループがAllowGroupsにある場合、そのユーザーはこのパーティションの使用を許可されます。
Jobs executed as user root can use any partition without regard to the value of AllowGroups.
ユーザーrootとして実行されるジョブは、AllowGroupsの値に関係なく、任意のパーティションを使用できます。
If user root attempts to execute a job as another user (e.g. using srun's --uid option), this other user must be in one of groups identified by AllowGroups for the job to successfully execute.
ユーザーrootが別のユーザーとしてジョブを実行しようとする場合(たとえば、srunの--uidオプションを使用)、ジョブを正常に実行するには、この他のユーザーがAllowGroupsで識別されるグループの1つに属している必要があります。
The default value is "ALL".
デフォルト値は「ALL」です。
When set, all partitions that a user does not have access will be hidden from display regardless of the settings used for PrivateData.
設定すると、PrivateDataに使用されている設定に関係なく、ユーザーがアクセスできないすべてのパーティションが表示されなくなります。
NOTE: For performance reasons, Slurm maintains a list of user IDs allowed to use each partition and this is checked at job submission time.
注:パフォーマンス上の理由から、Slurmは各パーティションの使用が許可されているユーザーIDのリストを保持しており、これはジョブの送信時にチェックされます。
This list of user IDs is updated when the slurmctld daemon is restarted, reconfigured (e.g. "scontrol reconfig") or the partition's AllowGroups value is reset, even if is value is unchanged (e.g. "scontrol update PartitionName=name AllowGroups=group").
このユーザーIDのリストは、slurmctldデーモンが再起動、再構成( "scontrol reconfig"など)されるか、パーティションのAllowGroups値がリセットされると、値が変更されていない場合でも更新されます( "scontrol update PartitionName = name AllowGroups = group"など)。
For a user's access to a partition to change, both his group membership must change and Slurm's internal user ID list must change using one of the methods described above.
ユーザーのパーティションへのアクセスを変更するには、ユーザーのグループメンバーシップを変更し、Slurmの内部ユーザーIDリストを上記のいずれかの方法で変更する必要があります。
- AllowQos
-
Comma separated list of Qos which may execute jobs in the partition.
パーティション内でジョブを実行する可能性のあるQosのコンマ区切りリスト。
Jobs executed as user root can use any partition without regard to the value of AllowQos.
ユーザーrootとして実行されるジョブは、AllowQosの値に関係なく、任意のパーティションを使用できます。
The default value is "ALL".
デフォルト値は「ALL」です。
NOTE: If AllowQos is used then DenyQos will not be enforced.
注:AllowQosが使用されている場合、DenyQosは適用されません。
Also refer to DenyQos.
DenyQosも参照してください。
- Alternate
-
Partition name of alternate partition to be used if the state of this partition
is "DRAIN" or "INACTIVE."
このパーティションの状態が「DRAIN」または「INACTIVE」の場合に使用される代替パーティションのパーティション名。
- CpuBind
-
If a job step request does not specify an option to control how tasks are bound
to allocated CPUs (--cpu-bind) and all nodes allocated to the job do not have
the same CpuBind option the node.
ジョブステップ要求で、タスクが割り当てられたCPUにバインドされる方法を制御するオプション(--cpu-bind)が指定されておらず、ジョブに割り当てられたすべてのノードに同じCpuBindオプションがない場合。
Then the partition's CpuBind option will control how tasks are bound to allocated resources.
次に、パーティションのCpuBindオプションは、タスクが割り当てられたリソースにバインドされる方法を制御します。
Supported values forCpuBind are "none", "board", "socket", "ldom" (NUMA), "core" and "thread".
CpuBindでサポートされている値は、「none」、「board」、「socket」、「ldom」(NUMA)、「core」、および「thread」です。
- Default
-
If this keyword is set, jobs submitted without a partition
specification will utilize this partition.
このキーワードが設定されている場合、パーティション指定なしで送信されたジョブはこのパーティションを利用します。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- DefCpuPerGPU
-
Default count of CPUs allocated per allocated GPU.
割り当てられたGPUごとに割り当てられたCPUのデフォルト数。
- DefMemPerCPU
-
Default real memory size available per allocated CPU in megabytes.
割り当てられたCPUごとに使用可能なデフォルトの実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
DefMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
If not set, the DefMemPerCPU value for the entire cluster will be used.
設定されていない場合、クラスター全体のDefMemPerCPU値が使用されます。
Also see DefMemPerGPU, DefMemPerNode and MaxMemPerCPU.
DefMemPerGPU、DefMemPerNode、およびMaxMemPerCPUも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerGPU
-
Default real memory size available per allocated GPU in megabytes.
割り当てられたGPUごとに使用可能なデフォルトの実メモリサイズ(メガバイト単位)。
Also see DefMemPerCPU, DefMemPerNode and MaxMemPerCPU.
DefMemPerCPU、DefMemPerNode、およびMaxMemPerCPUも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DefMemPerNode
-
Default real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能なデフォルトの実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
DefMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
DefMemPerNodeは通常、ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている場合(OverSubscribe = yesまたはOverSubscribe = force)に使用されます。
If not set, the DefMemPerNode value for the entire cluster will be used.
設定されていない場合、クラスター全体のDefMemPerNode値が使用されます。
Also see DefMemPerCPU, DefMemPerGPU and MaxMemPerCPU.
DefMemPerCPU、DefMemPerGPU、およびMaxMemPerCPUも参照してください。
DefMemPerCPU, DefMemPerGPU and DefMemPerNode are mutually exclusive.
DefMemPerCPU、DefMemPerGPU、およびDefMemPerNodeは相互に排他的です。
- DenyAccounts
-
Comma separated list of accounts which may not execute jobs in the partition.
パーティション内でジョブを実行できない可能性のあるアカウントのコンマ区切りリスト。
By default, no accounts are denied access NOTE: If AllowAccounts is used then DenyAccounts will not be enforced.
デフォルトでは、アクセスが拒否されるアカウントはありません。注:AllowAccountsが使用されている場合、DenyAccountsは適用されません。
Also refer to AllowAccounts.
AllowAccountsも参照してください。
- DenyQos
-
Comma separated list of Qos which may not execute jobs in the partition.
パーティション内でジョブを実行できない可能性のあるQosのコンマ区切りリスト。
By default, no QOS are denied access NOTE: If AllowQos is used then DenyQos will not be enforced.
デフォルトでは、アクセスが拒否されるQOSはありません。注:AllowQosが使用されている場合、DenyQosは適用されません。
Also refer AllowQos.
AllowQosも参照してください。
- DefaultTime
-
Run time limit used for jobs that don't specify a value.
値を指定しないジョブに使用される実行時間制限。
If not set then MaxTime will be used.
設定されていない場合、MaxTimeが使用されます。
Format is the same as for MaxTime.
形式はMaxTimeの場合と同じです。
- DisableRootJobs
-
If set to "YES" then user root will be prevented from running any jobs
on this partition.
「YES」に設定すると、ユーザーrootはこのパーティションでジョブを実行できなくなります。
The default value will be the value of DisableRootJobs set outside of a partition specification (which is "NO", allowing user root to execute jobs).
デフォルト値は、パーティション仕様の外部で設定されたDisableRootJobsの値です(これは「NO」であり、ユーザーrootがジョブを実行できるようにします)。
- ExclusiveUser
-
If set to "YES" then nodes will be exclusively allocated to users.
「YES」に設定すると、ノードはユーザーに排他的に割り当てられます。
Multiple jobs may be run for the same user, but only one user can be active at a time.
同じユーザーに対して複数のジョブを実行できますが、一度にアクティブにできるのは1人のユーザーのみです。
This capability is also available on a per-job basis by using the --exclusive=user option.
この機能は、-exclusive = userオプションを使用してジョブごとに使用することもできます。
- GraceTime
-
Specifies, in units of seconds, the preemption grace time
to be extended to a job which has been selected for preemption.
プリエンプション用に選択されたジョブに延長されるプリエンプション猶予時間を秒単位で指定します。
The default value is zero, no preemption grace time is allowed on this partition.
デフォルト値はゼロであり、このパーティションではプリエンプション猶予時間は許可されていません。
Once a job has been selected for preemption, its end time is set to the current time plus GraceTime.
ジョブがプリエンプション用に選択されると、その終了時刻は現在の時刻にGraceTimeを加えたものに設定されます。
The job's tasks are immediately sent SIGCONT and SIGTERM signals in order to provide notification of its imminent termination.
ジョブのタスクには、差し迫った終了の通知を提供するために、SIGCONTおよびSIGTERMシグナルがすぐに送信されます。
This is followed by the SIGCONT, SIGTERM and SIGKILL signal sequence upon reaching its new end time.
これに続いて、新しい終了時刻に達すると、SIGCONT、SIGTERM、およびSIGKILLシグナルシーケンスが続きます。
This second set of signals is sent to both the tasks and the containing batch script, if applicable.
この2番目のシグナルのセットは、該当する場合、タスクとそれに含まれるバッチスクリプトの両方に送信されます。
See also the global KillWait configuration parameter.
グローバルKillWait構成パラメーターも参照してください。
- Hidden
-
Specifies if the partition and its jobs are to be hidden by default.
パーティションとそのジョブをデフォルトで非表示にするかどうかを指定します。
Hidden partitions will by default not be reported by the Slurm APIs or commands.
非表示のパーティションは、デフォルトではSlurmAPIまたはコマンドによって報告されません。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
Note that partitions that a user lacks access to by virtue of the AllowGroups parameter will also be hidden by default.
AllowGroupsパラメーターによってユーザーがアクセスできないパーティションもデフォルトで非表示になることに注意してください。
- LLN
-
Schedule resources to jobs on the least loaded nodes (based upon the number
of idle CPUs).
(アイドル状態のCPUの数に基づいて)最も負荷の少ないノード上のジョブにリソースをスケジュールします。
This is generally only recommended for an environment with serial jobs as idle resources will tend to be highly fragmented, resulting in parallel jobs being distributed across many nodes.
アイドル状態のリソースは非常に断片化される傾向があり、並列ジョブが多くのノードに分散されるため、これは通常、シリアルジョブがある環境でのみ推奨されます。
Note that node Weight takes precedence over how many idle resources are on each node.
ノードの重みは、各ノードにあるアイドル状態のリソースの数よりも優先されることに注意してください。
Also see the SelectParameters configuration parameter CR_LLN to use the least loaded nodes in every partition.
すべてのパーティションで最も負荷の少ないノードを使用するには、SelectParameters構成パラメーターCR_LLNも参照してください。
- MaxCPUsPerNode
-
Maximum number of CPUs on any node available to all jobs from this partition.
このパーティションのすべてのジョブで使用可能なノード上のCPUの最大数。
This can be especially useful to schedule GPUs.
これは、GPUをスケジュールする場合に特に役立ちます。
For example a node can be associated with two Slurm partitions (e.g. "cpu" and "gpu") and the partition/queue "cpu" could be limited to only a subset of the node's CPUs, ensuring that one or more CPUs would be available to jobs in the "gpu" partition/queue.
たとえば、ノードを2つのSlurmパーティション(「cpu」と「gpu」など)に関連付けることができ、パーティション/キュー「cpu」をノードのCPUのサブセットのみに制限して、1つ以上のCPUを使用できるようにすることができます。 「gpu」パーティション/キュー内のジョブに。
- MaxMemPerCPU
-
Maximum real memory size available per allocated CPU in megabytes.>
割り当てられたCPUごとに使用可能な最大実メモリーサイズ(メガバイト単位)。>
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerCPU would generally be used if individual processors are allocated to jobs (SelectType=select/cons_res or SelectType=select/cons_tres).
MaxMemPerCPUは通常、個々のプロセッサがジョブに割り当てられている場合に使用されます(SelectType = select / cons_resまたはSelectType = select / cons_tres)。
If not set, the MaxMemPerCPU value for the entire cluster will be used.
設定されていない場合、クラスター全体のMaxMemPerCPU値が使用されます。
Also see DefMemPerCPU and MaxMemPerNode.
DefMemPerCPUおよびMaxMemPerNodeも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
- MaxMemPerNode
-
Maximum real memory size available per allocated node in megabytes.
割り当てられたノードごとに使用可能な最大実メモリーサイズ(メガバイト単位)。
Used to avoid over-subscribing memory and causing paging.
メモリのオーバーサブスクライブとページングの発生を回避するために使用されます。
MaxMemPerNode would generally be used if whole nodes are allocated to jobs (SelectType=select/linear) and resources are over-subscribed (OverSubscribe=yes or OverSubscribe=force).
MaxMemPerNodeは通常、ノード全体がジョブに割り当てられ(SelectType = select / linear)、リソースがオーバーサブスクライブされている場合(OverSubscribe = yesまたはOverSubscribe = force)に使用されます。
If not set, the MaxMemPerNode value for the entire cluster will be used.
設定されていない場合、クラスター全体のMaxMemPerNode値が使用されます。
Also see DefMemPerNode and MaxMemPerCPU.
DefMemPerNodeおよびMaxMemPerCPUも参照してください。
MaxMemPerCPU and MaxMemPerNode are mutually exclusive.
MaxMemPerCPUとMaxMemPerNodeは相互に排他的です。
- MaxNodes
-
Maximum count of nodes which may be allocated to any single job.
単一のジョブに割り当てることができるノードの最大数。
The default value is "UNLIMITED", which is represented internally as -1.
デフォルト値は「UNLIMITED」で、内部的には-1として表されます。
This limit does not apply to jobs executed by SlurmUser or user root.
この制限は、SlurmUserまたはユーザーrootによって実行されるジョブには適用されません。
- MaxTime
-
Maximum run time limit for jobs.
ジョブの最大実行時間制限。
Format is minutes, minutes:seconds, hours:minutes:seconds, days-hours, days-hours:minutes, days-hours:minutes:seconds or "UNLIMITED".
形式は、分、分:秒、時間:分:秒、日-時間、日-時間:分、日-時間:分:秒、または「無制限」です。
Time resolution is one minute and second values are rounded up to the next minute.
時間分解能は1分で、秒の値は次の分に切り上げられます。
This limit does not apply to jobs executed by SlurmUser or user root.
この制限は、SlurmUserまたはユーザーrootによって実行されるジョブには適用されません。
- MinNodes
-
Minimum count of nodes which may be allocated to any single job.
単一のジョブに割り当てることができるノードの最小数。
The default value is 0.
デフォルト値は0です。
This limit does not apply to jobs executed by SlurmUser or user root.
この制限は、SlurmUserまたはユーザーrootによって実行されるジョブには適用されません。
- Nodes
-
Comma separated list of nodes or nodesets which are associated with this
partition.
このパーティションに関連付けられているノードまたはノードセットのコンマ区切りリスト。
Node names may be specified using the node range expression syntax described above.
ノード名は、上記のノード範囲式の構文を使用して指定できます。
A blank list of nodes (i.e. "Nodes= ") can be used if one wants a partition to exist, but have no resources (possibly on a temporary basis).
パーティションを存在させたいがリソースがない場合(おそらく一時的に)、ノードの空白のリスト(つまり、「Nodes =」)を使用できます。
A value of "ALL" is mapped to all nodes configured in the cluster.
「ALL」の値は、クラスターに構成されているすべてのノードにマップされます。
- OverSubscribe
-
Controls the ability of the partition to execute more than one job at a
time on each resource (node, socket or core depending upon the value
of SelectTypeParameters).
各リソース(SelectTypeParametersの値に応じてノード、ソケット、またはコア)で一度に複数のジョブを実行するパーティションの機能を制御します。
If resources are to be over-subscribed, avoiding memory over-subscription is very important.
リソースがオーバーサブスクライブされる場合、メモリのオーバーサブスクライブを回避することが非常に重要です。
SelectTypeParameters should be configured to treat memory as a consumable resource and the --mem option should be used for job allocations.
SelectTypeParametersは、メモリを消費可能なリソースとして扱うように構成する必要があり、ジョブの割り当てには--memオプションを使用する必要があります。
Sharing of resources is typically useful only when using gang scheduling (PreemptMode=suspend,gang).
リソースの共有は通常、ギャングスケジューリング(PreemptMode = suspend、gang)を使用する場合にのみ役立ちます。
Possible values for OverSubscribe are "EXCLUSIVE", "FORCE", "YES", and "NO".
OverSubscribeに指定できる値は、「EXCLUSIVE」、「FORCE」、「YES」、および「NO」です。
Note that a value of "YES" or "FORCE" can negatively impact performance for systems with many thousands of running jobs.
「YES」または「FORCE」の値は、何千もの実行中のジョブがあるシステムのパフォーマンスに悪影響を与える可能性があることに注意してください。
The default value is "NO".
デフォルト値は「NO」です。
For more information see the following web pages:
詳細については、次のWebページを参照してください。
cons_res,
cons_res_share,
gang_scheduling, and
preempt.-
- EXCLUSIVE
-
Allocates entire nodes to jobs even with SelectType=select/cons_res or
SelectType=select/cons_tres configured.
SelectType = select / cons_resまたはSelectType = select / cons_tresが構成されている場合でも、ノード全体をジョブに割り当てます。
Jobs that run in partitions with "OverSubscribe=EXCLUSIVE" will have exclusive access to all allocated nodes.
「OverSubscribe = EXCLUSIVE」のパーティションで実行されるジョブは、割り当てられたすべてのノードに排他的にアクセスできます。
- FORCE
-
Makes all resources in the partition available for oversubscription without
any means for users to disable it.
ユーザーがパーティションを無効にする手段なしに、パーティション内のすべてのリソースをオーバーサブスクリプションに使用できるようにします。
May be followed with a colon and maximum number of jobs in running or suspended state.
コロンと、実行中または一時停止状態のジョブの最大数が続く場合があります。
For example "OverSubscribe=FORCE:4" enables each node, socket or core to oversubscribe each resource four ways.
たとえば、「OverSubscribe = FORCE:4」を使用すると、各ノード、ソケット、またはコアが各リソースを4つの方法でオーバーサブスクライブできます。
Recommended only for systems running with gang scheduling (PreemptMode=suspend,gang).
ギャングスケジューリング(PreemptMode = suspend、gang)で実行されているシステムにのみ推奨されます。
NOTE: PreemptType=preempt/qos will permit one additional job to be run on the partition if started due to job preemption.
注:PreemptType = preempt / qosは、ジョブのプリエンプションが原因で開始された場合、パーティションで1つの追加ジョブを実行できるようにします。
For example, a configuration of OverSubscribe=FORCE:1 will only permit one job per resources normally, but a second job can be started if done so through preemption based upon QOS.
たとえば、OverSubscribe = FORCE:1の構成では、通常、リソースごとに1つのジョブのみが許可されますが、QOSに基づくプリエンプションによって許可された場合、2番目のジョブを開始できます。
The use of PreemptType=preempt/qos and PreemptMode=SUSPEND only applies with SelectType=select/cons_res or SelectType=select/cons_tres.
PreemptType = preempt / qosおよびPreemptMode = SUSPENDの使用は、SelectType = select / cons_resまたはSelectType = select / cons_tresでのみ適用されます。
- YES
-
Makes all resources in the partition available for sharing upon request by
the job.
ジョブからの要求に応じて、パーティション内のすべてのリソースを共有できるようにします。
Resources will only be over-subscribed when explicitly requested by the user using the "--oversubscribe" option on job submission.
リソースは、ジョブの送信時に「--oversubscribe」オプションを使用してユーザーから明示的に要求された場合にのみ、オーバーサブスクライブされます。
May be followed with a colon and maximum number of jobs in running or suspended state.
コロンと、実行中または一時停止状態のジョブの最大数が続く場合があります。
For example "OverSubscribe=YES:4" enables each node, socket or core to execute up to four jobs at once.
たとえば、「OverSubscribe = YES:4」を使用すると、各ノード、ソケット、またはコアで最大4つのジョブを同時に実行できます。
Recommended only for systems running with gang scheduling (PreemptMode=suspend,gang).
ギャングスケジューリング(PreemptMode = suspend、gang)で実行されているシステムにのみ推奨されます。
- NO
-
Selected resources are allocated to a single job.
選択したリソースは単一のジョブに割り当てられます。
No resource will be allocated to more than one job.
リソースが複数のジョブに割り当てられることはありません。
-
- PartitionName
-
Name by which the partition may be referenced (e.g. "Interactive").
パーティションを参照できる名前(「インタラクティブ」など)。
This name can be specified by users when submitting jobs.
この名前は、ジョブを送信するときにユーザーが指定できます。
If the PartitionName is "DEFAULT", the values specified with that record will apply to subsequent partition specifications unless explicitly set to other values in that partition record or replaced with a different set of default values.
PartitionNameが "DEFAULT"の場合、そのパーティションレコード内の他の値に明示的に設定されるか、別のデフォルト値のセットに置き換えられない限り、そのレコードで指定された値は後続のパーティション仕様に適用されます。
Each line where PartitionName is "DEFAULT" will replace or add to previous default values and not a reinitialize the default values.
PartitionNameが「DEFAULT」である各行は、以前のデフォルト値を置き換えたり追加したりし、デフォルト値を再初期化することはありません。
- PreemptMode
-
Mechanism used to preempt jobs or enable gang scheduling for this
partition when PreemptType=preempt/partition_prio is configured.
PreemptType = preempt / partition_prioが設定されている場合に、ジョブをプリエンプトするか、このパーティションのギャングスケジューリングを有効にするために使用されるメカニズム。
This partition-specific PreemptMode configuration parameter will override the cluster-wide PreemptMode for this partition.
このパーティション固有のPreemptMode構成パラメーターは、このパーティションのクラスター全体のPreemptModeをオーバーライドします。
It can be set to OFF to disable preemption and gang scheduling for this partition.
このパーティションのプリエンプションとギャングスケジューリングを無効にするには、OFFに設定できます。
See also PriorityTier and the above description of the cluster-wide PreemptMode parameter for further details.
詳細については、PriorityTierおよびクラスター全体のPreemptModeパラメーターに関する上記の説明も参照してください。
- PriorityJobFactor
-
Partition factor used by priority/multifactor plugin in calculating job priority.
ジョブの優先度を計算する際にpriority / multifactorプラグインによって使用されるパーティション係数。
The value may not exceed 65533.
値は65533を超えてはなりません。
Also see PriorityTier.
PriorityTierも参照してください。
- PriorityTier
-
Jobs submitted to a partition with a higher priority tier value will be
dispatched before pending jobs in partition with lower priority tier value and,
if possible, they will preempt running jobs from partitions with lower priority
tier values.
優先度の高いティア値のパーティションにサブミットされたジョブは、優先度の低いティア値のパーティションで保留中のジョブの前にディスパッチされ、可能であれば、優先度の低いティア値のパーティションから実行中のジョブをプリエンプトします。
Note that a partition's priority tier takes precedence over a job's priority.
パーティションの優先度階層は、ジョブの優先度よりも優先されることに注意してください。
The value may not exceed 65533.
値は65533を超えてはなりません。
Also see PriorityJobFactor.
PriorityJobFactorも参照してください。
- QOS
-
Used to extend the limits available to a QOS on a partition.
パーティション上のQOSで使用可能な制限を拡張するために使用されます。
Jobs will not be associated to this QOS outside of being associated to the partition.
ジョブは、パーティションに関連付けられている以外は、このQOSに関連付けられません。
They will still be associated to their requested QOS.
それらは、要求されたQOSに引き続き関連付けられます。
By default, no QOS is used.
デフォルトでは、QOSは使用されません。
NOTE: If a limit is set in both the Partition's QOS and the Job's QOS the Partition QOS will be honored unless the Job's QOS has the OverPartQOS flag set in which the Job's QOS will have priority.
注:パーティションのQOSとジョブのQOSの両方に制限が設定されている場合、ジョブのQOSにジョブのQOSが優先されるOverPartQOSフラグが設定されていない限り、パーティションのQOSが優先されます。
- ReqResv
-
Specifies users of this partition are required to designate a reservation
when submitting a job.
このパーティションのユーザーがジョブを送信するときに予約を指定する必要があることを指定します。
This option can be useful in restricting usage of a partition that may have higher priority or additional resources to be allowed only within a reservation.
このオプションは、優先度が高い可能性のあるパーティションの使用を制限したり、予約内でのみ許可される追加のリソースを制限したりする場合に役立ちます。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- RootOnly
-
Specifies if only user ID zero (i.e. user root) may allocate resources
in this partition.
ユーザーIDゼロ(つまり、ユーザーroot)のみがこのパーティションにリソースを割り当てることができるかどうかを指定します。
User root may allocate resources for any other user, but the request must be initiated by user root.
ユーザーrootは他のユーザーにリソースを割り当てることができますが、要求はユーザーrootによって開始される必要があります。
This option can be useful for a partition to be managed by some external entity (e.g. a higher-level job manager) and prevents users from directly using those resources.
このオプションは、パーティションが外部エンティティ(たとえば、上位レベルのジョブマネージャ)によって管理される場合に役立ち、ユーザーがそれらのリソースを直接使用できないようにします。
Possible values are "YES" and "NO".
可能な値は「YES」と「NO」です。
The default value is "NO".
デフォルト値は「NO」です。
- SelectTypeParameters
-
Partition-specific resource allocation type.
パーティション固有のリソース割り当てタイプ。
This option replaces the global SelectTypeParameters value.
このオプションは、グローバルなSelectTypeParameters値を置き換えます。
Supported values are CR_Core, CR_Core_Memory, CR_Socket and CR_Socket_Memory.
サポートされている値は、CR_Core、CR_Core_Memory、CR_Socket、およびCR_Socket_Memoryです。
Use requires the system-wide SelectTypeParameters value be set to any of the four supported values previously listed; otherwise, the partition-specific value will be ignored.
使用するには、システム全体のSelectTypeParameters値を、前述の4つのサポートされている値のいずれかに設定する必要があります。それ以外の場合、パーティション固有の値は無視されます。
- Shared
-
The Shared configuration parameter has been replaced by the
OverSubscribe parameter described above.
Shared構成パラメーターは、上記のOverSubscribeパラメーターに置き換えられました。
- State
-
State of partition or availability for use.
パーティションの状態または使用可能性。
Possible values are "UP", "DOWN", "DRAIN" and "INACTIVE".
可能な値は、「UP」、「DOWN」、「DRAIN」、および「INACTIVE」です。
The default value is "UP".
デフォルト値は「UP」です。
See also the related "Alternate" keyword.
関連する「Alternate」キーワードも参照してください。
-
- UP
-
Designates that new jobs may be queued on the partition, and that
jobs may be allocated nodes and run from the partition.
新しいジョブをパーティションのキューに入れることができ、ジョブにノードを割り当ててパーティションから実行できることを指定します。
- DOWN
-
Designates that new jobs may be queued on the partition, but
queued jobs may not be allocated nodes and run from the partition.
新しいジョブをパーティションでキューに入れることができるが、キューに入れられたジョブにノードを割り当ててパーティションから実行することはできないことを指定します。
Jobs already running on the partition continue to run.
パーティションですでに実行されているジョブは引き続き実行されます。
The jobs must be explicitly canceled to force their termination.
ジョブを強制的に終了するには、ジョブを明示的にキャンセルする必要があります。
- DRAIN
-
Designates that no new jobs may be queued on the partition (job
submission requests will be denied with an error message), but jobs
already queued on the partition may be allocated nodes and run.
パーティションで新しいジョブをキューに入れることはできないことを指定します(ジョブ送信要求はエラーメッセージで拒否されます)が、パーティションですでにキューに入れられているジョブにはノードを割り当てて実行できます。
See also the "Alternate" partition specification.
「代替」パーティション仕様も参照してください。
- INACTIVE
-
Designates that no new jobs may be queued on the partition,
and jobs already queued may not be allocated nodes and run.
パーティションで新しいジョブをキューに入れることはできず、すでにキューに入れられているジョブはノードに割り当てられて実行されない可能性があることを指定します。
See also the "Alternate" partition specification.
「代替」パーティション仕様も参照してください。
-
- TRESBillingWeights
-
TRESBillingWeights is used to define the billing weights of each TRES type that
will be used in calculating the usage of a job.
TRESBillingWeightsは、ジョブの使用量の計算に使用される各TRESタイプの請求ウェイトを定義するために使用されます。
The calculated usage is used when calculating fairshare and when enforcing the TRES billing limit on jobs.
計算された使用量は、フェアシェアを計算するとき、およびジョブにTRES請求制限を適用するときに使用されます。
Billing weights are specified as a comma-separated list of <TRES Type>=<TRES Billing Weight> pairs.
請求の重みは、<TRESタイプ> = <TRESの請求の重み>のペアのコンマ区切りリストとして指定されます。
Any TRES Type is available for billing.
任意のTRESタイプを請求できます。
Note that the base unit for memory and burst buffers is megabytes.
メモリとバーストバッファの基本単位はメガバイトであることに注意してください。
By default the billing of TRES is calculated as the sum of all TRES types multiplied by their corresponding billing weight.
デフォルトでは、TRESの請求は、すべてのTRESタイプの合計に対応する請求の重みを掛けたものとして計算されます。
The weighted amount of a resource can be adjusted by adding a suffix of K,M,G,T or P after the billing weight.
リソースの加重量は、請求の加重の後にK、M、G、T、またはPのサフィックスを追加することで調整できます。
For example, a memory weight of "mem=.25" on a job allocated 8GB will be billed 2048 (8192MB *.25) units.
たとえば、8GBが割り当てられたジョブのメモリの重みが「mem = .25」の場合、2048(8192MB * .25)ユニットが請求されます。
A memory weight of "mem=.25G" on the same job will be billed 2 (8192MB * (.25/1024)) units.
同じジョブでの「mem = .25G」のメモリウェイトは、2(8192MB *(。25/1024))ユニットで請求されます。
Negative values are allowed.
負の値が許可されます。
When a job is allocated 1 CPU and 8 GB of memory on a partition configured with TRESBillingWeights="CPU=1.0,Mem=0.25G,GRES/gpu=2.0", the billable TRES will be: (1*1.0) + (8*0.25) + (0*2.0) = 3.0.
TRESBillingWeights = "CPU = 1.0、Mem = 0.25G、GRES / gpu = 2.0"で構成されたパーティションにジョブに1CPUと8GBのメモリが割り当てられている場合、請求可能なTRESは(1 * 1.0)+(8 * 0.25)+(0 * 2.0)= 3.0。
If PriorityFlags=MAX_TRES is configured, the billable TRES is calculated as the MAX of individual TRES' on a node (e.g. cpus, mem, gres) plus the sum of all global TRES' (e.g. licenses).
PriorityFlags = MAX_TRESが構成されている場合、請求可能なTRESは、ノード(cpus、mem、gresなど)の個々のTRESのMAXに、すべてのグローバルTRES(ライセンスなど)の合計を加えたものとして計算されます。
Using the same example above the billable TRES will be MAX(1*1.0, 8*0.25) + (0*2.0) = 2.0.
上記の同じ例を使用すると、請求可能なTRESはMAX(1 * 1.0、8 * 0.25)+(0 * 2.0)= 2.0になります。
If TRESBillingWeights is not defined then the job is billed against the total number of allocated CPUs.
TRESBillingWeightsが定義されていない場合、ジョブは割り当てられたCPUの総数に対して請求されます。
NOTE: TRESBillingWeights doesn't affect job priority directly as it is currently not used for the size of the job.
注:TRESBillingWeightsは、現在ジョブのサイズに使用されていないため、ジョブの優先度に直接影響しません。
If you want TRES' to play a role in the job's priority then refer to the PriorityWeightTRES option.
TRESがジョブの優先度で役割を果たすようにする場合は、PriorityWeightTRESオプションを参照してください。
Prolog and Epilog Scripts
There are a variety of prolog and epilog program options that execute with various permissions and at various times.さまざまな権限でさまざまな時間に実行されるさまざまなプロローグおよびエピローグプログラムオプションがあります。
The four options most likely to be used are: Prolog and Epilog (executed once on each compute node for each job) plus PrologSlurmctld and EpilogSlurmctld (executed once on the ControlMachine for each job).
使用される可能性が最も高い4つのオプションは、PrologとEpilog(各ジョブの各計算ノードで1回実行)とPrologSlurmctldとEpilogSlurmctld(各ジョブのControlMachineで1回実行)です。
NOTE: Standard output and error messages are normally not preserved.
注:通常、標準出力とエラーメッセージは保持されません。
Explicitly write output and error messages to an appropriate location
if you wish to preserve that information.
その情報を保持したい場合は、出力メッセージとエラーメッセージを適切な場所に明示的に書き込みます。
NOTE: By default the Prolog script is ONLY run on any individual
node when it first sees a job step from a new allocation; it does not
run the Prolog immediately when an allocation is granted.
注:デフォルトでは、Prologスクリプトは、新しい割り当てからのジョブステップを最初に確認したときに、個々のノードでのみ実行されます。割り当てが許可されたときにすぐにプロローグを実行することはありません。
If no job steps
from an allocation are run on a node, it will never run the Prolog for that
allocation.
割り当てからのジョブステップがノードで実行されていない場合、その割り当てのプロローグは実行されません。
This Prolog behaviour can be changed by the
PrologFlags parameter.
このPrologの動作は、PrologFlagsパラメーターによって変更できます。
The Epilog, on the other hand, always
runs on every node of an allocation when the allocation is released.
一方、Epilogは、割り当てが解放されると、常に割り当てのすべてのノードで実行されます。
If the Epilog fails (returns a non-zero exit code), this will result in the
node being set to a DRAIN state.
Epilogが失敗した場合(ゼロ以外の終了コードを返す場合)、ノードはDRAIN状態に設定されます。
If the EpilogSlurmctld fails (returns a non-zero exit code), this will only
be logged.
EpilogSlurmctldが失敗した場合(ゼロ以外の終了コードを返す場合)、これはログに記録されるだけです。
If the Prolog fails (returns a non-zero exit code), this will result in the
node being set to a DRAIN state and the job being requeued in a held state
unless nohold_on_prolog_fail is configured in
SchedulerParameters.
Prologが失敗した場合(ゼロ以外の終了コードを返す場合)、SchedulerParametersでnohold_on_prolog_failが構成されていない限り、ノードはDRAIN状態に設定され、ジョブは保留状態で再キューイングされます。
If the PrologSlurmctld fails (returns a non-zero exit code), this will result
in the job requeued to executed on another node if possible.
PrologSlurmctldが失敗した場合(ゼロ以外の終了コードを返す場合)、可能であれば、ジョブは別のノードで実行されるように再キューイングされます。
Only batch jobs
can be requeued.
再キューイングできるのはバッチジョブのみです。
Interactive jobs (salloc and srun) will be cancelled if the
PrologSlurmctld fails.
PrologSlurmctldが失敗すると、対話型ジョブ(sallocおよびsrun)はキャンセルされます。
Information about the job is passed to the script using environment
variables.
ジョブに関する情報は、環境変数を使用してスクリプトに渡されます。
Unless otherwise specified, these environment variables are available
to all of the programs.
特に指定がない限り、これらの環境変数はすべてのプログラムで使用できます。
- SLURM_ARRAY_JOB_ID
-
If this job is part of a job array, this will be set to the job ID.
このジョブがジョブ配列の一部である場合、これはジョブIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
To reference this specific task of a job array, combine SLURM_ARRAY_JOB_ID with SLURM_ARRAY_TASK_ID (e.g. "scontrol update ${SLURM_ARRAY_JOB_ID}_{$SLURM_ARRAY_TASK_ID} ..."); Available in PrologSlurmctld and EpilogSlurmctld only.
ジョブ配列のこの特定のタスクを参照するには、SLURM_ARRAY_JOB_IDをSLURM_ARRAY_TASK_IDと組み合わせます(例: "scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ..."); PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_ID
-
If this job is part of a job array, this will be set to the task ID.
このジョブがジョブ配列の一部である場合、これはタスクIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
To reference this specific task of a job array, combine SLURM_ARRAY_JOB_ID with SLURM_ARRAY_TASK_ID (e.g. "scontrol update ${SLURM_ARRAY_JOB_ID}_{$SLURM_ARRAY_TASK_ID} ..."); Available in PrologSlurmctld and EpilogSlurmctld only.
ジョブ配列のこの特定のタスクを参照するには、SLURM_ARRAY_JOB_IDをSLURM_ARRAY_TASK_IDと組み合わせます(例: "scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ..."); PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_MAX
-
If this job is part of a job array, this will be set to the maximum
task ID.
このジョブがジョブ配列の一部である場合、これは最大タスクIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_MIN
-
If this job is part of a job array, this will be set to the minimum
task ID.
このジョブがジョブ配列の一部である場合、これは最小タスクIDに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_ARRAY_TASK_STEP
-
If this job is part of a job array, this will be set to the step
size of task IDs.
このジョブがジョブ配列の一部である場合、これはタスクIDのステップサイズに設定されます。
Otherwise it will not be set.
それ以外の場合は設定されません。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_CLUSTER_NAME
-
Name of the cluster executing the job.
ジョブを実行しているクラスターの名前。
- SLURM_JOB_ACCOUNT
-
Account name used for the job.
ジョブに使用されるアカウント名。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_CONSTRAINTS
-
Features required to run the job.
ジョブの実行に必要な機能。
Available in Prolog, PrologSlurmctld and EpilogSlurmctld only.
Prolog、PrologSlurmctldおよびEpilogSlurmctldでのみ利用可能です。
- SLURM_JOB_DERIVED_EC
-
The highest exit code of all of the job steps.
すべてのジョブステップの中で最も高い終了コード。
Available in EpilogSlurmctld only.
EpilogSlurmctldでのみ使用できます。
- SLURM_JOB_EXIT_CODE
-
The exit code of the job script (or salloc).
ジョブスクリプト(またはsalloc)の終了コード。
The value is the status as returned by the wait() system call (See wait(2)) Available in EpilogSlurmctld only.
値は、wait()システムコールによって返されるステータスです(wait(2)を参照)。EpilogSlurmctldでのみ使用できます。
- SLURM_JOB_EXIT_CODE2
-
The exit code of the job script (or salloc).
ジョブスクリプト(またはsalloc)の終了コード。
The value has the format <exit>:<sig>.
値の形式は<exit>:<sig>です。
The first number is the exit code, typically as set by the exit() function.
最初の番号は終了コードであり、通常はexit()関数によって設定されます。
The second number of the signal that caused the process to terminate if it was terminated by a signal.
シグナルによってプロセスが終了した場合にプロセスを終了させたシグナルの2番目の番号。
Available in EpilogSlurmctld only.
EpilogSlurmctldでのみ使用できます。
- SLURM_JOB_GID
-
Group ID of the job's owner.
ジョブの所有者のグループID。
Available in PrologSlurmctld, EpilogSlurmctld and TaskProlog only.
PrologSlurmctld、EpilogSlurmctld、およびTaskPrologでのみ使用できます。
- SLURM_JOB_GPUS
-
GPU IDs allocated to the job (if any).
ジョブに割り当てられたGPUID(存在する場合)。
Available in the Prolog only.
Prologでのみ利用可能です。
- SLURM_JOB_GROUP
-
Group name of the job's owner.
ジョブの所有者のグループ名。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_ID
-
Job ID.
ジョブID。
CAUTION: If this job is the first task of a job array, then Slurm commands using this job ID will refer to the entire job array rather than this specific task of the job array.
注意:このジョブがジョブ配列の最初のタスクである場合、このジョブIDを使用するSlurmコマンドは、ジョブ配列のこの特定のタスクではなく、ジョブ配列全体を参照します。
- SLURM_JOB_NAME
-
Name of the job.
ジョブの名前。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_NODELIST
-
Nodes assigned to job.
ジョブに割り当てられたノード。
A Slurm hostlist expression.
Slurmホストリスト式。
"scontrol show hostnames" can be used to convert this to a list of individual host names.
「scontrolshowhostnames」を使用して、これを個々のホスト名のリストに変換できます。
Available in PrologSlurmctld and EpilogSlurmctld only.
PrologSlurmctldおよびEpilogSlurmctldでのみ使用できます。
- SLURM_JOB_PARTITION
-
Partition that job runs in.
ジョブが実行されるパーティション。
Available in Prolog, PrologSlurmctld and EpilogSlurmctld only.
Prolog、PrologSlurmctldおよびEpilogSlurmctldでのみ利用可能です。
- SLURM_JOB_UID
-
User ID of the job's owner.
ジョブの所有者のユーザーID。
- SLURM_JOB_USER
-
User name of the job's owner.
ジョブの所有者のユーザー名。
NETWORK TOPOLOGY
Slurm is able to optimize job allocations to minimize network contention.Slurmは、ジョブの割り当てを最適化して、ネットワークの競合を最小限に抑えることができます。
Special Slurm logic is used to optimize allocations on systems with a three-dimensional interconnect.
特別なSlurmロジックは、3次元相互接続を備えたシステムでの割り当てを最適化するために使用されます。
and information about configuring those systems are available on web pages available here: <https://slurm.schedmd.com/>.
これらのシステムの構成に関する情報は、次のWebページで入手できます:<https://slurm.schedmd.com/>。
For a hierarchical network, Slurm needs to have detailed information about how nodes are configured on the network switches.
階層型ネットワークの場合、Slurmは、ネットワークスイッチでノードがどのように構成されているかに関する詳細情報を持っている必要があります。
Given network topology information, Slurm allocates all of a job's
resources onto a single leaf of the network (if possible) using a best-fit
algorithm.
ネットワークトポロジ情報が与えられると、Slurmは、最適なアルゴリズムを使用して、ジョブのすべてのリソースをネットワークの単一のリーフに割り当てます(可能な場合)。
Otherwise it will allocate a job's resources onto multiple leaf switches
so as to minimize the use of higher-level switches.
それ以外の場合は、ジョブのリソースを複数のリーフスイッチに割り当てて、上位レベルのスイッチの使用を最小限に抑えます。
The TopologyPlugin parameter controls which plugin is used to
collect network topology information.
TopologyPluginパラメーターは、ネットワークトポロジー情報を収集するために使用されるプラグインを制御します。
The only values presently supported are "topology/3d_torus" (default for
Cray XT/XE systems, performs best-fit logic over three-dimensional topology),
"topology/none" (default for other systems,
best-fit logic over one-dimensional topology),
"topology/tree" (determine the network topology based
upon information contained in a topology.conf file,
see "man topology.conf" for more information).
現在サポートされている値は、「topology / 3d_torus」(Cray XT / XEシステムのデフォルト、3次元トポロジで最適なロジックを実行)、「topology / none」(他のシステムのデフォルト、1つで最適なロジック)のみです。次元トポロジ)、「トポロジ/ツリー」(topology.confファイルに含まれる情報に基づいてネットワークトポロジを決定します。詳細については、「mantopology.conf」を参照してください)。
Future plugins may gather topology information directly from the network.
将来のプラグインは、ネットワークから直接トポロジ情報を収集する可能性があります。
The topology information is optional.
トポロジー情報はオプションです。
If not provided, Slurm will perform a best-fit algorithm assuming the
nodes are in a one-dimensional array as configured and the communications
cost is related to the node distance in this array.
提供されていない場合、Slurmは、ノードが構成された1次元配列にあり、通信コストがこの配列のノード距離に関連していると想定して、最適なアルゴリズムを実行します。
RELOCATING CONTROLLERS
If the cluster's computers used for the primary or backup controller will be out of service for an extended period of time, it may be desirable to relocate them.プライマリコントローラーまたはバックアップコントローラーに使用されているクラスターのコンピューターが長期間使用できなくなる場合は、それらを再配置することが望ましい場合があります。
In order to do so, follow this procedure:
これを行うには、次の手順に従います。
1. Stop the Slurm daemons
1.Slurmデーモンを停止します
2. Modify the slurm.conf file appropriately
2.slurm.confファイルを適切に変更します
3. Distribute the updated slurm.conf file to all nodes
3.更新されたslurm.confファイルをすべてのノードに配布します
4. Restart the Slurm daemons
4.Slurmデーモンを再起動します
There should be no loss of any running or pending jobs.
実行中または保留中のジョブが失われることはありません。
Ensure that any nodes added to the cluster have the current
slurm.conf file installed.
クラスターに追加されたノードに、現在のslurm.confファイルがインストールされていることを確認します。
CAUTION: If two nodes are simultaneously configured as the
primary controller (two nodes on which SlurmctldHost specify
the local host and the slurmctld daemon is executing on each),
system behavior will be destructive.
注意:2つのノードが同時にプライマリコントローラーとして構成されている場合(SlurmctldHostがローカルホストを指定し、slurmctldデーモンがそれぞれで実行されている2つのノード)、システムの動作は破壊的です。
If a compute node has an incorrect SlurmctldHost
parameter, that node may be rendered
unusable, but no other harm will result.
計算ノードに誤ったSlurmctldHostパラメーターがある場合、そのノードは使用できなくなる可能性がありますが、他の害は発生しません。
EXAMPLE
#
# Sample /etc/slurm.conf for dev[0-25].llnl.gov
# Author: John Doe
# Date: 11/06/2001
#
SlurmctldHost=dev0(12.34.56.78) # Primary server
SlurmctldHost=dev1(12.34.56.79) # Backup server
#
AuthType=auth/munge
Epilog=/usr/local/slurm/epilog
Prolog=/usr/local/slurm/prolog
FirstJobId=65536
InactiveLimit=120
JobCompType=jobcomp/filetxt
JobCompLoc=/var/log/slurm/jobcomp
KillWait=30
MaxJobCount=10000
MinJobAge=3600
PluginDir=/usr/local/lib:/usr/local/slurm/lib
ReturnToService=0
SchedulerType=sched/backfill
SlurmctldLogFile=/var/log/slurm/slurmctld.log
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmctldPort=7002
SlurmdPort=7003
SlurmdSpoolDir=/var/spool/slurmd.spool
StateSaveLocation=/var/spool/slurm.state
SwitchType=switch/none
TmpFS=/tmp
WaitTime=30
JobCredentialPrivateKey=/usr/local/slurm/private.key
JobCredentialPublicCertificate=/usr/local/slurm/public.cert
#
# Node Configurations
#
NodeName=DEFAULT CPUs=2 RealMemory=2000 TmpDisk=64000
NodeName=DEFAULT State=UNKNOWN
NodeName=dev[0-25] NodeAddr=edev[0-25] Weight=16
# Update records for specific DOWN nodes
DownNodes=dev20 State=DOWN Reason="power,ETA=Dec25"
#
# Partition Configurations
#
PartitionName=DEFAULT MaxTime=30 MaxNodes=10 State=UP
PartitionName=debug Nodes=dev[0-8,18-25] Default=YES
PartitionName=batch Nodes=dev[9-17] MinNodes=4
PartitionName=long Nodes=dev[9-17] MaxTime=120 AllowGroups=admin
INCLUDE MODIFIERS
The "include" key word can be used with modifiers within the specified pathname.「include」キーワードは、指定されたパス名内の修飾子とともに使用できます。
These modifiers would be replaced with cluster name or other information depending on which modifier is specified.
これらの修飾子は、指定されている修飾子に応じて、クラスター名またはその他の情報に置き換えられます。
If the included file is not an absolute path name (i.e. it does not start with a slash), it will searched for in the same directory as the slurm.conf file.
インクルードされたファイルが絶対パス名でない場合(つまり、スラッシュで始まらない場合)、slurm.confファイルと同じディレクトリで検索されます。
- %c
-
Cluster name specified in the slurm.conf will be used.
slurm.confで指定されたクラスター名が使用されます。
- EXAMPLE
-
ClusterName=linux
include /home/slurm/etc/%c_config
# Above line interpreted as
# "include /home/slurm/etc/linux_config"
FILE AND DIRECTORY PERMISSIONS
There are three classes of files:ファイルには次の3つのクラスがあります。
Files used by slurmctld must be accessible by user SlurmUser and accessible by the primary and backup control machines.
slurmctldが使用するファイルは、ユーザーSlurmUserがアクセスでき、プライマリおよびバックアップ制御マシンがアクセスできる必要があります。
Files used by slurmd must be accessible by user root and accessible from every compute node.
slurmdが使用するファイルは、ユーザーrootがアクセスでき、すべての計算ノードからアクセスできる必要があります。
A few files need to be accessible by normal users on all login and compute nodes.
通常のユーザーがすべてのログインノードと計算ノードでいくつかのファイルにアクセスできる必要があります。
While many files and directories are listed below, most of them will not be used with most configurations.
以下に多くのファイルとディレクトリを示しますが、それらのほとんどはほとんどの構成で使用されません。
- AccountingStorageLoc
-
If this specifies a file, it must be writable by user SlurmUser.
これでファイルを指定する場合は、ユーザーSlurmUserが書き込み可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
It is recommended that the file be readable by all users from login and compute nodes.
ログインノードと計算ノードからすべてのユーザーがファイルを読み取れるようにすることをお勧めします。
- Epilog
-
Must be executable by user root.
ユーザーrootによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- EpilogSlurmctld
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- HealthCheckProgram
-
Must be executable by user root.
ユーザーrootによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- JobCompLoc
-
If this specifies a file, it must be writable by user SlurmUser.
これでファイルを指定する場合は、ユーザーSlurmUserが書き込み可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- JobCredentialPrivateKey
-
Must be readable only by user SlurmUser and writable by no other users.
ユーザーSlurmUserのみが読み取り可能で、他のユーザーは書き込みできない必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- JobCredentialPublicCertificate
-
Readable to all users on all nodes.
すべてのノードのすべてのユーザーが読み取ることができます。
Must not be writable by regular users.
通常のユーザーが書き込み可能であってはなりません。
- MailProg
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
Must not be writable by regular users.
通常のユーザーが書き込み可能であってはなりません。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- Prolog
-
Must be executable by user root.
ユーザーrootによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- PrologSlurmctld
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
It is recommended that the file be readable by all users.
すべてのユーザーがファイルを読み取れるようにすることをお勧めします。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- ResumeProgram
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SallocDefaultCommand
-
Must be executable by all users.
すべてのユーザーが実行可能である必要があります。
The file must exist on every login and compute node.
このファイルは、すべてのログインノードと計算ノードに存在する必要があります。
- slurm.conf
-
Readable to all users on all nodes.
すべてのノードのすべてのユーザーが読み取ることができます。
Must not be writable by regular users.
通常のユーザーが書き込み可能であってはなりません。
- SlurmctldLogFile
-
Must be writable by user SlurmUser.
ユーザーSlurmUserが書き込み可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SlurmctldPidFile
-
Must be writable by user root.
ユーザーrootが書き込み可能である必要があります。
Preferably writable and removable by SlurmUser.
できれば、SlurmUserによって書き込み可能で削除可能です。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SlurmdLogFile
-
Must be writable by user root.
ユーザーrootが書き込み可能である必要があります。
A distinct file must exist on each compute node.
各計算ノードには個別のファイルが存在する必要があります。
- SlurmdPidFile
-
Must be writable by user root.
ユーザーrootが書き込み可能である必要があります。
A distinct file must exist on each compute node.
各計算ノードには個別のファイルが存在する必要があります。
- SlurmdSpoolDir
-
Must be writable by user root.
ユーザーrootが書き込み可能である必要があります。
A distinct file must exist on each compute node.
各計算ノードには個別のファイルが存在する必要があります。
- SrunEpilog
-
Must be executable by all users.
すべてのユーザーが実行可能である必要があります。
The file must exist on every login and compute node.
このファイルは、すべてのログインノードと計算ノードに存在する必要があります。
- SrunProlog
-
Must be executable by all users.
すべてのユーザーが実行可能である必要があります。
The file must exist on every login and compute node.
このファイルは、すべてのログインノードと計算ノードに存在する必要があります。
- StateSaveLocation
-
Must be writable by user SlurmUser.
ユーザーSlurmUserが書き込み可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- SuspendProgram
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
- TaskEpilog
-
Must be executable by all users.
すべてのユーザーが実行可能である必要があります。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- TaskProlog
-
Must be executable by all users.
すべてのユーザーが実行可能である必要があります。
The file must exist on every compute node.
ファイルはすべての計算ノードに存在する必要があります。
- UnkillableStepProgram
-
Must be executable by user SlurmUser.
ユーザーSlurmUserによって実行可能である必要があります。
The file must be accessible by the primary and backup control machines.
このファイルには、プライマリおよびバックアップ制御マシンからアクセスできる必要があります。
LOGGING
Note that while Slurm daemons create log files and other files as needed,
it treats the lack of parent directories as a fatal error.
Slurmデーモンは必要に応じてログファイルやその他のファイルを作成しますが、親ディレクトリがないことを致命的なエラーとして扱うことに注意してください。
This prevents the daemons from running if critical file systems are
not mounted and will minimize the risk of cold-starting (starting
without preserving jobs).
これにより、重要なファイルシステムがマウントされていない場合にデーモンが実行されなくなり、コールドスタート(ジョブを保持せずに起動する)のリスクが最小限に抑えられます。
Log files and job accounting files,
may need to be created/owned by the "SlurmUser" uid to be successfully
accessed.
ログファイルとジョブアカウンティングファイルは、正常にアクセスするために「SlurmUser」uidによって作成/所有される必要がある場合があります。
Use the "chown" and "chmod" commands to set the ownership
and permissions appropriately.
「chown」コマンドと「chmod」コマンドを使用して、所有権と権限を適切に設定します。
See the section FILE AND DIRECTORY PERMISSIONS for information
about the various files and directories used by Slurm.
Slurmで使用されるさまざまなファイルとディレクトリについては、「ファイルとディレクトリの許可」のセクションを参照してください。
It is recommended that the logrotate utility be used to ensure that
various log files do not become too large.
logrotateユーティリティを使用して、さまざまなログファイルが大きくなりすぎないようにすることをお勧めします。
This also applies to text files used for accounting,
process tracking, and the slurmdbd log if they are used.
これは、アカウンティング、プロセストラッキング、および使用されている場合はslurmdbdログに使用されるテキストファイルにも適用されます。
Here is a sample logrotate configuration.
これがlogrotate構成のサンプルです。
Make appropriate site modifications
and save as /etc/logrotate.d/slurm on all nodes.
適切なサイト変更を行い、すべてのノードで/etc/logrotate.d/slurmとして保存します。
See the logrotate man page for more details.
詳細については、logrotateのmanページを参照してください。
## # Slurm Logrotate Configuration ## /var/log/slurm/*.log { compress missingok nocopytruncate nodelaycompress nomail notifempty noolddir rotate 5 sharedscripts size=5M create 640 slurm root postrotate pkill -x --signal SIGUSR2 slurmctld pkill -x --signal SIGUSR2 slurmd pkill -x --signal SIGUSR2 slurmdbd exit 0 endscript }
COPYING
Copyright (C) 2002-2007 The Regents of the University of California. Produced at Lawrence Livermore National Laboratory (cf, DISCLAIMER).Copyright (C) 2008-2010 Lawrence Livermore National Security.
Copyright (C) 2010-2017 SchedMD LLC.
This file is part of Slurm, a resource management program. For details, see <https://slurm.schedmd.com/>.
Slurm is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version 2 of the License, or (at your option) any later version.
Slurm is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
FILES
/etc/slurm.confSEE ALSO
cgroup.conf(5), gethostbyname (3), getrlimit (2), gres.conf(5), group (5), hostname (1), scontrol(1), slurmctld(8), slurmd(8), slurmdbd(8), slurmdbd.conf(5), srun(1), spank(8), syslog (2), topology.conf(5)
Index
- NAME
- DESCRIPTION
- PARAMETERS
- Prolog and Epilog Scripts
- NETWORK TOPOLOGY
- RELOCATING CONTROLLERS
- EXAMPLE
- INCLUDE MODIFIERS
- FILE AND DIRECTORY PERMISSIONS
- LOGGING
- COPYING
- FILES
- SEE ALSO
This document was created by man2html using the manual pages.
Time: 20:44:46 GMT, May 21, 2020