nonstop.conf

Section: Slurm Configuration File (5)
Updated: Slurm Configuration File
Index

 

NAME

nonstop.conf - Slurm configuration file for fault-tolerant computing.
nonstop.conf-フォールトトレラントコンピューティング用のSlurm構成ファイル。

 

DESCRIPTION

nonstop.conf is an ASCII file which describes the configuration used for fault-tolerant computing with Slurm using the optional slurmctld/nonstop plugin.
nonstop.confは、オプションのslurmctld / nonstopプラグインを使用したSlurmでのフォールトトレラントコンピューティングに使用される構成を記述したASCIIファイルです。
This plugin provides a means for users to notify Slurm of nodes it believes are suspect, replace the job's failing or failed nodes, and extend a job's in response to failures.
このプラグインは、ユーザーが疑わしいと思われるノードをSlurmに通知し、ジョブの失敗したノードまたは失敗したノードを置き換え、失敗に応じてジョブを拡張する手段を提供します。
The file location can be modified at system build time using the DEFAULT_SLURM_CONF parameter or at execution time by setting the SLURM_CONF environment variable.
ファイルの場所は、システムのビルド時にDEFAULT_SLURM_CONFパラメーターを使用して変更することも、実行時にSLURM_CONF環境変数を設定することによって変更することもできます。
The file will always be located in the same directory as the slurm.conf file.
このファイルは常にslurm.confファイルと同じディレクトリにあります。

Parameter names are case insensitive.
パラメータ名では大文字と小文字は区別されません。
Any text following a "#" in the configuration file is treated as a comment through the end of that line.
構成ファイルの「#」に続くテキストは、その行の終わりまでコメントとして扱われます。
Changes to the configuration file take effect upon restart of Slurm daemons, daemon receipt of the SIGHUP signal, or execution of the command "scontrol reconfigure" unless otherwise noted.
構成ファイルへの変更は、特に明記されていない限り、Slurmデーモンの再起動、デーモンによるSIGHUPシグナルの受信、またはコマンド「scontrolreconfigure」の実行時に有効になります。
The configuration parameters available include:
使用可能な構成パラメーターは次のとおりです。

BackupAddr
Communications address used for the slurmctld daemon.
slurmctldデーモンに使用される通信アドレス。
This can either be a hostname or IP address.
これは、ホスト名またはIPアドレスのいずれかです。
This value would typically be the same as the secondary SlurmctldHost in the slurm.conf file, when applicable.
この値は通常、該当する場合、slurm.confファイルのセカンダリSlurmctldHostと同じになります。

ControlAddr
Communications address used for the slurmctld daemon.
slurmctldデーモンに使用される通信アドレス。
This can either be a hostname or IP address.
これは、ホスト名またはIPアドレスのいずれかです。
This value would typically be the same as the SlurmctldHost in the slurm.conf file.
この値は通常、slurm.confファイルのSlurmctldHostと同じです。

Debug
A number indicating the level of additional logging desired for the plugin.
プラグインに必要な追加のロギングのレベルを示す数値。
The default value is zero, which generates no additional logging.
デフォルト値はゼロで、追加のログは生成されません。

HotSpareCount
This identifies how many nodes in each partition should be maintained as spare resources.
これにより、各パーティション内のノードをスペアリソースとして維持する必要があるノードの数が識別されます。
When a job fails, this pool of resources will be depleted and then replenished when possible using idle resources.
ジョブが失敗すると、このリソースのプールは使い果たされ、可能な場合はアイドル状態のリソースを使用して補充されます。
The value should be a comma delimited list of partition and node count pairs separated by a colon.
値は、コロンで区切られたパーティションとノード数のペアのコンマ区切りリストである必要があります。

MaxSpareNodeCount
This identifies the maximum number of nodes any single job may replace through the job's entire lifetime.
これは、単一のジョブがジョブの存続期間全体にわたって置き換えることができるノードの最大数を識別します。
This could prevent a single job from causing all of the nodes in a cluster to fail.
これにより、単一のジョブによってクラスター内のすべてのノードが失敗するのを防ぐことができます。
By default, there is no maximum node count.
デフォルトでは、最大ノード数はありません。

Port
Port used for communications.
通信に使用されるポート。
The default value is 6820.
デフォルト値は6820です。

TimeLimitDelay
If a job requires replacement resources and none are immediately available, then permit a job to extend its time limit by the length of time required to secure replacement resources up to the number of minutes specified by TimeLimitDelay.
ジョブに置換リソースが必要で、すぐに使用できるものがない場合は、TimeLimitDelayで指定された分数まで、置換リソースを保護するために必要な時間だけ、ジョブの制限時間を延長することを許可します。
This option will only take effect if no hot spare resources are available at the time replacement resources are requested.
このオプションは、交換用リソースが要求されたときに使用可能なホットスペアリソースがない場合にのみ有効になります。
This time limit extension is in addition to the value calculated using the TimeLimitExtend.
この制限時間の延長は、TimeLimitExtendを使用して計算された値に追加されます。
The default value is zero (no time limit extension).
デフォルト値はゼロです(時間制限の延長はありません)。
The value may not exceed 65533 seconds.
値は65533秒を超えてはなりません。

TimeLimitDrop
Specifies the number of minutes that a job can extend its time limit for each failed or failing node removed from the job's allocation.
ジョブの割り当てから削除された、失敗したノードまたは失敗したノードごとに、ジョブが制限時間を延長できる分数を指定します。
The default value is zero (no time limit extension).
デフォルト値はゼロです(時間制限の延長はありません)。
The value may not exceed 65533 seconds.
値は65533秒を超えてはなりません。

TimeLimitExtend
Specifies the number of minutes that a job can extend its time limit for each replaced node.
置き換えられたノードごとに、ジョブが制限時間を延長できる分数を指定します。
The default value is zero (no time limit extension).
デフォルト値はゼロです(時間制限の延長はありません)。
The value may not exceed 65533 seconds.
値は65533秒を超えてはなりません。

UserDrainAllow
This identifies a comma delimited list of user names or user IDs of users who are authorized to drain nodes they believe are failing.
これは、障害が発生していると思われるノードのドレインを許可されているユーザーのユーザー名またはユーザーIDのコンマ区切りリストを識別します。
Specify a value of "ALL" to permit any user to drain nodes.
「ALL」の値を指定して、すべてのユーザーがノードをドレインできるようにします。
By default, no users may drain nodes using this interface.
デフォルトでは、ユーザーはこのインターフェースを使用してノードをドレインできません。

UserDrainDeny
This identifies a comma delimited list of user names or user IDs of users who are NOT authorized to drain nodes they believe are failing.
これは、障害が発生していると思われるノードのドレインを許可されていないユーザーのユーザー名またはユーザーIDのコンマ区切りリストを識別します。
Specifying a value for UserDrainDeny implicitly allows all other users to drain nodes (sets the value of UserDrainAllow to "ALL").
UserDrainDenyの値を指定すると、他のすべてのユーザーがノードをドレインできるようになります(UserDrainAllowの値を「ALL」に設定します)。

 

EXAMPLE

#
# Sample nonstop.conf file
# Date: 12 Feb 2013
#
ControlAddr=12.34.56.78
BackupAddr=12.34.56.79
Port=1234
#
HotSpareCount=batch:6,interactive:0
MaxSpareNodesCount=4
TimeLimitDelay=30
TimeLimitExtend=20
TimeLimitExtend=10
UserDrainAllow=adam,brenda

 

COPYING

Copyright (C) 2013-2014 SchedMD LLC. All rights reserved.

Slurm is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

 

SEE ALSO

slurm.conf(5)


 

Index

NAME
DESCRIPTION
EXAMPLE
COPYING
SEE ALSO

This document was created by man2html using the manual pages.
Time: 20:44:46 GMT, May 21, 2020