微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Slurm的NODE配置


    Slurm节点管理的配置在/etc/slurm.conf文件中指定,更改节点配置(例如添加节点、更改处理器数量等)需要重新启动slurmctld守护进程和slurmd守护进程。所有slurmd守护进程必须知道系统中的每个节点,才能转发消息支持分层通信。注册到系统的节点的资源少于配置的资源(例如内存太少)的节点将被置于“DOWN”状态,以避免在它们上调度作业,节点注册时检查的资源有:cpu、RealMemory和Tmpdisk。

 

节点配置参数

NodeName
Slurm用来指定节点的名称。通常这是“/bin/hostname -s”返回的字符串。或通过/etc/hosts或DNS与主机关联的任何有效域名。多个节点名可以用逗号分隔(例如:"alpha,beta,gamma"),或使用一个简单的节点范围(例如“linux[000-100]”)。

Boards
节点中的主板数量。当指定Boards时,应指定SocketsPerBoard、CoresPerSocket和ThreadsPerCore。认值为1。

CoresPerSocket
单个物理处理器Socket中的核心数(例如:“2”)。CoresPerSocket描述的是物理核,而不是每个Socket的逻辑处理器。

cpus
节点上逻辑处理器的数量(例如:“2”)。当希望只调度超线程节点上的核心时,这很有用。如果省略了cpus,则其认值将被设置为Boards、Sockets、CoresPerSocket和ThreadsPerCore的乘积。

Features
与节点关联的某些特征。所需的特性可能包含一个数字组件,例如,表示处理器速度,缺省情况下,节点没有特性。

Gres
通用资源规范的逗号分隔列表。格式为:“<name>[:<type>][:no_consume]:<number>[K|M|G],认情况下,节点没有通用资源。
(例如“Gres=gpu:tesla:1,bandwidth:lustre:no_consume:4G”)。

RealMemory
节点实际内存的大小,以megabytes为单位。(例如“2048”)。认值为1。如果在SelectTypeParameters中将Memory设置为可消耗的资源。

Reason
标识节点处于“DOWN”、“DRAINED”、“DRAINING”、“FAIL”或“FAILING”状态的原因。

Sockets
节点上的物理处理器sockets/chips的数量(例如:“2”)。如果Sockets被省略,将从cpu、CoresPerSocket和ThreadsPerCore中进行推断。

SocketsPerBoard
主板上的物理处理器sockets/chips的数量。Sockets和SocketsPerBoard是互斥的。认值为1。

State
节点状态。可接受的值为CLOUD、DOWN、DRAIN、FAIL、FAILING、FUTURE和UNKNowN,认值为UNKNowN。

ThreadsPerCore
单个物理核中的逻辑线程数(例如:“2”)。如果系统为每个核配置了多个线程,认值为1。

Tmpdisk
TmpFS中临时磁盘存储的总大小,以megabytes为单位。(例如“16384”)。TmpFS(表示“临时文件系统”)标识作业应该用于临时存储的位置。认值为0。

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐