Skip to content

节点资源保留设置

由于SLURM未提供针对节点整体计算资源保留设置,有时候用户对任务所使用的计算资源没进行限制,容易使得节点资源使用超过限制进而宕机。SonmiHPC集群通过相关插件实现了该功能。该功能的主要配置信息在/etc/sonmi/config.yaml路径中进行配置,默认的配置如下:

yaml
node-reservation:
  enabled: false
  cpu-reserved-percent: 5
  memory-reserved-percent: 5
  swap-reserved-percent: 5
node-reservation:
  enabled: false
  cpu-reserved-percent: 5
  memory-reserved-percent: 5
  swap-reserved-percent: 5

各个配置字段的说明如下:

  • enabled: 是否启用该功能,默认false不启用
  • cpu-reserved-percent: 保留给系统的CPU使用率百分比,默认保留5%
  • memory-reserved-percent: 保留给系统的内存百分比,默认保留5%
  • swap-reserved-percent: 保留给系统的swap内存百分比,默认保留5%

功能启用

该功能默认关闭,如果需要开启,请将 node-reservation.enabled 设置为true,然后通过下面的命令重启主节点控制器:

bash
systemctl restart sonmictld
systemctl restart sonmictld

同时计算节点也需要重启sonmid服务:

bash
systemctl restart sonmid
systemctl restart sonmid

如果需要关闭该功能,请将 node-reservation.enabled 设置为false,然后同样重启主节点控制器与计算节点的sonmid服务。

本站内容未经授权禁止转载
联系邮箱: [email protected]