节点资源保留设置
由于SLURM未提供针对节点整体计算资源保留设置,有时候用户对任务所使用的计算资源没进行限制,容易使得节点资源使用超过限制进而宕机。SonmiHPC集群通过相关插件实现了该功能。该功能的主要配置信息在/etc/sonmi/config.yaml路径中进行配置,默认的配置如下:
yaml
node-reservation:
enabled: false
cpu-reserved-percent: 5
memory-reserved-percent: 5
swap-reserved-percent: 5node-reservation:
enabled: false
cpu-reserved-percent: 5
memory-reserved-percent: 5
swap-reserved-percent: 5各个配置字段的说明如下:
- enabled: 是否启用该功能,默认false不启用
- cpu-reserved-percent: 保留给系统的CPU使用率百分比,默认保留5%
- memory-reserved-percent: 保留给系统的内存百分比,默认保留5%
- swap-reserved-percent: 保留给系统的swap内存百分比,默认保留5%
功能启用
该功能默认关闭,如果需要开启,请将 node-reservation.enabled 设置为true,然后通过下面的命令重启主节点控制器:
bash
systemctl restart sonmictldsystemctl restart sonmictld同时计算节点也需要重启sonmid服务:
bash
systemctl restart sonmidsystemctl restart sonmid如果需要关闭该功能,请将 node-reservation.enabled 设置为false,然后同样重启主节点控制器与计算节点的sonmid服务。