Skip to content

SLURM 常见问题与解决方案

  1. 陷入CG状态的任务卡住无法取消,如何处理?

有时候部分程序由于没处理好相关的退出信号,导致任务使用命令scancel <ID>无法成功取消,节点一直陷于COMPLETING状态,任务始终处于CG状态。可以通过下面的方式来进行处理:

bash
scontrol requeue <ID>
scontrol release <ID>
scancel <ID>
scontrol requeue <ID>
scontrol release <ID>
scancel <ID>

2.如何处理处于DRAIN状态的节点?

有时候部分原因导致节点切换到DRAIN状态,节点上面没有任务运行,也无法将任务队列调度到改状态的节点上,可以通过下面的命令来更新DRAIN状态的节点到可调度状态:

bash
scontrol update nodename=<node_name> state=resume
scontrol update nodename=<node_name> state=resume

本站内容未经授权禁止转载
联系邮箱: [email protected]