SLURM 常见问题与解决方案
- 陷入CG状态的任务卡住无法取消,如何处理?
有时候部分程序由于没处理好相关的退出信号,导致任务使用命令scancel <ID>无法成功取消,节点一直陷于COMPLETING状态,任务始终处于CG状态。可以通过下面的方式来进行处理:
bash
scontrol requeue <ID>
scontrol release <ID>
scancel <ID>scontrol requeue <ID>
scontrol release <ID>
scancel <ID>2.如何处理处于DRAIN状态的节点?
有时候部分原因导致节点切换到DRAIN状态,节点上面没有任务运行,也无法将任务队列调度到改状态的节点上,可以通过下面的命令来更新DRAIN状态的节点到可调度状态:
bash
scontrol update nodename=<node_name> state=resumescontrol update nodename=<node_name> state=resume