查看集群信息
用户登录上集群之后,可以先查看集群计算资源信息,包括集群中包含的节点,每个节点可分配的CPU核心数,内存大小,节点可用性等,用以后面选择空闲的节点来提交自己的计算任务。
查看节点信息
- 用户可以通过 sonmictl 命令行工具查看集群所有节点信息:
sonmictl node info
sonmictl node info
从返回的结果可以看到集群节点名称/CPU分配/内存使用/CPU温度/负载/节点状态等信息。
- 通过slurm的
sinfo
命令可以查看集群的队列情况:
sinfo
sinfo
可以看到集群上有sonmi默认队列,该队列包含compute-0-[0-1]以及sonmi三个节点。
- 通过slurm的 scontrol 命令也可以查看到更为具体的节点信息:
scontrol show nodes
scontrol show nodes
返回j节点信息如下图所示:
查看任务队列
- 用户可以通过 sonmictl 命令行工具查看集群上面的任务队列情况:
sonmictl job info
sonmictl job info
可以从返回结果看到正在计算以及排队的任务队列,各列的含义如下:
- JOBID:计算任务的ID
- PARTITION:任务分配到的分区
- NAME:任务名称
- USER:该任务归属的用户
- STATE: 任务状态,Running则代表任务计算进行中
- NODES:该任务分配到的计算节点数量
- TIME:计算任务进行的时间
- NODELIST:任务分配到的具体节点
- 用户可以通过slurm的
squeue
命令来查看集群的任务队列:
squeue
squeue
返回的任务队列如下图: