Skip to content

查看集群信息

用户登录上集群之后,可以先查看集群计算资源信息,包括集群中包含的节点,每个节点可分配的CPU核心数,内存大小,节点可用性等,用以后面选择空闲的节点来提交自己的计算任务。

查看节点信息

  1. 用户可以通过 sonmictl 命令行工具查看集群所有节点信息:
sonmictl node info
sonmictl node info

从返回的结果可以看到集群节点名称/CPU分配/内存使用/CPU温度/负载/节点状态等信息。

  1. 通过slurm的 sinfo 命令可以查看集群的队列情况:
sinfo
sinfo

可以看到集群上有sonmi默认队列,该队列包含compute-0-[0-1]以及sonmi三个节点。

cluster-info-2

  1. 通过slurm的 scontrol 命令也可以查看到更为具体的节点信息:
scontrol show nodes
scontrol show nodes

返回j节点信息如下图所示:

cluster-info-3

查看任务队列

  1. 用户可以通过 sonmictl 命令行工具查看集群上面的任务队列情况:
sonmictl job info
sonmictl job info

可以从返回结果看到正在计算以及排队的任务队列,各列的含义如下:

  • JOBID:计算任务的ID
  • PARTITION:任务分配到的分区
  • NAME:任务名称
  • USER:该任务归属的用户
  • STATE: 任务状态,Running则代表任务计算进行中
  • NODES:该任务分配到的计算节点数量
  • TIME:计算任务进行的时间
  • NODELIST:任务分配到的具体节点

cluster-info-4

  1. 用户可以通过slurm的squeue命令来查看集群的任务队列:
squeue
squeue

返回的任务队列如下图:

cluster-info-5

本站内容未经授权禁止转载
联系邮箱: [email protected]