Skip to content

GPU 节点配置

本节内容将介绍如何配置集群中的GPU节点。

显卡驱动安装

  1. NVIDIA官网选择对应的显卡型号及系统版本下载驱动。

  2. 将驱动上传至服务器端。

  3. 进BIOS设置界面关闭 Secure Boot

  4. 安装 kernel-develdnf install -y kernel-devel

  5. 关闭 Noveau

    bash
    cat >> /etc/modprobe.d/blacklist.conf <<EOF
    # nouveau
    blacklist nouveau
    options nouveau modeset=0
    EOF
    cat >> /etc/modprobe.d/blacklist.conf <<EOF
    # nouveau
    blacklist nouveau
    options nouveau modeset=0
    EOF
  6. 使用以下命令将服务器切换到多用户模式systemctl set-default multi-user.target && reboot

  7. 安装驱动,bash NVIDIA-Linux-x86_64-535.113.01.run --kernel-source-path /usr/src/kernels/$(uname -r)

  8. 切换回图形模式并重启,systemctl set-default graphical.target && reboot

    重启后通过nvidia-smi命令就可以看到具体的显卡信息:

    gpu-config-1

slurm GPU配置

  1. 设置slurm配置,编辑 /etc/slurm/slurm.conf 并添加以下的配置字段:
GresTypes=gpu
GresTypes=gpu
  1. 添加节点配置字段:

Gres字段由三部分组成,分别为资源类型,资源名称,资源数量组成。

# CPU节点配置
NodeName=compute-0-1 NodeAddr=10.1.1.5 CoresPerSocket=16 Sockets=2 ThreadsPerCore=2
# GPU节点配置
NodeName=compute-0-2 NodeAddr=10.1.1.4 CoresPerSocket=18 Sockets=2 ThreadsPerCore=2 Gres=gpu:3080ti:4
# CPU节点配置
NodeName=compute-0-1 NodeAddr=10.1.1.5 CoresPerSocket=16 Sockets=2 ThreadsPerCore=2
# GPU节点配置
NodeName=compute-0-2 NodeAddr=10.1.1.4 CoresPerSocket=18 Sockets=2 ThreadsPerCore=2 Gres=gpu:3080ti:4
  1. 配置 /etc/slurm/gres.conf 文件:
AutoDetect=off
NodeName=compute-0-2 Name=gpu Type=3080ti File=/dev/nvidia[0-3]
AutoDetect=off
NodeName=compute-0-2 Name=gpu Type=3080ti File=/dev/nvidia[0-3]
  1. 重启主节点的slurmctld与计算节点的slurmd服务
systemctl restart slurmctld
systemctl restart slurmctld
  1. 查看节点资源是否生效
sinfo -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.15E"
sinfo -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.15E"

本站内容未经授权禁止转载
联系邮箱: [email protected]