GPU 节点配置
本节内容将介绍如何配置集群中的GPU节点。
显卡驱动安装
从NVIDIA官网选择对应的显卡型号及系统版本下载驱动。
将驱动上传至服务器端。
进BIOS设置界面关闭 Secure Boot。
安装 kernel-devel,
dnf install -y kernel-devel
。关闭 Noveau。
bashcat >> /etc/modprobe.d/blacklist.conf <<EOF # nouveau blacklist nouveau options nouveau modeset=0 EOF
cat >> /etc/modprobe.d/blacklist.conf <<EOF # nouveau blacklist nouveau options nouveau modeset=0 EOF
使用以下命令将服务器切换到多用户模式,
systemctl set-default multi-user.target && reboot
。安装驱动,
bash NVIDIA-Linux-x86_64-535.113.01.run --kernel-source-path /usr/src/kernels/$(uname -r)
。切换回图形模式并重启,
systemctl set-default graphical.target && reboot
。重启后通过
nvidia-smi
命令就可以看到具体的显卡信息:
slurm GPU配置
- 设置slurm配置,编辑 /etc/slurm/slurm.conf 并添加以下的配置字段:
GresTypes=gpu
GresTypes=gpu
- 添加节点配置字段:
Gres字段由三部分组成,分别为资源类型,资源名称,资源数量组成。
# CPU节点配置
NodeName=compute-0-1 NodeAddr=10.1.1.5 CoresPerSocket=16 Sockets=2 ThreadsPerCore=2
# GPU节点配置
NodeName=compute-0-2 NodeAddr=10.1.1.4 CoresPerSocket=18 Sockets=2 ThreadsPerCore=2 Gres=gpu:3080ti:4
# CPU节点配置
NodeName=compute-0-1 NodeAddr=10.1.1.5 CoresPerSocket=16 Sockets=2 ThreadsPerCore=2
# GPU节点配置
NodeName=compute-0-2 NodeAddr=10.1.1.4 CoresPerSocket=18 Sockets=2 ThreadsPerCore=2 Gres=gpu:3080ti:4
- 配置 /etc/slurm/gres.conf 文件:
AutoDetect=off
NodeName=compute-0-2 Name=gpu Type=3080ti File=/dev/nvidia[0-3]
AutoDetect=off
NodeName=compute-0-2 Name=gpu Type=3080ti File=/dev/nvidia[0-3]
- 重启主节点的slurmctld与计算节点的slurmd服务
systemctl restart slurmctld
systemctl restart slurmctld
- 查看节点资源是否生效
sinfo -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.15E"
sinfo -N -o "%.20N %.15C %.10t %.10m %.15P %.15G %.15E"