GPU服务器安装GPU驱动及docker
1.关闭selinux
#临时关闭
setenforce 0
#永久关闭
vim /etc/selinux/config
#修改为如下
SELINUX=disabled
2.下载内核开发工具及其他工具
yum install kernel-devel kernel-headers vim lrzsz gcc -y
#此操作是更新所有包,我觉得有必要
yum update -y
3.禁用nouveau 驱动
echo "blacklist nouveau" > /etc/modprobe.d/denylist.conf
echo "options nouveau modeset=0" >> /etc/modprobe.d/denylist.conf
echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf
echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf
dracut --force
grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg
#重启操作系统
reboot
#重启后通过如下命令验证是否成功,当无任何输出时代表禁用成功
lsmod | grep nouveau
4.安装驱动
#驱动查找下载地址,要找与你GPU型号对应的驱动下载
https://www.nvidia.cn/Download/index.aspx?lang=cn
#安装驱动,安装过程省略
sh NVIDIA-Linux-x86_64-550.54.15.run
5.安装docker
#我之前写的docker安装过程,可参考
https://www.cnblogs.com/zrxuexi/p/13865092.html
6.安装GPU容器运行时
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
yum-config-manager --enable nvidia-container-toolkit-experimental
yum install -y nvidia-container-toolkit
#设置为默认运行时
vim /etc/docker/daemon.json
{
"default-runtime": "nvidia",
"registry-mirrors" : [
"https://wro4h5kb.mirror.aliyuncs.com" #该位置配置的为镜像加速地址
],
"runtimes": {
"nvidia": {
"args": [],
"path": "nvidia-container-runtime"
}
}
}
#重启docker
sytemctl restart docker