记录一次 aws gpu 服务器安装gpu驱动的过程
下载驱动
# 显卡驱动版本
lspci|grep -i 'nvida'
00:1e.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 SXM2 16GB] (rev a1)
- 之后去驱动下载地址:https://www.nvidia.com/Download/index.aspx 找到对应驱动版本,再search之后下载就可以了
- 我所使用的驱动下载地址是:https://us.download.nvidia.com/tesla/460.73.01/NVIDIA-Linux-x86_64-460.73.01.run
安装驱动
把驱动放到 /tmp目录下
安装前准备工作
重要:解锁chattr -ai /boot/grub2/grub.cfg
说明:注意系统版本和内核版本kernel-devel需要和kernel版本一致 我这里是 4.14.209-160.339
需要安装tools headers devel
# uname -r
4.14.209-160.339.amzn2.x86_64
# rpm -aq | grep kernel
kernel-tools-4.14.209-160.339.amzn2.x86_64
kernel-4.14.209-160.339.amzn2.x86_64
kernel-headers-4.14.209-160.339.amzn2.x86_64
kernel-devel-4.14.209-160.339.amzn2.x86_64
# 安装依赖
yum install -y autoconf automake libtool gcc-c++ gcc
yum install -y libicu libicu-devel bzip2-libs bzip2-devel
# 禁用nouveau 在grub 中添加 rd.driver.blacklist=nouveau
cat /etc/default/grub| grep GRUB_CMDLINE_LINUX
GRUB_CMDLINE_LINUX_DEFAULT="console=tty0 console=ttyS0,115200n8 net.ifnames=0 biosdevname=0 nvme_core.io_timeout=4294967295 rd.emergency=poweroff rd.shell=0 rd.driver.blacklist=nouveau"
cat /etc/modprobe.d/blacklist.conf
blacklist nouveau
#加载一下修改后的grub文件
grub2-mkconfig -o /boot/grub2/grub.cfg
#重建initramfs image
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r)-nouveau.img
dracut /boot/initramfs-$(uname -r).img $(uname -r)
# 重启
reboot
安装
wget https://us.download.nvidia.com/tesla/460.73.01/NVIDIA-Linux-x86_64-460.73.01.run
chmod +x NVIDIA-Linux-x86_64-460.73.01.run
# 一路回车
./NVIDIA-Linux-x86_64-460.73.01.run
验证
nvidia-smi
本文来自博客园,作者:La0jin,转载请注明原文链接:https://www.cnblogs.com/la0jin/p/15027532.html