GPU信息文档汇总

1、卸载现有的显卡命令:
sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*
最后再查看一下 是否还有显示信息
sudo dpkg --list | grep nvidia-*

如果还有一条信息显示,则需重启下服务器

reboot

2、gpu服务器关机后,输入nvidia-smi显卡显示不出来
提示NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
操作步骤:
nvcc -V
检查驱动和cuda
ls /usr/src | grep nvidia
查看已安装驱动的版本信息 比如我的显示为nvidia-470.161.03
apt-get install dkms
下载dkms
dkms install -m nvidia -v 470.161.03
nvidia-smi
如果想实现开机自启,不再手动输入dkms install -m nvidia -v 470.161.03命令的话,需
修改开机配置文件/etc/rc.local
vim /etc/rc.local
#!/bin/sh
cd /data/sh
sh nvidia.sh &
exit 0

其中/data/sh下的nvidia.sh文件内容为:
dkms install -m nvidia -v nvidia-470.161.03

3、升级cuda版本

nvcc -V

查看版本,当前cuda版本为10.1

 


去官网下载需要的cuda版本https://developer.nvidia.com/cuda-toolkit-archive

例如我的显卡为515.105.01,最高支持的cuda版本为11.7

信息如下:

 我去官网下载的是cuda11.7版本

nvidia的cuda官网:https://developer.nvidia.com/cuda-toolkit-archive

 

选择对应的操作系统

 

 按照教程即可,先获取cuda,然后再执行run

wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run

sudo sh cuda_11.7.0_515.43.04_linux.run

然后会显示出以下信息:

 

End User License AgreementNVIDIA Software License Agreement and CUDA Supplement toSoftware License Agreement .

Last updated : October 8 , 2021The CUDA Toolkit End User License AgreementLies to thNVIDIA CUDA Toolkit , the NVIDIA CUDA Samples , the NVIDIADisplay Driver ,

NVIDIA Nsight tools ( Visual Studio Editionand the associated documentation on

CUDA APIS,programmingmodel and development tools . If you do not agree with theterms and conditions of the license agreement .

then do notdown Load or use the softwareLast updated : October 8 , 2021PrefaceDo you accept the above EULA ? ( accept / decline / quit )

 

先输入accept后回车

然后跳转至下一个界面

 如果你已安装过显卡驱动,则需把第一个Driver给去掉

按回车去掉后

再往下翻到Install

进行安装

 

下一个页面如果有的话,选择YES,如果没有出现,也不影响使用

成功后会显示安装报告信息,信息如下:

 

然后需要修改环境变量

vim ~/.bashrc

export PATH=/usr/local/cuda-11.7/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

根据安装报告信息显示出来的cuda路径,修改成实际的路径即可

立即生效

source ~/.bashrc

再次查看,发现cuda升级为11.7版本

nvcc -V

 4、英伟达驱动官网:https://www.nvidia.cn/Download/index.aspx?lang=cn

 

5、更新英伟达驱动

5.1首先卸载掉现有的驱动

sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*
最后再查看一下 是否还有显示信息
sudo dpkg --list | grep nvidia-*

如果还有一条信息显示,则需重启下服务器

reboot

5.2

下载对应版本的驱动

打开官网

https://www.nvidia.cn/Download/index.aspx?lang=cn

选择对应的版本

 

点击搜索

然后点击下载

5.3

给权限并执行安装脚本
(替换为实际的****.run文件)

chmod +x NVIDIA-Linux-x86_64-535.104.12.run

sudo ./NVIDIA-Linux-x86_64-535.104.12.run

然后选择 Continue installction

 

随后耐心等待即可

然后都选择Yes

 

 

 

然后耐心等待

 选择OK

 输入命令查看驱动

nvidia-smi

 成功!

6、卸载cuda

sudo apt-get purge nvidia-cuda*
sudo apt-get autoremove

posted @ 2023-07-07 14:28  宝英姐姐  阅读(63)  评论(1编辑  收藏  举报