运维系列&AI系列&Lenovo-G双系统系列(前传-装之前搜索的):NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t commun




NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

前言:

以下方法,不需要重装驱动,简单快捷。适用于Ubuntu系统下,之前已经安装过驱动,但驱动失效的问题。

如果此方法仍然无法解决问题,可参考Ubuntu下安装nvidia显卡驱动,重装驱动。

问题:

前段时间刚装了驱动:Ubuntu下安装nvidia显卡驱动

但是最近准备用GPU跑模型时,提示cuda 不存在。前段时间刚装的驱动,怎么会不存在呢?

解决

第一步,打开终端,先用nvidia-smi查看一下,发现如下报错:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. 
Make sure that the latest NVIDIA driver is installed and running.

第二步,使用nvcc -V检查驱动cuda

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

发现驱动是存在的,于是进行下一步

第三步,查看已安装驱动的版本信息

ls /usr/src | grep nvidia

比如我的驱动版本是:nvidia-450.57

第四步,依次输入以下命令

sudo apt-get install dkms
sudo dkms install -m nvidia -v 450.57

等待安装完成后,再次输入nvidia-smi,查看GPU使用状态

在这里插入图片描述

最后,我们熟悉的页面又回来了!问题得以解决!

reference:

底下评论:

问题一:

完美解决了问题,感谢! 前段时间还用过GPU,今天输入nvidia-smi提示无法连接。按照博主的方案,完美解决问题。

问题二:

您好,我的报出这样的错误为什么呢,ERROR (dkms apport): binary package for nvidia: 410.48 not found

问题三:

方法有效,但是我的需要重启后,再使用nvidia-smi才可以,不然还是显示无法通信。

问题四:只有我不行吗

作者回答

不行的话,就试一下重装驱动

问题五:

我只有使用intel显卡才能进入图形化界面,进入后切换成nvidia 使用nvidia-smi是这个问题,nvidia没法进入图形化界面,但是可以使用nvidia-smi。。绝望。

其他人提问

我也是!请问有解决吗

提问者回答

我排查了,觉得是内核问题,我使用低版本内核不兼容双显卡属于是,也没有intel亮度调节。。高版本内核没法启动nvidia,但是可以调节亮度。我现在就是使用低版本的内核,进去之后手动加载驱动使用,亮度问题可以外接显示屏。。将就着用了。

问题一:

好耶!服务器重启之后突然就nvidia-smi不了了,还好赶紧抢修好了

问题六:

什么原因呢

其他人回答

因为系统自动更新内核,高版本内核没法启动nvidia,可以重启后开机界面的高级选项里选择你已经安装显卡驱动的内核,这样也可以启动NVIDIA

其他人回答

n卡的驱动路径带了内核版本号,升了内核路径变了

提问者回答

原来如此,怎么阻止n卡的驱动自动升级

其他人回答

不是n卡自动升级,是你操作系统升了内核
uname -r 可看内核版本

提问者回答

好的,明白

其他人回答

多谢多谢,开机时选了旧的内核成功了,帮大忙了。按作者的办法过去成功过,但是这次显示ERROR (dkms apport): binary package for nvidia: 515.75 not found表情包

问题七:

只有我我我不行吗表情包

其他人回答

查看一下是不是nouveau没有禁用: lsmod | grep nouveau

可以参考这篇文章: 网页链接

问题八:already installed

其他人提问

解决了吗

问题九:

Module nvidia/390.154 already installed on kernel 5.4.0-84-generic/x86_64
其他人提问

解决了吗

问题十:

您好,在执行 sudo dkms install -m nvidia -v 470.129.06 这一步时,报错 Error! Could not locate dkms.conf file.File: /usr/src/nvidia-470.129.06/dkms.conf does not exist. 这是怎么回事呢?

其他人提问

同样遇到这个问题,请问解决了吗?

提问者回答

我后来没用这个方法了,卸载了原来的cuda,去官网重新下载安装

其他人回答

cuda要在显卡之前安装吗

问题十一:

这个方法的本质不是装了一个模块管理包,然后再把驱动装了一遍吗?

问题十二:

强,RHEL8用这个也解决了表情包

问题十三:

dkms找不到版本怎么办

其他人提问

您好请问解决了吗

问题十四:

我这情况安装完显卡驱动 下次启动输入nvidia-smi 就出现NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
有这方法测试了一下 管用,不知道下次启动会不会还是报错。

问题十五:

解决了,要是不行,重启再nvidia-smi,我就是这样就好了

问题十六:

我为什么装cuda10.0装不下来。很奇怪。nvidia-smi。可以看到驱动是470。最大支持cuda11.4。但是安装总是报这个错

To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-10.0/bin
 
Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-10.0/doc/pdf for detailed information on setting up CUDA.
 
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 384.00 is required for CUDA 10.0 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
    sudo <CudaInstaller>.run -silent -driver

问题十七:

ERROR: Cannot create report: [Errno 17] File exists: '报错怎么办<br>/var/crash/nvidia-dkms-510.0.crash'<br>Error! Bad return status for module build on kernel: 6.2.0-33-generic (x86_64)
其他人提问

请问是怎么解决的

问题十八:

用了nvcc -V的命令会比博主多一行,显示cuda的安装版本,后面下文出线的指令都不能用,求解

问题十九:

执行最后一句

Error! Could not find module source directory.

问题二十:

这一步有两个型号怎么办

$ ls /usr/src | grep nvidia
nvidia-340-340.108
nvidia-535.113.0

问题二十一:

这个报错怎么办

Error! Your kernel headers for kernel 5.17.0-051700-generic cannot be found.
Please install the linux-headers-5.17.0-051700-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located
其他人提问

请问解决了吗

其他人提问的自己回答

我貌似是换了一个驱动版本就解决了,可以试一试

问题二十二:

到第三步的时候什么都没有显示是为什么呢?

其他人提问

兄弟你找到原因了吗表情包

其他人回答

回来说一嘴, 网页链接

^v100^pc_search_result_base1&utm_term=NVIDIA-SMI%20has%20failed%20because%20it%20couldn%E2%80%98t%20communicate%20with%20the%20NVIDIA%20driver.&spm=1018.2226.3001.4187
根据这个成功了

问题二十三:

没有nvcc命令

问题二十四:

请问到了第四步,再次输入nvidia-smi显示bash: /usr/bin/nvidia-smi: 没有那个文件或目录要怎么解决啊?

问题二十五:

太棒了!!!我的分辨率回来了!!!

问题二十六:

太牛了也!! 马上我就要重装驱动了

问题二十七:

ubuntu20.04可行。初步遇见的问题在换源后使用update命令猛猛更新了一bo,结果导致各个环境下的cuda都是false,但是cudnn又是可用。一直以为是cuda问题,今突然打开nvidia-smi界面发现驱动失效,通过本文方法,cudaTRUE

问题二十八:

如果大家走投无路都解决不了,建议直接升级驱动版本;
执行sudo ubuntu-drivers devices ,找到推荐的版本然后执行sudo apt-get install nvidia-driver-xxx(推荐版本),最后重启解决问题

问题二十九:

ls /usr/src | grep nvidia

这个执行完没有输出,是啥情况?

其他人回答

是不是用的虚拟机呀?虚拟机好像不支持显卡虚拟,行不通的

其他人回答

那就别加| grep nvidia 直接ll /usr/src自己看就行







AI 菌

NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

posted @ 2024-09-02 12:31  坦笑&&life  阅读(53)  评论(0编辑  收藏  举报  来源