运维系列&AI系列&Lenovo-G双系统系列(前传-装之前搜索的):NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t commun
NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
前言:
以下方法,不需要重装驱动,简单快捷。适用于Ubuntu系统下,之前已经安装过驱动,但驱动失效的问题。
如果此方法仍然无法解决问题,可参考Ubuntu下安装nvidia显卡驱动,重装驱动。
问题:
前段时间刚装了驱动:Ubuntu下安装nvidia显卡驱动
但是最近准备用GPU跑模型时,提示cuda 不存在
。前段时间刚装的驱动,怎么会不存在呢?
解决
第一步,打开终端,先用nvidia-smi
查看一下,发现如下报错:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.
Make sure that the latest NVIDIA driver is installed and running.
第二步,使用nvcc -V检查驱动
和cuda
。
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130
发现驱动是存在的,于是进行下一步
第三步,查看已安装驱动的版本信息
ls /usr/src | grep nvidia
比如我的驱动版本是:nvidia-450.57
第四步,依次输入以下命令
sudo apt-get install dkms
sudo dkms install -m nvidia -v 450.57
等待安装完成后,再次输入nvidia-smi
,查看GPU使用状态
:
最后,我们熟悉的页面又回来了!问题得以解决!
reference:
-
https://blog.csdn.net/weixin_54626591/article/details/141758244
-
https://blog.csdn.net/weixin_54626591/article/details/141758931
-
https://blog.csdn.net/weixin_54626591/article/details/141789030
底下评论:
问题一:
完美解决了问题,感谢! 前段时间还用过GPU
,今天输入nvidia-smi
提示无法连接。按照博主的方案,完美解决问题。
问题二:
您好,我的报出这样的错误为什么呢,ERROR (dkms apport): binary package for nvidia: 410.48 not found
问题三:
方法有效,但是我的需要重启后,再使用nvidia-smi
才可以,不然还是显示无法通信。
问题四:只有我不行吗
作者回答
不行的话,就试一下重装驱动
问题五:
我只有使用intel显卡
才能进入图形化界面,进入后切换成nvidia
使用nvidia-smi
是这个问题,nvidia
没法进入图形化界面,但是可以使用nvidia-smi
。。绝望。
其他人提问
我也是!请问有解决吗
提问者回答
我排查了,觉得是内核问题,我使用低版本内核不兼容双显卡属于是,也没有intel
亮度调节。。高版本内核没法启动nvidia
,但是可以调节亮度。我现在就是使用低版本的内核,进去之后手动加载驱动使用,亮度问题可以外接显示屏。。将就着用了。
问题一:
好耶!服务器重启之后突然就nvidia-smi
不了了,还好赶紧抢修好了
问题六:
什么原因呢
其他人回答
因为系统自动更新内核,高版本内核没法启动nvidia
,可以重启后开机界面的高级选项里选择你已经安装显卡驱动的内核,这样也可以启动NVIDIA
。
其他人回答
n卡的驱动路径带了内核版本号,升了内核路径变了
提问者回答
原来如此,怎么阻止n卡的驱动自动升级
其他人回答
不是n卡
自动升级,是你操作系统升了内核
uname -r
可看内核版本
提问者回答
好的,明白
其他人回答
多谢多谢,开机时选了旧的内核成功了,帮大忙了。按作者的办法过去成功过,但是这次显示ERROR (dkms apport): binary package for nvidia: 515.75 not found
表情包
问题七:
只有我我我不行吗表情包
其他人回答
查看一下是不是nouveau
没有禁用: lsmod | grep nouveau
可以参考这篇文章: 网页链接
问题八:already installed
其他人提问
解决了吗
问题九:
Module nvidia/390.154 already installed on kernel 5.4.0-84-generic/x86_64
其他人提问
解决了吗
问题十:
您好,在执行 sudo dkms install -m nvidia -v 470.129.06
这一步时,报错 Error! Could not locate dkms.conf file.File: /usr/src/nvidia-470.129.06/dkms.conf does not exist.
这是怎么回事呢?
其他人提问
同样遇到这个问题,请问解决了吗?
提问者回答
我后来没用这个方法了,卸载了原来的cuda
,去官网重新下载安装
其他人回答
cuda
要在显卡之前安装吗
问题十一:
这个方法的本质不是装了一个模块管理包,然后再把驱动装了一遍吗?
问题十二:
强,RHEL8用这个也解决了表情包
问题十三:
dkms找不到版本怎么办
其他人提问
您好请问解决了吗
问题十四:
我这情况安装完显卡驱动 下次启动输入nvidia-smi
就出现NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
.
有这方法测试了一下 管用,不知道下次启动会不会还是报错。
问题十五:
解决了,要是不行,重启再nvidia-smi
,我就是这样就好了
问题十六:
我为什么装cuda10.0
装不下来。很奇怪。nvidia-smi
。可以看到驱动是470
。最大支持cuda11.4
。但是安装总是报这个错
To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-10.0/bin
Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-10.0/doc/pdf for detailed information on setting up CUDA.
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 384.00 is required for CUDA 10.0 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
sudo <CudaInstaller>.run -silent -driver
问题十七:
ERROR: Cannot create report: [Errno 17] File exists: '报错怎么办<br>/var/crash/nvidia-dkms-510.0.crash'<br>Error! Bad return status for module build on kernel: 6.2.0-33-generic (x86_64)
其他人提问
请问是怎么解决的
问题十八:
用了nvcc -V
的命令会比博主多一行,显示cuda
的安装版本,后面下文出线的指令都不能用,求解
问题十九:
执行最后一句
Error! Could not find module source directory.
问题二十:
这一步有两个型号怎么办
$ ls /usr/src | grep nvidia
nvidia-340-340.108
nvidia-535.113.0
问题二十一:
这个报错怎么办
Error! Your kernel headers for kernel 5.17.0-051700-generic cannot be found.
Please install the linux-headers-5.17.0-051700-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located
其他人提问
请问解决了吗
其他人提问的自己回答
我貌似是换了一个驱动版本就解决了,可以试一试
问题二十二:
到第三步的时候什么都没有显示是为什么呢?
其他人提问
兄弟你找到原因了吗表情包
其他人回答
回来说一嘴, 网页链接
^v100^pc_search_result_base1&utm_term=NVIDIA-SMI%20has%20failed%20because%20it%20couldn%E2%80%98t%20communicate%20with%20the%20NVIDIA%20driver.&spm=1018.2226.3001.4187
根据这个成功了
问题二十三:
没有nvcc命令
问题二十四:
请问到了第四步,再次输入nvidia-smi显示bash: /usr/bin/nvidia-smi: 没有那个文件或目录要怎么解决啊?
问题二十五:
太棒了!!!我的分辨率回来了!!!
问题二十六:
太牛了也!! 马上我就要重装驱动了
问题二十七:
ubuntu20.04
可行。初步遇见的问题在换源后使用update命令
猛猛更新了一bo,结果导致各个环境下的cuda
都是false
,但是cudnn
又是可用。一直以为是cuda问题
,今突然打开nvidia-smi界面
发现驱动失效,通过本文方法,cuda
为TRUE
。
问题二十八:
如果大家走投无路都解决不了,建议直接升级驱动版本;
执行sudo ubuntu-drivers devices
,找到推荐的版本然后执行sudo apt-get install nvidia-driver-xxx(推荐版本)
,最后重启解决问题
问题二十九:
ls /usr/src | grep nvidia
这个执行完没有输出,是啥情况?
其他人回答
是不是用的虚拟机呀?虚拟机好像不支持显卡虚拟,行不通的
其他人回答
那就别加| grep nvidia
直接ll /usr/src
自己看就行
NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.