运维系列&AI系列&Lenovo-G双系统系列(前传-装之前搜索的):无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn‘t communicat
无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
- 无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver
重启服务器之后就出现连接不上NVIDIA驱动
的情况。这个时候tensorflow
还是可以运行的,但只是在用cpu
跑。安装gpu版的TensorFlow
时,也显示已安装。
nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
我们在终端输入 nvcc -V
发现驱动也在。
这就很魔性了。。。查找了很多方法之后,发现下面这个最简便,只需要两步,而且还不用重启,哈哈。
step1:sudo apt-get install dkms
step2: sudo dkms install -m nvidia -v 410.79
再次输入nvidia-smi
时,你熟悉的界面就会回来啦。
(虽然使用率显示为99%
,但并不影响我们使用)
其中step2
中的410.79
是NVIDIA
的版本号,当你不知道的时候,进入/usr/src目录
中,可以看到里面有nvidia文件夹
,后缀就是其版本号
cd /usr/src
OK,到此我们就轻松愉快的解决了这个问题。(Yeah
!)
另:怎么查看TensorFlow
是gpu版本
还是cpu版本
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
底下评论
问题一:
太感谢你了啊啊啊啊啊啊啊啊啊啊啊啊。今天把学校服务其重启了一下,结果显示GPU驱动找不到了,太感谢你了!!!!!!!!!!!!!!!!!!我差点以为闯大祸了
其他人提问
我也闯大祸了……
提问者回答
我后来还是被发现了,哈哈哈。然后就再没有管理员权限了
其他人提问
我也,咋解决的啊
问题一:
感谢楼主,已解决。问题:重启后无法连接NVIDIA驱动。
其他人提问
您解决了吗
问题一:
楼主的方法好棒…终于不用痛苦的重装了,虽然不知道这是什么原理
问题一:
我上次错误直接换了内核,这次电脑重启又出现这个,这个有用!!!感谢
问题一:
我试了为啥不行
其他人提问
我试了也不行
其他人提问
can’t work
问题一:
厉害厉害,解决我的问题!就是不知道什么原因导致的
问题一:
感谢感谢,我也是重启了实验室服务器!!!!我也以为自己闯大祸了!!!!!!!!!!吓死我了!!!
太感谢了!!!!!!
其他人提问
大年初八 重启实验服务器 训练特别慢 原来是cpu在训 使用NVIDIA smi 竟然不行
问题一:
请问博主 开学重启服务器也这样 tf是在cpu下训的 请问是在putty这个终端输入那两行命令吗
问题一:
第二条命令时失败了,不行哎
其他人提问
现在你解决了吗,能否告知一下方法
其他人提问
cd /usr/src ls 查看nvidia驱动版本
问题一:
两个命令都成功执行了,但是没用啊…
我src
下的nvidia文件夹
是叫nvidia-430-430.26
,所以我第二个命令输的是“sudo dkms install -m nvidia -v 430-430.26”
(输 “sudo dkms install -m nvidia -v 430.26
”则会报错“Directory: /usr/src/nvidia-430.26 does not exist.
”),执行后显示DKMS: build completed. ...... DKMS: install completed.
但是nvidia-smi
还是显示找不到驱动,torch.cuda.is_available()
也是False
提问者回答
后来发现第二种方法确实可行,但是有可能也需要重启(比如我的情况,重启服务器之后就正常了)
其他人提问
我也not exist ,重启也没用
提问者回答
not exist那是版本号输错了,不是没重启的问题
其他人提问
哦哦哦,好的,我去看看
其他人提问
你好,请问第二种办法是啥啊
问题一:
请问为啥我执行完step2
后,就一直显示'make' -j32 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=4.4.0-177-generic IGNORE_CC_MISMATCH='' modules............
,省略号不停地在增加?
问题一:
老铁牛B,能有大佬给个解释和原因么
问题一:
没用呢,不知道是为什么,我是新安装了显卡驱动…
问题一:
请问有人碰到过显示Module nvidia/440.100 already installed on kernel 5.3.0-61-generic/x86_64
,但还是不能用nvidia-smi
的么
其他人提问
请问你解决了吗
提问者回答
我后来卸载驱动之后运行了sudo ubuntu-drivers autoinstall
更新了驱动,然后重启解决的,希望对你有帮助
其他人提问
我也是这样,请问你的好了吗
问题一:
感谢楼主,本来准备卸载驱动,重新安装,想了下看看博文,这下又整好了😀
问题一:
楼主,我的第二条代码报错了
Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-440.100/dkms.conf does not exist.
请问有什么解决办法吗
其他人提问
进入 /usr/src
里看一下NVIDIA
的版本是什么,然后把 sudo dkms install -m nvidia -v xxx.xx.xx
(把xxx.xx.xx
替换成你文件夹里的那一个)
其他人提问
Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-470.74/dkms.conf does not exist.
请问执行这条命令后这个报错有方法解决吗
其他人提问
就是这样做一样会这样报错
其他人提问
您好,我也出现了这个问题,您解决了吗?
问题一:
有用,ubuntu18.04
要把gcc版本
改回7.5
,再进行上述做法
提问者回答
还不行的话,可以试试更换ubuntu的启动内核,换一个比离当前版本最近,低一点的内核版本来启动
问题一:
步骤2会报错:
‘Error! Bad return status for module build on kernel: 4.4.0-148-generic(x86_64)’
其他人提问
xd,解决了吗
问题一:
第二条命令:
Kernel preparation unnecessary for this kernel. Skipping...
Building module:
cleaning build area...
unset ARCH; env NV_VERBOSE=1 'make' -j8 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=5.4.0-62-generic IGNORE_XEN_PRESENCE=1 IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/5.4.0-62-generic/build LD=/usr/bin/ld.bfd modules....(bad exit status: 2)
ERROR: Cannot create report: [Errno 17] File exists: '/var/crash/nvidia-kernel-source-415.0.crash'
Error! Bad return status for module build on kernel: 5.4.0-62-generic (x86_64)
Consult /var/lib/dkms/nvidia/415.27/build/make.log for more information.
请问接下来该如何解决呢?
其他人提问
xd 问题解决了吗
其他人回答
我也遇到这个问题了,试了好些,包括重装gcc与换版本等。后来我在ubuntu22
的软件与更新中的附加程序那一块check
,发现好像回到了自带了nouveau
?我就在那里重新选了(或者是叫做重装驱动),装好重启就一切恢复正常了。
问题一:
方法正确 ,但是大家看看编译器gcc g++的设置
,我之前降级到5,导致命令2报错,再升级到7,就可以了。
问题一:
第二个命令错误
Error! Could not find module source directory.
Directory: /usr/src/nvidia-460.32.03 does not exist
其他人提问
我也是这个问题,请问处理了吗?
问题一:
sudo ubuntu-drivers autoinstall
问题一:
你好,这个问题已经解决了。想问问以后还会出现这样的问题吗,比如说过一段时间又无法使用gpu
问题一:
你好 第二条失败了 电脑开不了 急
问题一:
本人经验,在做其他操作之前,可以重启试试
问题一:
ERROR (dkms apport): binary package for nvidia: 435.21 not found
问题一:
还有可能是GCC版本不符合
导致 sudo apt-get install dkms
时候有错误(对应的错误我没有保存下来)
其他人提问
ERROR (dkms apport): binary package for nvidia: 450.80.02 not found
Error! Bad return status for module build on kernel: 4.15.0-193-generic (x86_64)
Consult /var/lib/dkms/nvidia/450.80.02/build/make.log for more information.
问题一:
出现这个问题的可能原因是没有Disable掉Secure Boot
(就是安装驱动时提示你Disable
的东西),解决方法也很简单,在安装完驱动后,reboot
时,在开机出现一个全蓝界面
时按任意键,选择第二项,也就是改变Secure Boot
的状态,然后依据提示将它Disable
掉,然后boot
就好。
新装驱动如果出现问题的话,也可能是上述的原因。
提问者回答
nvidia-smi
用不了也可能是内核更新的问题,进入新版本导致nvidia-smi
不能工作,只要回到老的版本的内核即可。
其他人回答
按照你的方法成功了,感谢!!!
问题一:
nvcc
正常,但是没有nvidia-版本号
这个文件
其他人回答
我也是/usr/src/
下面没有nvidia-版本号
这个文件夹,请问这个问题你处理了吗?
其他人回答
去目录找,nvidia
版本号都不一样的
其他人回答
我的jetson nano 2GB
安装好镜像文件,配置好之后,也是这样,不知道是不是镜像文件里少显卡驱动
问题一:
Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-510.85.02/dkms.conf does not exist.
其他人回答
我遇到这个问题重启就好了
其他人提问
重启好不了呢?
问题一:
有用,感谢!我这里不知道为什么重启之后 nvcc
也找不到了,但是按照方法一样解决了问题,能够重新使用 nvidia-smi
。需要补充的是,版本号最后可能有 “.00
”,需要严格按照 /usr/src
里的目录名填写命令
问题一:
nvcc -C
为什么能表示显卡驱动还在?
问题一:
爱死博主 22.04表情包
问题一:
爱死23.09
问题一:
cd /usr/src
找不到版本号杂办
问题一:
Kernel preparation unnecessary for this kernel. Skipping...
Building module:
cleaning build area...
'make' -j32 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=6.5.0-15-generic modules.....(bad exit status: 2)
ERROR (dkms apport): binary package for nvidia: 535.54.03 not found
Error! Bad return status for module build on kernel: 6.5.0-15-generic (x86_64)
Consult /var/lib/dkms/nvidia/535.54.03/build/make.log for more information.
请问大佬们有遇到这个问题的吗 怎么解决的呀
其他人提问
请问解决了吗
问题一:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
这种情况可能是没有禁用系统中自带的nouveau
问题一:
Module nvidia/520.61.05 already installed on kernel 5.15.0-105-generic/x86_64
无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)