Ubuntu问题汇总ing...
本节将总结平常Ubuntu18.04系统出现的一系列问题,(本人单系统)目前问题有:nvidia-smi失败... |
1.nvidia-smi显示失败
在风和日丽的一天上午,打开实验室电脑,竟然发现电脑桌面图标变大了!!!【口吐芬芳...】并且终端输入nvidia-smi显示:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
此时我们还可以发现,GPU无法使用,只能使用CPU,正值要跑程序。。。对于类似这种偏“硬件”的问题,脑阔疼!!!终端输入:
nvcc -V
发现cuda存在,有的人说这是看驱动,系统操作小白的我一脸懵逼,完全不清楚这个操作到底是干嘛的,跟着别人照葫芦画瓢就行(手动狗头)。
个人估摸应该是系统自动更新了驱动问题,接下来有很多人建议:更新驱动、内核降低,本文在此总结一下我个人的解决方法,见(2):
(1)首先是常规操作,有很多人用了以下操作:
参考:知乎文章
sudo apt install dkms
sudo dkms install -m nvidia -v 418.87.00
# 418.87.00为之前安装 nvidia 驱动的版本号,可通过ls /usr/src | grep nvidia查询
然而,对于本人并没有用。
(2)降低内核
sudo gedit /etc/default/grub # 修改并保存
sudo update-grub # 更新一下
# 重启
修改图1中红点两行,保存并退出
-
GRUB_TIMEOUT_STYLE=hidden注释掉,即可在开机时显示Grub引导界面;
-
GRUB_TIMEOUT=5,设置引导界面的停留时间,单位:秒。
重启后,我们就可以进入Grub引导界面,如图2,可进入--》Ubuntu高级选项,选择相应的内核版本,降低内核以匹配驱动版本。
这时候再在终端输入nvidia-smi即可显示内存GPU等信息。
注意:上述这种方法,每次进入都需要选择内核版本,有一部分人,直接对图1种GRUB_DEFAULT进行操作,例如:GRUB_DEFAULT=“1> 3”,其中在Grub引导界面 中选择第2个选项(索引1),在子菜单中选择第四个选项(索引3)。这样就不用每次都选择。
这个。。。。偷懒一下,后面等不用代码的时候,试一下,主要是索引的问题,需要确认一下,因为网上有人搞崩了,瑟瑟发抖,本人还是手动操作先。大家可以参考https://support.huaweicloud.com/trouble-ecs/ecs_trouble_0327.html, 我还没有去实践。