NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
问题:准备用GPU跑模型时,提示cuda 不存在
- 第一步,打开终端,输入:
vidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
- 第二步,使用
nvcc -V
检查驱动和cuda。
nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2018 NVIDIA Corporation Built on Sat_Aug_25_21:08:01_CDT_2018 Cuda compilation tools, release 10.0, V10.0.130
发现驱动是存在的,于是进行下一步。
- 第三步,查看已安装驱动的版本信息
ls /usr/src | grep nvidia
比如我的驱动版本是:nvidia-535.161.08
- 第四步,依次输入以下命令
sudo apt-get install dkms sudo dkms install -m nvidia -v 535.161.08
发现:
Error! Could not locate dkms.conf file. File: /usr/src/nvidia-535.161.08/dkms.conf does not exist.
这个问题可能是因为 NVIDIA 驱动的安装包不完整,或者是安装过程中某些步骤出了问题。
接下来,用命令行在 Ubuntu 22.04/20.04 上安装 Nvidia 驱动程序。
前置准备
- 首先,确保您的系统更新到最新状态。在 Ubuntu 中,可以使用以下命令进行更新:
sudo apt update && sudo apt upgrade
- 安装编译所需的包和工具(如果您还没有安装的话):
sudo apt install build-essential dkms
- 移除旧的 NVIDIA 驱动(如果已经安装):
sudo apt-get remove --purge '^nvidia-.*'
接下来开始安装
首先,打开终端窗口并使用以下命令检查 Nvidia 卡使用的驱动程序。
sudo lshw -c display
接下来,运行以下命令从默认 Ubuntu 存储库列出 Nvidia 卡的可用驱动程序。
sudo ubuntu-drivers devices
要安装推荐(recommended)的驱动程序,请运行以下命令。
sudo ubuntu-drivers autoinstall
您可以使用以下命令检查现在正在使用哪张卡:
prime-select query
如果您想使用Intel显卡,请运行以下命令:
sudo prime-select intel
要切换回 Nvidia 卡,请运行
sudo prime-select nvidia
请注意,可能需要重新启动才能使更改生效!
然后我们就可以用 nvidia-smi
查看
分类:
深度学习 / 深度学习踩坑记录
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)