记一次 Ubuntu 下 NVIDIA 驱动 + CUDA + CUDNN 的卸载重装爬坑之旅

 因为一些意外,Ubuntu 中的 nvidia 驱动被卸载了。。。

于是我就开始了一个漫长的爬坑之旅。。。这里记录一下过程

我的Ubuntu版本是 18.04  按住ctrl+alt+ f3 切换到纯命令行模式

使用以下命令进一步卸载干净

sudo apt-get --purge remove nvidia*

sudo apt autoremove 

然后切换到下载好的NVIDIA 驱动目录

使用

sudo  sh NVIDIA***.run

命令尝试安装。

结果出现了问题:

ERROR: An NVIDIA kernel module 'nvidia-drm' appears to already be loaded in your kernel.  This may be because it is in use (for example, by an X server, a CUDA program, or 
         the NVIDIA Persistence Daemon), but this may also happen if your kernel was configured without support for module unloading.  Please be sure to exit any programs    
         that may be using the GPU(s) before attempting to upgrade your driver.  If no GPU-based programs are running, you know that your kernel supports module unloading,   
         and you still receive this message, then an error may have occured that has corrupted an NVIDIA kernel module's usage count, for which the simplest remedy is to     
         reboot your computer.

在这个网址(https://unix.stackexchange.com/questions/440840/how-to-unload-kernel-module-nvidia-drm) 找到了一个相同的问题。于是开始进行类似的解决操作

结果在第一步就开始出现问题

在   执行

systemctl isolate multi-user.target

命令时 ,屏幕开始报错,如下所示

于是在网上又重新寻找这个问题解决方法,尝试了一些方法都没有解决成功。

这时我突然想到打开文件看下具体内容,如果不重要直接删除试试。

我的对应文件58行左右的内容是如下两句话

blacklist nouveau
options nouveau modeset=0

也就是禁用 nouveau 驱动 。这里我暂时将这两句注释掉,然后运行 

sudo update-initramfs -u

刷新内核。

这时 在继续之前的步骤

systemctl isolate multi-user.target

modprobe -r nvidia-drm

 

然后重新安装  nvidia 驱动

这时就不再出现错误,安装成功 !

接下来在一次将文件都复原,并运行一下命令

systemctl start graphical.target

重启,然后将其他的cuda与cudnn 重新安装上去。

注意 :这里 安装cudnn 时 有一个小问题,不知道时我之前没卸载干净还是需要其他操做,但是按照官网的安装指导使用 2 中的 包进行安装的时候,cuda中的cudnn是5.1.10

而cudnn7.6.5  安装到了 /usr/include  目录中 在使用官方测试示例时显示的确实是 cudnn 5.1.10  。于是 有重新下载 1 ,进行相关的安装操作才正确安装成功。

 

 

 

 

参考网址

【1】https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html

【2】https://unix.stackexchange.com/questions/440840/how-to-unload-kernel-module-nvidia-drm

【3】https://clay-atlas.com/blog/2020/03/04/linux-english-note-how-to-disable-nvidia-drm/

【4】https://devtalk.nvidia.com/default/topic/1037973/linux/can-t-install-new-driver-cannot-unload-module/

posted @ 2020-03-09 17:24  Assist  阅读(2382)  评论(0编辑  收藏  举报