NVIDIA驱动安装和CUDA、CUDNN安装

一:参考nouveau禁用

https://www.pianshen.com/article/527837750/https://www.cnblogs.com/fanminhao/p/8902296.htmlhttps://blog.csdn.net/u012442845/article/details/78855573/(简洁啊)禁用nouveau

注意重启验证nouveau是否已禁用:

(一)测试nvidia-smi,如果有下面显示,表示有驱动,如果没有结果显示,我们需要安装驱动

1.有驱动显示结果:

2.无驱动显示结果:

二:根据自己的显卡类型下载驱动

(一)查看显卡类型

lspci | grep -i vga

可以随便看看系统版本:

(二)官网下载驱动 (对应上面结果GeForce GT 630)

(三)开始按照显卡驱动

1. 按CTRL + ALT + F1进入字符界面

2. 输入命令关闭图形界面:sudo service lightdm stop

3. cd Downloads    # 进入驱动下载的目录下

        sudo chmod a+x NVIDIA-Linux-x86_64-384.130.run     # 给驱动run文件赋予执行权限,驱动版本号自行修改

4. 开始安装驱动:sudo ./NVIDIA-Linux-x86_64-384.130.run -no-x-check -no-nouveau-check -no-opengl-files

5.安装过程,默认即可(其中DKMS特别慢,默认不选即可) 

(四)nvidia-smi测试

(五)补充nvidia-smi参数说明

https://blog.csdn.net/C_chuxin/article/details/82993350

三:安装CUDA

(一)匹配CUDA型号(重点)

1.显卡对应计算能力

https://www.cnblogs.com/shuiwuchangxing/p/13035933.html

 

2.CUDA版本要求的计算能力(见官网)

(二)开始下载

https://blog.csdn.net/wanzhen4330/article/details/81699769  

(三)开始安装CUDA

sudo sh cuda_8.0.44_linux.run

q退出服务条款显示:

accept

n(不安装driver)

y

y

y

其中位置信息默认即可

安装结束,进行测试:

cd /usr/local/cuda-8.0/bin/

./nvcc --version

 

(四)设置环境变量

到用户目录下:

cd

编辑.bashrc文件:

sublime .bashrc
末尾添加:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64 export PATH=$PATH:/usr/local/cuda-8.0/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-8.0

终端运行:

source ~/.bashrc 

检查:

nvcc --version

 

四:安装CUDNN

https://zhuanlan.zhihu.com/p/72298520

(一)版本对应

(二)选择cuDNN v6.0 Library for Linux下载

(三)解压文件

tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz

(四)拷贝赋权限

sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64
sudo chmod a+r /usr/local/cuda-8.0/include/cudnn.h 
sudo chmod a+r /usr/local/cuda-8.0/lib64/libcudnn*

(五)查看CUDNN版本

cat /usr/local/cuda-8.0/include/cudnn.h | grep CUDNN_MAJOR -A 2

五:最后安装tensorflow-gpu也要参考上面的对应表格

(一)安装tensorflow-gpu

pip install tensorflow-gpu==1.4.0

(二)测试GPU工作

ipython

import tensorflow as tf

tf.test.is_gpu_available() #查看GPU是否可用,返回True则成功

gpu_device_name = tf.test.gpu_device_name() #查看设备名称,若是GPU不可用,会返回一些信息

补充:一般不工作原因是上面版本不匹配,计算能力无法达到要求(所以我们需要提前获取显卡信息,按照版本安装)

Ignoring gpu device (device: 0, name: GeForce GT 620, pci bus id: 0000:01:00.0) with Cuda compute capability 2.1. The minimum required Cuda capability is 3.0.
运行程序时出现上述问题,gpu版tensorflow要求计算能力3.0,而我的显卡GeForce GT 620计算能力只有2.1,只能安装cpu版本了。

补充:深度学习PyTorch,TensorFlow中GPU利用率较低,CPU利用率很低,且模型训练速度很慢的问题总结与分析

(三)测试训练

top    #查看cpu使用率,发现cpu不像之前高达600%,降低了很多

watch -n 1 nvidia-smi #查看GPU使用情况,1秒刷新一次

虽然占满了显存,但是也成功使用了GPU

fuser -v /dev/nvidia*  #查看使用GPU用户

https://blog.csdn.net/Fox_Alex/article/details/89180035

环境搭建成功,还是接着用CPU吧,显卡实在太渣了....

pip uninstall tensorflow-gpu
pip install tensorflow==1.14.0
posted @ 2020-09-19 18:46  山上有风景  阅读(733)  评论(0编辑  收藏  举报