1. 安装显卡驱动
驱动下载地址:
https://www.nvidia.cn/Download/Find.aspx?lang=cn
此处下载的显卡驱动为(有的显卡型号可以选择cuda版本):
NVIDIA-Linux-x86_64-470.182.03.run
安装后,xshell中输入nvidia-smi显示:
也就是说安装的cuda版本不能高于11.4
2. 下载并安装miniconda
3. 创建并激活虚拟环境
conda create -n 名称 python=版本
此处版本等于3.8.0,其实python环境本身也是一个包,安完之后也可以通过pip或conda命令进行修改。
conda activate 名称
4. 安装nvidia-tensorflow
安装nvidia维护的tensorflow1.15.5,下载后安装(直接安装遇到了各种各样的问题,此处没有记录,后来发现下载下来再安装比较清爽),下载地址:
https://developer.download.nvidia.cn/compute/redist/nvidia-tensorflow/
下载后安装命令:
pip install ./root/nvidia_tensorflow-1.15.5+nv22.01-3720650-cp38-cp38-linux_x86_64.whl
同时会安装相关依赖包,耗时较长
5. 安装pytorch
去torch官网选择对应版本:https://pytorch.org/get-started/previous-versions/
此处选择1.9.0版本,安装命令:
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html
采用pip安装后,无需再安装cudatoolkit和cudnn
用conda命令安装,会安装cudatoolkit和cudnn包
其它
1. 重启后nvidia-smi出现错误:Failed to initialize NVML: Driver/library version mismatch
原因:没有卸载之前的显卡驱动,就直接覆盖安装的
当采用./NIVIDIA***.run --uninstall后,又恢复成了原来的驱动
之后卸载之前的驱动,再重新安装新驱动 ,reboot就可以了
2. torch.cuda.is_available()返回true,但是预测仍使用cpu
原因:torch版本太低,从1.1.0升级到1.9.0后恢复正常
3.安装pytorch或者tensorflow时,其cuda版本不能高于nvidia-smi命令右上角的cuda版本(11.4)
4. pytorch(tensorflow)与cudatookit、cudnn之间有对应关系
5.Collecting nvidia-tensorflow[horovod]
Downloading https://pypi.tuna.tsinghua.edu.cn/packages/c7/b8/b96bd09cc7c9cf9dbd8b82313c4f9860fe615b3ce7f3f6efc962d166178b/nvidia-tensorflow-0.0.1.dev5.tar.gz (7.9 kB)
Preparing metadata (setup.py) ... error
error: subprocess-exited-with-error
× python setup.py egg_info did not run successfully.
│ exit code: 1
升级python版本到3.8后正常
公众号