www.cnblogs.com/ruiyqinrui

开源、架构、Linux C/C++/python AI BI 运维开发自动化运维。 春风桃李花 秋雨梧桐叶。“力尽不知热 但惜夏日长”。夏不惜,秋不获。@ruiY--秦瑞

python爬虫,C编程,嵌入式开发.hadoop大数据,桉树,onenebula云计算架构.linux运维及驱动开发.

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

全套流程
安装anaconda
这一步就正常下载,我在学校的镜像网站下载了anaconda,选择的最新版,自带python3.7。

powercfg/batteryreport

安装cuda和cudnn


本机为dell灵越7501,显卡为GTX1650,查看cuda版本:桌面右击,NVIDIA控制面板,帮助,系统信息,组件,查看cuda为10.1版本,于是在官网下载了cuda10.1,结果遇到很多坑。现在看来应该直接下载cuda10.0,网址https://developer.nvidia.com/cuda-10.0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exenetwork,自定义安装,勾选时,如果驱动不需要更新,只选择CUDA就可以,其下的visual studio项如果有VS也可以去掉。安装cudnn:https://developer.nvidia.com/rdp/cudnn-archive,下载对应版本,解压缩,将三个文件分别复制到cuda/v10.0对应目录下,再添加环境变量。

pytorch和tensorflow
很关键的就是先添加镜像源,然后在pytorch官网找到对应命令,记得去掉“- c pytorch”,安装前会显示每个包会从哪个地址下载,确定一下都是从国内的镜像源下的。这里我们就下载对应cuda10.0版本的pytorch了。

开始因为下载太慢,我又在网上找了对应的whl文件,想要本地下载。实际上用本文结尾的那条命令直接下载tf2.0.0版本即可。

遇到的问题
找不到torchvision源
在添加conda的镜像源时加入:

conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/pytorch/

安装pytorch显示无法定位程序输入点OPENSSL…
解决办法:anaconda装环境遇到无法定位程序输入点OPENSSL_sk问题

安装好了pytorch和tensorflow-gpu但都无法调用显卡
都是pytorch、tensorflow与cuda、cudnn版本对应之间的问题!
之前我下载的是cuda10.1和对应的cudnn,发现问题后重新下载了cuda10.0和cudnn,安装好之后添加环境变量。
将之前下载的torch、torchvision用pip全部卸载,又使用如下命令:

conda install pytorch torchvision cudatoolkit=10.0

下载对应cuda10.0版本的pytorch,tensorflow也同样,有了cuda10.0后,卸载重装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow-gpu==2.0.0-alpha0

最后测试,torch和tf都可以调用cuda。

后续问题
后来有一次导入tensorflow,出现了如下错误:

ImportError: DLL load failed: 找不到指定的模块。
ImportError: numpy.core.multiarray failed to import

盲猜是安装了其他库后,出现了多个版本的numpy库,使得tensorflow和numpy不兼容出现问题。最后解决的办法是卸载掉所有的numpy库,重新安装,搞定!

pip install numpy==1.17.0 --default-timeout=100 -i https://mirrors.aliyun.com/pypi/simple
————————————————

posted on 2021-10-30 09:41  秦瑞It行程实录  阅读(50)  评论(0编辑  收藏  举报
www.cnblogs.com/ruiyqinrui