cudnn+远程SSH

Ubuntu20.04系统搭建深度学习服务器

系统U盘制作：系统安装镜像文件ios+制作软件rufus（gpt）: https://zhuanlan.zhihu.com/p/683319036

https://blog.csdn.net/qq_29750461/article/details/128346505?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171808143816800182776891%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171808143816800182776891&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-4-128346505-null-null.142^v100^control&utm_term=u%E7%9B%98%E5%AE%89%E8%A3%85ubuntu20.04&spm=1018.2226.3001.4187

系统分区： https://blog.csdn.net/qq_29750461/article/details/128346505?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171808143816800182776891%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171808143816800182776891&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-4-128346505-null-null.142^v100^control&utm_term=u%E7%9B%98%E5%AE%89%E8%A3%85ubuntu20.04&spm=1018.2226.3001.4187

换源：

国外网址下载慢，需要更换国内镜像源，磨刀不误砍柴工，参考博客（包括更换apt源和conda源，conda源用于conda install这些）：

https://blog.csdn.net/qq_39213284/article/details/113981429?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171825804416800178541038%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=171825804416800178541038&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-2-113981429-null-null.142^v100^control&utm_term=condarc%20%E5%92%8Csources.list&spm=1018.2226.3001.4187

apt源是将/etc/apt/sources.list源换掉（注意与相应的系统版本匹配！！！）：

apt源换好之后，apt-get update / upgrade

2.conda源换成清华源，配置文件为~/.condarc：

安装显卡驱动之前需要给新系统装gcc,make,等编译工具及网络工具：

1、更新源 sudo apt-get update sudo apt-get upgrade (第一步必须更新源升级现有APP，不然后续安装APP会失败！！！！！）

2、sudo apt install gcc sudo apt install make sudo apt install build-essential，安装nettool sudo apt install net-tools

给服务器配静态IP(方便后面SSH本机远程)

①：查看当前主机的网卡名，当前ip, 子网掩码，网关地址

ifconfig

②：修改配置文件

ps: 如果找不到文件就创建（切换到root用户下创建！！vim /etc/netplan/01-network-manager-all.yaml），然后netplan generate生成后台配置文件，然后netplan apply 应用配置

cd /etc/netplan/01-network-manager-all.yaml

修改固定IP地址：

addresses: [xx.xx.xx.xx/24]（注意避免IP冲突）

gateway4:[xx.xx.xx.1]

nameservers:DNS服务器地址

参考连接：《安装 resolvconf 永久修改/etc/resolv.conf重启有效》

---------这个文件不能修改，是networkmanager在系统启动时候生成的，而netplan里的配置文件显示由networkmanager托管，所以直接修改netplan的配置文件（如上）就行！！！

③：生效配置文件

sudo netplan apply

④：reboot

参考：https://blog.csdn.net/zhuoyuedelan/article/details/122274685?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167694423716800192298579%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167694423716800192298579&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-122274685-null-null.142^v73^insert_down4,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=Ubuntu20.04%E9%85%8D%E7%BD%AE%E9%9D%99%E6%80%81IP&spm=1018.2226.3001.4187

【新系统su root报错：认证失败===> 修改root密码：sudo passwd root 输入2次密码之后可以正常su root切换用户】

如果使用远程注意关闭睡眠模式，否则休眠远程就掉线了：

关闭休眠： sudo systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target
查看是否关闭休眠： systemctl status sleep.target

安装NVIDIA driver

参考链接：https://blog.csdn.net/chentianting/article/details/85089403

注意事项：

1、安装之前根据显卡型号找到相应的NVIDIA驱动版本显卡型号查询指令： lspci | grep -i vga

2、安装之前一定要禁用nouveau：nouveau是Ubuntu系统自带的开源显卡驱动，所以安装之前需要禁用

打开黑名单： sudo vim /etc/modprobe.d/blacklist.conf (使用sudo gedit会报错;cannot connect？？)

或者直接init3就可以代替指令： sudo service lightdm stop

将nouveau加入文档最底部： blacklist nouveau

重启电脑才生效！！！

3、显卡驱动安装完毕务必!!!!记得要重启X-window服务(本机root下），sudo service lightdm start------（startx）

问题解决：设置内核版本，更新升级导致的现有驱动无法使用

ps:对于Ubuntu这系统重启就更新升级内核，实在吃不消，没多久nvidia驱动就不兼容了，1、修改开启动内核版本（默认老版本就行）2、dkms这玩意一直没成功过，还得再尝试

修改系统内核版本参考（注意内核启动顺序index从0开始！！！）：https://blog.csdn.net/Thanours/article/details/104834536?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171834739016800227447239%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=171834739016800227447239&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~hot_rank-3-104834536-null-null.142^v100^control&utm_term=%E6%9F%A5%E8%AF%A2ubuntu%E5%86%85%E6%A0%B8%E7%89%88%E6%9C%AC&spm=1018.2226.3001.4187

配置服务器SSH服务（驱动安装完毕之后），后续安装可以在自己电脑上远程安装

配置SSH服务：

https://blog.csdn.net/weixin_43833430/article/details/127262464

1/ 安装客户端： sudo apt-get install openssh-client

2/安装服务端: sudo apt-get install openssh-server

3/开启服务： /etc/init.d/ssh start

4/修改ssh登录配置 sudo vim /etc/ssh/sshd_config

port 22 PermitRootLogin yes

5/ 重启ssh服务

sudo service ssh restart

最后ifconfig查询IP地址~~~

客户端登录的时候，注意清除ssh原有的信息文件夹（C:\Users\user\.ssh\known.hosts）再登录！！！！

安装anaconda

根据python版本安装相应的anaconda

1、安装位置选root就是所有用户都能用，选择用户目录是只有该用户可以用

2、安装之前注意要把sh文件权限修改成a+x(chmod)不然会报错，找不到env.txt

3、安装失败以后重新装之前需要清除残留安装文件！！！

4、安装在哪个文件夹才能让普通用户使用？有些文件夹普通用户无权限，无法使用！！

5、首次使用conda命令，需在bashrc中添加环境变量：

export PATH=/usr/local/miniconda3/bin:$PATH (有时候安装的时候自动添加了就不要操作，没加就手动加）

激活环境变量 source ~/.bashrc

conda init（这部操作之后，环境变量配置会有所更新，可以打开看看）

source activate (进入base，不然执行此命令会报错找不到activate)

----------------------------------------------------------注意：以下可以在conda虚拟环境中直接安装cudatookit/cudnn,查询相应匹配的版本：------------------------------------------------------

---------------------------------------------------------------https://pytorch.org/get-started/previous-versions/------------------------------------------------------------------------

手动安装cuda:

可查询系统根据你的NVIDIA显卡型号和驱动来推荐的版本：

一般安装pytorch，tensorflow时候会自动安装自带的cudatoolkit(cuda版本python版本决定tensorflow、pytorch等版本？）

为了在不同工程项目中切换不同版本的cuda,可选择在不同的conda虚拟环境中安装cudatoolkit,需要注意的是

在虚拟环境中安装完cuda和cudnn想要测试是否安装成功，不能使用nvcc -V命令测试，需要在虚拟环境中安装pytorch包进行测试,具体如何在conda虚拟环境中使用nvcc呢？

conda install pytorch torchvision cudatoolkit=10.2 -c pytorch -c hcc

在安装pytorch 是后面加上-c hcc 这样make.sh时就可以使用nvcc了

即安装相应的pytorch之后，在python下使用命令 print(torch.version.cuda),cudnn版本也是如此~

（conda安装的cuda都在/home/zzc/anaconda3/lib中，虚拟环境下的在/home/zzc/ananconda3/envs/虚拟环境name/lib中）

直接官网下载相应版本cuda_11.3.0_465.19.01_linux.run文件进行bash安装，然后/usr/local/cuda11.3添加到PATH：

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.3/lib64
export PATH=$PATH:/usr/local/cuda-11.3/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.3

cudnn安装

直接将相应文件夹复制到相应lib中

1、官网下载cudnn安装包 https://developer.nvidia.com/rdp/cudnn-download

2、根据自己的cuda版本（我的是11.3）以及服务器系统版本来下载相应安装包

系统是linux64位就行，无需一定要UbuntuXX.Xx 下载到本地的安装包为压缩文件：cudnn-11.3-linux-x64-v8.2.0.53.tgz

3、上传到自己的服务器

4、解压： tar -zxvf cudnn-11.3-linux-x64-v8.2.0.53.tgz

5、将相应文件夹复制到 /usr/local/cuda-11.3/lib64/ 和 /usr/local/cuda-11.3/include/

cp cuda/lib64/* /usr/local/cuda-11.3/lib64/

cp cuda/include/* /usr/local/cuda-11.3/include/

6、拷贝完成后查看cudnn信息 cat /usr/local/cuda-11.0/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

posted @ 2022-11-03 14:16 猪大大BiuBiuBiu 阅读(126) 评论(0) 编辑收藏举报

刷新页面返回顶部

猪大大Andy

Ubuntu安装NVIDIA驱动/anaconda/cuda/cudnn+远程SSH

公告