Ubuntu安装NVIDIA驱动/anaconda/cuda/cudnn+远程SSH

Ubuntu20.04系统搭建深度学习服务器

  • 系统U盘制作: 系统安装镜像文件ios+制作软件rufus(gpt): https://zhuanlan.zhihu.com/p/683319036

https://blog.csdn.net/qq_29750461/article/details/128346505?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171808143816800182776891%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171808143816800182776891&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-4-128346505-null-null.142^v100^control&utm_term=u%E7%9B%98%E5%AE%89%E8%A3%85ubuntu20.04&spm=1018.2226.3001.4187

  • 系统分区:     https://blog.csdn.net/qq_29750461/article/details/128346505?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171808143816800182776891%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171808143816800182776891&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-4-128346505-null-null.142^v100^control&utm_term=u%E7%9B%98%E5%AE%89%E8%A3%85ubuntu20.04&spm=1018.2226.3001.4187

 

 

  •  换源:

          国外网址下载慢,需要更换国内镜像源,磨刀不误砍柴工,参考博客(包括更换apt源和conda源,conda源用于conda install这些):

https://blog.csdn.net/qq_39213284/article/details/113981429?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171825804416800178541038%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=171825804416800178541038&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-2-113981429-null-null.142^v100^control&utm_term=condarc%20%E5%92%8Csources.list&spm=1018.2226.3001.4187

  1.  apt源是将/etc/apt/sources.list源换掉(注意与相应的系统版本匹配!!!):

 apt源换好之后,apt-get update / upgrade

      2.conda源换成清华源,配置文件为~/.condarc:

 

  • 安装显卡驱动之前需要给新系统装gcc,make,等编译工具及网络工具:

1、更新源 sudo apt-get update   sudo apt-get upgrade (第一步必须更新源升级现有APP,不然后续安装APP会失败!!!!!)

2、sudo apt install gcc    sudo apt install make   sudo apt install build-essential,安装nettool  sudo apt install net-tools

  •  给服务器配静态IP(方便后面SSH本机远程)

①:查看当前主机的网卡名,当前ip, 子网掩码,网关地址

ifconfig

②:修改配置文件

 ps: 如果找不到文件就创建(切换到root用户下创建!!vim /etc/netplan/01-network-manager-all.yaml),然后netplan generate生成后台配置文件,然后netplan apply 应用配置

cd /etc/netplan/01-network-manager-all.yaml

修改固定IP地址:

addresses: [xx.xx.xx.xx/24](注意避免IP冲突)

gateway4:[xx.xx.xx.1]

nameservers:DNS服务器地址

 

参考连接:《安装 resolvconf  永久修改/etc/resolv.conf重启有效》

 ---------这个文件不能修改,是networkmanager在系统启动时候生成的,而netplan里的配置文件显示由networkmanager托管,所以直接修改netplan的配置文件(如上)就行!!!

③:生效配置文件

sudo netplan apply

④:reboot

 

参考:https://blog.csdn.net/zhuoyuedelan/article/details/122274685?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167694423716800192298579%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167694423716800192298579&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-122274685-null-null.142^v73^insert_down4,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=Ubuntu20.04%E9%85%8D%E7%BD%AE%E9%9D%99%E6%80%81IP&spm=1018.2226.3001.4187

新系统su root报错:认证失败===>   修改root密码:sudo passwd root  输入2次密码之后 可以正常su root切换用户】

如果使用远程注意关闭睡眠模式,否则休眠远程就掉线了:

   关闭休眠:                 sudo systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target
   查看是否关闭休眠:   systemctl status sleep.target


  • 安装NVIDIA driver

参考链接:https://blog.csdn.net/chentianting/article/details/85089403

注意事项:

1、安装之前根据显卡型号找到相应的NVIDIA驱动版本  显卡型号查询指令: lspci | grep -i vga

2、安装之前一定要禁用nouveau:nouveau是Ubuntu系统自带的开源显卡驱动,所以安装之前需要禁用

     打开黑名单:   sudo vim /etc/modprobe.d/blacklist.conf    (使用sudo gedit会报错;cannot connect??)

或者 直接init3就可以代替指令: sudo service lightdm stop

    将nouveau加入文档最底部: blacklist nouveau

  重启电脑才生效!!!

3、显卡驱动安装完毕务必!!!!记得要重启X-window服务(本机root下),sudo service lightdm start------(startx)

  • 问题解决:设置内核版本,更新升级导致的现有驱动无法使用

ps:对于Ubuntu这系统重启就更新升级内核,实在吃不消,没多久nvidia驱动就不兼容了,1、修改开启动内核版本(默认老版本就行)2、dkms这玩意一直没成功过,还得再尝试

修改系统内核版本参考(注意内核启动顺序index从0开始!!!)https://blog.csdn.net/Thanours/article/details/104834536?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171834739016800227447239%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=171834739016800227447239&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~hot_rank-3-104834536-null-null.142^v100^control&utm_term=%E6%9F%A5%E8%AF%A2ubuntu%E5%86%85%E6%A0%B8%E7%89%88%E6%9C%AC&spm=1018.2226.3001.4187

  • 配置服务器SSH服务(驱动安装完毕之后),后续安装可以在自己电脑上远程安装

配置SSH服务:

https://blog.csdn.net/weixin_43833430/article/details/127262464

1/ 安装客户端: sudo apt-get install openssh-client

2/安装服务端: sudo apt-get install openssh-server

3/开启服务: /etc/init.d/ssh start

4/修改ssh登录配置   sudo vim /etc/ssh/sshd_config

    port 22      PermitRootLogin yes

5/ 重启ssh服务

    sudo service ssh restart

最后ifconfig查询IP地址~~~

客户端登录的时候,注意清除ssh原有的信息文件夹(C:\Users\user\.ssh\known.hosts)再登录!!!!

  • 安装anaconda

根据python版本安装相应的anaconda

1、安装位置选root就是所有用户都能用,选择用户目录是只有该用户可以用

2、安装之前注意要把sh文件权限修改成a+x(chmod)不然会报错,找不到env.txt

3、安装失败以后重新装之前需要清除残留安装文件!!!

4、安装在哪个文件夹才能让普通用户使用?有些文件夹普通用户无权限,无法使用!!

5、首次使用conda命令,需在bashrc中添加环境变量:

          export PATH=/usr/local/miniconda3/bin:$PATH    (有时候安装的时候自动添加了就不要操作,没加就手动加)

          激活环境变量 source ~/.bashrc

         conda init(这部操作之后,环境变量配置会有所更新,可以打开看看)

       source activate (进入base,不然执行此命令会报错找不到activate)

 

 ----------------------------------------------------------注意:以下可以在conda虚拟环境中直接安装cudatookit/cudnn,查询相应匹配的版本:------------------------------------------------------

---------------------------------------------------------------https://pytorch.org/get-started/previous-versions/------------------------------------------------------------------------

  • 手动安装cuda:

可查询系统根据你的NVIDIA显卡型号和驱动来推荐的版本:

 

一般安装pytorch,tensorflow时候会自动安装自带的cudatoolkit(cuda版本python版本决定tensorflow、pytorch等版本?)

为了在不同工程项目中切换不同版本的cuda,可选择在不同的conda虚拟环境中安装cudatoolkit,需要注意的是

虚拟环境中安装完cuda和cudnn想要测试是否安装成功,不能使用nvcc -V命令测试,需要在虚拟环境中安装pytorch包进行测试,具体如何在conda虚拟环境中使用nvcc呢?

 

conda install pytorch torchvision cudatoolkit=10.2 -c pytorch -c hcc

 

在安装pytorch 是后面加上-c hcc    这样make.sh时就可以使用nvcc了

 

即安装相应的pytorch之后,在python下使用命令 print(torch.version.cuda),cudnn版本也是如此~

(conda安装的cuda都在/home/zzc/anaconda3/lib中,虚拟环境下的在/home/zzc/ananconda3/envs/虚拟环境name/lib中)

直接官网下载相应版本cuda_11.3.0_465.19.01_linux.run文件进行bash安装,然后/usr/local/cuda11.3添加到PATH:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.3/lib64
export PATH=$PATH:/usr/local/cuda-11.3/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.3

  • cudnn安装

直接将相应文件夹复制到相应lib中

1、官网下载cudnn安装包  https://developer.nvidia.com/rdp/cudnn-download

2、根据自己的cuda版本(我的是11.3)以及服务器系统版本来下载相应安装包

系统是linux64位就行,无需一定要UbuntuXX.Xx  下载到本地的安装包为压缩文件:cudnn-11.3-linux-x64-v8.2.0.53.tgz

3、上传到自己的服务器

4、 解压: tar -zxvf cudnn-11.3-linux-x64-v8.2.0.53.tgz

5、将相应文件夹复制到 /usr/local/cuda-11.3/lib64/  和 /usr/local/cuda-11.3/include/

cp cuda/lib64/* /usr/local/cuda-11.3/lib64/

cp cuda/include/* /usr/local/cuda-11.3/include/

6、拷贝完成后查看cudnn信息    cat /usr/local/cuda-11.0/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

 

posted @ 2022-11-03 14:16  猪大大BiuBiuBiu  阅读(126)  评论(0编辑  收藏  举报