Loading

天河服务器申请及配置

申请#

  1. 访问如下链接 https://cloud.nscc-gz.cn/auth/login/
  2. 输入用户名及密码
  3. 登入后界面如下, Instance 显示了目前该账户下已存在的服务器
    • Instance Name 服务器名称
    • Image 服务器系统镜像来源信息
    • Flavor 服务器硬件配置,在申请服务器时进行选择
    • IP 服务器内网 IP 例如 10.xx.xx.24
    • Status 服务器目前状态,active 为开启状态
    • Created 系统创建时间
    • Updated 系统更新时间
    • Actions 这里包含了系统主要操作(重启,关机,打开控制台等)
  4. 点击 create instance
  5. 服务器硬件类型选择
    • Instance Name 实例名 ,与系统登入后界面的意义相同
    • Hostname 主机名, 服务器名称,对于linux系统来说就是 @之后的名称,如下图的 “neu-gpu”
    • Instance Count 实例个数
    • Create Policy 这个是无法改动的
    • Type 选是否含有 GPU
  • Flavor 可以选择的机器硬件配置 主要需要关注 CPU 核数, RAM 内存大小。最前面简称, 例如 12C24G_m4000 为 12 核 cpu, 24G 内存,m4000为显卡型号,有两种 m4000 和 k80. 在type 为 general 时无后面的GPU型号.
    • Select Boot Source 默认Image 即可

    • Source 为系统类型。含有 Des 的系统,带有桌面.一般选择 ubuntu1604.

      选择完成后,点击 next

    • Network 界面,

      • Select Network 只有一个,选择即可。
      • Select Subnet 不需要配置
      • Firewall 不需要配置。
        选择完成后,点击 next
    • Login

      • Admin Password 为管理员密码设置,按要求自行设置。
      • Key Pairs 一般不需要配置。
    • 所有配置完成后点击 create 即可创建

    • 等待系统几分钟后,会新建一个实例,并出现在列表中。

    • 点击右侧 acitions 会弹出 可行的操作。主要用到的是 console, reboot.

    • console 主要用于初期配置,完成系统创建后,尽快联系超算工作人员(cloud.service@nscc-gz.cn),为新的服务器建立内外网络映射。方便后面配置ssh登录, 上传代码数据等。

配置#

初次登录系统推荐:新建一个个人用户,并为其设置sudo 权限,使用该用户配置系统。尽量避免使用root,root权限过高,防止发生意外。
conda 安装比较方便,但是里面的软件版本一般也不会是最新的,可能出现问题。手动安装较为繁琐,但能使用最新软件版本。

显卡驱动更新#

天河显卡预先安装的显卡驱动版本较旧,与cuda所需要的驱动无法匹配,需要手动更新显卡驱动。具体流程如下

sudo apt-get purge nvidia-* # 移除旧版本驱动
sudo add-apt-repository ppa:graphics-drivers/ppa 
sudo apt-get update
sudo apt-get install nvidia-418 # 安装 所需版本驱动,目前tensorflow 2.x 需要 418 版本的驱动

更新显卡驱动后,通过重启来使其生效。

conda 安装#

  • 进入个人家目录
  • 下载 conda。若服务器没有桌面,可使用如下命令下载 wget https://repo.continuum.io/archive/Anaconda3-2020.07-Linux-x86_64.sh最后的文件名,可根据需要选择,该网址列出了可选的版本。
  • 在家目录执行 bash Anaconda3-2020.07-Linux-x86_64.sh
  • 一直回车即可,安装路径一般为 /home/username/Anaconda3, username 为用户名
  • 安装完毕后 source .bashrc 激活环境
  • 安装tensorflow 并新建环境 conda create -n tf-gpu tensorflow-gpu
  • conda activate tf-gpu 激活tensorflow 环境。
  • conda 更换为国内软件源
    参考

手动安装#

非GPU配置#

对于不含GPU的服务器,直接安装需要的tensorflow版本即可, 可以按照tensorflow 官方给出的配置方法。一般流程如下

  1. 安装 python3
  2. 安装 对应的tensorflow 版本

GPU 配置#

可以按照tensorflow 官方给出的教程安装

ssh登录#

天河工作人员收到建立网络映射邮件后,会为你新建的机器建立外部IP,并通过邮件告知。收到回复邮件后,可使用自己熟悉的ssh软件, 输入外网IP, 外网端口进行ssh登录。一般,回复邮件中IP信息格式如下

需要注意的问题#

  • 更新显卡驱动后,会发生图形界面无法登录的情况。日常实验如果对桌面需求不大,可以忽略。
  • 尽量在工作日与工作人员沟通

作者:lif323

出处:https://www.cnblogs.com/lif323/p/13544767.html

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

欢迎与作者讨论

posted @   lif323  阅读(764)  评论(0编辑  收藏  举报
more_horiz
keyboard_arrow_up light_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示