USTC服务器使用笔记

本机系统:Windows 10 (我真是坚持走在用Windows写python的路上不回头。。。)

使用软件:putty(ssh连接) 和 WinSCP(文件管理)

1.登陆

putty软件输入IP地址和端口号, 登陆gwork

2.环境

/ghome下的有一userid命名的文件夹,账号创建即生成,限额20G, 代码及script文件放在这里

/gdata下可以自从创建userid命名的文件夹,限额300G,用于储存job生成的结果。

/gpubg公共数据区

3.使用

调试:从gwork主机sshG101,断开ssh连接的方法,logout

startdocker -u "-it" -c /bin/bash bit:5000/deepo
bit:5000/deepo是一个集中了几乎所有深度学习框架的一个docker 镜像,使用上述命令将进入docker container内部,相当于一个虚拟机,
 你在内部对系统所做的任何操作都将在系统退出后丢失,但对用户根目录下(/ghome/<username>)的文件操作将不会丢失。
 此命令没有用-P命令挂载用户代码和配置目录,系统默认挂载了整个用户根目录,也没有使用-D挂载数据目录,用户可以根据需要挂载。

退出docker的命令:

exit

退出G101后,查看镜像的命令

sudo docker images

如果没有正确得退出docker(如直接关闭terminal),需要利用命令查看docker id,并且关闭

sudo docker ps
sudo docker stop CONTAINER_ID

调试成功后,编写pbs文件提交,注意windows系统下的换行符需要改成unix模式(可以使用notepad++编辑器)。

pbs中的命令行如下:

startdocker -D <mydatapath> -P <my-proc-config-path> -s <my-script-file> bit:5000/deepo
"""
-s 参数后的my-script-file 可以是shell脚本或python脚本,但都需要在第一行加解释器,如 shell脚本需要加: #!/bin/bash python脚本需要加: #!/usr/local/bin/bash
"""
下面是一个pbs文件示例:
#PBS -N myjob1
#PBS -o /home/liulm/myjob1.out
#PBS -e /home/liulm/myjob1.err
#PBS -l nodes=1:gpus=1:S
#PBS -r y
cd $PBS_O_WORKDIR
echo Time is 'date'
echo Directory is $PWD
echo This job runs on the following nodes:
cat $PBS_NODELIFE
cat $PBS_GPULIFE
./myproc
"""

-N: job 名

-o: 输出文件路径

-e: 报错文件输出路径

-l: 集群资源分配, 节点数和gpu数(通常一就可以满足要求)

-r:  任务操作类型, -r表示job立即执行


"""

对job的操作指令集合:

qsub myjob1.pbs
#提交作业
qstat -n
#查看作业
qhold job_id
#挂起作业,被挂起的job状态显示为H
qrls job_id
#取消挂起作业,job重新运行
pbsnodes
#查看节点
pbsnodes -l free
#查看空闲节点

 4.自定义docker镜像文件(相当于安装库?)

emmm,步骤比较复杂。

而自己python程序中比较小的packeage可以使用如下方法:

不需要构建镜像。以numpy为例:
1. 下载numpy的源码(一般能从个人PC上拷贝),放入服务器上的某个目录,比如/gdata/xxx/pylib
2. 挂载目录,-v /gdata/xxx/pylib:/data/pylib
3. 将挂载后的目录加入python import的搜索路径,两个方法
   a. 指定容器的PYTHONPATH, 在startdocker的-u里面加入-e PYTHONPATH=/data/pylib,此时/data/pylib的
      优先级可能次于系统自带路径(没测过),import numpy 会导入系统的numpy
   b. 在程序的一开始加入下面两行代码
      import sys
      sys.path.insert(1, '/data/pylib')
      1表示/data/pylib的优先级仅次于程序所在目录
      此时/data/pylib的优先级高于系统自带路径,import numpy 会导入/data/pylib的numpy

 

5. DGX1服务器使用

slurm构成的小集群, 操作仍在gwork 上,共享文件系统

script格式如下:

my.slurm

#!/bin/bash
#SBATCH --job-name=myjob1
#SBATCH -gres=gpu:4
#SBATCH --output=myjob.out
echo "Submitted from $SLURM_SUBMIT_DIR" on node "$SLURM_SUBMIT_HOST"
echo "Running on node "$SLURM _JOB_NODELIST
echo "Allocate Gpu Units:" $CUDA_VISABLE_DEVICES
##program here##
startdocker {-c <mycd>|-s <myscript>} nvdl.githost.io:4678/dgx/cuda:9.0-cudnn7-devel-ubuntu16.04

操作命令:

sbatch <myscript>
#提交文件
squeue
#查看队列情况
scancel <jobid>
#取消job

 

posted @ 2018-04-13 11:07  Fassy  阅读(707)  评论(0编辑  收藏  举报