USTC服务器使用笔记

本机系统：Windows 10 （我真是坚持走在用Windows写python的路上不回头。。。）

使用软件：putty（ssh连接）和 WinSCP（文件管理）

1.登陆

putty软件输入IP地址和端口号，登陆gwork

2.环境

/ghome下的有一userid命名的文件夹，账号创建即生成，限额20G，代码及script文件放在这里

/gdata下可以自从创建userid命名的文件夹，限额300G，用于储存job生成的结果。

/gpubg公共数据区

3.使用

调试：从gwork主机sshG101，断开ssh连接的方法，logout

startdocker -u "-it" -c /bin/bash bit:5000/deepo

bit:5000/deepo是一个集中了几乎所有深度学习框架的一个docker 镜像，使用上述命令将进入docker container内部，相当于一个虚拟机，
 你在内部对系统所做的任何操作都将在系统退出后丢失，但对用户根目录下（/ghome/<username>）的文件操作将不会丢失。
 此命令没有用-P命令挂载用户代码和配置目录，系统默认挂载了整个用户根目录，也没有使用-D挂载数据目录，用户可以根据需要挂载。

退出docker的命令：

exit

退出G101后，查看镜像的命令

sudo docker images

如果没有正确得退出docker（如直接关闭terminal），需要利用命令查看docker id，并且关闭

sudo docker ps
sudo docker stop CONTAINER_ID

调试成功后，编写pbs文件提交，注意windows系统下的换行符需要改成unix模式（可以使用notepad++编辑器）。

pbs中的命令行如下:

startdocker -D <mydatapath> -P <my-proc-config-path> -s <my-script-file> bit:5000/deepo

"""
 -s 参数后的my-script-file 可以是shell脚本或python脚本，但都需要在第一行加解释器，如
 shell脚本需要加：
 #!/bin/bash
 python脚本需要加：
 #!/usr/local/bin/bash
"""

下面是一个pbs文件示例：

#PBS -N myjob1
#PBS -o /home/liulm/myjob1.out
#PBS -e /home/liulm/myjob1.err
#PBS -l nodes=1:gpus=1:S
#PBS -r y
cd $PBS_O_WORKDIR
echo Time is 'date'
echo Directory is $PWD
echo This job runs on the following nodes:
cat $PBS_NODELIFE
cat $PBS_GPULIFE
./myproc
"""

-N: job 名

-o: 输出文件路径

-e: 报错文件输出路径

-l: 集群资源分配，节点数和gpu数（通常一就可以满足要求）

-r: 任务操作类型， -r表示job立即执行

"""

对job的操作指令集合：

qsub myjob1.pbs
#提交作业
qstat -n
#查看作业
qhold job_id
#挂起作业，被挂起的job状态显示为H
qrls job_id
#取消挂起作业，job重新运行
pbsnodes
#查看节点
pbsnodes -l free
#查看空闲节点

4.自定义docker镜像文件（相当于安装库？）

emmm，步骤比较复杂。

而自己python程序中比较小的packeage可以使用如下方法：

不需要构建镜像。以numpy为例：
1. 下载numpy的源码（一般能从个人PC上拷贝），放入服务器上的某个目录，比如/gdata/xxx/pylib
2. 挂载目录，-v /gdata/xxx/pylib:/data/pylib
3. 将挂载后的目录加入python import的搜索路径，两个方法
   a. 指定容器的PYTHONPATH, 在startdocker的-u里面加入-e PYTHONPATH=/data/pylib，此时/data/pylib的
      优先级可能次于系统自带路径（没测过），import numpy 会导入系统的numpy
   b. 在程序的一开始加入下面两行代码
      import sys
      sys.path.insert(1, '/data/pylib')
      1表示/data/pylib的优先级仅次于程序所在目录
      此时/data/pylib的优先级高于系统自带路径，import numpy 会导入/data/pylib的numpy

5. DGX1服务器使用

slurm构成的小集群，操作仍在gwork 上，共享文件系统

script格式如下：

my.slurm

#!/bin/bash
#SBATCH --job-name=myjob1
#SBATCH -gres=gpu:4
#SBATCH --output=myjob.out
echo "Submitted from $SLURM_SUBMIT_DIR" on node "$SLURM_SUBMIT_HOST"
echo "Running on node "$SLURM _JOB_NODELIST
echo "Allocate Gpu Units:" $CUDA_VISABLE_DEVICES
##program here##
startdocker {-c <mycd>|-s <myscript>} nvdl.githost.io:4678/dgx/cuda:9.0-cudnn7-devel-ubuntu16.04

操作命令：

sbatch <myscript>
#提交文件
squeue
#查看队列情况
scancel <jobid>
#取消job

posted @ 2018-04-13 11:07 Fassy 阅读(764) 评论(0) 收藏举报

Fassy

USTC服务器使用笔记

公告