torque提交作业

  PBS(Protable Batch System)是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。 PBS的目前包括openPBS,PBS Pro和Torque三个主要分支。其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。

几个常用命令:

  1.qsub(提交作业)

  例:

  qsub -l mem=20g,vmem=20g -l nodes=fat03 -l nodes=1:ppn=1 -l walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home/ test.sh

  也可写成:(把所有-l的参数可以合并一起,以逗号分隔)

  qsub -l mem=20g,vmem=20g,nodes=fat03,nodes=1:ppn=1,walltime=144:00:0 -V -joe -q fat -d /data/nfs/fat/home test.sh

  

  qsub常用参数

  -l 指定作业所需要的资源,设定对可消耗资源的限制。如果不设置,则无限制。

  -l mem=220g,vmem=220g(根据文件大小、文件处理方式、计算复杂情况自行估计)

  mem 任务的所有进程能够分配到的最大物理内存数;

  vmem任务的所有进程能够使用的最大虚拟内存数;

  -l nodes=fat03

  指定节点名字

  -l nodes=1:ppn=10(有时软件内部会有设置线程的参数,实际运行时,两者取最小)

  指定使用节点数及线程数

  -l walltime=144:00:0

  指定运行最长时间,walltime指钟表时间(作业的实际运行时间=walltime/线程数)

  -V -joe -q fat -d

  -V 表明qsub命令的所有环境变量都export到此作业

  作用: 以脚本文件的形式向批处理服务器提交作业

  -joe错误日志和运行日志输出到同一个文件下

  -q指定作业的目的地(结点池),此处指定为fat节点

  -d 路径,作业输出文件产生路径(每一个作业都会产生一个 文件名.o作业号,该文件出现在-d指定的路径中)

  2.qstat(查看作业状态,作业结束一段时间后查看不到)

  查看作业状态:R运行、Q排队、C终止(可能是结束、也可能是出错中断)

  提交作业会在指定目录下产生.oXXXX文件(例如test.sh.o106972),文件内包含程序运行的输出信息,及错误信息,可根据文件内容判断作业是否是正常结束

  

  3.qdel(kill作业)

  kill已提交作业

  qdel 作业号

  qdel 106970

  4.tracejob(查看作业情况,作业结束之后仍能查看)

  tracejob –n 查找天数 job_id

  tracejob –n 10 106972(查找10天内的记录,寻找106972的作业信息)

  tracejob 106972不加时间参数,查找当天作业

  在返回结果中会显示提交任务的设置信息,及程序运行时的内存和时间实际使用信息

  

  5.qnodes(查看节点状态)

  qnodes | less查看节点状态

  根据节点可用情况指定作业提交节点

  

  qnodes | grep job_id

  提交作业未指定节点时,可以使用qnodes结合grep job_id方式查看作业分配的节点

  

 

posted @ 2020-11-10 09:44  --看日出--  阅读(1468)  评论(0编辑  收藏  举报