摘要: 本节中的代码大量使用『TensorFlow』分布式训练_其一_逻辑梳理中介绍的概念,是成熟的多机分布式训练样例 一、基本概念 Cluster、Job、task概念:三者可以简单的看成是层次关系,task可以看成每台机器上的一个进程,多个task组成job;job又有:ps、worker两种,分别用于 阅读全文
posted @ 2018-06-17 23:43 叠加态的猫 阅读(5203) 评论(0) 推荐(0) 编辑
摘要: 建议比对『MXNet』第七弹_多GPU并行程序设计 一、tensorflow GPU设置 GPU指定占用 上面分配给tensorflow的GPU显存大小为:GPU实际显存*0.7。 GPU模式禁用 GPU资源申请规则 二、单机多GPU工作原理 以一篇csdn博客(出处见水印)上的图说明多GPU工作原 阅读全文
posted @ 2018-06-17 23:40 叠加态的猫 阅读(7582) 评论(0) 推荐(0) 编辑
摘要: 1,PS-worker架构 将模型维护和训练计算解耦合,将模型训练分为两个作业(job): 模型相关作业,模型参数存储、分发、汇总、更新,有由PS执行 训练相关作业,包含推理计算、梯度计算(正向/反向传播),由worker执行 该架构下,所有的woker共享PS上的参数,并按照相同的数据流图传播不同 阅读全文
posted @ 2018-06-17 18:27 叠加态的猫 阅读(4436) 评论(1) 推荐(2) 编辑