摘要: 数据并行与模型并行为了加快模型的训练,可以使用分布式计算的思路,把这个大批次分割为很多小批次,使用多个节点进行计算,在每个节点上计算一个小批次,对若干个节点的梯度进行汇总后再加权平均,最终求和就得到了最终的大批次的梯度结果。 在上面这个公式中:w是模型的参数; ​ 是采用batch_size = n 阅读全文
posted @ 2021-06-15 06:01 吴建明wujianming 阅读(850) 评论(0) 推荐(0) 编辑