上一页 1 2 3 4 5 6 7 8 9 10 ··· 30 下一页
摘要: PyTorch Zero Redundancy Optimizer 是一类旨在解决数据并行训练和模型并行训练之间权衡问题的算法。Zero Redundacy Optimizer 的思想来源于微软的ZeRO,具体实现是基于 Fairscale 的OSS。 阅读全文
posted @ 2022-01-10 16:47 罗西的思考 阅读(5073) 评论(0) 推荐(2) 编辑
摘要: “Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。 阅读全文
posted @ 2022-01-06 20:13 罗西的思考 阅读(1061) 评论(5) 推荐(0) 编辑
摘要: “Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。 阅读全文
posted @ 2022-01-05 21:08 罗西的思考 阅读(919) 评论(0) 推荐(0) 编辑
摘要: “Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。 阅读全文
posted @ 2022-01-04 19:18 罗西的思考 阅读(1421) 评论(0) 推荐(0) 编辑
摘要: 本文分析如何处理节点变化。即对成员更改作出反应,并使用新的成员来重启所有workers,从而实现弹性训练。 阅读全文
posted @ 2021-12-31 14:31 罗西的思考 阅读(915) 评论(0) 推荐(0) 编辑
摘要: 关于PyTorch弹性训练,迄今为止我们已经分别介绍了 Agent 和 rendezous,但是有些部分并没有深入,比如监控,本文就把它们统一起来,对弹性训练做一个整体逻辑上的梳理。 阅读全文
posted @ 2021-12-29 18:02 罗西的思考 阅读(2598) 评论(0) 推荐(0) 编辑
摘要: 在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第五篇,看看Rendezvous 的内部引擎,比如如何处理节点加入,节点离开,等待,心跳等等。 阅读全文
posted @ 2021-12-28 09:55 罗西的思考 阅读(1658) 评论(0) 推荐(0) 编辑
摘要: 在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第四篇,看看Rendezvous 的结构和总体逻辑。 阅读全文
posted @ 2021-12-27 10:15 罗西的思考 阅读(2703) 评论(0) 推荐(0) 编辑
摘要: 在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第三篇,看看弹性代理的基本功能。 阅读全文
posted @ 2021-12-25 10:15 罗西的思考 阅读(2032) 评论(0) 推荐(0) 编辑
摘要: 在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,介绍了官方的几个例子,我们接下来会介绍PyTorch的弹性训练,本文是第二篇,重点关注的是如何启动弹性训练,并且可以对系统总体架构有所了解。 阅读全文
posted @ 2021-12-24 09:01 罗西的思考 阅读(5053) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 30 下一页
点击右上角即可分享
微信分享提示