罗西的思考 - 博客园

2022年1月

摘要：本文以论文和官博为主来进行分析ZeRO，这是微软开发的一个可以高效利用显存的优化器，其会将模型状态量（优化器状态，梯度和模型参数）分布在多个并行 GPU 之上，目的是在不使用模型并行的情况下对让数十亿参数模型进行训练。阅读全文

posted @ 2022-01-11 10:13 罗西的思考阅读(5079) 评论(6) 推荐(1) 编辑

摘要： PyTorch Zero Redundancy Optimizer 是一类旨在解决数据并行训练和模型并行训练之间权衡问题的算法。Zero Redundacy Optimizer 的思想来源于微软的ZeRO，具体实现是基于 Fairscale 的OSS。阅读全文

posted @ 2022-01-10 16:47 罗西的思考阅读(4744) 评论(0) 推荐(2) 编辑

摘要： “Bagua“ 是快手和苏黎世理工（ETH Zürich）联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，力图极致化分布式训练的效率。阅读全文

posted @ 2022-01-06 20:13 罗西的思考阅读(1005) 评论(5) 推荐(0) 编辑

posted @ 2022-01-05 21:08 罗西的思考阅读(895) 评论(0) 推荐(0) 编辑

posted @ 2022-01-04 19:18 罗西的思考阅读(1381) 评论(0) 推荐(0) 编辑

2021年12月

摘要：本文分析如何处理节点变化。即对成员更改作出反应，并使用新的成员来重启所有workers，从而实现弹性训练。阅读全文

posted @ 2021-12-31 14:31 罗西的思考阅读(827) 评论(0) 推荐(0) 编辑

摘要：关于PyTorch弹性训练，迄今为止我们已经分别介绍了 Agent 和 rendezous，但是有些部分并没有深入，比如监控，本文就把它们统一起来，对弹性训练做一个整体逻辑上的梳理。阅读全文

posted @ 2021-12-29 18:02 罗西的思考阅读(2435) 评论(0) 推荐(0) 编辑

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第五篇，看看Rendezvous 的内部引擎，比如如何处理节点加入，节点离开，等待，心跳等等。阅读全文

posted @ 2021-12-28 09:55 罗西的思考阅读(1542) 评论(0) 推荐(0) 编辑

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第四篇，看看Rendezvous 的结构和总体逻辑。阅读全文

posted @ 2021-12-27 10:15 罗西的思考阅读(2445) 评论(0) 推荐(0) 编辑

摘要：在前面的文章之中，我们已经学习了PyTorch 分布式的基本模块，介绍了官方的几个例子，我们接下来会介绍PyTorch的弹性训练，本文是第三篇，看看弹性代理的基本功能。阅读全文

posted @ 2021-12-25 10:15 罗西的思考阅读(1811) 评论(0) 推荐(0) 编辑