011_分布式机器学习 - 随笔分类 - 罗西的思考

摘要：

## 0x01 广告经过一年多的努力，我的书《分布式机器学习——系统、工程与实战》终于上架了，在这里打个广告。 ![](https://img2023.cnblogs.com/blog/1850883/202307/1850883-20230719224442070-381968133.jpg) 阅读全文

posted @ 2023-07-21 23:50 罗西的思考阅读(1564) 评论(5) 推荐(2) 编辑

[源码解析] TensorFlow 分布式之 ClusterCoordinator

摘要：本文我们主要来看看ParameterServerStrategy如何分发计算，也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。阅读全文

posted @ 2022-05-21 11:45 罗西的思考阅读(541) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

摘要：对于 ParameterServerStrategy V2，我们将从几个方面来研究：如何与集群建立连接，如何生成变量，如何获取数据，如何运行。其中，变量和作用域我们在前文已经研究过，运行在 MirroredStrategy 里面也介绍，所以本文主要看看如何使用，如何初始化。在下一篇之中会重点看看如何分发计算。阅读全文

posted @ 2022-05-14 08:08 罗西的思考阅读(886) 评论(0) 推荐(1) 编辑

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

摘要：本章我们看看 ParameterServerStrategy，就是第一版代码。研究这个是因为目前工业界还有很多公司在使用，而且其内部机制也比较清晰易懂，值得我们分析。阅读全文

posted @ 2022-05-08 09:12 罗西的思考阅读(738) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

摘要：前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量，本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是，MirroredStrategy 通过什么方式在远端设备节点上运行训练方法（如何分发计算），MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来？和 master，worker 这些概念怎么联系起来？阅读全文

posted @ 2022-04-26 08:03 罗西的思考阅读(612) 评论(0) 推荐(1) 编辑

[源码解析] TensorFlow 分布式之 MirroredStrategy

摘要：MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是：如何更新 Mirrored 变量？如何分发计算？本文我们看看其总体思路和如何更新变量。阅读全文

posted @ 2022-04-19 18:37 罗西的思考阅读(1342) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 之分布式变量

摘要：在 TensorFlow 之中，分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。阅读全文

posted @ 2022-04-14 17:44 罗西的思考阅读(1062) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

摘要：我们接下来介绍TensorFlow分布式Strategy的基础，本文会先看看Strategy的类体系和如何处理数据，下一篇看看如何处理变量。阅读全文

posted @ 2022-04-12 14:21 罗西的思考阅读(1421) 评论(1) 推荐(0) 编辑

[翻译] 使用 TensorFlow 进行分布式训练

摘要：本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练，借此进入Strategy世界。阅读全文

posted @ 2022-04-10 09:50 罗西的思考阅读(1301) 评论(1) 推荐(1) 编辑

[源码解析] TensorFlow 分布式环境(8) --- 通信机制

摘要：当计算图在设备之间划分之后，跨设备的 PartitionGraph 之间可能存在着数据依赖关系，因此 TF 在它们之间插入 Send/Recv 节点，这样就完成数据交互。而在分布式模式之中，Send/Recv 通过 RpcRemoteRendezvous 完成数据交换，所以我们需要先看看 TF 之中的数据交换机制 Rendezvous。阅读全文

posted @ 2022-04-06 15:52 罗西的思考阅读(1075) 评论(1) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

摘要：前文中，Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令，即，GrpcRemoteWorker 一共发了两个请求：RegisterGraphAsync，RunGraphAsync，本文我们就来看看 GrpcWorkerService 如何处理。阅读全文

posted @ 2022-04-01 16:47 罗西的思考阅读(666) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文会从 Client 开始，看看 Master 如何对计算图进行处理。阅读全文

posted @ 2022-03-29 16:34 罗西的思考阅读(571) 评论(1) 推荐(2) 编辑

[源码解析] TensorFlow 分布式环境(5) --- Session

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。会话机制是TensorFlow 分布式运行时的核心，我们接下来按照从 Client 到 worker 的流程，把 Session 机制从前到后走一遍。阅读全文

posted @ 2022-03-28 19:49 罗西的思考阅读(843) 评论(1) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(4) --- WorkerCache

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。我们接下来介绍缓存机制。阅读全文

posted @ 2022-03-23 19:40 罗西的思考阅读(533) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本篇介绍 Worker（一系列相关概念）的静态架构。阅读全文

posted @ 2022-03-21 19:29 罗西的思考阅读(805) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文梳理下 Master 的静态逻辑。阅读全文

posted @ 2022-03-19 14:56 罗西的思考阅读(956) 评论(0) 推荐(1) 编辑

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。阅读全文

posted @ 2022-03-16 19:33 罗西的思考阅读(2174) 评论(0) 推荐(0) 编辑

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

摘要：读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 [Implementation of Control Flow in TensorFlow]。阅读全文

posted @ 2022-03-15 17:27 罗西的思考阅读(854) 评论(0) 推荐(0) 编辑

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems"

摘要：本文主要介绍一篇 TensorFlow 经典论文[ TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems](http://download. TensorFlow .org/paper/whitepaper2015.pdf)。大家如果读了下面论文就会发现 TensorFlow分布式的博大精深。阅读全文

posted @ 2022-03-12 09:31 罗西的思考阅读(1309) 评论(0) 推荐(0) 编辑

[翻译] NVIDIA HugeCTR，GPU 版本参数服务器 --(10)--- 推理架构

摘要：经过9篇文章之后，我们基本把 HugeCTR 的训练过程梳理了以下，现在我们有必要看看HugeCTR如何进行推理，这样可以让我们从整体上有一个更好的把握。而且我们之前都是分析分布式训练，此处恰好可以看看分布式推理。阅读全文

posted @ 2022-03-10 17:24 罗西的思考阅读(868) 评论(0) 推荐(0) 编辑

随笔分类 - 011_分布式机器学习

公告