罗西的思考 - 博客园

2022年4月

[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

摘要：前文中，Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令，即，GrpcRemoteWorker 一共发了两个请求：RegisterGraphAsync，RunGraphAsync，本文我们就来看看 GrpcWorkerService 如何处理。阅读全文

posted @ 2022-04-01 16:47 罗西的思考阅读(658) 评论(0) 推荐(0) 编辑

2022年3月

[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文会从 Client 开始，看看 Master 如何对计算图进行处理。阅读全文

posted @ 2022-03-29 16:34 罗西的思考阅读(558) 评论(1) 推荐(2) 编辑

[源码解析] TensorFlow 分布式环境(5) --- Session

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。会话机制是TensorFlow 分布式运行时的核心，我们接下来按照从 Client 到 worker 的流程，把 Session 机制从前到后走一遍。阅读全文

posted @ 2022-03-28 19:49 罗西的思考阅读(832) 评论(1) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(4) --- WorkerCache

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。我们接下来介绍缓存机制。阅读全文

posted @ 2022-03-23 19:40 罗西的思考阅读(529) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本篇介绍 Worker（一系列相关概念）的静态架构。阅读全文

posted @ 2022-03-21 19:29 罗西的思考阅读(797) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文梳理下 Master 的静态逻辑。阅读全文

posted @ 2022-03-19 14:56 罗西的思考阅读(946) 评论(0) 推荐(1) 编辑

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

摘要：在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。阅读全文

posted @ 2022-03-16 19:33 罗西的思考阅读(2132) 评论(0) 推荐(0) 编辑

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

摘要：读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 [Implementation of Control Flow in TensorFlow]。阅读全文

posted @ 2022-03-15 17:27 罗西的思考阅读(841) 评论(0) 推荐(0) 编辑

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems"

摘要：本文主要介绍一篇 TensorFlow 经典论文[ TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems](http://download. TensorFlow .org/paper/whitepaper2015.pdf)。大家如果读了下面论文就会发现 TensorFlow分布式的博大精深。阅读全文

posted @ 2022-03-12 09:31 罗西的思考阅读(1283) 评论(0) 推荐(0) 编辑

[翻译] NVIDIA HugeCTR，GPU 版本参数服务器 --(10)--- 推理架构

摘要：经过9篇文章之后，我们基本把 HugeCTR 的训练过程梳理了以下，现在我们有必要看看HugeCTR如何进行推理，这样可以让我们从整体上有一个更好的把握。而且我们之前都是分析分布式训练，此处恰好可以看看分布式推理。阅读全文

posted @ 2022-03-10 17:24 罗西的思考阅读(852) 评论(0) 推荐(0) 编辑

公告