011_分布式机器学习 - 随笔分类(第2页) - 罗西的思考

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器 --(9)--- Local hash表

摘要：在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 LocalizedSlotSparseEmbeddingHash 的后向操作。阅读全文

posted @ 2022-03-09 20:09 罗西的思考阅读(771) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(8) ---Distributed Hash之后向传播

摘要：在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 DistributedSlotSparseEmbeddingHash 的后向操作。阅读全文

posted @ 2022-03-04 17:31 罗西的思考阅读(687) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(7) ---Distributed Hash之前向传播

摘要：在这系列文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-28 16:44 罗西的思考阅读(1383) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (6) --- Distributed hash表

摘要：在这系列文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-23 17:42 罗西的思考阅读(858) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (5) 嵌入式hash表

摘要：在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-22 18:09 罗西的思考阅读(938) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)

摘要：在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-21 19:36 罗西的思考阅读(669) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器---(3)

摘要：在本系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-17 17:40 罗西的思考阅读(791) 评论(0) 推荐(0) 编辑

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)

摘要：在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-16 20:04 罗西的思考阅读(1107) 评论(0) 推荐(1) 编辑

[源码解析] NVIDIA HugeCTR，GPU 版本参数服务器 --(1)

摘要：本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。阅读全文

posted @ 2022-02-15 19:29 罗西的思考阅读(2631) 评论(2) 推荐(0) 编辑

[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-02-14 17:31 罗西的思考阅读(5755) 评论(2) 推荐(0) 编辑

[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-02-10 18:42 罗西的思考阅读(7574) 评论(0) 推荐(2) 编辑

[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-02-08 16:31 罗西的思考阅读(8565) 评论(3) 推荐(1) 编辑

[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。本文将对 Megatron 的基本架构做一下梳理。阅读全文

posted @ 2022-02-07 20:12 罗西的思考阅读(11179) 评论(0) 推荐(0) 编辑

[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

摘要：NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。阅读全文

posted @ 2022-01-27 18:50 罗西的思考阅读(21583) 评论(2) 推荐(1) 编辑

[源码分析] Facebook如何训练超大模型--- (5)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，本文我们介绍 Activation recomputation 相关知识。阅读全文

posted @ 2022-01-26 08:47 罗西的思考阅读(1347) 评论(0) 推荐(0) 编辑

[源码分析] Facebook如何训练超大模型---(4)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，之前文章之中我们谈到了FSDP支持混合精度训练，所以我们再来看看相关知识。阅读全文

posted @ 2022-01-24 18:44 罗西的思考阅读(1346) 评论(3) 推荐(0) 编辑

[源码分析] Facebook如何训练超大模型 --- (3)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用，本文从源码角度来介绍 FSDP 如何实现 offload。阅读全文

posted @ 2022-01-21 14:35 罗西的思考阅读(3522) 评论(6) 推荐(0) 编辑

[源码分析] Facebook如何训练超大模型 --- (2)

摘要：FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用，本文从源码角度来介绍 FSDP 如何实现参数分区。阅读全文

posted @ 2022-01-19 19:53 罗西的思考阅读(2885) 评论(2) 推荐(0) 编辑

[源码分析] Facebook如何训练超大模型---(1)

摘要：FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，其本质是 parameter sharding。阅读全文

posted @ 2022-01-17 19:47 罗西的思考阅读(4569) 评论(0) 推荐(0) 编辑

[论文翻译] 分布式训练 Parameter Sharding 之 Google Weight Sharding

摘要：本文以Google 论文 [Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training]为主来学习Parameter Sharding。阅读全文

posted @ 2022-01-13 19:48 罗西的思考阅读(1133) 评论(2) 推荐(0) 编辑

随笔分类 - 011_分布式机器学习

公告