上一页 1 2 3 4 5 6 7 8 ··· 30 下一页
摘要: NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-02-10 18:42 罗西的思考 阅读(7256) 评论(0) 推荐(2) 编辑
摘要: NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-02-08 16:31 罗西的思考 阅读(8232) 评论(3) 推荐(1) 编辑
摘要: NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。本文将对 Megatron 的基本架构做一下梳理。 阅读全文
posted @ 2022-02-07 20:12 罗西的思考 阅读(10700) 评论(0) 推荐(0) 编辑
摘要: NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。 阅读全文
posted @ 2022-01-27 18:50 罗西的思考 阅读(20681) 评论(2) 推荐(1) 编辑
摘要: FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,本文我们介绍 Activation recomputation 相关知识。 阅读全文
posted @ 2022-01-26 08:47 罗西的思考 阅读(1317) 评论(0) 推荐(0) 编辑
摘要: FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,之前文章之中我们谈到了FSDP支持混合精度训练,所以我们再来看看相关知识。 阅读全文
posted @ 2022-01-24 18:44 罗西的思考 阅读(1321) 评论(3) 推荐(0) 编辑
摘要: FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现 offload。 阅读全文
posted @ 2022-01-21 14:35 罗西的思考 阅读(3482) 评论(6) 推荐(0) 编辑
摘要: FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现参数分区。 阅读全文
posted @ 2022-01-19 19:53 罗西的思考 阅读(2816) 评论(2) 推荐(0) 编辑
摘要: FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。 阅读全文
posted @ 2022-01-17 19:47 罗西的思考 阅读(4489) 评论(0) 推荐(0) 编辑
摘要: 本文以Google 论文 [Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training]为主来学习Parameter Sharding。 阅读全文
posted @ 2022-01-13 19:48 罗西的思考 阅读(1114) 评论(2) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 30 下一页