分析transformer模型的参数量、计算量,ZeRO,ZeRO-offload
https://zhuanlan.zhihu.com/p/624740065
- 模型参数量如何算;
- 训练时的显存占用量;
- 推理时的显存占用量;
- 计算量Flops的估计;
- 中间激活值;
- 推理时的KVcache;
https://basicv8vc.github.io/posts/zero/
- ZeRO-1,2,3
- ZeRO-offload
https://zhuanlan.zhihu.com/p/624740065
https://basicv8vc.github.io/posts/zero/