分析transformer模型的参数量、计算量,ZeRO,ZeRO-offload

https://zhuanlan.zhihu.com/p/624740065

  • 模型参数量如何算;
  • 训练时的显存占用量;
  • 推理时的显存占用量;
  • 计算量Flops的估计;
  • 中间激活值;
  • 推理时的KVcache;

https://basicv8vc.github.io/posts/zero/

  • ZeRO-1,2,3
  • ZeRO-offload
posted @ 2023-08-01 14:37  shiiiilong  阅读(497)  评论(0编辑  收藏  举报