摘要: https://zhuanlan.zhihu.com/p/648924115 本文试图以最清晰的方式手动推导 Transformers 每一步的参数量到显存、计算量问题。理解底层,才能更好的做训练和优化。可能是目前最全的大模型显存优化方案分析。 本文内容包括(1)模型训练和推理过程中的显存占用(2) 阅读全文
posted @ 2023-12-26 22:44 China Soft 阅读(865) 评论(0) 推荐(0) 编辑