会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
China soft
chinasoft.cnblogs.com
首页
新随笔
联系
订阅
管理
2023年12月26日
【Transformer 基础系列】手推显存占用
摘要: https://zhuanlan.zhihu.com/p/648924115 本文试图以最清晰的方式手动推导 Transformers 每一步的参数量到显存、计算量问题。理解底层,才能更好的做训练和优化。可能是目前最全的大模型显存优化方案分析。 本文内容包括(1)模型训练和推理过程中的显存占用(2)
阅读全文
posted @ 2023-12-26 22:44 China Soft
阅读(1316)
评论(0)
推荐(0)
编辑
公告