会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
牛犁heart
Stay Hungry,Stay Foolilsh
博客园
首页
新随笔
联系
订阅
管理
2024年8月4日
ZeRO:一种去除冗余的数据并行方案
摘要: ZeRO:一种去除冗余的数据并行方案 目前训练超大规模语言模型主要有两条技术路线: TPU + XLA + TensorFlow/JAX GPU + Pytorch + Megatron + DeepSpeed 前者由Google主导,由于TPU和自家云平台GCP深度绑定,对于非Googler来说并
阅读全文
posted @ 2024-08-04 19:24 牛犁heart
阅读(310)
评论(0)
推荐(1)
编辑
公告