摘要: ZeRO:一种去除冗余的数据并行方案 目前训练超大规模语言模型主要有两条技术路线: TPU + XLA + TensorFlow/JAX GPU + Pytorch + Megatron + DeepSpeed 前者由Google主导,由于TPU和自家云平台GCP深度绑定,对于非Googler来说并 阅读全文
posted @ 2024-08-04 19:24 牛犁heart 阅读(477) 评论(0) 推荐(1) 编辑