会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
腾讯云原生
博客园
首页
新随笔
联系
订阅
管理
2021年3月16日
云原生的弹性 AI 训练系列之一:基于 AllReduce 的弹性分布式训练实践
摘要: 引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地。 尽管 Kubeflow 让基于 Kubernetes
阅读全文
posted @ 2021-03-16 11:47 腾讯云原生
阅读(922)
评论(0)
推荐(0)
编辑
公告