摘要: 引言 随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式。基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地。 尽管 Kubeflow 让基于 Kubernetes 阅读全文
posted @ 2021-03-16 11:47 腾讯云原生 阅读(875) 评论(0) 推荐(0) 编辑