摘要: 一、数据并行(DP ) 1、概念:相同的模型分布在不同的GPU上,在不同的GPU上使用不同的数据。每一张GPU上有相同的参数,在训练的时候每一个GPU训练不同的数据,相当于增大了训练时候的batch_size。 数据并行基于一个假设:所有节点都可以放下整个模型。这个假设在某些模型上(如GPT3)是不 阅读全文
posted @ 2022-03-26 20:40 NLP的小Y 阅读(5447) 评论(0) 推荐(0) 编辑
/*粒子线条,鼠标移动会以鼠标为中心吸附的特效*/