摘要: 现在深度学习的模型结构越来越大,参数动不动都是上亿甚至上千亿,这也对训练模型的资源量有很高的要求,显然单个机器上要训练这么大的网络是不现实的,因此学术界和工业界自然开始研究用分布式训练。也就是将一个机器学习模型任务拆分成多个子任务,并将子任务分发给多个计算节点,解决资源瓶颈。 # 1. 分布式训练概 阅读全文
posted @ 2023-08-07 11:48 machine_gun_lin 阅读(1189) 评论(0) 推荐(1) 编辑