摘要: 对CUDA架构而言,主机端的内存可分为两种,一种是pageable memory,即可分页内存;另一种是pinned memory,即页锁定内存。 主机默认分配的是pageable memory,也就是说,根据操作系统的指示,主机虚拟内存(内存空间很小,所以内存只放部分数据,其余不重要的放在硬盘中, 阅读全文
posted @ 2020-11-06 17:40 YoungF 阅读(691) 评论(0) 推荐(0) 编辑
摘要: 第一篇 pytorch分布式训练1 在pytorch 1.6.0,torch.distributed中的功能可以分为三个主要的组件: Distributed Data-Parallel Training(DDP)是一个广泛采用的单程序多数据训练方法。使用DDP,模型会被复制到每个进程,然后每个模型副 阅读全文
posted @ 2020-11-06 16:57 YoungF 阅读(2730) 评论(0) 推荐(0) 编辑