摘要: [PyTorch] DDP源码阅读 PyTorch的DistributedDataParallel (DDP) 允许多台机器,多台GPU之间的数据并行。本文简单讲解DDP的流程,并从代码层面理解DDP如何访问底层的通信框架。 DDP使用单机多进程来控制多个GPU。模型需要能放入单个GPU中。 参考了 阅读全文
posted @ 2025-02-09 15:45 CQzhangyu 阅读(28) 评论(0) 推荐(0) 编辑
摘要: [CUDA] 手写一个PyTorch的算子 (其实是本人之前上过的分布式机器学习课程的一个作业,这里简单记录一下) 我们都知道,PyTorch里的算子是跑在GPU上的。虽然最外层的接口是python,最内部的实现其实是CUDA。那么,一个python代码是如何一步步的调用内层的CUDA代码的呢?这里 阅读全文
posted @ 2025-02-09 00:21 CQzhangyu 阅读(46) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示