2019 年 8月 22 日随笔档案 - happyyoung

2019年8月22日

摘要： 1、朴素All Reduce 假设GPU节点数为N，两两GPU间的网络上下行带宽均为B，weight数据量S，那么broadcast（下图中的Receive）的通信时间：T = (N-1)S/B，可以看出T随N线性增长，当N很大时，这会成为严重的瓶颈。当然，这是基于同步SGD。如果用异步SGD，通阅读全文

posted @ 2019-08-22 19:54 happyyoung 阅读(2732) 评论(0) 推荐(1) 编辑

分布式训练 Baidu All Reduce

摘要： Baidu All Reduce，即Ring All Reduce。Ring All Reduce技术在高性能计算领域很常用，2017年被百度用于深度学习训练。朴素All Reduce的通信时间随GPU节点数线性增长。Ring All Reduce的通信时间跟GPU节点数无关，只受限于GPU间最慢阅读全文

posted @ 2019-08-22 11:27 happyyoung 阅读(2917) 评论(0) 推荐(0) 编辑

happyyoung's blog

公告