摘要: 1、朴素All Reduce 假设GPU节点数为N,两两GPU间的网络上下行带宽均为B,weight数据量S,那么broadcast(下图中的Receive)的通信时间:T = (N-1)S/B,可以看出T随N线性增长,当N很大时,这会成为严重的瓶颈。 当然,这是基于同步SGD。如果用异步SGD,通 阅读全文
posted @ 2019-08-22 19:54 happyyoung 阅读(2627) 评论(0) 推荐(1) 编辑
摘要: Baidu All Reduce,即Ring All Reduce。Ring All Reduce技术在高性能计算领域很常用,2017年被百度用于深度学习训练。 朴素All Reduce的通信时间随GPU节点数线性增长。Ring All Reduce的通信时间跟GPU节点数无关,只受限于GPU间最慢 阅读全文
posted @ 2019-08-22 11:27 happyyoung 阅读(2779) 评论(0) 推荐(0) 编辑