上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 37 下一页
摘要: 1、k8s是什么 1)k8s(全称Kubernetes),是一个可移植、可扩展、自动化的开源平台。 2、k8s的作用 1)部署技术演化:物理机 -> 虚拟机 -> 容器。 2)物理机: 3)k8s用于管理容器化工作负载和服务。 阅读全文
posted @ 2019-09-03 16:57 happyyoung 阅读(152) 评论(0) 推荐(0) 编辑
摘要: kubernetes,简称k8s,是一个开源系统,用于管理跨多台机器的容器化应用,并且提供基础机制,用于部署、维护和扩展应用。 基本对象 Pod service volume namespace k8s的golang客户端:https://github.com/kubernetes/client-g 阅读全文
posted @ 2019-09-03 16:44 happyyoung 阅读(151) 评论(0) 推荐(0) 编辑
摘要: CUDA 参考链接 https://devblogs.nvidia.com/how-optimize-data-transfers-cuda-cc/ https://docs.nvidia.com/cuda/pdf/CUDA_C_Best_Practices_Guide.pdf 阅读全文
posted @ 2019-09-02 14:47 happyyoung 阅读(494) 评论(0) 推荐(0) 编辑
摘要: 论文:https://arxiv.org/pdf/1712.01887.pdf 译文:深度梯度压缩:减小分布式训练的通信带宽 摘要 大规模分布式训练需要通信带宽用于梯度交换,这在节点较多时,限制了训练的可扩展性,而且网络带宽比较贵。如果是在移动设备上进行分布式训练(如联合学习),情况会变得更加糟糕, 阅读全文
posted @ 2019-08-30 15:28 happyyoung 阅读(2300) 评论(0) 推荐(0) 编辑
摘要: 论文:https://arxiv.org/pdf/1705.03122.pdf 译文:利用卷积进行序列到序列学习 摘要 序列到序列学习的流行方法是,利用循环神经网络把一个输入序列映射到一个可变长度的输出序列。我们提出一种完全基于卷积神经网络的架构。相比RNN,训练可以完全并行,因此可以更好地利用GP 阅读全文
posted @ 2019-08-28 20:18 happyyoung 阅读(884) 评论(0) 推荐(0) 编辑
摘要: 论文:https://arxiv.org/pdf/1706.03762.pdf 译文:你所需要的只是注意力 摘要 介绍 结论 阅读全文
posted @ 2019-08-28 20:11 happyyoung 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 1、朴素All Reduce 假设GPU节点数为N,两两GPU间的网络上下行带宽均为B,weight数据量S,那么broadcast(下图中的Receive)的通信时间:T = (N-1)S/B,可以看出T随N线性增长,当N很大时,这会成为严重的瓶颈。 当然,这是基于同步SGD。如果用异步SGD,通 阅读全文
posted @ 2019-08-22 19:54 happyyoung 阅读(2709) 评论(0) 推荐(1) 编辑
摘要: Baidu All Reduce,即Ring All Reduce。Ring All Reduce技术在高性能计算领域很常用,2017年被百度用于深度学习训练。 朴素All Reduce的通信时间随GPU节点数线性增长。Ring All Reduce的通信时间跟GPU节点数无关,只受限于GPU间最慢 阅读全文
posted @ 2019-08-22 11:27 happyyoung 阅读(2897) 评论(0) 推荐(0) 编辑
摘要: 参考链接 https://devblogs.nvidia.com/massively-scale-deep-learning-training-nccl-2-4/ 阅读全文
posted @ 2019-08-21 19:40 happyyoung 阅读(850) 评论(0) 推荐(0) 编辑
摘要: 论文:https://arxiv.org/pdf/1708.02188.pdf 译文:PowerAI DDL 摘要 介绍 阅读全文
posted @ 2019-08-21 19:32 happyyoung 阅读(186) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 37 下一页