08 2019 档案

摘要:论文:https://arxiv.org/pdf/1712.01887.pdf 译文:深度梯度压缩:减小分布式训练的通信带宽 摘要 大规模分布式训练需要通信带宽用于梯度交换,这在节点较多时,限制了训练的可扩展性,而且网络带宽比较贵。如果是在移动设备上进行分布式训练(如联合学习),情况会变得更加糟糕, 阅读全文
posted @ 2019-08-30 15:28 happyyoung 阅读(2339) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1705.03122.pdf 译文:利用卷积进行序列到序列学习 摘要 序列到序列学习的流行方法是,利用循环神经网络把一个输入序列映射到一个可变长度的输出序列。我们提出一种完全基于卷积神经网络的架构。相比RNN,训练可以完全并行,因此可以更好地利用GP 阅读全文
posted @ 2019-08-28 20:18 happyyoung 阅读(887) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1706.03762.pdf 译文:你所需要的只是注意力 摘要 介绍 结论 阅读全文
posted @ 2019-08-28 20:11 happyyoung 阅读(141) 评论(0) 推荐(0) 编辑
摘要:1、朴素All Reduce 假设GPU节点数为N,两两GPU间的网络上下行带宽均为B,weight数据量S,那么broadcast(下图中的Receive)的通信时间:T = (N-1)S/B,可以看出T随N线性增长,当N很大时,这会成为严重的瓶颈。 当然,这是基于同步SGD。如果用异步SGD,通 阅读全文
posted @ 2019-08-22 19:54 happyyoung 阅读(2749) 评论(0) 推荐(1) 编辑
摘要:Baidu All Reduce,即Ring All Reduce。Ring All Reduce技术在高性能计算领域很常用,2017年被百度用于深度学习训练。 朴素All Reduce的通信时间随GPU节点数线性增长。Ring All Reduce的通信时间跟GPU节点数无关,只受限于GPU间最慢 阅读全文
posted @ 2019-08-22 11:27 happyyoung 阅读(2954) 评论(0) 推荐(0) 编辑
摘要:参考链接 https://devblogs.nvidia.com/massively-scale-deep-learning-training-nccl-2-4/ 阅读全文
posted @ 2019-08-21 19:40 happyyoung 阅读(866) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1708.02188.pdf 译文:PowerAI DDL 摘要 介绍 阅读全文
posted @ 2019-08-21 19:32 happyyoung 阅读(187) 评论(0) 推荐(0) 编辑
摘要:torch.utils.data.Dataset是一个抽象类,表示一个数据集。自定义的数据集要继承这个类,并且重写__len__和__getitem__方法。 __len__:len(dataset)返回数据集的size。 __getitem__:支持索引,dataset[i]用来获取第i个样本。 阅读全文
posted @ 2019-08-20 20:21 happyyoung 阅读(193) 评论(0) 推荐(0) 编辑
摘要:MXNet 阅读全文
posted @ 2019-08-20 16:30 happyyoung 阅读(646) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1811.05233.pdf 译文:大规模分布式SGD:瞬间训练完基于ImageNet的ResNet50 摘要 由于大mini-batch训练的不稳定性(为什么不稳定?),和梯度同步的开销,深度学习分布式训练很难线性扩展到拥有大量GPU的集群。我们通 阅读全文
posted @ 2019-08-17 14:02 happyyoung 阅读(1640) 评论(0) 推荐(0) 编辑
摘要:论文:http://memray.me/uploads/acl17-keyphrase-generation.pdf 译文:深度关键短语生成 摘要 关键词提供高度总结的信息,可以用来有效地理解、组织和提取文本内容。虽然,前人的工作提供了很多可行的解决办法来自动提取关键短语 介绍 方法 本节介绍深度关 阅读全文
posted @ 2019-08-17 05:50 happyyoung 阅读(714) 评论(0) 推荐(0) 编辑
摘要:论文:https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf 译文:用神经网络实现序列到序列的学习 摘要 深度神经网络模型在很多困难的学习任务中都取得了优越的表现。虽然在有大量标 阅读全文
posted @ 2019-08-16 19:43 happyyoung 阅读(555) 评论(0) 推荐(0) 编辑
摘要:LSTM 阅读全文
posted @ 2019-08-16 19:32 happyyoung 阅读(104) 评论(0) 推荐(0) 编辑
摘要:RNN(Recurrent Neural Networks)循环神经网络 广泛应用于自然语言处理(NLP,Natural Language Processing) Back Propagation Through Time Vanishing gradient problem LSTM, 长期依赖, 阅读全文
posted @ 2019-08-16 19:25 happyyoung 阅读(208) 评论(0) 推荐(0) 编辑
摘要:NCCL(NVIDIA Collective Communication Library),英伟达多GPU通信库。 参考链接: https://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/docs/index.html 阅读全文
posted @ 2019-08-16 10:27 happyyoung 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1710.03740.pdf 译文:混合精度训练 摘要 增加神经网络的size,可以提高准确率。但同时,也加大了训练模型所需的内存和计算量。我们介绍一种使用半精度浮点数来训练深度神经网络的方法,不会损失准确率,也不需要修改超参数。这种方法让内存需求减 阅读全文
posted @ 2019-08-11 23:06 happyyoung 阅读(1329) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1810.11787.pdf 译文:深度神经网络分布式训练指引 摘要 深度学习让人工智能领域取得了很大的进步。但是训练这些深度学习模型需要大量的计算。单机单卡训练ImageNet需要一周。多机分布式训练可以极大地减少训练时间。最近,有2048个GPU 阅读全文
posted @ 2019-08-09 11:35 happyyoung 阅读(1244) 评论(0) 推荐(0) 编辑
摘要:论文:https://www.cs.toronto.edu/~ranzato/publications/DistBeliefNIPS2012_withAppendix.pdf 译文:大规模分布式深度网络 摘要 最近,无监督特征学习和深度学习的相关工作表明,训练大模型可以显著提高模型的性能。本文,我们 阅读全文
posted @ 2019-08-08 10:34 happyyoung 阅读(292) 评论(0) 推荐(0) 编辑
摘要:https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html 阅读全文
posted @ 2019-08-05 10:44 happyyoung 阅读(241) 评论(0) 推荐(0) 编辑
摘要:参考链接 https://wiki.python.org/moin/ExtensionTutorial 阅读全文
posted @ 2019-08-04 18:26 happyyoung 阅读(1788) 评论(0) 推荐(0) 编辑
摘要:NUMA(Non Uniform Memory Access Architecture,非统一内存访问架构) socket:多个core的封装,对应于cpu插槽。名字没啥特殊含义,感觉是随便起的。 core:cpu物理核。 超线程:cpu虚拟化技术。通常一个物理核会虚拟化成两个逻辑核(process 阅读全文
posted @ 2019-08-03 10:18 happyyoung 阅读(679) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示