08 2019 档案
摘要:论文:https://arxiv.org/pdf/1712.01887.pdf 译文:深度梯度压缩:减小分布式训练的通信带宽 摘要 大规模分布式训练需要通信带宽用于梯度交换,这在节点较多时,限制了训练的可扩展性,而且网络带宽比较贵。如果是在移动设备上进行分布式训练(如联合学习),情况会变得更加糟糕,
阅读全文
摘要:论文:https://arxiv.org/pdf/1705.03122.pdf 译文:利用卷积进行序列到序列学习 摘要 序列到序列学习的流行方法是,利用循环神经网络把一个输入序列映射到一个可变长度的输出序列。我们提出一种完全基于卷积神经网络的架构。相比RNN,训练可以完全并行,因此可以更好地利用GP
阅读全文
摘要:论文:https://arxiv.org/pdf/1706.03762.pdf 译文:你所需要的只是注意力 摘要 介绍 结论
阅读全文
摘要:1、朴素All Reduce 假设GPU节点数为N,两两GPU间的网络上下行带宽均为B,weight数据量S,那么broadcast(下图中的Receive)的通信时间:T = (N-1)S/B,可以看出T随N线性增长,当N很大时,这会成为严重的瓶颈。 当然,这是基于同步SGD。如果用异步SGD,通
阅读全文
摘要:Baidu All Reduce,即Ring All Reduce。Ring All Reduce技术在高性能计算领域很常用,2017年被百度用于深度学习训练。 朴素All Reduce的通信时间随GPU节点数线性增长。Ring All Reduce的通信时间跟GPU节点数无关,只受限于GPU间最慢
阅读全文
摘要:参考链接 https://devblogs.nvidia.com/massively-scale-deep-learning-training-nccl-2-4/
阅读全文
摘要:论文:https://arxiv.org/pdf/1708.02188.pdf 译文:PowerAI DDL 摘要 介绍
阅读全文
摘要:torch.utils.data.Dataset是一个抽象类,表示一个数据集。自定义的数据集要继承这个类,并且重写__len__和__getitem__方法。 __len__:len(dataset)返回数据集的size。 __getitem__:支持索引,dataset[i]用来获取第i个样本。
阅读全文
摘要:论文:https://arxiv.org/pdf/1811.05233.pdf 译文:大规模分布式SGD:瞬间训练完基于ImageNet的ResNet50 摘要 由于大mini-batch训练的不稳定性(为什么不稳定?),和梯度同步的开销,深度学习分布式训练很难线性扩展到拥有大量GPU的集群。我们通
阅读全文
摘要:论文:http://memray.me/uploads/acl17-keyphrase-generation.pdf 译文:深度关键短语生成 摘要 关键词提供高度总结的信息,可以用来有效地理解、组织和提取文本内容。虽然,前人的工作提供了很多可行的解决办法来自动提取关键短语 介绍 方法 本节介绍深度关
阅读全文
摘要:论文:https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf 译文:用神经网络实现序列到序列的学习 摘要 深度神经网络模型在很多困难的学习任务中都取得了优越的表现。虽然在有大量标
阅读全文
摘要:RNN(Recurrent Neural Networks)循环神经网络 广泛应用于自然语言处理(NLP,Natural Language Processing) Back Propagation Through Time Vanishing gradient problem LSTM, 长期依赖,
阅读全文
摘要:NCCL(NVIDIA Collective Communication Library),英伟达多GPU通信库。 参考链接: https://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/docs/index.html
阅读全文
摘要:论文:https://arxiv.org/pdf/1710.03740.pdf 译文:混合精度训练 摘要 增加神经网络的size,可以提高准确率。但同时,也加大了训练模型所需的内存和计算量。我们介绍一种使用半精度浮点数来训练深度神经网络的方法,不会损失准确率,也不需要修改超参数。这种方法让内存需求减
阅读全文
摘要:论文:https://arxiv.org/pdf/1810.11787.pdf 译文:深度神经网络分布式训练指引 摘要 深度学习让人工智能领域取得了很大的进步。但是训练这些深度学习模型需要大量的计算。单机单卡训练ImageNet需要一周。多机分布式训练可以极大地减少训练时间。最近,有2048个GPU
阅读全文
摘要:论文:https://www.cs.toronto.edu/~ranzato/publications/DistBeliefNIPS2012_withAppendix.pdf 译文:大规模分布式深度网络 摘要 最近,无监督特征学习和深度学习的相关工作表明,训练大模型可以显著提高模型的性能。本文,我们
阅读全文
摘要:https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html
阅读全文
摘要:参考链接 https://wiki.python.org/moin/ExtensionTutorial
阅读全文
摘要:NUMA(Non Uniform Memory Access Architecture,非统一内存访问架构) socket:多个core的封装,对应于cpu插槽。名字没啥特殊含义,感觉是随便起的。 core:cpu物理核。 超线程:cpu虚拟化技术。通常一个物理核会虚拟化成两个逻辑核(process
阅读全文