深度学习相关论文摘要翻译

*****仅供个人学习记录*****

Deep learning【Yann LeCun:2015】

论文地址Deep learning | Nature

摘要:深度学习允许由多个处理层组成的计算模型学习具有多个抽象层次的数据表示。这些方法极大地提高了语音识别、视觉物体识别、物体检测和许多其他领域(如药物发现和基因组学)的先进水平。深度学习通过使用反向传播算法来指出机器应该如何改变其内部参数,这些参数用于从上一层的表征中计算每一层的表征,从而发现大数据集中的复杂结构。深度卷积网在处理图像、视频、语音和音频方面带来了突破,而递归网则在文本和语音等顺序数据方面大放异彩。

Deep Residual Learning for Image Recognition【ResNet:2015】

论文地址[1512.03385] Deep Residual Learning for Image Recognition (arxiv.org)

摘要:更深的神经网络更难训练。我们提出了一个残差学习框架,以缓解比以前使用的网络要深得多的网络的训练。我们明确地将各层重新表述为学习参考层输入的残差函数,而不是学习未参考的函数。我们提供了全面的经验证据,表明这些残差网络更容易优化,并能从大大增加的深度中获得准确性。在ImageNet数据集上,我们评估了深度达152层的残差网络--比VGG网络深8倍,但仍然具有较低的复杂性。这些残差网的组合在ImageNet测试集上实现了3.57%的误差。这一结果赢得了ILSVRC 2015分类任务的第一名。我们还介绍了对具有100层和1000层的CIFAR-10的分析。

  表征的深度对于许多视觉识别任务来说是至关重要的。仅仅由于我们极深的表征,我们在COCO物体检测数据集上获得了28%的相对改进。深度残差网是我们提交给ILSVRC和COCO 2015比赛的基础,我们还在ImageNet检测、ImageNet定位、COCO检测和COCO分割等任务中获得了第一名。

Invertible Residual Networks【ICML2019】

论文地址[1811.00995] Invertible Residual Networks (arxiv.org)

摘要:我们展示了标准的 ResNet 架构可以是可逆的,允许使用相同的模型进行分类、密度估计和生成。通常,强制可逆性需要划分维度或限制网络架构。相比之下,我们的方法只需要在训练期间添加一个简单的标准化步骤,这在标准框架中已经可用。可逆 ResNet 定义了一个生成模型,可以通过最大似然对未标记数据进行训练。为了计算可能性,我们对残差块的雅可比对数行列式引入了一个易于处理的近似。我们的经验评估表明,可逆 ResNet 与最先进的图像分类器和基于流的生成模型相比具有竞争力,这是以前单一架构无法实现的。

Symplectic Recurrent Neural Networks【ICLR2020】

论文地址[1909.13334] Symplectic Recurrent Neural Networks (arxiv.org)

摘要:我们提出了对称递归神经网络(SRNNs)作为学习算法,从观察到的轨迹中捕捉物理系统的动态。一个SRNN通过神经网络对系统的哈密顿函数进行建模,并进一步利用对称整合、多步骤训练和初始状态优化来解决与哈密顿系统相关的挑战性数值问题。我们表明,SRNN在复杂和嘈杂的哈密尔顿系统上取得了可靠的成功。我们还展示了如何增强SRNN集成方案,以处理僵硬的动态系统,如弹跳台球。

Towards Robust ResNet: A Small Step but A Giant Leap【2019】

论文地址:[1902.10887] Towards Robust ResNet: A Small Step but A Giant Leap (arxiv.org)

摘要:本文提出了一种简单但有原则的方法来提高残差网络 (ResNet) 的鲁棒性,该方法是由动态系统视角驱动的。也就是说,可以使用偏微分方程来解释深度神经网络,这自然会启发我们通过显式 Euler 方法来表征 ResNet。我们的分析研究表明,欧拉方法中的步长因子 h 能够控制 ResNet 在训练和泛化中的鲁棒性。具体来说,我们证明了小步长因子 h 可以提高反向传播的训练鲁棒性;从前向传播的角度来看,较小的 h 有助于模型泛化的鲁棒性。对视觉 CIFAR-10 和文本 AG-NEWS 数据集的综合经验评估证实,小的 h 有助于训练和泛化鲁棒性。

Stable Architectures for Deep Neural Networks【2017】

论文地址[1705.03341] Stable Architectures for Deep Neural Networks (arxiv.org)

摘要:深度神经网络已经成为有监督的机器学习的宝贵工具,例如,文本或图像的分类。虽然经常提供比传统技术更优越的结果,并成功地表达数据中的复杂模式,但众所周知,深度架构在设计和训练方面具有挑战性,使其能够很好地泛化到新数据。深度架构的重要问题是基于导数的学习算法的数值不稳定性,通常称为爆炸或梯度消失。在本文中,我们提出了受常微分方程(ODE)系统启发的新的前向传播技术,它克服了这一挑战,并导致了任意深度网络的良好学习问题。

  我们方法的主干是将深度学习解释为非线性动力系统的参数估计问题。考虑到这一表述,我们分析了深度学习的稳定性和良好解决性,并利用这一新的理解来开发新的网络架构。我们将爆炸和梯度消失现象与离散ODE的稳定性联系起来,并提出了几个稳定深度网络的深度学习的策略。虽然我们的新架构限制了求解空间,但一些数值实验表明它们与最先进的网络具有竞争力。

The Reversible Residual Network: Backpropagation Without Storing Activations【2017】

论文地址[1707.04585] The Reversible Residual Network: Backpropagation Without Storing Activations (arxiv.org)

摘要:深度残差网络(ResNets)极大地推动了最先进的图像分类技术,随着网络的深入和扩大,性能也在不断提高。然而,内存消耗成为一个瓶颈,因为我们需要存储激活,以便使用反向传播计算梯度。我们提出了可逆残差网络(RevNet),它是ResNets的一个变种,其中每一层的激活都可以准确地从下一层的激活中重构出来。因此,在反向传播过程中,大多数层的激活不需要存储在内存中。我们在CIFAR-10、CIFAR-100和ImageNet上证明了RevNets的有效性,建立了与同等大小的ResNets几乎相同的分类精度,尽管激活存储要求与深度无关。

NICE: Non-linear Independent Components Estimation【2014】

论文地址:[1410.8516] NICE: Non-linear Independent Components Estimation (arxiv.org)

摘要:我们提出了一个对复杂的高维密度进行建模的深度学习框架,称为非线性独立成分估计(NICE)。它是基于这样的想法:一个好的表征是数据有一个容易建模的分布。为此,我们学习了数据的非线性确定性转换,将其映射到一个潜在的空间,以使转换后的数据符合因子化分布,即产生独立的潜在变量。我们对这种转换进行了参数化处理,以便计算雅各布行列式和反转换是微不足道的,但我们保持了学习复杂的非线性转换的能力,通过一个简单的构件组成,每个构件都基于一个深度神经网络。训练标准是简单的精确对数似然,这是可行的。无偏的祖先采样也很容易。我们表明,这种方法在四个图像数据集上产生了良好的生成模型,并可用于画图。

A Proposal on Machine Learning via Dynamical Systems【2017】

论文地址A Proposal on Machine Learning via Dynamical Systems | SpringerLink

摘要:我们讨论了使用连续动力系统为机器学习中使用的一般高维非线性函数建模的想法。我们还讨论了与深度学习的联系。

The Mathematical Theory of Optimal Processes【1965】

论文地址The Mathematical Theory of Optimal Processes | Semantic Scholar

摘要

Deep Learning Theory Review: An Optimal Control and Dynamical Systems Perspective【2019】

论文地址[1908.10920] Deep Learning Theory Review: An Optimal Control and Dynamical Systems Perspective (arxiv.org)

摘要:近年来,来自不同学科的对深度学习的基本理解的尝试进展迅速,然而统一的框架仍然相对有限。在这篇文章中,我们提供了一种可能的方式,通过动态系统和最优控制的视角来统一深度学习理论的现有分支。通过将深度神经网络视为离散时间非线性动力系统,我们可以用均值场理论分析信息如何在各层传播。当优化算法被进一步重塑为控制器时,训练过程的最终目标可以被表述为一个最优控制问题。此外,我们可以通过研究优化算法的随机动态来揭示收敛性和泛化特性。这个观点的特点是,从信息瓶颈到统计物理学的理论研究范围很广。它还为引入最优控制理论时的超参数调整提供了一个原则性的方法。我们的框架很适合监督学习,并且可以不费吹灰之力扩展到其他学习问题,如贝叶斯学习、对抗性训练和特定形式的元学习。该评论旨在阐明在发展深度学习理论时,动力学和最优控制的重要性。

Deep Limits of Residual Neural Networks【2018】

论文地址[1810.11741v1] Deep Limits of Residual Neural Networks (arxiv.org)

摘要:神经网络在许多应用中都非常成功,但是我们往往对神经网络实际学习的内容缺乏理论上的了解。这个问题在试图推广到新的数据集时出现了。本文的贡献是表明,对于残差神经网络模型,深层极限与非线性常微分方程的参数估计问题相吻合。特别是,虽然已知残余神经网络模型是一个常微分方程的离散化,但我们显示了变分意义上的收敛。这意味着最佳参数在深层极限中收敛。这比说对于一个固定的参数,残余神经网络模型收敛更有力(后者一般并不意味着前者)。

Forward Stability of ResNet and Its Variants【2018】

论文地址[1811.09885] Forward Stability of ResNet and Its Variants (arxiv.org)

摘要:残差神经网络(ResNet)是一种流行的深度网络结构,它有能力在一些图像处理问题上获得高精确度的结果。为了分析ResNet的行为和结构,最近的工作是在ResNets和连续时间最优控制问题之间建立联系。在这项工作中,我们表明后激活的ResNet与具有微分包容的最优控制问题有关,并为与ResNet相关的微分包容提供连续时间稳定性结果。在稳定性条件的激励下,我们表明结构或优化问题的改变可以产生ResNet的变体,从而提高理论上的稳定性界限。此外,我们还建立了与ResNet的两个变体相关的完整(离散)网络的稳定性界限,特别是特征的增长界限和特征对扰动的敏感性的衡量。这些结果也有助于显示深度、正则化和特征空间的稳定性之间的关系。对所提出的变体进行的计算实验表明,ResNet的精度得到了保留,而且精度似乎与深度和各种扰动有关是单调的。

Spatially Adaptive Computation Time for Residual Networks【2017】

论文地址(PDF) Spatially Adaptive Computation Time for Residual Networks (researchgate.net)

摘要:本文提出了一个基于残差网络的深度学习架构,它可以动态地调整图像区域的执行层数量。这个架构是端到端的可训练性、确定性和问题诊断性的。因此,它无需任何修改即可适用于广泛的计算机视觉问题,如图像分类、物体检测和图像分割。我们提出的实验结果表明,在具有挑战性的ImageNet分类和COCO物体检测数据集上,该模型提高了剩余网络的计算效率。此外,我们在视觉显著性数据集cat2000上评估了计算时间图,发现它们与人眼的固定位置有惊人的相关性。

Identity Mappings in Deep Residual Networks【2016】

论文地址[1603.05027] Identity Mappings in Deep Residual Networks (arxiv.org)

摘要:深度残差网络已经成为一个极深的架构系列,显示出令人信服的准确性和良好的收敛行为。在本文中,我们分析了残差构建块背后的传播公式,这表明当使用身份映射作为跳过连接和后加激活时,前向和后向信号可以直接从一个块传播到任何其他块。一系列的消融实验支持了这些身份映射的重要性。这促使我们提出了一个新的残差单元,它使训练更容易,并提高了泛化能力。我们报告了在CIFAR-10(4.62%的误差)和CIFAR-100上使用1001层的ResNet以及在ImageNet上使用200层的ResNet的改进结果。

Auto-Encoding Variational Bayes【VAE:2013】

论文地址[1312.6114] Auto-Encoding Variational Bayes (arxiv.org)

摘要:在存在具有难以处理的后验分布的连续潜变量和大数据集的情况下,我们如何才能在有向概率模型中进行有效的推理和学习?我们介绍了一种随机变异推理和学习算法,该算法可以扩展到大数据集,并且在一些温和的可分性条件下,甚至可以在难以解决的情况下发挥作用。我们的贡献是双重的。首先,我们表明,变异下限的重新参数化产生了一个下限估计器,可以使用标准的随机梯度方法直接优化。其次,我们表明,对于每个数据点具有连续潜变量的i.i.d.数据集,通过使用拟议的下限估计器对难以处理的后验进行近似推理模型(也称为识别模型),可以使后验推理特别有效。理论上的优势体现在实验结果中。

ImageNet classification with deep convolutional neural networks【AlexNet:2017】

论文地址ImageNet classification with deep convolutional neural networks | Communications of the ACM

摘要:我们训练了一个大型的深度卷积神经网络,将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分类到1000个不同的类别。在测试数据上,我们取得了前1名和前5名的错误率,分别为37.5%和17.0%,这大大优于之前的最先进水平。该神经网络有6000万个参数和65万个神经元,由5个卷积层组成,其中一些是最大集合层,还有3个全连接层,最后是1000路softmax。为了使训练更快,我们使用了非饱和神经元和一个非常高效的GPU实现卷积操作。为了减少全连接层的过拟合,我们采用了最近开发的名为 "dropout "的正则化方法,该方法被证明是非常有效的。我们还将这个模型的一个变体参加了ILSVRC-2012比赛,并取得了15.3%的前五名测试错误率,而第二名的错误率为26.2%。

A Theoretical Framework for Back-Propagation【2001】

论文地址(PDF) A Theoretical Framework for Back-Propagation (researchgate.net)

摘要

 

Handwritten digit recognition with a back-propagation network【LeNet:1989】

论文地址Handwritten digit recognition with a back-propagation network | Proceedings of the 2nd International Conference on Neural Information Processing Systems (acm.org)

摘要:我们介绍了反向传播网络在手写数字识别中的应用。需要对数据进行最少的预处理,但网络的结构是高度受限的,并且是专门为该任务设计的。网络的输入由孤立的数字的归一化图像组成。该方法对美国邮政局提供的邮政编码数字的错误率为1%,拒绝率约为9%。

Maximum Principle Based Algorithms for Deep Learning【2017】

论文地址[1710.09513] Maximum Principle Based Algorithms for Deep Learning (arxiv.org)

摘要:探讨了深度学习的连续动力系统方法,以便为训练算法设计替代框架。训练被重塑为一个控制问题,这使我们能够使用庞特里亚金的最大原则(PMP)在连续时间内制定必要的优化条件。然后,对逐次逼近法的修改被用来解决PMP,从而产生了一种用于深度学习的替代训练算法。这种方法的优点是可以建立严格的误差估计和收敛结果。我们还表明,它可以避免基于梯度的方法的一些缺陷,例如在鞍点附近的平坦地貌上收敛缓慢。此外,我们还证明,只要能有效地进行哈密顿最大化,它就能在每次迭代中获得有利的初始收敛率--这一步仍然需要改进。总的来说,该方法为解决与深度学习相关的问题开辟了新的途径,如慢流形中的陷阱和基于梯度的方法对离散可训练变量的不适用性。

An Optimal Control Approach to Deep Learning and Applications to Discrete-Weight Neural Networks【2018】

论文地址[1803.01299] An Optimal Control Approach to Deep Learning and Applications to Discrete-Weight Neural Networks (arxiv.org)

摘要:深度学习被表述为一个离散时间最优控制问题。这使得人们能够确定优化的必要条件,并开发出不依赖可训练参数梯度的训练算法。特别是,我们引入了离散时间逐次逼近法(MSA),该方法基于庞特里亚金的最大原则,用于训练神经网络。我们得到了离散MSA的严格的误差估计,这揭示了它的动态和稳定算法的方法。所开发的方法以一种相当有原则的方式被应用于训练具有权重的神经网络,这些权重被限制在一个离散的集合中取值。我们获得了有竞争力的性能,有趣的是,在三元网络的情况下,权重非常稀疏,这可能有助于在低内存设备中部署模型。

Network In Network【2013】

论文地址[1312.4400] Network In Network (arxiv.org)

摘要:我们提出了一种新的深度网络结构,称为 "网络中的网络"(NIN),以提高模型对感受野内局部斑块的可辨别性。传统的卷积层使用线性滤波器,然后使用非线性激活函数来扫描输入。相反,我们建立了具有更复杂结构的微神经网络,以抽象出感受野内的数据。我们用多层感知器来实例化微神经网络,它是一个有效的函数近似器。特征图是通过在输入上滑动微网络获得的,其方式与CNN类似;然后将其送入下一层。深度NIN可以通过堆叠上述结构中的多个来实现。通过微网络加强局部建模,我们能够在分类层中利用全局平均池化的特征图,这比传统的全连接层更容易解释,也更不容易过拟合。我们在CIFAR-10和CIFAR-100上用NIN证明了最先进的分类性能,在SVHN和MNIST数据集上也有合理的表现。

Normalizing Flows for Probabilistic Modeling and Inference【2019】

论文地址[1912.02762] Normalizing Flows for Probabilistic Modeling and Inference (arxiv.org)

摘要:归一化流为定义富有表现力的概率分布提供了一种通用机制,只需要指定一个(通常是简单的)基数分布和一系列的偏向变换。最近有很多关于归一化流的工作,从提高其表达能力到扩大其应用范围。我们认为这个领域现在已经成熟了,需要一个统一的视角。在这篇评论中,我们试图通过概率建模和推理的视角来描述流量,从而提供这样一个视角。我们特别强调流程设计的基本原则,并讨论了基础性的话题,如表达能力和计算权衡。我们还通过将它们与更普遍的概率转换联系起来,扩大了流量的概念框架。最后,我们总结了流在生成建模、近似推理和监督学习等任务中的应用。

Gradient calculations for dynamic recurrent neural networks: a survey【1995】

论文地址Gradient calculations for dynamic recurrent neural networks: a survey | IEEE Journals & Magazine | IEEE Xplore

摘要:调查了具有隐藏单元的递归神经网络的学习算法,并将各种技术纳入一个共同的框架。作者讨论了固定点学习算法,即循环反向传播和确定性玻尔兹曼机,以及非固定点算法,即通过时间的反向传播、Elman的历史截止点和Jordan的输出反馈结构。还讨论了前向传播,一种使用邻接方程的在线技术,以及其变化。在许多情况下,统一的介绍导致了各种类型的概括。作者讨论了时间上连续的神经网络与时钟上的神经网络的优缺点,并继续讨论了一些训练、使用和模拟连续时间和递归神经网络的 "交易技巧"。作者提出了一些模拟,并在最后讨论了计算复杂性和学习速度的问题。

Stochastic Backpropagation and Approximate Inference in Deep Generative Models【2014】

论文地址[1401.4082v2] Stochastic Backpropagation and Approximate Inference in Deep Generative Models (arxiv.org)

摘要:我们将深度神经网络和近似贝叶斯推理的思想结合起来,推导出一类广义的深度、定向生成模型,并赋予其可扩展推理和学习的新算法。我们的算法引入了一个识别模型来表示近似的后验分布,并作为数据的随机编码器。我们开发了随机反向传播--通过随机变量的反向传播规则--并利用它开发了一种算法,允许生成模型和识别模型的参数联合优化。我们在几个真实世界的数据集上证明了该模型产生了真实的样本,提供了准确的缺失数据的归属,是一个有用的高维数据可视化工具。

Very Deep Convolutional Networks for Large-Scale Image Recognition【VGGNet:2015】

论文地址[1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition (arxiv.org)

摘要:在这项工作中,我们研究了卷积网络深度对其在大规模图像识别环境中的准确性的影响。我们的主要贡献是使用一个具有非常小的(3x3)卷积滤波器的架构对不断增加深度的网络进行了彻底的评估,这表明通过将深度推到16-19个权重层可以实现对先有技术配置的显著改进。这些发现是我们提交ImageNet挑战赛2014的基础,我们的团队分别在定位和分类赛道上获得了第一和第二名。我们还表明,我们的表征在其他数据集上有很好的通用性,它们在那里取得了最先进的结果。我们公开了两个表现最好的ConvNet模型,以促进在计算机视觉中使用深度视觉表示的进一步研究。

Going Deeper with Convolutions【2014】

论文地址[1409.4842] Going Deeper with Convolutions (arxiv.org)

摘要:我们提出了一个代号为 "Inception "的深度卷积神经网络架构,它负责在2014年ImageNet大规模视觉识别挑战赛(ILSVRC 2014)中设定了分类和检测的新技术状态。该架构的主要标志是提高了网络内部计算资源的利用率。这是通过精心设计实现的,允许增加网络的深度和宽度,同时保持计算预算不变。为了优化质量,架构的决定是基于Hebbian原则和多尺度处理的直觉。在我们提交给ILSVRC 2014的文件中使用的一个特殊的化身被称为GoogLeNet,这是一个22层的深度网络,其质量是在分类和检测的背景下评估的。

Recurrent Neural Network Regularization【RNN:2014】

论文地址[1409.2329] Recurrent Neural Network Regularization (arxiv.org)

摘要:我们为具有长短期记忆(LSTM)单元的循环神经网络(RNN)提出了一种简单的正则化技术。Dropout是最成功的神经网络正则化技术,但对RNN和LSTM的效果并不好。在本文中,我们展示了如何将dropout正确地应用于LSTM,并表明它大大减少了各种任务的过拟合。这些任务包括语言建模、语音识别、图像标题生成和机器翻译。

You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle【YOLO:2019】

论文地址[1905.00877] You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle (arxiv.org)

摘要:深度学习在计算机视觉和自然语言处理的许多任务中取得了最先进的成果。然而,最近的工作表明,深度网络可能会受到对抗性扰动的影响,这就提出了深度网络的严重鲁棒性问题。对抗性训练,通常被表述为一个鲁棒性的优化问题,是提高深度网络鲁棒性的有效途径。现有对抗性训练算法的一个主要缺点是生成对抗性例子的计算开销,通常远远大于网络训练的开销。这导致了对抗性训练的整体计算成本难以承受。在本文中,我们表明对抗性训练可以被投射为一个离散时间的差分游戏。通过分析该问题的庞特里亚金最大原则(PMP),我们观察到对抗者的更新只与网络第一层的参数相联系。这促使我们在对抗者更新期间限制了网络第一层内的大部分前向和后向传播。这就有效地减少了完全的前向和后向传播的总数,每组对抗者更新只有一次。因此,我们将这种算法称为YOPO(You Only Propagate Once)。数值实验表明,YOPO可以用投影梯度下降(PGD)算法的大约1/5~1/4的GPU时间实现相当的防御精度。我们的代码可在https://https://github.com/a1600012888/YOPO-You-Only-Propagate-Once。

Monge-Ampère Flow for Generative Modeling【2018】

论文地址[1809.10188] Monge-Ampère Flow for Generative Modeling (arxiv.org)

摘要:我们提出了一个深度生成模型,名为Monge-Ampère流,它建立在最优运输理论中的Monge-Ampère方程所产生的连续时间梯度流之上。从潜伏空间到数据空间的生成图遵循一个动态系统,其中一个可学习的势函数引导可压缩流体流向目标密度分布。模型的训练相当于解决了一个最佳控制问题。Monge-Ampère流具有可操作的似然性,支持有效的采样和推理。通过设计合适的标量势能函数,人们可以很容易地在生成模型中施加对称性约束。我们将该方法应用于MNIST数据集的无监督密度估计和临界点的二维Ising模型的变异计算。这种方法将蒙哥-安培尔方程、最优传输和流体动力学的见解和技术带入基于可逆流的生成模型。

【未完-------】

posted @ 2022-08-30 18:06  Si_wuxie  阅读(371)  评论(0编辑  收藏  举报