04 2019 档案
摘要:1. 摘要 BN 是一个广泛应用的用于快速稳定地训练深度神经网络的技术,但是我们对其有效性的真正原因仍然所知甚少。 输入分布的稳定性和 BN 的成功之间关系很小,BN 对训练过程更根本的影响是:它让优化更加平滑。这种平滑让梯度更加可预测更加稳定,从而加速训练。 2. BN 和 internal co
阅读全文
摘要:1. 摘要 传统的 L 层神经网络只有 L 个连接,DenseNet 的结构则有 L(L+1)/2 个连接,每一层都和前面的所有层进行连接,所以称之为密集连接的网络。 针对每一层网络,其前面所有层的特征图被当作它的输入,这一层的输出则作为其后面所有层的输入。 DenseNet 有许多优点:消除了梯度
阅读全文
摘要:持续了将近两个月的 2019 春季实习生招聘总算是告了一个段落,虽说去年入学时便已知道找工作就在眼前,但当它真正到来的时候,自己依然是措手不及。好在历经坎坷,结果总归是好的,希望接下来的实习收获满满。 1. 前言 春节假期还没有结束,一些公司的实习生招聘已然开始。等我来到学校,完善简历,大致过了一遍
阅读全文
摘要:1. 题目 2. 解答 初始化 sum=0,然后遍历数组进行累加。如果 sum 变为负数,也就说再继续累加的话贡献为负,我们需要更新 sum=0,重新开始累加。 初始化 max_sum 为数组的第一个元素,之所以不初始化为零,就是防止出现数组中全为负数的情况,比如 [ 2, 1, 3, 4, 5]。
阅读全文
摘要:小森在公交站等车,有三路公交车均可乘坐到达目的地。A 公交车到站的时间为 0 到 10 分钟内的任一时间点,且服从 [0, 10] 的均匀分布。同样地,B 公交车到站的时间为 0 到 20 分钟内的任一时间点,C 公交车到站的时间为 0 到 30 分钟内的任一时间点。求问小森的平均等车时间? 1.
阅读全文
摘要:1. 摘要 更深的神经网络通常更难训练,作者提出了一个残差学习的框架,使得比过去深许多的的网络训连起来也很容易。 在 ImageNet 数据集上,作者设计的网络达到了 152 层,是 VGG 19 的 8 倍,但却有着更低的复杂性。通过集成学习模型最终取得了 3.57% 的错误率,获得了 ILSVR
阅读全文
摘要:1. 摘要 作者提出了一个代号为 Inception 的卷积神经网络架构,这也是作者在 2014 年 ImageNet 大规模视觉识别挑战赛中用于分类和检测的新技术。 通过精心的设计,该架构提高了网络内计算资源的利用率,因而允许在增加网络的深度和宽度的同时保持计算预算不变。 在作者提交的 ILSVR
阅读全文
摘要:1. 摘要 在使用非常小(3×3)的卷积核情况下,作者对逐渐增加网络的深度进行了全面的评估,通过设置网络层数达 16 19 层,最终效果取得了显著提升。 2. 介绍 近来,卷积神经网络在大规模图像识别领域取得了巨大的成功,这一方面归功于大规模公开数据的出现,另一方面则是计算能力的提升。在 AlexN
阅读全文
摘要:1. 摘要 ReLU 相比 Tanh 能产生相同或者更好的性能,而且能产生真零的稀疏表示,非常适合自然就稀疏的数据。 采用 ReLU 后,在大量的有标签数据下,有没有无监督预训练模型取得的最好效果是一样的,这可以被看做是训练深层有监督网络的一个新的里程碑。 2. 背景 2.1. 神经元科学的观察 对
阅读全文
摘要:1. 摘要 本文尝试解释为什么在深度的神经网络中随机初始化会让梯度下降表现很差,并且在此基础上来帮助设计更好的算法。 作者发现 sigmoid 函数不适合深度网络,在这种情况下,随机初始化参数会让较深的隐藏层陷入到饱和区域。 作者提出了一个新的参数初始化方法,称之为 Xavier 初始化,来帮助深度
阅读全文
摘要:1. 摘要 本文的模型采用了 5 层的卷积,一些层后面还紧跟着最大池化层,和 3 层的全连接,最后是一个 1000 维的 softmax 来进行分类。 为了减少过拟合,在全连接层采取了 dropout,实验结果证明非常有效。 2. 数据集 ImageNet 数据集包含了超过 15,000,000 大
阅读全文
摘要:1. 摘要 在 ReLU 的基础上作者提出了 PReLU,在几乎没有增加额外参数的前提下既可以提升模型的拟合能力,又能减小过拟合风险。 针对 ReLU/PReLU 的矫正非线性,作者设计了一个鲁棒的的参数初始化方法。 2. 介绍 在过去几年,随着更强大网络模型的构建和有效防止过拟合策略的
阅读全文