随笔分类 -  深度学习 / 动手学深度学习 / 现代卷积神经网络

摘要:\((6)\) 其实BatchNorm1d,BatchNorm2d和BatchNorm3d的用法都是一样的,参数都只用传一个(即特征维度,手动实现的BatchNorm的num_features);对于手动实现的BatchNorm的初始化参数num_dims,是由1d,2d和3d来区分的 LazyBa 阅读全文
posted @ 2025-03-13 21:24 最爱丁珰 阅读(17) 评论(0) 推荐(0)
摘要:Batch Norm就可以在一定程度上解决协变量偏移问题,其通过将每一层的\(\text{z}^{[l]}\)标准化,可以大概固定\(\text{z}^{[l]}\),无论输入是怎么样的。也就是说,这样子在一定程度上让各层的输入数据是独立的(输入数据都可以看做时来自均值为\(0\)方差为\(1\)的 阅读全文
posted @ 2025-03-10 22:18 最爱丁珰 阅读(26) 评论(0) 推荐(0)
摘要:书上对残差网络的理解讲的有一点不清楚,解释一下。实际上,残差网络真正想干的事是通过在原网络上加入层/块(这就让原网络变得更深),而不改变原来的网络能够学习到的函数,以图\(7-8\)为例(这个图\(7-8\)画的是VGG的架构,与其下面的代码是相符合的,当然还有其他各种各样的残差块) 这两张图片中的 阅读全文
posted @ 2025-02-28 09:31 最爱丁珰 阅读(80) 评论(0) 推荐(0)
摘要:当网络很深的时候会出现下面的问题 梯度消失是一般情况,所以上面讨论的是梯度消失的情况(每一层的梯度都很小,很多个很小的数相乘就会导致底部的层梯度比上面的层的梯度小);梯度爆炸是另外一回事 之所以会导致上面这种情况是因为不同层之间数据分布是有差别的。所以一个简单的想法就是我给数据的分布固定住 之所以不 阅读全文
posted @ 2025-02-28 08:49 最爱丁珰 阅读(36) 评论(0) 推荐(0)
摘要:白色的\(1\times 1\)卷积层是用来降低通道数的,蓝色的卷积层是用来学习特征的 大致解释一下这些数字是怎么分配的。现在我们的通道数是\(192\),于是我们假设最后输出的通道数是\(256\);考虑这些通道如何分配:我们知道\(3\times 3\)的卷积层性质很好(参数不算太多,学习能力也 阅读全文
posted @ 2025-02-27 22:43 最爱丁珰 阅读(32) 评论(0) 推荐(0)
摘要:本质和主要改进见下 因为模型更大了,所以要用丢弃法做正则;\(\text{ReLu}\)则比\(\text{Sigmoid}\)更能支撑更深的网络(解决了梯度消失);最大汇聚层则让输出更大,梯度更大,训练更容易 还有一些主要区别如下 步长也很大的原因也是当时的算力其实不是很够 池化层更大了就允许像素 阅读全文
posted @ 2025-02-27 20:27 最爱丁珰 阅读(22) 评论(0) 推荐(0)
摘要:可以发现\(\text{AlexNet}\)和VGG最后面的网络都是全连接层,但是有如下问题 基本上所有参数都集中在最后的全连接层(这样导致计算慢内存大还很容易过拟合,比如我们期望三层全连接层学习完所有特征,但是一层就把所有特征学习完了) 所以我们要替换掉最后的全连接层。我们可以使用\(1\time 阅读全文
posted @ 2025-02-21 09:08 最爱丁珰 阅读(31) 评论(0) 推荐(0)
摘要:\(\text{AlexNet}\)最大的问题就是加的层很随意,这里加一点那里加一点,结构就不清晰,也就是说我们还不能够很好的回答“如何更深更大”这一个问题 考虑一下这个问题如何回答。想一下我们可能的选项如下 于是VGG就采用了最后一个选项 那么为什么不用\(5\times 5\)的卷积层呢?实际上 阅读全文
posted @ 2025-02-21 08:33 最爱丁珰 阅读(92) 评论(0) 推荐(0)
摘要:在训练AlexNet时使用更小的学习率,主要原因可以从以下角度结合具体例子理解: 1. 网络更深更广,梯度传递更敏感 LeNet:仅有5层(2卷积+3全连接),参数少,梯度反向传播时链式法则的连乘次数少,梯度幅度相对稳定。 AlexNet:8层(5卷积+3全连接),参数数量大幅增加(如第一个全连接层 阅读全文
posted @ 2025-02-21 08:25 最爱丁珰 阅读(41) 评论(0) 推荐(0)